Anda di halaman 1dari 17

MAKALAH

DATA MINING

Oleh:

GUSRIADI (14615057)

MUHAMMAD TAUFIQ SUMADI (14615075)

RIZAL AL AZIZ (14615078)

KEMENTERIAN RISET TEKNOLOGI DAN PENDIDIKAN TINGGI

POLITEKNIK NEGERI SAMARINDA

JURUSAN TEKNOLOGI INFORMASI

PROGRAM STUDI TEKNIK INFORMATIKA

SAMARINDA 2016
DAFTAR ISI

Hal
DAFTAR ISI...........................................................................................................I
1. PENDAHULUAN..........................................................................................1
1.1 Latar Belakang...............................................................................1
1.2 Rumusan Masalah..........................................................................1
1.3 Tujuan Penelitian...........................................................................2
2. PEMBAHASAN.............................................................................................5
2.1 Pengertian Data Mining.................................................................5
2.2 Tahap-Tahap Data Mining.............................................................5
2.3 Teknik Data Mining.......................................................................8
2.4 Metode Data Mining....................................................................12
3. PENUTUP.....................................................................................................14
3.1 Kesimpulan..................................................................................14
3.2 Saran.............................................................................................14
DAFTAR PUSTAKA...........................................................................................16

i
ii
1. PENDAHULUAN

BAB I

PENDAHULUAN

1.1 Latar Belakang

Penyimpanan dokumen secara digital berkembang dengan pesat seiring

meningkatnya penggunaan komputer. Kondisi tersebut memunculkan masalah untuk

mengakses informasi yang diinginkan secara akurat dan cepat. Oleh karena itu,

walaupun sebagian besar dokumen digital tersimpan dalam bentuk teks dan berbagai

algoritma yang efisien untuk pencarian teks telah dikembangkan, teknik pencarian

terhadap seluruh isi dokumen yang tersimpan bukanlah solusi yang tepat mengingat

pertumbuhan ukuran data yang tersimpan umumnya.

Pencarian informasi (Information Retrieval) adalah salah satu cabang ilmu yang

menangani masalah ini yang bertujuan untuk membantu pengguna dalam menemukan

informasi yang relevan dengan kebutuhan mereka dalam waktu singkat. Aplikasi

pencarian informasi yang telah ada salah satunya adalah web mining untuk pencarian

berdasarkan kata kunci dengan teknik clustering. Selain itu, pada dokumen dilakukan

juga text mining dan perhitungan jumlah kata, dari jumlah kata tersebut dilakukan

pengklusteran untuk jumlah klusternya, pemakai tidak mengetahui berapa jumlah yang

tepat untuk mengklusterkan dokumen-dokumen tersebut.

1.2 Rumusan Masalah

1. Apa yang dimaksud dengan Data Mining ?

2. Apa fungsi dan tujuan dari Data Mining ?

3. Bagaimana klasifikasi teks dan metode yang bisa digunakan untuk klasifikasi

teks data mining?

1
2

1.3 Tujuan Penelitian

1. Memenuhi tugas mata kuliah topik khusus

2. Mengetahui lebih luas tentang Data Mining

3. Menambah pengetahuan
2. PEMBAHASAN

BAB II

PEMBAHASAN

2.1 Pengertian Data Mining

Data mining adalah suatu istilah yang digunakan untuk menemukan

pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi

otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan

machine learning untuk mengekstrasi dan menidentifikasi informasi pengetahuan

potensial dan berguna yang bermanfaat yang tersimpan di dalam database besar.

Data mining didefinisikan sebagai proses menemukan pola-pola dalam data.

Proses ini otomatis atau seringnya semiotomatis. Pola yang ditemukan harus penuh arti

dan pola tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi. Data

yang dibutuhkan dalam jumlah besar.

2.2 Tahap-Tahap Data Mining

5
6

Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa
tahap. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat langsung atau
dengan perantaraan knowledge base. Tahapan-tahapan tersebut, diantaranya :
1. Pembersihan data
Pada umumnya data yang diperoleh, baik dari database suatu perusahaan
maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang
hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga
atribut-atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki.
Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa
mengurangi mutu atau akurasi dari hasil data mining nantinya. Garbage in garbage
out (hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah)
merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan
data juga akan mempengaruhi performasi dari sistem data mining karena data yang
ditangani akan berkurang jumlah dan kompleksitasnya.

2. Integrasi data

Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-


entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dsb. Integrasi
data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa
menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi
nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata
menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi
antar produk yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu dilakukan
transformasi dan pembersihan data karena seringkali data dari dua database berbeda
tidak sama cara penulisannya atau bahkan data yang ada di satu database ternyata
tidak ada di database lainnya.

3. Transformasi data
7

Beberapa teknik data mining membutuhkan format data yang khusus sebelum

bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi

dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa

angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini

sering disebut binning. Disini juga dilakukan pemilihan data yang diperlukan oleh

teknik data mining yang dipakai. Transformasi dan pemilihan data ini juga

menentukan kualitas dari hasil data mining nantinya karena ada beberapa

karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahapan ini.

4. Aplikasi teknik data mining

Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari
proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai. Kita
akan membahas lebih jauh mengenai teknik-teknik yang ada di seksi berikutnya.
Perlu diperhatikan bahwa ada kalanya teknik-teknik data mining umum yang tersedia
di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau
untuk data tertentu. Sebagai contoh akhir-akhir ini dikembangkan berbagai teknik
data mining baru untuk penerapan di bidang bioinformatika seperti analisa hasil
microarray untuk mengidentifikasi DNA dan fungsi-fungsinya.

5. Evaluasi pola yang ditemukan

Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas
maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang
tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa
alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk
memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai,
atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin
bermanfaat.

6. Presentasi pola yang ditemukan untuk menghasilkan aksi

Tahap terakhir dari proses data mining adalah bagaimana memformulasikan


keputusan atau aksi dari hasil analisa yang didapat. Ada kalanya hal ini harus
melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi
8

hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah
satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini,
visualisasi juga bisa membantu mengkomunikasikan hasil data mining.

2.3 Teknik Data Mining


1. Classification

Classification adalah tindakan untuk memberikan kelompok pada setiap


keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class
attribute. Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan
class attribute itu sebagai fungsi dari input attribute.
Contohnya kita lihat pada contoh kasus College Plan

Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No,
perhatikan ini. Sebuah Classification Model akan menggunakan atribut lain dari kasus
tersebut (input attribut; yaitu kolom IQ, Gender, ParentIncome, dan
ParentEncouragement) untuk dapat menentukan pola (pattern) class (Output
Attribute; yaitu Kolom CollegePlans yang berisi Yes atau No). Algoritma Data
Mining yang membutuhkan variabel target untuk belajar (sampai mendapatkan rule /
pola yang berlaku pada data tersebut) kita standarkan dengan sebutan dengan
Supervised Algorithm. Yang termasuk kepada Classification Algorithm adalah
Decision Trees, Neural Network dan Naives Bayes.
9

2. Clustering

Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk


mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah
kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut. Gambar
ini menunjukkan kelompok data pelanggan sederhana yang berisi dua atribut, yaitu
Age (Umur) dan Income (Pendapatan). Algoritma Clustering mengelompokkan
kelompok data kedalam tiga segment berdasarkan kedua atribut ini.
 Cluster 1 berisi populasi berusia muda dengan pendapatan rendah

 Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi

 Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.

Clustering adalah metode data mining yang Unsupervised, karena tidak ada satu
atributpun yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut
input diperlakukan sama. Kebanyakan Algoritma Clustering membangun sebuah
model melalui serangkaian pengulangan dan berhenti ketika model tersebut telah
memusat atau berkumpul (batasan dari segmentasi ini telah stabil).

3. Association
10

Association juga disebut sebagai Market Basket Analysis. Sebuah problem


bisnis yang khas adalah menganalisa tabel transaksi penjualan dang mengidentifikasi
produk-produk yang seringkali dibeli bersamaan oleh customer, misalnya apabila
orang membeli sambal, biasanya juga dia membeli kecap. Kesamaan yang ada dari
data pembelian digunakan untuk mengidentifikasi kelompok kesamaan dari produk
dan kebiasaan apa yang terjadi guna kepentingan cross-selling seperti gambar
dibawah ini.
Beberapa hal dapat kita baca, misalnya :
 Ketika orang membeli susu, dia biasanya membeli keju

 Ketika orang membeli pepsi atau coke, biasanya dia membeli juice

Di dalam istilah association, setiap item dipertimbangkan sebagai informasi.


Metode association memiliki dua tujuan:
 Untuk mencari produk apa yang biasanya terjual bersamaan

 Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut.

4. Regression

Metode Regression mirip dengan metode Classification, yang membedakannya


adalah metode regression tidak bisa mencari pola yang dijabarkan sebagai class
(kelas). Metoda regression bertujuan untuk mecari pola dan menentukan sebuah nilai
numerik.
Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari
Regression, dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang
berdasarkan nilai dari input. Bentuk yang lebih canggih dari regression sudah
mendukung input berupa kategori, jadi tidak hanya input berupa numerik. Teknik
paling popular yang digunakan untuk regression adalah linear regression dan logistic
regression. Teknik lain yang didukung oleh SQL Server Data mining adalah
Regression Trees (bagian dari dari algoritma Microsoft Decission Trees) dan Neural
Network.
Regression digunakan untuk memecahkan banyak problem bisnis, contohnya
untuk memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk
memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan
kelembaban.
11

5. Forecasting

Forecasting adalah metode data mining yang sangat penting. Contohnya


digunakan untuk menjawab pertanyaan seperti berikut:
 Seperti apa jadinya nilai saham dari Microsoft Corporation (pada NASDAQ,

disimbolkan sebagai MSFT) pada keesokan hari?

 Sebanyak apa penjualan produk tertentu pada bulan depan?

Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas.


Sebagai inputnya teknik Forecasting akan mengambil sederetan angka yang
menunjukkan nilai yang berjalan seiring waktu dan kemudian Teknik Forecasting ini
akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam
teknik machine-learning dan teknik statistik yang berhubungan dengan musim, trend,
dan noise pada data.
Gambar diatas menunjukkan dua kurva, garis yang tegas adalah time-series data
sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series
model yang memprediksi nilai saham berdasarkan nilai saham pada masa lalu.

6. Sequence Analysis

Sequence Anlysis digunakan untuk mencari pola pada serangkaian kejadian


yang disebut dengan Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian
bagian: A, G, C, dan T. dan rangkaian klik pada sebuah website berisi rentetan URL.
Pada kejadian nyata anda mungkin memodelkan pembelian oleh pelanggan sebagai
sebuah sequence (rangkaian) data, rangkaian tersebut adalah:
 Pertama-tama Seorang pelanggan membeli komputer

 kemudian membeli speaker


12

 dan akhirnya membeli sebuah webcam.

Baik Sequence maupun time-series data mempunyai kemiripan, mereka sama


sama berisi tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah
time-series berisi data bertipe numerik, dan sebuah sequence series berisi bagian yang
khas.
Gambar ini menunjukan rangkaian klik pada sebuah website berita. Setiap node
adalah sebuah kategori URL. Dan garis melambangkan transisi antar kategori URL
tersebut. Setiap transisi di kelompokan dengan sebuah bobot yang menggambarkan
kemungkinan transisi antara satu URL dan URL yang lain.

2.4 Metode Data Mining

Banyak teknik dan metode yang ada untuk melakukan berbagai jenis tugas data

mining. Metode inidikelompokkan dalam 3 paradigma utama data mining :

1. Predictive Modeling

Aplikasi Predictive Modeling menghasilkan klasifikasi atau prediksi. Tujuan

dari predictive modeling adalah menemukan pola yang melibatkan variabel untuk memprediksi

dan mengklasifikasi perilakumasa depan dari sebuah entitas. Ada dua tipe masalah yang

diselesaikan oleh predictive modeling:klasifikasi dan regresi.

 Klasifikasi melibatkan model pembelajaran yang memetakan (atau

mengklasifikasi) data contoh kedalam satu atau beberapa kelas yang telah

didefinisikan. Sebagai contoh, bank dapat menggunakan skema klasifikasi

untuk menetukan pengajuan pinjaman yang akan disetujui. Teknik

klasifikasimeliputi Naive Bayesian, neural networks, dan decision trees.


13

 Regresi melibatkan model yang memetakan data contoh ke prediksi real-valued.

Teknik regresimeliputi neural networks dan decision (atau regression) trees.

2. Discovery

Aplikasi discovery adalah pendekatan eksploratoris untuk analisis data. Aplikasi

discoverymenggunakan teknik yang menganalisis data set yang besar untuk menemukan

association rules(atau pola), atau menemukan kluster dari sampel yang dapat

dikelompokan. Hasil dari metode discoveryumumnya dimaksudkan untuk pengguna.

Walau begitu, hasilnya juga dapat diaplikasikan ke metodedata mining yang lain

3. Deviation Detection

Deviation Detection melakukan deteksi anomali secara otomatis. Tujuannya


untuk mengidentifikasikebiasaan suatu entitas dan menetapkan sejumlah norm melalui pattern
discovery. Sampel yang berdeviasi dari norm lalu diidentifikasi sebagai tidak biasa.
teknik Deviation Detection melaluivisualisasi melalui parallel coordinates,
scatterplots, dan surface plots.
3. PENUTUP

BAB III

PENUTUP

3.1 Kesimpulan

1. Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu

kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara

manual, juga diartikan sebagai analisa otomatis dari data yang berjumlah besar

atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang

penting yang biasanya tidak disadari keberadaannya

2. Disamping memiliki kemampuan, data mining juga memiliki keterbatasan yang

tidak bisa dilakukannya.

3. Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar

adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa

saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari

hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat.

Karenanya data mining seharusnya dipahami sebagai suatu proses, yang

memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan

ke tahapan sebelumnya.

3.2 Saran

Dalam penulisan makalah tentang data mining ini penulis menyadari masih

kurang sempurna, kedepannya penulis akan lebih fokus dan details dalam menjelaskan

tentang makalah di atas dengan sumber-sumber yang lebih banyak yang tentunya dapat

14
15

di pertanggung jawabkan, maka dari itu dibutuhkan kritik dan saran yang membangun

untuk penulisan makalah ini agar lebih baik kedepannya.


DAFTAR PUSTAKA

DAFTAR PUSTAKA

Falani, Zakki. “Konsep Data Mining.”


http://mfile.narotama.ac.id/files/Zakki%20Falani/Konsep%20Data%20Mining/
Konsep%20Data%20Mining.pdf (diakses tanggal 5 April 2017)

Aryuni, Mediana. “Tahap-Tahap Data Mining.” http://sis.binus.ac.id/2016/12/15/tahap-


tahap-data-mining/ (diakses tanggal 5 April 2017)

Syeban, Saleh. “Teknik & Metode Data Mining.”


https://www.scribd.com/doc/174986731/Teknik-Metode-Data-Mining (diakses tanggal
5 April 2017)

16

Anda mungkin juga menyukai