DATA MINING
Oleh:
GUSRIADI (14615057)
SAMARINDA 2016
DAFTAR ISI
Hal
DAFTAR ISI...........................................................................................................I
1. PENDAHULUAN..........................................................................................1
1.1 Latar Belakang...............................................................................1
1.2 Rumusan Masalah..........................................................................1
1.3 Tujuan Penelitian...........................................................................2
2. PEMBAHASAN.............................................................................................5
2.1 Pengertian Data Mining.................................................................5
2.2 Tahap-Tahap Data Mining.............................................................5
2.3 Teknik Data Mining.......................................................................8
2.4 Metode Data Mining....................................................................12
3. PENUTUP.....................................................................................................14
3.1 Kesimpulan..................................................................................14
3.2 Saran.............................................................................................14
DAFTAR PUSTAKA...........................................................................................16
i
ii
1. PENDAHULUAN
BAB I
PENDAHULUAN
mengakses informasi yang diinginkan secara akurat dan cepat. Oleh karena itu,
walaupun sebagian besar dokumen digital tersimpan dalam bentuk teks dan berbagai
algoritma yang efisien untuk pencarian teks telah dikembangkan, teknik pencarian
terhadap seluruh isi dokumen yang tersimpan bukanlah solusi yang tepat mengingat
Pencarian informasi (Information Retrieval) adalah salah satu cabang ilmu yang
menangani masalah ini yang bertujuan untuk membantu pengguna dalam menemukan
informasi yang relevan dengan kebutuhan mereka dalam waktu singkat. Aplikasi
pencarian informasi yang telah ada salah satunya adalah web mining untuk pencarian
berdasarkan kata kunci dengan teknik clustering. Selain itu, pada dokumen dilakukan
juga text mining dan perhitungan jumlah kata, dari jumlah kata tersebut dilakukan
pengklusteran untuk jumlah klusternya, pemakai tidak mengetahui berapa jumlah yang
3. Bagaimana klasifikasi teks dan metode yang bisa digunakan untuk klasifikasi
1
2
3. Menambah pengetahuan
2. PEMBAHASAN
BAB II
PEMBAHASAN
pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi
potensial dan berguna yang bermanfaat yang tersimpan di dalam database besar.
Proses ini otomatis atau seringnya semiotomatis. Pola yang ditemukan harus penuh arti
dan pola tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi. Data
5
6
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa
tahap. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat langsung atau
dengan perantaraan knowledge base. Tahapan-tahapan tersebut, diantaranya :
1. Pembersihan data
Pada umumnya data yang diperoleh, baik dari database suatu perusahaan
maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang
hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga
atribut-atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki.
Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa
mengurangi mutu atau akurasi dari hasil data mining nantinya. Garbage in garbage
out (hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah)
merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan
data juga akan mempengaruhi performasi dari sistem data mining karena data yang
ditangani akan berkurang jumlah dan kompleksitasnya.
2. Integrasi data
3. Transformasi data
7
Beberapa teknik data mining membutuhkan format data yang khusus sebelum
bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi
dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa
angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini
sering disebut binning. Disini juga dilakukan pemilihan data yang diperlukan oleh
teknik data mining yang dipakai. Transformasi dan pemilihan data ini juga
menentukan kualitas dari hasil data mining nantinya karena ada beberapa
karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahapan ini.
Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari
proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai. Kita
akan membahas lebih jauh mengenai teknik-teknik yang ada di seksi berikutnya.
Perlu diperhatikan bahwa ada kalanya teknik-teknik data mining umum yang tersedia
di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau
untuk data tertentu. Sebagai contoh akhir-akhir ini dikembangkan berbagai teknik
data mining baru untuk penerapan di bidang bioinformatika seperti analisa hasil
microarray untuk mengidentifikasi DNA dan fungsi-fungsinya.
Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas
maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang
tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa
alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk
memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai,
atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin
bermanfaat.
hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah
satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini,
visualisasi juga bisa membantu mengkomunikasikan hasil data mining.
Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No,
perhatikan ini. Sebuah Classification Model akan menggunakan atribut lain dari kasus
tersebut (input attribut; yaitu kolom IQ, Gender, ParentIncome, dan
ParentEncouragement) untuk dapat menentukan pola (pattern) class (Output
Attribute; yaitu Kolom CollegePlans yang berisi Yes atau No). Algoritma Data
Mining yang membutuhkan variabel target untuk belajar (sampai mendapatkan rule /
pola yang berlaku pada data tersebut) kita standarkan dengan sebutan dengan
Supervised Algorithm. Yang termasuk kepada Classification Algorithm adalah
Decision Trees, Neural Network dan Naives Bayes.
9
2. Clustering
Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi
Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.
Clustering adalah metode data mining yang Unsupervised, karena tidak ada satu
atributpun yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut
input diperlakukan sama. Kebanyakan Algoritma Clustering membangun sebuah
model melalui serangkaian pengulangan dan berhenti ketika model tersebut telah
memusat atau berkumpul (batasan dari segmentasi ini telah stabil).
3. Association
10
Ketika orang membeli pepsi atau coke, biasanya dia membeli juice
4. Regression
5. Forecasting
6. Sequence Analysis
Banyak teknik dan metode yang ada untuk melakukan berbagai jenis tugas data
1. Predictive Modeling
dari predictive modeling adalah menemukan pola yang melibatkan variabel untuk memprediksi
dan mengklasifikasi perilakumasa depan dari sebuah entitas. Ada dua tipe masalah yang
mengklasifikasi) data contoh kedalam satu atau beberapa kelas yang telah
2. Discovery
discoverymenggunakan teknik yang menganalisis data set yang besar untuk menemukan
Walau begitu, hasilnya juga dapat diaplikasikan ke metodedata mining yang lain
3. Deviation Detection
BAB III
PENUTUP
3.1 Kesimpulan
1. Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara
manual, juga diartikan sebagai analisa otomatis dari data yang berjumlah besar
atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang
3. Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar
saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari
memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan
ke tahapan sebelumnya.
3.2 Saran
Dalam penulisan makalah tentang data mining ini penulis menyadari masih
kurang sempurna, kedepannya penulis akan lebih fokus dan details dalam menjelaskan
tentang makalah di atas dengan sumber-sumber yang lebih banyak yang tentunya dapat
14
15
di pertanggung jawabkan, maka dari itu dibutuhkan kritik dan saran yang membangun
DAFTAR PUSTAKA
16