Jika kita membahas Data Mining, tentunya kita harus mengetahui dulu definisi dari Data
Mining. Secara umum Data Mining dapat dibagi menjadi 2 (dua) kata, yaitu:
Data adalah kumpulan fakta yang direkam atau suatu entitas yang tidak memiliki arti.
Mining adalah proses penambangan, dengan demikian data mining dapat dipahami sebagai
proses data mining yang menghasilkan suatu hasil berupa pengetahuan. Selain itu, definisi data
mining dapat dikutip dari beberapa sumber, yaitu:
Sebagai bidang ilmu yang relative baru, saat ini Data Mining menjadi salah satu pusat perhatian
para akademis maupun praktisi. Menurut (Suntoro, 2019) data mining adalah proses untuk
mendapatkan informasi yang berguna dari basis data yang besar dan perlu diekstraksi agar
menjadi informasi baru dan dapat membantu dalam pengambilan keputusan. Data mining
adalah proses menganalisa data dari yang berbeda dan menyimpulkannya menjadi informasi
atau pengetahuan atau pola yang penting untuk meningkatkan keuntungan, memperkecil biaya
pengeluaran, atau bahkan keduanya (Witten, 2016).
C. DATA MINING VS MACHINE LEARNING
Data mining dianggap sebagai proses mengekstraksi informasi yang berguna dari sejumlah
data yang besar. Data mining digunakan untuk menemukan pola baru, akurat, dan berguna
dalam data, mencari makna dan informasi yang relevan untuk organisasi atau individu yang
membutuhkannya. Data mining adalah salah satu tools yang digunakan oleh manusia saat ini.
Di sisi lain, machine learning adalah proses menemukan algoritma yang telah meningkatkan
pengalaman dan kemampuan sistem secara otomatis yang berasal dari data.
Machine learning adalah desain, studi, dan pengembangan algoritma yang memungkinkan
mesin untuk belajar tanpa intervensi manusia. Machine learning adalah alat untuk membuat
mesin lebih cerdas, menghilangkan elemen manusia (tetapi tidak menghilangkan manusia itu
sendiri; itu akan salah).
Baik data mining maupun machine learning berada di bawah bidang Data Science, dan masuk
akal karena kedua istilah tersebut menggunakan data. Kedua proses digunakan untuk
memecahkan masalah yang kompleks, jadi akibatnya, banyak orang (keliru) menggunakan dua
istilah secara bergantian.
D. FUNGSI-FUNGSI PADA DATA MINING
1. Klasifikasi
Klasifikasi data mining adalah sebuah proses menemukan definisi kesamaan karakteristik
dalam suatu kelompok atau kelas (class). Klasifikasi data mining menjadi salah satu metode
yang paling umum untuk digunakan. Metode ini dilakukan bertujuan untuk memperkirakan
kelas dari suatu objek yang labelnya belum diketahui.
2. Asosiasi
Metode data mining yang kedua adalah Market basket analysis (analisa keranjang pasar) atau
association. Berhubungan dengan pemasaran, metode ini bertujuan untuk mengidentifikasi
produk yang sering dibeli bersamaan oleh pelanggan.
Bagaimana contohnya? Misalnya beberapa pelanggan akan membeli snack dan minuman
kemasan bersamaan. Dengan begitu perusahaan lebih mudah mengetahui kalau kedua barang
tersebut sering dibeli bersamaan.
3. Clustering
Clustering data mining adalah nama lain untuk metode segmentation. Tujuan dari segmentasi
pada metode data mining adalah mengelompokkan suatu class ke dalam beberapa segmen
berdasarkan atribut yang ditentukan. Penentuan atribut harus sesuai kesamaan yang dimiliki
beberapa class tadi.
4. Regresi
Metode keempat dari data mining adalah regression. Metode yang satu ini sedikit mirip
dengan klasifikasi data mining. Bedanya, regresi merupakan metode yang bertujuan untuk
mencari pola nilai numerik, bukan kelas. Hasil dari metode regression adalah sebuah fungsi
sebagai penentu hasil yang didasarkan nilai dari input.
5. Forecasting (Prediksi)
Forecasting data mining adalah metode yang digunakan untuk memprediksi nilai yang akan
dicapai pada satu periode. Dengan menggunakan teknik ini, noise data dan nilai pada periode
sebelumnya dijadikan dasar bahan prediksi.
6. Descriptive
Metode data mining yang satu ini bertujuan untuk memahami lebih dalam mengenai data-
data yang masuk dalam pengamatan. Hasil akhirnya adalah mengetahui perilaku dari data itu
sendiri.
Ada 5 proses penting dalam data mining, antara lain adalah pengumpulan data, proses seleksi
data dan cleaning data, transformasi data, proses pengolahan data, selnajutnya adalah evaluasi.
1. Dataset
Proses yang pertama adalah pengumpulan data. Sebelum membahas lebih jauh tentang
pengumpulan data perlu diketahui terlebih dahulu tentang data, baik pengertian, komposisi
maupun jenis data dan dataset.
Data merupakan fakta dan angka (dapat juga disebut sebagai data mentah) yang
berhubungan dengan konteks suatu permasalahan, Data terdiri dari dua aspek yaitu
Object dan atribut, contoh object manusia, pohon, binatang, contoh atribut misalnya
umur, tinggi badan, Berat badan.
Dataset merupakan kumpulan objek data. Dataset memiliki nama lain
record,point,vector,pattern,event,observasi,case atau data. Object data digambarkan
dengan menggunakan sejumlah atribut yang menangkap karakteristik dari object
data tersebut. Atribut disebut juga sebagai karakteristik,variabel,field,fitur,atau dimensi.
Dataset ini adalah merupakan komponen terpenting data mining, karena tanpa adanya
dataset maka proses data mining tidak akan bisa berjalan. Adapun komponen-komponen
dari dataset ada beberapa macam, dapat dilihat pada Gambar 1.2.
Atribut adalah properti dari objek data dan nilainya dapat bervariasi antar objek data yang
diamati. Misalnya, ukuran Abdul bisa berbeda dengan ukuran Asep, dan berat Abdul bisa
berbeda dari waktu ke waktu. Nilai warna kulit adalah [Kuning, Hitam, Putih, Coklat], ,
dan nilai berkisar dari hingga . Tinggi bisa menjadi dalam bentuk angka (misalnya 165,
170, 180).
Atribut memiliki jenis , nilai , memiliki variasi . Misalnya berat body memiliki nilai dan
tipe numerik (kuantitatif) sehingga dapat dibandingkan satu sama lain. Di sisi lain, warna
kulit adalah jenis nilai kualitatif dan tidak dapat dibandingkan. Secara umum tipe atribut
terdiri dari kualitatif (diskrit) dan kuantitatif (numerik). Sifat-sifat penting dari suatu
atribut adalah perbedaan (=, & lt;>), keteraturan (& lt;. & Lt; =,> =,>), penambahan (+,),
perkalian (*, /).
Tidak.
Ini adalah perhitungan akuntansi, diikuti oleh aplikasi dari sebuah ambang
batas. Namun, memprediksi profitabilitas baru pelanggan akan menjadi data
mining.
Tidak.
Sekali lagi, ini adalah kueri basis data sederhana.
Ya. DATA MINING DAPAT membangun model perilaku normal jantung tingkat dan
membunyikan alarm ketika perilaku jantung yang tidak biasa terjadi.Ini akan
melibatkan area penambangan data yang dikenal sebagai deteksi anomali.Ini
juga bisa dianggap sebagai masalah klasifikasi jika kita memiliki contoh
perilaku jantung normal dan abnormal.
Ya. Dalam hal ini, DATA MINING DAPAT membangun model berbagai jenis perilaku
gelombang seismik yang terkait dengan aktivitas gempa dan membunyikan alarm
ketika salah satu dari jenis aktivitas seismik yang berbeda inidiamati. Ini
adalah contoh area penambangan data dikenal dengan klasifikasi.