Bab 1

BAB 1 PENGANTAR DATA MINING
A. DATA, INFORMASI, DAN PENGETAHUAN

Data Mining merupakan disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau
menemukan pola dari suatu data. Sehingga Data mining sering disebut Knowledge Discovery in
Database (KDD). Sebelum memahami lebih jauh tentang data mining, maka sebaiknya paham dahulu
tentang konsep transformasi data untuk mendapatkan pengetahuan. Secara umum konsep transformasi
mulai dari data yang di dikumpulkan menjadi sebuah informasi selanjutnya informasi dikumpulkan
menjadi sebuah pengetahuan. Pengertian dari data informasi, dan pengetahuan akan diuraikan
selanjutnya.
Data adalah fakta mentah atau gambaran dasar dari kumpulan, pencatatan, penyimpanan, klasifikasi,
peristiwa, kegiatan, dan transaksi, tetapi tidak diorganisasikan untuk tujuan apapun. Data: fakta,
rangkaian fakta yang mewakili suatu kejadian, fakta singkat, simbol yang terekam Contoh: umur, hasil
tes, kode mata kuliah, nama orang tua, jumlah pasien, warna mobil, luas persil, ukuran sepatu, jenis
rambut, harga sepeda motor.
Informasi adalah kumpulan fakta (data) yang diorganisasikan dengan cara yang masuk akal bagi
penerimanya. Misalnya, masukkan nama siswa dengan nilai rata-rata, nama konsumen dengan saldo
bank, total gaji, dan jumlah jam kerja untuk informasi yang berguna. Dengan kata lain, informasi berasal
dari data yang sedang diproses.
Pengetahuan terdiri dari informasi yang diorganisasikan dan diproses untuk memperoleh pemahaman,
pengalaman, dan pembelajaran kumulatif sehingga dapat diterapkan pada masalah atau proses bisnis
tertentu. Pengetahuan juga dapat diartikan sebagai informasi yang diproses untuk mengekstrak makna
penting dan mencerminkan pengalaman masa lalu yang memberi penerima pengetahuan terorganisir
yang berharga.
Contoh:
Data: Data penjualan Laptop tipe A selama 2 bulan terakhir.
Informasi: Penjualan Laptop tipe A jauh lebih rendah dibandingkan Laptop tipe C dan tipe E.
Pengetahuan:
- Perusahaan Laptop tipe A tidak melakukan promosi. Penjualan Laptop tipe A akan dihentikan, kecuali
jika Laptop tipe A mengadakan promosi yang gencar, atau menurunkan harganya.
- Perusahan Laptop tipe A mengadakan promosi lebih baik
- Perusahan Laptop tipe A mengadakan memperbaiki kualitas produk
B. PENGERTIAN DATA MINING
Data mining adalah cabang komputasi yang relatif baru dan berkembang. Sampai saat ini masih banyak
yang memperdebatkan di bidang mana sebaiknya data mining ditempatkan, karena data mining
melibatkan database, kecerdasan buatan (Artificial Intelligence), Machine Learning, Statistik dan
beberapa ilmu lainnya. Ada yang beranggapan bahwa data mining tidak berbeda dengan statistik. Di
sisi lain, pihak lain berpendapat bahwa database berperan penting dalam data mining karena data mining
mengakses big data (hingga terabyte). Sehingga, karena data mining masuk dalam beberapa ilmu lain,
dapat dikatakan bahwa data mining termasuk multi disiplin ilmu.
Lalu apakah pengertian dan makna data mining itu sendiri...?
Jika kita membahas Data Mining, tentunya kita harus mengetahui dulu definisi dari Data
Mining. Secara umum Data Mining dapat dibagi menjadi 2 (dua) kata, yaitu:
Data adalah kumpulan fakta yang direkam atau suatu entitas yang tidak memiliki arti.
Mining adalah proses penambangan, dengan demikian data mining dapat dipahami sebagai
proses data mining yang menghasilkan suatu hasil berupa pengetahuan. Selain itu, definisi data
mining dapat dikutip dari beberapa sumber, yaitu:
Sebagai bidang ilmu yang relative baru, saat ini Data Mining menjadi salah satu pusat perhatian
para akademis maupun praktisi. Menurut (Suntoro, 2019) data mining adalah proses untuk
mendapatkan informasi yang berguna dari basis data yang besar dan perlu diekstraksi agar
menjadi informasi baru dan dapat membantu dalam pengambilan keputusan. Data mining
adalah proses menganalisa data dari yang berbeda dan menyimpulkannya menjadi informasi
atau pengetahuan atau pola yang penting untuk meningkatkan keuntungan, memperkecil biaya
pengeluaran, atau bahkan keduanya (Witten, 2016).
C. DATA MINING VS MACHINE LEARNING
Data mining dianggap sebagai proses mengekstraksi informasi yang berguna dari sejumlah
data yang besar. Data mining digunakan untuk menemukan pola baru, akurat, dan berguna
dalam data, mencari makna dan informasi yang relevan untuk organisasi atau individu yang
membutuhkannya. Data mining adalah salah satu tools yang digunakan oleh manusia saat ini.
Di sisi lain, machine learning adalah proses menemukan algoritma yang telah meningkatkan
pengalaman dan kemampuan sistem secara otomatis yang berasal dari data.
Machine learning adalah desain, studi, dan pengembangan algoritma yang memungkinkan
mesin untuk belajar tanpa intervensi manusia. Machine learning adalah alat untuk membuat
mesin lebih cerdas, menghilangkan elemen manusia (tetapi tidak menghilangkan manusia itu
sendiri; itu akan salah).
Baik data mining maupun machine learning berada di bawah bidang Data Science, dan masuk
akal karena kedua istilah tersebut menggunakan data. Kedua proses digunakan untuk
memecahkan masalah yang kompleks, jadi akibatnya, banyak orang (keliru) menggunakan dua
istilah secara bergantian.
D. FUNGSI-FUNGSI PADA DATA MINING
1. Klasifikasi
Klasifikasi data mining adalah sebuah proses menemukan definisi kesamaan karakteristik
dalam suatu kelompok atau kelas (class). Klasifikasi data mining menjadi salah satu metode
yang paling umum untuk digunakan. Metode ini dilakukan bertujuan untuk memperkirakan
kelas dari suatu objek yang labelnya belum diketahui.
2. Asosiasi
Metode data mining yang kedua adalah Market basket analysis (analisa keranjang pasar) atau
association. Berhubungan dengan pemasaran, metode ini bertujuan untuk mengidentifikasi
produk yang sering dibeli bersamaan oleh pelanggan.
Bagaimana contohnya? Misalnya beberapa pelanggan akan membeli snack dan minuman
kemasan bersamaan. Dengan begitu perusahaan lebih mudah mengetahui kalau kedua barang
tersebut sering dibeli bersamaan.
3. Clustering
Clustering data mining adalah nama lain untuk metode segmentation. Tujuan dari segmentasi
pada metode data mining adalah mengelompokkan suatu class ke dalam beberapa segmen
berdasarkan atribut yang ditentukan. Penentuan atribut harus sesuai kesamaan yang dimiliki
beberapa class tadi.
4. Regresi
Metode keempat dari data mining adalah regression. Metode yang satu ini sedikit mirip
dengan klasifikasi data mining. Bedanya, regresi merupakan metode yang bertujuan untuk
mencari pola nilai numerik, bukan kelas. Hasil dari metode regression adalah sebuah fungsi
sebagai penentu hasil yang didasarkan nilai dari input.
5. Forecasting (Prediksi)
Forecasting data mining adalah metode yang digunakan untuk memprediksi nilai yang akan
dicapai pada satu periode. Dengan menggunakan teknik ini, noise data dan nilai pada periode
sebelumnya dijadikan dasar bahan prediksi.
6. Descriptive
Metode data mining yang satu ini bertujuan untuk memahami lebih dalam mengenai data-
data yang masuk dalam pengamatan. Hasil akhirnya adalah mengetahui perilaku dari data itu
sendiri.
E. PROSES DATA MINING

Ada beberapa tahapan dalam data mining untuk menghasilkan suatu informasi dan
pengetahuan. Mulai dari tahap awal pengumpulan data sampai mendapatkan hasil dapat
digambarkan pada Gambar 1.1.
Gambar 1. 1 Proses Data Mining
Ada 5 proses penting dalam data mining, antara lain adalah pengumpulan data, proses seleksi
data dan cleaning data, transformasi data, proses pengolahan data, selnajutnya adalah evaluasi.
1. Dataset
Proses yang pertama adalah pengumpulan data. Sebelum membahas lebih jauh tentang
pengumpulan data perlu diketahui terlebih dahulu tentang data, baik pengertian, komposisi
maupun jenis data dan dataset.
Data merupakan fakta dan angka (dapat juga disebut sebagai data mentah) yang
berhubungan dengan konteks suatu permasalahan, Data terdiri dari dua aspek yaitu
Object dan atribut, contoh object manusia, pohon, binatang, contoh atribut misalnya
umur, tinggi badan, Berat badan.
Dataset merupakan kumpulan objek data. Dataset memiliki nama lain
record,point,vector,pattern,event,observasi,case atau data. Object data digambarkan
dengan menggunakan sejumlah atribut yang menangkap karakteristik dari object
data tersebut. Atribut disebut juga sebagai karakteristik,variabel,field,fitur,atau dimensi.
Dataset ini adalah merupakan komponen terpenting data mining, karena tanpa adanya
dataset maka proses data mining tidak akan bisa berjalan. Adapun komponen-komponen
dari dataset ada beberapa macam, dapat dilihat pada Gambar 1.2.
Gambar 1. 2 Gambaran Dataset
Atribut adalah properti dari objek data dan nilainya dapat bervariasi antar objek data yang
diamati. Misalnya, ukuran Abdul bisa berbeda dengan ukuran Asep, dan berat Abdul bisa
berbeda dari waktu ke waktu. Nilai warna kulit adalah [Kuning, Hitam, Putih, Coklat], ,
dan nilai berkisar dari hingga . Tinggi bisa menjadi dalam bentuk angka (misalnya 165,
170, 180).
Atribut memiliki jenis , nilai , memiliki variasi . Misalnya berat body memiliki nilai dan
tipe numerik (kuantitatif) sehingga dapat dibandingkan satu sama lain. Di sisi lain, warna
kulit adalah jenis nilai kualitatif dan tidak dapat dibandingkan. Secara umum tipe atribut
terdiri dari kualitatif (diskrit) dan kuantitatif (numerik). Sifat-sifat penting dari suatu
atribut adalah perbedaan (=, & lt;>), keteraturan (& lt;. & Lt; =,> =,>), penambahan (+,),
perkalian (*, /).
Tabel 1. 1 Jenis Atribut
Jenis Deskripsi Contoh Operasi

Atribut
Ratio • Data yang diperoleh dengan cara • Umur geometric mean,
(Mutlak) pengukuran, dimana jarak dua • Berat badan harmonic mean,
titik pada skala sudah diketahui • Tinggi badan percent variation
• Mempunyai titik nol yang • Jumlah uang
absolut
(*, /)
Interval • Data yang diperoleh dengan cara • Suhu 0°c-100°c, mean, standard
(Jarak) pengukuran, dimana jarak dua • Umur 20-30 deviation, Pearson's
titik pada skala sudah diketahui tahun correlation, t and F
• Tidak mempunyai titik nol yang tests
absolut
(+, - )
Ordinal • Data yang diperoleh dengan cara • Tingkat median, percentiles,
(Peringk kategorisasi atau klasifikasi kepuasan rank correlation, run
at) • Tetapi diantara data tersebut pelanggan (puas, tests, sign tests
terdapat hubungan atau sedang, tidak
berurutan puas)
(<, >)
Nominal • Data yang diperoleh dengan cara • Kode pos mode, entropy,
(Label) kategorisasi atau klasifikasi • Jenis kelamin contingency
• Menunjukkan beberapa object • Nomer id correlation, 2 test
yang berbeda karyawan
(=, ) • Nama kota
Dataset terdiri dari dua jenis, antara lain:

a. Private Dataset
Private dataset adalah dataset yang dapat diambil dari sebuah organisasi yang akan
dilakukan sebagai objek penelitian, seperti data bank, rumah sakit, sekolah,
universitas, perusahaan, dan lain sebagainya
b. Public Dataset
Public dataset adalah dataset yang bisa diambil dari repository publik yang disepakati
oleh pakar peneliti data mining. ,misalnya: UCI Repository
(http://www.ics.uci.edu/~mlearn/MLRepository.html), atau kaggle dataset
https://www.kaggle.com/datasets.
2. Seleksi Data dan Cleaning

Dalam proses seleksi data, data akan dipilih yang sedikit relevansinya dengan penelitian,
membuang atau menghapus data dengan jumlah missing value yang banyak. Setelah
dilakukan proses seleksi data, semua data yang diperoleh akan digabungkan atau
dilakukan integrasi data. Selama langkah cleaning, data atribut dibersihkan, mengisi
nilai-nilai yang hilang, menghaluskan noisy data, mengenali atau menghilangkan outlier,
dan memecahkan ketidak konsistenan.
3. Transformasi Data
Transformasi data adalah merubah skala data kedalam bentuk lain sehingga data memiliki
distribusi yang diharapkan. Setiap data dilakukan operasi matematika yang sama pada data
aslinya. Berarti kita merubah semua data untuk menjaga perbedaan perbedaan antar data
relatif tetap.
4. Data Mining/Pattern Discovery
Data mining adalah metode dalam ilmu komputer yang biasa digunakan dalam proses
pencarian knowledge. Tahapan di dalamnya berguna untuk mencari pola-pola tertentu dari
data yang ada pada database. Biasanya, metode ini banyak ditemukan pada bidang
machine learning dan statistika
5. Evaluasi
Setelah selesai melakukan proses data mining, pola-pola yang dihasilkan dari proses
tersebut perlu untuk dievaluasi. Tujuan dari dilakukannya evaluasi adalah untuk menguji
hipotesis awal. Setelah teruji data bisa dipresentasikan kepada pengguna.
F. KEGIATAN DISKUSI
Diskusikan apakah masing-masing kegiatan berikut merupakan tugas Data
Mining atau tidak?
1. Membagi pelanggan suatu perusahaan menurut jenis kelaminnya.
Tidak. Ini adalah kueri basis data sederhana.
2. Membagi pelanggan perusahaan menurut profitabilitas mereka.
Tidak.
Ini adalah perhitungan akuntansi, diikuti oleh aplikasi dari sebuah ambang
batas. Namun, memprediksi profitabilitas baru pelanggan akan menjadi data
mining.
3. Menghitung total penjualan sebuah perusahaan.
Tidak. Sekali lagi, ini adalah akuntansi sederhana.
4. Mengurutkan database siswa berdasarkan nomor identifikasi siswa.
Tidak.
Sekali lagi, ini adalah kueri basis data sederhana.
5. Memprediksi harga saham perusahaan di masa depan dengan menggunakan

metode historis catatan.
Ya. DATA MINING DAPAT membuat model yang dapat memprediksi nilai terus
menerus dari harga saham. Ini adalah contoh dari area penambangan data yang
dikenal sebagai pemodelan prediktif. Kita bisa menggunakan regresi untuk
pemodelan ini, meskipun peneliti di banyak bidang telah mengembangkan
berbagai macam teknik untuk memprediksi waktu seri.
6. Memantau detak jantung pasien untuk kelainan.
Ya. DATA MINING DAPAT membangun model perilaku normal jantung tingkat dan
membunyikan alarm ketika perilaku jantung yang tidak biasa terjadi.Ini akan
melibatkan area penambangan data yang dikenal sebagai deteksi anomali.Ini
juga bisa dianggap sebagai masalah klasifikasi jika kita memiliki contoh
perilaku jantung normal dan abnormal.
7. Pemantauan gelombang seismik untuk aktivitas gempa.
Ya. Dalam hal ini, DATA MINING DAPAT membangun model berbagai jenis perilaku
gelombang seismik yang terkait dengan aktivitas gempa dan membunyikan alarm
ketika salah satu dari jenis aktivitas seismik yang berbeda inidiamati. Ini
adalah contoh area penambangan data dikenal dengan klasifikasi.
8. Mengekstraksi frekuensi gelombang suara.
Tidak. Ini adalah pemrosesan sinyal.
9. Misalkan Anda bekerja sebagai konsultan data mining untuk Internet

perusahaan mesin pencari. Jelaskan bagaimana penambangan data dapat
membantu perusahaan dengan memberikan contoh spesifik tentang bagaimana
teknik, seperti pengelompokan, klasifikasi, penambangan aturan asosiasi,
dan deteksi anomali dapat diaplikasikan.
Berikut ini adalah contoh kemungkinan jawaban.

a. Clustering dapat mengelompokkan hasil dengan tema yang sama dan
menyajikan mereka kepada pengguna dalam bentuk yang lebih ringkas,
misalnya, dengan melaporkan 10 kata yang paling sering muncul di
cluster.
b. Klasifikasi dapat menetapkan hasil ke kategori yang telah ditentukan
sebelumnya seperti:
"Olahraga", "Politik", dll.
c. Analisis asosiasi sekuensial dapat mendeteksi bahwa kueri tertentu
ikuti kueri tertentu lainnya dengan probabilitas tinggi, memungkinkan
untuk caching yang lebih efisien.
d. Teknik deteksi anomali dapat menemukan pola yang tidak biasa dari lalu
lintas pengguna, misalnya, satu subjek tiba-tiba menjadi banyak lebih
populer. Strategi periklanan dapat disesuaikan untuk mengambil
keuntungan dari perkembangan tersebut.

Bab 1

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bab 1

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB 1 PENGANTAR DATA MINING

A. DATA, INFORMASI, DAN PENGETAHUAN

Lalu apakah pengertian dan makna data mining itu sendiri...?

E. PROSES DATA MINING

Gambar 1. 1 Proses Data Mining

Gambar 1. 2 Gambaran Dataset

Tabel 1. 1 Jenis Atribut

Jenis Deskripsi Contoh Operasi

Dataset terdiri dari dua jenis, antara lain:

2. Seleksi Data dan Cleaning

Tidak. Ini adalah kueri basis data sederhana.

2. Membagi pelanggan perusahaan menurut profitabilitas mereka.

3. Menghitung total penjualan sebuah perusahaan.

Tidak. Sekali lagi, ini adalah akuntansi sederhana.

4. Mengurutkan database siswa berdasarkan nomor identifikasi siswa.

5. Memprediksi harga saham perusahaan di masa depan dengan menggunakan

6. Memantau detak jantung pasien untuk kelainan.

7. Pemantauan gelombang seismik untuk aktivitas gempa.

8. Mengekstraksi frekuensi gelombang suara.

Tidak. Ini adalah pemrosesan sinyal.

9. Misalkan Anda bekerja sebagai konsultan data mining untuk Internet

Berikut ini adalah contoh kemungkinan jawaban.

Anda mungkin juga menyukai