Modul 1 - Data Mining

MODUL DATA MINING
(CTI311)
MODUL 1
INTRODUKSI DATA MINING
DISUSUN OLEH
AGUNG MULYO WIDODO, ST, M.Sc.
UNIVERSITAS ESA UNGGUL

2021
https://esaunggul.ac.id Page 1 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

TOPIK PERKULIAHAN SESUAI RPS
A. Kemampuan Akhir Yang Diharapkan

Setelah mempelajari modul ini, diharapkan mahasiswa mampu :
1. Mahasiswa mampu mengerti dan memahami definisi data mining.
2. Mahasiswa mampu mengerti dan memahami proses data mining, tipe dasar data, blok
bangunan utama data mining.
3. Mahasiswa mampu mengerti dan memahami masalah skalabilitas dan skenario
streaming pada data mining
4. Mahasiswa mampu mengerti dan memahami beberapa contoh skenario pada data
mining
B. Uraian dan Contoh
1.1 Introduksi
Penambangan data (Data Mining) adalah studi tentang mengumpulkan, membersihkan,
memproses, menganalisis, dan mendapatkan wawasan berguna dari data. Terdapat variasi
yang luas dalam hal masalah domain, aplikasi, formulasi, dan representasi data yang
ditemui dalam aplikasi nyata. Oleh karena itu, "data mining" adalah istilah umum yang
digunakan untuk menggambarkan berbagai aspek pemrosesan data ini.
Di zaman modern, hampir semua sistem otomatis menghasilkan beberapa bentuk data
baik untuk tujuan diagnostik atau analisis. Hal ini mengakibatkan banjir data, yang telah
mencapai urutan pentabyte atau hexabyte.
(a) Cyber Security (b) E-commerce
(c) Traffic pattern (d) Social Networking: Twitter
e) Sensor Networks (f) Computational Simulation
Gambar 1.1 Data-data skala besar

Beberapa contoh dari jenis data yang berbeda adalah sebagai berikut:
 World Wide Web: Jumlah dokumen di Web yang diindeks sekarang mencapai
miliaran, dan web tak terlihat jauh lebih besar. Akses pengguna ke dokumen tersebut
membuat log akses web di server dan profil perilaku pelanggan di situs komersial.
Lebih jauh lagi, struktur tertaut dari web disebut sebagai grafik web, yang dengan
sendirinya merupakan sejenis data. Jenis data yang berbeda ini berguna dalam
berbagai aplikasi. Misalnya, dokumen web dan struktur tautan dapat ditambang
untuk menentukan asosiasi antara topik yang berbeda di web. Di sisi lain, log akses
pengguna dapat ditambang untuk menentukan pola akseses yang sering atau pola
yang tidak biasa dari perilaku yang mungkin tidak beralasan.
 Interaksi keuangan: Transaksi paling umum dalam kehidupan sehari-hari, seperti
menggunakan kartu anjungan tunai mandiri (ATM) atau kartu kredit, dapat
membuat data dengan cara otomatis. Transaksi semacam itu dapat ditambang untuk
banyak wawasan berguna seperti penipuan atau aktivitas tidak biasa lainnya.
 Interaksi pengguna: Banyak bentuk interaksi pengguna membuat volume data
yang besar. Misalnya, penggunaan telepon biasanya membuat catatan di perusahaan
telekomunikasi dengan detail tentang durasi dan tujuan panggilan. Banyak
perusahaan telepon secara rutin menganalisis data tersebut untuk menentukan pola
perilaku yang relevan yang dapat digunakan untuk membuat keputusan tentang
kapasitas jaringan, promosi, harga, atau penargetan pelanggan.
 Teknologi sensor dan Internet of Things: Tren baru-baru ini adalah
pengembangan sensor wearable berbiaya rendah, smartphone, dan perangkat pintar
lainnya yang dapat berkomunikasi satu sama lain. Diperkirakan, jumlah perangkat
tersebut melebihi jumlah orang di planet ini pada tahun 2008. Implikasi dari
pengumpulan data besar-besaran tersebut sangat penting untuk algoritma
penambangan.
Banjir data (deluge of data) merupakan akibat langsung dari kemajuan teknologi dan
komputerisasi dari setiap aspek kehidupan modern. Oleh karena itu, wajar untuk memeriksa
apakah seseorang dapat mengekstrak data secara ringkas dan mungkin dapat ditindaklanjuti
dari data data yang tersedia tersebut untuk tujuan khusus aplikasi. Di sinilah tugas data
mining masuk. Data mentah mungkin sembarang, tidak terstruktur, atau bahkan dalam
format yang tidak segera cocok untuk pemrosesan otomatis. Misalnya, data yang
dikumpulkan secara manual dapat diambil dari sumber yang beragam dalam format yang
berbeda, namun bagaimanapun juga perlu diproses oleh program komputer otomatis untuk
mendapatkan esktrasi data.
Untuk mengatasi masalah ini, analis data mining menggunakan proses pipeline, di mana
data mentah dikumpulkan, dibersihkan, dan diubah menjadi format standar. Data dapat
disimpan dalam sistem database komersial dan akhirnya diproses untuk mendapatkan
wawasan dengan menggunakan metode analitik. Faktanya, sementara data mining sering
memunculkan gagasan tentang algoritma analitik, kenyataannya adalah bahwa sebagian
besar pekerjaan terkait dengan bagian persiapan data dari proses tersebut. Pemrosesan
pipeline ini secara konseptual mirip dengan proses penambangan yang sebenarnya dari bijih
mineral hingga produk akhir yang dimurnikan. Istilah "menambang" berasal dari analogi
ini.
Dari perspektif analitis, penambangan data merupakan tantangan karena perbedaan
yang luas dalam masalah dan tipe data yang dihadapi. Misalnya, masalah rekomendasi
produk komersial sangat berbeda dari aplikasi deteksi intrusi, bahkan pada level format data

input atau definisi masalah. Bahkan dalam kelas masalah yang terkait, perbedaannya cukup
signifikan. Misalnya, masalah rekomendasi produk dalam database multidimensi sangat
berbeda dari masalah rekomendasi sosial karena perbedaan tipe data yang mendasarinya.
Namun demikian, terlepas dari perbedaan ini, aplikasi data mining sering kali terkait erat
dengan salah satu dari empat "masalah super" dalam data mining: penambangan pola
asosiasi, pengelompokan, klasifikasi, dan deteksi outlier. Masalah-masalah ini sangat
penting karena mereka digunakan sebagai blok penyusun di sebagian besar aplikasi dalam
beberapa bentuk tidak langsung atau lainnya. Ini adalah abstraksi yang berguna karena
membantu kita membuat konsep dan menyusun bidang data mining dengan lebih efektif.
Data tersebut mungkin memiliki format atau tipe yang berbeda. Jenisnya mungkin
kuantitatif (mis., Usia), kategorikal (mis., Etnis), teks, spasial, temporal, atau berientasi
grafik. Meskipun bentuk data yang paling umum adalah multidimensi, proporsi yang
meningkat termasuk dalam tipe data yang lebih kompleks. Meskipun ada portabilitas
konseptual dari algoritme antara banyak tipe data pada tingkat yang sangat tinggi, ini tidak
terjadi dari perspektif praktis. Kenyatannya adalah bahwa tipe data yang tepat dapat
mempengaruhi perilaku algoritma tertentu secara signifikan. Akibatnya, seseorang
mungkin perlu merancang variasi yang disempurnakan dari pendekatan dasar untuk data
multidimensi, sehingga dapat digunakan secara efektif untuk tipe data yang berbeda. Oleh
karena itu, buku ini akan mendikasikan bab-bab yang berbeda untuk berbagai tipe data
untuk memberikan pemahaman yang lebih baik tentang bagaimana metode pemrosesan
dipengaruhi oleh tipe data yang mendasarinya.
Tantangan besar telah dibuat dalam beberapa tahun terakhir karena peningkatan volume
data. Prevalensi data yang dikumpulkan secara terus menerus telah menyebabkan
peningkatan minat di bidang aliran data. Misalnya, lalu lintas Internet menghasilkan aliran
besar yang bahkan tidak dapat disimpan secara efektif kecuali sumber daya yang signifikan
dihabiskan untuk penyimpanan. Ini mengarah pada tantangan unik dari perspektif
pemrosesan dan analisis. Dalam kasus di mana tidak mungkin untuk menyimpan data secara
eksplisit, semua pemrosesan perlu dilakukan secara real time.
1.2 Proses Data Mining

Seperti yang telah dibahas sebelumnya, proses data mining merupakan pipeline yang
berisi banyak tahapan seperti pembersihan data, ekstraksi fitur, dan desain algoritmik. Pada
bagian ini, kita akan mempelajari tahapan yang berbeda ini. Alur kerja aplikasi
penambangan data tipikal berisi fase-fase berikut:
 Pengumpulan data (Data collection) : Pengumpulan data mungkin memerlukan
penggunaan perangkat keras khusus seperti jaringan sensor, pekerjaan manual
seperti pengumpulan survei pengguna, atau alat perangkat lunak seperti mesin
perayapan dokumen Web (a Web document crawling engine) untuk mengumpulkan
dokumen. Meskipun tahap ini sangat spesifik untuk aplikasi dan seringkali berada
di luar ranah analis data mining, ini sangat penting karena pilihan yang baik pada
tahap ini dapat berdampak signifikan pada proses data mining. Setelah fase
pengumpulan, data sering kali disimpan dalam database, atau, lebih umum, gudang
data (data warehouse) untuk diproses.
 Ekstraksi fitur dan pembersihan data (Feature extraction and data cleaning):
Ketika data dikumpulkan, seringkali tidak dalam bentuk yang sesuai untuk diproses.
Misalnya, data dapat dikodekan dalam log kompleks atau dokumen bentuk bebas.
Dalam banyak kasus, tipe data yang berbeda dapat dicampur secara sembarangan
dalam dokumen bentuk bebas. Untuk membuat data sesuai untuk pemrosesan,

penting untuk mengubahnya menjadi format yang sesuai dengan algoritma data
mining, seperti format multidimensi, deret waktu, atau semistruktur. Format
multidimensi adalah yang paling umum, di mana bidang data yang berbeda sesuai
dengan properti terukur yang berbeda yang disebut sebagai fitur, atribut, atau
dimensi. Sangat penting untuk mengekstrak fitur yang relevan untuk proses
penambangan. Fase ekstraksi fitur sering kali dilakukan secara paralel dengan
pembersihan data, di mana bagian data yang hilang dan salah dapat diperkirakan
atau diperbaiki. Dalam banyak kasus, data dapat diekstrak dari berbagai sumber dan
perlu diintegrasikan ke dalam format terpadu untuk diproses. Hasil akhir dari
prosedur ini adalah kumpulan data yang terstruktur dengan baik, yang dapat
digunakan secara efektif oleh program komputer. Setelah fase ekstraksi fitur, data
dapat disimpan lagi dalam database untuk diproses.
 Pemrosesan analitik dan algoritma (Analytical processing and algorithms) :
Bagian terakhir dari proses penambangan adalah merancang metode analitik yang
efektif dari data yang diproses. Dalam banyak kasus, mungkin tidak mungkin untuk
langsung menggunakan masalah data mining standar, seperti empat "masalah super"
yang dibahas sebelumnya, untuk aplikasi yang ada. Namun, keempat masalah ini
memiliki cakupan yang luas sehingga banyak aplikasi dapat dipecah menjadi
komponen yang menggunakan blok penyusun yang berbeda ini.
Mungkin untuk langsung menggunakan masalah data mining standar, seperti empat
"masalah super" yang dibahas sebelumnya, untuk aplikasi yang ada. Namun, keempat
masalah ini memiliki cakupan yang luas sehingga banyak aplikasi dapat dipecah menjadi
komponen yang menggunakan blok penyusun yang berbeda ini.
Gambar 1.2 Pipeline pemrosesan data
Proses penggalian data secara keseluruhan diilustrasikan pada Gambar 1.2 Perhatikan
bahwa blok analitik pada Gambar 1.2 menunjukkan beberapa blok penyusun yang
merepresentasikan desain solusi untuklakasi tertuten. Bagian dari desain algoritmik ini
bergantung pada keterampilan analis dan sering kali menggunakan satu atau lebih dari.
empat masalah utama sebagai blok bangunan. Hal ini, tentu saja, tidak selalu terjadi, tetapi
cukup sering untuk mendapatkan perlakuan khusus dari keempat masalah ini dalam buku
ini. Untuk menjelaskan proses data mining, kami akan menggunakan contoh dari skenario
rekomendasi.
Contoh 1 : Pertimbangkan skenario di mana pengecer memiliki log web yang sesuai dengan
akses pelanggan ke halaman web di situsnya. Masing-masing halaman web ini berhubungan
dengan suatu produk, dan oleh karena itu akses pelanggan ke suatu halaman sering kali
menunjukkan ketertarikan pada produk tersebut. Pengecer juga menyimpan profil
demografis untuk pelanggan yang berbeda. Pengecer ingin membuat rekomendasi produk

yang ditargetkan kepada pelanggan menggunakan demografi pelanggan dan perilaku
pembelian.
Contoh Solusi Pipeline : Dalam hal ini, langkah pertama analis adalah mengumpulkan data
yang relevan dari dua sumber yang berbeda. Sumber pertama adalah kumpulan log web di
situs. . . Yang kedua adalah informasi demografis dalam database pengecer yang
dikumpulkan selama registrasi web pelanggan. Sayangnya, kumpulan data ini dalam format
yang sangat berbeda dan tidak dapat dengan mudah digunakan bersama untuk pemrosesan.
Misalnya, pertimbangkan entri log sampel dengan bentuk berikut: .
Log mungkin berisi ratusan ribu entri seperti itu. . . Di sini, pelanggan di alamat IP
98.206.207.157 telah mengakses productA.htm. Pelanggan dari alamat IP dapat
diidentifikasi menggunakan informasi login sebelumnya, dengan menggunakan cookie,
atau dengan alamat IP ITu sendiri, tetapi ini mungkin merupakan proses yang berisik
danung mkin tak selalu memberikan yangkurat. Analis perlu merancang algoritme untuk
memutuskan cara memfilter entri log yang berbeda dan hanya menggunakan algoritme yang
manikan hasil yang akurat sebagai bagian dari proses pembersihan dan ekstraksi.
Lebih jauh lagi, raw log tersebut mengandung banyak informasi tambahan yang belum
tentu berguna bagi pengecer. Dalam proses ekstraksi fitur, pengecer memutuskan untuk
membuat satu catatan untuk setiap pelanggan, dengan pilihan fitur tertentu yang diekstrak
dari akses halaman Web. Untuk setiap record, atribut sesuai dengan jumlah akses ke setiap
deskripsi produk. Oleh karena itu, log mentah perlu diproses, dan akses perlu dikumpulkan
selama fase ekstraksi fitur ini. Atribut ditambahkan ke catatan ini untuk database pengecer
yang berisi informasi demografis dalam fase integrasi data. Entri yang hilang dari catatan
demografis perlu diperkirakan untuk pembersihan data lebih lanjut. Ini menghasilkan satu
kumpulan data yang berisi atribut untuk demografi pelanggan dan akses pelanggan.
Pada titik ini, analis harus memutuskan bagaimana menggunakan kumpulan data yang
dibersihkan ini untuk membuat rekomendasi. Dia memutuskan untuk menentukan
kelompok pelanggan yang serupa, dan membuat rekomendasi berdasarkan perilaku
pembelian dari kelompok serupa tersebut. Secara khusus, blok bangunan pengelompokan
digunakan untuk menentukan grup serupa. Untuk pelanggan tertentu, item yang paling
sering diakses oleh pelanggan dalam grup itu direkomendasikan. Ini memberikan contoh
seluruh pipeline data mining. Oleh karena itu, seluruh proses data mining adalah bentuk
seni, yang didasarkan pada keterampilan analis, dan tidak dapat sepenuhnya ditangkap oleh
satu teknik atau blok bangunan. Dalam praktiknya, keterampilan ini hanya dapat dipelajari
dengan bekerja dengan beragam aplikasi melalui skenario dan tipe data yang berbeda.
1.2.1 Fase Pemrosesan Awal Data

Fase preprocessing data mungkin yang paling penting dalam proses data mining.
Namun, jarang dieksplorasi sejauh itu layak karena sebagian besar fokusnya adalah pada
aspek analitis dari data mining. Fase ini dimulai setelah pengumpulan data, dan itu terdiri
dari langkah-langkah berikut:
 Ekstraksi fitur (Feature Extraction): Seorang analis mungkin dihadapkan dengan
volume besar dokumen mentah, log sistem, atau transaksi komersial dengan sedikit
panduan tentang bagaimana data mentah ini harus diubah menjadi fitur database
yang berarti untuk diproses. Fase ini sangat bergantung pada analis untuk dapat

mengabstraksi fitur yang paling relevan dengan aplikasi tertentu. Misalnya, dalam
aplikasi deteksi penipuan kartu kredit, jumlah tagihan, frekuensi berulang, dan
lokasi sering kali menjadi indikator penipuan yang baik. Namun, banyak fitur lain
mungkin merupakan indikator penipuan yang lebih buruk. Oleh karena itu,
mengekstraksi fitur yang tepat seringkali merupakan keterampilan yang
membutuhkan pemahaman tentang domain aplikasi spesifik yang ada.
 Pembersihan data (Data Cleaning): Data yang diekstrak mungkin memiliki entri
yang salah atau hilang. Oleh karena itu, beberapa record mungkin perlu dibuang,
atau entri yang hilang mungkin perlu diestimasi. Inkonsistensi mungkin perlu
dihilangkan.
 Pemilihan dan transformasi fitur (Feature selection and transformation): Ketika
datanya berdimensi sangat tinggi, banyak algoritme data mining tidak berfungsi
secara efektif. Selain itu, banyak fitur berdimensi tinggi yang berisik dan dapat
menambah kesalahan pada proses data mining. Oleh karena itu, berbagai metode
digunakan untuk menghapus fitur yang tidak relevan atau mentransformasikannya
kumpulan fitur saat ini ke ruang data baru yang lebih dapat menerima analisis.
Aspek terkait lainnya adalah transformasi data, di mana kumpulan data dengan
kumpulan atribut tertentu dapat diubah menjadi kumpulan data dengan kumpulan
atribut lain dengan tipe yang sama atau berbeda. Misalnya, atribut, seperti usia,
dapat dipartisi menjadi rentang untuk membuat nilai diskrit untuk kenyamanan
analitis.
Proses pembersihan data membutuhkan metode statistik yang biasa digunakan untuk
estimasi data yang hilang. Selain itu, entri data yang salah sering dihapus untuk memastikan
hasil penambangan yang lebih akurat.
Seleksi dan transformasi fitur tidak boleh dianggap sebagai bagian dari pemrosesan awal
data karena fase pemilihan fitur sering kali sangat bergantung pada masalah analitik spesifik
yang sedang dipecahkan. Dalam beberapa kasus, proses pemilihan fitur bahkan dapat
terintegrasi erat dengan algoritme atau metodologi tertentu yang digunakan, dalam bentuk
model pembungkus atau model yang disematkan. Namun demikian, tahap pemilihan fitur
biasanya dilakukan sebelum menerapkan algoritma tertentu yang ada.
1.2.2 Fase Analitik.

Tantangan utama adalah bahwa setiap aplikasi data mining itu unik, dan oleh karena
itu, sulit untuk membuat teknik umum dan dapat digunakan kembali di berbagai aplikasi.
Namun demikian, banyak formulasi data mining berulang kali digunakan dalam konteks
aplikasi yang berbeda. Ini sesuai dengan "masalah super" utama atau blok bangunan dari
proses penggalian data. Hal ini bergantung pada keterampilan dan pengalaman analis untuk
menentukan bagaimana formulasi yang berbeda ini dapat digunakan dalam konteks aplikasi
data mining tertentu. Kemampuan untuk menerapkan model data mining fundamental,pada
aplikasi dunia nyata hanya dapat dipelajari dengan pengalaman praktis.
1.3 Tipe Dasar Data

Salah satu aspek menarik dari proses data mining adalah banyaknya variasi tipe data
yang tersedia untuk analisis. Ada dua tipe data yang luas, dengan kompleksitas yang
berbeda-beda, untuk proses data mining:
 Data berorientasi nondependensi: Ini biasanya mengacu pada tipe data sederhana
seperti data multidimensi atau data teks. Tipe data ini adalah yang paling sederhana

dan paling umum ditemui. Dalam kasus ini, catatan data tidak memiliki
ketergantungan tertentu antara item data atau atribut. Contohnya adalah sekumpulan
catatan demografis tentang individu yang berisi usia, jenis kelamin, dan kode pos
mereka.
 Data berorientasi dependensi/ketergantungan: Dalam kasus ini, hubungan
implisit atau eksplisit mungkin ada antara item data. Misalnya, kumpulan data
jaringan sosial berisi sekumpulan simpul (item data) yang dihubungkan bersama
oleh sekumpulan tepi (hubungan). Di sisi lain, deret waktu berisi dependensi
implisit. Misalnya, dua nilai berurutan yang dikumpulkan dari sebuah sensor
kemungkinan besar akan terkait satu sama lain. Oleh karena itu, atribut waktu secara
implisit menentukan ketergantungan antara pembacaan yang berurutan.
Secara umum, data berorientasi ketergantungan lebih menantang karena kompleksitas yang
dibuat oleh hubungan yang sudah ada sebelumnya antara item data. Ketergantungan antara
item data tersebut perlu dimasukkan langsung ke dalam proses analitis untuk mendapatkan
hasil yang bermakna secara kontekstual.
1.3.1 Data Berorientasi Nondependensi

Ini adalah bentuk data yang paling sederhana dan biasanya mengacu pada data
multidimensi. Data ini biasanya berisi sekumpulan record. Rekaman juga disebut sebagai
titik data, contoh, contoh, transaksi, entitas, tupel, objek, atau vektor fitur, tergantung pada
aplikasi yang ada. Setiap rekaman berisi sekumpulan bidang, yang juga disebut sebagai
atribut, dimensi, dan fitur. Istilah-istilah ini akan digunakan secara bergantian di seluruh
buku ini. Bidang ini menjelaskan properti berbeda dari rekaman itu. Sistem database
relasional secara tradisional dirancang untuk menangani jenis data ini, bahkan dalam bentuk
paling awal. Misalnya, pertimbangkan kumpulan data demografis yang diilustrasikan pada
Tabel 1.1. Di sini, properti demografis individu, seperti usia, jenis kelamin, dan kode pos,
diilustrasikan. Kumpulan data multidimensi didefinisikan sebagai berikut:
Sepanjang bab-bab awal buku ini, kami akan bekerja dengan data multidimensi karena ini
adalah bentuk data yang paling sederhana dan menetapkan prinsip yang lebih luas di mana
tipe data yang lebih kompleks dapat diproses. Tipe data yang lebih kompleks akan dibahas
di bab-bab selanjutnya dari buku ini, dan dampak ketergantungan pada proses penambangan
akan dibahas secara eksplisit.
1.3.1.1 Data Multidimensi Kuantitatif

Atribut pada Tabel 1.1 terdiri dari dua jenis. Bidang usia memiliki nilai numerik dalam
arti memiliki urutan alami. Atribut seperti itu disebut kontinu, numerik, atau kuantitatif.

Data di mana semua bidang bersifat kuantitatif juga dirujuk sebagai data kuantitatif atau
𝑗
data numerik. Jadi, jika setiap nilai 𝑥𝑖 dalam Definisi 1.3.1 bersifat kuantitatif, kumpulan
data yang sesuai disebut sebagai data multidimensi kuantitatif. Dalam literatur data mining,
subtipe data tertentu ini dianggap yang paling umum, dan banyak algoritme yang dibahas
dalam buku ini bekerja dengan subtipe data ini. Subtipe ini sangat cocok untuk pemrosesan
analitis karena lebih mudah bekerja dengan data kuantitatif dari perspektif statistik.
Misalnya, rata-rata sekumpulan catatan kuantitatif dapat dinyatakan sebagai rata-rata
sederhana dari nilai-nilai ini, sedangkan perhitungan seperti itu menjadi lebih kompleks
pada tipe data lainnya. Jika memungkinkan dan efektif, banyak algoritme data mining oleh
karena itu mencoba mengonversi berbagai jenis data menjadi nilai kuantitatif sebelum
diproses. Ini juga alasan mengapa banyak algoritma yang dibahas dalam buku teks data
mining ini (atau yang lainnya) mengasumsikan representasi multidimensi kuantitatif.
Namun demikian, dalam aplikasi nyata, datanya cenderung lebih kompleks dan mungkin
berisi campuran berbagai tipe data.
1.3.1.2 Data Atribut Kategorikal dan Campuran

Banyak kumpulan data dalam aplikasi nyata mungkin berisi atribut kategorikal yang
mengambil nilai diskrit yang tidak diurutkan. Misalnya, pada Tabel 1.1, atribut seperti jenis
kelamin, ras, dan kode ZIP, memiliki nilai diskrit tanpa urutan alami di antara atribut
𝑗
tersebut. Jika setiap nilai 𝑥𝑖 dalam Definisi 1.3.1 bersifat kategorikal, maka data tersebut
disebut sebagai nilai diskrit tidak berurutan atau kategorikal. Dalam kasus data atribut
campuran, terdapat kombinasi atribut kategorikal dan numerik. Data lengkap pada Tabel
1.1 dianggap sebagai data atribut campuran karena mengandung atribut numerik dan
kategori. Atribut yang sesuai dengan jenis kelamin adalah khusus karena bersifat kategoris,
tetapi hanya dengan dua kemungkinan nilai. Dalam kasus seperti itu, dimungkinkan untuk
memaksakan pengurutan buatan antara nilai-nilai ini dan menggunakan algoritme yang
dirancang untuk data numerik untuk jenis ini. Ini disebut sebagai data biner, dan dapat
dianggap sebagai kasus khusus baik data numerik maupun kategori. Selanjutnya akan
dijelaskan bagaimana data biner membentuk "jembatan" untuk mengubah atribut numerik
atau kategorikal ke dalam format umum yang sesuai untuk diproses dalam banyak skenario.
1.3.1.3 Biner dan Set Data

Data biner dapat dianggap sebagai kasus khusus baik dari data kategori multidimensi
maupun data kuantitatif multidimensi. Ini adalah kasus khusus dari data kategorikal
multidimensi, di mana setiap atribut kategorikal dapat mengambil salah satu dari paling
banyak dua nilai diskrit. Ini juga merupakan kasus khusus dari data kuantitatif multidimensi
karena ada urutan di antara dua nilai. Selain itu, data biner juga merupakan representasi dari
data setwise, dimana setiap atribut diperlakukan sebagai indikator elemen himpunan. Nilai
1 menunjukkan bahwa elemen tersebut harus dimasukkan dalam himpunan. Data semacam
itu umum dalam aplikasi keranjang pasar (market basket appplications).
1.3.1.4 Data Teks
Data teks dapat dilihat baik sebagai string, atau sebagai data multidimensi, tergantung
bagaimana mereka direpresentasikan. Dalam bentuk mentahnya, dokumen teks
berhubungan dengan string. Ini adalah tipe data berorientasi ketergantungan, yang akan
dijelaskan nanti dalam bab ini. Setiap string adalah urutan karakter (atau kata) yang sesuai
dengan dokumen. Namun, dokumen teks jarang direpresentasikan sebagai string. Ini karena

sulit untuk secara langsung menggunakan pengurutan antar kata dengan cara yang efisien
untuk aplikasi berskala besar, dan keuntungan tambahan dari memanfaatkan pengurutan
seringkali terbatas dalam domain teks.
Dalam praktiknya, representasi vektor-ruang digunakan, di mana frekuensi kata-kata dalam
dokumen digunakan untuk analisis. Kata-kata terkadang juga disebut sebagai istilah.
Dengan demikian, urutan kata-kata yang tepat hilang dalam representasi ini. Frekuensi ini
biasanya dinormalisasi dengan statistik seperti panjang dokumen, atau frekuensi kata-kata
individu dalam kumpulan. Masalah-masalah ini akan dibahas secara rinci di Bab. 13 tentang
data teks. Matriks data n × d yang sesuai untuk kumpulan teks dengan n dokumen dan
istilah d disebut sebagai matriks istilah dokumen.
Jika direpresentasikan dalam bentuk vektor-ruang, data teks dapat dianggap sebagai data
kuantitatif multidimensi, di mana atribut sesuai dengan kata, dan nilainya sesuai dengan
frekuensi atribut tersebut. Namun, jenis data kuantitatif ini istimewa karena sebagian besar
atribut menggunakan nilai nol, dan hanya sedikit atribut yang memiliki nilai bukan nol. Ini
karena satu dokumen mungkin hanya berisi sejumlah kecil kata dari kamus berukuran 105.
Fenomena ini disebut sebagai data sparsity, dan secara signifikan mempengaruhi proses
data mining. Penggunaan langsung dari algoritma data mining kuantitatif, sering kali tidak
mungkin berfungsi dengan data jarang tanpa modifikasi yang sesuai.
Ketersebaran juga memengaruhi bagaimana data direpresentasikan. Misalnya, meskipun
dimungkinkan untuk menggunakan representasi yang disarankan dalam Definisi 1.3.1, ini
𝑗
bukanlah pendekatan praktis. Sebagian besar nilai 𝑥𝑖 dalam Definisi 1.3.1 adalah 0 untuk
kasus data teks. Oleh karena itu, tidak efisien untuk secara eksplisit mempertahankan
representasi berdimensi-d yang sebagian besar nilainya adalah 0. Representasi bag of-words
digunakan yang hanya mengandung kata-kata dalam dokumen. Selain itu, frekuensi kata-
kata ini dipertahankan secara eksplisit. Pendekatan ini biasanya lebih efisien. Karena
masalah ketersebaran data, data teks sering kali diproses dengan metode khusus. Oleh
karena itu, penambangan teks sering dipelajari sebagai subtopik terpisah dalam
penambangan data.
1.3.2 Data berorientasi dependensi/ketergantungan

Dalam praktiknya, nilai data yang berbeda mungkin (secara implisit) terkait satu sama
lain secara temporer, Spasial, atau melalui tautan hubungan jaringan eksplisit antara item
data. Pengetahuan tentang ketergantungan yang sudah ada sebelumnya sangat mengubah
proses data mininga data mining adalah tentang menemukan hubungan antara item data.
Kehadiran dependensi yang sudah ada sebelumnya mengubah hubungan yang diharapkan
dalam data, dan apa yang mungkin dianggap menarik dari perspektifungan yang diharapkan
ini. Beberapa jenis ketergantungan mungkin ada yang mungkin implisit atau eksplisit:
 Dependensi implisit: Dalam kasus ini, ketergantungan antara item data tidak
ditentukan secara eksplisit tetapi diketahui "biasanya" ada di domain tersebut.
Misalnya, nilai suhu berurutan yang dikumpulkan oleh sensor kemungkinan besar
akan sangat mirip satu sama lain. Oleh karena itu, jika nilai suhu yang direkam oleh
sensor pada waktu tertentu sangat berbeda dari yang direkam pada saat berikutnya,
maka ini sangat tidak biasa dan mungkin menarik untuk proses penggalian data. Ini
berbeda dari kumpulan data multidimensi di mana setiap catatan data diperlakukan
sebagai entitas independen.
 Dependensi eksplisit: Ini biasanya mengacu pada grafik atau data jaringan di mana
edge digunakan untuk menentukan hubungan eksplisit. Grafik adalah abstraksi yang

sangat kuat yang sering digunakan sebagai representasi perantara untuk
menyelesaikan masalah data mining dalam konteks tipe data lainnya.
Pada bagian ini, tipe data berorientasi ketergantungan yang berbeda akan dibahas secara
rinci.
1.3.2.1 Data Time Series

Data deret waktu berisi nilai yang biasanya dihasilkan oleh pengukuran berkelanjutan
dari waktu ke waktu. Misalnya, sensor lingkungan akan mengukur suhu secara terus
menerus, sedangkan elektrokardiogram (EKG) akan mengukur parameter iramatung subjek.
Data semacam itu biasanya memiliki dependensi implisit yang dibangun ke dalam nilai
yang diterima dari waktu ke waktu. Misalnya, nilai berdekatan yang direkam oleh sensor
suhu biasanya akan bervariasi dengan lancar dari waktu ke waktu, dan faktor ini perlu
digunakan secara eksplisit dalam proses penggalian data. Sifat ketergantungan temporal
dapat bervariasi secara signifikan dengan aplikasi. Misalnya, beberapa bentuk pembacaan
sensor dapat menunjukkan pola pengukuran berkala atribut dari waktu ke waktu. Aspek
penting dari penambangan deret waktu adalah ekstraksi dependensi semacam itu dalam data.
Untuk memformalkan masalah ketergantungan yang disebabkan oleh korelasi temporal,
atribut diklasifikasikan menjadi dua jenis:
 Atribut kontekstual: Ini adalah atribut yang menentukan konteks atas dasar
dependensi implisit yang terjadi dalam data. Misalnya, dalam kasus data sensor, cap
waktu di mana pembacaan diukur dapat dianggap sebagai atribut kontekstual.
Terkadang, stempel waktu tidak digunakan secara eksplisit, tetapi indeks posisi
digunakan. Sementara tipe data deret waktu hanya berisi satu atribut kontekstual,
tipe data lain mungkin memiliki lebih dari satu atribut kontekstual. Contoh
spesifiknya adalah data spasial, yang akan dibahas nanti dalam bab ini.
 Atribut perilaku: Ini mewakili nilai yang diukur dalam konteks tertentu. Dalam
contoh sensor, temperatur adalah nilai atribut perilaku. Dimungkinkan untuk
memiliki lebih dari satu atribut perilaku. Misalnya, jika beberapa sensor merekam
pembacaan pada stempel waktu yang disinkronkan, maka itu menghasilkan
kumpulan data deret waktu multidimensi.
Atribut kontekstual biasanya memiliki dampak yang kuat pada ketergantungan antara nilai
atribut perilaku dalam data. Secara formal, data deret waktu didefinisikan sebagai berikut: .
Misalnya, pertimbangkan kasus di mana dua sensor di lokasi tertentu memantau suhu dan
tekanan setiap detik selama satu menit. Hal ini sesuai dengan deret multidimensi dengan d
= 2 dan n = 60. Dalam beberapa kasus, stempel/penanda waktu t1 ... tn dapat diganti dengan
nilai indeks dari 1 hingga n, terutama bila nilai stempel waktu berjarak sama pada suatu
bagian . Data time series relatif umum di banyak aplikasi sensor, peramalan, dan analisis
pasar keuangan.
1.3.2.2 Discrete Sequences and Strings

Discrete Sequences dapat dianggap sebagai analog kategorikal dari data deret waktu.
Seperti dalam kasus data deret waktu, atribut kontekstualnya adalah stempel waktu atau

indeks posisi dalam urutan. Atribut behavioral adalah nilai kategoris. Oleh karena itu, data
urutan diskrit didefinisikan dengan cara yang mirip dengan data time series.
Misalnya, pertimbangkan urutan akses Web, di mana alamat halaman Web dan alamat IP
asal dari permintaan dikumpulkan untuk 100 akses berbeda. Ini mewakili urutan diskrit
dengan panjang n = 100 dan dimensi d = 2. Kasus yang sangat umum dalam data urutan
adalah skenario univariat, di mana nilai d adalah 1. Data urutan tersebut juga disebut sebagai
string.
Perlu dicatat bahwa definisi yang disebutkan di atas hampir identik dengan kasus rangkaian
waktu, dengan perbedaan utama adalah bahwa urutan diskrit mengandung atribut
kategorikal. Secara teori, dimungkinkan untuk memiliki deret yang dicampur antara data
kategorikal dan numerik. Variasi penting lainnya adalah kasus di mana urutan tidak
mengandung atribut kategorikal, tetapi sekumpulan nilai kategorikal yang tidak berurutan.
Misalnya, transaksi supermarket mungkin berisi serangkaian item. Setiap set dapat berisi
sejumlah item. Urutan setwise tersebut sebenarnya bukan urutan multivariasi, tetapi
merupakan urutan univariat, di mana setiap elemen urutan adalah satu set yang bertentangan
dengan elemen unit. Dengan demikian, urutan diskrit dapat didefinisikan dalam berbagai
cara yang lebih luas, dibandingkan dengan data deret waktu karena kemampuan untuk
menentukan himpunan pada elemen diskrit.
Dalam beberapa kasus, atribut kontekstual mungkin tidak mengacu pada waktu secara
eksplisit, tetapi mungkin merupakan posisi yang didasarkan pada penempatan fisik. Ini
adalah kasus untuk data urutan biologis. Dalam kasus seperti itu, stempel waktu dapat
diganti dengan indeks yang mewakili posisi nilai dalam string, menghitung posisi paling
kiri sebagai 1. Beberapa contoh skenario umum di mana data urutan mungkin muncul
adalah sebagai berikut:
 Log peristiwa (event logs): Berbagai macam sistem komputer, server web, dan
aplikasi web membuat log peristiwa berdasarkan aktivitas pengguna. Contoh log
peristiwa adalah urutan tindakan pengguna di situs web keuangan:
Urutan khusus ini mungkin mewakili skenario di mana pengguna mencoba masuk
ke sistem yang dilindungi sandi, dan mungkin menarik dari perspektif deteksi
anomali.
 Data biologis (Biological data): Dalam hal ini, urutannya mungkin sesuai dengan
string nukleotida atau asam amino. Pengurutan unit tersebut memberikan informasi
tentang karakteristik fungsi protein. Oleh karena itu, proses data mining dapat
digunakan untuk menentukan pola menarik yang mencerminkan sifat biologis yang
berbeda.
Urutan diskrit seringkali lebih menantang untuk algoritma penambangan karena mereka
tidak memiliki nilai kelancaran kontinuitas data deret waktu.
1.3.2.3 Data Spasial

Dalam data spasial, banyak atribut nonspatial (misalnya, suhu, tekanan, intensitas warna
piksel gambar) diukur di lokasi spasial. Misalnya, suhu permukaan laut sering dikumpulkan

oleh ahli meteorologi untuk meramalkan terjadinya badai. Dalam kasus seperti itu,
koordinat spasial sesuai dengan atribut kontekstual, sedangkan atribut seperti suhu sesuai
dengan atribut perilaku. Biasanya, ada dua atribut spasial. Seperti dalam kasus data deret
waktu, dimungkinkan juga untuk memiliki beberapa atribut perilaku. Misalnya, dalam
penerapan suhu permukaan laut, seseorang juga dapat mengukur atribut perilaku lainnya
seperti tekanan.
Definisi tersebut di atas memberikan fleksibilitas yang luas dalam hal bagaimana
catatan Xi dan lokasi Li dapat didefinisikan. Misalnya, atribut perilaku dalam catatan Xi
mungkin berupa numerik atau kategorikal, atau campuran keduanya. Dalam aplikasi
meteorologi, Xi mungkin berisi atribut suhu dan tekanan di lokasi Li. Lebih lanjut, Li dapat
dispesifikasikan dalam istilah koordinat spasial yang tepat, seperti lintang dan bujur, atau
dalam istilah lokasi logis, seperti kota atau negara bagian. Penambangan data spasial terkait
erat dengan penambangan data deret waktu, di mana atribut perilaku dalam aplikasi spasial
yang paling sering dipelajari bersifat kontinu, meskipun beberapa aplikasi dapat
menggunakan atribut kategorikal juga. Oleh karena itu, kontinuitas nilai diamati di seluruh
lokasi spasial yang berdekatan, seperti halnya kontinuitas nilai diamati di lokasi yang
berdekatan stempel waktu dalam data deret waktu
.
1.3.2.4 Data Spatiotemporal
Bentuk tertentu dari data spasial adalah data spasiotemporal, yang mengandung atribut
spasial dan temporal. Sifat tepat dari data juga bergantung pada atribut mana yang
kontekstual dan mana yang berperilaku. Dua jenis data spasiotemporal paling umum:
 Baik atribut spasial dan temporal bersifat kontekstual: Jenis data ini dapat
dipandang sebagai generalisasi langsung dari data spasial dan data temporal. Jenis
data ini sangat berguna ketika dinamika spasial dan temporal dari atribut perilaku
tertentu diukur secara bersamaan. Misalnya, pertimbangkan kasus di mana variasi
suhu permukaan laut perlu diukur dari waktu ke waktu. Dalam kasus seperti itu,
suhu adalah atribut perilaku, sedangkan atribut spasial dan temporal bersifat
kontekstual.
 Atribut temporal bersifat kontekstual, sedangkan atribut spasial adalah perilaku:
Sebenarnya, jenis data ini juga dapat dianggap sebagai data deret waktu. Namun,
sifat spasial dari atribut perilaku juga memberikan interpretabilitas yang lebih baik
dan analisis yang lebih terfokus dalam banyak skenario. Bentuk paling umum dari
data ini muncul dalam konteks analisis lintasan
Harus diperhatikan bahwa data deret waktu 2 atau 3 dimensi dapat dipetakan ke lintasan.
Ini adalah transformasi yang berguna karena menyiratkan bahwa algoritme penambangan
lintasan juga dapat digunakan untuk data deret waktu 2 atau 3 dimensi. Misalnya, kumpulan
data Intel Research Berkeley [556] berisi bacaan dari berbagai sensor. Contoh sepasang
bacaan dari sensor suhu dan tegangan diilustrasikan pada Gambar. 1.2a dan b. Lintasan
suhu-tegangan yang sesuai diilustrasikan pada Gambar 1.2c

1.3.2.5 Network dan Data Graph
Dalam jaringan dan data grafik, nilai data mungkin sesuai dengan node dalam jaringan,
sedangkan hubungan antara nilai data mungkin sesuai dengan tepi dalam jaringan. Dalam
beberapa kasus, atribut dapat dikaitkan dengan node di jaringan. Meskipun dimungkinkan
juga untuk mengaitkan atribut dengan edge dalam jaringan, hal itu jauh lebih jarang
dilakukan.
Tepi (i, j) dapat diarahkan atau tidak, tergantung pada aplikasi yang digunakan. Misalnya,
grafik Web mungkin berisi tepi terarah yang sesuai dengan arah hyperlink antar halaman,
sedangkan pertemanan di jejaring sosial Facebook tidak terarah. Kelas kedua dari masalah
penambangan grafik adalah database yang berisi banyak grafik kecil seperti senyawa kimia.
Tantangan di kedua kelas masalah ini sangat berbeda. Beberapa contoh data yang
direpresentasikan dalam bentuk grafik adalah sebagai berikut:
 Grafik web: Node berhubungan dengan halaman Web, dan ujungnya berhubungan
dengan hyperlink. Node memiliki atribut teks yang sesuai dengan konten di
halaman.
 Jejaring sosial: Dalam hal ini, simpul berhubungan dengan aktor jejaring sosial,
sedangkan tepi berhubungan dengan tautan pertemanan. Node tersebut mungkin
memiliki atribut yang sesuai dengan konten halaman sosial. Dalam beberapa bentuk
jaringan sosial khusus, seperti email atau jaringan chat-messenger, ujung-ujungnya

mungkin memiliki konten yang terkait dengannya. Konten ini sesuai dengan
komunikasi antara node yang berbeda.
 Database senyawa kimia: Dalam hal ini, simpul berhubungan dengan unsur-unsur
dan ujung-ujungnya berhubungan dengan ikatan kimia antar unsur. Struktur dalam
senyawa kimia ini sangat berguna untuk mengidentifikasi sifat reaktif dan
farmakologis penting dari senyawa tersebut.
Data jaringan adalah representasi yang sangat umum dan dapat digunakan untuk
menyelesaikan banyak aplikasi berbasis kemiripan pada tipe data lainnya. Misalnya, data
multidimensi dapat diubah menjadi data jaringan dengan membuat node untuk setiap record
dalam database, dan merepresentasikan kesamaan antara node dengan edge. Representasi
seperti itu cukup sering digunakan untuk banyak aplikasi data mining berbasis kesamaan,
seperti pengelompokan. Algoritme deteksi komunitas dapat digunakan untuk menentukan
cluster dalam data jaringan dan kemudian memetakannya kembali ke data multidimensi.
Keumuman data jaringan ini ada harganya. Pengembangan algoritma penambangan untuk
data jaringan umumnya lebih sulit.
1.4 Blok Bangunan Utama: A Bird’s Eye View

Seperti yang dibahas dalam pendahuluan Sect. 1.1, empat masalah dalam penambangan
data dianggap mendasar untuk proses penambangan. Masalah-masalah ini berhubungan
dengan pengelompokan, klasifikasi, penambangan pola asosiasi, dan deteksi outlier, dan
masalah ini ditemui berulang kali dalam konteks banyak aplikasi penambangan data. Apa
yang membuat masalah ini begitu istimewa?
Mengapa mereka bertemu berulang kali? Untuk menjawab pertanyaan-pertanyaan ini,
seseorang harus memahami sifat dari hubungan khas yang sering dicoba diekstraksi oleh
para ilmuwan data dari data.
Pertimbangkan database multidimensi D dengan n record, dan d atribut. Seperti database D
dapat direpresentasikan sebagai n × d matriks D, di mana setiap baris sesuai dengan satu
catatan dan setiap kolom sesuai dengan dimensi. Kami biasanya menyebut matriks ini
sebagai matriks data. Buku ini akan menggunakan notasi matriks data D, dan database D
secara bergantian. Secara umum, data mining adalah tentang menemukan hubungan
ringkasan antara entri dalam matriks data yang sering atau tidak biasa. Hubungan antara
item data adalah salah satu dari dua jenis:
 Hubungan antar kolom: Dalam hal ini, hubungan sering atau jarang antara nilai
dalam baris tertentu ditentukan. Ini memetakan ke dalam masalah penambangan
pola asosiasi positif atau negatif, meskipun yang pertama lebih umum dipelajari.
Dalam beberapa kasus, satu kolom tertentu dari matriks dianggap lebih penting
daripada kolom lainnya karena mewakili atribut target dari analis data mining.
Dalam kasus seperti itu, seseorang mencoba untuk menentukan bagaimana
hubungan di kolom lain berhubungan dengan kolom khusus ini. Hubungan tersebut
dapat digunakan untuk memprediksi nilai kolom khusus ini, ketika nilai kolom
khusus tersebut tidak diketahui. Masalah ini disebut sebagai klasifikasi data. Proses
penambangan disebut sebagai diawasi ketika didasarkan pada memperlakukan
atribut tertentu sebagai khusus dan memprediksinya.
 Hubungan antar baris: Dalam kasus ini, tujuannya adalah untuk menentukan
himpunan bagian dari baris, di mana nilai dalam kolom terkait terkait. Dalam kasus
di mana himpunan bagian ini serupa, masalah yang sesuai disebut sebagai
pengelompokan. Di samping itu, ketika entri dalam satu baris sangat berbeda dari

entri yang sesuai di baris lain, maka baris yang sesuai menjadi menarik sebagai titik
data yang tidak biasa, atau sebagai anomali. Masalah ini disebut sebagai analisis
outlier. Menariknya, masalah pengelompokan terkait erat dengan klasifikasi, di
mana yang terakhir dapat dianggap sebagai versi terawasi dari yang pertama. Nilai-
nilai diskrit dari kolom khusus dalam data sesuai dengan pengidentifikasi grup dari
kelompok berbeda yang diinginkan atau diawasi dari catatan serupa khusus aplikasi
dalam data. Misalnya, ketika kolom khusus sesuai dengan apakah pelanggan tertarik
pada produk tertentu, ini mewakili dua kelompok dalam data yang satu tertarik
untuk belajar, dengan penggunaan pengawasan. Istilah "pengawasan" mengacu
pada fakta bahwa kolom khusus digunakan untuk mengarahkan proses
penambangan data dengan cara khusus aplikasi, seperti halnya seorang guru dapat
mengawasi siswanya menuju tujuan tertentu.
Dengan demikian, keempat masalah ini penting karena tampaknya mencakup berbagai
skenario yang mewakili berbagai jenis hubungan positif, negatif, terawasi, atau tidak
terawasi antara entri matriks data. Masalah-masalah ini juga terkait satu sama lain dalam
berbagai cara. Misalnya, pola asosiasi dapat dianggap sebagai representasi tidak langsung
dari cluster (tumpang tindih), di mana setiap pola sesuai dengan sekelompok titik data yang
merupakan subset.
Harus ditunjukkan bahwa diskusi yang disebutkan di atas mengasumsikan tipe data
multidimensi (paling sering ditemui), meskipun masalah ini terus mempertahankan
kepentingan relatifnya untuk tipe data yang lebih kompleks. Namun, tipe data yang lebih
kompleks memiliki variasi yang lebih luas dari rumusan masalah yang terkait dengannya
karena kompleksitasnya yang lebih besar. Masalah ini akan dibahas secara rinci nanti di
bagian ini.
Telah diamati secara konsisten bahwa banyak skenario aplikasi menentukan hubungan
seperti itu antara baris dan kolom dari matriks data sebagai langkah perantara. Inilah alasan
mengapa pemahaman yang baik tentang masalah blok bangunan ini sangat penting untuk
proses penambangan data. Oleh karena itu, bagian pertama buku ini akan fokus pada
masalah-masalah ini secara rinci sebelum menggeneralisasi ke skenario yang kompleks.
1.4.1 Association Pattern Mining

Dalam bentuknya yang paling primitif, masalah penambangan pola asosiasi
didefinisikan dalam konteks basis data biner yang jarang, di mana matriks data hanya berisi
0/1 entri, dan sebagian besar entri mengambil nilai 0. Sebagian besar basis data transaksi
pelanggan adalah jenis ini . Misalnya, jika setiap kolom dalam matriks data sesuai dengan
item, dan transaksi pelanggan mewakili baris, entri (i, j) adalah 1, jika transaksi pelanggan
i berisi item j sebagai salah satu item yang dibeli. Sebuah versi yang sangat umum dipelajari
dari masalah ini adalah masalah penambangan pola yang sering atau, lebih umum, masalah
penambangan pola asosiasi. Dalam hal matriks data biner, masalah penambangan pola yang
sering dapat didefinisikan secara formal sebagai berikut:
Pola yang memenuhi persyaratan dukungan minimum sering disebut sebagai pola frequent,
atau frequent itemset. Pola yang sering mewakili kelas pola asosiasi yang penting. Banyak
definisi lain dari pola asosiasi yang relevan yang mungkin tidak menggunakan frekuensi

absolut tetapi menggunakan kuantifikasi statistik lain seperti ukuran χ2 . Langkah-langkah
ini sering mengarah pada pembuatan aturan yang lebih menarik dari perspektif statistik.
Namun demikian, definisi khusus dari penambangan pola asosiasi ini telah menjadi yang
paling populer dalam literatur karena kemudahan dalam mengembangkan algoritma untuk
itu. Oleh karena itu, buku ini mengacu pada masalah ini sebagai penambangan pola asosiasi
sebagai lawan dari penambangan pola yang sering.
Misalnya, jika kolom matriks data D yang sesuai dengan Roti, Mentega, dan Susu sering
kali bernilai 1 bersama-sama dalam basis data transaksi pelanggan, maka ini menyiratkan
bahwa barang-barang ini sering dibeli bersama. Ini adalah informasi yang sangat berguna
bagi pedagang dari perspektif penempatan fisik barang di toko, atau dari perspektif promosi
produk. Penambangan pola asosiasi tidak terbatas pada kasus data biner dan dapat dengan
mudah digeneralisasikan ke atribut kuantitatif dan numerik dengan menggunakan
transformasi data yang sesuai, yang akan dibahas dalam Bab. 4.
Penambangan pola asosiasi awalnya diusulkan dalam konteks penambangan aturan asosiasi,
di mana langkah tambahan dimasukkan berdasarkan ukuran yang dikenal sebagai
kepercayaan aturan. Sebagai contoh, perhatikan dua himpunan item A dan B. Confidence
dari aturan A ⇒ B didefinisikan sebagai pecahan dari transaksi yang mengandung A, yang
juga mengandung B. Dengan kata lain, confidence diperoleh dengan membagi support dari
pola A B dengan dukungan pola A. Kombinasi dukungan dan keyakinan digunakan untuk
mendefinisikan aturan asosiasi.
Dengan memasukkan pengawasan dalam algoritma penambangan aturan asosiasi,

dimungkinkan untuk memberikan solusi untuk masalah klasifikasi. Banyak variasi
penambangan pola asosiasi juga terkait dengan pengelompokan dan analisis outlier. Ini
adalah konsekuensi alami dari fakta bahwa analisis horizontal dan vertikal dari matriks data
sering terkait satu sama lain. Pada kenyataannya, banyak variasi masalah penambangan pola
asosiasi digunakan sebagai subrutin untuk menyelesaikan masalah pengelompokan, analisis
outlier, dan klasifikasi.
1.4.2 Data Clustering

Definisi yang agak luas dan informal dari masalah pengelompokan adalah sebagai
berikut:
Kami sengaja memberikan definisi informal di sini karena pengelompokan memungkinkan

berbagai definisi kesamaan, beberapa di antaranya tidak didefinisikan secara jelas dalam
bentuk tertutup oleh fungsi kesamaan. Masalah pengelompokan sering dapat didefinisikan
sebagai masalah optimasi, di mana variabel dari masalah optimasi mewakili keanggotaan
cluster dari titik data, dan fungsi tujuan memaksimalkan kuantifikasi matematis konkret dari
kesamaan intragroup dalam hal variabel-variabel ini.

Bagian penting dari proses clustering adalah desain fungsi kesamaan yang sesuai untuk
proses komputasi. Jelas, perhitungan kesamaan sangat bergantung pada tipe data yang
mendasarinya. Masalah perhitungan kesamaan akan dibahas secara rinci dalam Bab. 3.
Beberapa contoh aplikasi yang relevan adalah sebagai berikut:
 Segmentasi pelanggan: Dalam banyak aplikasi, diinginkan untuk menentukan
pelanggan yang mirip satu sama lain dalam konteks berbagai tugas promosi produk.
Fase segmentasi memainkan peran penting dalam proses ini.
 Peringkasan data: Karena cluster dapat dianggap sebagai grup record yang serupa,
grup serupa ini dapat digunakan untuk membuat ringkasan data.
 Aplikasi untuk masalah penambangan data lainnya: Karena pengelompokan
dianggap sebagai versi klasifikasi yang tidak diawasi, sering digunakan sebagai blok
bangunan untuk menyelesaikan yang terakhir.
Selanjutnya, masalah ini juga digunakan dalam konteks masalah analisis outlier, seperti
yang dibahas di bawah ini.
1.4.3 Deteksi Outlier

Pencilan adalah titik data yang berbeda secara signifikan dari data yang tersisa. Hawkins
secara formal mendefinisikan [259] konsep outlier sebagai berikut:
Pencilan juga disebut sebagai kelainan, sumbang, menyimpang, atau anomali dalam data
mining dan literatur statistik. Di sebagian besar aplikasi, data dibuat oleh satu atau lebih
proses pembangkit yang dapat mencerminkan aktivitas dalam sistem atau pengamatan yang
dikumpulkan tentang entitas. Ketika proses pembangkitan berperilaku dengan cara yang
tidak biasa, itu menghasilkan penciptaan outlier. Oleh karena itu, outlier sering kali berisi
informasi yang berguna tentang karakteristik abnormal dari sistem dan entitas yang
berdampak pada proses pembuatan data. Pengenalan karakteristik yang tidak biasa tersebut
memberikan wawasan khusus aplikasi yang berguna. Masalah deteksi outlier didefinisikan
secara informal dalam matriks data sebagai berikut:
Masalah deteksi outlier terkait dengan masalah pengelompokan dengan saling melengkapi.
Ini karena outlier sesuai dengan titik data yang berbeda dari kelompok utama dalam data.
Di sisi lain, kelompok utama dalam data adalah cluster. Bahkan, metodologi sederhana
untuk menentukan outlier menggunakan pengelompokan sebagai langkah perantara.
Beberapa contoh aplikasi yang relevan adalah sebagai berikut:
 Sistem deteksi penyusupan: Dalam banyak sistem komputer jaringan, berbagai jenis
data dikumpulkan tentang panggilan sistem operasi, lalu lintas jaringan, atau
aktivitas lain dalam sistem. Data ini mungkin menunjukkan perilaku yang tidak
biasa karena aktivitas berbahaya. Deteksi aktivitas tersebut disebut sebagai deteksi
intrusi.
 Penipuan kartu kredit: Penggunaan kartu kredit yang tidak sah dapat menunjukkan
pola yang berbeda, seperti pembelian dari lokasi yang tidak jelas secara geografis.
Pola tersebut mungkin muncul sebagai outlier dalam data transaksi kartu kredit.
 Peristiwa sensor yang menarik: Sensor sering digunakan untuk melacak berbagai
parameter lingkungan dan lokasi di banyak aplikasi nyata. Perubahan mendadak

dalam pola yang mendasarinya dapat mewakili peristiwa yang menarik. Deteksi
peristiwa adalah salah satu aplikasi motivasi utama di bidang jaringan sensor.
 Diagnosis medis: Dalam banyak aplikasi medis, data dikumpulkan dari berbagai
perangkat seperti magnetic resonance imaging (MRI), pemindaian positron
emission tomography (PET), atau deret waktu elektrokardiogram (EKG). Pola yang
tidak biasa dalam data seperti itu biasanya mencerminkan kondisi penyakit.
 Penegakan hukum: Deteksi outlier menemukan banyak aplikasi dalam penegakan
hukum, terutama dalam kasus di mana pola yang tidak biasa hanya dapat ditemukan
dari waktu ke waktu melalui beberapa tindakan suatu entitas. Identifikasi penipuan
dalam transaksi keuangan, aktivitas perdagangan, atau klaim asuransi biasanya
memerlukan penentuan yang tidak biasa pola dalam data yang dihasilkan oleh
tindakan entitas kriminal.
 Ilmu bumi: Sejumlah besar data spatiotemporal tentang pola cuaca, perubahan iklim,
atau pola tutupan lahan dikumpulkan melalui berbagai mekanisme seperti satelit
atau penginderaan jauh. Anomali dalam data tersebut memberikan wawasan yang
signifikan tentang tren manusia atau lingkungan tersembunyi yang mungkin
menyebabkan anomali tersebut.
1.4.4 Data Classification

Banyak masalah data mining diarahkan ke tujuan khusus yang kadang-kadang diwakili
oleh nilai fitur tertentu dalam data. Fitur khusus ini disebut sebagai label kelas. Oleh karena
itu, masalah tersebut diawasi, dimana hubungan fitur yang tersisa dalam data sehubungan
dengan fitur khusus ini dipelajari. Data yang digunakan untuk mempelajari hubungan ini
disebut sebagai data pelatihan. Model yang dipelajari kemudian dapat digunakan untuk
menentukan perkiraan label kelas untuk catatan, di mana label tersebut tidak ada.
Misalnya, dalam aplikasi pemasaran target, setiap catatan dapat ditandai oleh label tertentu
yang mewakili minat (atau kekurangannya) pelanggan terhadap produk tertentu. Label yang
terkait dengan pelanggan mungkin berasal dari perilaku pembelian pelanggan sebelumnya.
Selain itu, serangkaian fitur yang sesuai dengan demografi pelanggan mungkin juga tersedia.
Tujuannya adalah untuk memprediksi apakah pelanggan, yang perilaku pembeliannya tidak
diketahui, akan tertarik pada produk tertentu dengan menghubungkan fitur demografis
dengan label kelas. Oleh karena itu, model pelatihan dibangun, yang kemudian digunakan
untuk memprediksi label kelas. Masalah klasifikasi secara informal didefinisikan sebagai
berikut:
Catatan yang label kelasnya tidak diketahui disebut sebagai catatan tes. Sangat menarik
untuk mengkaji hubungan antara pengelompokan dan masalah klasifikasi. Dalam kasus
masalah pengelompokan, data dipartisi menjadi k grup berdasarkan kesamaan. Dalam kasus
masalah klasifikasi, catatan (pengujian) juga dikategorikan ke dalam salah satu dari k
kelompok, kecuali bahwa hal ini dicapai dengan mempelajari model dari database pelatihan
D, bukan berdasarkan kesamaan. Dengan kata lain, pengawasan dari data pelatihan
mendefinisikan kembali gagasan tentang sekelompok catatan "serupa". Oleh karena itu, dari
perspektif pembelajaran, clustering sering disebut sebagai unsupervised learning (karena
kurangnya database pelatihan khusus untuk “mengajarkan” model tentang pengertian

pengelompokan yang tepat), sedangkan masalah klasifikasi disebut sebagai supervised
learning. .
Masalah klasifikasi terkait dengan penambangan pola asosiasi, dalam arti bahwa masalah
yang terakhir sering digunakan untuk menyelesaikan yang pertama. Ini karena jika seluruh
database pelatihan (termasuk label kelas) diperlakukan sebagai matriks n×(d+1), maka pola
yang sering berisi label kelas dalam matriks ini memberikan petunjuk yang berguna tentang
korelasi fitur lain dengan label kelas. . Faktanya, banyak bentuk pengklasifikasi, yang
dikenal sebagai pengklasifikasi berbasis aturan, didasarkan pada prinsip yang lebih luas ini.
Masalah klasifikasi dapat dipetakan ke versi spesifik dari masalah pendeteksian outlier,
dengan memasukkan pengawasan dalam yang terakhir. Sedangkan masalah deteksi
outlier diasumsikan tidak diawasi secara default, banyak variasi masalah baik sebagian
atau seluruhnya diawasi. Dalam deteksi outlier yang diawasi, beberapa contoh outlier
tersedia.
Dengan demikian, catatan data tersebut ditandai milik kelas langka, sedangkan catatan data
yang tersisa milik kelas normal. Dengan demikian, masalah deteksi outlier yang
diawasi memetakan ke masalah klasifikasi biner, dengan peringatan bahwa label kelas
sangat tidak seimbang.
Penggabungan pengawasan membuat masalah klasifikasi unik dalam hal kekhususan
aplikasi langsung karena penggunaan label kelas khusus aplikasi. Dibandingkan dengan
masalah data mining utama lainnya, masalah klasifikasi relatif mandiri.
Misalnya, masalah pengelompokan dan penambangan pola yang sering lebih sering
digunakan sebagai langkah perantara dalam kerangka kerja aplikasi yang lebih besar.
Bahkan masalah analisis outlier terkadang digunakan dalam cara yang eksploratif. Di sisi
lain, masalah klasifikasi sering digunakan secara langsung sebagai alat yang berdiri sendiri
di banyak aplikasi. Beberapa contoh aplikasi yang menggunakan masalah klasifikasi adalah
sebagai berikut:
 Target pemasaran: Fitur tentang pelanggan terkait dengan perilaku pembelian
mereka dengan penggunaan model pelatihan.
 Deteksi penyusupan: Urutan aktivitas pelanggan dalam sistem komputer dapat
diatur untuk memprediksi kemungkinan penyusupan.
 Deteksi anomali terawasi: Kelas langka dapat dibedakan dari normal ketika contoh
outlier sebelumnya tersedia.
1.4.5 Dampak Tipe Data Kompleks pada Definisi Masalah

Tipe data spesifik memiliki dampak besar pada jenis masalah yang mungkin
didefinisikan. Secara khusus, dalam tipe data yang berorientasi ketergantungan,
ketergantungan sering memainkan peran penting dalam definisi masalah, solusi, atau
keduanya. Ini karena atribut dan dependensi kontekstual sering menjadi dasar bagaimana
data dapat dievaluasi. Selanjutnya, karena tipe data yang kompleks jauh lebih kaya, mereka
memungkinkan perumusan definisi masalah baru yang mungkin tidak ada dalam konteks
data multidimensi. Ringkasan tabel dari variasi yang berbeda dari masalah data mining
untuk tipe data yang berorientasi ketergantungan disediakan pada Tabel 1.2. Berikut ini,
tinjauan singkat akan diberikan tentang bagaimana definisi masalah yang berbeda
dipengaruhi oleh tipe data.

1.4.5.1 Penambangan Pola dengan Tipe Data Kompleks
Masalah penambangan pola asosiasi umumnya menentukan pola dari data yang
mendasarinya dalam bentuk set; namun, ini tidak terjadi ketika dependensi ada dalam data.
Ini karena ketergantungan dan hubungan sering memaksakan pemesanan di antara item data,
dan penggunaan langsung metode penambangan pola yang sering gagal untuk mengenali
hubungan di antara nilai data yang berbeda. Misalnya, ketika sejumlah besar deret waktu
tersedia, mereka dapat digunakan untuk menentukan berbagai jenis pola frekuensi temporal,
di mana urutan temporal dikenakan pada item dalam pola. Selanjutnya, karena adanya
atribut kontekstual tambahan yang mewakili waktu, pola temporal dapat didefinisikan
dengan cara yang jauh lebih kaya daripada pola berbasis set seperti dalam penambangan
pola asosiasi. Pola-pola itu mungkin bersebelahan secara temporal, seperti dalam motif
deret waktu, atau mungkin periodik, seperti dalam pola periodik. Beberapa metode untuk
penambangan pola temporal ini akan dibahas dalam Bab. 14. Sebuah analogi serupa ada
untuk kasus penambangan urutan diskrit, kecuali bahwa konstituen pola individu adalah
kategorikal, sebagai lawan kontinu. Dimungkinkan juga untuk mendefinisikan motif 2
dimensi untuk skenario spasial, dan formulasi seperti itu berguna untuk pemrosesan gambar.
Akhirnya, pola struktural umumnya didefinisikan dalam jaringan yang sesuai dengan
subgraf yang sering ada dalam data. Dengan demikian, dependensi antara node termasuk
dalam definisi pola.
1.4.5.2 Pengelompokan dengan Tipe Data Kompleks

Teknik yang digunakan untuk pengelompokan juga dipengaruhi secara signifikan oleh tipe
data yang mendasarinya. Yang paling penting, fungsi kesamaan dipengaruhi secara
signifikan oleh tipe data. Misalnya, dalam kasus deret waktu, sekuensial, atau data grafik,
kesamaan antara sepasang deret waktu tidak dapat dengan mudah ditentukan dengan
menggunakan metrik langsung seperti metrik Euclidean. Sebaliknya, perlu menggunakan
jenis metrik lain, seperti jarak edit atau kesamaan struktural. Dalam konteks data spasial,
pengelompokan lintasan sangat berguna dalam menemukan pola yang relevan untuk data
seluler, atau untuk multivariate seri waktu (multivariate time series). Untuk data jaringan,
masalah pengelompokan menemukan kelompok node yang terhubung secara padat, dan
juga disebut sebagai deteksi komunitas.

1.4.5.3 Deteksi Pencilan dengan Tipe Data Kompleks.
Dependensi dapat digunakan untuk menentukan nilai yang diharapkan dari item data.
Penyimpangan dari nilai yang diharapkan ini adalah outlier. Misalnya, lompatan tiba-tiba
dalam nilai deret waktu akan menghasilkan posisi outlier di tempat tertentu di mana
lompatan terjadi. Ide dalam metode ini adalah menggunakan teknik berbasis prediksi untuk
meramalkan nilai pada posisi tersebut.
Penyimpangan yang signifikan dari prediksi dilaporkan sebagai outlier posisi. Pencilan
tersebut dapat didefinisikan dalam konteks deret waktu, spasial, dan data sekuensial, di
mana penyimpangan yang signifikan dari lingkungan yang sesuai dapat dideteksi
menggunakan autoregressive, Markovian, atau model lainnya. Dalam konteks data grafik,
outlier mungkin sesuai dengan sifat yang tidak biasa dari node, tepi, atau seluruh subgraf.
Dengan demikian, tipe data yang kompleks menunjukkan kekayaan yang signifikan dalam
hal bagaimana outlier dapat didefinisikan.
1.4.5.4 Klasifikasi dengan Tipe Data Kompleks

Masalah klasifikasi juga menunjukkan sejumlah besar variasi dalam tipe data kompleks
yang berbeda. Misalnya, label kelas dapat dilampirkan ke posisi tertentu dalam rangkaian,
atau dapat dilampirkan ke seluruh rangkaian. Ketika label kelas dilampirkan ke posisi
tertentu dalam rangkaian, ini dapat digunakan untuk melakukan deteksi peristiwa yang
diawasi, di mana kemunculan pertama dari label khusus peristiwa (misalnya, kerusakan
mesin seperti yang disarankan oleh suhu dan tekanan yang mendasarinya sensor) dari seri
tertentu mewakili terjadinya peristiwa. Untuk kasus data jaringan, label dapat dilampirkan
ke node individu dalam jaringan yang sangat besar, atau ke seluruh grafik dalam kumpulan
beberapa grafik. Kasus sebelumnya sesuai dengan klasifikasi node dalam jaringan sosial,
dan juga disebut sebagai klasifikasi kolektif. Kasus terakhir sesuai dengan masalah
klasifikasi senyawa kimia, di mana label dilekatkan pada senyawa berdasarkan sifat
kimianya.
1.5 Masalah Skalabilitas dan Skenario Streaming

Skalabilitas merupakan perhatian penting dalam banyak aplikasi data mining karena
meningkatnya ukuran data dalam aplikasi modern. Secara garis besar, ada dua skenario
penting untuk skalabilitas:
1. Data disimpan pada satu atau lebih mesin, tetapi terlalu besar untuk diproses secara
efisien. Misalnya, mudah untuk merancang algoritma yang efisien dalam kasus di
mana seluruh data dapat disimpan di memori utama. Ketika data disimpan di disk,
penting untuk merancang algoritma sedemikian rupa sehingga akses acak ke disk
diminimalkan. Untuk kumpulan data yang sangat besar, kerangka kerja data besar,
seperti MapReduce, mungkin perlu digunakan. Buku ini akan menyentuh
skalabilitas semacam ini pada tingkat pemrosesan residen disk, jika diperlukan.
2. Data dihasilkan secara terus-menerus dari waktu ke waktu dalam volume tinggi, dan
tidak praktis untuk menyimpannya seluruhnya. Skenario ini adalah aliran data, di
mana data perlu diproses dengan menggunakan pendekatan online.
Skenario terakhir membutuhkan beberapa eksposisi lebih lanjut. Skenario streaming
menjadi semakin populer karena kemajuan teknologi pengumpulan data yang dapat
mengumpulkan data dalam jumlah besar dari waktu ke waktu. Misalnya, transaksi
sederhana dalam kehidupan sehari-hari seperti menggunakan kartu kredit atau telepon dapat
menyebabkan pengumpulan data otomatis. Dalam kasus seperti itu, volume data sangat
besar sehingga mungkin tidak praktis untuk disimpan secara langsung. Sebaliknya, semua

algoritma harus dieksekusi dalam satu lintasan data. Tantangan utama yang muncul dalam
konteks pemrosesan aliran data adalah sebagai berikut:
1. Kendala satu lintasan: Algoritme perlu memproses seluruh kumpulan data dalam
satu lintasan. Dengan kata lain, setelah item data diproses dan ringkasan wawasan
yang relevan telah dikumpulkan, item mentah dibuang dan tidak lagi tersedia untuk
diproses. Jumlah data yang dapat diproses pada waktu tertentu tergantung pada
penyimpanan yang tersedia untuk mempertahankan segmen data.
2. Konsep drift: Di sebagian besar aplikasi, distribusi data berubah seiring waktu.
Misalnya, pola penjualan pada jam tertentu dalam sehari mungkin tidak sama
dengan jam lain dalam sehari. Hal ini menyebabkan perubahan dalam output dari
algoritma penambangan juga.
Seringkali menantang untuk merancang algoritme untuk skenario seperti itu karena tingkat
yang bervariasi di mana pola dalam data dapat berubah dari waktu ke waktu dan pola yang
terus berkembang dalam data yang mendasarinya.
1.6 Berjalan-jalan Melalui Beberapa Skenario Aplikasi

Pada bagian ini, beberapa skenario aplikasi umum akan dibahas. Tujuannya adalah
untuk mengilustrasikan keragaman masalah dan aplikasi yang luas, dan bagaimana mereka
dapat dipetakan ke beberapa blok bangunan yang dibahas dalam bab ini.
1.6.1 Penempatan Produk Toko

Skenario aplikasi dapat dinyatakan sebagai berikut:
Masalah ini terkait erat dengan frequent pattern mining karena analis dapat menggunakan
masalah frequent pattern mining untuk menentukan kelompok item yang sering dibeli
bersama pada level support tertentu. Poin penting yang perlu diperhatikan di sini adalah
bahwa penentuan pola yang sering, sambil memberikan wawasan yang berguna, tidak
memberikan panduan yang tepat kepada pedagang tentang bagaimana produk dapat
ditempatkan di rak yang berbeda. Situasi ini cukup umum dalam data mining. Masalah
building block seringkali tidak secara langsung menyelesaikan masalah yang dihadapi.
Dalam kasus khusus ini, pedagang dapat memilih dari berbagai ide heuristik dalam hal
bagaimana produk dapat ditebar di rak yang berbeda. Misalnya, pedagang mungkin sudah
memiliki penempatan yang ada, dan dapat menggunakan pola frequent untuk membuat skor
numerik untuk kualitas penempatan. Penempatan ini dapat dioptimalkan secara berurutan
dengan membuat perubahan bertahap pada penempatan saat ini. Dengan metodologi
inisialisasi yang tepat, pendekatan penambangan pola yang sering dapat dimanfaatkan
sebagai subrutin yang sangat berguna untuk masalah tersebut. Bagian-bagian dari data
mining ini seringkali spesifik untuk aplikasi dan menunjukkan variasi yang luas di berbagai
domain yang hanya dapat dipelajari melalui pengalaman praktis.
1.6.2 Rekomendasi Pelanggan

Ini adalah masalah yang sangat umum ditemui dalam literatur data mining. Ada banyak
variasi dari masalah ini, tergantung pada jenis data input yang tersedia untuk aplikasi

tersebut. Berikut ini, kita akan memeriksa contoh khusus dari masalah rekomendasi dan
solusi straw-man.
Masalah ini adalah versi sederhana dari masalah penyaringan kolaboratif yang banyak
dipelajari dalam data mining dan literatur rekomendasi. Ada ratusan solusi untuk versi
vanilla dari masalah ini, dan kami memberikan tiga contoh contoh dengan berbagai
kompleksitas di bawah ini:
1. Solusi sederhana adalah dengan menggunakan penambangan aturan asosiasi pada
tingkat dukungan dan kepercayaan tertentu. Untuk pelanggan tertentu, aturan yang
relevan adalah aturan di mana semua barang di sisi kiri sebelumnya dibeli oleh
pelanggan ini. Item yang sering muncul di sisi kanan aturan yang relevan dilaporkan.
2. Solusi sebelumnya tidak menggunakan kesamaan antar pelanggan yang berbeda
untuk membuat rekomendasi. Solusi kedua adalah menentukan baris yang paling
mirip dengan pelanggan target, dan kemudian merekomendasikan item paling
umum yang terjadi di baris serupa ini.
3. Solusi terakhir adalah menggunakan pengelompokan untuk membuat segmen
pelanggan serupa. Dalam setiap segmen yang serupa, penambangan pola asosiasi
dapat digunakan untuk membuat rekomendasi.
Dengan demikian, ada banyak cara untuk memecahkan masalah tertentu yang sesuai dengan
jalur analitis yang berbeda. Jalur yang berbeda ini dapat menggunakan berbagai jenis blok
bangunan, yang semuanya berguna di berbagai bagian proses penambangan data.
1.6.3 Diagnosa medis

Diagnosis medis telah menjadi aplikasi umum dalam konteks data mining. Tipe data
dalam diagnosis medis cenderung kompleks, dan mungkin sesuai dengan gambar, deret
waktu, atau data urutan diskrit. Dengan demikian, tipe data yang berorientasi
ketergantungan cenderung agak umum dalam aplikasi diagnosis medis. Kasus khusus
adalah pembacaan EKG dari pasien jantung.
Aplikasi ini dapat dipetakan ke masalah yang berbeda, tergantung pada sifat data input yang
tersedia. Misalnya, pertimbangkan kasus di mana tidak ada contoh seri EKG anomali
sebelumnya yang tersedia. Dalam kasus seperti itu, masalah dapat dipetakan ke masalah
deteksi outlier. Deret waktu yang berbeda secara signifikan dari deret lainnya dalam data
dapat dianggap sebagai outlier. Namun, metodologi solusi berubah secara signifikan jika
contoh deret normal dan anomali sebelumnya tersedia. Dalam kasus seperti itu, masalah
memetakan ke masalah klasifikasi pada data deret waktu. Selanjutnya, label kelas
cenderung tidak seimbang karena jumlah deret abnormal biasanya jauh lebih sedikit
daripada jumlah deret normal.
1.6.4 Anomali-anomali Web-log

Log web biasanya dikumpulkan di host situs Web yang berbeda. Log tersebut dapat
digunakan untuk mendeteksi aktivitas yang tidak biasa, mencurigakan, atau berbahaya di

situs. Lembaga keuangan secara teratur menganalisis log di situs mereka untuk mendeteksi
upaya penyusupan
Karena data biasanya tersedia dalam bentuk log mentah, sejumlah besar pembersihan data
diperlukan. Pertama, log mentah perlu diubah menjadi rangkaian simbol. Urutan ini
kemudian mungkin perlu didekomposisi menjadi jendela yang lebih kecil untuk
menganalisis urutan pada tingkat perincian tertentu. Urutan anomali dapat ditentukan
dengan menggunakan algoritma pengelompokan urutan, dan kemudian menentukan urutan
yang tidak terletak pada cluster tersebut. Jika diinginkan untuk menemukan posisi tertentu
yang sesuai dengan anomali, maka metode yang lebih canggih seperti model Markovian
dapat digunakan untuk menentukan anomali. Seperti pada kasus sebelumnya, fase analitis
dari masalah ini dapat dimodelkan secara berbeda, tergantung pada tersedia atau tidaknya
contoh anomali log Web. Jika tidak ada contoh anomali log Web sebelumnya yang tersedia,
maka masalah ini dipetakan ke masalah deteksi outlier temporal yang tidak diawasi.
C. LATIHAN
1. Seorang analis mengumpulkan survei dari peserta yang berbeda tentang suka dan
tidak suka mereka. Selanjutnya, analis mengunggah data ke database, mengoreksi
kesalahan atau hilang entri, dan merancang algoritme rekomendasi atas dasar ini.
Manakah dari tindakan berikut yang mewakili pengumpulan data, pra-pemrosesan
data, dan analisis data? (a) Melakukan survei dan mengunggah ke database, (b)
mengoreksi entri yang hilang, (c) merancang algoritme rekomendasi.
2. Apa tipe data dari masing-masing jenis atribut berikut (a) Umur, (b) Gaji, (c) Kode
Pos, (d) Negara tempat tinggal, (e) Tinggi Badan, (f) Berat Badan?
3. Seorang analis memperoleh catatan medis dari seorang dokter untuk tujuan
penggalian data, dan kemudian mengubahnya menjadi tabel yang berisi obat-obatan
yang diresepkan untuk setiap pasien. Apa tipe data dari (a) data asli, dan (b) data
yang diubah? (c) Apa proses transformasi data ke format baru yang disebut?
4. Seorang analis membuat jaringan sensor untuk mengukur suhu lokasi yang berbeda
selama suatu periode. Apa tipe data dari data yang dikumpulkan?
5. Analis yang sama seperti yang dibahas dalam Latihan 4 di atas menemukan database
lain dari sumber berbeda yang berisi pembacaan tekanan. Dia memutuskan untuk
membuat satu database yang berisi bacaannya sendiri dan pembacaan tekanan. Apa
proses pembuatan database tunggal seperti itu yang disebut?
D. Kunci Jawaban
1. Silakan dibaca di uraian diatas.


Daftar Pustaka
1. Tan, Steinbach, Karpatne, Kumar, Introduction to Data Mining, 2nd Edition, 2019
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item3
2. Charu C. Aggarwal , Data Mining: Textbook, IBM T.J. Watson Research Center
Yorktown Heights, New York
USA, 2015

Modul 1 - Data Mining

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Modul 1 - Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

MODUL DATA MINING

UNIVERSITAS ESA UNGGUL

https://esaunggul.ac.id Page 1 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

A. Kemampuan Akhir Yang Diharapkan

(a) Cyber Security (b) E-commerce

(c) Traffic pattern (d) Social Networking: Twitter

e) Sensor Networks (f) Computational Simulation

Gambar 1.1 Data-data skala besar

https://esaunggul.ac.id Page 2 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

https://esaunggul.ac.id Page 3 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.2 Proses Data Mining

https://esaunggul.ac.id Page 4 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

Gambar 1.2 Pipeline pemrosesan data

https://esaunggul.ac.id Page 5 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.2.1 Fase Pemrosesan Awal Data

https://esaunggul.ac.id Page 6 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.2.2 Fase Analitik.

1.3 Tipe Dasar Data

https://esaunggul.ac.id Page 7 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.3.1 Data Berorientasi Nondependensi

1.3.1.1 Data Multidimensi Kuantitatif

https://esaunggul.ac.id Page 8 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.3.1.2 Data Atribut Kategorikal dan Campuran

1.3.1.3 Biner dan Set Data

https://esaunggul.ac.id Page 9 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.3.2 Data berorientasi dependensi/ketergantungan

https://esaunggul.ac.id Page 10 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.3.2.1 Data Time Series

1.3.2.2 Discrete Sequences and Strings

https://esaunggul.ac.id Page 11 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.3.2.3 Data Spasial

https://esaunggul.ac.id Page 12 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

https://esaunggul.ac.id Page 13 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

https://esaunggul.ac.id Page 14 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.4 Blok Bangunan Utama: A Bird’s Eye View

https://esaunggul.ac.id Page 15 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.4.1 Association Pattern Mining

https://esaunggul.ac.id Page 16 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

Dengan memasukkan pengawasan dalam algoritma penambangan aturan asosiasi,

1.4.2 Data Clustering

Kami sengaja memberikan definisi informal di sini karena pengelompokan memungkinkan

https://esaunggul.ac.id Page 17 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.4.3 Deteksi Outlier

https://esaunggul.ac.id Page 18 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.4.4 Data Classification

https://esaunggul.ac.id Page 19 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.4.5 Dampak Tipe Data Kompleks pada Definisi Masalah

https://esaunggul.ac.id Page 20 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.4.5.2 Pengelompokan dengan Tipe Data Kompleks

https://esaunggul.ac.id Page 21 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.4.5.4 Klasifikasi dengan Tipe Data Kompleks

1.5 Masalah Skalabilitas dan Skenario Streaming

https://esaunggul.ac.id Page 22 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.6 Berjalan-jalan Melalui Beberapa Skenario Aplikasi

1.6.1 Penempatan Produk Toko

1.6.2 Rekomendasi Pelanggan

https://esaunggul.ac.id Page 23 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1.6.3 Diagnosa medis

1.6.4 Anomali-anomali Web-log

https://esaunggul.ac.id Page 24 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

1. Silakan dibaca di uraian diatas.

https://esaunggul.ac.id Page 25 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )

https://esaunggul.ac.id Page 26 of 26 Revisi/Tgl. ( 0 / 01-09-2021 )