Modul 2 - Data Mining

MODUL DATA MINING
(CTI311)
MODUL 2
PREPARASI DATA
DISUSUN OLEH
AGUNG MULYO WIDODO, ST, M.Sc.
UNIVERSITAS ESA UNGGUL

2021
https://esaunggul.ac.id Page 1 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

TOPIK PERKULIAHAN SESUAI RPS
A. Kemampuan Akhir Yang Diharapkan

Setelah mempelajari modul ini, diharapkan mahasiswa mampu :
1. Mahasiswa mampu memahami menguasai ekstrasi fiture dari data dan protabilitasnya
2. Mahasiswa mampu memahami menguasai konsep data cleaning
3. Mahasiswa mampu memahami menguasai konsep transformasi data dan reduksi data.
B. Uraian dan Contoh
2.1 Introduksi
Format mentah dari data nyata biasanya sangat bervariasi. Banyak nilai yang mungkin
hilang, tidak konsisten di berbagai sumber data, dan salah. Untuk analis, ini menyebabkan
banyak tantangan dalam menggunakan data secara efektif. Misalnya, pertimbangkan kasus
mengevaluasi minat konsumen dari aktivitas mereka di situs media sosial. Analis mungkin
pertama-tama perlu menentukan jenis aktivitas yang berharga untuk proses penambangan.
Aktivitas mungkin sesuai dengan minat yang dimasukkan oleh pengguna, komentar yang
dimasukkan oleh pengguna, dan kumpulan pertemanan pengguna beserta minat mereka.
Semua informasi ini beragam dan perlu dikumpulkan dari basis data yang berbeda di dalam
situs media sosial. Selain itu, beberapa bentuk data, seperti log mentah, seringkali tidak
dapat digunakan secara langsung karena sifatnya yang tidak terstruktur. Dengan kata lain,
fitur yang berguna perlu diekstraksi dari sumber data ini. Oleh karena itu, diperlukan tahap
persiapan data.
Tahap persiapan data adalah proses multitahap yang terdiri dari beberapa langkah
individu, beberapa atau semuanya dapat digunakan dalam aplikasi tertentu. Langkah-
langkah ini adalah sebagai berikut:
 Ekstraksi fitur dan portabilitas (Fiture extraction and Protability): Data mentah
seringkali dalam bentuk yang tidak cocok untuk diproses. Contohnya termasuk log
mentah, dokumen, data semi terstruktur, dan mungkin bentuk lain dari data
heterogen. Dalam kasus seperti itu, mungkin diinginkan untuk mendapatkan fitur
yang berarti dari data. Umumnya, fitur dengan interpretasi semantik yang baik lebih
diinginkan karena menyederhanakan kemampuan analis untuk memahami hasil
antara. Selain itu, mereka biasanya lebih terikat dengan tujuan aplikasi data mining
yang ada. Dalam beberapa kasus di mana data diperoleh dari berbagai sumber, perlu

diintegrasikan ke dalam satu database untuk diproses. Selain itu, beberapa algoritma
dapat bekerja hanya dengan tipe data tertentu, sedangkan data mungkin berisi tipe
yang heterogen. Dalam kasus seperti itu, portabilitas tipe data menjadi penting di
mana atribut dari satu jenis ditransformasikan ke jenis yang lain. Ini menghasilkan
kumpulan data yang lebih homogen yang dapat diproses oleh algoritma yang ada.
 Pembersihan data (Data cleaning): Pada fase pembersihan data, entri yang hilang,
salah, dan tidak konsisten dihapus dari data. Selain itu, beberapa entri yang hilang
juga dapat diperkirakan dengan proses yang dikenal sebagai imputasi (imputation).
 Reduksi, Seleksi, dan Transformasi Data: Pada fase ini, ukuran data direduksi
melalui pemilihan subset data, seleksi subset fitur, atau transformasi data.
Keuntungan yang diperoleh dalam fase ini ada dua. Pertama, ketika ukuran data
diperkecil, algoritme umumnya lebih efisien. Kedua, jika fitur yang tidak relevan
atau catatan yang tidak relevan dihapus, kualitas proses data mining ditingkatkan.
Tujuan pertama dicapai dengan teknik sampling generik dan reduksi dimensi. Untuk
mencapai tujuan kedua, pendekatan yang sangat spesifik masalah harus digunakan
untuk pemilihan fitur. Misalnya, pendekatan pemilihan fitur yang bekerja dengan
baik untuk pengelompokan mungkin tidak bekerja dengan baik untuk klasifikasi.
Beberapa bentuk seleksi fitur terintegrasi erat dengan masalah yang dihadapi. Pada modul
selanjutnya nanti tentang masalah spesifik seperti pengelompokan dan klasifikasi akan
berisi diskusi terperinci tentang pemilihan fitur.
2.2 Ekstraksi Fitur dan Portabilitas
Tahap pertama dari proses data mining adalah membuat sekumpulan fitur yang dapat
digunakan oleh analis. Dalam kasus di mana data dalam bentuk mentah dan tidak terstruktur
(misalnya, teks mentah, sinyal sensor), fitur yang relevan perlu diekstraksi untuk diproses.
Dalam kasus lain di mana campuran heterogen fitur tersedia dalam bentuk yang berbeda,
pendekatan analitis "off-the-shelf" sering tidak tersedia untuk memproses data tersebut.
Dalam kasus seperti itu, mungkin diinginkan untuk mengubah data menjadi representasi
seragam untuk diproses. Ini disebut sebagai tipe data port.

2.2.1 Ekstraksi Feature
Fase pertama ekstraksi fitur adalah fase yang sangat penting, meskipun sangat spesifik
untuk aplikasi. Dalam beberapa kasus, ekstraksi fitur terkait erat dengan konsep portabilitas
tipe data, di mana fitur tingkat rendah dari satu jenis dapat ditransformasikan ke fitur tingkat
tinggi dari jenis lain. Sifat ekstraksi fitur tergantung pada domain dari mana data diambil:
 Data sensor: Data sensor sering dikumpulkan sebagai sinyal tingkat rendah dalam
volume besar, yang sangat besar. Sinyal tingkat rendah kadang-kadang dikonversi
ke fitur tingkat yang lebih tinggi menggunakan transformasi wavelet atau Fourier.
Dalam kasus lain, deret waktu digunakan langsung setelah dibersihkan. Bidang
pemrosesan sinyal memiliki literatur yang luas yang ditujukan untuk metode
tersebut. Teknologi ini juga berguna untuk mem-porting data deret waktu ke data
multidimensi.
 Data gambar: Dalam bentuknya yang paling primitif, data gambar
direpresentasikan sebagai piksel. Pada tingkat yang sedikit lebih tinggi, histogram
warna dapat digunakan untuk mewakili fitur dalam segmen gambar yang berbeda.
Baru-baru ini, penggunaan kata-kata visual menjadi lebih populer. Ini adalah
representasi kaya semantik yang mirip dengan data dokumen. Salah satu tantangan
dalam pengolahan citra adalah data yang umumnya berdimensi sangat tinggi.
Dengan demikian, ekstraksi fitur dapat dilakukan pada level yang berbeda,
tergantung pada aplikasi yang ada.
 Log web: Log web biasanya direpresentasikan sebagai string teks dalam format
yang telah ditentukan sebelumnya. Karena bidang dalam log ini ditentukan dan
dipisahkan dengan jelas, maka relatif mudah untuk mengubah log akses Web
menjadi representasi multidimensi dari atribut kategoris dan numerik (yang
relevan).
 Lalu lintas jaringan: Dalam banyak aplikasi deteksi intrusi, karakteristik paket
jaringan digunakan untuk menganalisis intrusi atau aktivitas menarik lainnya.
Tergantung pada aplikasi yang mendasarinya, berbagai fitur dapat diekstraksi dari
paket-paket ini, seperti jumlah byte yang ditransfer, protokol jaringan yang
digunakan, dan sebagainya.
 Data dokumen: Data dokumen sering kali tersedia dalam bentuk mentah dan tidak
terstruktur, dan data tersebut mungkin berisi hubungan linguistik yang kaya antara

entitas yang berbeda. Salah satu pendekatannya adalah menghilangkan stop word,
stem data, dan menggunakan representasi bag-of-words. Metode lain menggunakan
ekstraksi entitas untuk menentukan hubungan linguistik.
Pengenalan entitas bernama adalah sub-tugas penting dari ekstraksi informasi.

Pendekatan ini menempatkan dan mengklasifikasikan unsur-unsur atom dalam teks
ke dalam ekspresi yang telah ditentukan dari nama orang, organisasi, lokasi,
tindakan, jumlah numerik, dan sebagainya. Jelas, kemampuan mengidentifikasi
unsur-unsur atom tersebut sangat berguna karena dapat digunakan untuk memahami
struktur kalimat dan peristiwa kompleks. Pendekatan seperti itu juga dapat
digunakan untuk mengisi database elemen relasional yang lebih konvensional atau
sebagai urutan entitas atom, yang lebih mudah dianalisis. Sebagai contoh,
perhatikan kalimat berikut:
Di sini, "Bill Clinton" adalah nama seseorang, dan "Chappaqua" adalah nama
sebuah tempat. Kata “hidup” menunjukkan suatu tindakan. Setiap jenis entitas
mungkin memiliki signifikansi yang berbeda untuk proses penambangan data
tergantung pada aplikasi yang ada. Misalnya, jika aplikasi data mining terutama
berkaitan dengan penyebutan lokasi tertentu, maka kata "Chappaqua" perlu
diekstraksi. Teknik populer untuk pengenalan entitas bernama termasuk teknik
berbasis tata bahasa linguistik dan model statistik. Penggunaan aturan tata bahasa
biasanya sangat efektif, tetapi membutuhkan kerja oleh ahli bahasa komputasi yang
berpengalaman. Di sisi lain, model statistik membutuhkan sejumlah besar data
pelatihan. Teknik yang dirancang sangat sering spesifik domain. Area pengenalan
entitas bernama sangat luas, yang berada di luar cakupan buku modul ini.
Ekstraksi fitur adalah bentuk seni yang sangat bergantung pada keterampilan analis untuk
memilih fitur dan representasinya yang paling sesuai dengan tugas yang dihadapi.
Meskipun aspek khusus dari analisis data ini biasanya dimiliki oleh pakar domain, ini
mungkin yang paling penting. Jika fitur yang benar tidak diekstraksi, analisis hanya dapat
sebagus data yang tersedia.

2.2.2 Portabilitas Tipe Data.
Portabilitas tipe data adalah elemen penting dari proses penambangan data karena data
seringkali heterogen, dan mungkin berisi beberapa tipe. Misalnya, kumpulan data
demografis mungkin berisi atribut numerik dan campuran. Kumpulan data deret waktu yang
dikumpulkan dari sensor elektrokardiogram (EKG) mungkin memiliki banyak informasi
meta dan atribut teks lain yang terkait dengannya. Ini menciptakan situasi yang
membingungkan bagi seorang analis yang sekarang dihadapkan pada tantangan yang sulit
untuk merancang suatu algoritma dengan kombinasi tipe data yang berubah-ubah.
Pencampuran tipe data juga membatasi kemampuan analis untuk menggunakan alat siap
pakai untuk pemrosesan. Perhatikan bahwa porting tipe data tidak kehilangan akurasi
representasi dan ekspresi dalam beberapa kasus. Idealnya, yang terbaik adalah
menyesuaikan algoritme dengan kombinasi tipe data tertentu untuk mengoptimalkan hasil.
Namun, ini memakan waktu dan terkadang tidak praktis. Bagian ini akan menjelaskan
metode untuk mengkonversi antara berbagai tipe data. Karena tipe data numerik adalah
yang paling sederhana dan paling banyak dipelajari untuk algoritma penambangan data,
sangat berguna untuk fokus pada bagaimana tipe data yang berbeda dapat dikonversi ke
dalamnya. Namun, bentuk konversi lain juga berguna dalam banyak skenario. Misalnya,
untuk algoritma berbasis kesamaan, dimungkinkan untuk mengubah hampir semua tipe data
menjadi grafik dan menerapkan algoritma berbasis grafik untuk representasi ini. Diskusi
berikut, diringkas dalam Tabel 2.1, akan membahas berbagai cara mentransformasikan data
di berbagai jenis.

2.2.2.1 Data Numerik ke Kategori: Diskritisasi
Konversi yang paling umum digunakan adalah dari tipe data numerik ke kategoris.
Proses ini dikenal sebagai diskritisasi. Proses diskritisasi membagi rentang atribut numerik
menjadi rentang . Kemudian, atribut diasumsikan mengandung nilai berlabel kategoris yang
berbeda dari 1 hingga , tergantung pada rentang di mana atribut asli berada. Misalnya,
pertimbangkan atribut usia. Seseorang dapat membuat rentang [0, 10], [11, 20], [21, 30],
dan seterusnya. Nilai simbolis untuk setiap record dalam rentang [11, 20] adalah “2” dan
nilai simbolis untuk record dalam rentang [21, 30] adalah “3”. Karena ini adalah nilai
simbolis, tidak ada urutan yang diasumsikan antara nilai "2" dan "3". Selanjutnya, variasi
dalam suatu rentang tidak dapat dibedakan setelah diskritisasi. Dengan demikian, proses
diskritisasi memang kehilangan beberapa informasi untuk proses penambangan. Namun,
untuk beberapa aplikasi, hilangnya informasi ini tidak terlalu melemahkan. Salah satu
tantangan dengan diskritisasi adalah bahwa data mungkin terdistribusi secara tidak seragam
pada interval yang berbeda. Misalnya, untuk kasus atribut gaji, sebagian besar populasi
dapat dikelompokkan dalam kisaran [40,000, 80,000], tetapi sangat sedikit yang akan
dikelompokkan dalam [1, 040,000, 1, 080,000] jangkauan. Perhatikan bahwa kedua rentang
memiliki ukuran yang sama. Dengan demikian, penggunaan rentang dengan ukuran yang
sama mungkin tidak terlalu membantu dalam membedakan antara segmen data yang
berbeda. Di sisi lain, banyak atribut, seperti usia, tidak terdistribusi secara tidak seragam,
dan oleh karena itu rentang dengan ukuran yang sama dapat bekerja dengan cukup baik.
Proses diskritisasi dapat dilakukan dalam berbagai cara tergantung pada tujuan spesifik
aplikasi:
 Rentang kesetaraan lebar (Equi-width ranges): Dalam hal ini, setiap rentang [a, b]
dipilih sedemikian rupa sehingga b-a sama untuk setiap rentang. Pendekatan ini
memiliki kelemahan yaitu tidak akan bekerja untuk kumpulan data yang
didistribusikan secara tidak seragam di seluruh rentang yang berbeda. Untuk
menentukan nilai sebenarnya dari rentang, nilai minimum dan maksimum dari setiap
atribut ditentukan. Rentang ini [min, maks] kemudian dibagi menjadi rentang ∅
dengan panjang yang sama.
 Rentang persamaan-log (Equi-log ranges) : Setiap rentang [a, b] dipilih sedemikian
rupa sehingga log(b)- log(a) memiliki nilai yang sama. Pemilihan rentang semacam
ini memiliki efek peningkatan rentang geometris [𝑎, 𝑎. 𝛼] , [𝑎, 𝑎. 𝛼 2 ] dan

seterusnya, untuk beberapa 𝛼 > 1. Rentang semacam ini mungkin berguna ketika
atribut menunjukkan distribusi eksponensial di seluruh rentang. Faktanya, jika
distribusi frekuensi atribut untuk suatu atribut dapat dimodelkan dalam bentuk
fungsional, maka pendekatan alami adalah memilih rentang [a, b] sedemikian rupa
sehingga f(b)-f(a) adalah sama untuk beberapa fungsi f (·). Idenya adalah untuk
memilih fungsi ini f(·) sedemikian rupa sehingga setiap rentang berisi jumlah record
yang kira-kira sama. Namun, dalam banyak kasus, sulit untuk menemukan fungsi
seperti f(·) dalam bentuk tertutup.
 Rentang kedalaman sama (Equi-depth ranges): Dalam hal ini, rentang dipilih
sehingga setiap rentang memiliki jumlah rekaman yang sama. Idenya adalah untuk
memberikan tingkat perincian yang sama untuk setiap rentang. Atribut dapat dibagi
menjadi rentang kedalaman yang sama dengan terlebih dahulu mengurutkannya,
lalu memilih titik pembagian pada nilai atribut yang diurutkan, sehingga setiap
rentang berisi jumlah record yang sama.
Proses diskritisasi juga dapat digunakan untuk mengubah data deret waktu menjadi urutan
data diskrit.
2.2.2.2 Kategori Data Numerik: Binarisasi
Dalam beberapa kasus, diinginkan untuk menggunakan algoritma data mining numerik
pada data kategorikal. Karena data biner adalah bentuk khusus dari data numerik dan
kategorikal, dimungkinkan untuk mengubah atribut kategoris ke bentuk biner dan kemudian
menggunakan algoritma numerik pada data biner. Jika atribut kategori memiliki nilai ∅
yang berbeda, maka atribut biner ∅ yang berbeda akan dibuat. Setiap atribut biner sesuai
dengan satu nilai yang mungkin dari atribut kategoris. Oleh karena itu, tepat satu dari atribut
∅ mengambil nilai 1, dan sisanya mengambil nilai 0.
2.2.2.3 Text ke Data Numerik
Meskipun representasi ruang vektor dari teks dapat dianggap sebagai kumpulan data
numerik yang jarang dengan dimensi yang sangat tinggi, representasi numerik khusus ini
tidak terlalu sesuai dengan algoritma penambangan data konvensional. Misalnya, seseorang
biasanya menggunakan fungsi kesamaan khusus, seperti kosinus, daripada jarak Euclidean
untuk data teks. Inilah alasan mengapa penambangan teks adalah area yang berbeda dalam
dirinya sendiri dengan keluarga algoritme khusus sendiri. Namun demikian, dimungkinkan

untuk mengubah kumpulan teks menjadi bentuk yang lebih setuju dengan penggunaan
algoritma penambangan untuk data numerik. Langkah pertama adalah menggunakan
analisis semantik laten (LSA) untuk mengubah kumpulan teks menjadi representasi
nonsparse dengan dimensi yang lebih rendah. Selanjutnya, setelah transformasi, setiap
1
dokumen 𝑋̅ = (𝑥1 … 𝑥𝑑 ) perlu diskalakan menjadi (𝑥1 … 𝑥𝑑 ) . Penskalaan ini
√∑𝑑
𝑖=1 𝑥
2
diperlukan untuk memastikan bahwa dokumen dengan panjang yang bervariasi

diperlakukan dengan cara yang seragam. Setelah penskalaan ini, ukuran numerik tradisional,
seperti jarak Euclidean, bekerja lebih efektif. LSA dibahas pada bab berikut. Perhatikan
bahwa LSA jarang digunakan bersama dengan penskalaan semacam ini. Sebaliknya,
algoritme penambangan teks tradisional secara langsung diterapkan pada representasi
tereduksi yang diperoleh dari LSA.
2.2.2.4 Data Time Seri ke Data Urutan Diskrit
Data deret waktu dapat dikonversi menjadi data urutan diskrit menggunakan pendekatan
yang dikenal sebagai Aproksimasi Agregat Simbolik (SAX). Metode ini terdiri dari dua
langkah:
 Rata-rata berbasis-jendela (windows-base averaging): Deret dibagi menjadi jendela

dengan panjang w, dan nilai deret waktu rata-rata di setiap jendela dihitung.
 Diskritisasi berbasis-nilai (value-base discretization): Nilai deret waktu (yang sudah
dirata-ratakan) didiskritisasi menjadi jumlah yang lebih kecil dari interval
kedalaman yang kira-kira sama. Ini identik dengan diskritisasi equi-kedalaman
atribut numerik yang telah dibahas sebelumnya. Idenya adalah untuk memastikan
bahwa setiap simbol memiliki frekuensi yang kira-kira sama dalam deret waktu.
Batas interval dibangun dengan mengasumsikan bahwa nilai deret waktu
terdistribusi dengan asumsi Gaussian. Rata-rata dan standar deviasi dari nilai deret
waktu (berjendela) diperkirakan dengan cara yang digerakkan oleh data untuk
membuat instance parameter distribusi Gaussian. Kuartil dari distribusi Gaussian
digunakan untuk menentukan batas-batas interval. Ini lebih efisien daripada
menyortir semua nilai data untuk menentukan kuantil, dan ini mungkin pendekatan
yang lebih praktis untuk deret waktu yang panjang (atau streaming). Nilai
didiskritisasi menjadi sejumlah kecil (biasanya 3 hingga 10) interval untuk hasil

terbaik. Setiap interval kedalaman sama dipetakan ke nilai simbolis. Ini
menciptakan representasi simbolis dari deret waktu, yang pada dasarnya adalah
urutan diskrit. Dengan demikian, SAX dapat dilihat sebagai pendekatan diskritisasi
kedalaman yang sama setelah rata-rata berbasis jendela.
2.2.2.5 Data Time Seri ke Data Numerik
Transformasi khusus ini sangat berguna karena memungkinkan penggunaan algoritma

multidimensi untuk data deret waktu. Metode umum yang digunakan untuk konversi ini
adalah transformasi wavelet diskrit (DWT). Transformasi wavelet mengubah data deret
waktu menjadi data multidimensi, sebagai satu set koefisien yang mewakili perbedaan rata-
rata antara bagian-bagian yang berbeda dari deret tersebut. Jika diinginkan, subset dari
koefisien terbesar dapat digunakan untuk mengurangi ukuran data. Pendekatan ini akan
dibahas dalam seksi tentang reduksi data. Metode alternatif, yang dikenal sebagai
transformasi Fourier diskrit (DFT), dibahas dalam modul selanjutnya. Sifat umum dari
transformasi ini adalah bahwa berbagai koefisien tidak lagi berorientasi ketergantungan
seperti nilai deret waktu asli.
2.2.2.6 Sekuens diskrit ke Data Numerik
Transformasi ini dapat dilakukan dalam dua langkah. Langkah pertama adalah
mengubah deret diskrit menjadi himpunan deret waktu (biner), di mana jumlah deret waktu
dalam himpunan ini sama dengan jumlah simbol yang berbeda. Langkah kedua adalah
memetakan masing-masing deret waktu ini ke dalam vektor multidimensi menggunakan
transformasi wavelet. Terakhir, fitur dari seri yang berbeda digabungkan untuk membuat
satu rekaman multidimensi.
Untuk mengonversi urutan ke deret waktu biner, seseorang dapat membuat string biner
di mana nilainya menunjukkan ada atau tidaknya simbol tertentu pada suatu posisi. Sebagai
contoh, perhatikan urutan nukleotida berikut, yang digambarkan pada empat simbol:
Deret ini dapat diubah menjadi empat deret waktu biner berikut yang sesuai dengan simbol
A, C, T, dan G, masing-masing:

10101000001000
01010100000100
00000010100010
00000001010001
Transformasi wavelet dapat diterapkan pada masing-masing seri ini untuk membuat
sekumpulan fitur multidimensi. Fitur dari empat seri yang berbeda dapat ditambahkan untuk
membuat catatan multidimensi numerik tunggal.
2.2.2.7 Spasial ke data Numerik
Data spasial dapat dikonversi menjadi data numerik dengan menggunakan pendekatan
yang sama yang digunakan untuk data deret waktu. Perbedaan utama adalah bahwa
sekarang ada dua atribut kontekstual (bukan satu). Ini membutuhkan modifikasi metode
transformasi wavelet. Kita akan membahas secara singkat bagaimana pendekatan wavelet
satu dimensi dapat digeneralisasikan ketika ada dua atribut kontekstual. Pendekatan ini
cukup umum dan dapat digunakan untuk sejumlah atribut kontekstual.
2.2.2.8 Grafik ke Data Numerik
Grafik dapat dikonversi menjadi data numerik dengan menggunakan metode seperti
penskalaan multidimensi (MDS) dan transformasi spektral. Pendekatan ini bekerja untuk
aplikasi-aplikasi di mana ujung-ujungnya diberi bobot, dan mewakili hubungan kesamaan
atau jarak antar node. Pendekatan umum MDS dapat mencapai tujuan ini, dan dibahas
dalam seksi berikutnya. Pendekatan spektral juga dapat digunakan untuk mengubah grafik
menjadi representasi multidimensi. Ini juga merupakan skema pengurangan dimensi yang
mengubah informasi struktural menjadi representasi multidimensi. Pendekatan ini akan
dibahas dalam seksi berikutnya.
2.2.2.9 Semua Jenis Grafik untuk Aplikasi Berbasis Kesamaan (Similarity-Base

Applications)
Banyak aplikasi didasarkan pada gagasan kesamaan. Misalnya, masalah

pengelompokan didefinisikan sebagai pembuatan kelompok objek yang serupa, sedangkan
masalah deteksi outlier didefinisikan sebagai masalah di mana subset objek yang berbeda
secara signifikan dari objek yang tersisa diidentifikasi. Banyak bentuk model klasifikasi,
seperti pengklasifikasi tetangga terdekat, juga bergantung pada gagasan kesamaan Gagasan
kesamaan berpasangan dapat paling baik ditangkap dengan penggunaan grafik lingkungan.

Untuk satu set objek data tertentu 𝑂 = {𝑂1 , … , 𝑂𝑛 }, graf tetangga didefinisikan sebagai
berikut:
 Sebuah node tunggal didefinisikan untuk setiap objek di O. Ini didefinisikan

oleh node set N, berisi n node dimana node i sesuai dengan objek Oi.
 Sebuah tepi ada antara Oi dan Oj, jika jarak d(Oi,Oj) kurang dari ambang batas
tertentu . Atau, k-tetangga terdekat dari setiap node dapat digunakan. Karena
hubungan k-nearest neighbor tidak simetris, hal ini menghasilkan graf berarah.
Arah pada tepi diabaikan, dan tepi paralel dihilangkan. Bobot wij dari tepi (i,j)
sama dengan fungsi kernel dari jarak antara objek Oi dan Oj, sehingga bobot
yang lebih besar menunjukkan kesamaan yang lebih besar. Contohnya adalah
kernel panas:
2
𝑑(𝑂𝑖 .𝑈𝑗 )
−
𝑤𝑖𝑗 = 𝑒 𝑡2 (2.1)
Di sini, t adalah parameter yang ditentukan pengguna.
Berbagai macam algoritma data mining tersedia untuk data jaringan. Semua metode ini juga
dapat digunakan pada grafik kesamaan. Perhatikan bahwa grafik kesamaan dapat
didefinisikan dengan jelas untuk objek data dari jenis apa pun, selama fungsi jarak yang
sesuai dapat ditentukan. Inilah alasan mengapa desain fungsi jarak sangat penting untuk
hampir semua tipe data. Masalah desain fungsi jarak akan dibahas dalam bab selanjutnya.
Perhatikan bahwa pendekatan ini hanya berguna untuk aplikasi yang didasarkan pada
gagasan kesamaan atau jarak. Namun demikian, banyak masalah data mining yang
diarahkan atau tidak langsung terkait dengan gagasan tentang kesamaan dan jarak.
2.3 Pembersihan Data (Data Cleaning)
Proses pembersihan data menjadi penting karena kesalahan yang terkait dengan proses
pengumpulan data. Beberapa sumber entri yang hilang dan kesalahan mungkin timbul
selama proses pengumpulan data. Beberapa contohnya adalah sebagai berikut:
 Beberapa teknologi pengumpulan data, seperti sensor, pada dasarnya tidak akurat
karena keterbatasan perangkat keras yang terkait dengan pengumpulan dan
transmisi. Terkadang sensor dapat menurunkan pembacaan karena kegagalan
perangkat keras atau baterai habis.

 Data yang dikumpulkan menggunakan teknologi pemindaian mungkin memiliki
kesalahan yang terkait dengannya karena teknik pengenalan karakter optik jauh dari
sempurna. Selain itu, data pidato-toteks juga rentan terhadap kesalahan.
 Pengguna mungkin tidak ingin menentukan informasi mereka karena alasan privasi,
atau mereka mungkin sengaja menentukan nilai yang salah. Misalnya, sering
diamati bahwa pengguna terkadang salah menentukan tanggal lahir mereka di situs
pendaftaran otomatis seperti jejaring sosial. Dalam beberapa kasus, pengguna dapat
memilih untuk mengosongkan beberapa bidang.
 Sejumlah besar data dibuat secara manual. Kesalahan manual sering terjadi selama
entri data.
 Entitas yang bertanggung jawab atas pengumpulan data mungkin tidak
mengumpulkan bidang tertentu untuk beberapa catatan, jika terlalu mahal. Oleh
karena itu, catatan mungkin tidak ditentukan secara lengkap.
Masalah yang disebutkan di atas mungkin menjadi sumber ketidakakuratan yang signifikan
untuk aplikasi penambangan data. Metode diperlukan untuk menghapus atau memperbaiki
entri yang hilang dan salah dari data. Ada beberapa aspek penting dari pembersihan data:
 Menangani entri yang hilang: Banyak entri dalam data mungkin tetap tidak
ditentukan karena kelemahan dalam pengumpulan data atau sifat bawaan data. Entri
yang hilang tersebut mungkin perlu diperkirakan. Proses memperkirakan entri yang
hilang juga disebut sebagai imputasi.
 Menangani entri yang salah: Dalam kasus di mana informasi yang sama tersedia dari
berbagai sumber, inkonsistensi dapat dideteksi. Inkonsistensi seperti itu dapat
dihilangkan sebagai bagian dari proses analitis. Metode lain untuk mendeteksi entri
yang salah adalah dengan menggunakan pengetahuan khusus domain tentang apa
yang sudah diketahui tentang data. Misalnya, jika tinggi seseorang terdaftar sebagai
6 m, kemungkinan besar itu salah. Secara umum, titik data yang tidak konsisten
dengan distribusi data yang tersisa sering kali menimbulkan noise. Titik data
tersebut disebut sebagai outlier. Namun, berbahaya untuk mengasumsikan bahwa
titik data seperti itu selalu disebabkan oleh kesalahan. Misalnya, catatan yang
mewakili penipuan kartu kredit cenderung tidak konsisten sehubungan dengan pola
di sebagian besar data (normal) tetapi tidak boleh dihapus sebagai data "salah".

 Penskalaan dan normalisasi: Data sering kali dapat dinyatakan dalam skala yang
sangat berbeda (misalnya, usia dan gaji). Hal ini dapat mengakibatkan beberapa fitur
menjadi terlalu berat secara tidak sengaja sehingga fitur lainnya diabaikan secara
implisit. Oleh karena itu, penting untuk menormalkan fitur yang berbeda. Bagian
berikut akan membahas masing-masing aspek pembersihan data ini.
2.2.1 Menangani Entri yang Hilang
Entri yang hilang sering terjadi di database di mana metode pengumpulan data tidak
sempurna. Misalnya, survei pengguna sering kali tidak dapat mengumpulkan tanggapan
untuk semua pertanyaan. Dalam kasus di mana kontribusi data bersifat sukarela, data
hampir selalu tidak ditentukan secara lengkap. Tiga kelas teknik digunakan untuk
menangani entri yang hilang:
 Setiap catatan data yang berisi entri yang hilang dapat dihilangkan seluruhnya.
Namun, pendekatan ini mungkin tidak praktis ketika sebagian besar catatan berisi
entri yang hilang.
 Nilai yang hilang dapat diperkirakan atau diperhitungkan. Namun, kesalahan yang
dibuat oleh proses imputasi dapat mempengaruhi hasil dari algoritma data mining.
 Fase analitis dirancang sedemikian rupa sehingga dapat bekerja dengan nilai-nilai
yang hilang. Banyak metode penambangan data secara inheren dirancang untuk
bekerja dengan kuat dengan nilai yang hilang. Pendekatan ini biasanya yang paling
diinginkan karena menghindari bias tambahan yang melekat dalam proses imputasi.
Masalah entri yang hilang diperkirakan berhubungan langsung dengan masalah klasifikasi.
Dalam masalah klasifikasi, satu atribut diperlakukan secara khusus, dan fitur lainnya
digunakan untuk memperkirakan nilainya. Dalam hal ini, nilai yang hilang dapat terjadi
pada fitur apa pun, dan oleh karena itu masalahnya lebih menantang, meskipun pada
dasarnya tidak berbeda. Banyak metode yang dibahas dalam bab berikutnya untuk
klasifikasi juga dapat digunakan untuk estimasi nilai yang hilang. Selain itu, metode
penyelesaian matriks juga dapat digunakan.

Gambar 2.1
Dalam kasus data yang berorientasi ketergantungan, seperti deret waktu atau data spasial,
estimasi nilai yang hilang jauh lebih sederhana. Dalam hal ini, nilai atribut perilaku dari
catatan yang berdekatan secara kontekstual digunakan untuk proses imputasi. Misalnya,
dalam kumpulan data deret waktu, rata-rata nilai pada stempel waktu tepat sebelum atau
setelah atribut yang hilang dapat digunakan untuk estimasi. Alternatifnya, nilai perilaku
pada n cap data deret waktu terakhir dapat diinterpolasi secara linier untuk menentukan nilai
yang hilang. Untuk kasus data spasial, proses estimasinya cukup mirip, dimana nilai rata-
rata pada lokasi spasial tetangga dapat digunakan.
2.2.2 Menangani Entri yang Salah dan Tidak Konsisten
Metode utama yang digunakan untuk menghapus atau mengoreksi entri yang salah dan
tidak konsisten adalah sebagai berikut:
 Deteksi inkonsistensi: Ini biasanya dilakukan ketika data tersedia dari sumber yang
berbeda dalam format yang berbeda. Misalnya, nama seseorang mungkin dieja
lengkap dalam satu sumber, sedangkan sumber lain hanya boleh berisi inisial dan
nama belakang. Dalam kasus seperti itu, masalah utama adalah deteksi duplikat dan
deteksi inkonsistensi. Topik-topik ini dipelajari di bawah payung umum integrasi
data dalam bidang database.
 Pengetahuan domain: Sejumlah besar pengetahuan domain sering tersedia dalam hal
rentang atribut atau aturan yang menentukan hubungan antar atribut yang berbeda.
Misalnya, jika bidang negara adalah "Amerika Serikat", maka bidang kota tidak

boleh "Shanghai". Banyak data scrubbing dan alat audit data telah dikembangkan
yang menggunakan pengetahuan dan batasan domain tersebut untuk mendeteksi
entri yang salah.
 Metode data-centric: Dalam kasus ini, perilaku statistik data digunakan untuk
mendeteksi outlier. Misalnya, dua titik data yang terisolasi pada Gambar 2.1 yang
ditandai sebagai “noise” adalah outlier. Titik-titik terisolasi ini mungkin muncul
karena kesalahan dalam proses pengumpulan data. Namun, hal ini mungkin tidak
selalu terjadi karena anomali mungkin merupakan hasil dari perilaku menarik dari
sistem yang mendasarinya. Oleh karena itu, setiap outlier yang terdeteksi mungkin
perlu diperiksa secara manual sebelum dibuang. penggunaan dari metode
pembersihan data-sentris terkadang bisa berbahaya karena dapat mengakibatkan
penghapusan pengetahuan yang berguna dari sistem yang mendasarinya. Masalah
deteksi outlier adalah teknik analisis yang penting dalam dirinya sendiri, dan
dibahas secara rinci dalam bab selanjutnya.
Metode untuk menangani entri yang salah dan tidak konsisten umumnya sangat spesifik
untuk domain.
2.2.3 Penskalaan dan Normalisasi
Dalam banyak skenario, fitur yang berbeda mewakili skala referensi yang berbeda dan
oleh karena itu mungkin tidak dapat dibandingkan satu sama lain. Misalnya, atribut seperti
usia digambar pada skala yang sangat berbeda dari atribut seperti gaji. Atribut yang terakhir
biasanya urutan besarnya lebih besar dari yang pertama. Akibatnya, setiap fungsi agregat
yang dihitung pada fitur yang berbeda (misalnya, jarak Euclidean) akan didominasi oleh
atribut dengan magnitudo yang lebih besar.
Untuk mengatasi masalah ini, adalah umum untuk menggunakan standardisasi.
Pertimbangkan kasus di mana atribut ke-j memiliki mean 𝜇𝑗 dan standar deviasi 𝜎𝑗 .
𝑗
Kemudian, nilai atribut ke-j, 𝑥𝑖 dari record ke-i, 𝑋̅𝑖 dapat dinormalisasi sebagai berikut:
𝑗
𝑗 𝑥𝑖 −𝜇𝑗
𝑧𝑖 = (2.2)
𝜎𝑗
Sebagian besar nilai yang dinormalisasi biasanya terletak pada kisaran [−3, 3] di bawah
asumsi distribusi normal.

Pendekatan kedua menggunakan penskalaan min-max untuk memetakan semua atribut
ke rentang [0, 1]. Kita definisikankan 𝑚𝑖𝑛𝑗 dan 𝑚𝑎𝑥𝑗 mewakili nilai minimum dan
𝑗
maksimum dari atribut-j. Kemudian, nilai atribut ke-j, 𝑥𝑖 dari catatan ke-i, 𝑋̅𝑖 dapat
diskalakan sebagai berikut:
𝑗
𝑗 𝑖𝑥 −𝑚𝑖𝑛𝑗
𝑦𝑖 = 𝑚𝑎𝑥 (2.3)
𝑗 −𝑚𝑖𝑛𝑗
Pendekatan ini tidak efektif ketika nilai maksimum dan minimum adalah outlier nilai
ekstrim karena beberapa kesalahan dalam pengumpulan data. Misalnya, pertimbangkan
atribut usia di mana kesalahan dalam pengumpulan data menyebabkan nol tambahan
ditambahkan ke usia, sehingga menghasilkan nilai usia 800 tahun, bukan 80. Dalam kasus
ini, sebagian besar data berskala di sepanjang atribut usia akan berada dalam kisaran [0,
0,1], sebagai akibatnya atribut ini dapat dikurangi. Standardisasi lebih kuat untuk skenario
seperti itu.
.
2.4 Reduksi Data dan Transformasi
Tujuan dari reduksi data adalah untuk merepresentasikannya secara lebih kompak.
Ketika ukuran data lebih kecil, jauh lebih mudah untuk menerapkan algoritma yang canggih
dan mahal secara komputasi. Pengurangan data mungkin dalam hal jumlah baris (catatan)
atau dalam hal jumlah kolom (dimensi). Reduksi data memang mengakibatkan hilangnya
beberapa informasi.
Penggunaan algoritma yang lebih canggih terkadang dapat mengkompensasi hilangnya
informasi akibat reduksi data. Berbagai jenis reduksi data digunakan dalam berbagai
aplikasi:
 Pengambilan sampel data: Catatan dari data yang mendasarinya diambil
sampelnya untuk membuat database yang jauh lebih kecil. Pengambilan sampel
umumnya jauh lebih sulit dalam skenario streaming di mana sampel perlu
dipertahankan secara dinamis.
 Pemilihan fitur: Hanya sebagian fitur dari data dasar yang digunakan dalam proses
analitik. Biasanya, himpunan bagian ini dipilih dengan cara khusus aplikasi.
Misalnya, metode pemilihan fitur yang berfungsi dengan baik untuk
pengelompokan mungkin tidak berfungsi dengan baik untuk klasifikasi dan
sebaliknya. Oleh karena itu, bagian ini hanya akan membahas masalah subsetting

fitur secara terbatas dan menunda pembahasan yang lebih rinci ke bab-bab
selanjutnya.
 Reduksi data dengan rotasi sumbu: Korelasi dalam data dimanfaatkan untuk
mewakilinya dalam jumlah dimensi yang lebih kecil. Contoh metode reduksi data
tersebut termasuk analisis komponen utama (PCA), dekomposisi nilai tunggal
(SVD), atau analisis semantik laten (LSA) untuk domain teks.
 Reduksi data dengan transformasi tipe: Bentuk reduksi data ini berkaitan erat
dengan portabilitas tipe data. Misalnya, deret waktu diubah menjadi data
multidimensi dengan ukuran yang lebih kecil dan kompleksitas yang lebih rendah
dengan transformasi wavelet diskrit. Demikian pula, grafik dapat dikonversi ke
representasi multidimensi dengan menggunakan teknik embedding.
Masing-masing aspek yang disebutkan di atas akan dibahas dalam segmen yang berbeda
dari bagian ini.
C. LATIHAN
1. Pertimbangkan deret waktu (−3, 1, 1, 3, 5, 7, * ). Di sini, entri yang hilang dilambangkan
dengan *. Berapa perkiraan nilai entri yang hilang menggunakan interpolasi linier pada
jendela ukuran 3?
2. Misalkan Anda memiliki banyak dokumen teks, dan Anda ingin menentukan semua
personality yang disebutkan dalam dokumen ini. Kelas teknologi apa yang akan Anda
gunakan untuk mencapai tujuan ini?
3. Unduh kumpulan data dari Kaggle. Normalisasikan semua record menjadi rata-rata 0
dan standar deviasi 1. Diskretisasi setiap atribut numerik ke dalam (a) 10 rentang equi-
width dan (b) 10 rentang equi-depth.
4. Misalkan Anda memiliki satu set objek arbitrer dari berbagai jenis yang mewakili
karakteristik widget yang berbeda. Seorang ahli domain memberi Anda nilai kesamaan
antara setiap pasangan objek. Bagaimana Anda mengubah objek-objek ini menjadi
kumpulan data multidimensi untuk pengelompokan?
5. Misalkan Anda memiliki kumpulan data, sehingga setiap titik data sesuai dengan suhu
permukaan laut lebih dari satu mil persegi dengan resolusi 10×10. Dengan kata lain,
setiap catatan data berisi kisi 10 × 10 nilai suhu dengan lokasi spasial. Anda juga

punyabeberapa teks yang terkait dengan setiap kisi 10 × 10. Bagaimana Anda mengubah
data ini menjadi kumpulan data multidimensi?
6. Misalkan Anda memiliki satu set urutan protein biologis diskrit yang dianotasi dengan
teks yang menjelaskan sifat-sifat protein. Bagaimana Anda membuat representasi
multidimensi dari kumpulan data yang heterogen ini?
D. Kunci Jawaban
1. Silakan dibaca di uraian diatas.

Daftar Pustaka
1. Tan, Steinbach, Karpatne, Kumar, Introduction to Data Mining, 2nd Edition, 2019
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item3
2. Charu C. Aggarwal , Data Mining: Textbook, IBM T.J. Watson Research Center
Yorktown Heights, New York
USA, 2015

Modul 2 - Data Mining

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Modul 2 - Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

MODUL DATA MINING

UNIVERSITAS ESA UNGGUL

https://esaunggul.ac.id Page 1 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

A. Kemampuan Akhir Yang Diharapkan

https://esaunggul.ac.id Page 2 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

2.2 Ekstraksi Fitur dan Portabilitas

https://esaunggul.ac.id Page 3 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

https://esaunggul.ac.id Page 4 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

Pengenalan entitas bernama adalah sub-tugas penting dari ekstraksi informasi.

https://esaunggul.ac.id Page 5 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

https://esaunggul.ac.id Page 6 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

https://esaunggul.ac.id Page 7 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

2.2.2.2 Kategori Data Numerik: Binarisasi

2.2.2.3 Text ke Data Numerik

https://esaunggul.ac.id Page 8 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

diperlukan untuk memastikan bahwa dokumen dengan panjang yang bervariasi

2.2.2.4 Data Time Seri ke Data Urutan Diskrit

 Rata-rata berbasis-jendela (windows-base averaging): Deret dibagi menjadi jendela

https://esaunggul.ac.id Page 9 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

2.2.2.5 Data Time Seri ke Data Numerik

Transformasi khusus ini sangat berguna karena memungkinkan penggunaan algoritma

2.2.2.6 Sekuens diskrit ke Data Numerik

https://esaunggul.ac.id Page 10 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

2.2.2.7 Spasial ke data Numerik

2.2.2.8 Grafik ke Data Numerik

2.2.2.9 Semua Jenis Grafik untuk Aplikasi Berbasis Kesamaan (Similarity-Base

Banyak aplikasi didasarkan pada gagasan kesamaan. Misalnya, masalah

https://esaunggul.ac.id Page 11 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

 Sebuah node tunggal didefinisikan untuk setiap objek di O. Ini didefinisikan

Di sini, t adalah parameter yang ditentukan pengguna.

2.3 Pembersihan Data (Data Cleaning)

https://esaunggul.ac.id Page 12 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

https://esaunggul.ac.id Page 13 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

2.2.1 Menangani Entri yang Hilang

https://esaunggul.ac.id Page 14 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

2.2.2 Menangani Entri yang Salah dan Tidak Konsisten

https://esaunggul.ac.id Page 15 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

2.2.3 Penskalaan dan Normalisasi

https://esaunggul.ac.id Page 16 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

https://esaunggul.ac.id Page 17 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

https://esaunggul.ac.id Page 18 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

1. Silakan dibaca di uraian diatas.

https://esaunggul.ac.id Page 19 of 19 Revisi/Tgl. ( 0 / 01-09-2021 )

Anda mungkin juga menyukai