Anda di halaman 1dari 38

Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing
Data Mining
Lecturer: Tresna Maulana F, S.ST., M.T.
Fakultas Ilmu Komputer
Universitas Narotama

Data Mining - From Data to Knowledge


Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


Pentingnya Pre-processing
Mengapa harus dilakukan Data Pre-processing?

ü Jika data masukan tidak berkualitas, maka hasil data


mining juga tidak akan berkualitas.
ü Keputusan yang berkualitas pasti
berasal/berdasarkan data yang berkualitas.
ü Data Warehouse (Gudang data) membutuhkan
integrasi yang konsisten dari data yang berkualitas.
ü Jangan sampai terjadi Garbage In Garbage Out.

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


Kenali Data Anda
Data yang ada pada umumnya:
1. Banyak noise (kesalahan yang berserakan pada data)
2. Mengandung outlier (nilai yang menyimpang jauh)
3. Ukuran (atribut + sampel) yang besar
4. Dapat berasal dari campuran berbagai sumber data
5. Belum tentu relevan antar atribut yang dilibatkan
Missing?
6. Belum tentu kolom setiap data terisi (missing values)

Memahami data sangat penting untuk preprocessing!


Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


Kualitas Data
Good Pre-processing = Good Data Quality
Ukuran kualitas data
1. Accuracy : Tingkat kebenaran atau kesalahan data, keakuratan data.
2. Completeness : Tingkat kelengkapan data, ketersediaan data
3. Consistency : Tingkat kekonsistenan dalam modifikasi data.
4. Timeliness : Tingkat ketepatan waktu dalam update data.
5. Believability : Tingkat keterpercayaan terhadap kebenaran data.
6. Interpretability : Tingkat kemudahan dalam memahami data.

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


1. Data cleaning
4 Tugas Utama Pre-processing
ü Mengisi Missing values
ü Menghaluskan Data Noise
ü Mengidentifikasi atau menghapus Outlier
ü Memperbaiki data yang tidak konsisten
2. Data integration
ü Mengintegrasikan beberapa database
ü Data cube (data berdimensi tinggi, 3D)
ü Mengintegrasikan files
3. Data transformation
ü Normalisasi data tiap atribut
4. Data reduction
ü Mereduksi dimensi (fitur/atribut)
ü Kompresi data Pre-processing à60%
pekerjaan mayoritas
dalam data mining
Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


4 Tugas Utama Pre-processing

Data Cleaning

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


Data Cleaning
– “Data cleaning is one of the three biggest problems in data
warehousing”—Ralph Kimball
– “Data cleaning is the number one problem in data
warehousing”—DCI survey
Proses membersihkan data dapat dilakukan dengan beberapa teknik
A. Mengisi Missing values
B. Menghaluskan Data Noise
C. Mengidentifikasi atau menghapus Outlier
D. Memperbaiki data yang tidak konsisten

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


A Data Cleaning : Missing Values
§ Data tidak selalu tersedia
ü Banyak data yang tidak menyimpan nilai pada beberapa atribut.
§ Data yang hilang, karena:
ü Kerusakan peralatan
ü Tidak konsisten dengan data penyimpanan lainnya, atau terhapus
ü Data tidak masuk karena bertabrakan dengan data lainnya
ü Data tertentu mungkin tidak dianggap penting pada saat masuk
ü Tidak mencatat riwayat atau perubahan data
§ Data yang hilang mungkin perlu diambilkeputusan.

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


A Data Cleaning : Missing Values
ü Contoh data yang memiliki missing values

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


A Data Cleaning : Menangani Data Missing Values
§ Mengabaikan record/data (jika jumlah data missing values <=5% dari keseluruhan data)
ü Biasanya dilakukan pada label kelas yang hilang (dengan asumsi pada kasus klasifikasi).
ü Cara ini tidak efektif bila persentase nilai yang hilang per atribut sangat bervariasi.
§ Mengisi nilai secara manual à jarang dilakukan (membosankan dan memakan waktu lama)
§ Mengisi nilai secara otomatis dengan
ü Nilai tetap global, diberi keterangan : “unknown”
ü Nilai mean (distribusi data normal - tipe data continuous) atribut, menghitung nilai mean
atribut untuk semua sampel yang termasuk dalam kelas yang sama: recommended
ü Nilai median (jika distribusi data tidak normal / condong - tipe data continuous):recommended
ü Nilai modus (tipe data ordinal, katerogikal): recommended
ü Nilai yang paling mungkin: inference-based (berbasis keputusan)
ex: Formula Bayesian, Decision Tree: recommended Teknik mengisi nilai
missing values =
Imputation
Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


B Data Cleaning : Data Noise
§ Noise: kesalahan acak atau varians dalam variabel terukur
§ Nilai atribut yang tidak tepat yang disebabkan oleh:
ü Instrumen pengumpulan data yang salah
ü Masalah entri data Nama Gaji
ü Masalah transmisi data
Andi Rp. 6000.000
ü Tidak konsisten dalam ketentuan penamaan data
§ Masalah yang lain: Bayu Rp. 5000.000
ü Duplikasi data Chandra Rp. 4000.000
ü Data yang tidak lengkap Dani -100
ü Data yang tidak konsisten
Eko Rp. 6000.000

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


B Data Cleaning : Data Noise

ü Contoh data yang


mempunyai noise

Noise akan menjadi outlier jika


suatu nilai menyimpang dari
kondisi “normal” yang cukup besar

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


B Data Cleaning : Menangani Data Noise
§ Binning
ü Binning mengganti suatu nilai noise dengan nilai yang lebih sesuai dengan data lain yang ada
di sekitar data noise tersebut (local smoothing)
ü Mengurutkan data dan mempartisi ke dalam (frekunsi yang seimbang) bins
ü Suatu nilai dapat menjadi smooth (halus) dengan menggunakan bin means, median, dan
boundaries.
§ Regression
ü Menghaluskan nilai dengan menyesuaikan data menjadi fungsi regresi
§ Clustering
ü Mendeteksi dan menghapus outlier
§ Kombinasi pemeriksaan nilai melalui komputer dan manusia
ü Mendeteksi nilai yang mencurigakan dan diperiksa oleh manusia (ex: kesepakatan dengan
kemungkinan adanya outlier)

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


B Data Cleaning : Menangani Data Noise
Metode Diskritisasi Sederhana: Binning
§ Metode ini akan melakukan pengelompokan terhadap kumpulan data
§ Metode bining merupakan salah satu pendekatan diskritisasi
§ Urutan proses:
ü Urutkan data secara ascending
ü Lakukan partisi ke dalam bins
• Dapat dengan equal-width (jarak) atau equal-depth (frekuensi)
ü Kemudian dapat di-smoothing: smooth by means, smooth by median, smooth by boundaries

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


B Data Cleaning : Menangani Data Noise
Metode Diskritisasi Sederhana: Binning
§ Equal-width (distance) partitioning
ü Membagi rentang menjadi N interval dengan ukuran yang sama: uniform grid
ü Jika A dan B adalah atribut nilai terendah dan tertinggi, lebar dari interval akan menjadi: W =
(B - A) / N.
ü Cara paling mudah, tapi outlier bisa mendominasi posisi
ü Distribusi miring (asimetris) tidak ditangani dengan baik
§ Equal-depth (frequency) partitioning
ü Membagi rentang menjadi N interval, masing-masing memuat jumlah sampel yang hampir
sama Kedua metode tsb berguna juga
ü Penskalaan data yang baik untuk mengubah dr data numerik
ke kategori
ü Penanganan atribut yang bersifat kategori à rumit “Unsupervised binning method”

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


B Data Cleaning : Menangani Data Noise
Equal-width (distance)

Metode Binning untuk Data Smoothing


Data terurut : 4, 8, 15, 22, 24, 35, 36, 39, 39
Apabila dibagi 3 bin, maka
§ W = (B - A) / N.
ü W= (39-4)/3 = 35/3 = 11.6 = 12 X<12

ü Bin1: 4, 8 [-,12]
ü Bin2: 22, 24 [12,24] 12<=X<=24

ü Bin3 : 35, 36, 39, 39 [24,+]


X>24

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


B Data Cleaning : Menangani Data Noise
Equal-depth (frequency)
Metode Binning untuk Data Smoothing 4,8,15 à bts bawah = 4, bts atas =15
Data terurut : 4, 8, 15, 22, 24, 35, 36, 39, 39 (4+15)/2 = 9.5
Apabila dibagi 3 bin, maka dibagi menjadi 3 bagian q 4 < 9.5 à Nilai tetap 4
q 8 < 9.5 à Nilai tetap 4
Data bin 1-3 :{ 4, 8, 15}, { 22, 24, 35}, {36, 39, 39}
q 15 > 9.5 à Nilai yang diambil 15
§ Bin by means:
ü Bin1: 9, 9, 9 (didapat dari (4+8+15)/3) 22,24,35 à bts bawah = 22, bts atas =35
(22+35)/2 = 28.5
ü Bin2: 27, 27, 27 (didapat dari (22+24+35)/3)
q 22 < 28.5 à Nilai tetap 22
ü Bin3 : 38, 38, 38 (didapat dari (36+39+39)/3) q 24 < 28.5 à Nilai tetap 22
§ Bin by boundaries: (batas bawah+batas atas)/2 q 35 > 28.5 à Nilai yang diambil 35
ü Bin1: 4, 4, 15 36,39,39 à bts bawah = 36, bts atas =39
ü Bin2: 22, 22, 35 (36+39)/2 = 37.5
q 36 < 37.5 à Nilai tetap 36
ü Bin3 : 36, 39, 39
q 36 < 37.5 à Nilai tetap 36
q 39 > 37.5 à Nilai yang diambil 39
Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


B Data Cleaning : Menangani Data Noise
Metode Binning untuk Data Smoothing
Equal Width (Distance) Equal Depth (Frequency)
4,5 3,5
4 3
3,5
2,5
3
2,5 2
2 Equal Width (Distance) 1,5 Equal Depth (Frequency)
1,5
1
1
0,5 0,5

0 0
<12 (Bin 1) 12-24 (Bin 2) >24 (Bin 3) Bin 1 Bin 2 Bin 3

ü Bin1: 4, 8 [-,12] ü Bin1: 4, 8, 15


ü Bin2: 22, 24 [12,24] ü Bin2: 22, 24, 35
ü Bin3 : 35, 36, 39, 39 [24,+] ü Bin3 : 36, 39 , 39

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


B Data Cleaning : Menangani Data Noise
Regression
ü Menghaluskan nilai dengan
menyesuaikan data menjadi
fungsi regresi

Fungsi yang diperoleh ketika mencari sebuah


persamaan garis yang mendekati titik-titik yang
telah diberikan.

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


C Data Cleaning : Menangani Data Noise

Cluster Analysis
ü Mendeteksi dan
menghapus outlier

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


D Data Cleaning : Menangani Data Tidak Konsisten

§ Koreksi manual menggunakan petunjuk eksternal (ahli data di bidangnya)


§ Semi-automatic menggunakan berbagai software/tools
ü Untuk mendeteksi kerusakan dan keterbatasan data
ü Memperbaiki nilai-nilai atribut yang sama tetapi mempunyai label kelas yang berbeda
(tidak konsisten)
Data Tidak Konsisten

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


4 Tugas Utama Pre-processing

Data Integration

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


Data Integration
Data integration adalah suatu langkah untuk menggabungkan data dari beberapa sumber. Data
integration dilakukan jika data berasal dari tempat yang berbeda-beda (sumber data tidak hanya dari
1 tempat).
Langkah yang dilakukan:
§ Integrasi skema: e.x: A.customer-id=B.customer-#
ü Integrasi metadata dari sumber yang berbeda
§ Masalah identifikasi entitas
ü Identifikasi entitas dari berbagai sumber data, ex: Bill Clinton = William Clinton
§ Mendeteksi dan menyelesaikan konflik nilai data
ü Nilai atribut dari sumber berbeda à hasilnya berbeda
ü Beragam representasi, skala nilai

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


Data Integration: Menangani Redundansi Data
§ Data redundan (duplikasi) sering terjadi saat integrasi dari beberapa database
ü Object Identification : Atribut atau objek yang sama boleh jadi mempunyai nama yang
berbeda di dalam database yang berbeda
ü Derivable data : Satu atribut boleh jadi merupakan atribut "turunan" di tabel lain.
ex: Pendapatan tahunan
§ Atribut redundan dapat dideteksi dengan correlation analysis dan covariance analysis
§ Integrasi data yang cermat dari berbagai sumber dapat membantu mengurangi / menghindari
redudansi, inkonsistensi, serta meningkatkan kecepatan dan kualitas dalam data mining

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


Data Integration: Menangani Redundansi Data
ü Redundansi data menghabiskan tempat penyimpanan data dan juga menimbulkan
inkonsisten data.

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


4 Tugas Utama Pre-processing

Data Transformation

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


Data Transformation
§ Data Transformation adalah teknik untuk mengubah suatu format/struktur data ke suatu
format/struktur lainnya

Dengan cara:
ü Smoothing: menghapus noise dari data (binning, clustering, regression)
ü Aggregation: (summarization, cube construction)
ü Generalization: concept hierachy climbing
ü Normalization: mengelompokkan data sesuai skala tertentu (min-max, Z-score, decimal
scaling) : sering diterapkan dalam data mining
Decimal Float
7, 41, 54, -10, 33 0.7, 0.41, 0.54, -0.1, 0.33

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


Data Transformation: Normalization
§ Normalization: adalah proses penskalaan nilai atribut dari data sehingga bisa
jatuh pada range tertentu.
§ Contoh:
ü Pencatatan tingkat kematian penduduk di Indonesia per bulannya
berdasarkan jenis umur
Dalam proses data mining akan terjadi ketimpangan nilai

Jika range masing-masing


• Bulan (1-12) dimensi dibentangkan,
• Umur (0-100) maka akan terlihat
• Jumlah Kematian (0-Jutaan) ketidakseimbangan range
à jumlah kematian
Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


Data Transformation: Normalization

§ Metode Normalisasi
A. Min-max
B. Z-Score Decimal Float
C. Decimal Scaling 7, 41, 54, -10, 33 0.7, 0.41, 0.54, -0.1, 0.33

D. Sigmoidal
E. Softmax

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


A Data Transformation: Normalization
§ Metode Normalisasi: Min-max
ü Min-Max merupakan metode normalisasi dengan melakukan transformasi linier
terhadap data asli.
ü Rumus:
newdata = (data-min)*(newmax-newmin)/(max-min)+newmin
ü Keuntungan : keseimbangan nilai perbandingan antar data saat sebelum dan
sesudah proses normalisasi. Tidak ada data bias yang dihasilkan oleh metode ini.
ü Kekurangan: jika ada data baru, metode ini akan memungkinkan terjebak pada
"out of bound" error.

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


B Data Transformation: Normalization
§ Metode Normalisasi: Z-score
ü Z-score metode normalisasi yang berdasarkan mean (nilai rata-rata) dan standard
deviation (deviasi standar) dari data.
ü Rumus:
newdata = (data-mean)/std
ü Metode ini sangat berguna jika kita tidak mengetahui nilai aktual minimum dan
maksimum dari data

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


C Data Transformation: Normalization
§ Metode Normalisasi: Decimal Scaling
ü Metode ini melakukan normalisasi dengan menggerakkan nilai desimal dari data
ke arah yang diinginkan.
ü Rumus:
newdata = data / 10 i
dimana i adalah nilai integer untuk menggerakkan nilai desimal ke arah yang
diinginkan.

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


D Data Transformation: Normalization
§ Metode Normalisasi: Sigmoidal
ü Sigmoidal normalization melakukan normalisasi data secara nonlinier ke dalam range -
1 - 1 dengan menggunakan fungsi sigmoid.
ü Rumus:
newdata = (1-e^(-x))/(1+ e^(-x))
dimana:
x = (data-mean)/std
e = nilai eksponensial (2,718281828)

ü Metode ini sangat berguna pada saat data-data yang ada melibatkan data-data outlier.

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


E Data Transformation: Normalization
§ Metode Normalisasi: Softmax
ü Metode ini merupakan pengembangan transformasi secara linier. Output range-nya
adalah 0-1.
ü Rumus:
newdata = 1/(1+e^(-transfdata))
dimana:
transfdata = (data-mean)/(x*(std/(2*3.14)))
x = respon linier di deviasi standar

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


4 Tugas Utama Pre-processing

Dimensionality Reduction

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


Dimensionality Reduction
Data reduction:
Mendapatkan representasi data yang berkurang yang jauh lebih kecil dalam sebuah volume data
namun menghasilkan analisis yang sama (atau hampir sama)

Mengapa reduksi data? - Database / gudang data dapat menyimpan terabyte data.
Analisis data yang kompleks mungkin memerlukan waktu yang sangat lama untuk berjalan
pada kumpulan data yang lengkap.

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


Dimensionality Reduction
Tujuan Mereduksi Dimensi
ü Mengurangi jumlah dimensi atau atribut data dengan teknik tertentu sehingga resource
yang digunakan lebih sedikit dan prosesnya dapat lebih cepat untuk dilibatkan dalam data
mining.
ü Mencegah Curse of Dimensionality
ü Membantu mengeliminasi fitur yang tidak relevan dan mengurangi noise
ü Mengurangi konsumsi waktu dan ruang dalam data mining
ü Agar visualisasi data lebih mudah

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.
Intelligent Computing to Knowledge Creation Data Mining Course

Data Pre-processing - Data Mining


Dimensionality Reduction
Teknik Reduksi Data
§ Wavelet transform
§ Principal Component Analysis (PCA)
§ Feature Subset Selection, Feature creation

Data Mining - From Data to Knowledge | Lecturer: Tresna Maulana F, S.ST., M.T.

Anda mungkin juga menyukai