Anda di halaman 1dari 18

4/1/13  

Data Preprocessing - Budi Susanto - FTI UKDW

DATA
PREPROCESSING
Budi Susanto (versi 1.2)

Kenali Data Anda
¨ 

Atribut Data
¤  Memahami
¤  Membantu

¨ 

tipe atribut
membetulkan data saat integrasi data

Deskripsi Statistik Data
¤  Memudahkan

untuk mengisi nilai yang kosong,
noise data,
¤  mengetahui outlier selama pemrosesan data
¤  memperhalus
¨ 

Mengukur Kesamaan dan ketidaksamaan
¤  Dapat

berguna juga untuk mendeteksi outlier
melakukan klasifikasi
¤  Pada umumnya untuk mengukur “kedekatan”.
¤  Untuk

Data Preprocessing - Budi Susanto - FTI UKDW

1  

4/1/13   Data ¨  Data yang ada pada umumnya: ¤  Banyak noise ¤  Ukuran yang besar ¤  Dapat merupakan campuran dari berbagai macam sumber ¨  Memahami data sangat penting untuk tahap preprosesing. ¨  ¤  Nominal ¤  Binary (Binomial) ¤  Ordinal ¤  Numerik n  Interval-scale n  Ratio-scale ¤  Diskret atau Continue Data Preprocessing .Budi Susanto . ¨  Tipe atribut menentukan himpunan nilai yang diperbolehkan.FTI UKDW 2   .FTI UKDW Atribut Data Mencerminkan karakteristik objek data. Data Preprocessing .Budi Susanto .

FTI UKDW Data Mining: Concepts and Techniques. p. 47 Deskripsi Statistik ¨  Mengukur penyebaran data ¤  Rentang dan Kuartil ¤  Variasi dan Standard Deviasi Data Preprocessing .. 3th ed. 3th ed.Budi Susanto . p..4/1/13   Deskripsi Statistik ¨  Mengukur lokasi pusat/tengah dari distribusi data ¤  Mean ¤  Median ¤  Mode ¤  Midrange Data Preprocessing .Budi Susanto . 48 3   .FTI UKDW Data Mining: Concepts and Techniques.

FTI UKDW 4   .FTI UKDW Mengukur Kesamaan ¨  Dalam aplikasi data mining. membutuhkan cara untuk menilai dua objek data serupa atau tidak.Budi Susanto .5 x IQR Data Preprocessing . seperti clustering. klasifikasi nearest-neighbor.Budi Susanto .4/1/13   BoxPlot ¨  Interquartil Range (IQR) ¤  Q3 ¨  – Q1 Outlier data ¤  1. analisis outlier. ¤  Minkwoski n  Euclidean distance dan Manhattan ¤  Cosine Data Preprocessing .

FTI UKDW Mengapa Perlu Data Preprocessing? ¨  Data mentah yang ada sebagian besar kotor ¤  Tidak komplet n  Berisi data yang hilang/kosong n  Kekurangan atribut yang sesuai n  Hanya berisi data aggregate ¤  Banyak “noise” n  Berisi data yang Outlier n  Berisi error ¤  Tidak konsisten n  Berisi nilai yang berbeda dalam suatu kode atau nama Data Preprocessing .4/1/13   Mengukur Kesamaan Data Preprocessing .Budi Susanto .Budi Susanto .FTI UKDW 5   .

4/1/13   Mengapa Data Preprocessing Penting? Data yang tidak berkualitas. akan menghasilkan kualitas mining yang tidak baik pula.Budi Susanto . ¨  Data Preprocessing .Budi Susanto . dan transformasi merupakan pekerjaan mayoritas dalam aplikasi data mining (90%).FTI UKDW Ukuran Kualitas Data Accuracy ¨  Completeness ¨  Consistency ¨  Timeliness ¨  Believability ¨  Value added ¨  Interpretability ¨  Accessibility ¨  Data Preprocessing . ¨  Data Preprocessing.FTI UKDW 6   . cleaning.

4/1/13   Teknik Data Preprocessing Data Cleaning ¨  Data integration ¨  Data Reduction ¨  Data Transformation ¨  Data Preprocessing .Budi Susanto .FTI UKDW 7   .Budi Susanto .FTI UKDW Data Cleaning ¨  Proses untuk membersihkan data dengan beberapa teknik ¤  Memperkecil noise ¤  membetulkan data yang tidak konsisten. ¤  Mengisi missing value ¤  Mengidentifikasi atau membuang outlier Data Preprocessing .

45 Programmer L 2005 ? Ibu RT P 2003 2.Budi Susanto . ¨  Contoh untuk missing value Pekerjaan.FTI UKDW Data Cleaning: Missing Values Angkatan IPK Pekerjaan Kelamin 2004 3.4/1/13   Data Cleaning: Missing Values ¨  Mengabaikan record ¤  Biasanya ¨  ¨  untuk label klasifikasi yang kosong Mengisikan secara manual Menggunakan mean/median dari atribut yang mengandung missing value ¤  Mean dapat dipakai jika distribusi data normal ¤  Median digunakan jika distribusi data tidak normal (condong) ¨  ¨  Menggunakan nilai global Menggunakan nilai termungkin ¤  Menerapkan regresi Data Preprocessing .Budi Susanto . dapat diisi dengan pekerjaan yang paling banyak muncul.FTI UKDW 8   .81 ? P Contoh untuk missing value IPK diisi dengan ratarata IPK atau diisi dengan nilai IPK yang paling mungkin untuk angkatan 2005 dan Perempuan serta menjadi ibu rumah tangga. ¨  Data Preprocessing .

FTI UKDW 9   . ¨  Teknik-teknik ¨  ¤  Binning n  Smoothing by bin means n  Smoothing by bin medians n  Smoothing by bin boundaries ¤  Regression ¤  Outlier Analysis Data Preprocessing . dsb. Urutan proses: ¤  Urutkan data secara ascending ¤  Lakukan partisi ke dalam bins n  Dapat dengan equal-width (jarak) atau equal-depth (frekuensi) ¤  Kemudian dapat di-smoothing: smooth by means.FTI UKDW Metode Binning ¨  ¨  ¨  Metode ini akan melakukan pengelompokan terhadap kumpulan data.4/1/13   Data Cleaning: Noisy Data Noise data adalah suatu kesalahan acak atau variasi dalam variabel terukur. smooth by boundaries. Metode binning merupakan salah satu pendekatan dicretization.Budi Susanto . Data Preprocessing .Budi Susanto . smooth by median.

4. 4. Lebar interval adalah n  w = (max-min)/k ¤  Batasan n  min+w. 28 ¨  [-. 16. 16. 18 ¤  BIN3 = 24. 16. 26. 16. …. 26. 4 ¤  BIN2 = 12. min+(k-1)w Partisi Equal-depth ¤  Membagi data ke dalam k kelompok dimana tiap kelompok berisi jumlah yang sama Data Preprocessing . 24. 28 Data Preprocessing .FTI UKDW 10   . 12 ¤  BIN2 = 16. 26. ¨  interval adalah min+2w. 18 ¤  BIN3 = 24. 20] [20.4/1/13   Partisi dalam Metode Binning ¨  Partisi Equal-Width ¤  Algoritma membagi data ke dalam k interval ukuran yang sama. 28 ¨  Equal Width ¨  ¤  BIN1 = 0. 10] [10. 12.Budi Susanto .FTI UKDW Contoh Partisi Binning Data: 0.Budi Susanto . +] Equal Depth ¤  BIN1 = 0. 16. 18.

Budi Susanto .4/1/13   Smoothing pada Partisi Binning ¨  Smoothing berdasar rata-rata ¤  Semua nilai di tiap bin diganti dengan rata-rata nilai tiap bin ¨  Smoothing berdasar batasan ¤  Setiap nilai bin diganti dengan nilai yang paling dekat dari batasan nilai ¤  Batasan nilai terbentuk dari [min.FTI UKDW age 11   .Budi Susanto . max] tiap bin Data Preprocessing .FTI UKDW Data Cleaning: Outliers salary cluster outlier Data Preprocessing .

FTI UKDW 12   .Budi Susanto .4/1/13   Data Cleaning: Regresi y (salary) y=x+1 Y1 X1 x (age) Data Preprocessing .FTI UKDW Percobaan Data Cleaning ¨  Dataset ¤  Labor-Negotiations Data Preprocessing .Budi Susanto .

Budi Susanto .FTI UKDW 13   .Budi Susanto .FTI UKDW reglin Data Integration Data dapat bersumber dari beberapa sumber ¨  Teknik ¨  ¤  Analisis korelasi ¤  Atribut redudan ¤  duplikasi Data Preprocessing .4/1/13   Workflow #1 Data Preprocessing .

¨  Strategi: ¨  ¤  Smoothing ¤  Attribute (feature) construction ¤  Aggregation ¤  Normalization ¤  Discretization Data Preprocessing .FTI UKDW 14   .Budi Susanto .Budi Susanto .FTI UKDW integration Data Transformation Tujuannya: diharapkan lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami.4/1/13   Covariance Correlation Data Preprocessing .

FTI UKDW coba1 Data Transformation: Normalization ¨  ¨  Unit ukuran dapat mempengaruhi analisis data.Budi Susanto . 1] atau [0.0. Data Preprocessing .4/1/13   Data Transformation: Aggregation dan Smoothing Data Preprocessing .FTI UKDW 15   .0] Diperlukan dalam klasifikasi (termasuk neural network dan nearest network) dan clustering.Budi Susanto . Unit yang lebih kecil akan menghasilkan rentang nilai yang besar ¤  Atribut lain ¨  Sehingga ¤  Data ¨  ¨  akan memiliki “bobot” yang lebih besar dari atribut perlu dinormalisasi atau dibakukan. Hasil suatu normalisasi adalah [-1. 1.

FTI UKDW 16   .FTI UKDW normalization Data Preprocessing .4/1/13   Data Transformation: Metode Normalization Min-max ¨  Z-score ¨  Decimal scaling ¨  Data Preprocessing .Budi Susanto .Budi Susanto .

4/1/13   Data Transformation: Discretization ¨  Melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10.Budi Susanto .) atau konseptual label (misalnya: bawah.FTI UKDW discret 17   . atas) Data Preprocessing .Budi Susanto .11-20. dst. tengah.FTI UKDW discretization Data Preprocessing .

FTI UKDW TERIMA KASIH! Budi Susanto 18   .Budi Susanto .FTI UKDW Data Preprocessing .Budi Susanto .4/1/13   Data Transformation: Data Reduction ¨  Teknik ¤  Dimensionality reduction n  Wavelet transform n  Principal Component Analysis n  Attribute Subset Selection ¤  Numerosity reduction n  sampling ¤  Data compression Data Preprocessing .