Anda di halaman 1dari 42

Data Pre-Processing

Capaian Belajar

Mengenal objek dan atribut data

Mengenal data pre-processing

Mengetahui dan memahami tahapan dalam pre-processing

Mampu melalukan pre-processing data secara sederhana


What is Data?
• Menurut Kountur (2005), Data didefinisikan sebagai sesuatu yang dimiliki
oleh anggota dari populasi yang dapat diukur.
• Data ialah suatu bahan mentah yang jika diolah dengan baik melalui
berbagai analisis dapat melahirkan berbagai informasi (Usman dan
Akbar, 2008).

by Sitti Rahmah Jabir, M.Sc


Syarat Data:
• Kualitas sebuah data sangat menentukan kualitas hasil pembuatan
keputusan.
• Terdapat sebuah istilah “GIGO” yakni “Garbage In Garbage Out”, yang
bermakna bahwa apabila data yang diinput salah, maka apabila
digunakan sebagai dasar dalam pembuatan keputusan, akan
menghasilkan keputusan yang salah.

by Sitti Rahmah Jabir, M.Sc


Data dikatakan baik apabila…
• Objektif, sesuai dengan kondisi sebenarnya dan tidak dilakukan manipulasi
maupun rekayasa di dalamnya.
• Representative, dapat mewakili objek yang diamati.
• Kesalahan sampling yang kecil, yakni data dengan tingkat ketelitian yang tinggi.
• Cocok (relevant), memiliki hubungan atau keterkaitan dengan masalah yang
akan diselesaikan.
• Mutakhir, semakin terkini data yang dimiliki maka akan semakin bermakna
untuk digunakan sebagai landasan pengambilan keputusan.

by Sitti Rahmah Jabir, M.Sc


Tipe Data
1. Non-pendency data (data yang tidak bergantungan) : mengacu pada
tipe data sederhana seperti multidimensi atau data teks. Tipe ini
merupakan yang paling sederhana dan paling umum ditemui. Datanya
tidak memiliki ketergantungan tertentu antara item data dan atribut.
Contoh : sekumpulan data demografis mengenai individu serperti
usia, jenis kelamin dan Pendidikan. Datanya biasa berisi sekumpulan
record dimana setiap record berisi sekumpulan atribut.
2. Dependecy data (data yang saling bergantung) : terdapat hubungan
implisit atau eksplisit antara item data. Misalnya data deret waktu
yang berisi dependensi implisit. Data ini lebih menantang karena
kompleksitasnya dengan data yang sudah ada sebelumnya.
by Sitti Rahmah Jabir, M.Sc
Nondependecy Data
Nama Usia Jenis Kelamin Pendidikan
Rina 24 P S1
Fatimah 27 P S2
Adam 26 L S2
Bina 30 P S1

• 
• Multidimensional data merupakan kumpulan data multidimensi yang
didefinisikan sebagai berikut:
Himpunan multidimensi D adalah himpunan n (jumlah) data, X1,….,Xn,
dimana setiap record Xi mengandung serangkaian fitur d yang
dilambangkan dengan (x …. x ).

by Sitti Rahmah Jabir, M.Sc


Non-pendency Data
• Quantitative Multidimensional Data

Data multidimensi kuantitatif diketahui sebagai data yang semua bidangnya kuantitatif. Dimana atributnya disebut kontinu, numerik, atau
kuantitatif. Dalam data mining, sub data ini yang paling dianggap umum dan banyak algoritme yang dapat diimplementasikan. Subtipe ini
sangat cocok untuk pemrosesan analitis karena lebih mudah bekerja dengan data kuantitatif dari perspektif statistic. Contoh : mean dari
sebuah kumpulan atribut.

• Categorical and Mixed Attribute Data

Tipe data ini merupakan kategorikal yang nilainya ridak memiliki urutan (jenis kelamin, ras, kode ZIP). Terdapat juga data yang memiliki
numerical dan kategorikal dalam suatu table yang disebut sebagai data atribut campuran (mixed attribute data).

• Binary dan set data

Data biner dapat dianggap sebagai kasus khusus baik itu data kategori multidimensi maumpun data kuantitatif multidimensi. Dimana terdapat
dua nilai yaitu 0 atau 1.

• Text data

Disebut sebagai data data string atau data multidimensi tergantung bagaimana direpresentasikan. Setiap string merupakan urutan karakter
(atau kata). Frekuensi ini Frekuensi ini biasanya dinormalisasi dengan statistik seperti panjang dokumen, atau frekuensi kata-kata dalam sebuah
kumpulan. data teks dapat dianggap sebagai data kuantitatif multidimensi, di mana atributnya sesuai dengan kata-kata, dan nilainya sesuai
dengan frekuensi atribut tersebut.
by Sitti Rahmah Jabir, M.Sc
Dependency Data
Dalam beberapa tipe data ketergantungan (dependency data) dapat berupa implisit
dan eksplisit, dimana:
1. Implisit dependencies merupakan ketergantungan antara item data tidak secara
eksplisit tetapi biasanya ada di domain tersebut. Misalnya, nilai suhu berurutan
yang dikumpulkan oleh sebuah sensor kemungkinan besar akan sangat mirip satu
sama lain. Oleh karena itu, jika nilai suhu yang direkam oleh sensor pada waktu
tertentu berbeda secara signifikan dari yang direkam pada saat berikutnya, maka
ini sangat tidak biasa dan mungkin menarik untuk proses data mining.
2. Eksplisit dependencies biasanya mengacu pada grafik atau data jaringan di mana
edge digunakan untuk menentukan hubungan eksplisit. Grafik adalah abstraksi
yang sangat kuat yang sering digunakan sebagai representasi perantara untuk
menyelesaikan masalah data mining dalam konteks tipe data lainnya.

by Sitti Rahmah Jabir, M.Sc


Tipe data dependency:
• 
• Data deret waktu (time-series) : Data deret waktu berisi nilai yang biasanya dihasilkan oleh pengukuran
berkelanjutan dari waktu ke waktu. Misalnya, sensor lingkungan akan mengukur suhu secara terus menerus.
• Discrete Sequences and Strings : Urutan diskrit dapat dianggap sebagai analog kategoris dari data deret waktu.
Seperti dalam kasus data deret waktu, atribut kontekstualnya adalah stempel waktu atau indeks posisi dalam
urutan. Atribut perilaku adalah nilai kategorikal. Oleh karena itu, data urutan diskrit didefinisikan dengan cara yang
mirip dengan data deret waktu. Contoh : urutan akses Web, dimana alamat halaamn Web dan alamat IP terkumpul
100 akses yang berbeda. Ini mewakili urutan diskrit dengan Panjang n=100 dan dimensi d=2. kasus yang sangat
umum dalam data urutan adalah skenario univariat, di mana nilai d adalah 1. Data urutan tersebut juga disebut
sebagai string. Perbedaan dengan deret waktu yaitu sekuens diskrit mengandung atribut kategorikal. Secara teori,
dimungkinkan untuk memiliki deret yang dicampur antara data kategorikal dan numerik.
• Data spasial : Dalam data spasial, banyak atribut nonspatial (misalnya, suhu, tekanan, intensitas warna piksel
gambar) diukur di lokasi spasial. Misalnya, suhu permukaan laut sering dikumpulkan oleh ahli meteorologi untuk
meramalkan terjadinya badai. Dimaana dta spasial berdimensi d adalah kumpulan rekaman berdimensi d bersama
dengan himpunan n lokasi L1 ... Ln, sedemikian rupa sehingga catatan Xi dikaitkan dengan lokasi Li.
• Data jaringan dan grafik : Dalam jaringan dan data grafik, nilai data mungkin sesuai dengan node dalam jaringan,
sedangkan hubungan antar nilai data mungkin sesuai dengan edge dalam jaringan. Dalam beberapa kasus, atribut
dapat dikaitkan dengan node di jaringan. Meskipun dimungkinkan juga untuk mengaitkan atribut dengan edge
dalam jaringan, hal itu jauh lebih jarang dilakukan.

by Sitti Rahmah Jabir, M.Sc


Atribut dan Objek Data
Atribut merupakan bagian dari data yang mewakili
karaktreristik maupun fitur dari objek data.

Atribut direpresentasikan sebagai objek pelanggan seperti :


customer_ID, name dan address.

Nilai observasi pada atribut yang ada disebut observasi.

Tipe-tipe dari sebuah atribut terdiri dari nominal, binary,


ordinal, atau numeric.
Tipe-tipe atribut
• Nominal : merupakan atribut yang berupa symbol atau nama yang mewakili sesuatu. Atribut
ini biasanya berupa categorical. Nilainya tidak memiliki makna urutan yang dimana tidak ada
urutan didalam atribut tersebut. Nilai pada nominal atribut disebut enumerations dalam
bidang computer science. [0=black, 1=white, 2=…] , [ID2345/ 23734] angkanya tidak untuk
dijumlahkan namun mewakili sebuah nilai.

• Binary : merupakan atribut nominal yang hanya memiliki 2 kategori [0=absent, 1=present]
yang biasa disebut sebagai Boolean apabila status nya berupa true atau false. Atribut ini
nilainya simetris dimana tidak ada nilai atribut yang lebih besar satu sama lain [jenis
kelamin=pria/wanita, HIV test=positive/negative].
Tipe-Tipe Atrbibut (2)
• Ordinal : merupakan atribut yang nilainya memiliki urutan yang sebenarnya atau ranking antar
atribut. Namun nilai jarak antar atribut tidak diketahui jumlahnya atau dengan kata lain tidak
memiliki jumlah yang pasti [ukuran baju: small-medium-large , nilai: A+,A,A-,B+,B dan lainnya].
Dalam survey, ordinal atribut biasanya digunakan untuk menentukan rating seperti 5=sangat
puas, 4=puas, 3=cukup puas, 2=tidak puas, 1=sangat tidak puas.

• Numeric : merupakan atribut kuantitatiif yang dimana nilainya dpat dihitung yang ditampilkan
dalam angka bilangan bulat (integer) atau angka sebenarnya. Atribut numerik dapat berupa
skala interval atau skala rasio. Skala interval diukur dengan skala unit dalam ukuran yang
salam. Nilainya dapat berupa positif maupun negative [temperature: 20c > 15c, kalender:
2013-2017 memiliki perbedaan jarak 4 tahun]. disisi lainnya, skala rasio merupakan atribut
numerik yang memiliki nilai 0 yang melekat. Dalam perhitungannya, skala rasio merupaka nilai
kelipatan dari nilai lain. Selisih dari nilai tersebut dapat dihutung serta niai rata_rata (mean),
nilai tengah (median), dan mode juga dapat diketahui.
Data Pre-Processing
• Data Pre-processing merupakan tahap ketiga pada data mining.
• Tahap ini dibutuhkan untuk meningkatkan kualitas dari data tersebut
dikarenakan tidak semua data yang diterima memiliki kualitas yang baik
baik itu dari segi akurasi, konsistensi, ketetapan waktu, kepercayaan, dan
interpretabilitas.
Tahapan-tahapan Data
Pre-processing
• Data Cleaning (Pembersihan Data)
• Data Integration (Integrasi Data)
• Data Reduction (Pengurangan Data)
• Data Transformation (Transformasi data)
Data Cleaning
• Terdapat beberapa cara yang dapat dilakukan untuk membersihkan data
yaitu mengisi data yang hilang (missing value), menghaluskan kebisingan
(noise) sambal mengedentifikasi outlier, dan memperbaiki data yang
tidak konsisten (inconsisten data).
Missing values
1. Menghindari tuple : menghapus kelas label yang hilang secara langsung. Namun
proses ini dianggap kurang efektif kecuali di dalam tuple terdapat beberapa atribut
yang nilainya telah hilang. Dengan mengabaikan tuple, nilai atrbut dalam tuple tidak
lagi digunakan. Dimana data tersebut dapat berguna untuk tugas yang ada.
2. Mengisi data yang hilang secara manual : metode ini sangat memakan waktu dan
tidak mungkin untuk dilakukan dalam jumlah data yang sangat besar.
3. Gunakan konstanta global untuk mengisi nilai yang hilang : menggantikan semua
atribut yang hilang dengan nilai konstan seperti “unknown”. Apabila missing value
dengan nilai tersebut, maka mining program dapat membuat kesalahan dikarenakan
konsep nilai yang diterapkan sama. Oleh karena itu, metode ini dikatakan simple
namun tidak mudah.
4. Menggunakan tendensi yang paling kuat dalam sebuah atribut : Dalam metode ini, teknik yg
digunakan untuk mengisi missing value yaitu dengan menggunakan mean atau mode (nilai yang
paling sering muncul) dari nilai-nilai pada atribut tersebut.

5. Menggunakan mean atau median untuk mengisi missing value pada kelas yang sama :
Contohnya seperti resiko kredit, dimana nilai yang hilang dapat diganti dengan nilai pendapatan
rata-rata untuk pelanggan dalam kategori risiko kredit yang sama seperti bahwa tupel yang
diberikan. Jika distribusi data untuk kelas tertentu miring, nilai median adalah pilihan yang lebih
baik.

6. Menggunakan nilai yang sangat memungkinkan untuk digunakan : Dalam metode ini dapat
menggunakan regresi, alat berbasis inferensi menggunakan formalisme Bayesian dan induksi
pohon keputusan (decision tree). Sebagai contoh: data pelanggan yang lain dapat digunakan
dalam membangun decision tree untuk memprediksi pendapatan pelanggan yang datanya hilang.
Mean
• Mean (rata-rata) merupakan cara yang paling umum dan efektif untuk
mengukur pusat dari himpunan N nilai dalam suatu atribut X. yang dihitung
dengan menggunakan rumus:
Nomor
Mahasiswa Nilai UTS Nilai Tugas Nilai UAS Nilai Indeks
1 30 10 5 E
2 40 15 10 E
3 40 20 15 E
4 45 25 20 D
5 45 30 25 D
6 50 40 30 D
7 50 50 35 D
8 50 60 40 C
9 50 70 45 C
10 50 80 50 C
11 60 80 55 C Dimana xi merupakan nilai ke-i pada sebuah himpunan data X dan N merupakan jumlah data.
12 60 85 60 C
13 60 85 65 C
14 65 85 70 B
15 65 90 75 B  =
16 65 90 80 B
17 70 90 85 B =
18 70 95 90 A
19 75 95 95 A
= 57
20 100 100 100 A
Rata-rata 57 64,75 52,5 C

by Sitti Rahmah Jabir, M.Sc


Median
• Median atau nilai tengah juga dapat digunakan untuk mengukur pusat dari himpunan nilai N dalam suatu
atribut X. Median merupakan nilai data yang diurutkan. Hal tersebut memisahkan antara nilai dari
kumpulan data bagian atas kumpulan data dari bagian bawah.
• Untuk N yang bernilai ganjil, median ialah sebuah nilai yang persis berada di tengah-tengah himpunan nilai
yang sudah teurut. Namun untuk yang genap, median dihitung dari rata-rata dua nilai yang berada di
tengah-tengah himpunan nilai yang sudah terurut.
• Contoh data berjumalah ganjil:

[4,3,2,5,1] [1,2,3,4,5]
= mediannya ialah 3
• Contoh data berjumalh genap:

[4,3,2,6,5,1] [1,2,3,4,5,6]
= 3+4 / 2
= 3,5 , jadi mediannya
by Sitti adalah 3,5
Rahmah Jabir, M.Sc
Boxplot

• 
• Berdasarkan data nilai UTS, nilai
tugas, dan nilai UAS yang telah di
Garis median (Q2)

gambarkan pada boxplot, terdapat


oulier pada nilai UTS yaitu nilai 100
yang digambarkan secara terpisah
yaiutu sebuah titik di atas kotak dan
garis.
• Data outlier merupakan data yang
lebih kecil dari 1,5 dikalli IQR
dibawah Q1 atau 1,5 kali IQR di atas
Q3. Rumusnya sebagai berikut:
Outlier

Ujung garis bawah menyatakan Minimum, ujung bawah kotak menyatakan Q1, ujung atas garis
menyatakan Maximum, dan titik yang ada menyatakan adanya outlier.
by Sitti Rahmah Jabir, M.Sc
Quantile Plot

Kemiringan garis yang besar (curam)


Garis landai menunjukkan sebaran data Kemiringan garis yang besar (curam)
menunjukkan sebaran data yang lebar, namun
menunjukkan sebaran data yang lebar. Beberapa
yang sempit. Data Nilai UTS = 100 yang datanya tergolong teratur dilihat dari semua titik
titik yang tidak menempel pada garis
menjadi outlier menunjukkan tingkah laku data yang tidak
menempel pada garis.
teratur.
by Sitti Rahmah Jabir, M.Sc
Noisy Data
Contoh : Data Harga yang diurutkan (dalam $)

• Noise merupakan sebuah kesalahan atau varian acak


dalam variable terukur. Untuk mendeteksi noise dalam
data, Teknik deskripsi statistic dasar seperti plot kotak
(boxplots) atau plot sebar (scatter plot) dan metode
visualisasi data yang dapat digunakan untuk
menunjukkan hal tersebut.
• Binning merupakan metode yang digunakan untuk
menghaluskan data numerik. Dengan melihat pada
data disekitar nilai tersebut, karena metode binning
berkonsultasi dengan lingkungan nilai, mereka
melakukan pemulusan lokal.
• Binning menggunkan mean : setiap nilai dalam bin
diganti dengan nilai rata-rata.
• Binning menggunakan boundaries (batas) : yaitu
dengan menggunakan nilai minimum dan maksimum
dalam sebuah bin.
Noisy Data

• Regresi : data smoothing dapat dilakukan dengan teknik


regresi, dimana nilai data diubah menjadi suatu fungsi.
Regresi linier melibatkan pencarian baris "terbaik" untuk
menyesuaikan dua atribut/variabel sehingga satu atribut
dapat digunakan untuk memprediksi atribut lainnya. Regresi
linier berganda adalah perpanjangan dari regresi linier, di
mana lebih dari dua atribut/variabel yang dilibatkan dan
datanya sesuai dengan permukaan multidimensi.
• Analisis Outlier : sebuha outlier dapat dideteksi dengan
pengelompokan, misalnya, di mana nilai-nilai serupa diatur
ke dalam kelompok, atau "kelompok." Secara intuitif, nilai
yang berada di luar kumpulan cluster dapat dianggap outlier.
Intergrasi Data (Data Integration)

Dalam mengintegrasi data, data-data digabungkan dari berbagai


sumber untuk membentuk penyimpanan data yang koheren.
• Masalah pengidentifikasian entitas
• Analisis redundansi (redundancy) dan korelasi (correlation)
• Duplikasi tuple
• Pendekteksi masalah dan resolusi nilai data
Integrasi Data (Data Integration)
• Tes korelasi untuk data Nominal
Integrasi Data (Data Integration)

• Tes korelasi untuk data Numerik


Untuk atribut numerik, 2 korelasi antar dua atribut dapat dievaluasi dengan
menggunakan koefisien korelasi yang biasanya dikenal dengan sebutan Pearson’s
Product Moment coefficient yang dikenalkan oleh Karl Pearson pada tahun 1880.

𝑟  = koefisien korelasi
𝑥 = nilai dari variabel X
= mean dari nilai variabel X
𝑦 = nilai dari variable Y
= mean dari nilai variabel Y
Data Reduction

• Teknik reduksi data memperoleh representasi data yang berkurang sambil meminimalkan
hilangnya konten informasi.
• Metode yang dapat digunakan dalam pengurangan data:
1. Reduksi Dimensi (Dimensionality Reduction) : adalah proses pengurangan jumlah variabel
atau atribut acak yang sedang dipertimbangkan.
2. Rudeksi Numerositas (Numerosity Reduction) : Teknik pengurangan numerositas
menggantikan volume data asli dengan alternatif bentuk representasi data yang lebih kecil.
Teknik yang digunakan dapat berupa parametrik maupun non-parametrik.
3. Kompresi Data (Data compression) : Dalam kompresi data, transformasi diterapkan untuk
mendapatkan representasi yang dikurangi atau "dikompresi" dari data asli. Jika data asli
dapat direkonstruksi dari data terkompresi tanpa kehilangan informasi, reduksi data disebut
lossless. Sebaliknya, jika kita dapat merekonstruksi hanya perkiraan data asli, maka reduksi
data disebut lossy. Ada beberapa algoritma lossless untuk kompresi string; Namun, mereka
biasanya hanya mengizinkan manipulasi data terbatas. Teknik reduksi dimensi dan reduksi
numerositas juga dapat dianggap sebagai bentuk kompresi data.
Data Reduction

Pengurangan Dimensi Reduksi Keragaman


• Strategi data reduction (pengurangan • Model regresi dan log-linear : reduksi data
parametrik
data)
• Histogram
• Transformasi Wavelet
• Pengelompokan (Clustering)
• Analisis komponen utama
• Sampling
• Atribut pilihan subset • Agregasi kubus data (Data Cube Aggregation)
Transformasi Data dan Diskritisasi Data
(Data Transformation and Data Dicretization)

• Data transformation digunakan untuk mengubah data kedalam format


yang teratur atau sesuai untuk mining.
• Data dicretization yaitu metode yang mengubah data numerik dengan
memetakan nilai ke label interval atau konsep. Metode tersebut dapat
digunakan untuk secara otomatis menghasilkan hierarki konsep untuk
data, yang memungkinkan penambangan di berbagai tingkat perincian
Transformasi Data dan Diskritisasi Data
(Data Transformation and Data Dicretization)

• Strategi data transformasi


• Normalisasi dalam transformasi data
• Binning dalam Dikritisasi
• Histogram analisis dalam dikritisasi
• Pengelompokan (clustering), pohon turunan (decision tree), dan analisis
korelasi dalam dikretisasi
• Konsep pembuatan hirarki untuk data nominal
Strategi Dalam Transformasi Data
• Smoothing : yang berfungsi untuk menghilangkan noise dari data.
Teknik termasuk binning, regresi, dan pengelompokan (clustering).
• Pengurangan atribut : atribut baru dibangun dan ditambahkan dari
set atribut yang diberikan untuk membantu proses penambangan.
• Agregasi : diterapkannya ringkasan atau operasi agregasi ke dalam
data. Misalnya, data penjualan harian dapat digabungkan untuk
menghitung jumlah total bulanan dan tahunan.
• Normalisasi : di mana data atribut diskalakan sedemikian rupa
sehingga berada dalam kisaran yang lebih kecil, seperti −1.0 hingga
1.0, atau 0.0 hingga 1.0.
Strategi Dalam Transformasi Data
• Dikritisasi : di mana nilai mentah dari atribut numerik (misalnya, usia) diganti dengan label
interval (misalnya, 0–10, 11–20, dll.) atau label konseptual (misalnya, remaja, dewasa,
senior).
• Pembuatan hirarki konsep untuk data nominal : di mana atribut seperti jalan dapat
digeneralisasikan ke konsep tingkat yang lebih tinggi, seperti kota atau desa. Banyak hierarki
untuk atribut nominal yang tersirat dalam skema database dan dapat ditentukan secara
otomatis di tingkat definisi skema.

Gambar 1.6 Contoh Diskritisasi : konsep hirarki untuk atribut harga dimana interval($ X ... $ Y] menunjukkan kisaran dari $ X (eksklusif) hingga $ Y (inklusif).
Mengubah variabel kategori menjadi variable numerik

• Beberapa tugas membutuhkan perubahan sebuah variable dimana


yang tadinya kategorikal diubah menjadi numerik agar sesuai dengan
format yang diinginkan. Berikut

Apakah ini akan berhasil?

ERROR!
Mengubah variabel kategori menjadi variable
numerik
Contoh sebelumnya menghasilkan error dikarenakan sebuah kategori
tidak menjelaskan urutan dari angka tersebut. Algoritme yang benar
yaitu :
• Empat wilayah diurutkan
• West -> South -> East -> North
• West memiliki jarak tiga kali lebih dekat dengan South dibandingkan
dengan North dan East
Data Pre-Processing dengan R
Data Pre-Processing dengan R
Data Pre-Processing dengan R
Data Pre-Processing dengan R
Data Pre-Processing dengan R
Data Pre-Processing dengan R
Alhamdulillah

Anda mungkin juga menyukai