Anda di halaman 1dari 18

LECTURE NOTES

ISYE8015 – Selected Topic in Industrial


Engineering

D6344 – Muhammad Asrol

Session 02

Data and Pre-Processing

ISYE8015 – Selected Topic in Industrial Engineering


Daftar Isi

2 Data and Pre-Processing Data................................................................................................. 3

2.1. Data dan Komponen Data ......................................................................................... 3

2.2. Tipe Atribut data .......................................................................................................... 5

2.3. Visualisasi data melalui pendekatan statistik................................................... 7

2.3.1. Central tendency data ............................................................................... 7

2.3.2. Dispersion of data ....................................................................................... 8

2.3.3. Tampilan grafis data .................................................................................. 9

2.4. Pre-Processing Data ................................................................................................. 12

2.4.1. Data Cleaning ............................................................................................. 13

2.4.2. Data Integration........................................................................................ 16

2.4.3. Data Reduction .......................................................................................... 17

Daftar Pustaka ........................................................................................................................... 18

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 3

Bab II

2 Data and Pre-Processing

Overview

Pada pertemuan ini akan disampaikan pengertian data, penyiapan data dan
bagaimana cara melakukan perlakuan pertama pada sekumpulan data. Data
dan pre-processing data adalah tahap yang paling menentukan dalam data
science. Sehingga, pada pembahasan ini akan disampaikan beberapa aspek
meliputi objek dan atribut data, statistika dasar yang diperlukan dalam data
dan Teknik dasar dalam pre-processing data.

2.1. Data dan Komponen Data


Konsep dan Teknik dalam Data Science dapat diterapkan pada
berbagai jenis data selama diperlukan informasi tambahan dari sekumpulan
data tersebut. Tetapi, sebelum mengaplikasikan berbagai Teknik dalam data
science, hal pertama yang harus dipastikan adalah data tersebut sudah siap

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 4

untuk digunakan. Data yang diperoleh di dunia nyata sering sekali


ditampilkan dalam noisy volume dan dalam jumlah yang sangat besar.
Sehingga, secara umum dan sederhana untuk memudahkan dibaca, data
sering sekali ditampilkan dalam bentuk tabel atau matrix.

Sumber: Zaki & Meira (2013)

Misalkan sekumpulan data ditampilkan dalam matrix D terdiri atas n


baris dan d kolom. Untuk membaca data tersebut, ada beberapa hal yang
perlu dicermati, yaitu entitas dan attribute. Entitas dapat dilihat dari baris
dari matrix data (n), yang dalam hal ini adalah baris x1, x2, dst. Sebagai
contoh pada dunia nyata, yaitu:

• Pada database penjualan, entitasnya adalah konsumen, barang yang


dijual, jumlah penjualan
• Pada database universitas, entitasnya adalah mahasiswa, dosen,
mata kuliah

Pada database, entitas juga memiliki nama lain, diantaranya instance,


examples, records, transaction, objects, points, tuples dan lainnya.

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 5

Jika entitas menunjukkan baris, maka attribut menunjukkan kolom


dari sebuah matrix data (d). Pada literatur yang membahas tentang data
science, attribut juga disebut dengan istilah lain seperti properties, features,
dimensions, variables, fields dan lainnya.
Jumlah baris/entitas n dalam sebuah matriks menunjukkan ukuran
dari data sedangkan jumlah kolom/attribute d menunjukkan dimensionality
data. Sehingga, jika sering mendengar istilah univariate analysis berarti
analisis attribute tunggal, multivariate analysis berarti analisis attribute
jamak dan bivariate analysis berarti analisis dua attribut.

2.2. Tipe Atribut data


Merujuk pada Zaki dan Meira (2013) secara umum atribut menurut
nilainya dibedakan menjadi dua klasifikasi, yaitu Numerik dan Kategorikal.
Kedua klasifikasi ini nantinya akan dibreakdown dan memiliki beberapa
macam bentuk atribut yang lebih spesifik.
Atribut numerik dicirikan dengan nilai real atau integer. Setiap
atribut yang memiliki nilai real atau integer maka disebut dengan jenis
atribut numerik. Atribut numerik dibedakan menjadi dua macam, yaitu
skala interval dan skala rasio.
Atribut numerik skala interval dicirikan dengan pengukuran
dalam skala dari satuan yang memiliki ciri yang sama. Nilai dari atribut skala
interval dapat positif, nol ataupun negatif (Han et al. 2011). Atribut skala
interval dapat dibandingkan satu sama lain melalui penghitungan besarnya
perbedaan antar nilainya. Contoh atribut skala interval adalah nilai
temperatur atau perbedaan tahun.

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 6

Contoh atribut numerik skala interval, misalkan suhu yang diukur


dengan oC dan oF adalah skala interval. misalkan pada suatu hari nilai suhu
adalah 20 oC dan pada hari berikutnya adalah 10 oC ini berarti bahwa
temperatur turun sebanyak 10 oC. Tetapi, ini bukan berarti hari berikutnya
lebih dingin dua kali dibandingkan hari sebelumnya (Zaki dan Meira 2013).
Atribut numerik skala rasio dicirikan dengan adanya nilai nol
mutlak, dapat dibandingkan satu sama lain dan dapat ditentukan rasio satu
sama lain. Contoh atribut numerik rasio umur, misalah seseorang yang
berumur 20 tahun adalah lebih tua dua kali dibandingkan seseorang yang
berumur 10 tahun.
Atribut kategorikal disusun atas simbol-simbol tertentu untuk
mewakil suatu status. Contoh sederhananya adalah jenis kelamin dan
tingkat Pendidikan. Atribut kategorikal dibedakan menjadi dua macam,
yaitu nominal dan ordinal.
Atribut kategorikal nominal disusun atas domain yang tidak dapat
diranking dan hanya menunjukkan arti tertentu. Contoh atribut kategorikal
adalah warna rambut dan status perkawinan. Pada warna rambut,
atributnya dapat diisi dengan hitam, putih, coklat, pirang dsb. yang tidak
menunjukkan nilai tertentu melainkan hanya status semata. Pada status
perkawinan, atribut nominalnya dapat berupa single, menikah, janda atau
bercerai yang menunjukkan status seseorang.
Atribut kategorikal ordinal menujukkan suatu nilai yang dapat
dirangking dan dibandingkan satu sama lain. Contohnya adalah Pendidikan,
yang dapat berupa SMA, Sarjana, Master dan Doktor yang tingkat
Pendidikan dapat dibandingkan satu sama lain.

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 7

2.3. Visualisasi data melalui pendekatan statistik


Sebagaimana diketahui, kekuatan data science terletak pada
pengolahan data secara terstruktur untuk mendapatkan pengetahuan baru
dan memvisualisasikannya agar lebih mudah dimengerti. Pada tahap ini,
visualisasi bertujuan untuk mendeskripsikan data secara sederhana melalui
pendekatan statistik. Sehingga, visualisasi tersebut dapat memberikan
insight tentang kondisi data dan yang diperlukan untuk pre-processing data.
Pada bagian ini akan disampaikan beberapa aspek untuk visualisasi
data sebagai Langkah awal untuk mengenal data, diantaranya central
tendency, dispersion of data, dan tampilan grafis data.

2.3.1. Central tendency data


Central tendency data terdiri atas 3 aspek utama yaitu, mean, median
dan modus. Tetapi, cara umum yang sering digunakan untuk mencari pusat
data adalah mencari nilai mean (Han et al. 2011). Mean disebut juga dengan
expected value atau nilai rata rata aritmatika dari sekumpulan variable X.
Median diartikan sebagai nilai paling tengah dari sekumpulan data
(Zaki & Meira 2013) yang biasanya diestimasi melalui interpolasi. Nilai
median bersifat robust dibandingkan dengan mean dan tidak dipengaruhi
oleh nilai pencilan. Tetapi, median akan memerlukan waktu untuk dihitung
jika sample data berjumlah sangat banyak.
Modus menujukkan data yang memiliki probabiltas kemunculan
paling tinggi di dalam himpunan. Karena berkaitan dengan tingkat

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 8

kemunculan, maka dapat nilai modus dapat ditentukan pada atribut


kuantitatif ataupun kualitatif.
Berdasarkan ketiga ciri tersebut, tendency data dapat dibedakan
kecendrungannya (skewed) berdasarkan nilai dari mean, median dan
modus. Terdapat 3 jenis kecendrungan data, dapat dilihat pada Gambar 1.

Gambar 1 Tiga tipe kecendrungan tendency data


2.3.2. Dispersion of data
Pada bagian ini akan disampaikan cara mendeskripsikan sebaran
data melalui ukuran-ukuran statistik. Metode untuk melihat sebaran data
diantaranya range, quartile, percentile, dan interquartile. Sebaran data
tersebut dapat ditampilkan dalam BoxPlot sekaligus melihat data pencilan.
Range adalah melihat perbedaan antara data paling besar (Max())
dengan data yang paling kecil (Min()). Dengan demikian, nilai range sangat
terkait dengan data-data pencilan sehingga tidak bersifat robust.
Percetile sesuai dengan Namanya berarti membagi data menjadi 100
sama banyak. Quartile menunjukkan titik regular pada distribusi data yang
dibedakan menjadi 3 bagian. Quartil pertama disebut juga dengan Q1 yang
terletak pada persentil ke 25 atau memotong 25% data paling rendah.
Quartil kedua terletak pada persentil ke 50 atau biasanya adalah sama

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 9

dengan median yang terletak pada nilai tengah dari distribusi data. Quartil
ke tiga terletak pada persentil ke 75 atau memotong 25% data paling tinggi.
Selain quartil dan persentil, juga dikenal dengan istilan interquartil
range. Ini dihitung berdasarkan jarak antara quartil ketiga (Q3) dengan
quartil pertama (Q1), yang dirumuskan sebagai berikut:

𝐼𝑄𝑅 = 𝑄3 − 𝑄1

Visualisasi sebaran data yang diukur melalui berbagai metode diatas


dapat ditampilkan melalui BoxPlot. BoxPlot secara visual menyediakan
semua informasi lengkap terkait dengan sebaran data dari sebuah
himpunan. Sebagai contoh, Gambar 2 menunjukkan BoxPlot dan ukurannya.

Gambar 2. Contoh BoxPlot sebaran data

2.3.3. Tampilan grafis data


Tujuan menampilkan data dalam bentuk grafis adalah untuk
memudahkan data engineer atau data scientist dalam membaca data. Ini
tentu sesuai dengan core dari keilmuan data science dalam
memvisualisasikan data. Terdapat beberapa cara menampilkan data, selain
BoxPlot yang telah ditampilkan sebelumnya terdata juga quantile plot,
quantile-quantile plot, histogram, dan scatter plot.

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 10

Quantile plot mengakomodasi analisis distribusi data univariate


dan disandingkan dengan nilai persentase letak kuartilnya (fi), yaitu 0.25,
0.5 dan 0,75 untuk Q1, Q2 dan Q3 secara berurutan. Sebagai ilustrasi, Gambar
3 menunjukkan salah satu bentuk grafis quantil plot.

Gambar 3. Contoh quantile plot

Untuk memberikan contoh tampilan grafis berikutnya akan


digunakan data bivariate pada Tabel 1.

Tabel 1 Nilai harga & jumlah item yang terjual pada Branch 1 perusahaan A
Unit price ($) Count of item sold
40 275
43 300
47 250
- -
74 360
75 515
78 540
- -
115 320
117 270
120 350

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 11

Quantile-quantile Plot (q-q plot) memberikan bentuk grafis dari


dua dua entitas data. Ini adalah pengembangan dari quantile plot yang
hanya menampilkan satu himpunan data, sedangkan q-q plot untuk 2
himpunan data. Contoh tampilah q-q plot untuk data pada Tabel 1 dapat
dilihat pada Gambar 4.

Gambar 4. Contoh diagram q-q plot

Histogram atau secara umum juga dikenal dengan Bar Chart untuk
menampilkan data dalam dua sumbu x dan y secara grafis. Pada sumbu x,
ditampilkan nilai atau data sedangkan pada sumbu y ditampilkan
frequensinya. Histogram untuk data pada Tabel 1 ada pada Gambar 5.

Gambar 5. Histogram

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 12

Scatter plot adalah tools visualisasi data dengan menampilkan


hubungan antar dua attribute data. Untuk membuat scatter plot, sepasang
data perlu diplot kan pada koordinat diagram kartesius. Scatter plot juga
bermanfaat untuk melihat cluster data dan outliner data. Scatter plot untuk
data pada Tabel 1 dapat dilihat pada Gambar 6.

Gambar 6. Scatter Plot

2.4. Pre-Processing Data


Data adalah sumber daya utama dalam data science, tetepi sangat
sering data yang diterima bersifat noisy, inkonsisten, missing, jumlah yang
sangat besar (huge) karena dikumpulkan dari berbagai sumber yang
mengakibatkan kualitas data menjadi rendah. Rendahnya kualitas data
dapat berdampak pada kualitas pengetahuan dan alternatif keputusan yang
dihasilkan.
Pre-processing data merupakan tahap yang penting untuk
memastikan dan menjamin kualitas data berada pada posisi yang baik.
Untuk memastikan hal terssebut, tahapan pre-processing data memiliki
beberapa Teknik, yaitu data cleaning, data integration, data
transformations, dan data reductions.

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 13

Secara umum, ilustrasi pre-processing data dapat dilihat pada


Gambar 7. Pada penjelasan berikutnya akan dijelaskan tentang mekanisme
setiap Teknik pre-processing data.

Gambar 7. Ilustrasi pre-processing data


2.4.1. Data Cleaning
Data cleaning memiliki peran untuk meng-handle data yang bersifat
missing, incomplete, noisy, inconsistent dan intentional. Untuk setiap data
yang berkarakter diatas memiliki Teknik penanganan yang berbeda-beda.

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 14

Data yang bersifat missing artinya terdapat banyak attribute yang


tidak memiliki data, kosong, tidak memiliki record atau hilang. Cara terbaik
untuk menangani data missing adalah mengisi data tersbut, dengan
beberapa Teknik, diantaranya:
1. Hilangkan atributnya jika semua data pada atribut atau entitas
tersebut tidak tersedia. Ini tentu tidak efektif jika % data yang
hilang pada setiap atribut berbeda-beda.
2. Mengisi data yang hilang secara manual, tetapi ini tentu tidak
efektif untuk data yang ukurannya besar.
3. Mengisi data menggunakan mean atau median data.

Data noisy memiliki karakteristik kesalahan yang random pada


keseluruhan data dan tidak memiliki pola kesalahan tertentu. Untuk
menangani data yang bersifat noisy, ada tiga Teknik yang disampaikan yaitu
binning, regression, clustering untuk menghilangkan outlier dan inspeksi
melalui komputer dan manusia.
1. Binning yaitu melakukan smoothing data dengan melihat
kemiripan dengan data terdekat. Tahap pertama adalah
melakukan sorted data kemudian membagi data ke dalam bin-bin
yang masing masing terdiri atas 3 data. Ada tiga Teknik data
binning, yang dapat dilihat pada Gambar 8.
2. Regression yaitu melakukan smoothing data melalui Teknik
regresi, baik itu linear regression atau multiple linear regression.
Ide dari regression adalah prediksi dengan model sehingga data
yang noisy akan diprediksi berdasarkan karakteristik data.

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 15

Gambar 8. Contoh dan Teknik data binning


3. Clustering untuk menghilangkan outlier. Teknik clustering data
adalah cara yang paling efektif untuk menghilangkan outlier.
Artinya, jika suatu data berada di luar cluster, maka data tersebut
tergolong outlier (pencilan) dan dapat dihilangkan. Ilustrasi
clustering untuk menghilangkan outlier dapat dilihat pada
Gambar 9.

Gambar 9. Ilustrasi Teknik clustering untuk menghilangkan outlier

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 16

2.4.2. Data Integration


Data integration adalah konsep dan metode untuk menggabungkan
data dari berbagai sumber. Ini sangat memungkinkan terjadi, karena
beberapa data mungkin saja disimpan dalam berbagai bentuk dan sumber.
Data science juga mengolah data dalam jumlah yang besar dengan melihat
berbagai relasi antar data, sehingga data integration sangat diperlukan.
Tujuan dari data integration adalah mengurangi redudan dan inkonsistensi
sehingga berbagai model data science yang dikerjakan pada data sangat
efektif dalam memberikan pengetahuan baru.
Tantangan yang muncul pada data integration adalah bagaimana
menggabungkan data dari berbagai sumber dan bagaimana penggabungan
tersebut memiliki arti dan tidak menimbulkan permasalahan. Dalam hal ini,
terdapat beberapa aspek yang diperhatikan dalam data integration,
diatanranya entity identification problem, redudancy and correlation
alaysis, tupple duplication adan data value conflict detection and resolution.
Entitiy identification problem bertujuan untuk memastikan entitas
dari suatu sumber data dengan sumber data lainnya memiliki atribut yang
sama. Artinya, tidak ada perbedaan dan konflik jika dua entitas digabungkan
ke dalam satu database. Sebagai contoh, kita harus memastikan entitas
customer_id pada satu database memiliki atribut yang sama pada entitas
cust_numb pada database lainnya.
Redundan dapat muncul karena disebabkan integrasi dari beberapa
atribut dalam berbagai ke dalam satu database. Redundan dapat juga
muncul karena penamaan atribut yang sama dalam database. Cara terbaik
untuk mendeteksi redundan adalah dengan melakukan correlation analysis.

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 17

Correlation analysis untuk atribut nominal dapat digunakan analysis ch-


square, sedangkan atribut dengan data numerik dapat dilakukan melalui
correlation coefficient dan covariance.
Tuple duplication adalah memastikan tidak ada atribut yang mirip
dan ditampilkan dua kali dalam matriks database. Jika terjadi tupple
duplication dapat menyebabkan redundan dan hasil analisis yang tidak
efektif.
Data value conflict detection muncul karena mungkin saja data yang
sama memiliki satuan yang berbeda pada berbagai sumber data. Melalui
data integration, konflik data tersebut harus dideteksi agar tidak terjadi
redundant.
2.4.3. Data Reduction
Sebagaimana diketahui dalam pengolahan data science, akan
memungkinkan tersedia sejumlah data dalam jumlah yang sangat besar
setelah melalui proses cleaning dan integration. Beberapa atribut atau
entitas dalam data tersebut mungkin saja tidak berguna untuk analisis
lanjutan. Data reduction menyediakan konsep dan Teknik untuk
memastikan entitas dan atribut yang ada dalam database dapat berguna
untuk analisis selanjutnya dalam data science.
Terdapat tiga Teknik dalam melakukan data reduction, yaitu
dimensionality reduction, numerosity reduction dan data compression.
Dimensionality reduction bertujuan untuk mengurangi attribute dalam data
dan hanya dibiarkan atribut yang akan berguna untuk analisis lanjutan.
Numerosity reduction bertujuan untuk menguragi volume data dengan cara

ISYE8015 – Selected Topic in Industrial Engineering


2 Data and Pre-Processing 18

merepresentasikan data yang lebih kecil. Data compression bertujuan untuk


mentrasnformasi dan mengkonsolidasri data agar lebih mudah dimengerti.
Terdapat banyak teknik dalam setiap metode data reduction,
diantaranya Principal Componen Analysis, Clustering, sample,
Discritization. Penjelasan tentang beberapa Teknik tersebut akan dijelaskan
pada bagian selanjutnya.

Daftar Pustaka
Han J, Kamber M, Pei J. 2011. Data Mining. Concepts and Techniques, 3rd
Edition. Amsterdam: Morgan Kaufmann.

Zaki M, Meira W. 2013. Data Mining and Analysis: Fundamental Concepts


and Algorithms. Cambridge: Cambridge University Press.

ISYE8015 – Selected Topic in Industrial Engineering

Anda mungkin juga menyukai