LN2-Data and Pre-Processing Data-R1

LECTURE NOTES
ISYE8015 – Selected Topic in Industrial

Engineering
D6344 – Muhammad Asrol
Session 02
Data and Pre-Processing
ISYE8015 – Selected Topic in Industrial Engineering

Daftar Isi
2 Data and Pre-Processing Data................................................................................................. 3
2.1. Data dan Komponen Data ......................................................................................... 3
2.2. Tipe Atribut data .......................................................................................................... 5
2.3. Visualisasi data melalui pendekatan statistik................................................... 7
2.3.1. Central tendency data ............................................................................... 7
2.3.2. Dispersion of data ....................................................................................... 8
2.3.3. Tampilan grafis data .................................................................................. 9
2.4. Pre-Processing Data ................................................................................................. 12
2.4.1. Data Cleaning ............................................................................................. 13
2.4.2. Data Integration........................................................................................ 16
2.4.3. Data Reduction .......................................................................................... 17
Daftar Pustaka ........................................................................................................................... 18

2 Data and Pre-Processing 3
Bab II
2 Data and Pre-Processing
Overview
Pada pertemuan ini akan disampaikan pengertian data, penyiapan data dan
bagaimana cara melakukan perlakuan pertama pada sekumpulan data. Data
dan pre-processing data adalah tahap yang paling menentukan dalam data
science. Sehingga, pada pembahasan ini akan disampaikan beberapa aspek
meliputi objek dan atribut data, statistika dasar yang diperlukan dalam data
dan Teknik dasar dalam pre-processing data.
2.1. Data dan Komponen Data

Konsep dan Teknik dalam Data Science dapat diterapkan pada
berbagai jenis data selama diperlukan informasi tambahan dari sekumpulan
data tersebut. Tetapi, sebelum mengaplikasikan berbagai Teknik dalam data
science, hal pertama yang harus dipastikan adalah data tersebut sudah siap

untuk digunakan. Data yang diperoleh di dunia nyata sering sekali

ditampilkan dalam noisy volume dan dalam jumlah yang sangat besar.
Sehingga, secara umum dan sederhana untuk memudahkan dibaca, data
sering sekali ditampilkan dalam bentuk tabel atau matrix.
Sumber: Zaki & Meira (2013)
Misalkan sekumpulan data ditampilkan dalam matrix D terdiri atas n

baris dan d kolom. Untuk membaca data tersebut, ada beberapa hal yang
perlu dicermati, yaitu entitas dan attribute. Entitas dapat dilihat dari baris
dari matrix data (n), yang dalam hal ini adalah baris x1, x2, dst. Sebagai
contoh pada dunia nyata, yaitu:
• Pada database penjualan, entitasnya adalah konsumen, barang yang

dijual, jumlah penjualan
• Pada database universitas, entitasnya adalah mahasiswa, dosen,
mata kuliah
Pada database, entitas juga memiliki nama lain, diantaranya instance,

examples, records, transaction, objects, points, tuples dan lainnya.

Jika entitas menunjukkan baris, maka attribut menunjukkan kolom

dari sebuah matrix data (d). Pada literatur yang membahas tentang data
science, attribut juga disebut dengan istilah lain seperti properties, features,
dimensions, variables, fields dan lainnya.
Jumlah baris/entitas n dalam sebuah matriks menunjukkan ukuran
dari data sedangkan jumlah kolom/attribute d menunjukkan dimensionality
data. Sehingga, jika sering mendengar istilah univariate analysis berarti
analisis attribute tunggal, multivariate analysis berarti analisis attribute
jamak dan bivariate analysis berarti analisis dua attribut.
2.2. Tipe Atribut data

Merujuk pada Zaki dan Meira (2013) secara umum atribut menurut
nilainya dibedakan menjadi dua klasifikasi, yaitu Numerik dan Kategorikal.
Kedua klasifikasi ini nantinya akan dibreakdown dan memiliki beberapa
macam bentuk atribut yang lebih spesifik.
Atribut numerik dicirikan dengan nilai real atau integer. Setiap
atribut yang memiliki nilai real atau integer maka disebut dengan jenis
atribut numerik. Atribut numerik dibedakan menjadi dua macam, yaitu
skala interval dan skala rasio.
Atribut numerik skala interval dicirikan dengan pengukuran
dalam skala dari satuan yang memiliki ciri yang sama. Nilai dari atribut skala
interval dapat positif, nol ataupun negatif (Han et al. 2011). Atribut skala
interval dapat dibandingkan satu sama lain melalui penghitungan besarnya
perbedaan antar nilainya. Contoh atribut skala interval adalah nilai
temperatur atau perbedaan tahun.

Contoh atribut numerik skala interval, misalkan suhu yang diukur

dengan oC dan oF adalah skala interval. misalkan pada suatu hari nilai suhu
adalah 20 oC dan pada hari berikutnya adalah 10 oC ini berarti bahwa
temperatur turun sebanyak 10 oC. Tetapi, ini bukan berarti hari berikutnya
lebih dingin dua kali dibandingkan hari sebelumnya (Zaki dan Meira 2013).
Atribut numerik skala rasio dicirikan dengan adanya nilai nol
mutlak, dapat dibandingkan satu sama lain dan dapat ditentukan rasio satu
sama lain. Contoh atribut numerik rasio umur, misalah seseorang yang
berumur 20 tahun adalah lebih tua dua kali dibandingkan seseorang yang
berumur 10 tahun.
Atribut kategorikal disusun atas simbol-simbol tertentu untuk
mewakil suatu status. Contoh sederhananya adalah jenis kelamin dan
tingkat Pendidikan. Atribut kategorikal dibedakan menjadi dua macam,
yaitu nominal dan ordinal.
Atribut kategorikal nominal disusun atas domain yang tidak dapat
diranking dan hanya menunjukkan arti tertentu. Contoh atribut kategorikal
adalah warna rambut dan status perkawinan. Pada warna rambut,
atributnya dapat diisi dengan hitam, putih, coklat, pirang dsb. yang tidak
menunjukkan nilai tertentu melainkan hanya status semata. Pada status
perkawinan, atribut nominalnya dapat berupa single, menikah, janda atau
bercerai yang menunjukkan status seseorang.
Atribut kategorikal ordinal menujukkan suatu nilai yang dapat
dirangking dan dibandingkan satu sama lain. Contohnya adalah Pendidikan,
yang dapat berupa SMA, Sarjana, Master dan Doktor yang tingkat
Pendidikan dapat dibandingkan satu sama lain.

2.3. Visualisasi data melalui pendekatan statistik

Sebagaimana diketahui, kekuatan data science terletak pada
pengolahan data secara terstruktur untuk mendapatkan pengetahuan baru
dan memvisualisasikannya agar lebih mudah dimengerti. Pada tahap ini,
visualisasi bertujuan untuk mendeskripsikan data secara sederhana melalui
pendekatan statistik. Sehingga, visualisasi tersebut dapat memberikan
insight tentang kondisi data dan yang diperlukan untuk pre-processing data.
Pada bagian ini akan disampaikan beberapa aspek untuk visualisasi
data sebagai Langkah awal untuk mengenal data, diantaranya central
tendency, dispersion of data, dan tampilan grafis data.
2.3.1. Central tendency data

Central tendency data terdiri atas 3 aspek utama yaitu, mean, median
dan modus. Tetapi, cara umum yang sering digunakan untuk mencari pusat
data adalah mencari nilai mean (Han et al. 2011). Mean disebut juga dengan
expected value atau nilai rata rata aritmatika dari sekumpulan variable X.
Median diartikan sebagai nilai paling tengah dari sekumpulan data
(Zaki & Meira 2013) yang biasanya diestimasi melalui interpolasi. Nilai
median bersifat robust dibandingkan dengan mean dan tidak dipengaruhi
oleh nilai pencilan. Tetapi, median akan memerlukan waktu untuk dihitung
jika sample data berjumlah sangat banyak.
Modus menujukkan data yang memiliki probabiltas kemunculan
paling tinggi di dalam himpunan. Karena berkaitan dengan tingkat

kemunculan, maka dapat nilai modus dapat ditentukan pada atribut

kuantitatif ataupun kualitatif.
Berdasarkan ketiga ciri tersebut, tendency data dapat dibedakan
kecendrungannya (skewed) berdasarkan nilai dari mean, median dan
modus. Terdapat 3 jenis kecendrungan data, dapat dilihat pada Gambar 1.
Gambar 1 Tiga tipe kecendrungan tendency data

2.3.2. Dispersion of data
Pada bagian ini akan disampaikan cara mendeskripsikan sebaran
data melalui ukuran-ukuran statistik. Metode untuk melihat sebaran data
diantaranya range, quartile, percentile, dan interquartile. Sebaran data
tersebut dapat ditampilkan dalam BoxPlot sekaligus melihat data pencilan.
Range adalah melihat perbedaan antara data paling besar (Max())
dengan data yang paling kecil (Min()). Dengan demikian, nilai range sangat
terkait dengan data-data pencilan sehingga tidak bersifat robust.
Percetile sesuai dengan Namanya berarti membagi data menjadi 100
sama banyak. Quartile menunjukkan titik regular pada distribusi data yang
dibedakan menjadi 3 bagian. Quartil pertama disebut juga dengan Q1 yang
terletak pada persentil ke 25 atau memotong 25% data paling rendah.
Quartil kedua terletak pada persentil ke 50 atau biasanya adalah sama

dengan median yang terletak pada nilai tengah dari distribusi data. Quartil
ke tiga terletak pada persentil ke 75 atau memotong 25% data paling tinggi.
Selain quartil dan persentil, juga dikenal dengan istilan interquartil
range. Ini dihitung berdasarkan jarak antara quartil ketiga (Q3) dengan
quartil pertama (Q1), yang dirumuskan sebagai berikut:
𝐼𝑄𝑅 = 𝑄3 − 𝑄1
Visualisasi sebaran data yang diukur melalui berbagai metode diatas

dapat ditampilkan melalui BoxPlot. BoxPlot secara visual menyediakan
semua informasi lengkap terkait dengan sebaran data dari sebuah
himpunan. Sebagai contoh, Gambar 2 menunjukkan BoxPlot dan ukurannya.
Gambar 2. Contoh BoxPlot sebaran data
2.3.3. Tampilan grafis data

Tujuan menampilkan data dalam bentuk grafis adalah untuk
memudahkan data engineer atau data scientist dalam membaca data. Ini
tentu sesuai dengan core dari keilmuan data science dalam
memvisualisasikan data. Terdapat beberapa cara menampilkan data, selain
BoxPlot yang telah ditampilkan sebelumnya terdata juga quantile plot,
quantile-quantile plot, histogram, dan scatter plot.

Quantile plot mengakomodasi analisis distribusi data univariate

dan disandingkan dengan nilai persentase letak kuartilnya (fi), yaitu 0.25,
0.5 dan 0,75 untuk Q1, Q2 dan Q3 secara berurutan. Sebagai ilustrasi, Gambar
3 menunjukkan salah satu bentuk grafis quantil plot.
Gambar 3. Contoh quantile plot
Untuk memberikan contoh tampilan grafis berikutnya akan

digunakan data bivariate pada Tabel 1.
Tabel 1 Nilai harga & jumlah item yang terjual pada Branch 1 perusahaan A
Unit price ($) Count of item sold
40 275
43 300
47 250
- -
74 360
75 515
78 540
- -
115 320
117 270
120 350

Quantile-quantile Plot (q-q plot) memberikan bentuk grafis dari

dua dua entitas data. Ini adalah pengembangan dari quantile plot yang
hanya menampilkan satu himpunan data, sedangkan q-q plot untuk 2
himpunan data. Contoh tampilah q-q plot untuk data pada Tabel 1 dapat
dilihat pada Gambar 4.
Gambar 4. Contoh diagram q-q plot
Histogram atau secara umum juga dikenal dengan Bar Chart untuk
menampilkan data dalam dua sumbu x dan y secara grafis. Pada sumbu x,
ditampilkan nilai atau data sedangkan pada sumbu y ditampilkan
frequensinya. Histogram untuk data pada Tabel 1 ada pada Gambar 5.
Gambar 5. Histogram

Scatter plot adalah tools visualisasi data dengan menampilkan

hubungan antar dua attribute data. Untuk membuat scatter plot, sepasang
data perlu diplot kan pada koordinat diagram kartesius. Scatter plot juga
bermanfaat untuk melihat cluster data dan outliner data. Scatter plot untuk
data pada Tabel 1 dapat dilihat pada Gambar 6.
Gambar 6. Scatter Plot
2.4. Pre-Processing Data

Data adalah sumber daya utama dalam data science, tetepi sangat
sering data yang diterima bersifat noisy, inkonsisten, missing, jumlah yang
sangat besar (huge) karena dikumpulkan dari berbagai sumber yang
mengakibatkan kualitas data menjadi rendah. Rendahnya kualitas data
dapat berdampak pada kualitas pengetahuan dan alternatif keputusan yang
dihasilkan.
Pre-processing data merupakan tahap yang penting untuk
memastikan dan menjamin kualitas data berada pada posisi yang baik.
Untuk memastikan hal terssebut, tahapan pre-processing data memiliki
beberapa Teknik, yaitu data cleaning, data integration, data
transformations, dan data reductions.

Secara umum, ilustrasi pre-processing data dapat dilihat pada

Gambar 7. Pada penjelasan berikutnya akan dijelaskan tentang mekanisme
setiap Teknik pre-processing data.
Gambar 7. Ilustrasi pre-processing data

2.4.1. Data Cleaning
Data cleaning memiliki peran untuk meng-handle data yang bersifat
missing, incomplete, noisy, inconsistent dan intentional. Untuk setiap data
yang berkarakter diatas memiliki Teknik penanganan yang berbeda-beda.

Data yang bersifat missing artinya terdapat banyak attribute yang

tidak memiliki data, kosong, tidak memiliki record atau hilang. Cara terbaik
untuk menangani data missing adalah mengisi data tersbut, dengan
beberapa Teknik, diantaranya:
1. Hilangkan atributnya jika semua data pada atribut atau entitas
tersebut tidak tersedia. Ini tentu tidak efektif jika % data yang
hilang pada setiap atribut berbeda-beda.
2. Mengisi data yang hilang secara manual, tetapi ini tentu tidak
efektif untuk data yang ukurannya besar.
3. Mengisi data menggunakan mean atau median data.
Data noisy memiliki karakteristik kesalahan yang random pada

keseluruhan data dan tidak memiliki pola kesalahan tertentu. Untuk
menangani data yang bersifat noisy, ada tiga Teknik yang disampaikan yaitu
binning, regression, clustering untuk menghilangkan outlier dan inspeksi
melalui komputer dan manusia.
1. Binning yaitu melakukan smoothing data dengan melihat
kemiripan dengan data terdekat. Tahap pertama adalah
melakukan sorted data kemudian membagi data ke dalam bin-bin
yang masing masing terdiri atas 3 data. Ada tiga Teknik data
binning, yang dapat dilihat pada Gambar 8.
2. Regression yaitu melakukan smoothing data melalui Teknik
regresi, baik itu linear regression atau multiple linear regression.
Ide dari regression adalah prediksi dengan model sehingga data
yang noisy akan diprediksi berdasarkan karakteristik data.

Gambar 8. Contoh dan Teknik data binning

3. Clustering untuk menghilangkan outlier. Teknik clustering data
adalah cara yang paling efektif untuk menghilangkan outlier.
Artinya, jika suatu data berada di luar cluster, maka data tersebut
tergolong outlier (pencilan) dan dapat dihilangkan. Ilustrasi
clustering untuk menghilangkan outlier dapat dilihat pada
Gambar 9.
Gambar 9. Ilustrasi Teknik clustering untuk menghilangkan outlier

2.4.2. Data Integration

Data integration adalah konsep dan metode untuk menggabungkan
data dari berbagai sumber. Ini sangat memungkinkan terjadi, karena
beberapa data mungkin saja disimpan dalam berbagai bentuk dan sumber.
Data science juga mengolah data dalam jumlah yang besar dengan melihat
berbagai relasi antar data, sehingga data integration sangat diperlukan.
Tujuan dari data integration adalah mengurangi redudan dan inkonsistensi
sehingga berbagai model data science yang dikerjakan pada data sangat
efektif dalam memberikan pengetahuan baru.
Tantangan yang muncul pada data integration adalah bagaimana
menggabungkan data dari berbagai sumber dan bagaimana penggabungan
tersebut memiliki arti dan tidak menimbulkan permasalahan. Dalam hal ini,
terdapat beberapa aspek yang diperhatikan dalam data integration,
diatanranya entity identification problem, redudancy and correlation
alaysis, tupple duplication adan data value conflict detection and resolution.
Entitiy identification problem bertujuan untuk memastikan entitas
dari suatu sumber data dengan sumber data lainnya memiliki atribut yang
sama. Artinya, tidak ada perbedaan dan konflik jika dua entitas digabungkan
ke dalam satu database. Sebagai contoh, kita harus memastikan entitas
customer_id pada satu database memiliki atribut yang sama pada entitas
cust_numb pada database lainnya.
Redundan dapat muncul karena disebabkan integrasi dari beberapa
atribut dalam berbagai ke dalam satu database. Redundan dapat juga
muncul karena penamaan atribut yang sama dalam database. Cara terbaik
untuk mendeteksi redundan adalah dengan melakukan correlation analysis.

Correlation analysis untuk atribut nominal dapat digunakan analysis ch-

square, sedangkan atribut dengan data numerik dapat dilakukan melalui
correlation coefficient dan covariance.
Tuple duplication adalah memastikan tidak ada atribut yang mirip
dan ditampilkan dua kali dalam matriks database. Jika terjadi tupple
duplication dapat menyebabkan redundan dan hasil analisis yang tidak
efektif.
Data value conflict detection muncul karena mungkin saja data yang
sama memiliki satuan yang berbeda pada berbagai sumber data. Melalui
data integration, konflik data tersebut harus dideteksi agar tidak terjadi
redundant.
2.4.3. Data Reduction
Sebagaimana diketahui dalam pengolahan data science, akan
memungkinkan tersedia sejumlah data dalam jumlah yang sangat besar
setelah melalui proses cleaning dan integration. Beberapa atribut atau
entitas dalam data tersebut mungkin saja tidak berguna untuk analisis
lanjutan. Data reduction menyediakan konsep dan Teknik untuk
memastikan entitas dan atribut yang ada dalam database dapat berguna
untuk analisis selanjutnya dalam data science.
Terdapat tiga Teknik dalam melakukan data reduction, yaitu
dimensionality reduction, numerosity reduction dan data compression.
Dimensionality reduction bertujuan untuk mengurangi attribute dalam data
dan hanya dibiarkan atribut yang akan berguna untuk analisis lanjutan.
Numerosity reduction bertujuan untuk menguragi volume data dengan cara

merepresentasikan data yang lebih kecil. Data compression bertujuan untuk

mentrasnformasi dan mengkonsolidasri data agar lebih mudah dimengerti.
Terdapat banyak teknik dalam setiap metode data reduction,
diantaranya Principal Componen Analysis, Clustering, sample,
Discritization. Penjelasan tentang beberapa Teknik tersebut akan dijelaskan
pada bagian selanjutnya.
Daftar Pustaka
Han J, Kamber M, Pei J. 2011. Data Mining. Concepts and Techniques, 3rd
Edition. Amsterdam: Morgan Kaufmann.
Zaki M, Meira W. 2013. Data Mining and Analysis: Fundamental Concepts

and Algorithms. Cambridge: Cambridge University Press.

LN2-Data and Pre-Processing Data-R1

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

LN2-Data and Pre-Processing Data-R1

Diunggah oleh

Hak Cipta:

Format Tersedia

LECTURE NOTES

ISYE8015 – Selected Topic in Industrial

D6344 – Muhammad Asrol

Data and Pre-Processing

ISYE8015 – Selected Topic in Industrial Engineering

2 Data and Pre-Processing Data................................................................................................. 3

2.1. Data dan Komponen Data ......................................................................................... 3

2.2. Tipe Atribut data .......................................................................................................... 5

2.3. Visualisasi data melalui pendekatan statistik................................................... 7

2.3.1. Central tendency data ............................................................................... 7

2.3.2. Dispersion of data ....................................................................................... 8

2.3.3. Tampilan grafis data .................................................................................. 9

2.4. Pre-Processing Data ................................................................................................. 12

2.4.1. Data Cleaning ............................................................................................. 13

2.4.2. Data Integration........................................................................................ 16

2.4.3. Data Reduction .......................................................................................... 17

Daftar Pustaka ........................................................................................................................... 18

ISYE8015 – Selected Topic in Industrial Engineering

2 Data and Pre-Processing

2.1. Data dan Komponen Data

ISYE8015 – Selected Topic in Industrial Engineering

untuk digunakan. Data yang diperoleh di dunia nyata sering sekali

Sumber: Zaki & Meira (2013)

Misalkan sekumpulan data ditampilkan dalam matrix D terdiri atas n

• Pada database penjualan, entitasnya adalah konsumen, barang yang

Pada database, entitas juga memiliki nama lain, diantaranya instance,

ISYE8015 – Selected Topic in Industrial Engineering

Jika entitas menunjukkan baris, maka attribut menunjukkan kolom

2.2. Tipe Atribut data

ISYE8015 – Selected Topic in Industrial Engineering

Contoh atribut numerik skala interval, misalkan suhu yang diukur

ISYE8015 – Selected Topic in Industrial Engineering

2.3. Visualisasi data melalui pendekatan statistik

2.3.1. Central tendency data

ISYE8015 – Selected Topic in Industrial Engineering

kemunculan, maka dapat nilai modus dapat ditentukan pada atribut

Gambar 1 Tiga tipe kecendrungan tendency data

ISYE8015 – Selected Topic in Industrial Engineering

Visualisasi sebaran data yang diukur melalui berbagai metode diatas

Gambar 2. Contoh BoxPlot sebaran data

2.3.3. Tampilan grafis data

ISYE8015 – Selected Topic in Industrial Engineering

Quantile plot mengakomodasi analisis distribusi data univariate

Gambar 3. Contoh quantile plot

Untuk memberikan contoh tampilan grafis berikutnya akan

ISYE8015 – Selected Topic in Industrial Engineering

Quantile-quantile Plot (q-q plot) memberikan bentuk grafis dari

Gambar 4. Contoh diagram q-q plot

ISYE8015 – Selected Topic in Industrial Engineering

Scatter plot adalah tools visualisasi data dengan menampilkan

Gambar 6. Scatter Plot

2.4. Pre-Processing Data

ISYE8015 – Selected Topic in Industrial Engineering

Secara umum, ilustrasi pre-processing data dapat dilihat pada

Gambar 7. Ilustrasi pre-processing data

ISYE8015 – Selected Topic in Industrial Engineering

Data yang bersifat missing artinya terdapat banyak attribute yang

Data noisy memiliki karakteristik kesalahan yang random pada

ISYE8015 – Selected Topic in Industrial Engineering

Gambar 8. Contoh dan Teknik data binning

Gambar 9. Ilustrasi Teknik clustering untuk menghilangkan outlier

ISYE8015 – Selected Topic in Industrial Engineering

2.4.2. Data Integration