Anda di halaman 1dari 30

Preparing the Data

What is Data?
Attributes

• Kumpulan obyek data dan Tid Refund Marital Taxable


atributnya Status Income Cheat

• Atribut adalah property atau 1 Yes Single 125K No

karakteristik suatu obyek 2 No Married 100K No


3 No Single 70K No
▫ Contoh: warna mata, temperature, dll
4 Yes Married 120K No
▫ Atribut dikenal sebagai variable, field, Yes
5 No Divorced 95K
ataupun karakteristik 6 No Married 60K No
• Kumpulan dari atribut Objects 7 Yes Divorced 220K No
menggambarkan obyek 8 No Single 85K Yes

▫ Obyek dikenal juga sebagai record, 9 No Married 75K No

point, case, sample, entitas 10


10 No Single 90K Yes
Attribute Values
• Nilai atribut adalah angka2 atau symbol2 yg diassign ke
suatu atribut
• Perbedaan antara atribut dan nilai atribut
▫ Atribut yg sama dapat dipetakkan ke nilai atribut yg beda
 Misal: ketinggian dapat diukur dalam feet atau meter
▫ Atribut yg beda dapat dipetakan ke himpunan nilai yg
sama
 Contoh: nilai atribut untuk ID dan age adalah integer
 Tetapi property nilai atribut dapat berbeda:
 ID tidak mempunyai batasan nilai maksimum dan minimum
Attribute Types
• Ada jenis2 atribut yg berbeda:
▫ Nominal
 Contoh: nomor ID, warna mata, kode pos
▫ Ordinal
 Rangking/ tingkatan (contoh rasa dari kripik kentang dalam
skala 1-10), grade, tinggi dalam {tinggi, sedang, rendah}
▫ Interval
 Contoh: tanggal kalender, temperature dalam Celsius atau
Fahrenheit
▫ Ratio
 Contoh: temperature dalam Kelvin, panjang, waktu, jumlah
Properties of Attribute Values /1
• Jenis atribut tergantung pada properti berikut yg mana dia
miliki
▫ Distinctness: = 
▫ Order: < >
▫ Addition: + -
▫ Multiplication: * /

▫ Nominal attribute: distinctness


▫ Ordinal attribute: distinctness & order
▫ Interval attribute: distinctness, order & addition
▫ Ratio attribute: all 4 properties
Properties of Attribute Values /2
Attribute Description Examples Operations
Type
Nominal The values of a nominal attribute are zip codes, employee ID mode, entropy,
just different names, i.e., nominal numbers, eye color, sex: contingency
attributes provide only enough {male, female} correlation, 2 test
information to distinguish one object
from another. (=, )

Ordinal The values of an ordinal attribute hardness of minerals, median, percentiles,


provide enough information to order {good, better, best}, rank correlation, run
objects. (<, >) grades, street numbers tests, sign tests

Interval For interval attributes, the differences calendar dates, mean, standard
between values are meaningful, i.e., a temperature in Celsius deviation, Pearson's
unit of measurement exists. or Fahrenheit correlation, t and F
(+, - ) tests

Ratio For ratio variables, both differences temperature in Kelvin, geometric mean,
and ratios are meaningful. (*, /) monetary quantities, harmonic mean,
counts, age, mass, percent variation
length, electrical current
Properties of Attribute Values / 3
Attribute Transformation Comments
Level

Nominal Any permutation of values If all employee ID numbers


were reassigned, would it
make any difference?

Ordinal An order preserving change of values, An attribute encompassing


i.e., the notion of good, better best
new_value = f(old_value) can be represented equally
where f is a monotonic function. well by the values {1, 2, 3} or
by { 0.5, 1, 10}.
Interval new_value =a * old_value + b where Thus, the Fahrenheit and
a and b are constants Celsius temperature scales
differ in terms of where their
zero value is and the size of a
unit (degree).
Ratio new_value = a * old_value Length can be measured in
meters or feet.
Discrete and Continuous Attributes
• Discrete Attribute
▫ Mempunyai himpunan nilai terbatas atau tak terbatas
▫ Contoh: zip codes, himpunan kata dalam kumpulan dokumen
▫ Sering direpresentasikan sbg variable integer
▫ Note: binary attributes  special case

• Continuos Attribute
▫ Memiliki angka2 real sebagai nilai atribut
▫ Contoh: temperatur, tinggi atau berat
▫ Dapat diukur dan direpresentasikan menggunakan sejumlah digit
terbatas
▫ Ciri khasnya direpresentasikan sebagai variable pecahan
Asymmetric Attributes
• Hanya keberadaannya (non zero attribute value)
diperhatikan
• Contoh:
▫ Kata-kata muncul di dokumen
▫ Item-item muncul di transaksi customer

timeout

season
coach

game
score
team

ball

lost
play

win
Document 1 3 0 5 0 2 6 0 2 0 2

Document 2 0 7 0 2 1 0 0 3 0 0

Document 3 0 1 0 0 1 2 2 0 3 0
Types of data sets
Record
▫ Data Matrix
▫ Document Data
▫ Transaction Data
Graph
▫ World Wide Web
▫ Molecular Structures
Ordered
▫ Spatial Data
▫ Temporal Data
▫ Sequential Data
▫ Genetic Sequence Data
Important characteristics of structured data
• Dimensionality

• Sparsity
▫ Hanya menghitung kemunculan

• Resolution
▫ Pola2 bergantung skala
Record Data
• Data yg berisi kumpulan record, yg mana masing-masing
berisi suatu himpunan atribut yang ditentukan.
Tid Refund Marital Taxable
Status Income Cheat

1 Yes Single 125K No


2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Data Matrix
• Jika objek data mempunyai kumpulan atribut numerik yg ditentukan , kemudian
data objek dapat dipandang sebagai titik dalam ruang multidimensional, di mana
setiap dimensi merepresentasian suatu atribut yang berbeda.

• Seperti data set dapat direpresentasikan dengan suatu matrik m dengan n di


mana ada m baris, satu dari setiap objek dan n kolom, satu untuk setiap atribut.

Projection Projection Distance Load Thickness


of x Load of y load

10.23 5.27 15.22 2.7 1.2


12.65 6.25 16.22 2.2 1.1
Document Data
• Setiap document menjadi suatu ‘term’ vector,
▫ Setiap term adalah komponen (atribut) dari vector
▫ Nilai setiap komponen adalah banyaknya waktu yg berhubungan terms
terdapat dalam document

timeout

season
coach

game
score
team

ball

lost
play

win
Document 1 3 0 5 0 2 6 0 2 0 2

Document 2 0 7 0 2 1 0 0 3 0 0

Document 3 0 1 0 0 1 2 2 0 3 0
Transaction Data
• Jenis spesial dari data rekord , dimana
▫ Setiap record (transaksi) mencangkup kumpulan item-item

▫ Contoh: Toko penjualan bahan makanan. Sejumlah produk dibeli


customer selama perjalanan pembelian merupakan suatu
transaksi, namun produk yg dibeli merupakan item
TID Items
1 Bread, Coke, Milk
2 Beer, Bread
3 Beer, Coke, Diaper, Milk
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Graph Data
• Contoh: Generic graph and HTML Links

<a href="papers/papers.html#bbbb">
Data Mining </a>
2 <li>
<a href="papers/papers.html#aaaa">
Graph Partitioning </a>
5 1 <li>
<a href="papers/papers.html#aaaa">
2 Parallel Solution of Sparse Linear System of Equations </a>
<li>
5 <a href="papers/papers.html#ffff">
N-Body Computation and Dense Linear System Solvers
Chemical Data
• Benzene Molecule: C6H6
Ordered Data /1
• Sequence of Items/Events

transaction

An element of the
sequence
Ordered Data /2
• Genomic sequence data
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
Ordered Data /3
• Spatio-Temporal data

Average Monthly
Temperature of land
and ocean
Data Quality
• Jenis masalah apa kualitas data?
• Bagaimana kita dapat mendeteksi masalah dengan
data?
• Apa yg dapat kita lakukan tentang masalah ini?
• Contoh masalah kualitas data:
▫ Noise & outliers
▫ Missing Values
▫ Duplicate data
Noise
• Mengacu pada modifikasi nilai original
• Contoh: distorsi suara seseorang ketika berbicara

Two Sine Waves Two Sine Waves + Noise


Outliers /1
• Outliers adalah obyek
data dengan
karakteristik berbeda
dengan kebanyakan
data obyek lain dalam
data set.
Outliers /2
• Contoh: suatu data set merepresentasikan gambaran umur dengan 20 nilai yg berbeda,
▫ Age = {3, 56, 23, 39, 156, 52, 41, 22, 9, 28, 139, 31, 55, 20, -67, 37, 11, 55, 45, 37}
• Maka parameter statistika yg berhubungan:
▫ Mean = 39.9
▫ Standard deviation = 45.65
Jika kita memilih nilai threshold untuk distribusi normal data :
Theshold = Mean ± 2 x Standard Deviation

maka seluruh data yg diluar range [-54.1, 131.2] adalah potential outliers. Dan oleh karena age
>0, mungkin mengurangi range menjadi [0, 131.2]. Sehingga ada outlier berdasarkan kriteria
yg diberikan: 156, 139dan -67

Dengan kemungkinan yg tinggi, dapat disimpulkan 3 data tersebut ada mistypo (data yg
dimasukkan dengan penambahan digit atau tanda ‘-’)
Missing Values
• Beberapa alasan missing values:
▫ Informasi tidak terkumpul
(misal: orang2 menolak memberikan info umur dan berat mereka)
▫ Atribut mungkin tidak dapat diaplikasikan je semua kasus
(misal: pendapatan tidak dapat diaplikasikan ke anak2)
• Mengatasi missing values:
▫ Eliminasi obyek data
▫ Mengestimasi missing value selama analisis
▫ Mengganti dengan semua nilai kemungkinan (pembobotan oleh
kemungkinannya)
Duplicate Data
• Data set mungkin terdapat obyek data yang duplikat,
atau hampir duplikasi dari yg lain
▫ Isu utama dengan menggabungkan sumber yg berbeda2

• Contoh: orang yg sama dengan berbagai email address

• Data cleaning
▫ Proses perlakuan dengan isu data duplikasi
Data Preprocessing: Why is Needed?
• Data di dunia riil cenderung kotor
▫ Incompete: kekurangan nilai atribut, kurang atribut ttt yg menarik,
atau hanya berupa kumpulan data
▫ Noise: berisi errors atau outliers
▫ Inconsistent: berisi berbeda format dalam code dan nama

• Data yg tidak berkualitas, tidak ada hasil2 mining yg


berkualitas
▫ Keputusan kualitas harus didasarkan pada data kualitas
▫ Data warehouse memerlukan integritas konsisten dari data kualitas
Major task in Data Preprocessing
• Data Cleaning
• Data Integration
• Data Transformation
• Data Reduction
• Data Discretisation
Forms of Data
Preprocessing
Transforming Data
• Centering
▫ Mengurangi setiap data dengan rata2 dari setiap
atribut

• Normalization
▫ Hasil dari centering dibagi dengan standard deviasi

• Scaling
▫ Merubah data sehingga berada dalam skala tertentu