What is Data?
Attributes
Interval For interval attributes, the differences calendar dates, mean, standard
between values are meaningful, i.e., a temperature in Celsius deviation, Pearson's
unit of measurement exists. or Fahrenheit correlation, t and F
(+, - ) tests
Ratio For ratio variables, both differences temperature in Kelvin, geometric mean,
and ratios are meaningful. (*, /) monetary quantities, harmonic mean,
counts, age, mass, percent variation
length, electrical current
Properties of Attribute Values / 3
Attribute Transformation Comments
Level
• Continuos Attribute
▫ Memiliki angka2 real sebagai nilai atribut
▫ Contoh: temperatur, tinggi atau berat
▫ Dapat diukur dan direpresentasikan menggunakan sejumlah digit
terbatas
▫ Ciri khasnya direpresentasikan sebagai variable pecahan
Asymmetric Attributes
• Hanya keberadaannya (non zero attribute value)
diperhatikan
• Contoh:
▫ Kata-kata muncul di dokumen
▫ Item-item muncul di transaksi customer
timeout
season
coach
game
score
team
ball
lost
play
win
Document 1 3 0 5 0 2 6 0 2 0 2
Document 2 0 7 0 2 1 0 0 3 0 0
Document 3 0 1 0 0 1 2 2 0 3 0
Types of data sets
Record
▫ Data Matrix
▫ Document Data
▫ Transaction Data
Graph
▫ World Wide Web
▫ Molecular Structures
Ordered
▫ Spatial Data
▫ Temporal Data
▫ Sequential Data
▫ Genetic Sequence Data
Important characteristics of structured data
• Dimensionality
• Sparsity
▫ Hanya menghitung kemunculan
• Resolution
▫ Pola2 bergantung skala
Record Data
• Data yg berisi kumpulan record, yg mana masing-masing
berisi suatu himpunan atribut yang ditentukan.
Tid Refund Marital Taxable
Status Income Cheat
timeout
season
coach
game
score
team
ball
lost
play
win
Document 1 3 0 5 0 2 6 0 2 0 2
Document 2 0 7 0 2 1 0 0 3 0 0
Document 3 0 1 0 0 1 2 2 0 3 0
Transaction Data
• Jenis spesial dari data rekord , dimana
▫ Setiap record (transaksi) mencangkup kumpulan item-item
<a href="papers/papers.html#bbbb">
Data Mining </a>
2 <li>
<a href="papers/papers.html#aaaa">
Graph Partitioning </a>
5 1 <li>
<a href="papers/papers.html#aaaa">
2 Parallel Solution of Sparse Linear System of Equations </a>
<li>
5 <a href="papers/papers.html#ffff">
N-Body Computation and Dense Linear System Solvers
Chemical Data
• Benzene Molecule: C6H6
Ordered Data /1
• Sequence of Items/Events
transaction
An element of the
sequence
Ordered Data /2
• Genomic sequence data
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
Ordered Data /3
• Spatio-Temporal data
Average Monthly
Temperature of land
and ocean
Data Quality
• Jenis masalah apa kualitas data?
• Bagaimana kita dapat mendeteksi masalah dengan
data?
• Apa yg dapat kita lakukan tentang masalah ini?
• Contoh masalah kualitas data:
▫ Noise & outliers
▫ Missing Values
▫ Duplicate data
Noise
• Mengacu pada modifikasi nilai original
• Contoh: distorsi suara seseorang ketika berbicara
maka seluruh data yg diluar range [-54.1, 131.2] adalah potential outliers. Dan oleh karena age
>0, mungkin mengurangi range menjadi [0, 131.2]. Sehingga ada outlier berdasarkan kriteria
yg diberikan: 156, 139dan -67
Dengan kemungkinan yg tinggi, dapat disimpulkan 3 data tersebut ada mistypo (data yg
dimasukkan dengan penambahan digit atau tanda ‘-’)
Missing Values
• Beberapa alasan missing values:
▫ Informasi tidak terkumpul
(misal: orang2 menolak memberikan info umur dan berat mereka)
▫ Atribut mungkin tidak dapat diaplikasikan je semua kasus
(misal: pendapatan tidak dapat diaplikasikan ke anak2)
• Mengatasi missing values:
▫ Eliminasi obyek data
▫ Mengestimasi missing value selama analisis
▫ Mengganti dengan semua nilai kemungkinan (pembobotan oleh
kemungkinannya)
Duplicate Data
• Data set mungkin terdapat obyek data yang duplikat,
atau hampir duplikasi dari yg lain
▫ Isu utama dengan menggabungkan sumber yg berbeda2
• Data cleaning
▫ Proses perlakuan dengan isu data duplikasi
Data Preprocessing: Why is Needed?
• Data di dunia riil cenderung kotor
▫ Incompete: kekurangan nilai atribut, kurang atribut ttt yg menarik,
atau hanya berupa kumpulan data
▫ Noise: berisi errors atau outliers
▫ Inconsistent: berisi berbeda format dalam code dan nama
• Normalization
▫ Hasil dari centering dibagi dengan standard deviasi
• Scaling
▫ Merubah data sehingga berada dalam skala tertentu