Anda di halaman 1dari 27

DATA

Data Mining IKG3N3 & CDG4K3


Fakultas Informatika – Telkom University

2/18/2019
1
Tujuan Pembelajaran

2
Menjelaskan dan menganalisis tentang data dan
teknik-teknik merepresentasikan data
Pokok Bahasan

3
Data dan informasi
Jenis-jenis data
Kualitas Data
Data dan Informasi?

Data adalah deskripsi tentang benda, kejadian,


aktivitas, dan transaksi, yang tidak mempunyai
makna atau tidak berpengaruh secara langsung
kepada pemakai.
Informasi adalah data yang telah diolah
menjadi sebuah bentuk yang berarti bagi
penerimanya dan bermanfaat dalam
pengambilan keputusan saat ini atau saat
mendatang (Davis 1999).
Hirarki Data,Informasi dan
Knowledge

Tinggi

Derajat Pengetahuan
abstraksi
Informasi

Data
Rendah

Kuantitas
Data dalam Data Mining

Atribut

Umur Hipertensi

Merupakan Muda Tidak

kumpulan objek
Muda Tidak

data dan
Paruh baya Tidak
Objek
atributnya Paruh baya Ya

Salah Tua Ya

Satu
Contoh
Data
Atribut

7
 Atribut merupakan properti atau karakteristik yang
dimiliki oleh sebuah objek.

 Nama lain atribut: variabel, field, karakteristik,


feature, atau observasi

 Setiap objek akan digambarkan melalui satu set


atribut yang sudah ditentukan sebelumnya ( atribut)
 Contoh: Gajah memiliki karakteristik : hidung :
panjang , telinga: lebar, badan : besar

 Objek bisa juga disebut : instance (Tidak sama


dengan instance di Java Prog.Language), record,
point, case, sample atau entity
Nilai Atribut

8
 Nilai sebuah atribut bisa terdiri dari :
 Angka  1, 2.002, 081931461344 dll
 Simbol  emas, laki-laki, kurus dll

 Setiap atribut bisa diberikan nilai dalam skala


yang berbeda
 Contoh: panjang bisa diukur dengan meter atau kaki
 Atribut yang berbeda bisa saja memiliki skala nilai
/ tipe yang sama
 Contoh: nilai atribut untuk NIP dan umur dalam integer ,
namun nilai tersebut memiliki properti (detail di slide
hal 9) yang berbeda
▪ NIP mungkin tak terbatas akan tetapi umur memiliki nilai
maksimum dan minimum

8
Tipe-tipe Atribut

9
 Jika dibedakan berdasarkan “levels of
measurement “ ada:
 Nominal
▪ Contoh: Nomer KTP Nasional, NIP, Kode pos
 Ordinal
▪ Contoh: tinggi badan {tinggi, sedang, pendek}, grade
nilai
 Interval
▪ Contoh: tanggal, suhu pada skala Celsius atau
Fahrenheit.
 Ratio
▪ Contoh: suhu dalam skala Kelvin, panjang (yang terukur
cm,meter dst), waktu

9
Properties dari Nilai Atribut

10
 Tipe Atribut ditentukan oleh properti yang
dimilikinya sebagai berikut:
 Distinctness: = 
 Order: < >
 Addition: + -
 Multiplication: */

 Atribut Nominal : distinctness


 Atribut Ordinal : distinctness & order
 Atribut Interval : distinctness, order & addition
 Atribut Ratio : all 4 properties
Atribut Diskrit dan Atribut Kontinu

11

Atribut Diskrit
– Nilai yang dimiliki terbatas atau bisa dihitung
 Contoh: kode pos, words in a collection of documents
– Biasanya berupa variabel integer
– Note: atribut binary merupakan atribut diskrit kasus khusus

Atribut Kontinu
– Nilai atribut merupakan bilangan riil
 Contoh: suhu = 23.4 ‘ Celcius, tinggi = 172,2 cm atau berat= 3.15 kg.
– Atribut kontinu biasanya direpresentasikan sebagai variabel
floating-point.
Tipe Dataset

12
 Tipe Umum
 Record
 Graph
 Ordered

 Karakteristik Umum:
 Dimensionality : jml atribut
 Sparsity : tingkat kejelasan makna data
 Resolution : sifat data yg berbeda pada resolusi yg
berbeda memiliki pola yg berbeda.
Data Record

13
Data yang terdiri dari kumpulan records dengan
sejumlah atribut yang fix

Umur Hipertensi
Muda Tidak
Muda Tidak
Paruh baya Tidak

Paruh baya Ya

Tua Ya
Data Matriks

14
Jika objek data memiliki atribut numerik yang sama dan tetap,
maka objek data dapat digambarkan sebagai point dalam multi-
dimensional space, di mana setiap dimensi merupakan atribut
yang berbeda

Data set tsb. Bisa digambarkan dengan matriks m X n, m = baris,


satu untuk tiap objek, dan n kolom, satu untuk tiap atribut

Projection Projection Distance Load Thickness


of x Load of y load

10.23 5.27 15.22 2.7 1.2


12.65 6.25 16.22 2.2 1.1
Data Dokumen

15
Setiap dokumen menjadi vektor `term’,
–Tiap term menjadi atribut dari vektor
–Nilai setiap komponen merupakan jumlah term
yang muncul dalam dokumen.

timeout

season
coach

game
score
team

ball

lost
pla

wi
n
y

Document 1 3 0 5 0 2 6 0 2 0 2

Document 2 0 7 0 2 1 0 0 3 0 0

Document 3 0 1 0 0 1 2 2 0 3 0
Data Transaksi

16
Tipe data record yang spesial, dimana
–Setiap transaksi /record terdiri dari beberapa item.
–Contoh: data satu struk belanja di supermarket dianggap
sebagai sebuah record transaksi

TID Item
1 Susu, Coklat, Roti
2 Roti, Selai
3 Selai, Roti, Coklat, Susu
4 Roti, Coklat, Susu
5 Roti, Coklat, Susu, Biskuit
Data Graph

17
Graph umum

3  Link HTML
<a href=“penelitian/penelitian.html#bbbb”> Data Mining</a>
3 <li>
2 <a href=“penelitian/penelitian.html#aaaa”>Klasifikasi</a>
4 <li>
<a href=“penelitian/penelitian.html#ffff”>Klastering</a>

4
Data Kimia

18
Molekul Benzena : C6H6
Data Ordered

19 Transaksi yang sekuens


Items/Events

Elemen dari sekuens


Data Ordered

20
Data sekuens Genom

GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC Sequence ladder by radioactive sequencing compared to
TGGGCTGCCTGCTGCGACCAGGG fluorescent peaks
Source: http://en.wikipedia.org/wiki/DNA_sequencing
Data Ordered : Data Spatio-Temporal
21

Sumber: http://www.ij-healthgeographics.com/content/7/1/66
Kualitas Data

22
 Apa yang menjadi permasalahan dengan data?
 Bagaimana mendeteksinya?
 Apa yang bisa dilakukan?

 Contoh masalah kualitas data :


 Noise dan outliers
 missing values
 Data duplikat
Noise

23
Modifikasi nilai sebenarnya
–Contoh: distorsi suara pada pembicaraan di telpon
“snow” on television screen

Two Sine Waves Two Sine Waves + Noise


Outliers

24
Objek data yang berbeda karakteristik dengan
objek data kebanyakan:
Missing Values

25
Contoh Missing Value:

Nama Gender Umur Penghasilan Pendidika Alamat


n
Rudi L 45 2.500.000 SMA Buah Batu
Ando L 23 3.600.000 S1 Dago
Kusno L 50 4.100.000 S1 Gede Bage
Fadli L 4 - - Antapani
Ayyesha P 2 - - Antapani
Fahira P 35 2.000.000 S1 Antapani
Erika P 41 10.000.000 S2 Gede Bage
Alasan Adanya Missing Value
26
 Informasi tidak terkumpul dengan lengkap
▪Misal: orang menolak menyebutkan umur dan berat badan
 Atribut mungkin tidak bisa diterapkan untuk semua
kasus
▪Misal: Penghasilan tidak bisa diaplikasikan untuk Bayi dan
anak kecil
 Solusi Penangan missing values
▪Mengeliminasi objek data
▪Mengestimasi Missing Values
▪Tidak memperhatikan Missing Value saat analisis
▪Menggantikan dengan semua kemungkinan nilai
(pembobotan berdasarkan probabilitasnya)
Data Duplikat

27
 Data set mungkin terdapat objek data yang
duplikat
 Penyebab ketika mengumpulkan data daro sumber
yang bermacam-macam

 Contoh:
 Survey dilakukan berdasarkan alamat email padahal
satu orang bisa memiliki lebih dari satu alamat email

 Solusi ?  Data cleaning

Anda mungkin juga menyukai