Anda di halaman 1dari 53

Data Mining

DATA
Mustakim, S.T., M.Kom.
NIK
NIDN
Email
Web

: 130511023
: 2002068801
: mustakim@uin-suska.ac.id
: http://mustakimtelematika.wordpress.com/

Pertemuan 3 - Ganjil 2015-2016

Program Studi Sistem Informasi


Fakultas Sains dan Teknologi UIN Sultan Syarif Kasim Riau
Jl. HR. Soebrantas No. 155 KM 18 Tampan Pekanbaru - Riau

Pengantar Data

Data adalah sesuatu yang belum mempunyai arti bagi


penerimanya dan masih memerlukan adanya suatu
pengolahan.

Mustakim, S.T., M.Kom.

Data Mining

Pengantar Data

Data bisa berwujut suatu:


Keadaan
Gambar
Suara
Huruf
Angka
Matematika
Bahasa
Simbol-simbol lainnya

Mustakim, S.T., M.Kom.

Data Mining

Pengantar Data

DNA

RASTER

VEKTOR

VOICE

Mustakim, S.T., M.Kom.

Data Mining

Tipe Data

2
Atribut: Sifat atau karakteristik dari suatu objek

Objek

NO

KODE

0071080010

0071500020

0071500050

4
5

0071500060
0071550010

0071580010

0072200010

0073210010

JUDUL

PENGARANG SEGMEN TAHUN BULAN HARGA

PEMIKIRAN2 YANG MEMBENTUK DUNIAF. BUDI


MODERN
HARDIMAN
ROBERT J.
TES PSIKOLOGI JL.1
GREGORY
JOHN W.
LIFE SPAN DEVELOPMENT 13/2
SANTROCK
PSIKOLOGI KOGNITIF
JONATHAN LING
PSIKOLOGI PERKEMBANGAN
PENNEY UPTON
PSIKOLOGI KLINIS: PENGANTAR
J.E. PRAWITASARI
TERAPAN MIKRO&MAKRO
AL-ISLAM (PENDIDIKAN AGAMA ISLAM
ROIS MAHFUD
U/ PERTI)
PERTUMBUHAN & PENYELENGGARAAN HANIF
PEMERINTAHAN DESA
NURCHOLIS

BK TEKS

2011

78,000

BK TEKS

2013

186,000

BK TEKS

2014

162,000

BK REF
BK TEKS

2013
2013

3
3

115,000
122,000

BK TEKS

2011

107,000

BK REF

2011

68,000

BK TEKS

2011

71,000

Kumpulan dari beberapa atribut


Record, titik, kasus, sample, entitas atau intance
Mustakim, S.T., M.Kom.

Data Mining

Tipe Data

Atribut Kategorikal (Categorical Attribute)


Nominal
Data berjenis nominal membedakan data dalam kelompok yang bersifat
kualitatif.
Dalam ilmu statistika, data nominal merupakan data dengan level pengukuran
yang paling rendah
Nilainya tidak dapat diurutkan (bersifat distinctness

Ordinal
Pada data nominal semua data dianggap bersifat kualitatif dan setara
sedangkan pada data ordinal terdapat klasifikasi data berdasarkan
tingkatannya.

Mustakim, S.T., M.Kom.

Data Mining

Tipe Data

Atribut Numerik (Numeric Attribute)


Interval
Data berjenis interval termasuk dalam kelompok data kuantitatif.
Angka yang digunakan dalam data ini, selain menunjukkan urutan juga dapat
dilakukan operasi matematika.
Angka nol yang digunakan pada data interval bukan merupakan nilai nol yang
nyata.

Rasio
Data dengan level pengukuran yang paling tinggi dan bersifat kuantitatif
Angka yang digunakan pada data ini menunjukkan angka yang
sesungguhnya
bukan hanya sebagai symbol dan memiliki nilai nol yang sesungguhnya.
Pada data ini, dapat dilakukan berbagai operasi matematika.
Mustakim, S.T., M.Kom.

Data Mining

Tipe Data

Contoh Nominal
Data jenis kelamin pada sampel penelitian Departemen Pendidikan,
data siswa dikategorikan menjadi laki-laki yang diwaliki angka 1 dan
perempuan yang diwakili angka 2.
Mengelompokan eskul disuatu SMA dari bidang olahraga, data eskul
dikategorikan menjadi basket yang diwakili dengan huruf A,
kemudian footsal diwakili dengan huruf B dan bolavoli diwakili oleh
huruf C.
Pengelompokan rumah-rumah dalam suatu perumahan, misal dari
sebelah utara komplek A, barat adalah komplek B, selatan
adalah C dan arah timur adlah komplek D.
Konsekuensi dari data nominal adalah tidak mungkin seseorang
memiliki dua kategori sekaligus dan angka yang digunakan di sini
hanya sebagai kode/simbol saja sehingga tidak dapat dilakukan
operasi matematika.
Mustakim, S.T., M.Kom.

Data Mining

Tipe Data

Contoh Ordinal
Mengenai tingkat pendidikan yang dikategorikan menjadi SD yang
diwakili angka 1, SMP yang diwakili angka 2, SMA yang diwakili
angka 3, Diploma yang diwakili angka 4, dan Sarjana yang diwakili
angka 5. Sama halnya dengan data nominal, meskipun tingkatannya
lebih tinggi, data ordinal tetap tidak dapat dilakukan operasi
matematika. Angka yang digunakan hanya sebagai kode/simbol saja,
dalam contoh tadi tingkat pendidikan tertinggi adalah Sarjana dan
terendah adalah SD (Sarjana > Diploma > SMA > SMP > SD).
Suatu peringkat ranking disuatu kelas misalkan Ihsan ranking 1 dan
udin ranking 2 berarti ihsan lebih pintar dari pada udin.
Penghitungan suara dalam pemilu, misalkan total suara Demokrat
60%, PDI 30%, Golkar 20% berarti suara tertinggi di pegang oleh
demokrat sebagai peringkat 1, sehinnga menjadi pemenang dalam
pemilu tersebut.
Mustakim, S.T., M.Kom.

Data Mining

Tipe Data

Contoh Interval
Interval nilai pelajaran matematika siswa SMA 4 Surabaya adalah
antara 0 sampai 100. Bila siswa A dan B masing-masing mempunyai
nilai 45 dan 90, bukan berarti tingkat kecerdasan B dua kali A. Nilai 0
sampai 100 hanya merupakan rentang yang dibuat berdasarkan
kategori pelajaran matematika dan mungkin berbeda dengan mata
pelajaran lain.
Dasar Pemrograman memiliki 1 SKS, waktunya adalah 50 menit,
begitupun dengan Teknik Digital yang memiliki 2 sks berarti waktunya
100 menit, dan yang terakhir yaitu kalkulus memiliki 3 SKS waktunya
adalah 150 menit sehingga dapat disimpulkan bahwa selisih data
diatas adalah 50 menit.

Mustakim, S.T., M.Kom.

Data Mining

10

Tipe Data

Contoh Rasio
Dalam sebuah bank, seseorang mempunyai tabungan dengan saldo
10.000.000 rupiah. Angka tersebut menunjukkan bahwa orang
tersebut benar-benar mempunyai saldo sebesar 10.000.000 rupiah.
Jika seseorang mempunyai saldo -1.000.000 rupiah berarti orang
tersebut mempunyai hutang sebesar 1.000.000 rupiah. Sedangkan
jika seseorang mempunyai saldo 0 rupiah berarti orang tersebut tidak
mempunyai tabungan maupun hutang.
Nilai raport siswa SMA dimana masing masing siswa memiliki
nilaiyang berbeda yaitu Muiz mendapatkan nilai 100 (A), Cinta 80 (B),
dan Putri 60 (C) jika dilihat dariskala rasio nilai Muiz memiliki nilai
lebih 20 dari pada nilai Cinta, Cinta memiliki nilai lebih 20dari pada
nilai Putri, dan nilai putri kurang 40 untuk sama dengan Muiz.

Mustakim, S.T., M.Kom.

Data Mining

11

Tipe Data Set

Dimensionalitas, dari data set adalah banyaknya


atribut yang dimiliki objek dalam data set.
Sparsity. Untuk beberapa data set, misal pada data
set yang mengandug atribut asimetrik, kebanyakan
atribut memiliki nilai 0.
Resolusi. Data pada tingkat resolusi yang berbeda
seringkali diperoleh, dan sering pula sifat-sifat dari
data berbeda pada resolusi yang berbeda.

Mustakim, S.T., M.Kom.

Data Mining

12

Tipe Data Set

Data record

Merupakan kumpulan record (objek data)


Masing-masing record mengandung sekumpulan field
data (atribut)
Tidak ada hubungan yang eksplisit diantara record
atau field data.
Setiap record (objek) memiliki himpunan atribut yang
sama
Data record biasanya disimpan dalam flat file atau
dalam basis data relasioanal.

Mustakim, S.T., M.Kom.

Data Mining

13

Tipe Data Set

Data record

Mustakim, S.T., M.Kom.

Data Mining

14

Tipe Data Set

Data transaksi

Merupakan bentuk khusus dari data record


setiap record (transaksi) meliputi sekumpulan item
dinamakan data market basket
koleksi dari himpunan-himpunan item
data tersebut dapat dipandang sebagai sekumpulan
record yang memiliki field-field berupa atribut
asimetrik

Mustakim, S.T., M.Kom.

Data Mining

15

Tipe Data Set

Data transaksi

Pada toko grosir, sekumpulan produk yang dibeli oleh


seorang pelanggan selama satu kali perjalanan belanja
merupakan sebuah transaksi, dengakan produk
individual yang dibeli merupakan item.
Setiap baris menyatakan pembelian dari seorang
pelanggan pada waktu tertentu.

Mustakim, S.T., M.Kom.

Data Mining

16

Tipe Data Set

Data Matriks

Objek-objek data dalam koleksi dari data seluruhnya


memiliki kumpulan atribut-atribut numerik yang sama
Objek data tersebut dapat dipandang sebagai titik
atau vektor dalam ruang multidimesi
Setiap dimensi menyatakan atribut yang berbeda yang
menjelaskan objek.
Himpunan objek data demikian dapat diiterpretasikan
sebagai matriks berukuran m n

Mustakim, S.T., M.Kom.

Data Mining

17

Tipe Data Set

Data Matriks

Matriks data adalah variasi dari data record,


Diaplikasikan
untuk
mentranformasi
atau
memanipulasi data.
Merupakan format data standar untuk kebanyakan
data statsitik.

Mustakim, S.T., M.Kom.

Data Mining

18

Tipe Data Set

Matriks Data Jarang

Matriks data jarang (sparse data matrix) adalah kasus


khusus dari matriks data dimana atribut-atribut
memiliki tipe yang sama dan merupakan atribut
asimetrik (hanya nilai yang tak nol yang penting).
Document-term matrix merupakan dokumen baris
dari matriks, sedangkan istilah adalah kolom dari
matriks tersebut.

Mustakim, S.T., M.Kom.

Data Mining

19

Tipe Data Set

Matriks Data Jarang

Mustakim, S.T., M.Kom.

Data Mining

20

Tipe Data Set

Data Sekuensial

Data sekuensial jika dirujuk sebagai data temporal.


Data tersebut dapat dipandang sebagai perluasan dari
data record
Setiap record memiliki nilai waktu yang berkaitan
dengan record tersebut.

Mustakim, S.T., M.Kom.

Data Mining

21

Tipe Data Set

Data Urutan (Sequence Data)

Data urutan terdiri dari data set yang merupakan


urutan dari entitas individual seperti urutan kata atau
huruf.
Data ini hampir mirip dengan data sekuesial, kecuali
bahwa dalam data urutan tidak ada unsur waktu
Akan tetapi terdapat posisi dalam rangkaian yang
terurut.

Mustakim, S.T., M.Kom.

Data Mining

22

Tipe Data Set

Data Urutan (Sequence Data)

Sebagai contoh, informasi genetik dari tanaman dan


binatang dapat direpresentasikan dalam bentuk
rangkaian nucleotide yang dikenal sebagai gen

Mustakim, S.T., M.Kom.

Data Mining

23

Tipe Data Set

Data Time Series

Merupakan bentuk khusus dari data sekuensial


dimana setiap record adalah sebuah time series
Sebuah rangkaian dari pengukuran yang diambil
sepanjang waktu.

Mustakim, S.T., M.Kom.

Data Mining

24

Tipe Data Set

Data Spasial

Objek yang memiliki atribut-atribut spasial, seperti


posisi atau area, juga tipe atribut lainnya.
Salah satu contoh dari data spasial adalah data cuaca
(curah hujan, temperatur, dan tekanan) yang
dikumpulkan dari berbegai lokasi geografis

Mustakim, S.T., M.Kom.

Data Mining

25

Kualitas Data

Aspek Pengukuran Data dan


Pengumpulan Data
Kesalahan Pengukuran
Kesalahan Pengumpulan
Duplikasi Data

Mustakim, S.T., M.Kom.

Data Mining

26

Kualitas Data

Kesalahan Pengukuran

Nilai yang dicatat berbeda dari nilai sebenarnya untuk


beberapa tingkat.
Noise

Komponen random dari error pengukuran

Bias

Kuantitas pengukuran yang dikurangi mean

Precision

Kedekatan dari pengukuran berulang/ STDEV

Accuracy

Kedekatan pengukuran terhadap nilai


sebenarnya dari kuantitas yang diukur

Mustakim, S.T., M.Kom.

Data Mining

27

Kualitas Data

Kesalahan Penumpulan

Hilangnya objek data atau nilai atribut serta lingkup


objek data yang tidak tepat
Outliers

Objek data dengan sifat yang berbeda sekali


dari kebanyakan objek data dalam data set

Missing
Value

Nilai dari suatu atribut yang tidak ditemukan.


Misal: Informasi tidak diperoleh atau atribut
yang mungkin tidak bisa diterapkan kesemua
kasus.

Mustakim, S.T., M.Kom.

Data Mining

28

Kualitas Data

Duplikasi Data

Data set yang terdiri dari data ganda atau hampir


selalu terjadi duplikasi data satu dengan yang lainnya.
Contoh

Orang yang sama dengan alamat email yang


lebih dari satu.

Persoalan: Penggabungan data dari sumber-sumber yang


bervariasi (heterogen)

Mustakim, S.T., M.Kom.

Data Mining

29

Pengolahan Awal (Prepocessing) Data

Pengumpulan (Agregation)
Penarikan Contoh (Sampling)
Pengurangan Dimensi (Dimensionality Reduction)
Pemilihan Fitur (Feature Selection)
Pembuatan Fitur (Feature Creation)
Pendiskritan dan Pembineran (Discretization and
Binarization)
Transformasi Atribut (Attribute Transformation)

Mustakim, S.T., M.Kom.

Data Mining

30

Agregation

Kombinasi dua atau lebih objek ke dalam sebuah


objek tunggal.
Sebagai contoh, data set yang berisi transaksi (objek
data) yang mencatat penjualan produk harian di
berbagai lokasi toko
Salah satu cara untuk meng-agregasi transaksi untuk
data set ini adalah mengganti semua transaksi dari
toko-toko dengan sebuah transaksi tunggal.

Mustakim, S.T., M.Kom.

Data Mining

31

Sampling

Sampling adalah pendekatan yang umum digunakan


untuk menyeleksi sebuah subset dari objek data
untuk dianalisis.
Prinsip utama penggunaan sample akan bekerja
hampir seperti menggunakan keseluruhan data set
jika sample adalah representatif.

Mustakim, S.T., M.Kom.

Data Mining

32

Sampling

Sampling adalah pendekatan yang umum digunakan


untuk menyeleksi sebuah subset dari objek data
untuk dianalisis.
Prinsip utama penggunaan sample akan bekerja
hampir seperti menggunakan keseluruhan data set
jika sample adalah representatif.

Mustakim, S.T., M.Kom.

Data Mining

33

Dimensionality Reduction

Satu pendekatan terkait dengan dimensi yang tinggi


adalah mengurangi dimensi data tersebut.
Memproyeksikan data dimensi tinggi ke dimensi
yang rendah menggunakan transformasi linier dan
non-linier
Principal Component Analysis (PCA) dan Singular
Value Decomposition (SVD)

Mustakim, S.T., M.Kom.

Data Mining

34

Feature Selection

Pendekatan embedded, algoritme dengan sendirinya


menentukan atribut yang mana yang akan digunakan
dan atribut yang mana yang diabaikan
Pendekatan filter, menggunakan pendekatan yang
tidak tergantung pada pekerjaan data mining
Pendekatan wrapper, menggunakan algortime data
mining target sebagai black box untuk menentukan
subset atribut yang paling baik, tanpa menghitung
semua subset yang mungkin

Mustakim, S.T., M.Kom.

Data Mining

35

Feature Creation

Feature extraction: pembuatan sekumpulan fitur


yang baru dari data mentah awal.
Pemetaan data ke ruang yang baru menggunakan
fourier transformation atau wavelet transformation.
Konstruksi fitur: menggabungkan fitur-fitur.

Mustakim, S.T., M.Kom.

Data Mining

36

Discretization and Binarization

Teknik Binarization
Jika ada m nilai kategorikal, maka beri untuk setiap
nilai tersebut dengan sebuah nilai integer yang unik
pada interval [0,m-1]. Jika atributnya ordinal maka
urutan harus diperhatikan.
Konversikan tiap nilai integer tersebut kedalam
bilangan biner

Mustakim, S.T., M.Kom.

Data Mining

37

Discretization and Binarization

Discretization, untuk kelas Klasifikasi:


Unsuvervised Discretization: tanpa menggunakan
informasi kelas:
1. Equal Width Membagi kedalam interval yang
ditentukan dengan lebar yang sama
2. Equal Frequency Menempatkan objek dengan
jumlah yang sama dalam tiap interval

Mustakim, S.T., M.Kom.

Data Mining

38

Discretization and Binarization

Contoh:
Rubah atribut Taxable Income
menjadi atribut kategorikal
dengan kategori:
Rendah, Sedang dan Tinggi

Mustakim, S.T., M.Kom.

Data Mining

39

Discretization and Binarization

1. Pendekatan Equal Width:


Rank data: [60-220]
Rendah: range [60-113]
Sedang: range [114-167]
Tinggi: range [168-220]

Mustakim, S.T., M.Kom.

Data Mining

40

Discretization and Binarization

2. Pendekatan Equal Frequency:


Sort data: [60, 70, 75, , 220]
Rendah: 60, 70, 75
Sedang: 85, 90, 95
Tinggi: 100, 120, 125, 220

Mustakim, S.T., M.Kom.

Data Mining

41

Discretization and Binarization

Discretization, untuk kelas Klasifikasi:


Suvervised Discretization: Entropy Based Approach
1. Menentukan Entropi
Misalnya:
k
: Jumlah klas
mi
: Jumlah nilai dalam interval ke-I dari partisi
mij
: jumlah nilai dari kelas j dalam interval i
Dimana: pij = mij/mi
probabilitas kelas j dalam
interval i
Mustakim, S.T., M.Kom.

Data Mining

42

Atribute Transformation

Suatu fungsi yang memetakan keseluruhan


himpunan nilai dari atribut yang diberikan kesuatu
himpunan nilai-nilai pengganti yang baru sedemikian
hingga nilai yang lama dapat dikenali dengan satui
dari nilai-nilai baru tersebut.
Fungsi Tranformasi Standarisasi dan normalisasi
Tujuan Standarisasi dan normalisasi membuat
keseluruhan nilai mempunyai suatu sifat khusus

Mustakim, S.T., M.Kom.

Data Mining

43

Atribute Transformation

Salah satu contoh transformasi standarisasi adalah


dengan:
Hitung nilai tengah dengan median
Hitung absolute standard deviation dengan
persamaan
Lakukan transformasi dengan:

Mustakim, S.T., M.Kom.

Data Mining

44

Atribute Transformation

Contoh:
Lakukan standarisasi dari data-set berikut:
x ={2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2, 1, 1.5, 1.1}

Jawab:
Dari data diatas dapat dihitung median =
= (1.9 + 2)/2 = 1.95

Mustakim, S.T., M.Kom.

Data Mining

45

Atribute Transformation

Maka,
X = {

Mustakim, S.T., M.Kom.

Data Mining

46

Similaritas dan Jarak

Similaritas (kemiripan) antara dua onjek merupakan


ukuran numerik dari seberapa mirip dua buah objek
Range nilai similaritas adalah [0,1]
Lawan dari Similaritas adalah Dissimilaritas, yang
memiliki nilai minimum 0 dan maksimum tidak
terbatas
Dissimilaritas distance (jarak)

Mustakim, S.T., M.Kom.

Data Mining

47

Similaritas dan Jarak

Pengukuran Jarak (Distance) dari Dua Objek


1. Jarak Euclidian (Euclidian Distance)

Mustakim, S.T., M.Kom.

Data Mining

48

Similaritas dan Jarak

Pengukuran Jarak (Distance) dari Dua Objek


Contoh:
Hitung ukuran jarak euclidian antara semua titik dalam
data set dua dimensi berikut:

Mustakim, S.T., M.Kom.

Data Mining

49

Similaritas dan Jarak

Pengukuran Jarak (Distance) dari Dua Objek


Jawab:

Mustakim, S.T., M.Kom.

Data Mining

50

Similaritas dan Jarak

Pengukuran Jarak (Distance) dari Dua Objek


Semua nilai jarak antara titik-titik diatas dapat
dinyatakan dalam sebuah Matiks Jarak (Distance Matrix)

Mustakim, S.T., M.Kom.

Data Mining

51

Normalisasi

Tujuan Normalisasi:
Membuat keseluruhan nilai mempunyai suatu sifat
khusus

v'

v min
max min

20

0.000

45

1.000

30

0.400

24

0.160

Max = 45
Min = 20
Mustakim, S.T., M.Kom.

Data Mining

52

Tugas Kelompok

Terima Kasih

Mustakim, S.T., M.Kom.

Data Mining

53

Anda mungkin juga menyukai