Anda di halaman 1dari 53

Data Mining

DATA
Mustakim, S.T., M.Kom.
NIK : 130511023
NIDN : 2002068801
Email : mustakim@uin-suska.ac.id
Web : http://mustakimtelematika.wordpress.com/

Pertemuan 3 - Ganjil 2015-2016

Program Studi Sistem Informasi


Fakultas Sains dan Teknologi UIN Sultan Syarif Kasim Riau
Jl. HR. Soebrantas No. 155 KM 18 Tampan Pekanbaru - Riau
Pengantar Data 1

Data adalah sesuatu yang belum mempunyai arti bagi


penerimanya dan masih memerlukan adanya suatu
pengolahan.

Mustakim, S.T., M.Kom. Data Mining 2


Pengantar Data 1

Data bisa berwujut suatu:


 Keadaan
 Gambar
 Suara
 Huruf
 Angka
 Matematika
 Bahasa
 Simbol-simbol lainnya

Mustakim, S.T., M.Kom. Data Mining 3


Pengantar Data 1

DNA RASTER

VEKTOR VOICE
Mustakim, S.T., M.Kom. Data Mining 4
Tipe Data 2

Atribut: Sifat atau karakteristik dari suatu objek

NO KODE JUDUL PENGARANG SEGMEN TAHUN BULAN HARGA


PEMIKIRAN2 YANG MEMBENTUK DUNIAF. BUDI
1 0071080010 BK TEKS 2011 5 78,000
MODERN HARDIMAN
ROBERT J.
2 0071500020 TES PSIKOLOGI JL.1 BK TEKS 2013 6 186,000
GREGORY
JOHN W.
3 0071500050 LIFE SPAN DEVELOPMENT 13/2 BK TEKS 2014 3 162,000
SANTROCK
Objek

4 0071500060 PSIKOLOGI KOGNITIF JONATHAN LING BK REF 2013 3 115,000


5 0071550010 PSIKOLOGI PERKEMBANGAN PENNEY UPTON BK TEKS 2013 3 122,000
PSIKOLOGI KLINIS: PENGANTAR
6 0071580010 J.E. PRAWITASARI BK TEKS 2011 4 107,000
TERAPAN MIKRO&MAKRO
AL-ISLAM (PENDIDIKAN AGAMA ISLAM
7 0072200010 ROIS MAHFUD BK REF 2011 6 68,000
U/ PERTI)
PERTUMBUHAN & PENYELENGGARAAN HANIF
8 0073210010 BK TEKS 2011 5 71,000
PEMERINTAHAN DESA NURCHOLIS

Kumpulan dari beberapa atribut


Record, titik, kasus, sample, entitas atau intance

Mustakim, S.T., M.Kom. Data Mining 5


Tipe Data 2

Atribut Kategorikal (Categorical Attribute)


Nominal
• Data berjenis nominal membedakan data dalam kelompok yang bersifat
kualitatif.
• Dalam ilmu statistika, data nominal merupakan data dengan level pengukuran
yang paling rendah
• Nilainya tidak dapat diurutkan (bersifat distinctness

Ordinal
• Pada data nominal semua data dianggap bersifat kualitatif dan setara
• sedangkan pada data ordinal terdapat klasifikasi data berdasarkan
tingkatannya.

Mustakim, S.T., M.Kom. Data Mining 6


Tipe Data 2

Atribut Numerik (Numeric Attribute)


Interval
• Data berjenis interval termasuk dalam kelompok data kuantitatif.
• Angka yang digunakan dalam data ini, selain menunjukkan urutan juga dapat
dilakukan operasi matematika.
• Angka nol yang digunakan pada data interval bukan merupakan nilai nol yang
nyata.

Rasio
• Data dengan level pengukuran yang paling tinggi dan bersifat kuantitatif
• Angka yang digunakan pada data ini menunjukkan angka yang
sesungguhnya
• bukan hanya sebagai symbol dan memiliki nilai nol yang sesungguhnya.
Pada data ini, dapat dilakukan berbagai operasi matematika.

Mustakim, S.T., M.Kom. Data Mining 7


Tipe Data 2

Contoh Nominal

• Data jenis kelamin pada sampel penelitian Departemen Pendidikan,


data siswa dikategorikan menjadi ’laki-laki’ yang diwaliki angka 1 dan
’perempuan’ yang diwakili angka 2.
• Mengelompokan eskul disuatu SMA dari bidang olahraga, data eskul
dikategorikan menjadi “basket” yang diwakili dengan huruf A,
kemudian “footsal” diwakili dengan huruf B dan “bolavoli” diwakili oleh
huruf C.
• Pengelompokan rumah-rumah dalam suatu perumahan, misal dari
sebelah “utara” komplek A, “barat” adalah komplek B, “selatan”
adalah C dan arah “timur” adlah komplek D.
• Konsekuensi dari data nominal adalah tidak mungkin seseorang
memiliki dua kategori sekaligus dan angka yang digunakan di sini
hanya sebagai kode/simbol saja sehingga tidak dapat dilakukan
operasi matematika.

Mustakim, S.T., M.Kom. Data Mining 8


Tipe Data 2

Contoh Ordinal

• Mengenai tingkat pendidikan yang dikategorikan menjadi ’SD’ yang


diwakili angka 1, ’SMP’ yang diwakili angka 2, ’SMA’ yang diwakili
angka 3, ’Diploma’ yang diwakili angka 4, dan ’Sarjana’ yang diwakili
angka 5. Sama halnya dengan data nominal, meskipun tingkatannya
lebih tinggi, data ordinal tetap tidak dapat dilakukan operasi
matematika. Angka yang digunakan hanya sebagai kode/simbol saja,
dalam contoh tadi tingkat pendidikan tertinggi adalah ’Sarjana’ dan
terendah adalah ’SD’ (Sarjana > Diploma > SMA > SMP > SD).
• Suatu peringkat ranking disuatu kelas misalkan Ihsan ranking 1 dan
udin ranking 2 berarti ihsan lebih pintar dari pada udin.
• Penghitungan suara dalam pemilu, misalkan total suara Demokrat
60%, PDI 30%, Golkar 20% berarti suara tertinggi di pegang oleh
demokrat sebagai peringkat 1, sehinnga menjadi pemenang dalam
pemilu tersebut.

Mustakim, S.T., M.Kom. Data Mining 9


Tipe Data 2

Contoh Interval

• Interval nilai pelajaran matematika siswa SMA 4 Surabaya adalah


antara 0 sampai 100. Bila siswa A dan B masing-masing mempunyai
nilai 45 dan 90, bukan berarti tingkat kecerdasan B dua kali A. Nilai 0
sampai 100 hanya merupakan rentang yang dibuat berdasarkan
kategori pelajaran matematika dan mungkin berbeda dengan mata
pelajaran lain.
• Dasar Pemrograman memiliki 1 SKS, waktunya adalah 50 menit,
begitupun dengan Teknik Digital yang memiliki 2 sks berarti waktunya
100 menit, dan yang terakhir yaitu kalkulus memiliki 3 SKS waktunya
adalah 150 menit sehingga dapat disimpulkan bahwa selisih data
diatas adalah 50 menit.

Mustakim, S.T., M.Kom. Data Mining 10


Tipe Data 2

Contoh Rasio

• Dalam sebuah bank, seseorang mempunyai tabungan dengan saldo


10.000.000 rupiah. Angka tersebut menunjukkan bahwa orang
tersebut benar-benar mempunyai saldo sebesar 10.000.000 rupiah.
Jika seseorang mempunyai saldo -1.000.000 rupiah berarti orang
tersebut mempunyai hutang sebesar 1.000.000 rupiah. Sedangkan
jika seseorang mempunyai saldo 0 rupiah berarti orang tersebut tidak
mempunyai tabungan maupun hutang.
• Nilai raport siswa SMA dimana masing – masing siswa memiliki
nilaiyang berbeda yaitu Muiz mendapatkan nilai 100 (A), Cinta 80 (B),
dan Putri 60 (C) jika dilihat dariskala rasio nilai Muiz memiliki nilai
lebih 20 dari pada nilai Cinta, Cinta memiliki nilai lebih 20dari pada
nilai Putri, dan nilai putri kurang 40 untuk sama dengan Muiz.

Mustakim, S.T., M.Kom. Data Mining 11


Tipe Data Set 3

• Dimensionalitas, dari data set adalah banyaknya


atribut yang dimiliki objek dalam data set.
• Sparsity. Untuk beberapa data set, misal pada data
set yang mengandug atribut asimetrik, kebanyakan
atribut memiliki nilai 0.
• Resolusi. Data pada tingkat resolusi yang berbeda
seringkali diperoleh, dan sering pula sifat-sifat dari
data berbeda pada resolusi yang berbeda.

Mustakim, S.T., M.Kom. Data Mining 12


Tipe Data Set 3

Data record

• Merupakan kumpulan record (objek data)


• Masing-masing record mengandung sekumpulan field
data (atribut)
• Tidak ada hubungan yang eksplisit diantara record
atau field data.
• Setiap record (objek) memiliki himpunan atribut yang
sama
• Data record biasanya disimpan dalam flat file atau
dalam basis data relasioanal.

Mustakim, S.T., M.Kom. Data Mining 13


Tipe Data Set 3

Data record

Mustakim, S.T., M.Kom. Data Mining 14


Tipe Data Set 3

Data transaksi

• Merupakan bentuk khusus dari data record


• setiap record (transaksi) meliputi sekumpulan item
• dinamakan data market basket
• koleksi dari himpunan-himpunan item
• data tersebut dapat dipandang sebagai sekumpulan
record yang memiliki field-field berupa atribut
asimetrik

Mustakim, S.T., M.Kom. Data Mining 15


Tipe Data Set 3

Data transaksi

• Pada toko grosir, sekumpulan produk yang dibeli oleh


seorang pelanggan selama satu kali perjalanan belanja
merupakan sebuah transaksi, dengakan produk
individual yang dibeli merupakan item.
• Setiap baris menyatakan pembelian dari seorang
pelanggan pada waktu tertentu.

Mustakim, S.T., M.Kom. Data Mining 16


Tipe Data Set 3

Data Matriks

• Objek-objek data dalam koleksi dari data seluruhnya


memiliki kumpulan atribut-atribut numerik yang sama
• Objek data tersebut dapat dipandang sebagai titik
atau vektor dalam ruang multidimesi
• Setiap dimensi menyatakan atribut yang berbeda yang
menjelaskan objek.
• Himpunan objek data demikian dapat diiterpretasikan
sebagai matriks berukuran m × n

Mustakim, S.T., M.Kom. Data Mining 17


Tipe Data Set 3

Data Matriks

• Matriks data adalah variasi dari data record,


• Diaplikasikan untuk mentranformasi atau
memanipulasi data.
• Merupakan format data standar untuk kebanyakan
data statsitik.

Mustakim, S.T., M.Kom. Data Mining 18


Tipe Data Set 3

Matriks Data Jarang

• Matriks data jarang (sparse data matrix) adalah kasus


khusus dari matriks data dimana atribut-atribut
memiliki tipe yang sama dan merupakan atribut
asimetrik (hanya nilai yang tak nol yang penting).
• Document-term matrix merupakan dokumen baris
dari matriks, sedangkan istilah adalah kolom dari
matriks tersebut.

Mustakim, S.T., M.Kom. Data Mining 19


Tipe Data Set 3

Matriks Data Jarang

Mustakim, S.T., M.Kom. Data Mining 20


Tipe Data Set 3

Data Sekuensial

• Data sekuensial jika dirujuk sebagai data temporal.


• Data tersebut dapat dipandang sebagai perluasan dari
data record
• Setiap record memiliki nilai waktu yang berkaitan
dengan record tersebut.

Mustakim, S.T., M.Kom. Data Mining 21


Tipe Data Set 3

Data Urutan (Sequence Data)

• Data urutan terdiri dari data set yang merupakan


urutan dari entitas individual seperti urutan kata atau
huruf.
• Data ini hampir mirip dengan data sekuesial, kecuali
bahwa dalam data urutan tidak ada unsur waktu
• Akan tetapi terdapat posisi dalam rangkaian yang
terurut.

Mustakim, S.T., M.Kom. Data Mining 22


Tipe Data Set 3

Data Urutan (Sequence Data)

• Sebagai contoh, informasi genetik dari tanaman dan


binatang dapat direpresentasikan dalam bentuk
rangkaian nucleotide yang dikenal sebagai gen

Mustakim, S.T., M.Kom. Data Mining 23


Tipe Data Set 3

Data Time Series

• Merupakan bentuk khusus dari data sekuensial


dimana setiap record adalah sebuah time series
• Sebuah rangkaian dari pengukuran yang diambil
sepanjang waktu.

Mustakim, S.T., M.Kom. Data Mining 24


Tipe Data Set 3

Data Spasial

• Objek yang memiliki atribut-atribut spasial, seperti


posisi atau area, juga tipe atribut lainnya.
• Salah satu contoh dari data spasial adalah data cuaca
(curah hujan, temperatur, dan tekanan) yang
dikumpulkan dari berbegai lokasi geografis

Mustakim, S.T., M.Kom. Data Mining 25


Kualitas Data 4

Aspek Pengukuran Data dan


Pengumpulan Data

Kesalahan Pengukuran

Kesalahan Pengumpulan

Duplikasi Data

Mustakim, S.T., M.Kom. Data Mining 26


Kualitas Data 4

Kesalahan Pengukuran

• Nilai yang dicatat berbeda dari nilai sebenarnya untuk


beberapa tingkat.
Noise Komponen random dari error pengukuran

Bias Kuantitas pengukuran yang dikurangi mean

Precision Kedekatan dari pengukuran berulang/ STDEV

Accuracy Kedekatan pengukuran terhadap nilai


sebenarnya dari kuantitas yang diukur
Mustakim, S.T., M.Kom. Data Mining 27
Kualitas Data 4

Kesalahan Penumpulan

• Hilangnya objek data atau nilai atribut serta lingkup


objek data yang tidak tepat
Outliers Objek data dengan sifat yang berbeda sekali
dari kebanyakan objek data dalam data set

Missing Nilai dari suatu atribut yang tidak ditemukan.


Value Misal: Informasi tidak diperoleh atau atribut
yang mungkin tidak bisa diterapkan kesemua
kasus.

Mustakim, S.T., M.Kom. Data Mining 28


Kualitas Data 4

Duplikasi Data

• Data set yang terdiri dari data ganda atau hampir


selalu terjadi duplikasi data satu dengan yang lainnya.
Contoh Orang yang sama dengan alamat email yang
lebih dari satu.

Persoalan: Penggabungan data dari sumber-sumber yang


bervariasi (heterogen)

Mustakim, S.T., M.Kom. Data Mining 29


Pengolahan Awal (Prepocessing) Data 5

• Pengumpulan (Agregation)
• Penarikan Contoh (Sampling)
• Pengurangan Dimensi (Dimensionality Reduction)
• Pemilihan Fitur (Feature Selection)
• Pembuatan Fitur (Feature Creation)
• Pendiskritan dan Pembineran (Discretization and
Binarization)
• Transformasi Atribut (Attribute Transformation)

Mustakim, S.T., M.Kom. Data Mining 30


Agregation 5

• Kombinasi dua atau lebih objek ke dalam sebuah


objek tunggal.
• Sebagai contoh, data set yang berisi transaksi (objek
data) yang mencatat penjualan produk harian di
berbagai lokasi toko
• Salah satu cara untuk meng-agregasi transaksi untuk
data set ini adalah mengganti semua transaksi dari
toko-toko dengan sebuah transaksi tunggal.

Mustakim, S.T., M.Kom. Data Mining 31


Sampling 5

• Sampling adalah pendekatan yang umum digunakan


untuk menyeleksi sebuah subset dari objek data
untuk dianalisis.
• Prinsip utama penggunaan sample akan bekerja
hampir seperti menggunakan keseluruhan data set
jika sample adalah representatif.

Mustakim, S.T., M.Kom. Data Mining 32


Sampling 5

• Sampling adalah pendekatan yang umum digunakan


untuk menyeleksi sebuah subset dari objek data
untuk dianalisis.
• Prinsip utama penggunaan sample akan bekerja
hampir seperti menggunakan keseluruhan data set
jika sample adalah representatif.

Mustakim, S.T., M.Kom. Data Mining 33


Dimensionality Reduction 5

• Satu pendekatan terkait dengan dimensi yang tinggi


adalah mengurangi dimensi data tersebut.
• Memproyeksikan data dimensi tinggi ke dimensi
yang rendah menggunakan transformasi linier dan
non-linier
• Principal Component Analysis (PCA) dan Singular
Value Decomposition (SVD)

Mustakim, S.T., M.Kom. Data Mining 34


Feature Selection 5

• Pendekatan embedded, algoritme dengan sendirinya


menentukan atribut yang mana yang akan digunakan
dan atribut yang mana yang diabaikan
• Pendekatan filter, menggunakan pendekatan yang
tidak tergantung pada pekerjaan data mining
• Pendekatan wrapper, menggunakan algortime data
mining target sebagai black box untuk menentukan
subset atribut yang paling baik, tanpa menghitung
semua subset yang mungkin

Mustakim, S.T., M.Kom. Data Mining 35


Feature Creation 5

• Feature extraction: pembuatan sekumpulan fitur


yang baru dari data mentah awal.
• Pemetaan data ke ruang yang baru menggunakan
fourier transformation atau wavelet transformation.
• Konstruksi fitur: menggabungkan fitur-fitur.

Mustakim, S.T., M.Kom. Data Mining 36


Discretization and Binarization 5

Teknik Binarization
• Jika ada m nilai kategorikal, maka beri untuk setiap
nilai tersebut dengan sebuah nilai integer yang unik
pada interval [0,m-1]. Jika atributnya ordinal maka
urutan harus diperhatikan.
• Konversikan tiap nilai integer tersebut kedalam
bilangan biner

Mustakim, S.T., M.Kom. Data Mining 37


Discretization and Binarization 5

Discretization, untuk kelas Klasifikasi:


• Unsuvervised Discretization: tanpa menggunakan
informasi kelas:
1. Equal Width  Membagi kedalam interval yang
ditentukan dengan lebar yang sama
2. Equal Frequency  Menempatkan objek dengan
jumlah yang sama dalam tiap interval

Mustakim, S.T., M.Kom. Data Mining 38


Discretization and Binarization 5

Contoh:
Rubah atribut Taxable Income
menjadi atribut kategorikal
dengan kategori:
Rendah, Sedang dan Tinggi

Mustakim, S.T., M.Kom. Data Mining 39


Discretization and Binarization 5

1. Pendekatan Equal Width:


Rank data: [60-220]
 Rendah: range [60-113]
 Sedang: range [114-167]
 Tinggi: range [168-220]

Mustakim, S.T., M.Kom. Data Mining 40


Discretization and Binarization 5

2. Pendekatan Equal Frequency:


Sort data: [60, 70, 75, …, 220]
 Rendah: 60, 70, 75
 Sedang: 85, 90, 95
 Tinggi: 100, 120, 125, 220

Mustakim, S.T., M.Kom. Data Mining 41


Discretization and Binarization 5

Discretization, untuk kelas Klasifikasi:


• Suvervised Discretization: Entropy Based Approach
1. Menentukan Entropi

Misalnya:
k : Jumlah klas
mi : Jumlah nilai dalam interval ke-I dari partisi
mij : jumlah nilai dari kelas j dalam interval i
Dimana: pij = mij/mi 
probabilitas kelas j dalam
interval i
Mustakim, S.T., M.Kom. Data Mining 42
Atribute Transformation 5

 Suatu fungsi yang memetakan keseluruhan


himpunan nilai dari atribut yang diberikan kesuatu
himpunan nilai-nilai pengganti yang baru sedemikian
hingga nilai yang lama dapat dikenali dengan satui
dari nilai-nilai baru tersebut.
 Fungsi Tranformasi  Standarisasi dan normalisasi
 Tujuan Standarisasi dan normalisasi  membuat
keseluruhan nilai mempunyai suatu sifat khusus

Mustakim, S.T., M.Kom. Data Mining 43


Atribute Transformation 5

Salah satu contoh transformasi standarisasi adalah


dengan:
 Hitung nilai tengah dengan median
 Hitung absolute standard deviation dengan
persamaan
 Lakukan transformasi dengan:

Mustakim, S.T., M.Kom. Data Mining 44


Atribute Transformation 5

Contoh:
Lakukan standarisasi dari data-set berikut:
x ={2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2, 1, 1.5, 1.1}

Jawab:
Dari data diatas dapat dihitung median =
µ = (1.9 + 2)/2 = 1.95

Mustakim, S.T., M.Kom. Data Mining 45


Atribute Transformation 5

Maka,
X’ = {

Mustakim, S.T., M.Kom. Data Mining 46


Similaritas dan Jarak 6

 Similaritas (kemiripan) antara dua onjek merupakan


ukuran numerik dari seberapa mirip dua buah objek
 Range nilai similaritas adalah [0,1]
 Lawan dari Similaritas adalah Dissimilaritas, yang
memiliki nilai minimum 0 dan maksimum tidak
terbatas
 Dissimilaritas  distance (jarak)

Mustakim, S.T., M.Kom. Data Mining 47


Similaritas dan Jarak 6

Pengukuran Jarak (Distance) dari Dua Objek

1. Jarak Euclidian (Euclidian Distance)

Mustakim, S.T., M.Kom. Data Mining 48


Similaritas dan Jarak 6

Pengukuran Jarak (Distance) dari Dua Objek

Contoh:
Hitung ukuran jarak euclidian antara semua titik dalam
data set dua dimensi berikut:

Mustakim, S.T., M.Kom. Data Mining 49


Similaritas dan Jarak 6

Pengukuran Jarak (Distance) dari Dua Objek

Jawab:

Mustakim, S.T., M.Kom. Data Mining 50


Similaritas dan Jarak 6

Pengukuran Jarak (Distance) dari Dua Objek

Semua nilai jarak antara titik-titik diatas dapat


dinyatakan dalam sebuah Matiks Jarak (Distance Matrix)

Mustakim, S.T., M.Kom. Data Mining 51


Normalisasi 6

Tujuan Normalisasi:
Membuat keseluruhan nilai mempunyai suatu sifat
khusus
v  min
v'  max  min
V V’
20 0.000
45 1.000
30 0.400
24 0.160
Max = 45
Min = 20

Mustakim, S.T., M.Kom. Data Mining 52


Tugas Kelompok 7

Terima Kasih

Mustakim, S.T., M.Kom. Data Mining 53

Anda mungkin juga menyukai