DM Pertemuan 3. Data

Data Mining
DATA
Mustakim, S.T., M.Kom.
NIK : 130511023
NIDN : 2002068801
Email : mustakim@uin-suska.ac.id
Web : http://mustakimtelematika.wordpress.com/
Pertemuan 3 - Ganjil 2015-2016
Program Studi Sistem Informasi

Fakultas Sains dan Teknologi UIN Sultan Syarif Kasim Riau
Jl. HR. Soebrantas No. 155 KM 18 Tampan Pekanbaru - Riau
Pengantar Data 1
Data adalah sesuatu yang belum mempunyai arti bagi

penerimanya dan masih memerlukan adanya suatu
pengolahan.
Mustakim, S.T., M.Kom. Data Mining 2

Pengantar Data 1
Data bisa berwujut suatu:

 Keadaan
 Gambar
 Suara
 Huruf
 Angka
 Matematika
 Bahasa
 Simbol-simbol lainnya

Pengantar Data 1
DNA RASTER
VEKTOR VOICE
Tipe Data 2
Atribut: Sifat atau karakteristik dari suatu objek
NO KODE JUDUL PENGARANG SEGMEN TAHUN BULAN HARGA

PEMIKIRAN2 YANG MEMBENTUK DUNIAF. BUDI
1 0071080010 BK TEKS 2011 5 78,000
MODERN HARDIMAN
ROBERT J.
2 0071500020 TES PSIKOLOGI JL.1 BK TEKS 2013 6 186,000
GREGORY
JOHN W.
3 0071500050 LIFE SPAN DEVELOPMENT 13/2 BK TEKS 2014 3 162,000
SANTROCK
Objek
4 0071500060 PSIKOLOGI KOGNITIF JONATHAN LING BK REF 2013 3 115,000

5 0071550010 PSIKOLOGI PERKEMBANGAN PENNEY UPTON BK TEKS 2013 3 122,000
PSIKOLOGI KLINIS: PENGANTAR
6 0071580010 J.E. PRAWITASARI BK TEKS 2011 4 107,000
TERAPAN MIKRO&MAKRO
AL-ISLAM (PENDIDIKAN AGAMA ISLAM
7 0072200010 ROIS MAHFUD BK REF 2011 6 68,000
U/ PERTI)
PERTUMBUHAN & PENYELENGGARAAN HANIF
8 0073210010 BK TEKS 2011 5 71,000
PEMERINTAHAN DESA NURCHOLIS
Kumpulan dari beberapa atribut

Record, titik, kasus, sample, entitas atau intance

Tipe Data 2
Atribut Kategorikal (Categorical Attribute)

Nominal
• Data berjenis nominal membedakan data dalam kelompok yang bersifat
kualitatif.
• Dalam ilmu statistika, data nominal merupakan data dengan level pengukuran
yang paling rendah
• Nilainya tidak dapat diurutkan (bersifat distinctness
Ordinal
• Pada data nominal semua data dianggap bersifat kualitatif dan setara
• sedangkan pada data ordinal terdapat klasifikasi data berdasarkan
tingkatannya.

Tipe Data 2
Atribut Numerik (Numeric Attribute)

Interval
• Data berjenis interval termasuk dalam kelompok data kuantitatif.
• Angka yang digunakan dalam data ini, selain menunjukkan urutan juga dapat
dilakukan operasi matematika.
• Angka nol yang digunakan pada data interval bukan merupakan nilai nol yang
nyata.
Rasio
• Data dengan level pengukuran yang paling tinggi dan bersifat kuantitatif
• Angka yang digunakan pada data ini menunjukkan angka yang
sesungguhnya
• bukan hanya sebagai symbol dan memiliki nilai nol yang sesungguhnya.
Pada data ini, dapat dilakukan berbagai operasi matematika.

Tipe Data 2
Contoh Nominal
• Data jenis kelamin pada sampel penelitian Departemen Pendidikan,

data siswa dikategorikan menjadi ’laki-laki’ yang diwaliki angka 1 dan
’perempuan’ yang diwakili angka 2.
• Mengelompokan eskul disuatu SMA dari bidang olahraga, data eskul
dikategorikan menjadi “basket” yang diwakili dengan huruf A,
kemudian “footsal” diwakili dengan huruf B dan “bolavoli” diwakili oleh
huruf C.
• Pengelompokan rumah-rumah dalam suatu perumahan, misal dari
sebelah “utara” komplek A, “barat” adalah komplek B, “selatan”
adalah C dan arah “timur” adlah komplek D.
• Konsekuensi dari data nominal adalah tidak mungkin seseorang
memiliki dua kategori sekaligus dan angka yang digunakan di sini
hanya sebagai kode/simbol saja sehingga tidak dapat dilakukan
operasi matematika.

Tipe Data 2
Contoh Ordinal
• Mengenai tingkat pendidikan yang dikategorikan menjadi ’SD’ yang

diwakili angka 1, ’SMP’ yang diwakili angka 2, ’SMA’ yang diwakili
angka 3, ’Diploma’ yang diwakili angka 4, dan ’Sarjana’ yang diwakili
angka 5. Sama halnya dengan data nominal, meskipun tingkatannya
lebih tinggi, data ordinal tetap tidak dapat dilakukan operasi
matematika. Angka yang digunakan hanya sebagai kode/simbol saja,
dalam contoh tadi tingkat pendidikan tertinggi adalah ’Sarjana’ dan
terendah adalah ’SD’ (Sarjana > Diploma > SMA > SMP > SD).
• Suatu peringkat ranking disuatu kelas misalkan Ihsan ranking 1 dan
udin ranking 2 berarti ihsan lebih pintar dari pada udin.
• Penghitungan suara dalam pemilu, misalkan total suara Demokrat
60%, PDI 30%, Golkar 20% berarti suara tertinggi di pegang oleh
demokrat sebagai peringkat 1, sehinnga menjadi pemenang dalam
pemilu tersebut.

Tipe Data 2
Contoh Interval
• Interval nilai pelajaran matematika siswa SMA 4 Surabaya adalah

antara 0 sampai 100. Bila siswa A dan B masing-masing mempunyai
nilai 45 dan 90, bukan berarti tingkat kecerdasan B dua kali A. Nilai 0
sampai 100 hanya merupakan rentang yang dibuat berdasarkan
kategori pelajaran matematika dan mungkin berbeda dengan mata
pelajaran lain.
• Dasar Pemrograman memiliki 1 SKS, waktunya adalah 50 menit,
begitupun dengan Teknik Digital yang memiliki 2 sks berarti waktunya
100 menit, dan yang terakhir yaitu kalkulus memiliki 3 SKS waktunya
adalah 150 menit sehingga dapat disimpulkan bahwa selisih data
diatas adalah 50 menit.

Tipe Data 2
Contoh Rasio
• Dalam sebuah bank, seseorang mempunyai tabungan dengan saldo

10.000.000 rupiah. Angka tersebut menunjukkan bahwa orang
tersebut benar-benar mempunyai saldo sebesar 10.000.000 rupiah.
Jika seseorang mempunyai saldo -1.000.000 rupiah berarti orang
tersebut mempunyai hutang sebesar 1.000.000 rupiah. Sedangkan
jika seseorang mempunyai saldo 0 rupiah berarti orang tersebut tidak
mempunyai tabungan maupun hutang.
• Nilai raport siswa SMA dimana masing – masing siswa memiliki
nilaiyang berbeda yaitu Muiz mendapatkan nilai 100 (A), Cinta 80 (B),
dan Putri 60 (C) jika dilihat dariskala rasio nilai Muiz memiliki nilai
lebih 20 dari pada nilai Cinta, Cinta memiliki nilai lebih 20dari pada
nilai Putri, dan nilai putri kurang 40 untuk sama dengan Muiz.

Tipe Data Set 3
• Dimensionalitas, dari data set adalah banyaknya

atribut yang dimiliki objek dalam data set.
• Sparsity. Untuk beberapa data set, misal pada data
set yang mengandug atribut asimetrik, kebanyakan
atribut memiliki nilai 0.
• Resolusi. Data pada tingkat resolusi yang berbeda
seringkali diperoleh, dan sering pula sifat-sifat dari
data berbeda pada resolusi yang berbeda.

Tipe Data Set 3
Data record
• Merupakan kumpulan record (objek data)

• Masing-masing record mengandung sekumpulan field
data (atribut)
• Tidak ada hubungan yang eksplisit diantara record
atau field data.
• Setiap record (objek) memiliki himpunan atribut yang
sama
• Data record biasanya disimpan dalam flat file atau
dalam basis data relasioanal.

Tipe Data Set 3
Data record

Tipe Data Set 3
Data transaksi
• Merupakan bentuk khusus dari data record

• setiap record (transaksi) meliputi sekumpulan item
• dinamakan data market basket
• koleksi dari himpunan-himpunan item
• data tersebut dapat dipandang sebagai sekumpulan
record yang memiliki field-field berupa atribut
asimetrik

Tipe Data Set 3
Data transaksi
• Pada toko grosir, sekumpulan produk yang dibeli oleh

seorang pelanggan selama satu kali perjalanan belanja
merupakan sebuah transaksi, dengakan produk
individual yang dibeli merupakan item.
• Setiap baris menyatakan pembelian dari seorang
pelanggan pada waktu tertentu.

Tipe Data Set 3
Data Matriks
• Objek-objek data dalam koleksi dari data seluruhnya

memiliki kumpulan atribut-atribut numerik yang sama
• Objek data tersebut dapat dipandang sebagai titik
atau vektor dalam ruang multidimesi
• Setiap dimensi menyatakan atribut yang berbeda yang
menjelaskan objek.
• Himpunan objek data demikian dapat diiterpretasikan
sebagai matriks berukuran m × n

Tipe Data Set 3
Data Matriks
• Matriks data adalah variasi dari data record,

• Diaplikasikan untuk mentranformasi atau
memanipulasi data.
• Merupakan format data standar untuk kebanyakan
data statsitik.

Tipe Data Set 3
Matriks Data Jarang
• Matriks data jarang (sparse data matrix) adalah kasus

khusus dari matriks data dimana atribut-atribut
memiliki tipe yang sama dan merupakan atribut
asimetrik (hanya nilai yang tak nol yang penting).
• Document-term matrix merupakan dokumen baris
dari matriks, sedangkan istilah adalah kolom dari
matriks tersebut.

Tipe Data Set 3
Matriks Data Jarang

Tipe Data Set 3
Data Sekuensial
• Data sekuensial jika dirujuk sebagai data temporal.

• Data tersebut dapat dipandang sebagai perluasan dari
data record
• Setiap record memiliki nilai waktu yang berkaitan
dengan record tersebut.

Tipe Data Set 3
Data Urutan (Sequence Data)
• Data urutan terdiri dari data set yang merupakan

urutan dari entitas individual seperti urutan kata atau
huruf.
• Data ini hampir mirip dengan data sekuesial, kecuali
bahwa dalam data urutan tidak ada unsur waktu
• Akan tetapi terdapat posisi dalam rangkaian yang
terurut.

Tipe Data Set 3
Data Urutan (Sequence Data)
• Sebagai contoh, informasi genetik dari tanaman dan

binatang dapat direpresentasikan dalam bentuk
rangkaian nucleotide yang dikenal sebagai gen

Tipe Data Set 3
Data Time Series
• Merupakan bentuk khusus dari data sekuensial

dimana setiap record adalah sebuah time series
• Sebuah rangkaian dari pengukuran yang diambil
sepanjang waktu.

Tipe Data Set 3
Data Spasial
• Objek yang memiliki atribut-atribut spasial, seperti

posisi atau area, juga tipe atribut lainnya.
• Salah satu contoh dari data spasial adalah data cuaca
(curah hujan, temperatur, dan tekanan) yang
dikumpulkan dari berbegai lokasi geografis

Kualitas Data 4
Aspek Pengukuran Data dan

Pengumpulan Data
Kesalahan Pengukuran
Kesalahan Pengumpulan
Duplikasi Data

Kualitas Data 4
Kesalahan Pengukuran
• Nilai yang dicatat berbeda dari nilai sebenarnya untuk

beberapa tingkat.
Noise Komponen random dari error pengukuran
Bias Kuantitas pengukuran yang dikurangi mean
Precision Kedekatan dari pengukuran berulang/ STDEV
Accuracy Kedekatan pengukuran terhadap nilai

sebenarnya dari kuantitas yang diukur
Kualitas Data 4
Kesalahan Penumpulan
• Hilangnya objek data atau nilai atribut serta lingkup

objek data yang tidak tepat
Outliers Objek data dengan sifat yang berbeda sekali
dari kebanyakan objek data dalam data set
Missing Nilai dari suatu atribut yang tidak ditemukan.

Value Misal: Informasi tidak diperoleh atau atribut
yang mungkin tidak bisa diterapkan kesemua
kasus.

Kualitas Data 4
Duplikasi Data
• Data set yang terdiri dari data ganda atau hampir

selalu terjadi duplikasi data satu dengan yang lainnya.
Contoh Orang yang sama dengan alamat email yang
lebih dari satu.
Persoalan: Penggabungan data dari sumber-sumber yang

bervariasi (heterogen)

Pengolahan Awal (Prepocessing) Data 5
• Pengumpulan (Agregation)
• Penarikan Contoh (Sampling)
• Pengurangan Dimensi (Dimensionality Reduction)
• Pemilihan Fitur (Feature Selection)
• Pembuatan Fitur (Feature Creation)
• Pendiskritan dan Pembineran (Discretization and
Binarization)
• Transformasi Atribut (Attribute Transformation)

Agregation 5
• Kombinasi dua atau lebih objek ke dalam sebuah

objek tunggal.
• Sebagai contoh, data set yang berisi transaksi (objek
data) yang mencatat penjualan produk harian di
berbagai lokasi toko
• Salah satu cara untuk meng-agregasi transaksi untuk
data set ini adalah mengganti semua transaksi dari
toko-toko dengan sebuah transaksi tunggal.

Sampling 5
• Sampling adalah pendekatan yang umum digunakan

untuk menyeleksi sebuah subset dari objek data
untuk dianalisis.
• Prinsip utama penggunaan sample akan bekerja
hampir seperti menggunakan keseluruhan data set
jika sample adalah representatif.

Sampling 5
• Sampling adalah pendekatan yang umum digunakan

untuk menyeleksi sebuah subset dari objek data
untuk dianalisis.
• Prinsip utama penggunaan sample akan bekerja
hampir seperti menggunakan keseluruhan data set
jika sample adalah representatif.

Dimensionality Reduction 5
• Satu pendekatan terkait dengan dimensi yang tinggi

adalah mengurangi dimensi data tersebut.
• Memproyeksikan data dimensi tinggi ke dimensi
yang rendah menggunakan transformasi linier dan
non-linier
• Principal Component Analysis (PCA) dan Singular
Value Decomposition (SVD)

Feature Selection 5
• Pendekatan embedded, algoritme dengan sendirinya

menentukan atribut yang mana yang akan digunakan
dan atribut yang mana yang diabaikan
• Pendekatan filter, menggunakan pendekatan yang
tidak tergantung pada pekerjaan data mining
• Pendekatan wrapper, menggunakan algortime data
mining target sebagai black box untuk menentukan
subset atribut yang paling baik, tanpa menghitung
semua subset yang mungkin

Feature Creation 5
• Feature extraction: pembuatan sekumpulan fitur

yang baru dari data mentah awal.
• Pemetaan data ke ruang yang baru menggunakan
fourier transformation atau wavelet transformation.
• Konstruksi fitur: menggabungkan fitur-fitur.

Discretization and Binarization 5
Teknik Binarization
• Jika ada m nilai kategorikal, maka beri untuk setiap
nilai tersebut dengan sebuah nilai integer yang unik
pada interval [0,m-1]. Jika atributnya ordinal maka
urutan harus diperhatikan.
• Konversikan tiap nilai integer tersebut kedalam
bilangan biner

Discretization, untuk kelas Klasifikasi:

• Unsuvervised Discretization: tanpa menggunakan
informasi kelas:
1. Equal Width  Membagi kedalam interval yang
ditentukan dengan lebar yang sama
2. Equal Frequency  Menempatkan objek dengan
jumlah yang sama dalam tiap interval

Contoh:
Rubah atribut Taxable Income
menjadi atribut kategorikal
dengan kategori:
Rendah, Sedang dan Tinggi

1. Pendekatan Equal Width:

Rank data: [60-220]
 Rendah: range [60-113]
 Sedang: range [114-167]
 Tinggi: range [168-220]

2. Pendekatan Equal Frequency:

Sort data: [60, 70, 75, …, 220]
 Rendah: 60, 70, 75
 Sedang: 85, 90, 95
 Tinggi: 100, 120, 125, 220

Discretization, untuk kelas Klasifikasi:

• Suvervised Discretization: Entropy Based Approach
1. Menentukan Entropi
Misalnya:
k : Jumlah klas
mi : Jumlah nilai dalam interval ke-I dari partisi
mij : jumlah nilai dari kelas j dalam interval i
Dimana: pij = mij/mi 
probabilitas kelas j dalam
interval i
Atribute Transformation 5
 Suatu fungsi yang memetakan keseluruhan

himpunan nilai dari atribut yang diberikan kesuatu
himpunan nilai-nilai pengganti yang baru sedemikian
hingga nilai yang lama dapat dikenali dengan satui
dari nilai-nilai baru tersebut.
 Fungsi Tranformasi  Standarisasi dan normalisasi
 Tujuan Standarisasi dan normalisasi  membuat
keseluruhan nilai mempunyai suatu sifat khusus

Salah satu contoh transformasi standarisasi adalah

dengan:
 Hitung nilai tengah dengan median
 Hitung absolute standard deviation dengan
persamaan
 Lakukan transformasi dengan:

Contoh:
Lakukan standarisasi dari data-set berikut:
x ={2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2, 1, 1.5, 1.1}
Jawab:
Dari data diatas dapat dihitung median =
µ = (1.9 + 2)/2 = 1.95

Maka,
X’ = {

Similaritas dan Jarak 6
 Similaritas (kemiripan) antara dua onjek merupakan

ukuran numerik dari seberapa mirip dua buah objek
 Range nilai similaritas adalah [0,1]
 Lawan dari Similaritas adalah Dissimilaritas, yang
memiliki nilai minimum 0 dan maksimum tidak
terbatas
 Dissimilaritas  distance (jarak)

Pengukuran Jarak (Distance) dari Dua Objek
1. Jarak Euclidian (Euclidian Distance)

Contoh:
Hitung ukuran jarak euclidian antara semua titik dalam
data set dua dimensi berikut:

Jawab:

Semua nilai jarak antara titik-titik diatas dapat

dinyatakan dalam sebuah Matiks Jarak (Distance Matrix)

Normalisasi 6
Tujuan Normalisasi:
Membuat keseluruhan nilai mempunyai suatu sifat
khusus
v  min
v'  max  min
V V’
20 0.000
45 1.000
30 0.400
24 0.160
Max = 45
Min = 20

Tugas Kelompok 7
Terima Kasih

DM Pertemuan 3. Data

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

DM Pertemuan 3. Data

Diunggah oleh

Hak Cipta:

Format Tersedia

Data Mining

Pertemuan 3 - Ganjil 2015-2016

Program Studi Sistem Informasi

Data adalah sesuatu yang belum mempunyai arti bagi

Mustakim, S.T., M.Kom. Data Mining 2

Data bisa berwujut suatu:

Mustakim, S.T., M.Kom. Data Mining 3

Atribut: Sifat atau karakteristik dari suatu objek

NO KODE JUDUL PENGARANG SEGMEN TAHUN BULAN HARGA

4 0071500060 PSIKOLOGI KOGNITIF JONATHAN LING BK REF 2013 3 115,000

Kumpulan dari beberapa atribut

Mustakim, S.T., M.Kom. Data Mining 5

Atribut Kategorikal (Categorical Attribute)

Mustakim, S.T., M.Kom. Data Mining 6

Atribut Numerik (Numeric Attribute)

Mustakim, S.T., M.Kom. Data Mining 7

• Data jenis kelamin pada sampel penelitian Departemen Pendidikan,

Mustakim, S.T., M.Kom. Data Mining 8

• Mengenai tingkat pendidikan yang dikategorikan menjadi ’SD’ yang

Mustakim, S.T., M.Kom. Data Mining 9

• Interval nilai pelajaran matematika siswa SMA 4 Surabaya adalah

Mustakim, S.T., M.Kom. Data Mining 10

• Dalam sebuah bank, seseorang mempunyai tabungan dengan saldo

Mustakim, S.T., M.Kom. Data Mining 11

• Dimensionalitas, dari data set adalah banyaknya

Mustakim, S.T., M.Kom. Data Mining 12

• Merupakan kumpulan record (objek data)

Mustakim, S.T., M.Kom. Data Mining 13

Mustakim, S.T., M.Kom. Data Mining 14

• Merupakan bentuk khusus dari data record

Mustakim, S.T., M.Kom. Data Mining 15

• Pada toko grosir, sekumpulan produk yang dibeli oleh

Mustakim, S.T., M.Kom. Data Mining 16

• Objek-objek data dalam koleksi dari data seluruhnya

Mustakim, S.T., M.Kom. Data Mining 17

• Matriks data adalah variasi dari data record,

Mustakim, S.T., M.Kom. Data Mining 18

Matriks Data Jarang

• Matriks data jarang (sparse data matrix) adalah kasus

Mustakim, S.T., M.Kom. Data Mining 19

Matriks Data Jarang

Mustakim, S.T., M.Kom. Data Mining 20

• Data sekuensial jika dirujuk sebagai data temporal.

Mustakim, S.T., M.Kom. Data Mining 21

Data Urutan (Sequence Data)

• Data urutan terdiri dari data set yang merupakan

Mustakim, S.T., M.Kom. Data Mining 22

Data Urutan (Sequence Data)

• Sebagai contoh, informasi genetik dari tanaman dan

Mustakim, S.T., M.Kom. Data Mining 23

Data Time Series

• Merupakan bentuk khusus dari data sekuensial

Mustakim, S.T., M.Kom. Data Mining 24

• Objek yang memiliki atribut-atribut spasial, seperti

Mustakim, S.T., M.Kom. Data Mining 25

Aspek Pengukuran Data dan

Mustakim, S.T., M.Kom. Data Mining 26

• Nilai yang dicatat berbeda dari nilai sebenarnya untuk

Bias Kuantitas pengukuran yang dikurangi mean

Precision Kedekatan dari pengukuran berulang/ STDEV

Accuracy Kedekatan pengukuran terhadap nilai

• Hilangnya objek data atau nilai atribut serta lingkup

Missing Nilai dari suatu atribut yang tidak ditemukan.

Mustakim, S.T., M.Kom. Data Mining 28