Capaian Belajar
•
• Multidimensional data merupakan kumpulan data multidimensi yang
didefinisikan sebagai berikut:
Himpunan multidimensi D adalah himpunan n (jumlah) data, X1,….,Xn,
dimana setiap record Xi mengandung serangkaian fitur d yang
dilambangkan dengan (x …. x ).
Data multidimensi kuantitatif diketahui sebagai data yang semua bidangnya kuantitatif. Dimana atributnya disebut kontinu, numerik, atau
kuantitatif. Dalam data mining, sub data ini yang paling dianggap umum dan banyak algoritme yang dapat diimplementasikan. Subtipe ini
sangat cocok untuk pemrosesan analitis karena lebih mudah bekerja dengan data kuantitatif dari perspektif statistic. Contoh : mean dari
sebuah kumpulan atribut.
Tipe data ini merupakan kategorikal yang nilainya ridak memiliki urutan (jenis kelamin, ras, kode ZIP). Terdapat juga data yang memiliki
numerical dan kategorikal dalam suatu table yang disebut sebagai data atribut campuran (mixed attribute data).
Data biner dapat dianggap sebagai kasus khusus baik itu data kategori multidimensi maumpun data kuantitatif multidimensi. Dimana terdapat
dua nilai yaitu 0 atau 1.
• Text data
Disebut sebagai data data string atau data multidimensi tergantung bagaimana direpresentasikan. Setiap string merupakan urutan karakter
(atau kata). Frekuensi ini Frekuensi ini biasanya dinormalisasi dengan statistik seperti panjang dokumen, atau frekuensi kata-kata dalam sebuah
kumpulan. data teks dapat dianggap sebagai data kuantitatif multidimensi, di mana atributnya sesuai dengan kata-kata, dan nilainya sesuai
dengan frekuensi atribut tersebut.
by Sitti Rahmah Jabir, M.Sc
Dependency Data
Dalam beberapa tipe data ketergantungan (dependency data) dapat berupa implisit
dan eksplisit, dimana:
1. Implisit dependencies merupakan ketergantungan antara item data tidak secara
eksplisit tetapi biasanya ada di domain tersebut. Misalnya, nilai suhu berurutan
yang dikumpulkan oleh sebuah sensor kemungkinan besar akan sangat mirip satu
sama lain. Oleh karena itu, jika nilai suhu yang direkam oleh sensor pada waktu
tertentu berbeda secara signifikan dari yang direkam pada saat berikutnya, maka
ini sangat tidak biasa dan mungkin menarik untuk proses data mining.
2. Eksplisit dependencies biasanya mengacu pada grafik atau data jaringan di mana
edge digunakan untuk menentukan hubungan eksplisit. Grafik adalah abstraksi
yang sangat kuat yang sering digunakan sebagai representasi perantara untuk
menyelesaikan masalah data mining dalam konteks tipe data lainnya.
• Binary : merupakan atribut nominal yang hanya memiliki 2 kategori [0=absent, 1=present]
yang biasa disebut sebagai Boolean apabila status nya berupa true atau false. Atribut ini
nilainya simetris dimana tidak ada nilai atribut yang lebih besar satu sama lain [jenis
kelamin=pria/wanita, HIV test=positive/negative].
Tipe-Tipe Atrbibut (2)
• Ordinal : merupakan atribut yang nilainya memiliki urutan yang sebenarnya atau ranking antar
atribut. Namun nilai jarak antar atribut tidak diketahui jumlahnya atau dengan kata lain tidak
memiliki jumlah yang pasti [ukuran baju: small-medium-large , nilai: A+,A,A-,B+,B dan lainnya].
Dalam survey, ordinal atribut biasanya digunakan untuk menentukan rating seperti 5=sangat
puas, 4=puas, 3=cukup puas, 2=tidak puas, 1=sangat tidak puas.
• Numeric : merupakan atribut kuantitatiif yang dimana nilainya dpat dihitung yang ditampilkan
dalam angka bilangan bulat (integer) atau angka sebenarnya. Atribut numerik dapat berupa
skala interval atau skala rasio. Skala interval diukur dengan skala unit dalam ukuran yang
salam. Nilainya dapat berupa positif maupun negative [temperature: 20c > 15c, kalender:
2013-2017 memiliki perbedaan jarak 4 tahun]. disisi lainnya, skala rasio merupakan atribut
numerik yang memiliki nilai 0 yang melekat. Dalam perhitungannya, skala rasio merupaka nilai
kelipatan dari nilai lain. Selisih dari nilai tersebut dapat dihutung serta niai rata_rata (mean),
nilai tengah (median), dan mode juga dapat diketahui.
Data Pre-Processing
• Data Pre-processing merupakan tahap ketiga pada data mining.
• Tahap ini dibutuhkan untuk meningkatkan kualitas dari data tersebut
dikarenakan tidak semua data yang diterima memiliki kualitas yang baik
baik itu dari segi akurasi, konsistensi, ketetapan waktu, kepercayaan, dan
interpretabilitas.
Tahapan-tahapan Data
Pre-processing
• Data Cleaning (Pembersihan Data)
• Data Integration (Integrasi Data)
• Data Reduction (Pengurangan Data)
• Data Transformation (Transformasi data)
Data Cleaning
• Terdapat beberapa cara yang dapat dilakukan untuk membersihkan data
yaitu mengisi data yang hilang (missing value), menghaluskan kebisingan
(noise) sambal mengedentifikasi outlier, dan memperbaiki data yang
tidak konsisten (inconsisten data).
Missing values
1. Menghindari tuple : menghapus kelas label yang hilang secara langsung. Namun
proses ini dianggap kurang efektif kecuali di dalam tuple terdapat beberapa atribut
yang nilainya telah hilang. Dengan mengabaikan tuple, nilai atrbut dalam tuple tidak
lagi digunakan. Dimana data tersebut dapat berguna untuk tugas yang ada.
2. Mengisi data yang hilang secara manual : metode ini sangat memakan waktu dan
tidak mungkin untuk dilakukan dalam jumlah data yang sangat besar.
3. Gunakan konstanta global untuk mengisi nilai yang hilang : menggantikan semua
atribut yang hilang dengan nilai konstan seperti “unknown”. Apabila missing value
dengan nilai tersebut, maka mining program dapat membuat kesalahan dikarenakan
konsep nilai yang diterapkan sama. Oleh karena itu, metode ini dikatakan simple
namun tidak mudah.
4. Menggunakan tendensi yang paling kuat dalam sebuah atribut : Dalam metode ini, teknik yg
digunakan untuk mengisi missing value yaitu dengan menggunakan mean atau mode (nilai yang
paling sering muncul) dari nilai-nilai pada atribut tersebut.
5. Menggunakan mean atau median untuk mengisi missing value pada kelas yang sama :
Contohnya seperti resiko kredit, dimana nilai yang hilang dapat diganti dengan nilai pendapatan
rata-rata untuk pelanggan dalam kategori risiko kredit yang sama seperti bahwa tupel yang
diberikan. Jika distribusi data untuk kelas tertentu miring, nilai median adalah pilihan yang lebih
baik.
6. Menggunakan nilai yang sangat memungkinkan untuk digunakan : Dalam metode ini dapat
menggunakan regresi, alat berbasis inferensi menggunakan formalisme Bayesian dan induksi
pohon keputusan (decision tree). Sebagai contoh: data pelanggan yang lain dapat digunakan
dalam membangun decision tree untuk memprediksi pendapatan pelanggan yang datanya hilang.
Mean
• Mean (rata-rata) merupakan cara yang paling umum dan efektif untuk
mengukur pusat dari himpunan N nilai dalam suatu atribut X. yang dihitung
dengan menggunakan rumus:
Nomor
Mahasiswa Nilai UTS Nilai Tugas Nilai UAS Nilai Indeks
1 30 10 5 E
2 40 15 10 E
3 40 20 15 E
4 45 25 20 D
5 45 30 25 D
6 50 40 30 D
7 50 50 35 D
8 50 60 40 C
9 50 70 45 C
10 50 80 50 C
11 60 80 55 C Dimana xi merupakan nilai ke-i pada sebuah himpunan data X dan N merupakan jumlah data.
12 60 85 60 C
13 60 85 65 C
14 65 85 70 B
15 65 90 75 B =
16 65 90 80 B
17 70 90 85 B =
18 70 95 90 A
19 75 95 95 A
= 57
20 100 100 100 A
Rata-rata 57 64,75 52,5 C
[4,3,2,5,1] [1,2,3,4,5]
= mediannya ialah 3
• Contoh data berjumalh genap:
[4,3,2,6,5,1] [1,2,3,4,5,6]
= 3+4 / 2
= 3,5 , jadi mediannya
by Sitti adalah 3,5
Rahmah Jabir, M.Sc
Boxplot
•
• Berdasarkan data nilai UTS, nilai
tugas, dan nilai UAS yang telah di
Garis median (Q2)
Ujung garis bawah menyatakan Minimum, ujung bawah kotak menyatakan Q1, ujung atas garis
menyatakan Maximum, dan titik yang ada menyatakan adanya outlier.
by Sitti Rahmah Jabir, M.Sc
Quantile Plot
𝑟 = koefisien korelasi
𝑥 = nilai dari variabel X
= mean dari nilai variabel X
𝑦 = nilai dari variable Y
= mean dari nilai variabel Y
Data Reduction
• Teknik reduksi data memperoleh representasi data yang berkurang sambil meminimalkan
hilangnya konten informasi.
• Metode yang dapat digunakan dalam pengurangan data:
1. Reduksi Dimensi (Dimensionality Reduction) : adalah proses pengurangan jumlah variabel
atau atribut acak yang sedang dipertimbangkan.
2. Rudeksi Numerositas (Numerosity Reduction) : Teknik pengurangan numerositas
menggantikan volume data asli dengan alternatif bentuk representasi data yang lebih kecil.
Teknik yang digunakan dapat berupa parametrik maupun non-parametrik.
3. Kompresi Data (Data compression) : Dalam kompresi data, transformasi diterapkan untuk
mendapatkan representasi yang dikurangi atau "dikompresi" dari data asli. Jika data asli
dapat direkonstruksi dari data terkompresi tanpa kehilangan informasi, reduksi data disebut
lossless. Sebaliknya, jika kita dapat merekonstruksi hanya perkiraan data asli, maka reduksi
data disebut lossy. Ada beberapa algoritma lossless untuk kompresi string; Namun, mereka
biasanya hanya mengizinkan manipulasi data terbatas. Teknik reduksi dimensi dan reduksi
numerositas juga dapat dianggap sebagai bentuk kompresi data.
Data Reduction
Gambar 1.6 Contoh Diskritisasi : konsep hirarki untuk atribut harga dimana interval($ X ... $ Y] menunjukkan kisaran dari $ X (eksklusif) hingga $ Y (inklusif).
Mengubah variabel kategori menjadi variable numerik
ERROR!
Mengubah variabel kategori menjadi variable
numerik
Contoh sebelumnya menghasilkan error dikarenakan sebuah kategori
tidak menjelaskan urutan dari angka tersebut. Algoritme yang benar
yaitu :
• Empat wilayah diurutkan
• West -> South -> East -> North
• West memiliki jarak tiga kali lebih dekat dengan South dibandingkan
dengan North dan East
Data Pre-Processing dengan R
Data Pre-Processing dengan R
Data Pre-Processing dengan R
Data Pre-Processing dengan R
Data Pre-Processing dengan R
Data Pre-Processing dengan R
Alhamdulillah