DATA MINING
Dosen Pengampu :
Dwi Welly Sukma Nirad, S.Kom., M.T.
Oleh:
Ufa Aurora Guciano
(1911522018)
b) Mean
Mean =
jumlah data 13+15+2 ×16+ 19+ 2× 20+21+2× 22+4 × 25+30+2 ×33+ 4 ×35+ 36+40+ 45+
=
banyak data 27
c) Modus
Nilai dengan kemunculan paling banyak = 25 dan 35
d) Mid Range
X max+ X min 70+13
Mid Range = = = 41,5
2 2
2. Diberikan 2 objek yang diwakili oleh tupel (22, 1, 42, 10) dan (20, 0, 36, 8).
Hitunglah jarak Euclidean dan jarak Manhattan antara dua benda tersebut.
a) Jarak Euclidean
d (p,q) = √ ( p 1−q 1 )2 +( p 2−q 2)2 +…+ ( pi−qi )2 +…+( pn−qn)2
d (p,q) = √ ( 22−20 )2 +(1−0)2 + ( 42−36 )2 +(10−8)2
d (p,q) = √ ( 2 )2+(1)2+ ( 6 )2+(2)2
d (p,q) = √ 4 +1+36+ 4
d (p,q) = √ 45
d (p,q) = 6,70
b) Jarak Manhattan
d (p,q) = | p 1−q 1|+| p 2−q 2|+ …+| pi−qi|+…+| pn−qn|
d(p,q) = |22−20|+|1−0|+|42−36|+|10−8|
d(p,q) = |2|+|1|+|6|+|2|
d(p,q) = 11
3. Jelaskanlah secara detail mengenai data cleaning, data integration, dan data
reduction dalam data mining.
Data Cleaning, data integration dan data reduction merupakan bagian dari proses
data mining
a) Data Cleaning
Data cleaning bertujuan untuk:
1) Melengkapi atau menghapus data yang tidak lengkap
Data yang tidak lengkap ini seperti tidak memiliki nilai atribut, kurang
atribut tertentu, atau hanya berisi data agregat
Contoh: Pekerjaan = “” (data hilang)
2) Menghilangkan data noise
Datanya mengandung noise, kesalahan, atau outlier
Contoh: Gaji = “- 100” (kesalahan)
3) Mengidentifikasi atau menghapus anomaly
4) Mengatasi masalah konsisten data.
b) Data Integration
Data Integration adalah proses menggabungkan data yang berulang (multiple
data) dan file-file yang berulang (multiple file) dari berbagai sumber ke dalam
satu penyimpanan yang saling terhubung yakni data warehouse. Sumber
tersebut bisa berupa multiple database, data cube atau file-file.
c) Data Reduction
Data reduction (Reduksi data) adalah transformasi informasi digital numerik
atau alfabet yang diperoleh secara empiris atau eksperimental menjadi bentuk
yang dikoreksi, dipesan, dan disederhanakan. Konsep dasarnya adalah
pengurangan jumlah data yang banyak ke bagian yang bermakna. Tujuan dari
Data reduction yaitu untuk mengatasi keterbatasan penyimpanan data dalam
database/data warehouse dan mengatasi lamanya waktu yang dibutuhkan
untuk menganalisis data yang kompleks dalam tiap dataset yang lengkap.
B. Seleksi Fitur
Metode ini merupakan cara lain untuk melakukan reduksi dimensi
data. Untuk atribut yang redundant, yakni duplikasi sebagian atau
semua dari informasi yang terdapat dalam satu atribut atau lebih
banyak atribut lainnya. Contohnya: harga beli suatu produk dan
jumlah pajak penjualan dibayar. Kemudian untuk atribut yang
tidak relevan, yakni tidak mengandung informasi yang berguna
untuk tugas data mining yang ada. Contohnya: ID siswa sering
tidak relevan dengan tugas memprediksi IPK siswa.
Sumber: IlmuKomputer.Com
1. Regresi Linier: Y = w X + b
Dua koefisien regresi, w dan b, tentukan garis dan
diestimasi dengan menggunakan data yang ada
Menggunakan kriteria kuadrat terkecil dengan nilai
Y1, Y2,…, X1, X2, …
2. Regresi berganda: Y = b0 + b1 X1 + b2 X2
Banyak fungsi nonlinear dapat diubah menjadi di
atas
3. Model Log-linear :
Perkiraan distribusi probabilitas multidimensi
diskrit
Perkirakan probabilitas setiap titik (tuple) dalam
ruang multi-dimensionala untuk sekumpulan atribut
yang didiskritisasi, berdasarkan subkumpulan
kombinasi dimensi yang lebih kecil
Berguna untuk pengurangan dimensi dan perataan
data
B. Metode Non-Parametrik
Dalam metode ini tidak perlu mengasumsikan model. Famili
utamanya yakni: histogram, clustering dan sampling.
Histogtam Analysis
Clustering
Sampling
Tipe-tipe Sampling
Sumber: IlmuKomputer.Com
Sumber: IlmuKomputer.Com
Stratified Sampling