Anda di halaman 1dari 10

TUGAS 1

DATA MINING

Disusun Untuk Memenuhi Tugas Mata Kuliah Data Mining

Dosen Pengampu :
Dwi Welly Sukma Nirad, S.Kom., M.T.

Rahamatika Pratama Santi. M.T.

Oleh:
Ufa Aurora Guciano
(1911522018)

PROGRAM STUDI S1 SISTEM INFORMASI


FAKULTAS TEKNOLOGI INFORMASI
UNIVERSITAS ANDALAS
2021
1. Diketahui data atribut umur sebagai berikut : 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25,
25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. Tentukanlah
median,mean modus, dan mid range dari data tersebut.
a) Median
n = jumlah data = 27 (jumlah data ganjil)
rumus median :
Me = X n +1
2
X 27 +1 =X 14 =25
Me = 2

b) Mean
Mean =
jumlah data 13+15+2 ×16+ 19+ 2× 20+21+2× 22+4 × 25+30+2 ×33+ 4 ×35+ 36+40+ 45+
=
banyak data 27
c) Modus
Nilai dengan kemunculan paling banyak = 25 dan 35
d) Mid Range
X max+ X min 70+13
Mid Range = = = 41,5
2 2

2. Diberikan 2 objek yang diwakili oleh tupel (22, 1, 42, 10) dan (20, 0, 36, 8).
Hitunglah jarak Euclidean dan jarak Manhattan antara dua benda tersebut.
a) Jarak Euclidean
d (p,q) = √ ( p 1−q 1 )2 +( p 2−q 2)2 +…+ ( pi−qi )2 +…+( pn−qn)2
d (p,q) = √ ( 22−20 )2 +(1−0)2 + ( 42−36 )2 +(10−8)2
d (p,q) = √ ( 2 )2+(1)2+ ( 6 )2+(2)2
d (p,q) = √ 4 +1+36+ 4
d (p,q) = √ 45
d (p,q) = 6,70

b) Jarak Manhattan
d (p,q) = | p 1−q 1|+| p 2−q 2|+ …+| pi−qi|+…+| pn−qn|
d(p,q) = |22−20|+|1−0|+|42−36|+|10−8|
d(p,q) = |2|+|1|+|6|+|2|
d(p,q) = 11

3. Jelaskanlah secara detail mengenai data cleaning, data integration, dan data
reduction dalam data mining.
Data Cleaning, data integration dan data reduction merupakan bagian dari proses
data mining
a) Data Cleaning
Data cleaning bertujuan untuk:
1) Melengkapi atau menghapus data yang tidak lengkap
Data yang tidak lengkap ini seperti tidak memiliki nilai atribut, kurang
atribut tertentu, atau hanya berisi data agregat
Contoh: Pekerjaan = “” (data hilang)
2) Menghilangkan data noise
Datanya mengandung noise, kesalahan, atau outlier
Contoh: Gaji = “- 100” (kesalahan)
3) Mengidentifikasi atau menghapus anomaly
4) Mengatasi masalah konsisten data.

Data Clening dalam proses data mining menjalankan tugas:

 Deteksi perbedaan data


 Gunakan metadata (misalnya, domain, jangkauan, ketergantungan,
distribusi)
 Periksa kelebihan beban lapangan
 Periksa aturan keunikan, aturan berurutan, dan aturan nol
 Gunakan alat komersial
 Data scrubbing: gunakan pengetahuan domain sederhana
(misalnya, kode pos, periksa ejaan) untuk mendeteksi kesalahan
dan melakukan koreksi
 Data auditing: dengan menganalisis data untuk menemukan aturan
dan hubungan untuk mendeteksi pelanggar (misalnya, korelasi dan
pengelompokan untuk menemukan pencilan)
 Migrasi dan integrasi data
 Alat migrasi data: memungkinkan transformasi ditentukan
 Alat ETL (Extraction/Transformation/Loading): memungkinkan
pengguna menentukan transformasi melalui antarmuka pengguna
grafis
 Integrasi dari dua proses
Pengulangan dan interaktif (Contoh: Potter’s Wheels)

b) Data Integration
Data Integration adalah proses menggabungkan data yang berulang (multiple
data) dan file-file yang berulang (multiple file) dari berbagai sumber ke dalam
satu penyimpanan yang saling terhubung yakni data warehouse. Sumber
tersebut bisa berupa multiple database, data cube atau file-file.

Cara menangani redundansi dalam data integration:


 Data redundan sering terjadi ketika integrasi beberapa basis data
 Identifikasi objek: Atribut atau objek yang sama dapat memiliki
nama yang berbeda di database yang berbeda
 Data yang dapat diturunkan: Satu atribut dapat menjadi atribut
“turunan” di tabel lain, mis., Pendapatan tahunan
 Atribut redundan mungkin dapat dideteksi dengan correlation
analysis dan covariance analysis
 Integrasi data yang cermat dari berbagai sumber dapat membantu
mengurangi / menghindari redudansi dan inkonsistensi dan
meningkatkan kecepatan dan kualitas penambangan

c) Data Reduction
Data reduction (Reduksi data) adalah transformasi informasi digital numerik
atau alfabet yang diperoleh secara empiris atau eksperimental menjadi bentuk
yang dikoreksi, dipesan, dan disederhanakan. Konsep dasarnya adalah
pengurangan jumlah data yang banyak ke bagian yang bermakna. Tujuan dari
Data reduction yaitu untuk mengatasi keterbatasan penyimpanan data dalam
database/data warehouse dan mengatasi lamanya waktu yang dibutuhkan
untuk menganalisis data yang kompleks dalam tiap dataset yang lengkap.

Ada beberapa metode dalam data reduction:


1) Dimensionality Reduction (Reduksi Dimensi)
Kekurangan dari dimensi yakni: Ketika dimensi meningkat maka data
menjadi semakin jarang, kepadatan dan jarak antara titik yang sangat
penting untuk clustering dan analisis outlier menjadi kurang bermakna
serta kombinasi yang mungkin dari sub ruang akan tumbuh secara
eksponensial. Tujuan melakukan reduksi dimensi yakni: menghindari
kekurangan dari dimensi, membantu menghilangkan fitur yang tidak
relevan dan mengurangi noise, mengurangi waktu dan ruang yang
dibutuhkan dalam penambangan data dan memungkinkan visualisasi
yang lebih mudah.

Metode reduksi dimensi yang pertama yakni ekstraksi fitur. Ekstraksi


fitur dapat dilakukan dengan cara: Wavelet transforms dan Principal
Component Analysis (PCA). Sedangkan untuk metode reduksi yang
kedua yakni seleksi fitur. Dapat dilakukan dengan pendekatan: Filter,
Wrapper dan Embedded.

A. Ekstraksi fitur dengan Principal Component Analysis (PCA)


Metode ini hanya berfungsi untuk data numerik. Diberikan vektor
data N dari dimensi-n, temukan k ≤ n
vektor ortogonal (komponen utama) yang paling baik digunakan
untuk merepresentasikan data. Berikut ini langkah-langkah yang
perlu dilakukan:

a) Normalisasi data input: Setiap atribut berada dalam kisaran


yang sama
b) Hitung vektor ortonormal (unit), yaitu Komponen utama
c) Setiap data input (vektor) adalah kombinasi linear dari nilai k
vektor komponen utama.
d) Komponen utama diurutkan dalam urutan decreasing
(menurun) “Signifikansi” atau kekuatan
e) Karena komponen diurutkan, ukuran data dapat dikurangi
dengan menghilangkan komponen yang lemah, yaitu
komponen-komponen dengan varian rendah.

B. Seleksi Fitur
Metode ini merupakan cara lain untuk melakukan reduksi dimensi
data. Untuk atribut yang redundant, yakni duplikasi sebagian atau
semua dari informasi yang terdapat dalam satu atribut atau lebih
banyak atribut lainnya. Contohnya: harga beli suatu produk dan
jumlah pajak penjualan dibayar. Kemudian untuk atribut yang
tidak relevan, yakni tidak mengandung informasi yang berguna
untuk tugas data mining yang ada. Contohnya: ID siswa sering
tidak relevan dengan tugas memprediksi IPK siswa.

C. Pendekatan seleksi Fitur


Sejumlah pendekatan yang diusulkan untuk fitur seleksi dapat
dikategorikan secara luas ke dalam tiga klasifikasi: wrapper, filter,
dan embedded (Liu & Tu, 2004)

1) Dalam pendekatan filter, analisis statistik dari set fitur


diperlukan, tanpa menggunakan model pembelajaran apa
pun (Dash & Liu, 1997). Dapat menggunakan information
gain, chi square, log lokehood rasio, dll.
2) Dalam pendekatan wrapper, model pembelajaran yang telah
ditentukan diasumsikan, di mana fitur dipilih yang
membenarkan kinerja pembelajaran model pembelajaran
tertentu (Guyon & Elisseeff, 2003). Dapat menggunakan
forward selection, backward elemination, randomized hill
climbing, dll.
3) Pendekatan yang embedded mencoba untuk memanfaatkan
kekuatan pelengkap pendekatan pembungkus dan filter
(Huang, Cai, & Xu, 2007). Dapat menggunakan decision
tree, weighted naïve bayes, dll.

D. Pendekatan Wrapper vs Pendekatan Filter


E. No Free Lunch Theory (Hukum ke- 4 Data Mining)
“There is No Free Lunch for the Data Miner (NFL-DM)
Model yang tepat untuk aplikasi yang diberikan hanya dapat
ditemukan dengan eksperimen”

1) Kebenaran pembelajaran mesin: jika kita cukup tahu


tentang ruang lingkup masalah, kita dapat memilih atau
merancang algoritma untuk menemukan solusi paling
optimal dalam ruang lingkup masalah dengan efisiensi
paling maksimal.
2) Argumen terhadap keunggulan satu algoritma atas yang
lain dalam data mining didasarkan pada gagasan bahwa
ruang lingkup masalah data mining memiliki satu set
properti tertentu, atau bahwa properti ini dapat
ditemukan dengan analisis dan dibangun ke dalam
algoritma
3) Namun, pandangan ini muncul dari gagasan keliru.
Bahwa dalam data mining, penambang data
merumuskan masalah dan algoritma menemukan
solusinya.
4) Faktanya, penambang data merumuskan masalah dan
menemukan solusinya – algoritma hanyalah alat yang
digunakan penambang data untuk membantu langkah-
langkah tertentu dalam proses ini

2) Numerosity Reduction (Reduksi Numerik)


A. Metode Parametrik

Regresi – Asumsikan data cocok dengan beberapa model,


perkirakan parameter model, simpan hanya parameternya, dan
buang data (kecuali kemungkinan outlier). Dalam regresi
linear, data dimodelkan agar sesuai dengan garis lurus.
Seringkali menggunakan metode kuadrat-terkecil agar sesuai
dengan garis. Dalam Regresi berganda, mengizinkan variabel
respons Y dimodelkan sebagai fungsi linear dari vektor fitur
multidimensi.

Model log-linear — dapatkan nilai pada titik di ruang m-D


sebagai produk pada subruang marginal yang sesuai. Dalam
model ini, mendekati distribusi probabilitas multidimensi
diskrit

Regress Analysis (Analisis Regresi)

Sumber: IlmuKomputer.Com

 Analisis regresi: Nama kolektif untuk teknik pemodelan


dan analisis data numerik yang terdiri dari nilai-nilai
variabel dependen (juga disebut variabel respons atau
pengukuran) dan satu atau lebih variabel independen
(alias. Variabel penjelas atau prediktor)
 Parameter diperkirakan untuk memberikan “kecocokan”
data yang terbaik
 Pada umumnya paling cocok dievaluasi dengan
menggunakan metode least squares method (kuadrat
terkecil), tetapi metode lain juga bisa digunakan.
 Digunakan untuk prediksi (termasuk perkiraan data deret
waktu), inferensi, pengujian hipotesis, dan pemodelan
hubungan kausal

Model Regresi Analysis and Log-Linear

1. Regresi Linier: Y = w X + b
 Dua koefisien regresi, w dan b, tentukan garis dan
diestimasi dengan menggunakan data yang ada
 Menggunakan kriteria kuadrat terkecil dengan nilai
Y1, Y2,…, X1, X2, …
2. Regresi berganda: Y = b0 + b1 X1 + b2 X2
 Banyak fungsi nonlinear dapat diubah menjadi di
atas
3. Model Log-linear :
 Perkiraan distribusi probabilitas multidimensi
diskrit
 Perkirakan probabilitas setiap titik (tuple) dalam
ruang multi-dimensionala untuk sekumpulan atribut
yang didiskritisasi, berdasarkan subkumpulan
kombinasi dimensi yang lebih kecil
 Berguna untuk pengurangan dimensi dan perataan
data

B. Metode Non-Parametrik
Dalam metode ini tidak perlu mengasumsikan model. Famili
utamanya yakni: histogram, clustering dan sampling.

Histogtam Analysis

Bagilah data ke dalam keranjang dan simpan rata-rata (jumlah)


untuk setiap keranjang. Aturan partisinya yakni: Equal-width
(sama jarak keranjang) dan Equal-frequency (kedalaman yang
sama).

Clustering

Data yang telah dipartisi akan diatur ke dalam cluster


berdasarkan kesamaan, dan menyimpan representasi cluster
(mis., Centroid dan diameter) saja. Dapat sangat efektif jika
data terkelompok tetapi tidak jika data “berantakan”. Dapat
memiliki hierarki hierarki dan disimpan dalam struktur pohon
indeks multi-dimensi. Ada banyak pilihan definisi
pengelompokan dan algoritma pengelompokan.

Sampling

 Pengambilan sampel: memperoleh sampel kecil untuk


mewakili seluruh rangkaian data N
 Biarkan algoritma penambangan berjalan dalam
kompleksitas yang berpotensi sub-linear dengan ukuran
data
 Prinsip utama: Pilih subset data yang representatif
 Simple random sampling mungkin memiliki
kinerja yang sangat buruk di hadapan
kemiringan
 Mengembangkan metode pengambilan sampel
adaptif, mis., Pengambilan sampel bertingkat
 Catatan: Pengambilan sampel mungkin tidak
mengurangi I / O basis data (halaman sekaligus)

Tipe-tipe Sampling

 Simple random sampling


 Ada probabilitas yang sama untuk memilih item
tertentu
 Sampling without replacement
 Setelah suatu objek dipilih, ia dikeluarkan dari
populasi
 Sampling with replacement
 Objek yang dipilih tidak dihapus dari populasi
 Stratified sampling
 Memartisi kumpulan data, dan menggambar
sampel dari setiap partisi (secara proporsional,
mis., Kira-kira persentase yang sama dari data)
 Digunakan bersamaan dengan data yang miring

Sumber: IlmuKomputer.Com
Sumber: IlmuKomputer.Com

Stratified Sampling

 Stratifikasi adalah proses membagi anggota populasi


menjadi subkelompok yang homogen sebelum
pengambilan sampel
 Misalkan dalam suatu perusahaan ada staf berikut:
 Laki-laki, penuh waktu: 90
 Laki-laki, paruh waktu: 18
 Wanita, penuh waktu: 9
 Wanita, paruh waktu: 63
 Total: 180
 Anda diminta untuk mengambil sampel sebanyak 40
staf, bertingkat sesuai dengan kategori di atas
 Cara mudah untuk menghitung persentase adalah
dengan mengalikan setiap ukuran kelompok dengan
ukuran sampel dan membaginya dengan total populasi:
 Pria, penuh waktu = 90 × (40 ÷ 180) = 20
 Laki-laki, paruh waktu = 18 × (40 ÷ 180) = 4
 Wanita, penuh waktu = 9 × (40 ÷ 180) = 2
 Wanita, paruh waktu = 63 × (40 ÷ 180) = 14

Anda mungkin juga menyukai