Anda di halaman 1dari 2

DATA MINING P1

- Data mining/knowledge data discovery


- Pre processing data :
Data inegrasi, normalisasi/transformasi, feature selection, dimension reduction
- Data mining :
Pattern discovery (cek dl, lihat pola data, stat descriptive, diagram dll)
Analisis sesuai kebutuhan (klasifikasi/clustering)
- Post processing :
Visualisasi, interpretasi, evaluasi
Evaluasi untuk mrlihat performance dr metode yang sudah dilakukan di data mining
Memperoleh knowledge yang baru
PRE-PROCESSING DATA
- Dilakukan Ketika data masih mentah (banyak kekurangan)
- Data cleaning
1. Kita bersihkan dari raw data jadi data yang siap dianalisis
2. Karena data biasanya ada human error, computer error, missing value/data, tidak
konsisten, noise data, outlier (missing value : missal dalam data set ada baris atau
kolom yang tidak terisi atau kosong atau nol atau strip)
3. Pertama cek missing value : cara 1 (biarkan, tidak usah diapa-apakan) atau imputasi
menggunakan mean atau median atau modus atau menggunakan rumus bayes
4. Rata-rata -> data usia, berat badan
5. Modus -> data kategori (1 atau 0)
6. Outlier : apakah akan dibuang atau tidak, harus berdasar.
- Data Integrasi
1. Apabila mengambil dari banyak sumber
- Data Reduction (pengurangan data)
1. Dimensi yang dipangkas -> variabelnya atau featurenya di pangkas/dikurangi/combine
bisa menggunakan metode Principle Method Analysis (PCA)
2. Misal ada 10 feature mengenai pengaruh kemiskinan, dr 10 feature dialkukan PCA, lalu
diperoleh 5 variabel (ada variable yang digabungkan)
3. Feaure selection : memilih variable yang penting saja (dibuat ranking dr yg paling
penting sampai tidak penting)
4. Jumlah : clustering, klasifikasi, dll
- Transformasi data
1. Biasanya data ditransformasi karena satuan data yang dipunyai berbeda (ditransformasi
agar memiliki satuan yang sama)
2. Cara transformasi data :
a) Normalisasi : menggunakan nilai min max normalisasi, nilai z score normalisasi (ada
rumusnya, merubah satuan data yg dipunya)
- Apabila sudah dilakukan pre-processing, dapat dibilang data sudah berkualitas dan dapat
dilakukan metode selanjutnya
TUGAS DATA MINING
- Mau melakukan apa dari data yang kalian punya
- Pre-processing data (langkah-langkah) -> missing value, syntax, interpretasi dll
- Membuat statistika descriptive (table, plot, diagram) + interpretasi
- Analisis software R
- Susun hasil analisis di Ms. Word – PDF + syntax
- Tugas individu
- Kumpulin ke koor : mba hana
- Pengumpulan minggu : 12.00 siang
- Coba cari syntax di google missing value dan outlier menggunakan R
- Data (14 variabel) : pilih data from txt or csv atau pake notepad

Anda mungkin juga menyukai