Pertemuan3 Ketiga Proses Data Mining

Dokumen ini membahas pemrosesan awal data dalam data mining, termasuk teknik seperti agregasi, sampling, binerisasi, diskretisasi, pengurangan dimensi, pemilihan fitur, dan transformasi fitur. Selain itu, dijelaskan juga metode pembelajaran dalam algoritma data mining, yaitu supervised, unsupervised, dan association learning. Setiap teknik dan metode bertujuan untuk meningkatkan efisiensi dan efektivitas analisis data.

Diunggah oleh

Bayu Darmawan

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

5 tayangan27 halaman

Pertemuan3 Ketiga Proses Data Mining

Diunggah oleh

Bayu Darmawan

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online di Scribd

2.

Pemrosesan Awal Data

• Agregasi
• Sampling
• Binerisasi dan Diskretisasi
• Pengurangan Dimensi
• Pemilihan Fitur
• Transformasi Variabel
Agregasi

• Penggabungan obyek ke sebuah obyek

dalam
• tunggal
Sum,average,min,max
Cabang IDTX Tanggal Total Cabang Tanggal Total
Gresik 30-01-2013 550000
Gresik 2012102 30-01-2013 250,000 Surabaya 30-01-2013 950000
Surabaya 31-01-2013 350000
Gresik 2012103 30-01-2013 300,000

Surabaya 2012201 30-01-2013 500,000

Surabaya 2012202 30-01-2013 450,000

Surabaya 2012203 31-01-2013 350,000

Sampling
• Pemilihan bagian obyek data yang akan dianalisis.
• Sample harus representatif (mewakili seluruh
data)
• Sample disebut resprentatif jika mempunyai sifat
yang sama dengan seluruh data biasa diukur
dengan rata-rata/mean
• Penggunaan sample yang baik tidak menjamin
bahwa hasil pemrosesan datamining pada
sample
sama bagusnya dengan pemrosesan pada
seluruh
Sampling
• Pendekatan sampling
– Simple random sampling
• Tanpa pengembalian
• Dengan pengembalian
Binerisasi
• Transformasi data dari tipe continue,diskret
• menjadi tipe biner. Algoritma asosiasi
• membutuhkan data dengan atribut bertipe
biner Jumlah atribut yg dibutuhkan utk
• binerisasi adalah N=log2(M), M= jml
• kelas kategori
Contoh: {rusak,jelek,sedang,bagus,sempurna}, M=5
N=log2(5) = 3,Nilai
Class sehingga
integertdpx13 atributx2x1,x2,x3 X3
Rusak 0 0 0 0
Jelek 1 0 0 1
Sedang 2 0 1 0
Bagus 3 0 1 1
Sempurna 4 1 0 0
Diskretisasi
Transformasi data dari tipe kontinyu ke diskrit.

ID Pajak ID Pajak
1 125 1 Sedang
2 100 2 Rendah
3 70 Kategori range 3 Rendah
4 120 Rendah 60 – 113 4 Sedang
5 95 5 Rendah
Sedang 114 – 167
6 60 6 Rendah
Tinggi 168 - 220
7 220 7 Tinggi
8 85 8 Rendah
9 75 9 Rendah
10 90 10 Rendah
Pengurangan Dimensi

• Mengurangi jumlah waktu dan memory yg

dibutuhkan
• Membuat data lebih mudah divisualisasi
• Membantu mengurangi fitur-fitur yang tdk
relevan/mengurangi gangguan/derau

• Teknik yang digunakan

– Principal Component Analysis (PCA)
– Singular Value Decomposition(SVD)
Pemilihan Fitur (Feature Subset
Selection)
• Proses pencarian terhadap semua
kemungkinan subset fitur.
– Menghilangkan fitur yang redundan
misl: harga_jual,pajak,discount
– Menghilangkan fitur-fitur yang tidak mengandung
informasi yang berguna untuk pekerjaan
datamining
Misl: tinggi badan mhs pada pekerjaan prediksi
kelulusan mhs , tidak relevan
Pemilihan Fitur

• Teknik yang digunakan:

– Brute-force
Pada proses data mining dilakukan dengan mencoba semua fitur.

– Filtering:
Memilih fitur sebelum proses datamining dilakukan

– wrapper
menggunakan algoritma datamining utk memilih sub-set fitur yang paling
baik.
Pemilihan Fitur

Proses:
• Melakukan pengukuran untuk evaluasi suatu
subset fitur.
• Menggunakan metode pencarian yang
mengontrol pemilihan subset-fitur baru
• Menggunakan kriteria untuk melakukan
penghentian proses.
• Menggunakan validasi
Pembuatan Fitur

• Proses membuat fitur baru yang dapat

menangkap informasi penting dalam sebuah
himpunan fitur yang lebih efisien daripada fitur-
fitur yang ada.
• Metode Pembuatan Fitur:
– Ekstraksi Fitur
– Pemetaan menggunakan transformasi
– fourier/wavelet
Konstruksi fitur dengan menggabungkan fitur-fitur
yang ada.
Transformasi Fitur
• Merupakan proses yang memetakan keseluruhan
himpunan nilai dari fitur-fitur yang diberikan ke
suatu subset nilai pengganti sedemikian sehingga
nilai yang lama dapat dikenali dengan satu dari
• nilai-nilai yang baru tersebut.
Metode dalam transformasi fitur:
– Standarisasi (median , standar deviasi).
– Normalization, dimana data sebuah atribut
diskalakan
ke dalam rentang (kecil) yang ditentukanŠ(Metode:
Min-max Normalization, z-score
Normalization,Normalization by Decimal Scaling).
3. Metode Learning Pada Algoritma
DM

Supervised Unsupervised
Learning Learning

Association
Learning
Metode Learning Pada Algoritma DM
1. Supervised Learning (Pembelajaran dengan Guru):
– Sebagian besar algoritma data mining (estimation,
prediction/forecasting, classification) adalah supervised
learning
– Variabel yang menjadi target/label/class ditentukan
– Algoritma melakukan proses belajar berdasarkan nilai
dari
variabel target yang terasosiasi dengan nilai dari variable
prediktor
Metode Learning Pada Algoritma DM
2. Unsupervised Learning (Pembelajaran tanpa Guru):
– Algoritma data mining mencari pola dari semua variable
(atribut)
– Variable (atribut) yang menjadi target/label/class tidak
ditentukan (tidak ada)
– Algoritma clustering adalah algoritma unsupervised
learning
Metode Learning Pada Algoritma DM
3. Association Learning (Pembelajaran untuk Asosiasi
– Atribut)
Proses learning pada algoritma asosiasi (association rule)
bertujuan untuk mencari atribut yang muncul bersamaan
dalam satu transaksi
– Algoritma asosiasi biasanya untuk analisa transaksi
belanja, dengan konsep utama adalah mencari
“produk/item mana yang dibeli bersamaan”
– Pada pusat perbelanjaan banyak produk yang dijual,
sehingga pencarian seluruh asosiasi produk memakan cost
tinggi, karena sifatnya yang kombinatorial
– Algoritma association rule seperti a priori algorithm, dapat
memecahkan masalah ini dengan efisien

Anda mungkin juga menyukai

Materi 3 Pre Processing Data
Belum ada peringkat
Materi 3 Pre Processing Data
20 halaman
Proses Data Mining dan Preprocessing
Belum ada peringkat
Proses Data Mining dan Preprocessing
37 halaman
Modul Praktikum Pemrosesan Data Awal
Belum ada peringkat
Modul Praktikum Pemrosesan Data Awal
6 halaman
Teknik Reduksi Dimensi Data
100% (1)
Teknik Reduksi Dimensi Data
39 halaman
Panduan Lengkap Set Data dan Atribut
Belum ada peringkat
Panduan Lengkap Set Data dan Atribut
32 halaman
Ufa Aurora Guciano - TUGAS 1
Belum ada peringkat
Ufa Aurora Guciano - TUGAS 1
10 halaman
Data Mining
Belum ada peringkat
Data Mining
21 halaman
Konsep dan Metode Data Mining
Belum ada peringkat
Konsep dan Metode Data Mining
12 halaman
Pengertian dan Proses Dataset
Belum ada peringkat
Pengertian dan Proses Dataset
7 halaman
Data Dan Eksplorasi Data: Pritasari Palupiningsih, S.Kom, M.Kom
Belum ada peringkat
Data Dan Eksplorasi Data: Pritasari Palupiningsih, S.Kom, M.Kom
32 halaman
Landasan Teori Data Mining
Belum ada peringkat
Landasan Teori Data Mining
13 halaman
Teori dan Metodologi Data Mining
Belum ada peringkat
Teori dan Metodologi Data Mining
16 halaman
Pengklasifikasian Data Dengan Algoritma C4.5: 4.1 Pendahuluan
Belum ada peringkat
Pengklasifikasian Data Dengan Algoritma C4.5: 4.1 Pendahuluan
33 halaman
Resum
Belum ada peringkat
Resum
9 halaman
Pemrosesan Data dalam Data Mining
Belum ada peringkat
Pemrosesan Data dalam Data Mining
12 halaman
Proses dan Metode Data Mining
Belum ada peringkat
Proses dan Metode Data Mining
18 halaman
Pengantar Data Mining dan Metode Utamanya
Belum ada peringkat
Pengantar Data Mining dan Metode Utamanya
13 halaman
Kinerja Naive Bayes vs C4.5 Klasifikasi Harga Pangan
Belum ada peringkat
Kinerja Naive Bayes vs C4.5 Klasifikasi Harga Pangan
5 halaman
Dio Prasetyo Data Mining
Belum ada peringkat
Dio Prasetyo Data Mining
3 halaman
Konsep dan Metode Data Mining
Belum ada peringkat
Konsep dan Metode Data Mining
5 halaman
Optimasi Data Preprocessing
Belum ada peringkat
Optimasi Data Preprocessing
27 halaman
Metode Data Mining dan Klasterisasi
Belum ada peringkat
Metode Data Mining dan Klasterisasi
13 halaman
Bab Ii
Belum ada peringkat
Bab Ii
22 halaman
Bab - 3 PKL
Belum ada peringkat
Bab - 3 PKL
10 halaman
Bab 2
Belum ada peringkat
Bab 2
23 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Definisi dan Model Data Mining Bisnis
Belum ada peringkat
Definisi dan Model Data Mining Bisnis
4 halaman
Proses dan Teknik Data Mining
Belum ada peringkat
Proses dan Teknik Data Mining
17 halaman
Tugas Prak. Data Mining Wahyu Wardhana (2009020122)
Belum ada peringkat
Tugas Prak. Data Mining Wahyu Wardhana (2009020122)
5 halaman
Tugas Kelompok Data Mining
Belum ada peringkat
Tugas Kelompok Data Mining
17 halaman
Pemahaman Set Data dalam Data Mining
Belum ada peringkat
Pemahaman Set Data dalam Data Mining
15 halaman
Bab 2
Belum ada peringkat
Bab 2
18 halaman
Proses dan Algoritma Data Mining
Belum ada peringkat
Proses dan Algoritma Data Mining
5 halaman
Teknik Pra-Pemrosesan Data Mining
Belum ada peringkat
Teknik Pra-Pemrosesan Data Mining
9 halaman
Prediksi Jurusan Kuliah dengan K-Means
Belum ada peringkat
Prediksi Jurusan Kuliah dengan K-Means
17 halaman
Data Mining
Belum ada peringkat
Data Mining
21 halaman
Implementasi Data Mining dan K-Means
Belum ada peringkat
Implementasi Data Mining dan K-Means
40 halaman
Conny Ariestyani TB1 Pengantar Data Ming 41519310013
100% (1)
Conny Ariestyani TB1 Pengantar Data Ming 41519310013
8 halaman
Laporan Metode Klasifikasi
Belum ada peringkat
Laporan Metode Klasifikasi
12 halaman
Panduan KDD dan Data Mining
Belum ada peringkat
Panduan KDD dan Data Mining
4 halaman
Pengenalan Pola dan PCA dalam Data Analysis
Belum ada peringkat
Pengenalan Pola dan PCA dalam Data Analysis
27 halaman
Penerapan dan Teknik Data Mining
Belum ada peringkat
Penerapan dan Teknik Data Mining
9 halaman
Proses Data Preprocessing dalam Data Mining
Belum ada peringkat
Proses Data Preprocessing dalam Data Mining
40 halaman
Panduan Lengkap Data Mining dan KDD
Belum ada peringkat
Panduan Lengkap Data Mining dan KDD
6 halaman
Proses dan Teknik Data Mining
Belum ada peringkat
Proses dan Teknik Data Mining
20 halaman
K-Means Clustering untuk Data SD Pekalongan
Belum ada peringkat
K-Means Clustering untuk Data SD Pekalongan
10 halaman
Konsep dan Metode Data Mining
Belum ada peringkat
Konsep dan Metode Data Mining
3 halaman
Proses dan Metode Data Mining
Belum ada peringkat
Proses dan Metode Data Mining
39 halaman
Data Mining: Menggali Informasi Berharga
Belum ada peringkat
Data Mining: Menggali Informasi Berharga
6 halaman
Prediksi Kelayakan Mobil dengan Decision Tree
Belum ada peringkat
Prediksi Kelayakan Mobil dengan Decision Tree
6 halaman
Reduksi Data
Belum ada peringkat
Reduksi Data
25 halaman
Pengantar Data Mining dan Prosesnya
Belum ada peringkat
Pengantar Data Mining dan Prosesnya
27 halaman
Pertemuan 3
Belum ada peringkat
Pertemuan 3
7 halaman
Belajar ADP Orange
Belum ada peringkat
Belajar ADP Orange
12 halaman
Panduan Preprocessing Data Mining
Belum ada peringkat
Panduan Preprocessing Data Mining
6 halaman
Konsep dan Metode Data Mining
Belum ada peringkat
Konsep dan Metode Data Mining
18 halaman
Panduan Lengkap Data Mining dan Eksplorasi
Belum ada peringkat
Panduan Lengkap Data Mining dan Eksplorasi
60 halaman
Pengenalan Operasional Riset
Belum ada peringkat
Pengenalan Operasional Riset
3 halaman
Pertemuan2 Kedua Data Mining Data
Belum ada peringkat
Pertemuan2 Kedua Data Mining Data
36 halaman
Pertemuan1 Pertama Data Mining Pengertian
Belum ada peringkat
Pertemuan1 Pertama Data Mining Pengertian
47 halaman
Pengantar Pemrograman Mobile
Belum ada peringkat
Pengantar Pemrograman Mobile
17 halaman
2) Endang-Diktat Kalkulus 1
Belum ada peringkat
2) Endang-Diktat Kalkulus 1
66 halaman