0% menganggap dokumen ini bermanfaat (0 suara)

216 tayangan19 halaman

Tahapan Data Preprocessing dalam Data Mining

Dokumen tersebut membahas konsep dan teknik-teknik dasar preprocessing data yang dilakukan sebelum proses data mining untuk meningkatkan kualitas data, seperti cleaning, integrasi, reduksi, dan transformasi data."

Diunggah oleh

laniadarma23

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPSX, PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

216 tayangan19 halaman

Tahapan Data Preprocessing dalam Data Mining

Diunggah oleh

laniadarma23

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PPSX, PDF, TXT atau baca online di Scribd

DATA PREPROCESSING

KONSEP PEMBELAJARAN DATA MINING

Pertemuan 8

susandian@binadarma.ac.id
BAHAN KAJIAN

KONSEP DATA PREPROCESSING

TAHAP PREPROCESSING

TEKNIK PREPROCESSING
APA ITU PEPROCESSING
DALAM DATA MINING?

Data preprocessing ini digunakan karena dalam data realtime database

seringkali tidak lengkap dan tidak konsisten sehingga mengakibatkan hasil
data mining tidak tepat dan kurang akurat. Oleh karena itu, untuk
meningkatkan kualitas data yang akan dianalisis, perlu dilakukan langkah-
langkah preprocessing data

Preprocessing data merupakan teknik awal data mining untuk mengubah

data mentah atau biasa dikenal dengan raw data yang dikumpulkan dari
berbagai sumber menjadi informasi yang lebih bersih dan bisa digunakan
untuk pengolahan selanjutnya
MENGAPA PERLU DATA PREPROCESSING

Tidak komplit
• Berisi data yang hilang/kosong
• Kekurangan atribut yang sesuai Data mentah yang ada sebagian besar kotor
• Hanya berisi data aggregate

Data yang tidak berkualitas, akan

menghasilkan kualitas mining yang tidak
baik pula.

Tidak konsisten Banyak “noise”

• Berisi nilai yang • Berisi data yang
berbeda dalam suatu Outlier
kode atau nama • Berisi error
KRITERIA KUALITAS DATA

Accuracy and Precision Legitimacy and Validity

Menurut Mark Mosley (2008), dalam bukunya
Reliability dan consistency “Dictionary of Data Management”, pengertian
Kualitas data adalah level data yang menyatakan
data tersebut akurat (accurate), lengkap
Timeliness and Relevance
(complete), timely (update),
konsisten(consistent) sesuai dengan semua
Completeness and kebutuhan peraturan bisnis dan relevan.

Comprehensiveness

Availability and Accessibility

Granularity and Uniqueness.

TEKNIK DATA PREPROCESSING

Data Cleaning Data integration Data Reduction Data Transformation

Memperkecil noise Analisis korelasi Data Cube Aggregation, Smoothing

Membetulkan data yang Atribut redudan Attribute Subset Selection, Attribute (feature)
tidak konsisten duplikasi Numerosity Reduction, construction
Mengisi missing value Dimensionality Reduction. Aggregation
Mengidentifikasi atau Normalization
membuang outlier Discretization
DATA CLEANING – MISSING VALUES

Mengabaikan record

Mengisikan secara manual

Menggunakan mean/median dari atribut yang
mengandung missing value
Menggunakan nilai global

Menggunakan nilai termungkin

DATA CLEANING: MISSING VALUES

 Contoh untuk missing value IPK diisi

dengan rata- rata IPK atau diisi dengan
Angkatan IPK Pekerjaan Jenis
nilai IPK yang paling mungkin untuk Kelamin
angkatan 2012 dan Perempuan 2010 3.50 IT Konsultan L
serta menjadi ibu rumah tangga.
2011 2.75 ? P
 Contoh untuk missing value Pekerjaan,
2012 ? Wirausaha P
dapat diisi dengan pekerjaan yang paling
banyak muncul.
DATA CLEANING: NOISY DATA
Noise data adalah suatu kesalahan acak atau variasi
dalam variabel terukur.

Binning
• Smoothing by bin means
• Smoothing by bin medians
• Smoothing by bin boundaries

Regression

Outlier Analysis
METODE BINNING

Metode ini akan melakukan pengelompokan

terhadap kumpulan data.

Metode binning merupakan salah satu pendekatan

dicretization.

Urutan proses:
• Urutkan data secara ascending
• Lakukan partisi ke dalam bins
• Kemudian dapat di-smoothing: smooth by means, smooth by
median, smooth by boundaries, dsb.
PARTISI DALAM METODE
BINNING

Algoritma membagi data ke dalam k interval

Partisi ukuran yang sama. Lebar interval adalah w =
Equal- (max-min)/k
Batasan interval adalah min+w, min+2w, ...,
Width min+(k-1)w

Partisi Membagi data ke dalam k kelompok

Equal- dimana tiap
depth kelompok berisi jumlah yang sama
INTEGRASI DATA
Integrasi data:

• Mengkombinasikan data dari banyak sumber kedalam suatu simpanan

terpadu

Integrasi skema

• Mengintegrasikan metadata dari sumber-sumber berbeda

• Problem identifikasi entitas: mengenali entitas dunia nyata dari banyak
sumber-sumber data, misal A.cust-id  B.cust-#

Pendeteksian dan pemecahan konflik nilai data

• Untuk entitas dunia nyata yang sama, nilai-nilai atribut dari sumber-
sumber berbeda adalah berbeda
• Alasan yang mungkin: representasi berbeda, skala berbeda, misal berat
bisa dalam pound atau kilogram
Integrasi Data

 Problem: integrasi skema heterogen

 Nama-nama tribut berbeda
cid name byear Customer-ID state
1 Jones 1960 1 NY
2 Smith 1974 2 CA
3 Smith 1950 3 NY

Atribut turunan: Annual salary versus monthly salary

cid monthlySalary cid Salary
1 5000 6 50,000
2 2400 7 100,000
8 40,000
3 3000
Integrasi Data

 Problem: Data tidak konsisten karena redundansi

 Customer dengan customer-id 150 punya 3 anak dalam relation1 dan 4
anak dalam relation2

cid numChildren cid numChildren

1 3 1 4
 Komputasi annual salary dari monthly salary dalam relation1 tak cocok
dengan atribut “annual-salary” dalam relation2
PENANGANAN REDUDANSI
DALAM INTEGRASI DATA

Data redudan sering terjadi saat integrasi dari banyak database

• Atribut yang sama bisa memiliki nama berbeda dalam database berbeda
• Atribut yang satu bisa merupakan suatu atribut “turunan” dalam tabel lainnya,
misal, annual revenue

Data redundan mungkin bisa dideteksi dengan analisis korelasi

Integrasi data hati-hati dari banyak sumber bisa membantu

mengurangi/mencegah redundansi dan ketak-konsistenan dan
memperbaiki kecepatan dan kualitas mining
TRANSFORMASI DATA

Normalisasi:
Penghalusan:
Agregasi: ringkasan, Generalisasi: konsep diskalakan agar jatuh Konstruksi
menghilangkan noise
konstruksi kubus data hierarchy climbing didalam suatu range atribut/fitur
dari data
kecil yang tertentu

Atribut-atribut baru
Normalisasi dengan
Normalisasi min-max Normalisasi z-score dibangun dari atribut-
penskalaan desimal
atribut yang ada
STRATEGI REDUKSI DATA

Suatu data warehouse bisa menyimpan terabytes data

• Analisis/menambang data kompleks bisa membutuhkan waktu sangat lama untuk

dijalankan pada data set komplit (tak efisien)

Reduksi data

• Mengurangi ukuran data set tetapi menghasilkan hasil analitis yang sama (hampir
sama)

Strategi reduksi data

• Agregasi kubus data

• Reduksi dimensionalitas—menghilangkan atribut tak penting
• Kompresi data
• Reduksi Numerosity reduction—mencocokkan data kedalam model
• Diskritisasi dan pembuatan konsep hierarki
TERIMA KASIH

Anda mungkin juga menyukai

Data Preprocessing
Belum ada peringkat
Data Preprocessing
3 halaman
Ahmad Gazali - Perhitungan Backpropagation DG Fungsi XOR
Belum ada peringkat
Ahmad Gazali - Perhitungan Backpropagation DG Fungsi XOR
7 halaman
Program MATLAB Neuron Hebb untuk AND
Belum ada peringkat
Program MATLAB Neuron Hebb untuk AND
9 halaman
Laporan Penelitian Algoritma K-Means
100% (1)
Laporan Penelitian Algoritma K-Means
20 halaman
Latihan Normalisasi Data
Belum ada peringkat
Latihan Normalisasi Data
32 halaman
Contoh Permasalahan Dalam Algoritma Percabangan
100% (1)
Contoh Permasalahan Dalam Algoritma Percabangan
3 halaman
Soal Kelompok 7 Nim 21-25
Belum ada peringkat
Soal Kelompok 7 Nim 21-25
14 halaman
Menghitung Rute Terpendek Menggunakan Algoritma A Dengan Fungsi Euclidean Distance
Belum ada peringkat
Menghitung Rute Terpendek Menggunakan Algoritma A Dengan Fungsi Euclidean Distance
10 halaman
Panduan Backpropagation Jaringan Syaraf
Belum ada peringkat
Panduan Backpropagation Jaringan Syaraf
15 halaman
Implementasi Teori Permainan Dalam Strategi Pemasaran Produk Laptop (Studi Kasus Mahasiswa S1 FMIPA USU)
Belum ada peringkat
Implementasi Teori Permainan Dalam Strategi Pemasaran Produk Laptop (Studi Kasus Mahasiswa S1 FMIPA USU)
70 halaman
Analisis Algoritma Rough Set untuk Klasifikasi Data
Belum ada peringkat
Analisis Algoritma Rough Set untuk Klasifikasi Data
13 halaman
Analisis FP-Growth dalam Data Mining
Belum ada peringkat
Analisis FP-Growth dalam Data Mining
14 halaman
Materi Statistika dan Peluang CS-38-02
Belum ada peringkat
Materi Statistika dan Peluang CS-38-02
11 halaman
Nilai Eigen Dan Vektor Eigen 3
Belum ada peringkat
Nilai Eigen Dan Vektor Eigen 3
7 halaman
Pertemuan 11 - Konversi PDA - CFG
Belum ada peringkat
Pertemuan 11 - Konversi PDA - CFG
20 halaman
Maxnet dan Jaringan Hamming dalam Pengenalan Pola
Belum ada peringkat
Maxnet dan Jaringan Hamming dalam Pengenalan Pola
6 halaman
Muhammad Ridho M - 220312600436 - Tugas Riset Operasi
Belum ada peringkat
Muhammad Ridho M - 220312600436 - Tugas Riset Operasi
8 halaman
Penyimpanan Sparse Matrix dalam Memori
Belum ada peringkat
Penyimpanan Sparse Matrix dalam Memori
3 halaman
Software Untuk Statistika
Belum ada peringkat
Software Untuk Statistika
53 halaman
Menghitung Nilai Ratarata Dengan Matlab
Belum ada peringkat
Menghitung Nilai Ratarata Dengan Matlab
2 halaman
Jawaban Tugas No 1
Belum ada peringkat
Jawaban Tugas No 1
3 halaman
"Pengantar Matriks: Determinan dan Invers"
Belum ada peringkat
"Pengantar Matriks: Determinan dan Invers"
19 halaman
Program Rental Mobil C++
100% (3)
Program Rental Mobil C++
14 halaman
Distribusi Weibull-1
Belum ada peringkat
Distribusi Weibull-1
16 halaman
Agenda Bimbingan PI
Belum ada peringkat
Agenda Bimbingan PI
6 halaman
Memahami Rank Matriks dan Basis
Belum ada peringkat
Memahami Rank Matriks dan Basis
11 halaman
Slide 12 Klasterisasi Hierarchical Clustering
Belum ada peringkat
Slide 12 Klasterisasi Hierarchical Clustering
27 halaman
Teorema Bayes untuk Pemula
Belum ada peringkat
Teorema Bayes untuk Pemula
18 halaman
STATISTIKA DistribusiDiskret
Belum ada peringkat
STATISTIKA DistribusiDiskret
37 halaman
Distribusi Random Diskrit dalam Statistika
0% (1)
Distribusi Random Diskrit dalam Statistika
26 halaman
Pengertian dan Format Citra Digital
100% (1)
Pengertian dan Format Citra Digital
2 halaman
Algoritma Non Linier Tak Dibatasi
Belum ada peringkat
Algoritma Non Linier Tak Dibatasi
19 halaman
Metode Simpleks dan Big-M dalam Optimasi
Belum ada peringkat
Metode Simpleks dan Big-M dalam Optimasi
50 halaman
Tugas Kelompok Data Mining
Belum ada peringkat
Tugas Kelompok Data Mining
17 halaman
Pengenalan Algoritma K-Nearest Neighbor
Belum ada peringkat
Pengenalan Algoritma K-Nearest Neighbor
15 halaman
Pertemuan 12 Teknik Kompilasi
Belum ada peringkat
Pertemuan 12 Teknik Kompilasi
9 halaman
Laporan Praktikum Data Mining 6
Belum ada peringkat
Laporan Praktikum Data Mining 6
25 halaman
Analisis Tabel Kontingensi SPSS
Belum ada peringkat
Analisis Tabel Kontingensi SPSS
11 halaman
Dokumen
Belum ada peringkat
Dokumen
2 halaman
Panduan Statistika dan R untuk Pemula
Belum ada peringkat
Panduan Statistika dan R untuk Pemula
69 halaman
Forward, Backward, Stepwise - Regression Analysis - ITS
Belum ada peringkat
Forward, Backward, Stepwise - Regression Analysis - ITS
61 halaman
Relasi dan Fungsi dalam Matematika
Belum ada peringkat
Relasi dan Fungsi dalam Matematika
37 halaman
Rangkuman Aljabar Linier: Vektor 2D & 3D
Belum ada peringkat
Rangkuman Aljabar Linier: Vektor 2D & 3D
40 halaman
Aljabar Linier: Matriks dan Operasinya
Belum ada peringkat
Aljabar Linier: Matriks dan Operasinya
47 halaman
Pertemuan 14 Shearing
Belum ada peringkat
Pertemuan 14 Shearing
13 halaman
Makalah Implementasi Pemrograman R Pada Metode Statistik Regresi
Belum ada peringkat
Makalah Implementasi Pemrograman R Pada Metode Statistik Regresi
64 halaman
Lattice Dari Subruang
Belum ada peringkat
Lattice Dari Subruang
2 halaman
(Bahasa) Pertemuan 14 - Studi Kasus Analisis Klaster Dengan Algoritma K-Means Clustering Dan Implementasi Python
Belum ada peringkat
(Bahasa) Pertemuan 14 - Studi Kasus Analisis Klaster Dengan Algoritma K-Means Clustering Dan Implementasi Python
19 halaman
Model Matematika Sirs Pada Rubella
Belum ada peringkat
Model Matematika Sirs Pada Rubella
12 halaman
Uji Kolmogorov-Smirnov Dua Sampel
Belum ada peringkat
Uji Kolmogorov-Smirnov Dua Sampel
5 halaman
Panduan Lengkap Pra-Pemrosesan Data
Belum ada peringkat
Panduan Lengkap Pra-Pemrosesan Data
24 halaman
Handout TIF311 DM 3
Belum ada peringkat
Handout TIF311 DM 3
36 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
73 halaman
Data Preprocessing
Belum ada peringkat
Data Preprocessing
23 halaman
Data Preprocessing1
Belum ada peringkat
Data Preprocessing1
25 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
Pentingnya Preprocessing Data
Belum ada peringkat
Pentingnya Preprocessing Data
15 halaman
Teknik Preprocessing Data Efektif
Belum ada peringkat
Teknik Preprocessing Data Efektif
25 halaman
Data Mining
Belum ada peringkat
Data Mining
39 halaman