Data Preprocessing

BUSSINESS
INTELLIGENCE
DATA
PREPROCESSING
Dwi Retno 825170007
Mathilda Fransisca 825170045
Sherlin Alex Sandra 825170053
Jessica Putri Djapar 825179101
APA ITU DATA
PREPROCESSING
?
Data Pra-Processing
What is data pra-processing?
Data Pra-processing adalah teknik data mining yang melibatkan
transformasi data mentah menjadi format yang dapat dimengerti.
Data dunia nyata seringkali tidak lengkap, tidak konsisten, atau
kurang dalam perilaku atau tren tertentu, dan cenderung
mengandung banyak kesalahan. Data Pra-processing mengubah data
mentah menjadi data yang akan digunakan .
Why Data Pra-Processing? How?
Untuk memproses data kotor, - Pembersihan data (data yang
yaitu: kotor)
- Ketidaklengkapan data - Integrasi data (data heterogen)
- Noisy data - Transformasi data (data detail)
- Data yang tidak konsisten dengan normalisasi dan
agregasi
- Reduksi data (jumlah data yang
besar)
Step Data Preprocessing
Data Cleaning Data Data Reduction
- Missing Data Transformation - Data cube
1. Ignore the tuple. - Normalization aggregation
2. Fill the missing - Attribute - Attribute subset
values selection selection
(manually, by - Discretization - Numerosity
mean or by most - Concept reduction
probable value. hierarchy - Dimensionality
- Noisy Data generation reduction
1. Binning Method
2. Regression
3. Clustering
Data Cleaning
Data dapat memiliki banyak bagian yang tidak relevan dan hilang. Untuk
menangani bagian ini, pembersihan data dilakukan. Ini melibatkan
penanganan data yang hilang, data berisik, dll.
Missing Data:
Ketika data tidak ada. Cara penanganan:
- Ignore the tuples:
Pendekatan ini hanya cocok ketika dataset yang kami miliki cukup
besar dan beberapa nilai hilang dalam sebuah tuple.
- Fill the Missing values:
Ada berbagai cara untuk melakukan tugas ini. Anda dapat memilih
untuk mengisi nilai yang hilang secara manual, dengan rata-rata
atribut atau nilai yang paling mungkin.
Data Cleaning
Noisy Data:
Noisy data adalah data tidak berarti yang tidak dapat ditafsirkan oleh mesin. Data ini dapat
dihasilkan karena pengumpulan data yang salah, kesalahan entri data dll. Hal ini dapat ditangani
dengan cara berikut:
- Binning Method:
Metode ini dilakukan pada data yang sudah di sort. Seluruh data dibagi menjadi segmen-segmen
dengan ukuran yang sama dan kemudian berbagai metode dilakukan untuk menyelesaikan
tugas. Setiap segmen ditangani secara terpisah. Seseorang dapat mengganti semua data dalam
suatu segmen dengan nilai rata-rata atau batas dengan memberi batasan.
- Regression:
Data dapat dibuat halus dengan menggunakan fungsi regresi. Regresi yang digunakan mungkin
linier (memiliki satu variabel independen) atau berganda (memiliki beberapa variabel
independen).
- Clustering:
Pendekatan ini mengelompokkan data serupa dalam sebuah cluster
Data Transformation
Langkah ini diambil untuk mengubah data dalam bentuk yang sesuai yang cocok untuk proses
mining. Ini melibatkan cara-cara berikut:
- Normalization:
Hal ini dilakukan untuk menskala nilai data dalam rentang yang ditentukan (-1.0 hingga 1.0
atau 0.0 hingga 1.0)
- Attribute Selection:
Dalam strategi ini, atribut baru dibangun dari set atribut yang diberikan untuk membantu
proses mining.
- Discretization:
Dilakukan untuk mengganti nilai mentah atribut numerik dengan level interval atau level
konseptual.
- Concept Hierarchy Generation:
Di sini atribut dikonversi dari level ke level yang lebih tinggi dalam hierarki. Sebagai Contoh-
Atribut "kota" dapat dikonversi menjadi "negara".
Data Reduction
Karena data mining adalah teknik yang digunakan untuk menangani
sejumlah besar data. Saat bekerja dengan volume data yang besar,
analisis menjadi lebih sulit dalam kasus-kasus seperti itu. Untuk
menyingkirkan ini, kami menggunakan teknik reduksi data. Ini
bertujuan untuk meningkatkan efisiensi penyimpanan dan
mengurangi penyimpanan data dan biaya analisis.
Data Reduction
- Agregasi Data Cube:
Operasi agregasi diterapkan pada data untuk konstruksi kubus data.
- Attribute Subset Selection:
Atribut yang sangat relevan harus digunakan, sisanya semua dapat dibuang. Untuk melakukan
pemilihan atribut, seseorang dapat menggunakan tingkat signifikansi dan nilai p atribut. Atribut
yang memiliki nilai p lebih besar dari tingkat signifikansi dapat dibuang.
- Numerosity Reduction:
Memungkinkan untuk menyimpan model data daripada seluruh data, misalnya seperti Model
Regresi.
- Dimensionality Reduction:
Mengurangi ukuran data dengan mekanisme pengkodean. Ini bisa lossy atau lossless. Jika
setelah rekonstruksi dari data terkompresi, data asli dapat diambil, pengurangan seperti itu
disebut pengurangan tanpa kehilangan (lossless), selain itu disebut pengurangan hilang (lossy).
Dua metode pengurangan dimensi yang efektif adalah: Transformasi wavelet dan PCA (Principal
Component Analysis).
THANKS!

Data Preprocessing

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Preprocessing

Diunggah oleh

Hak Cipta:

Format Tersedia

BUSSINESS

Anda mungkin juga menyukai