Anda di halaman 1dari 7

BELLA BRETTA PUTRI RUDY 09111003033

RINGKASAN Materi : Data Preprocessing

Data terdiri dari objek dan atribut. - Atribut adalah karakteristik sebuah objek objek. Contoh: field atau variable dari suatu tabel di database (misalnya; nama, alamat, no_hp) - Objek adalah sekumpulan isi dari atribut Contoh: record dari suatu tabel di database (misalnya; bella bretta,bukit baru 2, 081366548583)

Jenis-jenis nilai atribut: - Nominal adalah jenis atribut yang nilainya berupa simbol seperti nama benda atau sifat. Contoh: Proffesion, Id Number, Eye Color - Ordinal adalah jenis atribut yang memiliki nilai yang dapat berarti jika diurutkan. Contoh: Rangkings, Grade, Height in (tall, medium, short) - Binary adalah jenis atribut yang mempunyai hanya 2 varian nilai. Contoh: Medical test (positive or negative), jenis kelamin (lakilaki, perempuan) - Interval adalah jenis atribut yang menunjukkan ukuran perbandingan dari perbedaan diantara nilai. Contoh: Calender dates, body temperature - Ratio adalah jenis atribut yang sama seperti interval, namun juga sudah bisa diidentifikasi titik nol mutlaknya sehungga memungkinkan untuk dinyatakan dengan perbandingan antara kedua nilai. Contoh: Length, time, counts

Atribut Diskrit hanya memiliki satu set finit atau nilai yang tak terbatas, biasanya dinyatakan dengan variable integer. Contoh: Zip code, Counts Atribut Kontinyu memiliki bilangan yang real sebagai nilai atribut, biasanya dinyatakan dengan variable floating-point. Contoh: Suhu, tinggi, berat Jenis-jenis data sets: Record, graph, ordered

BELLA BRETTA PUTRI RUDY 09111003033


Tugas utama data preprocessing 1. Data cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten (redudansi data) dan noise 2. Data Integration : penggabungan data dari beberapa sumber 3. Data Transformation : normalisasi dan agregat 4. Data Reduction : memperoleh pengurangan dari sebuah volume namun masih menghasilkan analisis yang sama atau mirip Data Cleaning - Data yang berkualitas adalah dasar dari pengambilan keputusan yang berkualitas pula - Tugasnya adalah memeriksa data yang tidak konsisten dan noise, mengisi nilai-nilai yang hilang, mengatasi redudansi data yang disebabkan oleh integrasi data. - Data yang kotor disebabkan oleh data yang tidak lengkap, data yang berisi nilai-nilai salah, dan data yang tidak konsisten. - Data yang benar haruslah terpandang dari sisi ketepatan, kelengkapan, konsistensi aktualitas, kepercayaan, nilai tambah, interpretability, aksesibilitas. - Data bisa hilang, oleh karena itu data perlu disimpulkan - Cara mengatasi data yang hilang: 1. abaikan tupel,biasanya dilakukan ketika label kelas hilang (ketika melakukan klasifikasi)-tidak efektif ketika% dari nilai yang hilang per atribut bervariasi 2. Isi secara otomatis dengan: - konstanta global, misalnya "tidak diketahui", kelas baru?! atribut berarti - atribut berarti bagi semua sampel milik kelas yang sama: lebih cerdas - nilai yang paling mungkin: seperti rumus Bayesian atau pohon keputusan berbasis inferensi - Data yang noisy disebabkan oleh: instrumen pengumpulan data yang rusak, masalah entri data, masalah transmisi data, keterbatasan teknologi, inkonsistensi dalam konvensi penamaan. Yang perlu dilakukan pembersihan data: redudansi data, data yang tidak lengkap, data yang tidak konsisten. - Cara mengatasi data yang noisy: 1. Binning - first sort data and partition into (equal-frequency) bins

BELLA BRETTA PUTRI RUDY 09111003033


then one can smooth by bin means, smooth by bin median, smooth by bin boundaries, etc. Binning Methods - Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partition into equal-frequency (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 * Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34

2. Regression smooth by fitting the data into regression functions

3. Clustering detect and remove outliers

BELLA BRETTA PUTRI RUDY 09111003033

4. Combined computer and human inspection detect suspicious values and check by human (e.g., deal with possible outliers) Data Cleaning as a process 1. Data deteksi perbedaan : Gunakan metadata (misalnya, domain, range, ketergantungan, distribusi), Periksa bidang overloading, Periksa aturan keunikan aturan berturut-turut dan aturan nol, Gunakan alat komersial (Data scrubbing dan data auditing) 2. Migrasi dan integrasi data : Alat migrasi data memungkinkan transformasi yang akan ditentukan dan ETL (Ekstraksi / Transformasi / Loading) tools memungkinkan pengguna untuk menentukan transformasi melalui antarmuka pengguna grafis 3. Integrasi dari 2 proses : Perancangan dan interaktif

Data Integration - Menggabungkan data dari berbagai sumber ke dalam sebuah penyimpanan yang koheren - Skema integrasi: mengintegrasikan data dari berbagai sumber - Mendeteksi dan menyelesaikan konflik nilai data - Cara mengatasi redudansi data dalam integrasi data:

BELLA BRETTA PUTRI RUDY 09111003033


1. Correlation Analysis (Numerical Data)

di mana n adalah jumlah tupel, dan merupakan sarana masing-masing p dan q, p dan q adalah standar deviasi masing-masing p dan q, dan (pq) adalah jumlah dari perkalian pq. Jika rp, q> 0, p dan q berkorelasi positif (nilai p yang meningkat karena q s). - Semakin tinggi, korelasi kuat. - rp, q = 0: independen; RPQ <0: berkorelasi negatif 2. Correlation Analysis (Categorical Data) - X2 Chi Square Test -

Semakin besar nilai 2, semakin besar kemungkinan variabel yang terkait Sel-sel yang berkontribusi paling ke nilai 2 adalah mereka yang jumlah sebenarnya sangat berbeda dari jumlah yang diharapkan Korelasi tidak berarti kausalitas

Data Transformation - Sebuah fungsi yang memetakan seluruh himpunan nilai-nilai atribut yang diberikan untuk satu set nilai baru pengganti mengatur setiap nilai lama dapat diidentifikasi dengan satu dari nilai-nilai baru. - Metode: 1. Smoothing : Hapus noise dari data 2. Agregasi : Summarization, konstruksi data cube - Menggabungkan dua atau lebih atribut (atau objek) menjadi sebuah atribut tunggal (atau objek) - Tujuan - Reduksi data: Mengurangi jumlah atribut atau benda Metode: Clustering and Sampling

BELLA BRETTA PUTRI RUDY 09111003033

Perubahan skala: Kota dikumpulkan ke daerah, negara, negara, dll - Data yang lebih stabil: Data agregat cenderung memiliki variabilitas yang lebih kecil 3. Generalisasi : Konsep hirarki climbing - Numeric Data Binning, Histogram, Clustering - Categorical Data Automatic Concept Hierarchy Generation - Beberapa hierarki dapat secara otomatis dihasilkan berdasarkan analisis dari jumlah nilai yang berbeda per atribut dalam kumpulan data - Atribut dengan nilai-nilai yang paling berbeda ditempatkan pada tingkat terendah dari hirarki - Pengecualian, misalnya, hari kerja, bulan, triwulan, tahun -

BELLA BRETTA PUTRI RUDY 09111003033


4. Normalisasi

5. Konstruksi Atribut/Fitur

Anda mungkin juga menyukai