Data Preprocessing Business Intelligence
Data Preprocessing Business Intelligence
Data terdiri dari objek dan atribut. - Atribut adalah karakteristik sebuah objek objek. Contoh: field atau variable dari suatu tabel di database (misalnya; nama, alamat, no_hp) - Objek adalah sekumpulan isi dari atribut Contoh: record dari suatu tabel di database (misalnya; bella bretta,bukit baru 2, 081366548583)
Jenis-jenis nilai atribut: - Nominal adalah jenis atribut yang nilainya berupa simbol seperti nama benda atau sifat. Contoh: Proffesion, Id Number, Eye Color - Ordinal adalah jenis atribut yang memiliki nilai yang dapat berarti jika diurutkan. Contoh: Rangkings, Grade, Height in (tall, medium, short) - Binary adalah jenis atribut yang mempunyai hanya 2 varian nilai. Contoh: Medical test (positive or negative), jenis kelamin (lakilaki, perempuan) - Interval adalah jenis atribut yang menunjukkan ukuran perbandingan dari perbedaan diantara nilai. Contoh: Calender dates, body temperature - Ratio adalah jenis atribut yang sama seperti interval, namun juga sudah bisa diidentifikasi titik nol mutlaknya sehungga memungkinkan untuk dinyatakan dengan perbandingan antara kedua nilai. Contoh: Length, time, counts
Atribut Diskrit hanya memiliki satu set finit atau nilai yang tak terbatas, biasanya dinyatakan dengan variable integer. Contoh: Zip code, Counts Atribut Kontinyu memiliki bilangan yang real sebagai nilai atribut, biasanya dinyatakan dengan variable floating-point. Contoh: Suhu, tinggi, berat Jenis-jenis data sets: Record, graph, ordered
4. Combined computer and human inspection detect suspicious values and check by human (e.g., deal with possible outliers) Data Cleaning as a process 1. Data deteksi perbedaan : Gunakan metadata (misalnya, domain, range, ketergantungan, distribusi), Periksa bidang overloading, Periksa aturan keunikan aturan berturut-turut dan aturan nol, Gunakan alat komersial (Data scrubbing dan data auditing) 2. Migrasi dan integrasi data : Alat migrasi data memungkinkan transformasi yang akan ditentukan dan ETL (Ekstraksi / Transformasi / Loading) tools memungkinkan pengguna untuk menentukan transformasi melalui antarmuka pengguna grafis 3. Integrasi dari 2 proses : Perancangan dan interaktif
Data Integration - Menggabungkan data dari berbagai sumber ke dalam sebuah penyimpanan yang koheren - Skema integrasi: mengintegrasikan data dari berbagai sumber - Mendeteksi dan menyelesaikan konflik nilai data - Cara mengatasi redudansi data dalam integrasi data:
di mana n adalah jumlah tupel, dan merupakan sarana masing-masing p dan q, p dan q adalah standar deviasi masing-masing p dan q, dan (pq) adalah jumlah dari perkalian pq. Jika rp, q> 0, p dan q berkorelasi positif (nilai p yang meningkat karena q s). - Semakin tinggi, korelasi kuat. - rp, q = 0: independen; RPQ <0: berkorelasi negatif 2. Correlation Analysis (Categorical Data) - X2 Chi Square Test -
Semakin besar nilai 2, semakin besar kemungkinan variabel yang terkait Sel-sel yang berkontribusi paling ke nilai 2 adalah mereka yang jumlah sebenarnya sangat berbeda dari jumlah yang diharapkan Korelasi tidak berarti kausalitas
Data Transformation - Sebuah fungsi yang memetakan seluruh himpunan nilai-nilai atribut yang diberikan untuk satu set nilai baru pengganti mengatur setiap nilai lama dapat diidentifikasi dengan satu dari nilai-nilai baru. - Metode: 1. Smoothing : Hapus noise dari data 2. Agregasi : Summarization, konstruksi data cube - Menggabungkan dua atau lebih atribut (atau objek) menjadi sebuah atribut tunggal (atau objek) - Tujuan - Reduksi data: Mengurangi jumlah atribut atau benda Metode: Clustering and Sampling
Perubahan skala: Kota dikumpulkan ke daerah, negara, negara, dll - Data yang lebih stabil: Data agregat cenderung memiliki variabilitas yang lebih kecil 3. Generalisasi : Konsep hirarki climbing - Numeric Data Binning, Histogram, Clustering - Categorical Data Automatic Concept Hierarchy Generation - Beberapa hierarki dapat secara otomatis dihasilkan berdasarkan analisis dari jumlah nilai yang berbeda per atribut dalam kumpulan data - Atribut dengan nilai-nilai yang paling berbeda ditempatkan pada tingkat terendah dari hirarki - Pengecualian, misalnya, hari kerja, bulan, triwulan, tahun -
5. Konstruksi Atribut/Fitur