Anda di halaman 1dari 17

MENYIAPKAN DATA

Tujuan Bab
• Analisis representasi dan karakteristik dasar dari
kumpulan data mentah dan besar
• Menerapkan teknik normalisasi yang berbeda pada
atribut numerikbergantung pada waktu
• Bandingkan teknik yang berbeda untuk deteksi pencilan
• Menerapkan beberapa teknik preprocessing data
2.1 REPRESENTASI DATA BAKU
Sampel data yang diperkenalkan sebagai baris pada Gambar 1.4 adalah komponen
dasar dalam proses penambangan data. Setiap sampel dijelaskan dengan beberapa
fitur, dan ada berbagai jenis nilai untuk setiap fitur. Nilai numerik termasuk variabel
nilai riil atau variabel integer seperti usia, kecepatan, atau panjang. Fitur dengan nilai
numerik memiliki dua properti penting: Nilainya memiliki relasi order (2 < 5 dan 5 <
7) dan relasi jarak (d [2.3, 4.2]
variabel kategorikal (sering disebut simbolik) tidak memiliki satupun dari dua
hubungan ini. Dua nilai variabel kategorikal bisa sama atau tidak sama: Mereka hanya
mendukung hubungan kesetaraan (Biru = Biru, atau Merah ≠ Hitam). Contoh variabel
jenis ini adalah warna mata, jenis kelamin, atau kewarganegaraan. Variabel
kategorikal dengan dua nilai pada prinsipnya dapat diubah menjadi variabel biner
numerik dengan dua nilai: 0 atau 1.
Contoh variable jenis ini adalah warna mata, jenis kelamin, atau kewarganegaraan. Variabel
kategorikal dengan dua nilai pada prinsipnya dapat diubah menjadi variable biner numerik dengan
dua nilai : 0 atau 1
Variabel kategorikal dengan n nilai dapat diubah menjadi n variable numerik biner, yaitu 1 variable
biner untuk setiap nilai kategorik. Variabel kategori berkode ini dikenal sebagai “variable dummy”
dalam statistic. Misalnya, Jika variable warna mata memiliki 4 nilai (hitam,biru,hijau, dam
cokelat). Mereka dapat dikodekan dengan empat digit biner.
• Fitur Nilai Kode
• Hitam = 1000
• Biru = 0100
• Hijau = 0010
• Coklat = 0001
Cara lain untuk mengklasifikasikan variabel, berdasarkan nilainya, adalah dengan melihatnya
sebagai variabel kontinu atau variabel diskrit.
Variabel kontinu juga dikenal sebagai kuantitatif atau variabelmetrik . Mereka diukur
menggunakan skala interval atau skala rasio. Kedua skala memungkinkan variabel yang mendasari
didefinisikan atau diukur secara teoritis dengan presisi yang tak terbatas. Perbedaan antara kedua
skala ini terletak pada bagaimana titik 0 didefinisikan dalam skala. Titik 0 dalam skala interval
ditempatkan secara sewenang-wenang, dan karenanya tidak menunjukkan sama sekali tidak adanya
apa pun yang sedang diukur
Contoh terbaik skala interval adalah skala suhu, di mana 0 derajat Fahrenheit tidak berarti tidak
adanya suhu. Karena penempatan titik 0 yang sewenang-wenang, hubungan rasio tidak berlaku
untuk variabel yang diukur menggunakan skala interval. Misalnya, 80 derajat Fahrenheit tidak
menyiratkan panas dua kali lebih banyak dari 40 derajat Fahrenheit. Sebaliknya, skala rasio
memiliki titik 0 absolut dan, akibatnya, hubungan rasio berlaku untuk variabel yang diukur
menggunakan skala ini. Kuantitas seperti tinggi, panjang, dan gaji menggunakan jenis skala ini.
Variabel kontinu direpresentasikan dalam kumpulan data besar dengan nilai berupa bilangan -
nyata atau bilangan bulat
Jenis Deskripsi Contoh Operasi
Nominal Membedakan satu Kode pos , ID = atau tidak =
objek dari yang lain
Ordinal Menggunakan nilai Opini, Pendapatan < atau >
untuk menyediakan
pengurutan objek
Intertval Menggunakan unit Derajat + atau -
pengukuran, tetapi Celcius/Fahrenheit,
asalnya berubah-ubah tanggal kalender
Rasio Menggunakan Suhu dalam Kelvin, +,-,*,/
unitpengukuran, dan Panjang, Hitungan,
asalnya tidak Umur
sembarangan
SIFAT PENTING DARI DATA DIMENSI TINGGI
MEMPENGARUHI INTERPRETASI DATA MASUKAN
DAN HASIL PENGGALIAN DATA
1. Ukuran kumpulan data yang menghasilkan kepadatan titik data yang sama dalam ruang
berdimensi n meningkat secara eksponensial dengan dimensi. Misalnya, jika sampel satu dimensi
(1 - D) yang berisi n titik data memiliki tingkat kepadatan yang memuaskan, maka untuk mencapai
kerapatan titik yang sama dalam dimensi k, kita membutuhkan n k titik data. Jika bilangan bulat 1
sampai 100 adalah nilai sampel 1 - D, dengan domain dimensinya [0, 100], maka untuk
mendapatkan massa jenis sampel yang sama dalam ruang 5 - D dibutuhkan 100 5 = 10 10 sampel
yang berbeda. Hal ini berlaku bahkan untuk kumpulan data dunia nyata terbesar; karena
dimensinya yang besar, kepadatan sampel masih relatif rendah dan, seringkali, tidak memuaskan
untuk keperluan penambangan data
2. Jari-jari yang lebih besar diperlukan untuk memasukkan sebagian kecil dari titik data dalam
ruang berdimensi tinggi. Untuk pecahan sampel tertentu, dimungkinkan untuk menentukan panjang
tepi e dari hypercube menggunakan rumus e pp d () = 1 / di mana p adalah fraksi sampel yang telah
ditentukan, dan d adalah jumlah dimensi. Misalnya, jika seseorang ingin menyertakan 10% dari
sampel (p = 0,1), maka 30 MEMPERSIAPKAN DATA 0,10 0,32 0,46 Gambar 2.3. Wilayah
menyertakan 10% sampel untuk ruang satu, dua, dan tiga dimensi. tepi yang sesuai untuk ruang 2 -
D akan menjadi e2 (0,1) = 0,32, untuk ruang 3 - D e3 (0,1) = 0,46, dan untuk spasi 10 - D e10 (0,1)
= 0,80. Interpretasi grafis dari tepi ini diberikan pada Gambar 2.3. Hal ini menunjukkan bahwa
lingkungan yang sangat besar diperlukan untuk menangkap bahkan sebagian kecil data dalam
ruang berdimensi tinggi.
• 3. Hampir setiap titik lebih dekat ke tepi daripada ke titik sampel lain dalam ruang berdimensi
tinggi. Untuk sampel berukuran n, jarak yang diharapkan D antara titik data dalam ruang
berdimensi iklan adalah Ddn d , / / () = () 1 2 1 1 n Misalnya, untuk ruang 2 - D dengan 10.000
titik jarak yang diharapkan adalah D (2,10.000) = 0,005 dan untuk ruang 10 - D dengan jumlah
titik sampel yang sama D (10,10,000) = 0,4. Perlu diingat bahwa jarak maksimum dari titik mana
pun ke tepi terjadi di pusat distribusi, dan itu adalah 0,5 untuktidak nilai yangdiubah dari semua
dimensi.
• 4. Hampir setiap poin adalah pencilan. Dengan bertambahnya dimensi ruang masukan, jarak
antara titik prediksi dan pusat dari titik yang diklasifikasikan meningkat. Misalnya, ketika d = 10,
nilai yang diharapkan dari titik prediksi adalah 3,1 deviasi standar dari pusat data yang termasuk
dalam satu kelas. Jika d = 20, jaraknya adalah 4,4 deviasi standar. Dari sudut pandang ini,
prediksi setiap poin baru tampak seperti pencilan dari data yang awalnya diklasifikasikan. Hal ini
diilustrasikan secara konseptual pada Gambar 2.2, di mana titik yang diprediksi sebagian besar
berada di tepi landak, jauh dari bagian tengah.
• Aturan “kutukan dimensi” ini paling sering memiliki konsekuensi yang serius ketika berhadapan
dengan sampel dalam jumlah terbatas dalam ruang dimensi tinggi. Dari prop erties (1) dan (2)
kita melihat kesulitan membuat perkiraan lokal untuk sampel berdimensi tinggi; kami
membutuhkan lebih banyak sampel untuk menetapkan kepadatan data yang diperlukan untuk
melakukan kegiatan penambangan yang direncanakan. Properti (3) dan (4) menunjukkan
kesulitan memprediksi respons pada titik tertentu, karena titik baru rata-rata akan lebih dekat ke
tepi daripada ke contoh pelatihan di bagian tengah. Satu eksperimen menarik, yang dilakukan
baru-baru ini oleh sekelompok siswa, menunjukkan pentingnya pemahaman konsep kutukan-
dimensi untuk tugas-tugas penggalian data.
KARAKTERISTIK DATA BAKU

• Semua kumpulan data mentah yang awalnya disiapkan untuk penambangan data seringkali
berukuran besar; banyak yang terkait dengan manusia dan berpotensi menjadi berantakan. A
priori, seseorang harus berharap untuk menemukan nilai yang hilang, distorsi, kesalahan
pencatatan, pengambilan sampel yang tidak memadai, dan seterusnya dalam kumpulan data awal
ini. Data mentah yang tampaknya tidak menunjukkan masalah-masalah ini seharusnya segera
menimbulkan kecurigaan. Satu-satunya alasan nyata untuk kualitas data yang tinggi mungkin
karena data yang disajikan telah dibersihkan dan diproses sebelumnya sebelum analis
melihatnya, seperti dalam data gudang data yang dirancang dan disiapkan dengan benar.
• Sangat penting untuk memeriksa data secara menyeluruh sebelum melakukan langkah lebih
lanjut dalam analisis formal. Secara tradisional, analis data-mining harus membiasakan diri
dengan data mereka sebelum mulai memodelkannya atau menggunakannya dengan beberapa
algoritma data-mining.
• Data yang terdistorsi, pilihan langkah yang salah dalam metodologi, kesalahan penerapan data -
alat penambangan, model yang terlalu ideal, model yang melampaui berbagai sumber
ketidakpastian dan ambiguitas dalam data - semua ini menunjukkan kemungkinan untuk
mengambil arah yang salah dalam suatu data - proses penambangan, penambangan data bukan
hanya masalah penerapan direktori alat untuk masalah tertentu, melainkan proses penilaian kritis,
eksplorasi, pengujian, dan evaluasi.
TRANSFORMASI DATA BARU
• Kami akan meninjau beberapa tipe umum dari transformasi data yang tidak bergantung pada
masalah dan yang dapat meningkatkan hasil data mining. Pemilihan teknik dan penggunaan
dalam aplikasi tertentu bergantung pada jenis data, jumlah data, dan karakteristik umum dari
tugas penambangan data.
NORMALISASI Beberapa metode penambangan data, biasanya yang didasarkan pada
penghitungan jarak antar titik dalam ruang berdimensi-n.
PENGHALUSAN DATA Sebuah fitur numerik, y, dapat berkisar pada banyak nilai yang berbeda,
terkadang sebanyak jumlah kasus pelatihan. Untuk banyak teknik penambangan data, perbedaan
kecil di antara nilai-nilai ini tidak signifikan dan dapat menurunkan kinerja metode dan hasil akhir.
PERBEDAAN DAN RASIO Bahkan perubahan kecil pada fitur dapat menghasilkan peningkatan
yang signifikan dalam kinerja data-mining. Efek transformasi yang relatif kecil dari fitur input atau
output sangat penting dalam spesifikasi tujuan penambangan data. Dua jenis transformasi sederhana,
perbedaan dan rasio, dapat membuat perbaikan dalamtujuan spesifikasi, terutama jika diterapkan
pada fitur keluaran.
DATA HILANG Untuk banyak aplikasi data mining dunia nyata, bahkan ketika ada data dalam
jumlah besar, subset kasus dengan data lengkap mungkin relatif kecil. Sampel yang tersedia dan juga
kasus masa depan mungkin memiliki nilai yang hilang. Beberapa metode penambangan data
menerima nilai yang hilang dan memproses data dengan memuaskan untuk mencapai kesimpulan
akhir.
WAKTU – DATA TERGANTUNG Aplikasi penambangan data praktis akan berkisar dari aplikasi
yang memiliki hubungan yang bergantung pada waktu hingga yang memiliki hubungan longgar atau
tanpa waktu. Masalah dunia nyata dengan ketergantungan waktu memerlukan persiapan dan
transformasi data khusus, yang, dalam banyak kasus, penting untuk penambangan data yang berhasil
ANALISIS LUAR Seringkali dalam kumpulan data yang besar, terdapat sampel yang tidak sesuai
dengan perilaku umum model data. Sampel semacam itu, yang secara signifikan berbeda atau tidak
konsisten dengan kumpulan data lainnya, disebut pencilan. Pencilan dapat disebabkan oleh
kesalahan pengukuran, atau mungkin hasil dari variabilitas data yang melekat

Anda mungkin juga menyukai