DATA DAN HIMPUNAN DATA Secara definitif kita mengetahui bahwa Data adalah kumpulan Fakta yang terekam dan tidak memiliki arti. Selain itu data dapat diartikan sebagai kumpulan fakta-fakta yang direpresentasikan kedalam beberapa bentuk baik karakter : Angka, huruf maupun simbol yang diproses sehingga menghasilkan sebuah informasi. Atau data dapat dinterpretasikan sebagai Entitas yang tidak memiliki arti yang selamai ini terabaikan. Data juga dapat di analogi pada dunia pabrikasi yaitu sebagai “Bahan Mentah” sedang hasil pengolahan Produksinya yang disebut “Bahan Jadi” yaitu berupa Informasi DATA DAN HIMPUNAN DATA DATA DAN HIMPUNAN DATA Data data mining tentulah kita semua mengetahui bahwa yang akan ditambang atau digali dalam tanda kutip adalah Himpunan Data / Basis Data (database) ,yang kemudian akan diekstraksi menjadi sebuah pengetahuan baik Pola, Klaster, Decision Tree dan lain-lain
Sebelum kita melakukan proses data mining
tentunya kita terlebih dahulu mengetahui beberapa elemen dalam sebuah himpunan data seperti pada gambar di bawah ini: DATA DAN HIMPUNAN DATA DATA DAN HIMPUNAN DATA Attribut : adalah deskripsi data yang bisa mengidentifikasikan entitas Field adalah lokasi penyimpanan Record adalah kumpulan dari berbagai field yang saling berhubungan.
Class / Label / Target : bisa disebut sebagai atribut keputusan.
Pada Data Mining secara garis besar terdapat 2(dua) tipe data yang harus dipahami yaitu: 1. Numeric merupakan tipe data yang bisa di kalkulasi 2. Nominal merupakan tipe data yang tidak bisa di kalkulasi baik tambah, kurang, kali maupun bagi. DATA DAN HIMPUNAN DATA Attribut : adalah deskripsi data yang bisa mengidentifikasikan entitas Field adalah lokasi penyimpanan Record adalah kumpulan dari berbagai field yang saling berhubungan.
Class / Label / Target : bisa disebut sebagai atribut keputusan.
Pada Data Mining secara garis besar terdapat 2(dua) tipe data yang harus dipahami yaitu: 1. Numeric merupakan tipe data yang bisa di kalkulasi 2. Nominal merupakan tipe data yang tidak bisa di kalkulasi baik tambah, kurang, kali maupun bagi. DATA DAN HIMPUNAN DATA SET DATA Ada bemacam-macam cara untuk mempresentasikan data. Misalnya atribut yang digunakan untuk menggambarkan jenis objek (bisa berupa kuantitatif dan kualitatif), set data yang dapat mempunyai karakteristik berbeda.
Misalnya ada set data yang menggunakan nilai
deret waktu (time series) atau sebuahh nilai angka, bahkan berupa objek dengan hubungan khusus didalamnya. Jadi dengan adanya cara yang berbeda dalam representasi data, peralatan dan tekni yang digunakan untuk menganalisa juga berbeda SET DATA Untuk itulah data mining berusaha mengakomodasi perbedaan cara tersebut agar represenatsi yang berbeda dapat digeneralisasi dan dapat diproses dengan cara yang universal dalam data mining.
Disamping cara representasi yang ebrbeda,
kualitas set data itu sendiri juga sering menjadi hal yang harus diperlihatkan diawal sebelum proses penggalian informasi.
Masalah yang sering muncul pada data mentah
adalah duplikasi data, ketidakkonsistenan (redudansi) data, kelainan (outlier) data yang salah, dan sebagainya. SET DATA Untuk masalah ini, sebelum set data diproses dalam proses utama data mining, pemrosesan awal data menjadi penting dilakukan agar kualitas data menjadi lebih baik, kualitas data yang lebih baik akan memberikan nilai keluaran data mining yang lebih berkualitas juga. JENIS DATA DALAM SET DATA SET DATA dapat dipandang sebagai kumpulan objek data. Nama lain yang sering digunakan adalah record, point, vector,pattern, observation, case atau bahkan data.
Sedangkan objek data digambarkan dengan
sejumlah atribut yang menangkap (mencapture) karakter dasar objek data.
Contohnya : tinggi badan yang memberikan nilai
kuantitatif tinggi badan seseorang, waktu yang menangkap saat sebuah peristiwa terjadi. Atribut terkadang juga disebut variabel, karakteristik, medan (field), fitur atau dimensi JENIS DATA DALAM SET DATA Atribut adalah sifat atau properti atau karakteristik objek data yang nilainya bisa bermacam-macam dari satu objek ke objek lain, dari satu waktu ke waktu yang lain.
Misalnya warna kulit seseorang bisa berbeda
dengan warna kulit orang lain, berat badan seseorang juga bisa berubah dari waktu ke waktu. Warna kulit bisa mempunyai nilai simbolik (hitam, putih, kuning langsat, sawo matang) sedangkan berat badan bisa berupa nilai angka numerik misalnya 35, 50, 70 dan sebagainya) JENIS DATA DALAM SET DATA Atribut yang menjadi elemen setiap data emmpunyai jenis yang beragam. Berat badan pada contoh sebelumnya emmepunyai nilai numerik sehingga dapat dibandingkan karena menggunakan nilai yang sifatnya kualitatif.
Umumnya tipe atribut ada dua yaitu kategoris
yaitu kategories (kualitatif) dan numerik (kuantitatif) JENIS DATA DALAM SET DATA Ada 4 sifat penting yang dimiliki atribut secara umum yaitu : 1. distinetness 2. order, <, ≤ , >, dan ≥ 3. addition, + dan – 4. multiplication, * dan /
Dari keempat sifat tersebut dapat diturunkan
empat tipe atribut yaiyu : nominal, ordional, interval dan rasio. Tipe Atribut Tipe Atribut Penjelasan Contoh
Nominal Nilai atribut bertipe nominal Kode pos, nomor
memberikan nilai berupa nama. Dengan KTP, nomor induk Kategories nama inilah sebuah atribut mahasiswa) (Kualitatif) membedakan dirinya pada data yang satu dengan yang lain (=, ≠ ). Ordinal Nilai atribut bertipe ordinal mempunyai Tingkat kelulusan nilai berupa nama yang mempunyai arti (cumlaude) sangat informasi terurut ( ‹, ›, ≥, ≥). memuaskan, memuaskan, suhu : dinginnormal, panas) Interval Nilai atribut dimana perbedaan diantara Tanggal, suhu dua nilai mempunyai makna yang (dalam celsius, atau Numerik berarti (+, -). fahrenheit) (Kuantitatif) Rasio Nilai atribut dimana perbedaan di Suhu (dalam kelvin), antara dua nilai dan rasio dua nilai umur, panjang, mempunyai makna yang berarti (*, /) tinggi. TIPE ATRIBUT : Jenis Atribut * Atribut Nominal dan Ordinal Nilainya kualitatif misalnya nomor kode pos, nomor KTP. Nilai tersebut sebenarnya nilai simbolok, tidak mungkin dilakukan operasi aritmatika seperti pada tipe numerik.
* Atribut Interval dan Rasio
Keduanya merupakan jenis numerikal, nilainya kuantitatif dapat dilakukan operasi aritmatika, bisa direpresentasikan dengan nilai integer atau kontinu DATA * Data adalah segala fakta, angka atau teks yang dapat diproses oleh komputer * Saat ini, akumulasi pertumbuhan jumlah data berjalan dengan cepat dalam format dan basis data yang berbeda.
Data-data tersebut antara lain, adalah :
* Data operasional atau transaksional, seperti penjualan, inventaris, penggajian, akuntansi dan sebagainya DATA Data-data tersebut antara lain, adalah : * Data Non operasional, seperti industri penjualan (supermarket), peramalan dan data ekonomi makro * Meta data adalah data mengenani data itu sendiri, seperti desain logika basis data atau definisi kamus data. INFORMASI
* Informasi adalah pola, asosiasi atau hubungan
antara semua data yang dapat memberikan informasi. * Sebagai contoh analisis titik eceran (retail point) data transaksi penjualan dapat menghasilkan informasi mengenai produk apa yang sebaiknya dijual dan kapan menjualnya. PENGETAHUAN (KNOWLEDGE) * Informasi dapat dikonversi menjadi pengetahuan mengenai pola-pola historis dan tren masa depan. * Misalnya ringkasan informasi tentang penjualan eceran supermarket dapat dianalisis sehubungan dengan upaya promosi untuk memberikan pengetahuan mengenai perilaku konsumen dalam membeli. * Dengan demikian, produsen atau pengecer dapat menentukan item yang paling rentan terhadap upaya promosi. Knowledge Discovery Database(KDD) Pada proses Data Mining yang biasa disebut Knowledge Discovery Database(KDD) terdapat beberapa proses seperti terlihat pada gambar di bawah ini: Knowledge Discovery Database(KDD) Pada proses Knowledge Discovery Database (KDD)terdapat beberapa fase yaitu sebagai berikut: 1. Selection Selection (seleksi/pemilihan) data daru merupakan sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam Knowledge Discovery Database (KDD) dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional Knowledge Discovery Database(KDD) Pada proses Knowledge Discovery Database (KDD)terdapat beberapa fase yaitu sebagai berikut: 2. Preprocessing Proses Preprocessingmencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. Knowledge Discovery Database(KDD) Pada proses Knowledge Discovery Database (KDD)terdapat beberapa fase yaitu sebagai berikut: 3. Transformation Pada fase ini yang dilakukan adalah mentransformasi bentuk data yang belum memiliki entitas yang jelas kedalam bentuk data yang valid atau siap untuk dilakukan prose Data Mining 4. Data Mining Pada fase ini yang dilakukan adalah menerapkan algoritma atau metode pencarian pengetahuan. Knowledge Discovery Database(KDD) Pada proses Knowledge Discovery Database (KDD)terdapat beberapa fase yaitu sebagai berikut: 5. Interpratation/Evaluation Pada fase terakhir ini yang dilakukan adalah proses pembentukan keluaran yang mudah dimengerti yang bersumber pada proses Data Mining Pola informasi. .