Anda di halaman 1dari 26

DATA MINING

PERTEMUAN 2 : “ SET DATA “

Lecture : Herlina Latipa Sari


(herlinalatipasari@unived.ac.id)

* Semester Gasal TA.2019/2020


DATA DAN HIMPUNAN DATA
 Secara definitif kita mengetahui bahwa Data
adalah kumpulan Fakta yang terekam dan tidak
memiliki arti.
 Selain itu data dapat diartikan sebagai kumpulan
fakta-fakta yang direpresentasikan kedalam
beberapa bentuk baik karakter : Angka, huruf
maupun simbol yang diproses sehingga menghasilkan
sebuah informasi. Atau data dapat
dinterpretasikan sebagai Entitas yang tidak memiliki
arti yang selamai ini terabaikan.
 Data juga dapat di analogi pada dunia pabrikasi yaitu
sebagai “Bahan Mentah” sedang hasil pengolahan
Produksinya yang disebut “Bahan Jadi” yaitu berupa
Informasi
DATA DAN HIMPUNAN DATA
DATA DAN HIMPUNAN DATA
 Data data mining tentulah kita semua
mengetahui bahwa yang akan ditambang
atau digali dalam tanda kutip adalah
Himpunan Data / Basis Data (database) ,yang
kemudian akan diekstraksi menjadi sebuah
pengetahuan baik Pola, Klaster, Decision
Tree dan lain-lain

 Sebelum kita melakukan proses data mining


tentunya kita terlebih dahulu mengetahui
beberapa elemen dalam sebuah himpunan
data seperti pada gambar di bawah ini:
DATA DAN HIMPUNAN DATA
DATA DAN HIMPUNAN DATA
Attribut : adalah deskripsi data yang bisa
mengidentifikasikan entitas Field adalah lokasi
penyimpanan Record adalah kumpulan dari berbagai field
yang saling berhubungan.
 
Class / Label / Target : bisa disebut sebagai atribut
keputusan.
 
Pada Data Mining secara garis besar terdapat 2(dua) tipe
data yang harus dipahami yaitu:
 1. Numeric merupakan tipe data yang bisa di kalkulasi
2. Nominal merupakan tipe data yang tidak bisa di
kalkulasi baik tambah, kurang, kali maupun bagi.
DATA DAN HIMPUNAN DATA
Attribut : adalah deskripsi data yang bisa
mengidentifikasikan entitas Field adalah lokasi
penyimpanan Record adalah kumpulan dari berbagai field
yang saling berhubungan.
 
Class / Label / Target : bisa disebut sebagai atribut
keputusan.
 
Pada Data Mining secara garis besar terdapat 2(dua) tipe
data yang harus dipahami yaitu:
 1. Numeric merupakan tipe data yang bisa di kalkulasi
2. Nominal merupakan tipe data yang tidak bisa di
kalkulasi baik tambah, kurang, kali maupun bagi.
DATA DAN HIMPUNAN DATA
SET DATA
 Ada bemacam-macam cara untuk
mempresentasikan data. Misalnya atribut yang
digunakan untuk menggambarkan jenis objek (bisa
berupa kuantitatif dan kualitatif), set data yang
dapat mempunyai karakteristik berbeda.

 Misalnya ada set data yang menggunakan nilai


deret waktu (time series) atau sebuahh nilai
angka, bahkan berupa objek dengan hubungan
khusus didalamnya. Jadi dengan adanya cara yang
berbeda dalam representasi data, peralatan dan
tekni yang digunakan untuk menganalisa juga
berbeda
SET DATA
 Untuk itulah data mining berusaha
mengakomodasi perbedaan cara tersebut agar
represenatsi yang berbeda dapat digeneralisasi
dan dapat diproses dengan cara yang universal
dalam data mining.

 Disamping cara representasi yang ebrbeda,


kualitas set data itu sendiri juga sering menjadi
hal yang harus diperlihatkan diawal sebelum
proses penggalian informasi.

 Masalah yang sering muncul pada data mentah


adalah duplikasi data, ketidakkonsistenan
(redudansi) data, kelainan (outlier) data yang
salah, dan sebagainya.
SET DATA
 Untuk masalah ini, sebelum set data diproses
dalam proses utama data mining, pemrosesan
awal data menjadi penting dilakukan agar
kualitas data menjadi lebih baik, kualitas data
yang lebih baik akan memberikan nilai keluaran
data mining yang lebih berkualitas juga.
JENIS DATA DALAM SET
DATA
 SET DATA dapat dipandang sebagai kumpulan
objek data. Nama lain yang sering digunakan
adalah record, point, vector,pattern,
observation, case atau bahkan data.

 Sedangkan objek data digambarkan dengan


sejumlah atribut yang menangkap (mencapture)
karakter dasar objek data.

 Contohnya : tinggi badan yang memberikan nilai


kuantitatif tinggi badan seseorang, waktu yang
menangkap saat sebuah peristiwa terjadi. Atribut
terkadang juga disebut variabel, karakteristik,
medan (field), fitur atau dimensi
JENIS DATA DALAM SET
DATA
 Atribut adalah sifat atau properti atau
karakteristik objek data yang nilainya bisa
bermacam-macam dari satu objek ke objek lain,
dari satu waktu ke waktu yang lain.

 Misalnya warna kulit seseorang bisa berbeda


dengan warna kulit orang lain, berat badan
seseorang juga bisa berubah dari waktu ke waktu.
Warna kulit bisa mempunyai nilai simbolik (hitam,
putih, kuning langsat, sawo matang) sedangkan
berat badan bisa berupa nilai angka numerik
misalnya 35, 50, 70 dan sebagainya)
JENIS DATA DALAM SET
DATA
 Atribut yang menjadi elemen setiap data
emmpunyai jenis yang beragam. Berat badan pada
contoh sebelumnya emmepunyai nilai numerik
sehingga dapat dibandingkan karena menggunakan
nilai yang sifatnya kualitatif.

 Umumnya tipe atribut ada dua yaitu kategoris


yaitu kategories (kualitatif) dan numerik
(kuantitatif)
JENIS DATA DALAM SET
DATA
 Ada 4 sifat penting yang dimiliki atribut secara
umum yaitu :
1. distinetness
2. order, <, ≤ , >, dan ≥
3. addition, + dan –
4. multiplication, * dan /

 Dari keempat sifat tersebut dapat diturunkan


empat tipe atribut yaiyu : nominal, ordional,
interval dan rasio.
Tipe Atribut
Tipe Atribut Penjelasan Contoh

Nominal Nilai atribut bertipe nominal Kode pos, nomor


memberikan nilai berupa nama. Dengan KTP, nomor induk
Kategories nama inilah sebuah atribut mahasiswa)
(Kualitatif) membedakan dirinya pada data yang
satu dengan yang lain (=, ≠ ).
Ordinal Nilai atribut bertipe ordinal mempunyai Tingkat kelulusan
nilai berupa nama yang mempunyai arti (cumlaude) sangat
informasi terurut ( ‹, ›, ≥, ≥). memuaskan,
memuaskan, suhu :
dinginnormal,
panas)
Interval Nilai atribut dimana perbedaan diantara Tanggal, suhu
dua nilai mempunyai makna yang (dalam celsius, atau
Numerik berarti (+, -). fahrenheit)
(Kuantitatif)
Rasio Nilai atribut dimana perbedaan di Suhu (dalam kelvin),
antara dua nilai dan rasio dua nilai umur, panjang,
mempunyai makna yang berarti (*, /) tinggi.
TIPE ATRIBUT : Jenis Atribut
* Atribut Nominal dan Ordinal
Nilainya kualitatif misalnya nomor kode pos, nomor
KTP. Nilai tersebut sebenarnya nilai simbolok, tidak
mungkin dilakukan operasi aritmatika seperti pada
tipe numerik.

* Atribut Interval dan Rasio


Keduanya merupakan jenis numerikal, nilainya
kuantitatif dapat dilakukan operasi aritmatika, bisa
direpresentasikan dengan nilai integer atau kontinu
DATA
* Data adalah segala fakta, angka atau teks yang
dapat diproses oleh komputer
* Saat ini, akumulasi pertumbuhan jumlah data
berjalan dengan cepat dalam format dan basis
data yang berbeda.

Data-data tersebut antara lain, adalah :


* Data operasional atau transaksional, seperti
penjualan, inventaris, penggajian, akuntansi dan
sebagainya
DATA
Data-data tersebut antara lain, adalah :
* Data Non operasional, seperti industri penjualan
(supermarket), peramalan dan data ekonomi
makro
* Meta data adalah data mengenani data itu
sendiri, seperti desain logika basis data atau
definisi kamus data.
INFORMASI

* Informasi adalah pola, asosiasi atau hubungan


antara semua data yang dapat memberikan
informasi.
* Sebagai contoh analisis titik eceran (retail point)
data transaksi penjualan dapat menghasilkan
informasi mengenai produk apa yang sebaiknya
dijual dan kapan menjualnya.
PENGETAHUAN (KNOWLEDGE)
* Informasi dapat dikonversi menjadi pengetahuan
mengenai pola-pola historis dan tren masa
depan.
* Misalnya ringkasan informasi tentang penjualan
eceran supermarket dapat dianalisis sehubungan
dengan upaya promosi untuk memberikan
pengetahuan mengenai perilaku konsumen dalam
membeli.
* Dengan demikian, produsen atau pengecer dapat
menentukan item yang paling rentan terhadap
upaya promosi.
Knowledge Discovery Database(KDD)
Pada proses Data Mining yang biasa disebut
Knowledge Discovery Database(KDD) terdapat
beberapa proses seperti terlihat pada gambar di
bawah ini:
Knowledge Discovery Database(KDD)
Pada proses Knowledge Discovery Database
(KDD)terdapat beberapa fase yaitu sebagai berikut:
1. Selection
Selection (seleksi/pemilihan) data daru
merupakan sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi
dalam Knowledge Discovery Database (KDD)
dimulai. Data hasil seleksi yang akan digunakan
untuk proses data mining, disimpan dalam suatu
berkas, terpisah dari basis data operasional
Knowledge Discovery Database(KDD)
Pada proses Knowledge Discovery Database
(KDD)terdapat beberapa fase yaitu sebagai berikut:
2. Preprocessing
Proses Preprocessingmencakup antara lain
membuang duplikasi data, memeriksa data yang
inkonsisten, dan memperbaiki kesalahan pada
data, seperti kesalahan cetak (tipografi). Juga
dilakukan proses enrichment, yaitu proses
“memperkaya” data yang sudah ada dengan data
atau informasi lain yang relevan dan diperlukan
untuk KDD, seperti data atau informasi eksternal.
Knowledge Discovery Database(KDD)
Pada proses Knowledge Discovery Database
(KDD)terdapat beberapa fase yaitu sebagai berikut:
3. Transformation
Pada fase ini yang dilakukan adalah
mentransformasi bentuk data yang belum
memiliki entitas yang jelas kedalam bentuk data
yang valid atau siap untuk dilakukan prose Data
Mining
4. Data Mining
Pada fase ini yang dilakukan adalah menerapkan
algoritma atau metode pencarian pengetahuan.
Knowledge Discovery Database(KDD)
Pada proses Knowledge Discovery Database
(KDD)terdapat beberapa fase yaitu sebagai berikut:
5. Interpratation/Evaluation
Pada fase terakhir ini yang dilakukan adalah
proses pembentukan keluaran yang mudah
dimengerti yang bersumber pada proses Data
Mining Pola informasi.
.

Anda mungkin juga menyukai