Anda di halaman 1dari 14

Mata Kuliah Data Mining

Program Studi Ilmu Komputer


Universitas Nahdlatul Ulama Blitar

Dataset
Konsep Data dalam Data Mining

Dosen Pengampu
Abd. Charis Fauzan, M.Kom

ILKOM UNU BLITAR


Mengapa Dataset? Mata Kuliah Data Mining
Program Studi Ilmu Komputer
Universitas Nahdlatul Ulama Blitar

Timbul pertanyaan, bukankah komputer hanya benda mati yang tidak bisa berbuat apa-
apa?

Komputer akan belajar dari data yang diberikan. Prinsip ini meniru cara belajar
manusia. Manusia belajar dari kumpulan data yang membentuk informasi. Pada
akhirnya, informasi akan terhimpun menjadi pengetahuan. Dengan cara inilah komputer
diajarkan supaya cerdas.
Mata Kuliah Data Mining

Definisi Dataset Program Studi Ilmu Komputer


Universitas Nahdlatul Ulama Blitar

Data memegang peranan penting untuk membentuk


kecerdasan komputer. Pada algoritma data mining,
data ini berlaku sebagai input, yang dikenal sebagai
"dataset" atau "data set".

Dataset adalah sebuah himpunan data yang berasal


dari informasi masa-masa lampau dan dikelola menjadi
sebuah informasi untuk melakukan teknik data mining.
Mata Kuliah Kecerdasan Buatan
Ilustrasi Dataset Program Studi Ilmu Komputer
Universitas Nahdlatul Ulama Blitar
Mata Kuliah Kecerdasan Buatan
Istilah dalam Dataset Program Studi Ilmu Komputer
Universitas Nahdlatul Ulama Blitar
Mata Kuliah Kecerdasan Buatan
Istilah dalam Dataset Program Studi Ilmu Komputer
Universitas Nahdlatul Ulama Blitar

Instance
Prinsipnya, setiap baris dari
tabel data set disebut instance.
Menunjukkan pengamatan dari
domain permasalahan.

Class/Kelas/Target
Hasil dari aktivitas feature/atribut.
Biasanya, menempati posisi kolom
terakhir pada dataset.

Feature/Atribut
Setiap kolom pada data set disebut fitur (feature). Nama lainnya adalah atribut (attribute of data
instance). Sebagian fitur adalah input dari model, contohnya adalah fitur x,y,z pada gambar.
Sebagian lagi adalah hasil prediksi, output dari fitur yang diprediksi. Contohnya adalah fitur class
pada gambar.
Mata Kuliah Data Mining
Data Latih dan Data Uji Program Studi Ilmu Komputer
Universitas Nahdlatul Ulama Blitar

Data Latih (Training Data)

Data Uji (Testing Data)

Dataset dipisahkan menjadi 2 bagian. Sebagian menjadi training data set, sebagian lagi
testing data set. Training data set digunakan untuk proses belajar bagi komputer.
Sedangkan testing data set digunakan untuk menguji model.
Mata Kuliah Data Mining

Ilustrasi Program Studi Ilmu Komputer


Universitas Nahdlatul Ulama Blitar

80% (400 Instance)


Data Latih (Training Data)

20% (100 Instance)


Data Uji (Testing Data)

Dataset Mahasiswa
500 Instance
Mata Kuliah Data Mining
Jenis-Jenis Atribut Dataset Program Studi Ilmu Komputer
Universitas Nahdlatul Ulama Blitar
Mata Kuliah Data Mining
Atribut Nominal/Kategorikal Program Studi Ilmu Komputer
Universitas Nahdlatul Ulama Blitar

Dikenal juga dengan atribut kategikal karena nilainya menggambarkan kategori, kode
atau status yang tidak memiliki urutan. Atribut nominal dapat berupa numerik yang
bernilai kategori.
Mata Kuliah Data Mining

Atribut Biner Program Studi Ilmu Komputer


Universitas Nahdlatul Ulama Blitar

Atribut Biner Simetris Atribut Biner Asimetris

Atribut biner adalah atribut yang memiliki dua kategori: 0 atau 1. Dikatakan simetris jika
menunjukkan kesetaraan, asimetris jika memberikan dampak berbeda.
Mata Kuliah Data Mining

Atribut Ordinal Program Studi Ilmu Komputer


Universitas Nahdlatul Ulama Blitar

Data yang didasarkan pada ranking. Skala pengukuran ordinal ini digunakan dalam
menentukan ranking suatu kelompok tertentu. Dalam ranking ini hanya
dipertimbangkan urutan obyek dari hasil yang paling besar sampai yang paling kecil
atau dari yang paling tinggi hingga paling rendah.
Mata Kuliah Data Mining
Atribut Diskrit dan Kontinu Program Studi Ilmu Komputer
Universitas Nahdlatul Ulama Blitar

Atribut Diskrit Atribut Kontinu

Atribut Diskrit memiliki kumpulan nilai yang terbatas atau tak terbatas (berbentuk bulat)

Atribut kontinu memiliki jumlah status yang tidak terbatas. Data kontinu adalah tipe float (berbentuk
pecahan). Mungkin ada banyak nilai antara 2 dan 3.
Mata Kuliah Kecerdasan Buatan
Pengenalan WEKA Program Studi Ilmu Komputer
Universitas Nahdlatul Ulama Blitar

Waikato Environment for Knowledge Analysis merupakan rangkaian perangkat lunak


pembelajaran mesin yang ditulis dalam Java, dikembangkan di Universitas Waikato,
Selandia Baru. WEKA merupakan sebuah perangkat lunak yang menerapkan berbagai
algoritma machine learning untuk melakukan beberapa proses yang berkaitan dengan
sistem temu kembali informasi atau data mining.

Anda mungkin juga menyukai