Anda di halaman 1dari 3

ADITYO DWIRAHMAWAN – 16515040011103

TUGAS 2 – DATA MINING

1. Mencari Datasets di UCI Machine Learning


a. Buka UCI Machine Learning Repository pada link https://archive.ics.uci.edu/ml/index.php.
(Uci Machine Learning Repository adalah kumpulan basis data, teori domain, dan generator data
yang digunakan oleh komunitas pembelajaran mesin untuk analisis empiris algoritma pembelajaran
mesin. Dibuat sebagai arsip ftp pada tahun 1987 oleh David Aha dan sesama mahasiswa
pascasarjana di UC Irvine.)
b. Tampilkan seluruh list Datasets yang tersedia.
c. Pilih data yang akan dianalisis, disini saya mengambil contoh Dataset “Echocardiogram Dataset”.
d. Akan muncul tabel yang menjelaskan kriteria dari dataset yang telah diambil. Tabelnya adalah
sebagai berikut:

 Data Set Characteristics, yaitu Multivariate


Jenis dataset disini adalah multivariate, artinya adalah metode statistik yang
memungkinkan kita melakukan penelitian terhadap lebih dari dua variable secara
bersamaan. Dengan menggunakan teknik analisis ini, maka kita dapat menganalisis
pengaruh beberapa variable terhadap variable – variable lainnya dalam waktu yang
bersamaan.

 Attribute Characteristics, yaitu Categorical, Integer, Real


Jenis atribut yang digunakan di dataset ini adalah kategorial, integer dan real. Artinya,
atribut ini adalah jenis numerik kuantitatif yang bisa diukur nilainya.

 Associated Tasks, yaitu Classification


Klasifikasi merupakan suatu proses untuk menemukan model atau fungsi untuk
mengambarkan calss atau konsep dari suatu data. proses yang digambarkan untuk
mendeskripsikan data yang penting serta dapat meramalkan data pada masa depan.

 Missing Values, “Yes”


Pada Dataset ini, terdapat missing value. Yang artinya, terdapat nilai dari suatu atribut yang
tidak ditemukan. Terjadinya missing value bisa dikarenakan informasi yang tidak diperoleh
atau atribut yang mungkin tidak bisa diterapkan ke kasus tersebut. Penanganan missing
value disini bisa dengan mengurangi objek data atau memperkirakan missing values, atau
mengabaikan mising values pada saat analisis atau mengganti dengan semua nilai yang
mungkin.

e. Unduh file echocardiogram.data dan echocardiogram.names

f. Rename atau ubah nama file dengan menambahkan format “csv” di akhir file
Tujuan dari menambahkan format csv di akhir file adalah untuk memudahkan peneliti dalam
melihat dataset file tersebut. File akan terbuka dalam format excell. File echocardiogram.data
berisi kumpulan dataset (tanpa nama atribut). File echocardiogram.names berisi nama nama
atribut dari datasets.

g. Data set yang ditampilkan pada kasus ini adalah jenis Data Record.
Dalam datase berbentuk data record, tidak ada hubungan antara baris data dengan baris data yang
satu dengan baris data yang lainnya dan juga dengan set data yang lain. Setiap baris data berdiri
sendiri sebagai sebuah data individu. Data record yang ditampilkan pada data set echocardiogram
adalah sebagai berikut:
2. Pre-processing dataset echocardiogram dataset
a. Contoh kasus preprocessing yang diambil adalah “Missing Values”
Dikarenakan dataset echocardiodiagram ini terdapat nilai dari atribut yang hilang. Oleh karena itu,
dilakukan Data Cleaning. Mengisi value yang hilangan

b. Menentukan metode penanganan Missing Value.


Metode yang digunakan adalah mengisi nilai value yang kosong menggunakan nliai rata rata pada
atribut tersebut.

c. Melakukan data cleaning selanjutnya. Yaitu Normalization dan Discritization


Normalisasi merupakan hal yang dilakukan dari data besar pada atribut data akan menghasilkan
rentang interval nilai pada data yang besar. Discritization adalah data yang nilai nilainya akan
dibuatkan rentang interval yang lebar dan kedalamannya sama. Nilai dari setiap atribut akan diubah
menjadi bentuk rentang interval

Anda mungkin juga menyukai