Anda di halaman 1dari 7

RESUME KULIAH 1

Tugas Matakuliah Pengantar Data Mining B

MUSFITA
H071181012

UNIVERSITAS HASANUDDIN
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
PRODI ILMU KOMPUTER
MAKASSAR
2020
Data Mining
Data Mining merupakan suatu proses penjelajahan otomatis untuk mendapatkan
informasi berguna dalam suatu repositori data yang sangat besar.
Preprocessing
Data preprocessing bertujuan mentransformasikan data mentah ke format yg sesuai
utk analisis dan meningkatkan kualitas data sehingga hasil data mining menjadi lebih baik.
Terdiri atas proses seleksi fitur, reduksi dimensionalitas, normalisasi dan subsetting data.
1. Data Cleaning
Data-Cleaning adalah suatu proses mendeteksi dan memperbaiki (atau
menghapus) data set, tabel, dan database yang korup atau tidak akurat. Istilah ini
mengacu pada identifikasi data yang tidak lengkap, tidak benar, tidak tepat, dan tidak
relevan, yang kemudian dirty data tersebut akan diganti, dimodifikasi atau dihapus.
Proses data Cleaning ini cukup penting dalam pembangunan data warehouse
untuk mencegah terjadinya duplikasi data, ambigu pada data dan konflik penamaan.
Konflik yang sering muncul adalah ketika nama yang sama digunakan untuk objek yang
berbeda (Homonyms) atau nama yang berbeda digunakan untuk objek yang sama
(sinonim), dan hal ini menyebabkan overlapping atau data yang tumpang tindih.
Overlapping sering terjadi pada data-data identitas seperti data mahasiswa, data pegawai
atau data customer.
Missing Value dalam data set dapat memberikan pengaruh terhadap
hasil mining. Karena itu, sebelum data set digunakan perlu ada cleansing sehingga
pengaruh missing value tersebut dapat diminimalisasi. Ada dua opsi untuk mengatasi
missing value, yaitu menghilangkan data missing value atau mengganti nilai yang hilang
dengan nilai lain, seperti rata-rata dari kolom tersebut atau nilai yang paling sering
muncul.
Konsistensi Data : data dengan format berbeda tidak akan bisa diolah oleh model
machine learning. Maka solusinya yaitu format data harus konsisten. Misalnya, Sebuah
variabel mungkin tidak memiliki format yang konsisten seperti penulisan tanggal 10-
Okt-2020 versus 10/10/20. Format jam yang berbeda seperti 17.10 versus 5.10 pm.
Penulisan uang seperti 17000 versus Rp 17.000. Data dengan format berbeda tidak akan
bisa diolah oleh model machine learning. Solusinya, format data harus konsisten.
Skala Data : Untuk data numerik, jika sebuah variabel merupakan bilangan
positif, maka pastikan tidak ada bilangan negatif. Misalnya, jika sebuah variabel
memiliki jangka dari 1 sampai 100, pastikan tidak ada data yang lebih dari 100.
Skewness (kecendurungan) adalah kondisi di mana dataset cenderung memiliki
distribusi data yang tidak seimbang. Skewness akan mempengaruhi data dengan
menciptakan bias terhadap model. Apa itu bias? Sebuah model cenderung memprediksi
sesuatu karena ia lebih sering mempelajari hal tersebut. Misalkan ada sebuah model
untuk pengenalan buah di mana jumlah jeruk 92 buah dan apel 8 buah. Distribusi yang
tidak imbang ini akan mengakibatkan model lebih cenderung memprediksi jeruk
daripada apel.
2. Data Transformation (Transformasi Data)
Outlier Removal adalah himpunan data bisa berupa kesalahan atau variasi yang
bersifat acak, misalnya suatu nilai yang jauh lebih kecil atau lebih besar disbanding yang
lain. ika anda memiliki sebuah data berderau anda dapat membersihkannya dengan cara :
a. Binning
Metode binning dilakukan dengan memeriksa “nilai tetangga”, yaitu nilai-nilai yang
ada disekelilingnya. Berikut adalah langkah-langkah metode binning:
1) Data diurutkan dari yang terkecil sampai dengan yang terbesar.
2) Data yang sudah urut kemudian dipartisi ke dalam beberapa bin. Teknik partisi
ke dalam bin ada 2 (dua) cara: equal-width (distance) partitioning dan
equaldepth (frequency) partitioning.
3) Dilakukan smoothing dengan tiga macam teknik, yaitu: smoothing by binmeans,
smoothing by bin-medians, dan smoothing by bin-boundaries.
b. Regresi
c. Clustering
Digunakan untuk menyingkirkan outliers (keluar jauh-jauh dari cluster/centroid),
data yang memiliki noise.

3. Data Normalisasi : Normalisasi merupakan normalisasi pada Data Mining yaitu proses
penskalaan nilai atribut dari data sehingga bisa jatuh pada range tertentu. Pada proses
normalisasi ini ada beberapa metode yang dapat dipakai seperti :
- Min-Max
- Z-Score
- Decimal Scaling
- Sigmoidal
- Softmax
-
LANGKAH-LANGKAH PREPROCESSING

 Mencari Dataset
 Mengupload file dataset yang sudah diambil tadi menggunakan perintah :

dan data tersebut telah masuk ke drive.


 Mengimport library yang akan digunakan
Menggunakan library pandas sangat penting untuk data mining dan machine learning.
Contoh salah satunya fungsinya yaitu untuk membuat data frame. Kemudian library
numpy untuk pengolahan array pada python.

 Dari dataset yang diimport tadi, lalu dibuat data frame

Kemudian diberikan perintah :


df = pd.read_csv(io.BytesIO(uploaded['PRSA_Data_Dongsi_20130301-20170228.csv']))
Untuk membuat data frame. Lalu perintah df.head(10) dimana parameternya yaitu 10
untuk melihat 10 objek pertama yang ada dalam data yang terhitung dari indeks 0 sampai
9. NaN (Not a Number) artinya adalah missing value.

 Untuk mengambil data frame elemen wd atau jenis-jenis class wd maka diberikan
perintah :

 Melihat statistik dasar menggunakan python dengan perintah :

Memperlihatkan nilai min, max dll untuk semua atribut.


 Mengetahui tipe data dari class yaitu menggunakan perintah :

 Kemudian untuk melihat jumlah nilai missing value dengan data yang banyak maka
menggunakan perintah :

Untuk mengatasi missing value bisa menggunakan mean, mode, atau regresi
 Dari nilai missing value tadi maka menggunakan perintah :

dengan diisi dengan mean (rata-rata). Konsepnya yaitu didapatkan model dari regresinya
kemudian isinya kita pakai untuk masuk ke dalam nilai yang kosong.
 Setelah diisi maka missing value nya sudah tidak ada. Ditampilkan menggunakan
perintah:
Mengapa pada class wd masih ada missing value? karena wd menggunakan tipe data
string atau bukan tipe data numerik, sehingga tidak bisa menggunakan perintah mean.

 Untuk melihat nilai-nilai yang terlampau jauh (outlier) dengan nilai yang ada dengan
menggunakan boxplot.

 Untuk mengatasi nilai yang terlampau jauh (outlier) tersebut maka menggunakan
perintah:

 Setelah mengatasi outlier tersebut maka skalanya berbeda-beda dari setiap atribut.
Kemudian akan dilakukan normalisasi data. Yang pertama kita akan drop atribut-atribut
yang tidak perlu dinormalisasi dengan menggunakan perintah :

Lalu ditampilkan dengan menggunakan perintah :

 Kemudian akan dilakukan normalisasi data dengan menggunakan MinMaxScaler() yaitu


menyamakan nilai Min dan Max sclaer dengan library sklearn
 Menampilkan nilai min dan max yang sama dari semua atribut maka akan berbentuk
array

 Jika ingin menggunakan sebagai data frame lagi maka menggunakan perintah:

Mengambil nama kolom, lalu masukkan nilai array yang sudah di scaled tadi.

Anda mungkin juga menyukai