Anda di halaman 1dari 12

TUGAS BESAR I

PENGANTAR DATA MINING (D-205)


LAPORAN PRE-PROCESSING DATA

Dosen Pengampu :

Dwina Kuswardani, Dr, M.Kom

Disusun oleh :

Muhammad Akmal Firdaus 41520010117

Farrel Syach Zahran 41520010125

PROGRAM STUDI TEKNIK INFORMATIKA


FAKULTAS ILMU KOMPUTER
TAHUN 2022
1. PENDAHULUAN
1.1. Latar Belakang
Data mining adalah metode dalam ilmu komputer yang biasa digunakan dalam
proses pencarian knowledge atau pengetahuan. Tahapan dan metode didalamnya
berguna untuk mencari pola-pola tertentu dari data yang tersimpan pada database.
Secara sederhana, data mining mengubah data mentah menjadi data yang “siap pakai”
untuk membantu dalam pengambilan keputusan.
Pada penelitian ini data mining dilakukan pada dataset yang diperoleh dari situs
kaggle.com. Lebih detailnya, dataset ini bernama “Pima Indians Diabetes Database”.
Dataset ini berasal dari National Institute of Diabetes and Digestive and Kidney
Diseases. Tujuan dari pengumpulan data yang ada dalam dataset ini adalah untuk
memprediksi secara diagnostik apakah pasien menderita diabetes atau tidak menderita
diabetes. Berdasarkan pengukuran diagnostik tertentu yang termasuk dalam kumpulan
data tersebut. Secara khusus, semua pasien yang menjadi sampel pengumpulan data ini
adalah perempuan berusia minimal 21 tahun dari keturunan Pima India.
Dataset terdiri dari beberapa variabel prediktor medis dan satu variabel target
atau outcome berupa iya atau tidak (menderita diabetes atau tidak menderita diabetes).
Variabel prediktor meliputi jumlah kehamilan yang dialami pasien, BMI, kadar
insulin, usia, dan beberapa variabel lainnya.
1.2. Tujuan
Proses data mining pasti memiliki tujuan yang akan dituju. Tujuan dalam
penelitian ini adalah untuk memprediksi apakah pasien menderita diabetes atau tidak
menderita diabetes. Prediksi ini diperoleh berdasarkan beberapa variabel pengukuran
diagnostik seperti jumlah kehamilan yang dialami pasien, BMI, kadar insulin, usia
pasien, dan beberapa variabel lainnya.
Dengan dilakukan dilakukannya penelitian ini, maka akan diketahui faktor-
faktor apa saja yang bisa membuat seorang pasien menderita diabetes.

2. PENELITIAN YANG BERHUBUNGAN


Penelitian yang mirip dengan penelitian yang kami lakukan pernah dilakukan oleh
Yasha Indra pada sebuah website video pembelajaran menggunakan sebuah dataset dengan
nama “order”. Dataset tersebut digunakan untuk memprediksi jumlah pesanan. Yang
membedakan dengan penelitian kami adalah pada bagian pre-processing data tidak ada
penggunaan skewness untuk memilih metode yang tepat untuk mengimput missing value,
melainkan dengan langsung menghapus missing value sehingga tidak ada lagi missing
valuenya.

3. METODE PENELITIAN
Metode yang digunakan dalam penelitian ini adalah menggunakan metodologi CRISP-
DM (Cross-Industry Standard Process for Data Mining). CRISP-DM adalah sebuah metode
data mining yang dikembangkan bersama dan merupakan metode netral dan dapat
digunakan dalam segala lini bisnis dan berbagai tool. CRISP-DM menggambarkan fase dari
tahapan-tahapan dalam sebuah proyek, pekerjaan yang terkait dalam tiap fase dan
penjabaran terkait hubungan antar pekerjaan tersebut serta memberikan sebuah gambaran
siklus hidup (life-cycle) dari Data Mining.
Tahapan dalam CRISP-DM adalah sebagai berikut :
3.1. Business Understanding
Tahap ini dimulai dengan memahami tuuan dan kebutuhan proyek dengan jelas
dalam sudut pandang bisnis atau penelitian secara keseluruhan. Dimulai dengan
memahami sasaran dan tujuan proyek kedalam perumusan masalah, mempersiapkan
strategi awal untuk mencapai tujuan, dan merancang apa yang akan dibangun atau
diimplementasikan dalam proyek. Business Understanding dilakukan dengan
mengumpulkan data perihal business objective, penilaian terkait kondisi terkini,
menetapkan tujuan dari proses data mining, dan mengembangkan rencana proyek.
3.2. Data Understanding
Data understanding dilakukan dengan mengumpulkan data awal, deskripsi data,
eksplorasi data, dan melakukan penilaian terkait kualitas data. Dalam tahap ini juga
dilakukan eksplorasi data terkait ringkasan statistik yang dapat terjadi pada akhir tahap
ini serta melakukan clustering pada data untuk melihat pola data yang terbentuk.
3.3. Data Preparation
Data preparation dilakukan dengan proses seleksi, cleansing, disesuaikan
bentuknya sesuai kebutuhan, dan di format sesuai dengan kebutuhan. Pada tahap ini
data mentah yang telah diolah disiapkan sebagai set data akhir yang akan digunakan
untuk tahap selanjutnya.
3.4. Modeling
Modeling dilakukan dengan memilih dan menerapkan teknik pemodelan yang
sesuai. Sesuaikan dengan model yang sesuai dan efisien untuk mengoptimalkan hasil.
3.5. Evaluation
Tahap evaluasi akan dilakukan terhadap kualitas dan efektivitas satu atau lebih
model yang dikirm dalam fase pemodelan sebelum menempatkannya untuk digunakan
di dunia nyata (lapangan).
3.6. Deployment
Pada tahap deployment, pengetahuan atau informasi yang telah diperoleh akan
diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh
pengguna. Tahap ini bisa berbentuk pembuatan laporan sederhana atau menerapkan
proses data mining yang berulang. Secara umum ada 2 aktifitas yang dilakukan yaitu
perencanaan dan monitoring hasil dari proses deployment serta melengkapi
keseluruhan aktifitas sehingga menghasilkan laporan terakhir dan melakukan review
dari proyek yang dilakukan.

4. HASIL DAN PEMBAHASAN


4.1. Business Understanding
Penerapan business understanding pada proses data mining ini adalah berupa
informasi yang bermanfaat untuk memprediksi terjadinya penyakit diabetes pada
pasien sesuai dengan indikator diagnostik yang digunakan seperti jumlah kehamilan,
BMI, kadar insulin, usia, dan indikator lainnya.
4.2. Data Understanding
Data understanding pada penelitian ini diterapkan dalam memahami dataset
yang digunakan dalam proses data mining. Dataset yang digunakan adalah kumpulan
data yang didapatkan dari banyak pasien perempuan yang berusia 21 tahun dan berasal
dari keturunan Pima India. Dataset ini bertujuan untuk memprediksi secara diagnostik
apakan pasien menderita diabetes atau tidak menderita diabetes, berdasarkan
pengukuran diagnostik tertentu yang termasuk dalam variabel dataset. Setelah
dilakukan pengumpulan data, maka hasilnya adalah berupa variabel outcome 0 atau 1
yang artinya 0 adalah tidak menderita diabetes, sedangkan 1 adalah menderita
diabetes.

4.3. Data Preparation


Pada tahap data preparation, data akan diimport ke dalam Google Colab untuk
dapat dilihat secara lebih spesifik dan detail. Pada tahap ini dilakukan beberapa
kegiatan. Dimulai dengan import data, kemudian dilanjutkan dengan pre-processing
data berupa data cleaning, pengecekan missing value, penentuan metode yang cocok
untuk mengisi missing value, pengisisan missing value, dan lainnya.
Kegiatan secara lengkap dan penjelasannya adalah sebagai berikut :
a. Import library yang dibutuhkan
 Numpy, NumPy (Numerical Python) adalah library python yang digunakan
untuk bekerja dengan array dan juga memiliki fungsi yang bekerja dalam
domain aljabar linier, transformasi fourier, dan matriks.
 Pandas, Library ini untuk data mining dan machine learning yang bersifat open
source ini menyediakan struktur data tingkat tinggi yang fleksibel serta berbagai
alat analisis. Penggunaannya memudahkan analisis data, manipulasi data, dan
pembersihan data. Pandas mendukung berbagai jenis operasi seperti penyortiran,
pengindeksan ulang, iterasi, penggabungan, konversi data, visualisasi, agregasi,
dan lain sebagainya.
 Matplotlib.pylot, Jenis library ini bertanggung jawab untuk merencanakan data
numerik. Itulah alasan Matplotlib digunakan dalam analisis data. Library python
yang bersifat open source ini dapat memplot angka-angka berdefinisi tinggi
seperti diagram lingkaran, histogram, scatterplot, grafik, dan lain-lain.
 Seaborn, Seaborn merupakan library yang dibangun di atas library matplotlib.
 Scipy, SciPy (Scientific Python) adalah library open-source yang digunakan
untuk perhitungan ilmiah tingkat tinggi. Jenis library ini dibangun di atas
ekstensi NumPy dan bekerja bersama untuk menangani komputasi yang
kompleks. NumPy memungkinkan pengurutan dan pengindeksan data array,
sementara kode data numerik disimpan di SciPy.

b. Mengimport dataset kedalam Google Colab

Untuk lebih memudahkan dalam mengimport data, maka kami menghubungkan


google drive dengan google colab supaya data dapat dibuka dan diimport dengan
lebih fleksibel.

c. Menampilkan dataset
Dataset yang kami gunakan berjumlah 768 baris dan 9 kolom, yang terdiri dari
variabel Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI,
DiabetesPedigreeFunction, Age, dan Outcome

d. Identifikasi jenis variabel dalam data

Setelah diidentifikasi jenis tipe data dari setiap variabel, maka diketahui bahwa
terdapat tipe data int64 : Pregnancies, Glucose, SkinThickness, Insulin, Age, dan
Outcome. Sedangkan tipe data float64 : BMI dan DiabetesPedigreeFunction.
Langkah selanjutnya adalah melihat nilai-nilai perhitungan dari masing-masing
variabel. Disini kami ingin menampilkan count, mean, standar deviasi, nilai
minimum, Quartil 1, Quartil 2, Quartil 3, dan nilai maksimal dari masing-masing
variabel yang ada di dalam dataset.

e. Identifikasi nilai tidak wajar sebagai missing value

Untuk mempermudah dalam mengisi missing value, maka dilakukan identifikasi


pada nilai tak wajar untuk diposisikan sebagai missing value. Nilai tidak wajar bisa
berupa nilai 0, dan tidak bernilai.

f. Mengecek missing value


Kemudian dilakukan pengecekan jumlah missing value, yaitu diketahui bahwa
jumlah missing value bervariasi pada setiap variabel. Seperti Insulin (374),
SkinThickness (227), BloodPressure (35), BMI(11), dan Glucose (5). Untuk
variabel lainnya sudah tidak ada missing valuenya, karena setelah dicek
menunjukkan angka 0.

g. Pemilihan metode yang cocok untuk mengisi missing value (Skewness).


Berdasarkan hasil dari Skewness maka untuk mengisi missing values ada yang
menggunakan mean (rata-rata) dan juga median (nilai tengah).
h. Imputasi class mean pada attribute Glucose dan Insulin

Glucose dan Insulin dilakukan pengimputan missing value menggunakan mean


(rata-rata) dan median (nilai tengah) berdasarkan Skewness yang telah dilakukan
sebelumnya.
Setelah metode yang cocok ditemukan untuk mengisi missing value, maka
dilakukan pengimputan data pada missing value, dengan tujuan untuk mengisi
missing value.
i. Pengecekan akhir missing value

Setelah mengimput missing value, dilakukan pengecekan akhir, dimana hasilnya


adalah tidak ada lagi missing value.
4.4. Modeling
4.5. Evaluation
4.6. Deployment

5. KESIMPULAN
Kesimpulan dari proses data mining (preprocessing data) ini adalah terdapat dataset
diabetes dengan jumlah 9 kolom dan 768 baris yang terdiri dari beberapa variabel. Variabel
tersebut terdiri dari tipe data integer dan float yang mana masih terdapat missing value pada
variabel dalam dataset diabetes tersebut. Untuk mengimput missing value pada variabel
tersebut, maka dilakukan skewness untuk menentukan metode yang tepat untuk mengisi
missing value tersebut. Missing value diimput dengan menggunakan mean (rata-rata) dan
median (nilai tengah) berdasarkan skewness yang telah dilakukan sebelumnya, sehingga
setelah dilakukan pengecekan akhir tidak ada lagi missing value yang tersisa.
Dengan dilakukannya pengimputan pada missing value, maka akan dapat lebih mudah
untuk memprediksi apakah seorang pasien menderita diabetes atau tidak menderita diabetes
berdasarkan diagnostik tertentu.

6. DAFTAR REFERENSI
 Diabetes dataset : https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database
 https://algorit.ma/blog/library-python/#:~:text=Library%20python%20adalah
%20kumpulan%20modul,kali%20untuk%20program%20yang%20berbeda.
 https://www.investopedia.com/terms/s/skewness.asp#:~:text=Skewness%20refers%20to
%20a%20distortion,is%20said%20to%20be%20skewed.

Anda mungkin juga menyukai