Dosen Pengampu :
Disusun oleh :
3. METODE PENELITIAN
Metode yang digunakan dalam penelitian ini adalah menggunakan metodologi CRISP-
DM (Cross-Industry Standard Process for Data Mining). CRISP-DM adalah sebuah metode
data mining yang dikembangkan bersama dan merupakan metode netral dan dapat
digunakan dalam segala lini bisnis dan berbagai tool. CRISP-DM menggambarkan fase dari
tahapan-tahapan dalam sebuah proyek, pekerjaan yang terkait dalam tiap fase dan
penjabaran terkait hubungan antar pekerjaan tersebut serta memberikan sebuah gambaran
siklus hidup (life-cycle) dari Data Mining.
Tahapan dalam CRISP-DM adalah sebagai berikut :
3.1. Business Understanding
Tahap ini dimulai dengan memahami tuuan dan kebutuhan proyek dengan jelas
dalam sudut pandang bisnis atau penelitian secara keseluruhan. Dimulai dengan
memahami sasaran dan tujuan proyek kedalam perumusan masalah, mempersiapkan
strategi awal untuk mencapai tujuan, dan merancang apa yang akan dibangun atau
diimplementasikan dalam proyek. Business Understanding dilakukan dengan
mengumpulkan data perihal business objective, penilaian terkait kondisi terkini,
menetapkan tujuan dari proses data mining, dan mengembangkan rencana proyek.
3.2. Data Understanding
Data understanding dilakukan dengan mengumpulkan data awal, deskripsi data,
eksplorasi data, dan melakukan penilaian terkait kualitas data. Dalam tahap ini juga
dilakukan eksplorasi data terkait ringkasan statistik yang dapat terjadi pada akhir tahap
ini serta melakukan clustering pada data untuk melihat pola data yang terbentuk.
3.3. Data Preparation
Data preparation dilakukan dengan proses seleksi, cleansing, disesuaikan
bentuknya sesuai kebutuhan, dan di format sesuai dengan kebutuhan. Pada tahap ini
data mentah yang telah diolah disiapkan sebagai set data akhir yang akan digunakan
untuk tahap selanjutnya.
3.4. Modeling
Modeling dilakukan dengan memilih dan menerapkan teknik pemodelan yang
sesuai. Sesuaikan dengan model yang sesuai dan efisien untuk mengoptimalkan hasil.
3.5. Evaluation
Tahap evaluasi akan dilakukan terhadap kualitas dan efektivitas satu atau lebih
model yang dikirm dalam fase pemodelan sebelum menempatkannya untuk digunakan
di dunia nyata (lapangan).
3.6. Deployment
Pada tahap deployment, pengetahuan atau informasi yang telah diperoleh akan
diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh
pengguna. Tahap ini bisa berbentuk pembuatan laporan sederhana atau menerapkan
proses data mining yang berulang. Secara umum ada 2 aktifitas yang dilakukan yaitu
perencanaan dan monitoring hasil dari proses deployment serta melengkapi
keseluruhan aktifitas sehingga menghasilkan laporan terakhir dan melakukan review
dari proyek yang dilakukan.
c. Menampilkan dataset
Dataset yang kami gunakan berjumlah 768 baris dan 9 kolom, yang terdiri dari
variabel Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI,
DiabetesPedigreeFunction, Age, dan Outcome
Setelah diidentifikasi jenis tipe data dari setiap variabel, maka diketahui bahwa
terdapat tipe data int64 : Pregnancies, Glucose, SkinThickness, Insulin, Age, dan
Outcome. Sedangkan tipe data float64 : BMI dan DiabetesPedigreeFunction.
Langkah selanjutnya adalah melihat nilai-nilai perhitungan dari masing-masing
variabel. Disini kami ingin menampilkan count, mean, standar deviasi, nilai
minimum, Quartil 1, Quartil 2, Quartil 3, dan nilai maksimal dari masing-masing
variabel yang ada di dalam dataset.
5. KESIMPULAN
Kesimpulan dari proses data mining (preprocessing data) ini adalah terdapat dataset
diabetes dengan jumlah 9 kolom dan 768 baris yang terdiri dari beberapa variabel. Variabel
tersebut terdiri dari tipe data integer dan float yang mana masih terdapat missing value pada
variabel dalam dataset diabetes tersebut. Untuk mengimput missing value pada variabel
tersebut, maka dilakukan skewness untuk menentukan metode yang tepat untuk mengisi
missing value tersebut. Missing value diimput dengan menggunakan mean (rata-rata) dan
median (nilai tengah) berdasarkan skewness yang telah dilakukan sebelumnya, sehingga
setelah dilakukan pengecekan akhir tidak ada lagi missing value yang tersisa.
Dengan dilakukannya pengimputan pada missing value, maka akan dapat lebih mudah
untuk memprediksi apakah seorang pasien menderita diabetes atau tidak menderita diabetes
berdasarkan diagnostik tertentu.
6. DAFTAR REFERENSI
Diabetes dataset : https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database
https://algorit.ma/blog/library-python/#:~:text=Library%20python%20adalah
%20kumpulan%20modul,kali%20untuk%20program%20yang%20berbeda.
https://www.investopedia.com/terms/s/skewness.asp#:~:text=Skewness%20refers%20to
%20a%20distortion,is%20said%20to%20be%20skewed.