DATA SCIENCE
Annisa Nurul Puteri, M.T.
4
EXPLORATORY
DATA ANALYSIS
1.
Tujuan Eksplorasi Data
Eksplorasi data dapat dimanfaatkan pada tahapan persiapan data
(preprocessing), pemodelan, dan tahapan interpretasi dari hasil
pemodelan.
3
Memahami Data
◎ Memberikan gambaran umum mengenai setiap
atribut atau variabel dalam dataset serta
hubungannya.
◎ Membantu dalam mengetahui nilai khas dari suatu
atribut, data yang berbeda dari tiap tipikal, data
pencilan (outlier), serta nilai minimum dan maksimum
dari suatu kumpulan data.
4
Mempersiapkan Data
◎ Sebelum menerapkan algoritma data science, dataset
harus siap untuk menangani setiap anomali yang
mungkin terjadi seperti adanya data pencilan (outlier),
nilai yang hilang (missing value), dan atribut yang
memiliki nilai korelasi yang sangat tinggi.
Beberapa algoritma data science tidak dapat bekerja dengan baik ketika
atribut saling berkorelasi dengan nilai yang sangat tinggi
5
Metode Data Science
◎ Terkadang eksplorasi data saja sudah dapat
menggantikan keseluruhan proses dalam data science.
◎ Misalnya Scatter plot dapat digunakan mengidentifikasi
cluster untuk data dengan dimensi rendah (low
dimensional data) dan visualisasi data dapat
membantu dalam mengembangkan model regresi atau
model klasifikasi untuk kasus-kasus sederhana.
6
Menafsirkan Hasil
◎ Eksplorasi data juga dapat digunakan untuk
memahami hasil prediksi, klasifikasi, atau
pengelompokan (clustering) yang didapatkan dari
keseluruhan proses data science.
◎ Misalnya, histogram membantu dalam proses
memahami distribusi atribut dan juga berguna untuk
memvisualisasikan prediksi numerik, estimasi Tingkat
kesalahan (error rate estimation) dan lain-lain.
7
2.
Proses pada Eksplorasi Data
Eksplorasi data umumnya dibagi menjadi dua tahapan, yaitu data
understanding dan data preprocessing.
8
Data Understanding
Proses dalam memahami data yang dimiliki, data apa yang tersedia,
berapa jumlah datanya, relevan/tidak, bagaimana kualitas datanya,
bagaimana data dikumpulkan dan lain sebagainya.
9
Data Preprocessing
◎ Mengubah data mentah menjadi format yang dapat
dimengerti.
◎ Data mentah pada kondisi nyata selalu tidak lengkap dan
tidak bersih sehingga diperlukan proses awal dalam
membersihkan data untuk mendapat model data yang
reliable.
◎ Proses dasar melingkupi seleksi variabel, penggabungan
(join), data cleaning untuk data yang duplikat, noise dan
outliers, transformasi data, serta dimensional reduction.
10
Data Preprocessing
◎ Contoh data preprocessing
1. Noise: umur bernilai negative
2. Outlier: tinggi badan yang lebih dari 300 meter
3. Duplikat: baris dengan nilai dan ID yang sama
muncul lebih dari 100 kali
4. Tidak lengkap: data agregat tanpa variabel
penting
5. Data yang hilang (missing value): cell kosong, -,
n/a, NA, NaN
11
3.
Hasil Eksplorasi Data
Hasil akhir dari eksplorasi data adalah data yang sudah siap untuk
diolah lebih lanjut.
12
Hasil Eksplorasi Data
Data hasil eksplorasi harus memenuhi syarat sebagi berikut:
Data yang sudah bersih
dari data ganda maupun
Clean data kosong, pencilan, dan
sebagainya.
Data yang sudah tersusun
Hasil Eksplorasi Data Tidy rapi dan terstruktur dalam
sebuah kolom dan baris.
Data yang sudah memiliki
format yang sama dalam
Consistent sebuah kolom, misalnya
tidak tercampur antara
data numerik dan teks.
13
4.
Project Data Science
Ayo mulai petualangan dengan data!
14
Studi Kasus
Project pertama kita adalah membantu sebuah rumah sakit.
Direktur rumah sakit ingin rumah sakitnya mengikuti
perkembangan zaman dengan memanfaatkan teknologi.
Rumah sakit ini memiliki tim IT yang bekerja untuk membangun
sebuah sistem informasi rumah sakit yang dapat menunjang
kegiatan operasional rumah sakit.
Direktur rumah sakit ingin tim IT tersebut membangun sebuah
aplikasi untuk memprediksi diagnosis penyakit tertentu pada
seorang pasien.
15
Studi Kasus
Secara spesifik, Direktur ingin sebuah aplikasi yang dapat
mendiagnosis status penyakit stroke seseorang. Namun, tim
IT belum mempunyai anggota tim yang dapat membuat
model prediksi menggunakan data yang ada.
Oleh karena itu, Direktur meminta Anda sebagai Data
Scientist untuk membantu tim IT membangun sebuah
model yang dapat memprediksi status stroke seseorang
dilihat dari rekam medis yang tersedia.
16
TUGAS!
◎ Berdasarkan studi kasus tersebut, sebagai seorang
data scientist, lakukan:
1. Analisis terhadap masalah yang akan diselesaikan
2. Tentukan tujuannya yang akan dicapai.
3. Tentukan data apa saja yang akan digunakan
4. Pahami setiap variabel pada dataset
17
Data yang miliki rumah sakit dapat di download di sini
Stroke Prediction Dataset (kaggle.com)
18
Thanks!
Any questions?
You can find me at:
annisa@akba.ac.id
085242324422
19