0% menganggap dokumen ini bermanfaat (0 suara)
86 tayangan19 halaman

Pertemuan 4 - Eksplorasi Data

Diunggah oleh

Hans Sapan Masiku
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
0% menganggap dokumen ini bermanfaat (0 suara)
86 tayangan19 halaman

Pertemuan 4 - Eksplorasi Data

Diunggah oleh

Hans Sapan Masiku
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd

DATA SCIENCE

Annisa Nurul Puteri, M.T.

4
EXPLORATORY
DATA ANALYSIS
1.
Tujuan Eksplorasi Data
Eksplorasi data dapat dimanfaatkan pada tahapan persiapan data
(preprocessing), pemodelan, dan tahapan interpretasi dari hasil
pemodelan.

3
Memahami Data

◎ Memberikan gambaran umum mengenai setiap


atribut atau variabel dalam dataset serta
hubungannya.
◎ Membantu dalam mengetahui nilai khas dari suatu
atribut, data yang berbeda dari tiap tipikal, data
pencilan (outlier), serta nilai minimum dan maksimum
dari suatu kumpulan data.

4
Mempersiapkan Data

◎ Sebelum menerapkan algoritma data science, dataset


harus siap untuk menangani setiap anomali yang
mungkin terjadi seperti adanya data pencilan (outlier),
nilai yang hilang (missing value), dan atribut yang
memiliki nilai korelasi yang sangat tinggi.

Beberapa algoritma data science tidak dapat bekerja dengan baik ketika
atribut saling berkorelasi dengan nilai yang sangat tinggi

5
Metode Data Science

◎ Terkadang eksplorasi data saja sudah dapat


menggantikan keseluruhan proses dalam data science.

◎ Misalnya Scatter plot dapat digunakan mengidentifikasi


cluster untuk data dengan dimensi rendah (low
dimensional data) dan visualisasi data dapat
membantu dalam mengembangkan model regresi atau
model klasifikasi untuk kasus-kasus sederhana.
6
Menafsirkan Hasil

◎ Eksplorasi data juga dapat digunakan untuk


memahami hasil prediksi, klasifikasi, atau
pengelompokan (clustering) yang didapatkan dari
keseluruhan proses data science.
◎ Misalnya, histogram membantu dalam proses
memahami distribusi atribut dan juga berguna untuk
memvisualisasikan prediksi numerik, estimasi Tingkat
kesalahan (error rate estimation) dan lain-lain.

7
2.
Proses pada Eksplorasi Data
Eksplorasi data umumnya dibagi menjadi dua tahapan, yaitu data
understanding dan data preprocessing.

8
Data Understanding

Proses dalam memahami data yang dimiliki, data apa yang tersedia,
berapa jumlah datanya, relevan/tidak, bagaimana kualitas datanya,
bagaimana data dikumpulkan dan lain sebagainya.

9
Data Preprocessing

◎ Mengubah data mentah menjadi format yang dapat


dimengerti.
◎ Data mentah pada kondisi nyata selalu tidak lengkap dan
tidak bersih sehingga diperlukan proses awal dalam
membersihkan data untuk mendapat model data yang
reliable.
◎ Proses dasar melingkupi seleksi variabel, penggabungan
(join), data cleaning untuk data yang duplikat, noise dan
outliers, transformasi data, serta dimensional reduction.
10
Data Preprocessing

◎ Contoh data preprocessing


1. Noise: umur bernilai negative
2. Outlier: tinggi badan yang lebih dari 300 meter
3. Duplikat: baris dengan nilai dan ID yang sama
muncul lebih dari 100 kali
4. Tidak lengkap: data agregat tanpa variabel
penting
5. Data yang hilang (missing value): cell kosong, -,
n/a, NA, NaN
11
3.
Hasil Eksplorasi Data
Hasil akhir dari eksplorasi data adalah data yang sudah siap untuk
diolah lebih lanjut.

12
Hasil Eksplorasi Data

Data hasil eksplorasi harus memenuhi syarat sebagi berikut:

Data yang sudah bersih


dari data ganda maupun
Clean data kosong, pencilan, dan
sebagainya.

Data yang sudah tersusun


Hasil Eksplorasi Data Tidy rapi dan terstruktur dalam
sebuah kolom dan baris.

Data yang sudah memiliki


format yang sama dalam
Consistent sebuah kolom, misalnya
tidak tercampur antara
data numerik dan teks.

13
4.
Project Data Science
Ayo mulai petualangan dengan data!

14
Studi Kasus

Project pertama kita adalah membantu sebuah rumah sakit.


Direktur rumah sakit ingin rumah sakitnya mengikuti
perkembangan zaman dengan memanfaatkan teknologi.
Rumah sakit ini memiliki tim IT yang bekerja untuk membangun
sebuah sistem informasi rumah sakit yang dapat menunjang
kegiatan operasional rumah sakit.

Direktur rumah sakit ingin tim IT tersebut membangun sebuah


aplikasi untuk memprediksi diagnosis penyakit tertentu pada
seorang pasien.
15
Studi Kasus

Secara spesifik, Direktur ingin sebuah aplikasi yang dapat


mendiagnosis status penyakit stroke seseorang. Namun, tim
IT belum mempunyai anggota tim yang dapat membuat
model prediksi menggunakan data yang ada.

Oleh karena itu, Direktur meminta Anda sebagai Data


Scientist untuk membantu tim IT membangun sebuah
model yang dapat memprediksi status stroke seseorang
dilihat dari rekam medis yang tersedia.

16
TUGAS!

◎ Berdasarkan studi kasus tersebut, sebagai seorang


data scientist, lakukan:
1. Analisis terhadap masalah yang akan diselesaikan
2. Tentukan tujuannya yang akan dicapai.
3. Tentukan data apa saja yang akan digunakan
4. Pahami setiap variabel pada dataset

17
Data yang miliki rumah sakit dapat di download di sini

Stroke Prediction Dataset (kaggle.com)

18
Thanks!
Any questions?
You can find me at:
annisa@akba.ac.id
085242324422

19

Anda mungkin juga menyukai