Anda di halaman 1dari 2

AI4Jobs | Kampus Merdeka Batch 3

Nama : Nyzatty Arifin


Kelas : Al-Jazari
Link video: https://www.youtube.com/watch?v=OzxmCTPpbN8

EDA
Exploratory Data Analysis (EDA) diibaratkan sebagai jantung data science dan jiwa bagi
seluruh proses Analisa data. Kemampuan untuk melakukan EDA dengan baik adalah dasar utama
bagi seluruh profesi yang terkait dengan pengolahan data, baik itu business intelligence, data
analyst, data scientist, dan lainnya. EDA juga menjadi tahapan yang amat menentukan seberapa
baik Analisa data selanjutnya akan dihasilkan. Komponen EDA meliputi preprocessing, perhitungan
berbagai nilai statistik dasar (e.g. ukuran dan penyebaran data), visualisasi, penyusunan hipotesis,
pemeriksaan asumsi, hingga story telling dan reporting. Di dalamnya juga termasuk proses
penanganan missing values, outlier, reduksi dimensi, pengelompokan, transformasi, dan distribusi
data. Tools yang digunakan antara lain adalah Python, R, S-Plus, dan sebagainya.
Adapun tujuan EDA : Menyarankan hipotesis tentang penyebab fenomena yang diamati,
Menilai asusmsi yang menjadi dasar inferensi statistik, Menudukung pemilihan teknik statistik yang
tepat dan Memberikan dasar untuk pengumpulan data lebih lanjut.

DATA PREPROCESSING
Data Preprocessing adalah teknik yang digunakan untuk mengubah data mentah menjadi
format yang berguna dan efisien. Data preprocessing yang berbeda akan menghasilkan kesimpulan
insight yang berbeda juga. Proses dasar preprocessing yakni seleksi variabel, data cleaning
(duplikasi, noise dan outliers), transformasi data dan dimensional reduction. Data di dunia nyata
biasanya tidak sebersih data di buku akademik maka dilakukan noise, outlier, duplikasi, encoding
dan sebagainya. Ananlisis pada data yang tidak di preprocessing biasanya menghasilkan insight
yang tidak/ kurang tepat atau dikenal dengan Garbage in – Grabage out.
Berikut Langkah – langkah utama dalam melakukan data preprocessing.
a. Data Gathering
b. Data Cleaning
c. Transformasi Data
d. Normalisasi/Standarisasi
e. Data Reduksi

PA
AI4Jobs | Kampus Merdeka Batch 3
Noisy Data
Noisy Data dapat terjadi karena kesalahan instrumen pengukuran, kesalahan input, transmisi
yang tidak sempurna dan inkonsistensi penamaan. Outliners data yang memiliki kararteristik secara
signifikan berbeda dengan kebanyakan data lainnya menurut suatu kriteria tertentu yang ditetapkan
dapat membuat datanya valid dan di Big data sangat umum terjadi. Outliers terbagi menjadi dua
yakni :Univariate outliers dan multivariate outliers.

Missing Value
Missing Value adalah hilangnya beberapa data yang telah diperoleh. Dalam dunia data
science, missing value erat kaitannya dalam proses perselisihan data (data wrangling) sebelum
nantinya akan dilakukan analisis dan prediksi data serta penyebab missing values yakni error pada
data entry. Berikut ini tipe missing value.
a. Missing At Random (MAR)
b. Missing Not At Random (MNAR)
Missing value dapat digantikan dengan metode menginputasi missing value. Metode
imputasi adalah mengisi data hilang dengan nilai yang diperkirakan cukup layak dan kemudian
dianalisis dengan metode baku untuk data lengkap. Berikut ini beberapa jenis metode imputasi
missing values.
a. Univariate Imputation : Imputasi dengan median/ mean / modus
b. Singel Imputation : Imputasi dengan metode supervised learning
c. Multivariate Imputation

PA

Anda mungkin juga menyukai