Berdasarkan Jenisnya
1. Data Kategorikal
data kelompok dengan skala yang digunakan, yaitu:
- skala nominal
kelompok data kategori yang tidak dapat diurutkan seperti data pekerjaan dan
golongan darah
- skala ordinal
kelompok data kategori yang dapat diurutkan seperti tingkat pendidikan dan stadium
penyakit
2. Data Numerikal
data dari hasil pengukuran dengan skala, yaitu:
- skala interval
skala berdasarkan satuan unit yang sama dan konstan seperti nilai pelajaran.
- skala rasio
data dengan karakteristik interval dengan titik 0 mutlak.
Berdasarkan Cara Memperolehnya
1. Data Primer
data yang diperoleh langsung dari sumber data dengan langsung turun ke lapangan
seperti observasi.
2. Data Sekunder
data dari sumber tidak langsung dengan menggunakan data sebelumnya seperti BPS,
Dukcapil, dll.
Sampling Technique
1. Simple Random Sampling
pengambilan sampel secara acak pada populasi yang bersifat homogen dan tidak
terlalu bisa. Digunakan dengan metode undian atau menggunakan tabel bilangan
random, lebih mudah dilakukan dengan bantuan programming di R & Python.
2. Stratified Random Sampling
digunakan pada populasi yang dikelompokan dahulu, pemilihan sampel dilakukan secara
random pada masing-masing kelompok seperti simple random sampling. Keuntungannya
hasil lebih detail.
3. Clustering Sampling
digunakan untuk populasi kelompok yang anggotanya heterogen, namun karakteristik
antar kelompoknya homogen. Contohnya ibu-ibu hamil di 5 kota DKI Jakarta.
4. Systematic Random Sampling
pengambilan elemen pertama anggota dipilih secara acak, dan elemen selanjutnyta
diikuti secara sistematik. Misal 6 sampel dari 30 populasi menjadi 5 kenaikan
setelah sample pertama.
Descriptive Statistics
Statistika deskriptif adalah analisis menyajikan dan meringkas data sehingga
menjadi mudah dipahami.
Terdapat 2 jenis, yaitu:
1. Numerical Measure (Ringkasan Numerik)
meringkas data menjadi ukuran numerik, seperti mean (rata-rata) dan median.
Jenis ringkasan:
A Pemusatan data
ringkasan numerik yang menggambarkan dimana data berpusat.
- mean
jumlah semua data dibagi banyaknya data (rataan).
- median
nilai yang berada di tengah sekumpulan data yang telah diurutkan dari kecil ke
besar.
- modus
nilai yang paling sering muncul dalam kumpulan data. Suatu data mungkin memiliki
modus lebih dari satu.
Contoh kasus nilai ulangan matematika siswa x selama setahun
7.5, 8, 7, 6.5, 7, 7, 6.5, 8, 7.5, 8, 7, 7
mean = 7.25
median = (7+7)/2 = 7
modus = 7
Inferential Statistics
beberapa hal yang perlu diketahui:
- Estimasi titik
dugaan nilai tunggal untuk parameter populasi.
- Estimasi interval
dugaan nilai parameter populasi dalam bentuk interval.
- Uji Hipotesis
proses menentukan apakah parameter didukung kuat oleh data sampel untuk dijadikan
kesimpulan yang lebih luas dalam populasi.
Distribusi variabel adalah nilai variabel dalam populasi yang mengikuti distribusi
probabilitas yang berbeda.
Distribusi probabilitas dapat menjadi normal, left-skewed (condong ke kiri), right-
skewed (condong ke kanan), dan uniform.
Semakin besar ukuran sampel, maka sifat distribusi akan semakin mendekati
distribusi normal.
Contoh mengetahui kelebihan berat penumpang dari suatu pesawat yang sudah diketahui
simpangan bakunya.
Univariate Analysis
1. Exploratory Data Analysis
bagian penting sebelum feature engineering dan modelling karena harus mengerti
distribusi, frekuensi, korelasi, dll.
A Univariate Analysis
untuk satu variabel. Umumnya analisis ini hanya menghasilkan distribusi frekuensi
dan persentase dari tiap variabel.
B. Bivariate Analysis
analisis ini dapat dilakukan setelah menjalani univariate. Analisis ini digunakan
untuk dua variabel (dependen dan independen) yang diduga berkorelasi. Penerapannya:
- Jika variabel 1 kategorik dan variabel 2 kategorik = Chi Square.
- Jika variabel 1 kategorik dan variabel 2 numerik = Uji T anova
- Jika variabel 1 numerik dan variabel 2 numerik = Uji Korelasi
C. Multivariate Analysis: hubungan lebih dari satu variabel dependen dan
independen. Penerapannya:
- Supervised learning
algoritma yang melatih mesin untuk mencari pola data berlabel (hasilnya diketahui)
dan berjalan dengan cara memprediksi value. Contohnya regresi ganda dan decision
tree.
- Unsupervised learning: hasilnya tidak diketahui, sehingga mesin diharapkan bisa
menemukan pola dan struktur tersembunyi dalam data tidak berlabel. Algortima yang
paling popular adalah analisis cluster.
2. Hypothesis Testing
pernyataan atau dugaan mengenai keadaan populasi melalui sampel yang diteliti.
- H0 (hipotesis nol) = pernyataan yang diasumsikan benar kecuali ada bukti kuat
untuk membantahnya. H0 selalu mengandung pernyataan “sama
dengan”, “tidak ada pengaruh”, atau “tidak ada perbedaan”
- H1 (hipotesis alternatif) = pernyataan yang dinyatakan benar jika H0 berhasil
ditolak. Pernyataannya “tidak sama dengan”, “ada pengaruh”, atau “ada perbedaan”
A. Uji Hipotesis dengan P-value
peluang kesalahan ditolaknya H0, atau diterimanya H1. Langkah pengujiannya:
- Menentukan H0
- Menentukan H1
- Menentukan statistik yang akan digunakan dengan daerah kritisnya
- Menghitung statistik untuk sampel yang dipunyai
- Memutuskan apakah menolak atau menerima H
B. Signifikansi P-value
pilihan tingkat signifikansi yang paling umum digunakan: 0,05 (tingkat signifikansi
5%) dan 0,01 (tingkat signifikansi 1%). Jika nilai P-value lebih kecil dari tingkat
signifikansi (𝛂), maka H0 ditolak. Sementara jika nilai P-value lebih besar tingkat
signifikansi (𝛂), maka H0 diterima.
C. A/B Testing
salah satu vontoh penerapan hypothesis testing adalah A/B Testing yang biasa
digunakan untuk membandingkan berbagai versi dari variabel. Dalam dunia teknologi
dimanfaatkan untuk menganalisis pengembangan halaman website atau platform.
Kelebihan A/B Testing
- Memberikan pilihan berdasarkan data, bukan sekadar opini subjektif
- Hasil tes konklusif, sehingga penyesuaian situs web dapat dilakukan segera
setelah A/B Testing