Anda di halaman 1dari 5

Statistic Foundation for Data Sciences (Rifan Kurnia)

Introduction to Statistic Foundation


- Cabang dari matematika
- Tentang data
- Peluang/probabilitas
- Data science

Tiga ilmu dasar data science


1. Statistika
2. Programming
3. Keahlian di bidang tertentu (bisnis, finance, psikologi, mining, dll)

Alur Kerja Data Science


1. Data Collection
2. Data Exploration
3. Model Training and Testing
4. Model Visualization and Interpretation
5. Model Implementation
Nomor 2, 3, dan 4 membutuhkan statistika.
Statistik adalah kumpulan data yang bisa memberikan gambaran tentang keadaan
sample. Statistika adalah ilmu yang mempelajari tentang statistik, tentang
bagaimana mengumpulkan, mengolah, menganalisis, menyajikan, hingga menarik
kesimpulan atas data. Statistika mempelajari masa lalu/pengalaman sebagai logika
pengambilan keputusan di masa depan. Contoh: Prakiraan cuaca, prakiraan keramaian,
dll.

Hal yang harus diketahui pada statistika:


- Tipe-tipe data statistika
- Populasi dan sampel
- Statistika deskriptif
- Visualisasi data
- Istilah penting statistika pada paper data science dan machine learning
- Statistika inferensial sederhana
- Eksperimentasi dalam A/B Testing

Data Type in Statistics


Data dikelompokkan berdasarkan:
1. Jenis
2. Cara Memperolehnya
3. Cara Pengukuran

Berdasarkan Jenisnya
1. Data Kategorikal
data kelompok dengan skala yang digunakan, yaitu:
- skala nominal
kelompok data kategori yang tidak dapat diurutkan seperti data pekerjaan dan
golongan darah
- skala ordinal
kelompok data kategori yang dapat diurutkan seperti tingkat pendidikan dan stadium
penyakit

2. Data Numerikal
data dari hasil pengukuran dengan skala, yaitu:
- skala interval
skala berdasarkan satuan unit yang sama dan konstan seperti nilai pelajaran.
- skala rasio
data dengan karakteristik interval dengan titik 0 mutlak.
Berdasarkan Cara Memperolehnya
1. Data Primer
data yang diperoleh langsung dari sumber data dengan langsung turun ke lapangan
seperti observasi.
2. Data Sekunder
data dari sumber tidak langsung dengan menggunakan data sebelumnya seperti BPS,
Dukcapil, dll.

Berdasarkan cara pengukuran


1. Data Kualitatif
data yang tidak boleh diukur secara nilai, seperti golongan darah, profesi, agama,
dll.
2. Data Kuantitatif
Data yang diukur dengan angka, seperti berat, tinggi, banyak benda, dll.

Sample and Population


Populasi adalah himpunan keseluruhan objek yang diamati. Nilai yang dihitung dari
populasi dan memberi deskripsi pada populasi tersebut disebut parameter.
Sampel adalah himpunan bagian dari populasi yang bertindak sebagai perwakilan dari
populasi, pengambilan sampel disebut sampling. Nilai yang dihitung dari sampel
disebut statistik.
Sampling dilakukan karena:
1. Ukuran populasi
2. Biaya lebih sedikit
3. Waktu lebih sedikit
4. Lebih aman untuk eksperimen yang merusak

Sampling Technique
1. Simple Random Sampling
pengambilan sampel secara acak pada populasi yang bersifat homogen dan tidak
terlalu bisa. Digunakan dengan metode undian atau menggunakan tabel bilangan
random, lebih mudah dilakukan dengan bantuan programming di R & Python.
2. Stratified Random Sampling
digunakan pada populasi yang dikelompokan dahulu, pemilihan sampel dilakukan secara
random pada masing-masing kelompok seperti simple random sampling. Keuntungannya
hasil lebih detail.
3. Clustering Sampling
digunakan untuk populasi kelompok yang anggotanya heterogen, namun karakteristik
antar kelompoknya homogen. Contohnya ibu-ibu hamil di 5 kota DKI Jakarta.
4. Systematic Random Sampling
pengambilan elemen pertama anggota dipilih secara acak, dan elemen selanjutnyta
diikuti secara sistematik. Misal 6 sampel dari 30 populasi menjadi 5 kenaikan
setelah sample pertama.

Descriptive Statistics
Statistika deskriptif adalah analisis menyajikan dan meringkas data sehingga
menjadi mudah dipahami.
Terdapat 2 jenis, yaitu:
1. Numerical Measure (Ringkasan Numerik)
meringkas data menjadi ukuran numerik, seperti mean (rata-rata) dan median.
Jenis ringkasan:
A Pemusatan data
ringkasan numerik yang menggambarkan dimana data berpusat.
- mean
jumlah semua data dibagi banyaknya data (rataan).
- median
nilai yang berada di tengah sekumpulan data yang telah diurutkan dari kecil ke
besar.
- modus
nilai yang paling sering muncul dalam kumpulan data. Suatu data mungkin memiliki
modus lebih dari satu.
Contoh kasus nilai ulangan matematika siswa x selama setahun
7.5, 8, 7, 6.5, 7, 7, 6.5, 8, 7.5, 8, 7, 7
mean = 7.25
median = (7+7)/2 = 7
modus = 7

B Penyebaran data (ukuran sebaran)


ringkasan numerik yang menunjukkan seberapa jauh data menyebar dari rata-rata.
- variansi (ragam)
nilai yang menggambarkan variabilitas data terhadap rata-ratanya.
ada rumusnya.
- standar deviasi
ukuran untuk mengetahui sebaran data dan ukurannya sama dengan data pengamatannya.
Semakin lancip distribusinya, maka standar deviasi semakin kecil. Umumnya digunakan
untuk mengetahui sampel yang diambil mewakili populasi atau tidak.
ada rumusnya

2. Basic Data Visual (Visualisasi Data)


menyajikan data secara visual/grafik agar terlihat lebih dinamis, informatif, serta
menarik. Bisa juga ditampilkan dengan tabel, info grafis, dll.
Macam-macam grafik statistika:
A. Grafik Perbandingan
- bar chart (diagram batang)
barchart terdiri dari sedikit kategori. Bentuknya sederhana sehingga langsung
dipahami.
- line chart
digunakan untuk non-cyclical data (tidak mengandung siklus). Bisa terdiri dari
beberapa kategori. Biasa digunakan untuk melihat tren. Menyajikan data
berkesinambungan dan kontinu.
B. Grafik Distribusi
- Bar histogram
terdiri dari satu variabel. Memiliki sedikit data poin. Berfungsi menunjukkan
frekuensi.
- line histogram
terdiri dari satu variabel. Memiliki lebih banyak data poin. Lebih mudah untuk
melihat data terdistribusi normal atau tidak.
C. Grafik Komposisi
- Grafik statis
pie chart dan waterfall chart (floating bricks/mario chars)
- Grafik yang periodik
stack bar (relative dan absolute differences), stack 100% bar chart , stacked area
chart, stacked area 100% chart (relative diffrences).
D. Grafik Hubungan
- Scatter plot
grafik yang terdiri dari dua variabel yang dibandingkan. Kedua variabel dikatakan
berkorelasi jika titik-titiknya bisa ditarik garis lurus. Biasanya digunakan dalam
analisis regresi.
- Scatter plot bubble size
menampilkan pengaruh dengan ukuran dan warna bubble. Terdiri dari 3 variabel atau
lebih.

Inferential Statistics
beberapa hal yang perlu diketahui:
- Estimasi titik
dugaan nilai tunggal untuk parameter populasi.
- Estimasi interval
dugaan nilai parameter populasi dalam bentuk interval.
- Uji Hipotesis
proses menentukan apakah parameter didukung kuat oleh data sampel untuk dijadikan
kesimpulan yang lebih luas dalam populasi.

Distribusi data statistika inferensial yang umum digunakan:


1. Distribusi Uniform (seragam)
distribusi paling sederhana yang memiliki peluang setiap nilai peubah acak (x)
bernilai sama. Digunakan dalam proses stokastik dan banyak berkontribusi dalam
engineering.
2. Distribusi Binomial
Eksperimen dilakukan n kali trivial secara independen. Setiap trivial ada
kemungkinan sukses atau gagal. Dasar dari uji binomial dalam uji signifikansi
statistik. Lebih mudah menggunakan tabel distribusi kumulatif.
3. Distribusi Bernoulli
Eksperimen dilakukan hanya 1 kali dengan menghasilkan kemungkinan sukses atau
gagal. Distribusi binomial = bernoulli jika n=1.
4. Distribusi Poisson
distribusi probabilitas diskret yang menyatakan peluang banyaknya sebuah peristiwa
terjadi dalam waktu dan daerah tertentu. Digunakan dalam teori antrean (queueing)
untuk menganalisa banyak kedatangan pelanggan. Lebih muda menggunakan tabel
distribusi poisson kumulatif.
5. Distribusi Normal (Gauss)
model distribusi kontinu yang banyak digunakan sebagai asumsi dalam berbagai uji
statistik (paling penting). Lebih mudah menggunakan tabel distribusi normal standar
atau tabel z.
6. Distribusi Chi Square
jenis uji komparatif non parametris yang dilakukan pada dua variabel skala nominal.

Central Limit Theorem

Distribusi variabel adalah nilai variabel dalam populasi yang mengikuti distribusi
probabilitas yang berbeda.
Distribusi probabilitas dapat menjadi normal, left-skewed (condong ke kiri), right-
skewed (condong ke kanan), dan uniform.
Semakin besar ukuran sampel, maka sifat distribusi akan semakin mendekati
distribusi normal.
Contoh mengetahui kelebihan berat penumpang dari suatu pesawat yang sudah diketahui
simpangan bakunya.

Inferential Statistics' Analysis and Testing

Univariate Analysis
1. Exploratory Data Analysis
bagian penting sebelum feature engineering dan modelling karena harus mengerti
distribusi, frekuensi, korelasi, dll.
A Univariate Analysis
untuk satu variabel. Umumnya analisis ini hanya menghasilkan distribusi frekuensi
dan persentase dari tiap variabel.
B. Bivariate Analysis
analisis ini dapat dilakukan setelah menjalani univariate. Analisis ini digunakan
untuk dua variabel (dependen dan independen) yang diduga berkorelasi. Penerapannya:
- Jika variabel 1 kategorik dan variabel 2 kategorik = Chi Square.
- Jika variabel 1 kategorik dan variabel 2 numerik = Uji T anova
- Jika variabel 1 numerik dan variabel 2 numerik = Uji Korelasi
C. Multivariate Analysis: hubungan lebih dari satu variabel dependen dan
independen. Penerapannya:
- Supervised learning
algoritma yang melatih mesin untuk mencari pola data berlabel (hasilnya diketahui)
dan berjalan dengan cara memprediksi value. Contohnya regresi ganda dan decision
tree.
- Unsupervised learning: hasilnya tidak diketahui, sehingga mesin diharapkan bisa
menemukan pola dan struktur tersembunyi dalam data tidak berlabel. Algortima yang
paling popular adalah analisis cluster.

2. Hypothesis Testing
pernyataan atau dugaan mengenai keadaan populasi melalui sampel yang diteliti.
- H0 (hipotesis nol) = pernyataan yang diasumsikan benar kecuali ada bukti kuat
untuk membantahnya. H0 selalu mengandung pernyataan “sama
dengan”, “tidak ada pengaruh”, atau “tidak ada perbedaan”
- H1 (hipotesis alternatif) = pernyataan yang dinyatakan benar jika H0 berhasil
ditolak. Pernyataannya “tidak sama dengan”, “ada pengaruh”, atau “ada perbedaan”
A. Uji Hipotesis dengan P-value
peluang kesalahan ditolaknya H0, atau diterimanya H1. Langkah pengujiannya:
- Menentukan H0
- Menentukan H1
- Menentukan statistik yang akan digunakan dengan daerah kritisnya
- Menghitung statistik untuk sampel yang dipunyai
- Memutuskan apakah menolak atau menerima H

B. Signifikansi P-value
pilihan tingkat signifikansi yang paling umum digunakan: 0,05 (tingkat signifikansi
5%) dan 0,01 (tingkat signifikansi 1%). Jika nilai P-value lebih kecil dari tingkat
signifikansi (𝛂), maka H0 ditolak. Sementara jika nilai P-value lebih besar tingkat
signifikansi (𝛂), maka H0 diterima.

C. A/B Testing
salah satu vontoh penerapan hypothesis testing adalah A/B Testing yang biasa
digunakan untuk membandingkan berbagai versi dari variabel. Dalam dunia teknologi
dimanfaatkan untuk menganalisis pengembangan halaman website atau platform.
Kelebihan A/B Testing
- Memberikan pilihan berdasarkan data, bukan sekadar opini subjektif
- Hasil tes konklusif, sehingga penyesuaian situs web dapat dilakukan segera
setelah A/B Testing

Anda mungkin juga menyukai