Dasar Statistika
Penyebaran Data: ringkasan numerik yang menunjukkan seberapa jauh data menyebar dari
rata-rata.
Visualisasi Data
Visualisasi membuat data menjadi lebih mudah dibaca, dimengerti, dan dipresentasikan dengan baik.
Ada empat macam grafik yang umum digunakan dalam statistika bergantung pada fungsinya, yakni
grafik untuk menunjukkan perbandingan, distribusi, komposisi, hubungan.
Statistika Inferensial
Distribusi
Enam macam distribusi dalam statistika adalah Distribusi Uniform, Distribusi Binomial, Distribusi
Bernoulli, Distribusi Poisson, Distribusi Normal (Distribusi Gauss), dan Distribusi Chi Square (Kai
Kuadrat).
Teorema limit pusat menyatakan jika semakin besar ukuran sampel, maka sifat dari distribusi akan
semakin mendekati distribusi normal dan akan memiliki karakteristik yang ada pada distribusi
normal. Dengan teorema limit pusat, kita tidak lagi memerlukan informasi yang banyak terkait
distribusi aktual dari sebuah variabel. Asalkan ada cukup sampel dalam variabel tersebut dan
jumlah mereka dapat didistribusikan secara normal.
▪ Multivariate Analysis: hubungan lebih dari satu variabel dependen dan independen.
Penerapannya:
- Supervised learning: algoritma yang melatih mesin untuk mencari pola data berlabel
(hasilnya diketahui) dan berjalan dengan cara memprediksi value. Contohnya regresi ganda
dan decision tree.
- Unsupervised learning: hasilnya tidak diketahui, sehingga mesin diharapkan bisa
menemukan pola dan struktur tersembunyi dalam data tidak berlabel. Algortima yang paling
popular adalah analisis cluster.
2. Hypothesis Testing
Pernyataan atau dugaan mengenai keadaan populasi melalui sampel yang diteliti.
- H0 (hipotesis nol) 🡪 pernyataan yang diasumsikan benar kecuali ada bukti kuat untuk
membantahnya. H0 selalu mengandung pernyataan “sama dengan”, “tidak ada pengaruh”, atau
“tidak ada perbedaan”
- H1 (hipotesis alternatif) 🡪 pernyataan yang dinyatakan benar jika H0 berhasil ditolak.
Pernyataannya “tidak sama dengan”, “ada pengaruh”, atau “ada perbedaan”
1. Menentukan H0
2. Menentukan H1
3. Menentukan statistik yang akan digunakan dengan daerah kritisnya 4. Menghitung statistik untuk
sampel yang dipunyai
5. Memutuskan apakah menolak atau menerima H0
Signifikansi P-value
Pilihan tingkat signifikansi yang paling umum digunakan: 0,05 (tingkat signifikansi 5%) dan 0,01
(tingkat signifikansi 1%). Jika nilai P-value lebih kecil dari tingkat signifikansi , maka H0 ditolak.
Sementara jika nilai P-value lebih besar tingkat signifikansi , maka H0 diterima.
A/B Testing
Salah satu contoh penerapan hypothesis testing adalah A/B Testing yang biasa digunakan untuk
membandingkan berbagai versi dari variabel. Dalam dunia teknologi dimanfaatkan untuk
menganalisis pengembangan halaman website atau platform. Kelebihan A/B Testing
Memberikan pilihan berdasarkan data, bukan sekadar opini subjektif - Hasil tes konklusif, sehingga
penyesuaian situs web dapat dilakukan segera setelah A/B Testing
Setelah kamu mempelajari tentang statistika, maka selanjutnya kamu perlu
mempelajari lebih lanjut tentang bahasa pemrograman SQL, R dan Python.
Karena seperti dijelaskan di materi video awal, bahwa mempelajari bahasa
pemrograman adalah bagian dari kemampuan yang perlu dimiliki oleh seorang
ahli statistika (data scientist)
Nah ngin tau seperti apa materinya? Simak di video selanjutnya bersama
Hendra Hadhil Choiri dan Muhammad Nassirudin