Anda di halaman 1dari 5

RANGKUMAN

Statistika Dasar untuk Data Science

Dasar Statistika

Data science secara ideal membutuhkan 3 ilmu dasar, yakni statistika,


Data
programming, dan juga keahlian di bidang tertentu, seperti business, finance,
Science psychology, mining, dan lainnya.

Populasi dan Sampel


Populasi adalah himpunan keseluruhan objek yang diamati. Nilai yang dihitung dari populasi
dan memberi deskripsi pada populasi tersebut disebut parameter. Sementara sampel adalah
himpunan bagian dari populasi, pengambilan sampel disebut sampling. Sampling lebih unggul
dibanding sensus karena lebih praktis serta menghemat waktu dan biaya.
Statistika Deskriptif
Pemusatan Data
Ringkasan numerik yang menggambarkan letak data berpusat. Contohnya adalah mean, median,
dan modus.

Rumus Pemusatan Data

Penyebaran Data: ringkasan numerik yang menunjukkan seberapa jauh data menyebar dari
rata-rata.

Visualisasi Data

Visualisasi membuat data menjadi lebih mudah dibaca, dimengerti, dan dipresentasikan dengan baik.
Ada empat macam grafik yang umum digunakan dalam statistika bergantung pada fungsinya, yakni
grafik untuk menunjukkan perbandingan, distribusi, komposisi, hubungan.
Statistika Inferensial
Distribusi

Enam macam distribusi dalam statistika adalah Distribusi Uniform, Distribusi Binomial, Distribusi
Bernoulli, Distribusi Poisson, Distribusi Normal (Distribusi Gauss), dan Distribusi Chi Square (Kai
Kuadrat).

Central Limit Theorem (Teorema Limit Pusat)

Teorema limit pusat menyatakan jika semakin besar ukuran sampel, maka sifat dari distribusi akan
semakin mendekati distribusi normal dan akan memiliki karakteristik yang ada pada distribusi
normal. Dengan teorema limit pusat, kita tidak lagi memerlukan informasi yang banyak terkait
distribusi aktual dari sebuah variabel. Asalkan ada cukup sampel dalam variabel tersebut dan
jumlah mereka dapat didistribusikan secara normal.

Analisis dan Uji Statistika Inferensial

1. Exploratory Data Analysis


▪ Univariate Analysis: untuk satu variabel. Umumnya analisis ini hanya menghasilkan distribusi
frekuensi dan persentase dari tiap variabel.
▪ Bivariate Analysis: untuk dua variabel (dependen dan independen) yang diduga berkorelasi.
Penerapannya:
- Jika variabel 1 kategorik dan variabel 2 kategorik yaitu Chi Square.

- Jika variabel 1 kategorik dan variabel 2 numerik yaitu Uji T anova

- Jika variabel 1 numerik dan variabel 2 numerik yaitu Uji Korelasi

▪ Multivariate Analysis: hubungan lebih dari satu variabel dependen dan independen.
Penerapannya:
- Supervised learning: algoritma yang melatih mesin untuk mencari pola data berlabel
(hasilnya diketahui) dan berjalan dengan cara memprediksi value. Contohnya regresi ganda
dan decision tree.
- Unsupervised learning: hasilnya tidak diketahui, sehingga mesin diharapkan bisa
menemukan pola dan struktur tersembunyi dalam data tidak berlabel. Algortima yang paling
popular adalah analisis cluster.
2. Hypothesis Testing
Pernyataan atau dugaan mengenai keadaan populasi melalui sampel yang diteliti.

- H0 (hipotesis nol) 🡪 pernyataan yang diasumsikan benar kecuali ada bukti kuat untuk
membantahnya. H0 selalu mengandung pernyataan “sama dengan”, “tidak ada pengaruh”, atau
“tidak ada perbedaan”
- H1 (hipotesis alternatif) 🡪 pernyataan yang dinyatakan benar jika H0 berhasil ditolak.
Pernyataannya “tidak sama dengan”, “ada pengaruh”, atau “ada perbedaan”

Uji Hipotesis dengan P-value


Peluang kesalahan ditolaknya H0, atau diterimanya H1. Langkah pengujiannya:

1. Menentukan H0
2. Menentukan H1
3. Menentukan statistik yang akan digunakan dengan daerah kritisnya 4. Menghitung statistik untuk
sampel yang dipunyai
5. Memutuskan apakah menolak atau menerima H0

Signifikansi P-value
Pilihan tingkat signifikansi yang paling umum digunakan: 0,05 (tingkat signifikansi 5%) dan 0,01
(tingkat signifikansi 1%). Jika nilai P-value lebih kecil dari tingkat signifikansi , maka H0 ditolak.
Sementara jika nilai P-value lebih besar tingkat signifikansi , maka H0 diterima.

A/B Testing
Salah satu contoh penerapan hypothesis testing adalah A/B Testing yang biasa digunakan untuk
membandingkan berbagai versi dari variabel. Dalam dunia teknologi dimanfaatkan untuk
menganalisis pengembangan halaman website atau platform. Kelebihan A/B Testing

Memberikan pilihan berdasarkan data, bukan sekadar opini subjektif - Hasil tes konklusif, sehingga
penyesuaian situs web dapat dilakukan segera setelah A/B Testing
Setelah kamu mempelajari tentang statistika, maka selanjutnya kamu perlu
mempelajari lebih lanjut tentang bahasa pemrograman SQL, R dan Python.
Karena seperti dijelaskan di materi video awal, bahwa mempelajari bahasa
pemrograman adalah bagian dari kemampuan yang perlu dimiliki oleh seorang
ahli statistika (data scientist)

Nah ngin tau seperti apa materinya? Simak di video selanjutnya bersama
Hendra Hadhil Choiri dan Muhammad Nassirudin

Anda mungkin juga menyukai