Anda di halaman 1dari 2

5 Konsep Statistik Dasar Data yang Perlu Diketahui Para Ilmuwan

Pergi ke profil George Seif


George Seif
22 Okt 2018

Statistik dapat menjadi alat yang ampuh ketika melakukan seni Data Science (DS). Dari tampilan
tingkat tinggi, statistik adalah penggunaan matematika untuk melakukan analisis data secara teknis.
Visualisasi dasar seperti bagan batang mungkin memberi Anda beberapa informasi tingkat tinggi,
tetapi dengan statistik kami dapat beroperasi pada data dengan cara yang lebih berorientasi
informasi dan terarah. Matematika yang terlibat membantu kami membentuk kesimpulan konkret
tentang data kami dan bukan hanya menebak-nebak.

Dengan menggunakan statistik, kita dapat memperoleh wawasan yang lebih dalam dan lebih baik
tentang bagaimana tepatnya data kita disusun dan berdasarkan pada struktur itu bagaimana kita
dapat secara optimal menerapkan teknik ilmu data lainnya untuk mendapatkan lebih banyak
informasi. Hari ini, kita akan melihat 5 konsep statistik dasar yang perlu diketahui oleh para ilmuwan
data dan bagaimana mereka dapat diterapkan secara paling efektif!

Fitur Statistik

Fitur statistik mungkin adalah konsep statistik yang paling banyak digunakan dalam ilmu data.
Seringkali teknik statistik pertama yang Anda terapkan ketika menjelajahi dataset dan termasuk hal-
hal seperti bias, varian, rata-rata, median, persentil, dan banyak lainnya. Semuanya mudah
dimengerti dan diimplementasikan dalam kode! Lihat gambar di bawah ini untuk ilustrasi.
Plot kotak dasar

Garis di tengah adalah nilai median data. Median digunakan di atas rata-rata karena lebih kuat untuk
nilai outlier. Kuartil pertama pada dasarnya adalah persentil ke-25; Yaitu 25% poin dalam data jatuh
di bawah nilai itu. Kuartil ketiga adalah persentil ke-75; yaitu 75% poin dalam data berada di bawah
nilai itu. Nilai min dan maks mewakili ujung atas dan bawah dari rentang data kami.

Sebuah plot kotak menggambarkan dengan sempurna apa yang dapat kita lakukan dengan fitur
statistik dasar:

    Ketika plot kotak pendek, ini menyiratkan bahwa banyak titik data Anda serupa, karena ada
banyak nilai dalam rentang kecil
    Ketika plot kotak tinggi, ini menyiratkan bahwa sebagian besar titik data Anda sangat berbeda,
karena nilainya tersebar di rentang yang luas
    Jika nilai median lebih dekat ke bawah maka kita tahu bahwa sebagian besar data memiliki nilai
lebih rendah. Jika nilai median lebih dekat ke atas maka kita tahu bahwa sebagian besar data
memiliki nilai lebih tinggi. Pada dasarnya, jika garis median tidak di tengah kotak maka itu
merupakan indikasi data miring.
    Apakah kumisnya sangat panjang? Itu berarti data Anda memiliki deviasi standar tinggi dan
variansi yaitu nilainya menyebar dan sangat bervariasi. Jika Anda memiliki kumis panjang di satu sisi
kotak tetapi tidak di sisi lain, maka data Anda mungkin sangat bervariasi hanya dalam satu arah.

Semua informasi itu dari beberapa fitur statistik sederhana yang mudah dihitung! Cobalah ini setiap
kali Anda membutuhkan tampilan data Anda yang cepat namun informatif.

Distribusi Probabilitas

Kita dapat mendefinisikan probabilitas sebagai peluang persen bahwa beberapa peristiwa akan
terjadi. Dalam ilmu data ini biasanya diukur dalam kisaran 0 hingga 1 di mana 0 berarti kita yakin ini
tidak akan terjadi dan 1 berarti kita yakin itu akan terjadi. Distribusi probabilitas kemudian
merupakan fungsi yang mewakili probabilitas semua nilai yang mungkin dalam percobaan. Lihat
gambar di bawah ini untuk ilustrasi.
Distribusi Probabilitas Umum. Seragam (kiri), Normal (tengah), Poisson (kanan)

    Distribusi yang Seragam adalah yang paling dasar dari 3 yang kami tampilkan di sini. Ini memiliki
nilai tunggal yang hanya terjadi dalam rentang tertentu sementara apa pun di luar rentang itu hanya
0. Ini sangat banyak distribusi “hidup atau mati”. Kita juga dapat menganggapnya sebagai indikasi
variabel kategori dengan 2 kategori: 0 atau nilainya. Variabel kategorikal Anda mungkin memiliki
beberapa nilai selain 0 tetapi kami masih dapat memvisualisasikannya dengan fungsi yang sama dari
beberapa distribusi seragam.
    Distribusi Normal, biasanya disebut sebagai Distribusi Gaussian, secara khusus ditentukan oleh
mean dan standar deviasinya. Nilai rata-rata menggeser distribusi secara spasial dan standar deviasi
mengontrol penyebaran. Perbedaan impor dari distribusi lain (mis. Poisson) adalah bahwa standar
deviasi sama untuk semua arah. Jadi dengan distribusi Gaussian kita tahu nilai rata-rata dataset kami
serta penyebaran data yaitu apakah itu tersebar di berbagai macam atau sangat terkonsentrasi di
sekitar beberapa nilai.
    Distribusi Poisson mirip dengan Normal tetapi dengan faktor kemiringan tambahan. Dengan nilai
rendah untuk kemiringan, distribusi poisson akan memiliki penyebaran yang relatif seragam di
semua arah seperti Normal. Tetapi ketika nilai skewness tinggi besarnya maka penyebaran data kami
akan berbeda dalam arah yang berbeda; di satu arah akan sangat menyebar dan di sisi lain akan
sangat terkonsentrasi.

Ada banyak lagi distribusi yang bisa Anda selami, tetapi ke-3 itu sudah memberi kami banyak nilai.
Kita dapat dengan cepat melihat dan menafsirkan varian kategorikal kita

Anda mungkin juga menyukai