Anda di halaman 1dari 42

Course: Introduction to Data Analytics for Business

Meeting 2
Part I - Descriptive Statistics
Pendidikan

Sarjana Komunikasi Hubungan


Masyarakat, Universitas Paramadina
Magister Manajemen Marketing,
Universitas Negeri Jakarta

Pengalaman Kerja

Advertising and Promotion, Trax FM


Semarang
Account Executive, Goers
Nama Expert
Sales Executive, Moka POS
Account Manager, Ruangguru
Materi Pembelajaran

Dalam materi ini kita akan belajar mengenai:

a. Describing datasets
b. Summarizing datasets
Coba kalian sebutkan dan jelaskan tentang..

Statistics Types
Sampling

SAMPLES

Kita percaya bahwa 95% dari pengukuran detak jantung tiap


mahasiswa yang dilakukan di kelas Statistika adalah nilai Didapatkan pengukuran detak jantung setiap
rata-rata detak jantung semua mahasiswa yang berjalan mahasiswa di kelas Statistika setelah berjalan
rutin antara ___ dan ___ detak/menit. di dalam kelas dengan rata-rata (mean) __,
standar deviasi (standard deviation) sebesar
__, dan minimum sebesar__, maksimum
sebesar__detak/menit
Describing Datasets
Overview

• Bayangkan, jika para manajer membutuhkan informasi yang dapat membantu mereka mengidentifikasi tren dan
menyesuaikan untuk merubah kondisi bisnis, dan apakah dengan tumpukan data mentah akan membantu mereka?
• Lalu, bagaimana seorang Bisnis atau Data Analis dapat mengkonversi raw data menjadi sebuah informasi yang
bermanfaat?
• Ahli statistika memberikan banyak metode yang dapat membantu untuk organize, explore, dan summarize data yang
lebih ringkas.
• Deskripsi sebuah data set dapat melalui dua metode sebagai berikut:
• Secara visual (charts, graphs, tabel)
• Secara numerical (statistik)
Describing Datasets
Frequency tables and graphs

• Frekuensi adalah banyaknya jumlah kejadian pada suatu nilai yang muncul pada suatu data.
• Contoh: Tabel frekuensi tentang gaji awal tahunan dari 42 lulusan sarjana Teknik Elektro (satuan ribuan dollar)

Apa interpretasi yang dapat diambil dari tabel frekuensi di samping?


• Gaji awal terendah yaitu $57,000 diterima 4 orang
• Gaji awal tertinggi yaitu $70,000 diterima 1 orang
• Gaji awal yang paling sering diterima $62,000 diterima 10 orang
Describing Datasets
Frequency tables and graphs

• Dari Starting Salary dapat direpresentasikan dalam bentuk grafik garis (line graph), dimana
• x axis menyatakan nilai unique (distinct)
• y axis menyatakan frekuensi dimana dapat dilihat dari tinggi garis vertikal
• Ketika garis yang ditambahkan dengan suatu ketebalan pada Line Graph, disebut dengan Bar Graph
• Tipe grafik lainnya adalah frequency polygon dengan menghubungkan titik yang di-plot dengan sebuah garis

Line Graph Bar Graph Frequency Polygon


Describing Datasets
Relative Frequency tables and graphs

• Relative Frequency adalah proporsi dari sebuah nilai yang terdapat pada data.
Misal, frekuensi untuk starting salary $57,000 adalah 4 orang dari 42 orang, maka proporsi dari suatu ukuran data set
adalah 4/42 = 0.0952

• Relative frequency dapat ditampilkan melalui relative frequency line/bar graph, relative frequency polygon

• Pie Chart juga sering digunakan untuk menunjukkan relative frequency ketika data yang dimiliki bukanlah numerik
Contoh: Data 200 pasien yang mendaftar di klinik spesialis cancer dengan tipe cancer yang berbeda
Describing Datasets
Frequency distribution

Real Case:
Perusahaan persewaan Mobil bertindak sebagai vendor
transportasi untuk perusahaan lain dengan kepentingan
antar-jemput para pegawai. Perusahaan menerapkan KPI
vehicle speed di bawah 50 km/jam untuk area dalam kota.
Alat GPS yang dipasang akan mengirimkan data setiap
menit. Kemudian, perusahaan meminta laporan mengenai
kendaraan para driver dalam menjalankan tugasnya di
kurun waktu tertentu. Maka, apa yang harus dilakukan
untuk mulai mendeskripsikan data tersebut?
Describing Datasets
Frequency distribution

• Frequency distributions (distribusi frekuensi) adalah sebuah tabel yang dibentuk dengan mengklasifikasikan sejumlah n
value dari sebuah data menjadi beberapa kelas k atau disebut dengan Bins.

• Meskipun Line atau Bar graph sering dianggap sebagai cara yang efektif untuk menggambarkan data set, namun jika
kita memiliki data dimana nilainya beragam dan ukurannya yang sangat besar maka Frequency distribution adalah
pendekatan yang sesuai.

• Agar mendapatkan sebuah esensi dari data tersebut, langkah awal adalah membagi nilai-nilai tersebut menjadi
beberapa kelompok atau class intervals ketimbang menilai secara individu. Kemudian nilai-nilai tersebut diplot di tiap
class interval.

• Untuk membuat tabel frequency distribution, kita perlu membuat batasan bin (bin size) dimana setiap bin memiliki
beberapa nilai yang ada di dalam data dengan lebar bin yang sama.

• Lalu, pada tabel terdapat nilai frekuensi yang diperoleh dari data dan didefinisikan di dalam tiap bin.
Describing Datasets
Frequency distributions

• Misalkan kita memiliki variabel yang berisikan nilai kuantitas produk yang terjual per customer

Cara membuat tabel frequency distribution:


1. Urutkan (sort) data dari yang paling kecil ke besar nilainya
2. Tentukan jumlah bins
3. Set batas bins
4. Masukkan nilai-nilai data sesuai bin
5. Buatlah tabel

1. Sort the data with Ascending order

• xmin = 2, xmax = 50
Describing Datasets
Frequency distribution

2. Choose number of Bins

• Menggunakan Formula Sturges’ Rule atau untuk menentukan Number of Bins berdasarkan Sample Size (dimana n = 42, lihat pada
tabel sebelumnya)

k = 1 + 3.3 log (42) = 1 + 3.3 (1.623) = 6.3559 bins ~ 6.4 bins

3. Set Bin limits

• Menentukan batas bin, sehingga Bin width = (50 - 2)/6 = 8

4. Put Data Values in appropriate bins

• Lower limit dimasukkan ke dalam bin


Describing Datasets
Frequency distribution

5. Create Table and visualize it using Histogram

Bin Limits Frequency Relative Cumulative Cumulative Relative


Frequency Frequency Frequency

2 < 10 18 0.4286 18 0.429

10 < 18 12 0.2857 30 0.714

18 < 26 6 0.1429 36 0.857

26 < 34 1 0.0238 37 0.881

34 < 42 3 0.0714 40 0.952

42 < 50 2 0.0476 42 1.000


Describing Datasets
Preliminary Study

Setiap tahun, J.D. Power & Asosiasi kendaraan menunjukkan penilaian awal terhadap kualitas kendaraan yang mana penilaian ini
mempengaruhi pelanggan, dealers, dan produsen/pabrik. Data di bawah ini merupakan data sampel dari beberapa brand yang diambil secara
random, lalu dihitung berapa jumlah yang mengalami kecacatan, dan akan diringkas menggunakan numerical statistics.
Describing Datasets
Case Study

1. Sort the data 2. Visualkan melalui Histogram


Summarizing Datasets
Overview

• Ukuran deskriptif (descriptive measures) yang diperoleh dari sebuah sampel (n-buah) disebut sebagai Statistik
Jika ukuran tersebut diperoleh dari sebuah populasi (N-buah atau tidak terhingga) maka disebut sebagai Parameter.
• Karakteristik data dapat dilihat dari perspektif berikut:
Summarizing Datasets
Central Tendency

• Central Tendency digunakan untuk mendeskripsikan nilai titik tengah dari suatu distribusi nilai yang terdapat dalam data set.

• Meskipun dengan menggunakan Histogram, kita dapat melihat Central Tendency dari sebuah data, namun numerical statistics akan lebih
banyak membantu dengan memberikan keterangan yang tepat.

• Terdapat 6 ukuran pemusatan data atau Central Tendency Measures


Summarizing Datasets
Central Tendency - Mean
• Berikut adalah formula untuk menghitung Mean berdasarkan Populasi dan Sampel

Contoh, dari data set Car Defect rata-rata defect yang dihasilkan dari 37 brands adalah
Summarizing Datasets
Central Tendeancy - Median
• Median adalah nilai tengah dari deret angka yang diurutkan dari paling kecil sampai paling besar

• Namun, cara menghitung median berdasarkan dari jumlah data ganjil dan genap
Summarizing Datasets
Central Tendeancy - Mode
• Mode adalah nilai yang paling sering muncul

• Namun, untuk menghitung Mode tidaklah mudah jika data set yang dimiliki dengan sampel size yang sedikit. Misalkan, dalam sampel car
defect dengan n = 37 brands, terdapat 6 modes yang terjadi dua kali.

• Sehingga, untuk continuous data, mode tidak terlalu membantu karena nilai yang dimiliki kemungkinan akan jarang untuk berulang. Maka
Mode, sangat berguna pada ukuran pemusatan data Kategorikal dengan mendeskripsikan variabel diskrit.
TERIMA KASIH
Course: Introduction to Data Analytics for Business

Meeting 2
Part II - Descriptive Statistics
Pendidikan

Sarjana Komunikasi Hubungan


Masyarakat, Universitas Paramadina
Magister Manajemen Marketing,
Universitas Negeri Jakarta

Pengalaman Kerja

Advertising and Promotion, Trax FM


Semarang
Account Executive, Goers
Nama Expert
Sales Executive, Moka POS
Account Manager, Ruangguru
Materi Pembelajaran

Dalam materi kedua ini kita akan belajar mengenai:

a. Measures of Dispersion
b. Graphical representation of a variable
Dalam sesi pertama kita mempelajari tentang Central of Tendency

Yuk, jelaskan kembali apa fungsi dari


Central Tendency dan apa saja
measure-nya
Measures of Dispersion
Overview
• Di dalam sesi sebelumnya, kita sudah mengenal karakteristik dari sebuah data yang dapat dilihat sebagai berikut.
• Kita dapat menggunakan statistik seperti Mean untuk mendeskripsikan titik tengah pada sebuah distribusi data.
• Namun, perlu diingat bahwa sama pentingnya untuk melihat bagaimana nilai individu dari sebuah data bervariasi di sekitar nilai Mean
Measures of Dispersion
Dispersion

• Berikut adalah contoh distribusi sampel waktu belajar yang dihabiskan beberapa mahasiswa yang mengambil kelas ekonomi.

• Dari ketiga diagram diatas memiliki nilai mean yang sama, tetapi memiliki penyebaran data yang berbeda di sekitar
mean.
• Lalu, bagaimana mendeskripsikan dispersion atau penyebaran di dalam sebuah sampel?
• Beberapa variabel memiliki mean yang berbeda dengan ukuran satuan yang berbeda, maka kita perlu mencari sebuah
ukuran untuk penyebaran data yang dapat diaplikasikan di situasi apapun.
• Meskipun Histogram atau dot plot memberikan kita informasi mengenai variasi dalam data set (atau “spread” titik poin di sekitar titik tengah),
namun kita perlu sebuah nilai ukur dispersion.
Measures of Dispersion
Range

• Range merupakan selisih antara nilai yang terbesar dan terkecil dalam suatu distribusi dimana dapat memberikan informasi kepada analis
atau peneliti bagaimana sebaran data dari nilai-nilai dalam suatu distribusi.
• Namun, ukuran ini tidak terlalu berguna karena dapat mengarahkan ke informasi yang keliru.
Contoh:
Dalam sebuah survey 100 pelajar yang mengalami depresi, mungkin akan terdapat 1 pelajar yang memberikan score 1, dan lainnya 20,
tetapi 98 lainnya mungkin memberikan 10. Sehingga range yang didapat adalah 20 -1 = 19. Meskipun, nilai tersebut tidak tersebar jauh
seperti nilai range yang dihasilkan.
• Sehingga, ukuran range yang umum digunakan pada sebuah distribusi adalah Interquartile range (IQR).
• Tidak seperti range, IQR menunjukkan selisih nilai yang tepat pada 75th percentile (the third quartile) dan nilai yang jatuh tepat pada 25th
percentile (the first quartile)
Measures of Dispersion
Five Measures of Dispersion
Measures of Dispersion
Variance and Standard Deviation

• Variance memberikan sebuah rata-rata statistikal dari keseluruhan penyebaran data pada sebuah distribusi.
• Konsep dari Variance adalah jika kita menghitung selisih dari tiap data poin dengan nilai mean, maka kita akan mendapatkan kedua nilai
baik positif dan negatif.
• Jika mean adalah titik keseimbangan dari sebuah distribusi, lalu kita jumlahkan semua selisih di atas dan dilakukan rata-rata maka kita akan
selalu memperoleh nilai Nol. Angka Nol tidak akan memberikan informasi yang berguna tentang penyebaran data.
• Untuk menghindari masalah di atas, maka diperlukan square atau akar dari selisih tersebut sebelum kita mencari sebuah rata-rata.

 
Measures of Dispersion
Variance and Standard Deviation

• Lalu apa perbedaan sample variance dengan standar deviation?


• Standard deviation (the square root of the variance) merupakan sebuah angka yang membantu kita memahami bagaimana nilai data poin di
dalam data set secara individual berbeda dari nilai rata-rata.
• Standard deviation pada populasi

• Standard deviation bersifat nonnegative karena deviasi yang ada di sekitar mean dilakukan pangkat. Sehingga, jika ada data poin yang
memiliki nilai sama dengan mean, maka standard deviation akan menjadi Nol atau dengan kata lain tidak ada variasi data.
• Standard deviation hanya bisa dibandingkan dengan data set yang diukur dalam satuan yang sama.
Measures of Dispersion
Central Tendency vs Dispersion

• Berikut adalah contoh histogram dengan data mengenai diameter lubang hasil pengeboran pelat baja selama proses produksi.

• Interpretasi apa yang bisa didapatkan dari kedua histogram di atas?


Measures of Dispersion
The Empirical Rule

• Standard deviation merupakan ukuran persebaran yang penting karena banyak digunakan dalam ilmu statistik. Salah satunya adalah
mengukur posisi data poin dari susunan data.
• Oleh karena itu, di Empirical Rule, atau Gaussian Distribution mengenai kurva berbentuk Bell oleh Karl Gauss (1777-1855).
• Data dengan distribusi normal (normal distribution) akan interval μ ± kσ untuk mengetahui persentase yang diketahui dari data.
Measures of Dispersion
Outliers or Unusual Observations

• Empirical Rule menyarankan sebuah kriteria untuk mendeteksi sebuah observasi yang tidak umum/biasa disebut dengan Unusual
observations (melebihi μ ± 2σ) atau outliers (melebihi μ ± 3σ) .
• Contoh.
Dalam sebuah data set berisikan beberapa nilai yang besar, maka dari situ apakah dapat diklasifikasikan sebagai unusual atau outliers?

• dimana x¯ = 22.72 dan s = 14.08


• Terdapat nilai unusual data value (55) dan 2 outliers (68 dan 91) sehingga bisa diindikasikan bahwa sample ini kemungkinan tidak berasal
dari populasi normal dengan catatan jumlah sampel yang tidak besar.
Measures of Dispersion
Skewness and Kurtosis

• Skewness dapat dilihat dari sampel histogram atau membandingkan mean dan median
Measures of Dispersion
Skewness and Kurtosis

• Kurtosis merupakan panjang dari tail atau ekor statistik yang digunakan dalam memberikan gambaran apakah distribusi data cenderung
rata atau runcing.
Graphical representation of a variable
Box plots

• Alat yang berguna dalam Exploratory Data Analysis (EDA) adalah Box Plot (a box-and-whisker plot) berdasarkan 5 kesimpulan angka
Graphical representation of a variable
Box plots

• Box plot seringnya digunakan dalam plotting data point untuk merangkum ukuran statistik dalam sebuah data set.

• Panjang dari garis yang ada di box plot memiliki nilai yang sama dengan hasil pengurangan antara nilai terbesar dengan nilai terkecil pada
data atau dikenal dengan sebutan Range of data.
• Panjang dari box itu sendiri memiliki nilai yang sama dengan third quartile dikurangi first quartile, atau dikenal dengan Interquartile Range.
Graphical representation of a variable
Box plots

• Contoh penggunaan Box Plots dari Prices of Four Stocks


Graphical representation of a variable
Box plots

• Contoh penggunaan Box Plots dari rata-rata ketersediaan kasur di UGD pada hari Sabtu berdasarkan satuan jam
TERIMA KASIH

Anda mungkin juga menyukai