Anda di halaman 1dari 36

Statistika Dasar

Ukuran Data

Semester Ganjil 08/09


FMIPA Unlam
Pokok Bahasan
 Ukuran Tendensi Pusat (Kecenderungan)
 Rerata, median, modus, rerata geometrik, midrange
 Ukuran Lokasi (Letak)
 Kuartil, desil, persentil, kuantil
 Ukuran Dispersi (Sebaran)
 Rentang, Interquartile range, variansi, deviasi standar,
koefisien variasi
 Bentuk Distribusi
 Simetrik, menceng, runcing, box-and-whisker plots
Pokok Bahasan
(lanjutan)
 Hubungan antara variabel non-kategorik
 Analisis korelasi
 Analisis Regresi
 Mengetahui prinsip dasar dan bagaimana analisis ini
diimplementasikan
 Memahami cara intrepertasi koefisien korelasi dan
regresi
 Memahami cara menggunakan teknik tersebut
dengan baik
 Kesulitan dalam pengukuran deskriptif numerik dan
pertimbangan etika
Macam Ukuran
Macam Ukuran

Tendensi Pusat Kuantil Variasi


Rerata Modus
Median Rentang Koefisien
Variasi
Variansi

Deviasi Standar
Rerata Geometrik
Ukuran Tendensi Pusat
Tendensi Pusat

Rerata Median Modus


n

X i
Rerata Geometrik
X  i 1

n X G   X 1  X 2   X n 
N

X
1/ n
i
 i 1

N
Rerata (Rerata Hitung)
 Rerata suatu data kuantitatif
 Rerata Sampel
n Ukuran Sampel

X i
X1  X 2    X n
X i 1

n n
 Rerata Populasi
N Ukuran Populasi
X i
X1  X 2    X N
 i 1

N N
Rerata (Rerata Hitung)
(lanjutan)

 Ukuran tendensi pusat yang paling sering


digunakan
 Sangat dipengaruhi ekstrim (pencilan/outliers)

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14

Rerata = 5 Rerata= 6
Median
 Ukuran tendensi pusat yang tegar
 Tidak terpengaruh oleh data ekstrim

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14

Median = 5 Median = 5
 Setelah data diurutkan, median adalah angka yang
terletak “ditengah”
 Jika n atau N ganjil, median adalah angka di tengah
 Jika n atau N genap, median adalah rerata kedua angka
ditengah
Modus
 Adalah suatu ukuran tendensi pusat
 Datum yang paling banyak muncul
 Tidak terpengaruh oleh harga ekstrim
 Dapat ada untuk data numerik atau kategorik
 Dapat tidak ada
 Dapat tidak tunggal

0 1 2 3 4 5 6
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Tak Ada
Modus = 9
Modus
Rerata Geometrik
 Digunakan sebagai ukuran laju perubahan
(rate of change) variabel menurut waktu
X G   X 1  X 2   X n 
1/ n

 Rerata Geometrik rate of return


 Ukuran status suatu investasi menurut waktu

RG   1  R1    1  R2      1  Rn  
1/ n
1
Contoh
Suatu investasi $100,000 declined to $50,000 pada akhir
tahun pertama dan rebounded to $100,000 pada akhir
tahun kedua:
X 1  $100, 000 X 2  $50, 000 X 3  $100, 000
Average rate of return:
(50%)  (100%)
X  25%
2
Geometric rate of return:
RG   1   50%     1   100%   
1/ 2
1

  0.50    2  
1/ 2
 1  11/ 2  1  0%
Kuartil
 Membagi Data Berurut menjadi 4 Kelompok

25% 25% 25% 25%

K 1  K 2  K 3 in  1
 Letak Kuartil ke-i Ki  
4
Data setelah diurutkan : 11 12 13 16 16 17 18 21
22 1 9  1  12  13
Position of Q1   2.5 Q1   12.5

dan , bukan4 ukuran Tendensi Pusat
2
Q3 suatu ukuran Tendensi Pusat
 Q = Median,
1
Q2
Ukuran Variasi
Variasi

Variansi Deviasi Standar Koefisien


Rentang
Variasi
Variansi Deviasi
Populasi Standar
Variansi Populasi
Sampel Deviasi
Standar
Rentang Interkuartil
Sampel
Rentang
 Ukuran variasi
 Difference between the largest and the
smallest observations:
Rentang
X terbesar X terkecil
 Tidak bergantung pada (bentuk) distrib. data
Rentang =12 - 7= 5 Rentang =12 - 7= 5

7 8 9 10 11 7 8 9 10 11
12 12
Rentang Interkuartil
 Suatu ukuran variasi
 Dikenal juga sebagai midspread
 Spread dalam 50% ditengah
 Perbedaan antara kuartil pertama dan ketiga
Data setelah diurutkan: 11 12 13 16 16 17 17 18 21

Interquartile Range  Q3  Q1  17.5  12.5  5

 Tidak terpengaruh oleh harga ekstrim


Variansi
 Adalah salah satu ukuran variasi yang penting
 Menunjukkan variasi data terhadap rerata
n

 X X
2
i

Variansi sampel:
S2  i 1

n 1
N

 X 
2
 Variansi populasi: i
 
2 i 1

N
Deviasi Standar
 Ukuran variasi terpenting
 Menunjukkan variasi terhadap rerata
 Mempunyai unit yang sama dengan data asli
n

 X X
2
i
 Deviasi standar sampel: S i 1

n 1
N

 X 
2
i
 Deviasi standar populasi:   i 1

N
Membandingkan Deviasi Standar
Data A Rerata=15.5
s = 3.338
11 12 13 14 15 16 17 18 19 20 21

Data B
Rerata=15.5
11 12 13 14 15 16 17 18 19 20 21 s = .9258

Data C
Rerata=15.5
11 12 13 14 15 16 17 18 19 20 21 s = 4.57
Koefisien Variasi

 Adalah ukuran variasi relatif


 Selalu diukur dalam persen (%)
 Adalah ukuran variasi relatif terhadap rerata
 Digunakan untuk membandingkan beberapa
kelompok data yang diukur dengan unit
berbeda
S 

CV   100%
X 
Membandingkan Koefisien Variasi

 Stock A:
 Rerata harga tahun lalu = $50
 Deviasi standar = $5
 Stock B:
 Rerata harga tahun lalu = $100
 Deviasi standar = $5
 Koefisien Variasi S
   $5 
 Stock A: CV   100%   100%  10%
X  $50 
S  $5 
 Stock B: CV   100%   100%  5%
X  $100 
Bentuk suatu Distribusi
 Menjelaskan bagaimana data di distribusikan
 Ukuran bentuk
 Simetrik atau menceng

Menceng Kekiri Simetrik Menceng Kekanan


Rerata < Median < ModusRerata = Median =Modus Modis < Median < Rerata
Analisis Data Eksploratori:
 Box-and-whisker plot
 Gambar data dengan 5-number summary

Median( K 2) Xterbesar
X terkecil K3
K1

4 6 8 10 12
Bentuk Distribusi dan
Box-and-Whisker Plot

Menceng Kekiri Simetrik Menceng Kekanan

K1 K 2K 3 K 1K 2 K 3 K 1K 2 K 3
Hubungan antar variabel metrik

(contoh: penjualan dan harga)

Variabel metrik/kuantitatif hasilnya


berskala interval atau ratio
Koefisien Korelasi
 Adalah ukuran keeratan hubungan/asosiasi
linear antara dua variabel metrik/kuantitatif

 X i  X   Yi  Y 
r i 1
n n

 X X  Y Y 
2 2
i i
i 1 i 1
Hal Penting tentang Koefisien Korelasi

 Bebas unit
 Harganya antara -1 dan 1
 Semakin mendekati -1, semakin kuat hubungan linear
negatifnya
 Semakin mendekati 1, semakin kuat hubungan linear
positifnya
 Semakin mendekati 0, semakin lemah hubungan
linearnya
Scatter Plots Data dengan
berbagai Koefisien Korelasi
Y Y Y

X X X
r = -1 r = -.6 r=0
Y Y

X X
r = .6 r=1
Associations in non-categorical data
What if we are interested in associations but do not observe all data in categories?
i.e., our data are metric Data

$ ad spending* profits**
1. categorize and cross tabulate 1.52 7.67

but … you lose information 0.64 12.07

3.91 11.88

2. correlation / regression analysis 0.16 4.27

3.11 4.27

Etc… Etc…

30.00 Cross table* Ad profit


spending in millions ** profits in millions

Grand
20.00
$ ad spending -10-0 0 -10 10-20 20-30 Total

0-1 31% 57% 13% 0% 100%


10.00 1-2 6% 74% 20% 0% 100%

2-3 0% 51% 48% 1% 100%


0.00
0.00 1.00 2.00 3.00 4.00 5.00 3-4 0% 28% 62% 10% 100%

4-5 0% 15% 60% 24% 100%


-10.00

Grand Total 8% 47% 39% 7% 100%


sales

sales
1 1

0.9 0.9

0.8 r = 0.00 0.8 r = 0.50


0.7 0.7

0.6 0.6

0.5 0.5

0.4 0.4

0.3 0.3

0.2 0.2

0.1 0.1

0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
ad spending ad spending
sales

sales
1 1

0.9 0.9

0.8 r = 1.00 0.8 r = – 0.50


0.7 0.7

0.6 0.6

0.5 0.5

0.4 0.4

0.3 0.3

0.2 0.2

0.1 0.1

0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
ad spending ad spending
Matriks Korelasi
digunakan untuk membuat laporan tentang korelasi antara beberapa variabel

Misalnya purchase consumer price


likelihood innova- consci-
new product tiveness ousness age income

purchase likelihood new product 1 0.52 -0.46 0.04 0.83

consumer innovativeness 1 -0.33 -0.21 0.28

price consciousness 1 0.34 -0.42

age 1 0.19

income 1
Regression analysis: Analisis Regresi

Analisis Korelasi Hubungan antara dua variabel metrik (skala interval atau rasio)

Analisis Regresi Bentuk hubungan antara dua atau lebih variabel metrik

sales as function of price

$48,400.00 Banyak aplikasi dalam penelitian


$48,200.00
menggunakan analisis regresi
$48,000.00

$47,800.00
Contohnya
sales

$47,600.00

$47,400.00

$47,200.00 determining optimal prices for products,


$47,000.00
new product development (conjoint)
$46,800.00
etc, etc…: Menentukan harga optimal utk
$1.90 $2.00 $2.10 $2.20 $2.30 $2.40 $2.50 $2.60 suatu produk, perkembangan produk baru
price
(conjoint), dll.
Regresi Linear
regresi linear Yi = a + b1 X i1 + b2 X i2 + … + bK X iK + e i

observed unobserved

Yi dependent variable bk regression coefficient


variable related to various other variables measures the change of Yi as Xik
e.g., sales, preference increases by one unit
i-th measurement unit (e.g., store, consumer)
a intercept
Xik independent variables value of Yi when all Xik= 0
set of variables that influence
the value of the dependent variable
e.g., prices, promotions, etc. ei residual error
k=1,…,K variables unobserved errors. E.g.,
measurement error
missing variables
Contoh Regresi Linear
Data set
sales as function of price sales (Y) price (X)

1 47878 2.16
$48,400.00
2 48235 2.15
$48,200.00 3 47347 2.38
Y = a + b X = 50,000 – 1,000 X
$48,000.00 4 47848 2.16
… …
(Y)

$47,800.00
ei 99 47986 2.09
sales

$47,600.00
100 47611 2.22
Yi
$47,400.00

$47,200.00
observation
$47,000.00
subject i
Xi
$46,800.00
$1.90 $2.00 $2.10 $2.20 $2.30 $2.40 $2.50 $2.60
price (X)
Kelemahan pengukuran deskriptif numerik

 Analisis data adalah sesuatu yang obyektif


 Kesimpulan yang dilaporkan harus harus sesuai
dengan asumsi set data
 Interpretasi data adalah sesuatu yang
subyektif
 Harus dilakukan secara adil, netral dan jelas
Pertimbangan Etika
Ukuran deskriptif numerik
 Harus dapat menunjukkan hasil yang baik

maupun buruk
 Harus ditunjukkan secara adil, obyektif dan

netral
 Should not use inappropriate summary

measures to distort facts

Anda mungkin juga menyukai