Anda di halaman 1dari 9

Kajian Keandalan Formula Ukuran Sampel sebagai Alat Inferensi Statistika dalam

Era Data Besar


Joko Ade N

Data Besar adalah sebuah istilah yang saat ini menjadi topik utama perstatistikan dunia.
Sudah barang tentu, istilah tersebut juga tidak asing lagi dalam perstatistikan Indonesia. Dalam
perkembangannya, Data Besar mulai masuk dan dikenal di Indonesia sejak tahun 2000 seiring
dengan kebutuhan manusia yang semakin banyak dan keinginan pemenuhan kebutuhannya yang
semakin cepat dan serba praktis. Oleh karena itu, Data Besar merupakan sebuah tantangan baru
dan harus dieksekusi sesegera mungkin dan seefisien mungkin. Semakin banyaknya kebutuhan
Data Besar secara otomatis juga menjadi tantangan besar dalam me-manage data secara
sistematis dan komprehensif. Hal tersebut dikarenakan Data Besar tidak hanya mencakup
mengenai suatu data yang berjumlah besar tetapi lebih pada sebuah sistem yang merupakan
perpaduan dari tiga unsur utama, yaitu volume, variasi dan kecepatan. Volume menyangkut
mengenai jumlah dari data yang besar, bahkan mencapai angka miliar data. Selain itu, volume
juga menunjukkan berbagai sub-sub populasi dari berbagai karakteristik yang bersatu padu
dalam kapasitas yang besar, misalnya data mengenai jumlah update status akun facebook sedunia
atau data nodes atau pengguna akun Twitter yang mencapai 47,1 Miliar nodes
1
. Sudah barang
tentu hal yang demikian tidaklah mampu untuk ditampung dalam media berkapasitas yang kecil
karena nantinya juga dibutuhkan sebagai frame pengambilan sampel untuk analisis. Variasi,
elemen variasi dalam Data Besar menunjukkan besarnya keragaman karakteristik yang ada dari
setiap kombinasi antar data dalam jumlah yang besar dalam satuan volume tertentu. Misalnya
data mengenai jumlah angkatan kerja Indonesia tahun 1997-2013 berdasarkan umur dan status
pendidikan menurut provinsi, dari data semacam ini pastinya akan menimbulkan variasi data
yang bisa besar atau malah kecil. Secara mendalam adanya variasi menunjukkan
keanekaragaman informasi dalam suatu data sehingga semakin bervariasi artinya data tersebut
semakin besar memberikan informasi dalam beragam karakteristik. Oleh karena itu, dalam Data
Besar terdapat informasi yang memungkinkan hampir tidak terbatas jumlahnya sehingga sangat
diperlukan alat yang sesuai untuk analisis yang nantinya digunakan sebagai pengambilan

1
Lu,Jianguo dan Li, Dingding.2012. Bias Correction in Small Sample from Big Data. Hal. 1.
kebijakan. Kecepatan, elemen ketiga ini sangat erat hubungannya dengan kendala waktu atas
keinginan para pengguna data karena selain ada beberapa sifat data yang sangat sensitif dan
strategis juga terdapat pula data yang memang pelu waktu relatif lama untuk digunakan,
misalnya data mengenai inflasi Badan Pusat Statistik (BPS) dan data Indeks Harga Saham
Gabungan (IHSG). Dalam hal ini kecepatan diperlukan karena menyangkut strategi bisnis dan
perdagangan sehingga menuntut agar informasi mengenai data tersebut bisa didapatkan oleh
pengguna data dengan cepat untuk segera mengambil keputusan dan kebijakan bisnis dan
perdagangan.
Menyangkut mengenai prosedur pengambilan keputusan dalam analisis Data Besar juga
merupakan tantangan tersendiri karena Data Besar lebih dari sekedar populasi data. Disinilah
muncul pemikiran prosedur pengambilan keputusan dengan penggunaan sampel. Pertanyaan
yang mungkin muncul adalah mengapa harus menggunakan sampel, bukankah dengan
menggunakan populasi akan menjamin terdapat informasi yang diperoleh lebih banyak. Mungkin
perlu dikemukakan terlebih dahulu mengenai definisi dan kendala penggunaan sampel. Menurut
Sugiyono (2007, hal. 116), sampel adalah bagian dari jumlah dan karakteristik yang dimiliki oleh
populasi bila populasi besar, dan peneliti tidak mampu mempelajari semua yang ada pada
populasi, misalnya karena keterbatasan dana, tenaga dan waktu maka peneliti dapat
menggunakan sampel yang diambil dari populasi tersebut untuk menggambarkan karakteristik
dari populasi. Urgensitas pengambilan Data Besar dengan penggunaan sampel saja merupakan
keharusan untuk efisiensi dan efektivitas proses analisis. Selain itu, dikarenakan penggunaan
populasi untuk dianalisis juga menjadi sia-sia ketika hal tersebut mempunyai keuntungan dan
manfaat yang sama jika hanya menggunakan sampel sehingga tidak efisien. Sebagai ilustrasi
kecil dalam kehidupan sehari-hari, dengan hanya mengambil sedikit nasi saja sudah cukup untuk
memperkirakan apakah seluruh nasi apakah sudah matang atau belum. Disinilah peranan sampel
dalam mendukung analisis Data besar.
Sejalan dengan kemajuan dan perkembangan ilmu pengetahuan dan teknologi, peranan
ilmu statistika mengalami banyak perubahan ke arah yang lebih baik, khususnya metodologi
penelitian, baik eksak maupun non-eksak. Keterkaitan dengan metodologi penelitian, dalam
prosedur untuk sampai tahapan analisis secara umum menggunakan metode sampling. Metode
sampling merupakan metode untuk mendapatkan sampel dari populasi, mulai dari tahapan
perencanaan hingga tahap akhir, yakni tahapan estimasi atau inferensia statistik.
Terkait dalam upaya mendapatkan sampel, dalam perkembangannya para ahli statistika
telah mengembangkan berbagai bentuk formula mengenai seberapa besar jumlah sampel yang
relevan untuk digunakan sebagai pondasi bahan baku analisis data. Relasinya dengan Data Besar,
dengan volumenya yang banyak dengan variasi yang besar serta adanya kendala waku dalam
aspek kecepatan dalam penyajian hasil kepada konsumen data, menjadikan peranan metode
untuk menentukan ukuran sampel juga sangat diperlukan karena menyangkut pemenuhan aspek
keterwakilan sampel terhadap populasi yang ada sehingga akan mampu menggambarkan seluruh
karakteristik dari populasi. Sampai saat ini, terdapat banyak bentuk formula untuk menentukan
sampel tersebut. Diantara beragam bentuk formula tersebut, yang dipakai dalam penelitian
adalah berdasarkan tingkat presisi, formula Slovin, formula Isaac-Michael dan formula Newbold.
Penggunaan beberapa formula tersebut yang sering dipakai dalam penelitian sangat
berhubungan dengan aspek kemudahan, biaya ekonomis. Namun lebih jauh lagi, penggunaan
formula tersebut tanpa didasari konsep atau dasar kuat justru akan menimbulkan kerancuan dan
keraguan terhadap ukuran sampel yang dipakai untuk dasar inferensia statistik nantinya. Menurut
Setiawan (2007, hal. 3), ketika seorang peneliti telah memutuskan untuk menggunakan
pendekatan statistika dalam menentukan ukuran sampel, paling tidak harus sangat
memperhatikan empat aspek mendasar, yaitu tujuan penelitian yang akan dilaksanakan, besar
tingkat keandalan pendugaan yang diinginkan, besar galat pendugaan yang akan ditolelir dan
kondisi keragaman populasi yang akan diteliti. Tidak hanya itu, ukuran atau jumlah populasi itu
sendiri juga perlu menjadi perhatian dalam semua tahapan menuju analisis data, apalagi dalam
hal ini dalam jumlah besar, seperti nodes (pengguna) jaringan akun Facebook dan Twitter atau
data jumlah penduduk dunia dalam kurun waktu 50 tahun menurut negara. Artinya perlu
dilakukan peninjauan jika populasinya mencapai ribuan bahkan mencapai miliaran. Sebagai
tambahan lagi, dalam hal ini juga dibutuhkan pemilihan pendekatan yang sesuai, apakah dengan
pendekatan probabilita statistik atau cukup menggunakan non-probabilita statistik. Namun,
sebaiknya dalam penelitian dengan Data Besar menggunakan pendekatan probabilita statistik
karena ketersediaan datanya sudah terpenuhi meskipun terkendala masalah efisiensi dan biaya.
Oleh karena adanya beberapa kriteria dan kendala tersebut, menjadikan pembahasan mengenai
formula penentuan ukuran sampel terkait fenomena Data Besar sangat menarik untuk dikaji
secara mendalam berdasarkan kajian literatur dan simulasi dengan berbagai ukuran populasi
yang merepresentasikan Data Besar.
Pertama mengenai formula ukuran sampel berdasarkan tingkat presisi atau derajat risiko
sampling umumnya digunakan untuk menentukan ukuran sampel yang sederhana dan
memberikan suatu ukuran peluang bahwa ukuran yang ditentukan mempunyai kekuatan dalam
tingkat kepercayaan tertentu. Secara matematis formula ukuran sampel tersebut dinyatakan
sebagai berikut :

2 2
2
2

S
n

=
(1)
dimana :
2

adalah karakteristik tertentu yang mengikuti distribusi peluang tertentu, misalnya


distribusi t atau distribusi normal (Z) dengan tingkat kesalahan sebesar
2

, dengan estimator
variasi dari populasi serta error marginal (tingkat kesalahan marginal) tertentu sebesar . Secara
teoritis formula tersebut digunakan dalam pengambilan sampel dengan pengembalian, sementara
yang digunakan dalam pengambilan sampel tanpa pengembalian diformulasikan sebagai berikut :
2 2
2
2 2 2
2

( 1)
S N
n
N S


=
+
(2)
Dalam berbagai penelitian kebanyakan memakai metode pengambilan sampel tanpa
pengembalian yang tergantung pada jumlah populasi (N). Berdasarkan ada beberapa hal yang
perlu diperhatikan sebelum menggunakan formula tersebut. Pertama adalah jumlah populasi
apakah sangat besar atau tidak karena erat kaitannya dengan Data Besar, misal jumlah populasi
blog buatan Indonesia tahun 2013. Sehingga formula tersebut diturunkan sebagai berikut :
2 2 2 2 2 2 2 2
2 2 2 2
2 2 2 2 2 2 2 2 2
2 2

lim
lim

0 0 ( 1) ( )
lim
N
N
N
N
S S N S S
N
N S N S
N



= = =
+ | | + +
|
|
\
uuur
uuur
uuur
(3)
Dalam hal ini dengan Data Besar, jumlah populasi sedemikian banyak sangat dipengaruhi oleh
distribusi peluang karakteristik, variasi data serta tingkat kesalahan marjinal yang ditentukan,
tetapi dalam hal ini perlu ditinjau ulang mengenai variasi dari populasinya, semakin besar
populasi (Data Besar) akan membuat variasi menjadi homogen sehingga diharapkan estimator
dari variasi sampel dapat mendekati variasi data yang sebenarnya. Penurunan formula tersebut
juga sama untuk formula Isaac-Michael, hanya saja distribusi yang digunakan adalah distribusi
Chi-square dengan derajat kebebasan sebesar 1.
Kedua, menentukan ukuran sampel berdasarkan formula Slovin. Formula ini sangat
sering bahkan menjadi umum digunakan oleh para peneliti untuk mendapatkan ukuran dalam
penelitiannya. Ketika penggunaan tersebut ditelisik lebih jauh, mungkin terdapat beberapa hal
yang perlu diperhatikan mengenai penggunaannya, khususnya untuk Data Besar. Formula Slovin
merupakan formula ukuran sampel yang sangat sederhana tetapi mengandung beberapa hal
didalamnya. Formula Slovin secara umum dinyatakan sebagai berikut :
2
1
N
n
N
=
+
(4)
Berdasarkan formula diatas, terlihat bahwa ukuran sampel dipengaruhi oleh dua hal, yaitu jumlah
populasi serta besarnya kesalahan marjinal yang diinginkan oleh peneliti. Menurut Setiawan
(2007, hal. 7), formula Slovin dapat diuraikan sebagai berikut :
2
2
2
2
2
0,025
2 2
0,025
2
2 2
2
2 2 2
2
. . .(1 )
. . .(1 )
. . .(1 )
. . .(1 )
.1, 96 .0, 5.(1 0, 5)
. 1, 96 .0, 5.(1 0, 5)
.2 .0, 5.(1 0, 5) .4.0, 25
. 2 .0, 5.(1 0, 5) . 4.0, 25
1 .
N Z P P
n
N Z P P
N Z P P
n
N Z P P
N
n
N
N N
n
N N
N
n
N

=
+

=
+

=
+

= =
+ +
=
+
(5)
Dan disimpulkan bahwa formula Slovin hanya dapat dipakai untuk menentukan ukuran
sampel untuk tujuan menduga porporsi populasi. Kemudian asumsi tingkat keandalan formula
Slovin sebesar 95% dengan

= 0,05 dan diperoleh nilai Z=1,96 dan dibulatkan menjadi 2.


Selain itu, asumsi keragaman populasi yang dimasukkan dalam perhitungan adalah P(1-P)
dengan nilai P=0,5). Dari hasil simulasi tersebut, terlihat bahwa penentuan mengenai ukuran
sampel dengan menggunakan tingkat keandalan 95% yang menghasilkan nilai Z dengan
pembulatan. Lebih tepatnya tingkat keandalan formula tersebut adalah 95,45% dengan

=0,0455
2
. Lebih lanjut jika dihadapkan pada Data Besar, formula Slovin dapat diturunkan
sebagai berikut :
2 2 2 2 2
lim
lim 1 1
lim
1 lim (1 ) 0 (1 )
lim
N
N
N
N
N
N
N N
N
N N N
N

= = = =
+ + + | | +
|
\
uuur
uuur
uuur
uuur
uuur
(6)
Dari penurunan tersebut terlihat
bahwa jika formula Slovin digunakan
untuk Data Besar (populasi sangat
besar) maka besarnya ukuran sampel
hanya bergantung pada tingkat
kesalahan marjinal yang ditentukan
oleh peneliti. Dengan memperhatikan
hasil simulasi disamping dapat
diperoleh bahwa ukuran sampel
maksimal yang dapat dihasilkan
formula Slovin adalah 400 untuk dan
batas maksimal jumlah populasi
sebesar 320.000
3
(dengan nilai
=0,05). Angka 400 sebagai angka
ukuran sampel maksimal tersebut didapatkan dengan formula
2
1

= 1/0,05
2
= 400. Hal ini
menunjukkan keandalan formula Slovin tidak serta merta mampu digunakan untuk Data Besar
karena mempunyai kecenderungan menghasilkan ukuran sampel yang stagnan pada angka seper-
kesalahan marjinal. Jikapun digunakan formula Slovin hanya dapat digunakan untuk populasi
berjumlah 320.000.
Ketiga, menentukan ukuran sampel dengan formula Isaac-Michael. Sebenarnya formula
Isaac-Michael sama dengan metode berdasarkan presisi, hanya saja Isaac-Michael menggunakan

2
Spiegel, Murray, Schiller, John and Srinivasan, R.Alu. 2002. Schaums Outlines, Probabilitas dan Statistik Edisi
kedua [alih bahasa oleh Refina Indriasari]. Hal. 167.
3
Berdasarkan perhitungan manual dengan bantuan Excell.
No N n n/N
1 10 10 0.98
2 30 28 0.93
3 70 60 0.85
4 150 109 0.73
5 400 200 0.50
6 1000 286 0.29
7 10000 385 0.04
8 100000 398 0.00
9 1000000 400 0.00
10 10000000 400 0.00
11 100000000 400 0.00
12 1000000000 400 0.00
13 10000000000 400 0.00
14 1E+11 400 0.00
15 1E+12 400 0.00
16 1E+17 400 0.00
distribusi Chi-square berderajat 1 dalam perhitungannya dan secara sistematis dituliskan sebagai
berikut :
2
(1)
2 2
( ,1)
2
(1)
2 2
(1)
2
2 2
2
2 2 2
2
. . .(1 )
. . .(1 )
. . .(1 )
. . .(1 )
.2 .0, 5.(1 0, 5)
. 2 .0, 5.(1 0, 5)
.2 .0, 5.(1 0, 5) .4.0, 25
. 2 .0, 5.(1 0, 5) . 4.0, 25
1 .
N P P
n
N P P
N P P
n
N P P
N
n
N
N N
n
N N
N
n
N

=
+

=
+

=
+

= =
+ +
=
+
(7)
Kesamaan ini didapatkan ketika menggunakan tingkat kepercayaan 82,34%
4
Chi-square
berderajat 1 dengan

= 0,1766 dengan asumsi bahwa


1
N n N n
N N

. Dengan jalan me-limit-


kan formula Isaac-Michael untuk Data Besar (dimana N mendekati tidak berhingga), didapatkan
formula
2
1
2
. .(1 ) P P
n

. Disini tampak bahwa formula Isaac-Michael mempunyai kesamaan


kehandalan dengan metode berdasarkan presisi, hanya saja keduanya dibedakan berdasarkan
tujuan penelitian, bahwa formula Isaac-Michael baik digunakan untuk menduga proporsi
populasi.
Terakhir adalah menentukan ukuran sampel dari Data Besar dengan menggunakan
formula Newbold (1995). Formula Newbold lebih sering digunakan dalam penelitian-penelitian
bidang pertanian. Beberapa penelitian dengan menggunakan formula Newbold diantaranya
Gunden, Miran dan Unakitan (2006), Korctuk (2006), Sahin et.al (2009), Artukoglu, Olgun dan
Adanacioglu (2010), Ozudogru (2011), Bektas et.al (2011), Engindeniz dan Cosar (2012),
Artukoglu, Olgun dan Adanacioglu (2012) dengan formula berikut :
2
. .(1 )
( 1) .(1 )
px
N p p
n
N p p

=
+
(8)

4
Hasil ini didapatkan dengan metode interpolasi antara Chi-square denga tingkat signifikansi 75% dan Chi-square
dengan tingkat signifikansi 90% pada derajat 1.
Dan dalam penelitian Sharafat (2013), menggunakan formula Newbold yang termodifikasi
menjadi sebagai berikut :
/2
2
2
/ 2
2
. .
. . .
Z p q
n
N Z p q
N

| |
|
\
=
| |
( +

|
|
\
(9)
Untuk melihat keandalan formula tersebut jika digunakan untuk Data Besar, maka diturunkan
sebagai berikut :
2 2 2
2 2
2 2
2
2
2 2
2
2
lim . .(1 )
lim . .(1 ) . .(1 )
lim
( 1) .(1 )
lim [( 1) .(1 )] [( 1) .(1 )]
lim
. .(1 )
.(1 )
0 0
N
N
N
px
N
N
N
p p
N p p N p p
N
N p p
N p p N p p
Z Z
N
Z p p
p p
Z


= =
+
+ +

= =
+ +
uuur
uuur
uuur
uuur
uuur
(10.1)
Dan formula termodifikasi diturunkan sebagai berikut :

2 2 / 2
2
2 2
2
2 2 2 2
/ 2
2 2 2
2
2
. .(1 )
. . .(1 ) lim . . .(1 )
lim lim
. . .(1 )
. . .(1 ) lim . . .(1 )
lim . . .(1 )
.
lim
N
N N
N
N
N
Z p p
Z N p p Z N p p
N Z p p
N Z p p N Z p p
N
N
Z p p
N
N

| |
|
\
= =
| | ( ( ( +
+ +

( ( |

|
\

=
uuur
uuur uuur
uuur
uuur
uuur
2
2
2
2 2
2
. .(1 )
. .(1 )
Z p p
Z p p
N

=
(
+
(

(10.2)

Berdasarkan hasil kedua formula tersebut, terlihat keduanya bergantung pada komponen yang
sama bila digunakan untuk Data Besar. Secara umum, formula tersebut digunakan dalam
penelitian untuk menduga besarnya proporsi populasi.
Dari keseluruhan formula yang digunakan untuk menentukan ukuran sampel, terlihat
semakin banyak jumlah populasi (N) keandalan formula tersebut semakin berkurang. Hal
tersebut tampak dari jumlah sampel yang dihasilkan stagnan pada jumlah tertentu saja dengan
kendala distribusi yang ditentukan, tingkat kesalahan marjinal, serta terhadap proporsi. Namun,
hal ini tidak serta merta bahwa sampel kurang mewakili terhadap populasi, melainkan ukuran
sampel maksimal tersebut memang sudah cukup dengan pertimbangan lain termasuk biaya
penelitian serta diharapakan sudah mencakup keseluruhan informasi dari populasi meskipun
jumlahnya besar.
Terlihat pula, semakin banyak asumsi yang digunakan dalam suatu formula ukuran
sampel menunjukkan ketidakmampuan formula tersebut untuk menangkap elemen lain yang
dalam populasi, misalnya karena varian populasi sebenarnya tidak diketahui, rerata sebenarnya
tidak diketahui atau hanya untuk aspek kemudahan serta biaya yang ekonomis. Selain itu,
semakin sederhana formula tersebut juga menjelaskan sejumlah asumsi yang harus dipenuhi dan
diperhatikan sehingga berguna sebagai informasi awal untuk keputusan penggunaan formula
ukuran sampel tertentu.

Anda mungkin juga menyukai