Kajian Keandalan Formula Ukuran Sampel sebagai Alat Inferensi Statistika dalam Era Data Besar Joko Ade N Data Besar adalah sebuah istilah yang saat ini menjadi topik utama perstatistikan dunia. Sudah barang tentu, istilah tersebut juga tidak asing lagi dalam perstatistikan Indonesia. Dalam perkembangannya, Data Besar mulai masuk dan dikenal di Indonesia sejak tahun 2000 seiring dengan kebutuhan manusia yang semakin banyak dan keinginan pemenuhan kebutuhannya yang semakin cepat dan serba praktis. Oleh karena itu, Data Besar merupakan sebuah tantangan baru dan harus dieksekusi sesegera mungkin dan seefisien mungkin. Semakin banyaknya kebutuhan Data Besar secara otomatis juga menjadi tantangan besar dalam me-manage data secara sistematis dan komprehensif. Hal tersebut dikarenakan Data Besar tidak hanya mencakup mengenai suatu data yang berjumlah besar tetapi lebih pada sebuah sistem yang merupakan perpaduan dari tiga unsur utama, yaitu volume, variasi dan kecepatan. Volume menyangkut mengenai jumlah dari data yang besar, bahkan mencapai angka miliar data. Selain itu, volume juga menunjukkan berbagai sub-sub populasi dari berbagai karakteristik yang bersatu padu dalam kapasitas yang besar, misalnya data mengenai jumlah update status akun facebook sedunia atau data nodes atau pengguna akun Twitter yang mencapai 47,1 Miliar nodes1. Sudah barang tentu hal yang demikian tidaklah mampu untuk ditampung dalam media berkapasitas yang kecil karena nantinya juga dibutuhkan sebagai frame pengambilan sampel untuk analisis. Variasi, elemen variasi dalam Data Besar menunjukkan besarnya keragaman karakteristik yang ada dari setiap kombinasi antar data dalam jumlah yang besar dalam satuan volume tertentu. Misalnya data mengenai jumlah angkatan kerja Indonesia tahun 1997-2013 berdasarkan umur dan status pendidikan menurut provinsi, dari data semacam ini pastinya akan menimbulkan variasi data yang bisa besar atau malah kecil. Secara mendalam adanya variasi menunjukkan keanekaragaman informasi dalam suatu data sehingga semakin bervariasi artinya data tersebut semakin besar memberikan informasi dalam beragam karakteristik. Oleh karena itu, dalam Data Besar terdapat informasi yang memungkinkan hampir tidak terbatas jumlahnya sehingga sangat diperlukan alat yang sesuai untuk analisis yang nantinya digunakan sebagai pengambilan
1
Lu,Jianguo dan Li, Dingding.2012. Bias Correction in Small Sample from Big Data. Hal. 1.
kebijakan. Kecepatan, elemen ketiga ini sangat erat hubungannya dengan kendala waktu atas keinginan para pengguna data karena selain ada beberapa sifat data yang sangat sensitif dan strategis juga terdapat pula data yang memang pelu waktu relatif lama untuk digunakan, misalnya data mengenai inflasi Badan Pusat Statistik (BPS) dan data Indeks Harga Saham Gabungan (IHSG). Dalam hal ini kecepatan diperlukan karena menyangkut strategi bisnis dan perdagangan sehingga menuntut agar informasi mengenai data tersebut bisa didapatkan oleh pengguna data dengan cepat untuk segera mengambil keputusan dan kebijakan bisnis dan perdagangan. Menyangkut mengenai prosedur pengambilan keputusan dalam analisis Data Besar juga merupakan tantangan tersendiri karena Data Besar lebih dari sekedar “populasi” data. Disinilah muncul pemikiran prosedur pengambilan keputusan dengan penggunaan sampel. Pertanyaan yang mungkin muncul adalah mengapa harus menggunakan sampel, bukankah dengan menggunakan populasi akan menjamin terdapat informasi yang diperoleh lebih banyak. Mungkin perlu dikemukakan terlebih dahulu mengenai definisi dan kendala penggunaan sampel. Menurut Sugiyono (2007, hal. 116), sampel adalah bagian dari jumlah dan karakteristik yang dimiliki oleh populasi bila populasi besar, dan peneliti tidak mampu mempelajari semua yang ada pada populasi, misalnya karena keterbatasan dana, tenaga dan waktu maka peneliti dapat menggunakan sampel yang diambil dari populasi tersebut untuk menggambarkan karakteristik dari populasi. Urgensitas pengambilan Data Besar dengan penggunaan sampel saja merupakan keharusan untuk efisiensi dan efektivitas proses analisis. Selain itu, dikarenakan penggunaan populasi untuk dianalisis juga menjadi sia-sia ketika hal tersebut mempunyai keuntungan dan manfaat yang sama jika hanya menggunakan sampel sehingga tidak efisien. Sebagai ilustrasi kecil dalam kehidupan sehari-hari, dengan hanya mengambil sedikit nasi saja sudah cukup untuk memperkirakan apakah seluruh nasi apakah sudah matang atau belum. Disinilah peranan sampel dalam mendukung analisis Data besar. Sejalan dengan kemajuan dan perkembangan ilmu pengetahuan dan teknologi, peranan ilmu statistika mengalami banyak perubahan ke arah yang lebih baik, khususnya metodologi penelitian, baik eksak maupun non-eksak. Keterkaitan dengan metodologi penelitian, dalam prosedur untuk sampai tahapan analisis secara umum menggunakan metode sampling. Metode sampling merupakan metode untuk mendapatkan sampel dari populasi, mulai dari tahapan perencanaan hingga tahap akhir, yakni tahapan estimasi atau inferensia statistik.
Terkait dalam upaya mendapatkan sampel, dalam perkembangannya para ahli statistika telah mengembangkan berbagai bentuk formula mengenai seberapa besar jumlah sampel yang relevan untuk digunakan sebagai pondasi bahan baku analisis data. Relasinya dengan Data Besar, dengan volumenya yang banyak dengan variasi yang besar serta adanya kendala waku dalam aspek kecepatan dalam penyajian hasil kepada konsumen data, menjadikan peranan metode untuk menentukan ukuran sampel juga sangat diperlukan karena menyangkut pemenuhan aspek keterwakilan sampel terhadap populasi yang ada sehingga akan mampu menggambarkan seluruh karakteristik dari populasi. Sampai saat ini, terdapat banyak bentuk formula untuk menentukan sampel tersebut. Diantara beragam bentuk formula tersebut, yang dipakai dalam penelitian adalah berdasarkan tingkat presisi, formula Slovin, formula Isaac-Michael dan formula Newbold. Penggunaan beberapa formula tersebut yang sering dipakai dalam penelitian sangat berhubungan dengan aspek kemudahan, biaya ekonomis. Namun lebih jauh lagi, penggunaan formula tersebut tanpa didasari konsep atau dasar kuat justru akan menimbulkan kerancuan dan keraguan terhadap ukuran sampel yang dipakai untuk dasar inferensia statistik nantinya. Menurut Setiawan (2007, hal. 3), ketika seorang peneliti telah memutuskan untuk menggunakan pendekatan statistika dalam menentukan ukuran sampel, paling tidak harus sangat memperhatikan empat aspek mendasar, yaitu tujuan penelitian yang akan dilaksanakan, besar tingkat keandalan pendugaan yang diinginkan, besar galat pendugaan yang akan ditolelir dan kondisi keragaman populasi yang akan diteliti. Tidak hanya itu, ukuran atau jumlah populasi itu sendiri juga perlu menjadi perhatian dalam semua tahapan menuju analisis data, apalagi dalam hal ini dalam jumlah besar, seperti nodes (pengguna) jaringan akun Facebook dan Twitter atau data jumlah penduduk dunia dalam kurun waktu 50 tahun menurut negara. Artinya perlu dilakukan peninjauan jika populasinya mencapai ribuan bahkan mencapai miliaran. Sebagai tambahan lagi, dalam hal ini juga dibutuhkan pemilihan pendekatan yang sesuai, apakah dengan pendekatan probabilita statistik atau cukup menggunakan non-probabilita statistik. Namun, sebaiknya dalam penelitian dengan Data Besar menggunakan pendekatan probabilita statistik karena ketersediaan datanya sudah terpenuhi meskipun terkendala masalah efisiensi dan biaya. Oleh karena adanya beberapa kriteria dan kendala tersebut, menjadikan pembahasan mengenai formula penentuan ukuran sampel terkait fenomena Data Besar sangat menarik untuk dikaji secara mendalam berdasarkan kajian literatur dan simulasi dengan berbagai ukuran populasi yang merepresentasikan Data Besar.
Pertama mengenai formula ukuran sampel berdasarkan tingkat presisi atau derajat risiko sampling umumnya digunakan untuk menentukan ukuran sampel yang sederhana dan memberikan suatu ukuran peluang bahwa ukuran yang ditentukan mempunyai kekuatan dalam tingkat kepercayaan tertentu. Secara matematis formula ukuran sampel tersebut dinyatakan sebagai berikut :
θα2 Sˆ 2
n=
2
ε2
(1)
dimana : θα adalah karakteristik tertentu yang mengikuti distribusi peluang tertentu, misalnya 2
distribusi t atau distribusi normal (Z) dengan tingkat kesalahan sebesar
α
2,
dengan estimator
variasi dari populasi serta error marginal (tingkat kesalahan marginal) tertentu sebesar ε . Secara teoritis formula tersebut digunakan dalam pengambilan sampel dengan pengembalian, sementara yang digunakan dalam pengambilan sampel tanpa pengembalian diformulasikan sebagai berikut :
n=
θα2 Sˆ 2 N 2
(2)
ε ( N − 1) + θα2 Sˆ 2 2
2
Dalam berbagai penelitian kebanyakan memakai metode pengambilan sampel tanpa pengembalian yang tergantung pada jumlah populasi (N). Berdasarkan ada beberapa hal yang perlu diperhatikan sebelum menggunakan formula tersebut. Pertama adalah jumlah populasi apakah sangat besar atau tidak karena erat kaitannya dengan Data Besar, misal jumlah populasi blog buatan Indonesia tahun 2013. Sehingga formula tersebut diturunkan sebagai berikut : 2 2 N lim θα2 Sˆ 2 θα2 Sˆ 2 uuur ∞θα Sˆ 2 N 2 2 = = = 22 uuur ∞ 2 N lim ε ( N ε 2 − ε 2 ) + θα2 Sˆ 2 ε 2 − 0 + 0 ε ( N − 1) + θα2 Sˆ 2 2 2 uuur ∞ N lim N
θα2 Sˆ 2 N
N
(3)
Dalam hal ini dengan Data Besar, jumlah populasi sedemikian banyak sangat dipengaruhi oleh distribusi peluang karakteristik, variasi data serta tingkat kesalahan marjinal yang ditentukan, tetapi dalam hal ini perlu ditinjau ulang mengenai variasi dari populasinya, semakin besar populasi (Data Besar) akan membuat variasi menjadi homogen sehingga diharapkan estimator dari variasi sampel dapat mendekati variasi data yang sebenarnya. Penurunan formula tersebut
juga sama untuk formula Isaac-Michael, hanya saja distribusi yang digunakan adalah distribusi Chi-square dengan derajat kebebasan sebesar 1. Kedua, menentukan ukuran sampel berdasarkan formula Slovin. Formula ini sangat sering bahkan menjadi umum digunakan oleh para peneliti untuk mendapatkan ukuran dalam penelitiannya. Ketika penggunaan tersebut ditelisik lebih jauh, mungkin terdapat beberapa hal yang perlu diperhatikan mengenai penggunaannya, khususnya untuk Data Besar. Formula Slovin merupakan formula ukuran sampel yang sangat sederhana tetapi mengandung beberapa hal didalamnya. Formula Slovin secara umum dinyatakan sebagai berikut :
n=
N (4)
1+ ε 2N
Berdasarkan formula diatas, terlihat bahwa ukuran sampel dipengaruhi oleh dua hal, yaitu jumlah populasi serta besarnya kesalahan marjinal yang diinginkan oleh peneliti. Menurut Setiawan (2007, hal. 7), formula Slovin dapat diuraikan sebagai berikut : n=
N .Z 2α .P.(1 − P ) 2
N .ε + Zα .P.(1 − P) 2
2
n= n=
N .Z
2
.P.(1 − P )
0,025 2 0,025
N .ε + Z 2
.P.(1 − P)
N .1,962.0,5.(1 − 0,5) N .ε 2 + 1,962.0,5.(1 − 0,5)
(5)
N .22.0,5.(1 − 0,5) N .4.0, 25 = 2 2 N .ε + 2 .0,5.(1 − 0,5) N .ε 2 + 4.0, 25 N n= 1 + N .ε 2 n=
Dan disimpulkan bahwa formula Slovin hanya dapat dipakai untuk menentukan ukuran sampel untuk tujuan menduga porporsi populasi. Kemudian asumsi tingkat keandalan formula Slovin sebesar 95% dengan α = 0,05 dan diperoleh nilai Z=1,96 dan dibulatkan menjadi 2. Selain itu, asumsi keragaman populasi yang dimasukkan dalam perhitungan adalah P(1-P) dengan nilai P=0,5). Dari hasil simulasi tersebut, terlihat bahwa penentuan mengenai ukuran sampel dengan menggunakan tingkat keandalan 95% yang menghasilkan nilai Z dengan pembulatan. Lebih tepatnya tingkat keandalan formula tersebut adalah 95,45% dengan α
=0,04552. Lebih lanjut jika dihadapkan pada Data Besar, formula Slovin dapat diturunkan sebagai berikut :
uuur ∞ N N lim = = uuur ∞ N lim 2 2 1 + ε N N lim uuur ∞ (1 + ε N ) N
Dari
penurunan
tersebut
N
besar) maka besarnya ukuran sampel pada
tingkat
kesalahan marjinal yang ditentukan oleh peneliti. Dengan memperhatikan hasil
simulasi
diperoleh
bahwa
maksimal
yang
disamping ukuran dapat
dapat sampel
dihasilkan
formula Slovin adalah 400 untuk dan batas
maksimal
jumlah
2
=
1 1 = 2 2 0+ε ε
(6)
terlihat
untuk Data Besar (populasi sangat
bergantung
N N
(1 + ε N ) uuur ∞ N lim N
bahwa jika formula Slovin digunakan
hanya
lim uuur ∞
populasi
sebesar 320.0003 (dengan nilai ε =0,05). Angka 400 sebagai angka
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
N
n
10 30 70 150 400 1000 10000 100000 1000000 10000000 100000000 1000000000 10000000000 1E+11 1E+12 1E+17
ukuran sampel maksimal tersebut didapatkan dengan formula
n/N 10 28 60 109 200 286 385 398 400 400 400 400 400 400 400 400
1
ε2
0.98 0.93 0.85 0.73 0.50 0.29 0.04 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
= 1/0,052 = 400. Hal ini
menunjukkan keandalan formula Slovin tidak serta merta mampu digunakan untuk Data Besar karena mempunyai kecenderungan menghasilkan ukuran sampel yang stagnan pada angka seperkesalahan marjinal. Jikapun digunakan formula Slovin hanya dapat digunakan untuk populasi berjumlah 320.000. Ketiga, menentukan ukuran sampel dengan formula Isaac-Michael. Sebenarnya formula Isaac-Michael sama dengan metode berdasarkan presisi, hanya saja Isaac-Michael menggunakan
2
Spiegel, Murray, Schiller, John and Srinivasan, R.Alu. 2002. Schaum’s Outlines, Probabilitas dan Statistik Edisi kedua [alih bahasa oleh Refina Indriasari]. Hal. 167. 3 Berdasarkan perhitungan manual dengan bantuan Excell.
distribusi Chi-square berderajat 1 dalam perhitungannya dan secara sistematis dituliskan sebagai berikut :
n= n= n=
N .χ 2(1) .P.(1 − P ) N .ε 2 + χ 2 (α ,1) .P.(1 − P) N .χ 2 (1) .P.(1 − P) N .ε 2 + χ 2 (1) .P.(1 − P) N .22.0,5.(1 − 0,5) N .ε 2 + 22.0,5.(1 − 0,5)
(7)
N .22.0,5.(1 − 0,5) N .4.0, 25 = 2 2 N .ε + 2 .0,5.(1 − 0,5) N .ε 2 + 4.0, 25 N n= 1 + N .ε 2 n=
Kesamaan ini didapatkan ketika menggunakan tingkat kepercayaan 82,34%4 Chi-square N −n N −n . Dengan jalan me-limitberderajat 1 dengan α = 0,1766 dengan asumsi bahwa ≈ N −1 N
kan formula Isaac-Michael untuk Data Besar (dimana N mendekati tidak berhingga), didapatkan
χ12 .P.(1 − P ) formula n ≈ . Disini tampak bahwa formula Isaac-Michael mempunyai kesamaan ε2 kehandalan dengan metode berdasarkan presisi, hanya saja keduanya dibedakan berdasarkan tujuan penelitian, bahwa formula Isaac-Michael baik digunakan untuk menduga proporsi populasi. Terakhir adalah menentukan ukuran sampel dari Data Besar dengan menggunakan formula Newbold (1995). Formula Newbold lebih sering digunakan dalam penelitian-penelitian bidang pertanian. Beberapa penelitian dengan menggunakan formula Newbold diantaranya Gunden, Miran dan Unakitan (2006), Korctuk (2006), Sahin et.al (2009), Artukoglu, Olgun dan Adanacioglu (2010), Ozudogru (2011), Bektas et.al (2011), Engindeniz dan Cosar (2012), Artukoglu, Olgun dan Adanacioglu (2012) dengan formula berikut :
n=
4
N . p.(1 − p ) 2 ( N − 1)σ px + p.(1 − p )
(8)
Hasil ini didapatkan dengan metode interpolasi antara Chi-square denga tingkat signifikansi 75% dan Chi-square dengan tingkat signifikansi 90% pada derajat 1.
Dan dalam penelitian Sharafat (2013), menggunakan formula Newbold yang termodifikasi menjadi sebagai berikut :
Zα /2 . p.q ε 2 n= N .ε 2 + Zα /2 . p.q 2 Nε
(9)
Untuk melihat keandalan formula tersebut jika digunakan untuk Data Besar, maka diturunkan sebagai berikut : uuur ∞ N . p.(1 − p) N lim
N . p.(1 − p) = uuur ∞ N lim ( N −1)σ 2px + p.(1 − p) N
lim uuur ∞ [( N − 1)
ε2
Zα2 2
N
=
+ p.(1 − p)]
p.(1 − p)
ε2 Zα2 2
+0+0
=
N . p.(1 − p) N
[( N − 1) N
=
lim uuur ∞
lim uuur ∞
ε2
Zα2 2
+ p.(1 − p)]
N
(10.1)
Zα2 2 . p.(1 − p)
ε2
Dan formula termodifikasi diturunkan sebagai berikut : Z α / 2 . p.(1 − p ) Z α2 . N . p.(1 − p ) ε 2 2 lim = lim = uuu r uuu r N ∞ N ∞ N .ε 2 + Z α / 2 . p.(1 − p ) N .ε 2 + Z 2 . p.(1 − p ) α 2 Nε 2 N 2 Z α2 . p.(1 − p ) uuur ∞ Z α . . p.(1 − p ) N lim 2 N 2 = = ε2 N .ε 2 + Z 2 . p.(1 − p ) α 2 uuur ∞ N lim N
N
2 lim uuur ∞ Z α . N . p.(1 − p ) 2
2 2 uuur ∞ N .ε + Z α . p.(1 − p ) N lim 2
(10.2)
Berdasarkan hasil kedua formula tersebut, terlihat keduanya bergantung pada komponen yang sama bila digunakan untuk Data Besar. Secara umum, formula tersebut digunakan dalam penelitian untuk menduga besarnya proporsi populasi. Dari keseluruhan formula yang digunakan untuk menentukan ukuran sampel, terlihat semakin banyak jumlah populasi (N) keandalan formula tersebut semakin berkurang. Hal tersebut tampak dari jumlah sampel yang dihasilkan stagnan pada jumlah tertentu saja dengan kendala distribusi yang ditentukan, tingkat kesalahan marjinal, serta terhadap proporsi. Namun, hal ini tidak serta merta bahwa sampel kurang mewakili terhadap populasi, melainkan ukuran sampel maksimal tersebut memang sudah cukup dengan pertimbangan lain termasuk biaya
penelitian serta diharapakan sudah mencakup keseluruhan informasi dari populasi meskipun jumlahnya besar. Terlihat pula, semakin banyak asumsi yang digunakan dalam suatu formula ukuran sampel menunjukkan ketidakmampuan formula tersebut untuk menangkap elemen lain yang dalam populasi, misalnya karena varian populasi sebenarnya tidak diketahui, rerata sebenarnya tidak diketahui atau hanya untuk aspek kemudahan serta biaya yang ekonomis. Selain itu, semakin sederhana formula tersebut juga menjelaskan sejumlah asumsi yang harus dipenuhi dan diperhatikan sehingga berguna sebagai informasi awal untuk keputusan penggunaan formula ukuran sampel tertentu.