Variance berhubungan erat dengan standard deviation, deviation, yaitu digunakan untuk mengukur dan
mengetahui seberapa jauh bagaimana penyebaran data dalam distribusi data. Dengan kata lain digunakan untuk mengukur variabilitas data, dalam bahasa awam variance adalah untuk mengetahui
tingkat keragaman dalam data. Semakin tinggi nilai variance berarti semakin bervariasi dan beragam variance, harus diketahui terlebih dahulu mean-nya, mean-nya, kemudian suatu data. Untuk menghitung variance, menjumlahkan kuadrat selisih dari tiap-tiap data terhadap mean tersebut. Secara numeric, variance merupakan rata-rata dari kuadrat selisih data terhadap mean. mean. Standard deviation diperoleh dari akar dari variance dan digunakan untuk mengukur penyebaran data. Standard deviation dan mean (rata-rata) lebih sering digunakan untuk mengetahui pola sebaran data, seperti contoh pola sebaran normal. Dalam sebaran normal, 68% data berart i mean +/- 1 * st andard deviation, dan 95% data berarti mean +/- 2 * standard deviation. Di sini standard deviation memiliki arti yang sama dengan standard error mean. mean. Standard deviation merupakan salah satu dari beberapa ukuran penyebaran dalam statistika. Untuk menghitung standard deviation dari populasi perlu diketahui terlebih dahulu variance dari populasi tersebut. Hal ini karena standard deviation adalah akar kuadrat dari variance. variance. Tidak seperti variance yang tidak mudah digunakan mengetaui tingkat variabilitas, standard deviation digunakan dengan mudah untuk mengetahui penyebaran. Misal ada data tinggi badan siswa (cm) dalam satu kelas seperti berikut ini: 151.65 152.46 152.63 152.91 154.22 155.83 156.06 156.14 156.44 156.67 157.14 157.60 157.74 158.07 158.82 158.98 159.94 161.34 161.67 161.79 162.68 162.71 164.83 165.58 165.65 167.70 168.07 168.45 169.01 179.68 Dari data tersebut diketahui bahwa mean-nya mean-nya adalah 160.42 dan standar deviation adalah 6.24. Melalui mean dan standard deviation dapat diketahui bahwa terdapat beberapa data yang berada di luar “standard”, “standard” dapat diketahui dari dari mean +/- standard deviation, deviation, yaitu 154.18 dan 166.66. Seperti yang telah diketahui bahwa variance dan standard deviation memiliki hubungan secara matematis, yaitu variance merupakan kuadrat dari standard deviation. deviation. Mengapa menggunakan kuadrat ? Pengkuadratan pada tiap-tiap selisih membuat nilai selisih tersebut menjadi positif (nilai negative dapat mengurangi nilai pada variance). variance). Pengkuadratan ini juga menyebabkan nilai yang besar pada variance, variance, contoh 100^2 = 10.000 lebih besar daripada 50^2=2.500. Oleh karena itu secara praktek yang paling mudah digunakan adalah standard deviation. deviation.
Istilah “standard error” dan “standard deviation” terkadang membingungkan. Namun sebenarnya ada hal pokok yang membedakan. Ilustrasinya sebagai berikut: Apabila kita ingin mengetahui variance populasi maka untuk menduganya digunakan variance sampel. Hal yang sama apabila melakukan pendugaan mean terhadap populasi maka kita menggunakan mean sample, selanjutnya dalam pendugaan tersebut kemungkinan nilai mean akan berbeda-beda untuk tiap sample. Perbedaan ini dapat menimbulkan variasi pada penduga mean. Variasi pada penduga itulah yang disebut sebagai
standard error . Oleh karena dalam ilustrasi menggunakan penduga mean maka variasi penduga disebut sebagai standard error mean. Dari masalah ini dapat diambil kesimpulan bahwa standard deviation
mengukur variasi pengamatan, sedangkan standard error mengukur variasi penduga atau statistics . Ilustrasi lain yang membedakan “standard error” dan “standard deviation” adalah sebagai berikut: Dalam suatu kelas berisi 40 murid melakukan ujian untuk mata pelajaran A. -. Standard deviation score test adalah variasi nilai antara 40 murid tersebut yang melakukan ujian untuk mata pelajaran A. -. Standard error score test adalah variasi nilai dari seorang murid bernama Ali yang melakukan ujian mata pelajaran A secara berulang-ulang (murid Ali melakukan ujian lebih dari satu kali). Hal ini membuktikan bahwa memang pengertian standard deviation hampir sama dengan standard error, dan kebingungan dua istilah ini memang dapat dimaklumi.
Perhitungan standard error berbeda-beda tergantung pada penduganya, misal untuk mean menggunakan standard error mean (SE(mean)). Rumus SE(mean) adalah SE(mean) = Standar
deviation/√(sample size), ini menunjukkan bahwa nilai SE(mean) bergantung pada standard deviation dan ukuran sample. Dari rumus tersebut dapat diketahui pula bahwa nilai standard error akan turun apabila ukuran sample diperbanyak dan variance atau standard deviation sample dikurangi . Oleh karena itu, standard error dapat digunakan untuk menentukan dan mengontrol ukuran sample, hal ini berbeda dengan standard deviation yang nilainya tidak dipengaruhi ukuran sample. Standard error dapat menunjukkan bagaimana tingkat fluktuasi dari penduga atau statistic. Standard error juga dapat diintepretasikan seberapa akurat penduga dalam menduga parameter. Standard error dapat diaplikasikan dalam dua hal:
1. Nilai penduga atau statistic yang dibagi dengan standard error penduga akan menunjukkan apakah statistic sama dengan nol, kemudian nilai tersebut dibandingkan dengan nilai distribusi t. Berdasarkan beberapa literatur, rasio dari nilai penduga atau statistic dengan st andard error disebut dengan Wald Test, atau dalam beberapa aplikasi disebut dengan t-test.
2. Standard error sebagai bagian dari confidence interval. Untuk sample yang besar, 95% confidence interval diperoleh dari 1.96 x standard error penduga. Standard error yang digunakan untuk confidence interval adalah standard error mean (SE(mean)), dengan ketentuan sebagai berikut:
a. 90% CI -> mean +/- 1.64 SE(mean) b. 95% CI -> mean +/- 1.96 SE(mean) c. 99% CI -> mean +/- 2.58 SE(mean)
Contoh: Dalam sekumpulan cabe, diketahui mean untuk 64 cabe adalah 10 gram, standard deviasinya 2 gram. Standard error dari sampel tersebut, SE(mean) = 2/√64 = 0.25. 95% confidence interval dari mean adalah 95% CI = 10 +/- 1.96*0.25 = 10 +/- 0.49 = 9.51 hingga 10.49 Penggunaan lain dari standard error adalah tidak sebagai bagian dari penduga atau statistic tetapi
bagian dari logaritma statistic . Sebagai contoh, model logistic regresion dihitung dari odds ratio data, tapi standard error bukan sebagai odds ratio melainkan sebagai log odds ratio. Dalam kondisi ini diperlukan perhitungan secara komputer untuk mendapatkan confidence interval dalam log scale dan ditransformasi kembali ke skala asli. Standard error dapat diketahui dari nilai confidence interval dan selang interval, dengan rumus:
a. 90% -> standard error = interval /1.64 b. 95% -> standard error = interval /1.96 c. 99% -> standard error = interval /2.58 Contoh: Masih dalam sekumpulan cabe, kita ingin mengetahui berapa standard error dari cabe apabila kita ingin menduga 95% confidence interval dengan selang +/ - 0.5 gram. Standar errorr diperoleh dari SE(mean) = 0.5/1.96 = 0.26 Standard error dapat juga digunakan untuk menentukan ukuran sample secara sederhana, dengan rumus: n = (standard deviasi/standard error)^2 , atau kuadrat dari pembagian standard deviasi dibagi standard error. Contoh: Sama seperti contoh di atas, kita ingin mengetahui berapa ukuran sample dari cabe apabila kita ingin menduga 95% confidence interval dengan selang +/ - 0.5 gram dengan standar error 0.26, standard deviasi 2. Ukuran contoh diperoleh dari n = (standard deviasi/standard error)^2 = (2/0.26)^2 = 7.69^2 = 59.1 = 60. Maka sample yang dibutuhkan sebanyak 60 cabe. Confidence interval merupakan interval atau range nilai penduga (estimated value) dari populasi, nilai ini diperoleh dari sample yang dikumpulkan dari populasi tertentu. Confidence interval dapat diartikan pula sebagai penduga interval, apabila diinterpretasikan confidence interval berarti berapa persen (yang kita kehendaki) sample dari populasi yang berada dalam interval atau range parameter populasi. Sebagai contoh: kita mengukur mean (rata-rata) tinggi badan siswa SMU sekolah X, sample yang kita ambil sebanyak 100 siswa. Agar hasilnya valid dan reliable (baca: validitas, reliabilitas, validitas dan reliabilitas) kita lakukan perhitungan tersebut berulang-ulang, katakanlah 50 kali pengambilan sample, dengan sample 100 siswa yang berbeda-beda. Setelah kita hitung mean tinggi badan siswa, maka hasilnya akan bermacam-macam, misalnya 164.5; 165 cm; 167.5 cm; 163 cm; 166 cm; 165,25 cm, dan seterusnya hingga kita memperoleh 50 mean. Dari contoh ini kita akan kesulitan mengukur keakuratannya apabila menggunakan hanya menggunakan satu mean saja, meskipun mungkin salah satu dari 50 mean tersebut merupakan mean tinggi badan siswa SMU yang sebenarnya. Untuk itu dibutuhkan confidence interval , dengan menggunakan confidence interval dari mean, kita dapat mengetahui keakuratan penduga sampel tersebut dalam menduga parameter populasi.
Salah satu untuk melihat keakuratan interval pendugaan kita adalah dengan melihat confidence level nya. Seperti yang disebutkan di atas bahwa keakuratan dapat dilihat dari confidence level nya, semakin tinggi confidence level yang kita gunakan maka semakin akurat pendugaan yang dilakukan artinya apabila researcher menggunakan 100 % confidence level berarti seluruh nilai statistic (penduga) dalam pengambilan sample berada dalam nilai penduga parameter populasi atau statistic (penduga) yang diduga dari sample merupakan statistic pula bagi parameter populasi. Hal ini m enunjukkan bahwa kita tidak mentolerir kesalahan dalam pendugaan populasi. Namun karena pertimbangan ekonomis, waktu, tenaga, dan teknis yang sulit dilakukan maka 100 % confidence level jarang bahkan tidak pernah digunakan. Confidence interval menggunakan persentase, maka yang digunakan antara 1 – 100 %. Confidence interval sering menggunakan confidence level (tingkat kepercayaan) 95% tapi dapat juga menggunakan 90%, 99% dan 99,9 % atau berapapun confidence level untuk populasi yang tidak diketahui. Confidence interval dapat dihitung dengan rumus sederhana sebagai berikut:
Confidence level = Point estimate of population parameter +/- (confidence factor)(measure variability)(adjusting factor) atau
Confidence level = Point estimate of population parameter +/- margin error
Measurement of skewness, ukuran ini digunakan untuk mengetahui bentuk sebaran data . Suatu sebaran dikatakan setangkup atau simetrik bila sebaran tersebut mempunyai sisi kanan dan kiri yang sama besar atau dapat dikatakan bahwa sebaran tersebut mempunyai simetri lipat sepanjang suatu sumbu tegak yang kedua sisinya dapat saling menutupi atau mempunyai bentuk simetris. Dalam sebaran simetris, kedudukan mean, median dan modus berada pada satu utitik. Sebaran simetris ini disebut j uga sebagai sebaran normal. Sebaran yang tidak setangkup atau simetris dikatakan menjulur. Gambar sebaran simetris
Gambar sebaran menjulur positif (skewness to right )
Gambar sebaran menjulur negatif (skewness to left )
Sebaran menjulur positif (skewness to right ) artinya dalam sebaran ini mean > median > modus, sedangkan sebaran menjulur negatif (skewness to left ) artinya dalam sebaran ini mean <> Untuk mengukur kemenjuluran (measurement of skewness) digunakan koefisien kemunjuluran Pearson, skewness = (mean – modus)/s, dimana s adalah simpangan baku, atau skewness = 3(mean-median)/s, dimana s adalah simpangan baku. Simpangan baku dapat digunakan untuk mengukur jarak r elative setiap hasil pengamatan ke pusat data. Sehingga dapat diketahui dalam kisaran k (k-1, 2, 3) simpangan baku berapa dari titik pusat. Dalam sebaran normal atau sebaran yang setangkup dimana mean=median=modus, terdapat aturan empiris yang menyatakan bahwa: -. 68.27 % dari hasil pengukuran akan terletak dalam jarak 1 simpangan baku dari pusat atau dalam selang mean+/- s -. 95.45 % dari hasil pengukuran akan terletak dalam jarak 2 simpangan baku dari pusat atau dalam selang mean+/-2 s -. 99.73 % dari hasil pengukuran atau hamper seluruh pengamatan akan terletak dalam jarak 3 simpangan baku dari pusat atau dalam selang mean+/- 3s
Skewness dan Kurtosis Tuesday, January 8, 2008 Sebelum dilakukan pemodelan, ada baiknya data return diuji terlebih dahulu apakah memenuhi asumsi ini ataukah tidak, sehingga pemodelan yang dilakukan akan lebih valid. Ada banyak cara untuk menguji normalitas data, baik yang bersifat eksploratif (deskriptif) maupun konfirmatif (inferensi). Salah satu cara yang bersifat eksploratif adalah dengan me lihat bentuk kurva pendekatan distribusi empirisnya, yaitu dengan menghitung nilai skewness (kemencengan) dan kurtosis (keruncingan) kemudian membandingkan d engan distribusi normal. Skewness adalah derajat ketidaksimetrisan suatu distribusi. Jika kurva frekuensi suatu distribusi memiliki ekor yang lebih memanjang ke kanan (dilihat dari meannya) maka dikatakan menceng kanan (positif) dan jika sebaliknya maka mencen g kiri (negatif). Secara perhitungan, skewness adalah momen ketiga terhadap mean. Distribusi normal (dan distribusi simetris lainnya, misalnya distribusi t atau Cauchy) memiliki skewness 0 (nol). Kurtosis adalah derajat keruncingan suatu distribusi (biasanya diukur relatif terhadap distribusi normal). Kurva yang lebih lebih runcing dari distribusi normal dinamakan leptokurtik, yang lebih datar platikurtik dan distribusi normal disebut mesokurtik. Kurtosis dihitung dari momen keempat terhadap mean. Distribusi normal memiliki kurtosis = 3, sementara distribusi yang leptokurtik biasanya kurtosisnya > 3 dan platikurtik <>
dengan :
Untuk memberikan gambaran visual, berikut ini d iberikan ilustrasi Skewness (Gambar 1) dan Kurtosis (Gambar 2) :
Gambar 1
Gambar 2
Error Type Pengambilan keputusan dan kesimpulan mengenai populasi dalam statistika dapat dilakukan melalui statistika inferensia, namun tentunya hal ini akan menimbulkan pertanyaan mengenai bagaimana keakuratan atau seberapa baik pengambilan keputusan tersebut atau dapat juga seberapa kesalahan yang mungkin terjadi dalam pengambilan keputusan statistics. Kesalahan yang terjadi ini karena pengambilan keputusan tersebut hanya didasarkan pada data sampel. Tahun 1930, Jerzy Neyman (1894-1981) and Egon Pearson (1895-1980), mengatakan bahwa dua hal yang harus diperhatikan dalam uji hypotesis berkenaan dengan type error , yaitu mengurangi sebisa mungkin atau sekecil-kecilnya peluang menolak hypotesis dan uji yang harus dilakukan adalah menolak hypotesis yang salah. Terdapat dua tipe kesalahan dari pengambilan keputusan tersebut, yaitu type I error dan type II error. Type I error is stating that the result stating that the result of sampling are unacceptable when in reality the population from which the sample was taken meets the stated requirements. (Aft, 1998) Bila diterjemahkan secara mudah, peluang dari Type I error merupakan peluang menolak asumsi yang dianggap benar. Type I error disimbulkan dengan α (alpha) atau disebut juga level of significance atau significance level. Significance level sebesar α berarti bahwa terdapat peluang sebesar 1 – α untuk menerima asumsi yang dianggap benar atau 1 – α asumsi tersebut benar. Kita menginginkan untuk membuat significance level sekecil mungkin untuk mencapai tujuan menerima H0 (hypothesis null). Type II error is stating that the result stating that the result of sampling are acceptable when in reality the population from which the sample was taken doesn’t meet the stated requirements. (Aft, 1998) Peluang Type II error merupakan peluang menerima asumsi yang dianggap salah, dilambangkan dengan (beta dalam huruf Yunani). Namun dalam kehidupan sehari-hari beta jarang digunakan, karena perimbangan teori dan praktis. Berikut ini beberapa contoh matriks untuk memahami Type I error dan Type II error 1. Kasus penyebaran penyakit
2. Kasus pengambilan keputusan dalam persidangan