Olasılık ve İstatistik Ders Notları 1
om
Konrad Menzel 3 Şubat 2009
.c
1. Giriş ve Genel Bakış
tla
ri
Bu ders size Olasılık Teorisi’ne girişi ve İstatistiğin temel araçlarını verecektir. Olasılık, ilgili belirleyicilerini tam olarak bilmediğimiz durumları açıklayan ve analiz eden bir matematiksel yapıdır. Modern hayatta, hepimiz, tıptan sosyolojiye kadar bütün alanlarda yapılan istatistiksel çalışmaların düzenli müşterileriyiz ve olasılık muhakemesi ekonomi ve finans alanında son dönemde yapılan bir çok tartışmanın takip edilmesinde oldukça önemlidir.
de rs no
Bu dersin ilk yarısında, olaylarda bulunan gerçek riski - veya kişisel bilgi yetersizliğimiziaçıklamanın bir yolu olarak olasılık üzerinde konuşacağız.
m
Örnek 1. Kredibilitesi düşük müşterilere verilen kredi de (Subprime lending), bankalar normal müşterilerine göre geri ödeme olasılıkları daha düşük olan müşterilere yeni nesil ev kredisi ( mortgage) verirlerdi. Teminat olarak gösterebilecekleri fazla şeyleri olmayan olası ev sahiplerine borç verme riskini idare etmek için, bu şekilde verilen binlerce kredi bir demet haline getirilip “mortgage destekli değerli kağıt” olarak yeniden satılırdı, yani krediyi ilk veren bankaya ne kadar geri ödeme yapılırsa yapılsın, banka değerli kağıdı elinde tutanlara söz verdiği miktarı ödemeyi taahhüt ederdi. Sonunda, değerli kâğıtlar havuzunun bir kaç çeşit tahvile dönüştüğü çok karmaşık finansal düzenlemeler ortaya çıktı. Burada ilk tahvili elinde tutanlara ödemede öncelik verilirdi. Yani, diyelim ki, tahvilin nominal değeri 10 milyon dolardır, geri ödemeler toplamı ne zaman 10 milyon doları aşarsa önce bu gruba ödeme yapılıyordu. Bu durumda, ne zaman önceliği olanlardan para artarsa ancak o zaman nominal değeri düşük gruba ödemeler yapılabiliyordu.
ee
Nasıl olur da, belirtilen herhangi bir yeni nesil ev kredisi güvenli değilken, bir çok risk barındıran bir havuzdan oluşan ilk grup güvende olabiliyordu? Daha düşük önceliği olanlar daha riskli oluyorlardı. – Niye? Geriye doğru bakıldığında, niye piyasanın beklediğinin aksine daha güvenli olan değerli kağıtlar piyasadaki herkesin beklediğinden daha riskli oldular? Büyük Sayılar Kanunu hakkında konuşurken, ve hangi koşullarda çalışıp hangi koşularda çalışmadığını belirtikten sonra, bu konuya geri döneceğiz.
om
Genellikle, bu tür soruları cevaplandırmak için, sonuçların dağılımı (nispi olabilirlik gibi) hakkında çok şey bilmeniz gerekir, fakat bazı durumlarda daha azı ile de idare edersiniz: Bazı durumlarda bir sonucun sadece beklenen değeri veya bir dağılımın diğer momentleri gibi “tipik” değerleri ile ilgilenirsiniz. Diğer durumlarda sadece rasgele bir deneyin çok sayıdaki tekrarının ortalaması ile ilgileniyor olabilirsiniz ve böyle durumlarda her bir deneyin farklı sonuçlarının olabilirliği konusunda çok şey bilmeden büyük rakamlar kanunu veya merkezi limit teoremi bazen size iyi bir tahmin verebilir.
tla
ri
.c
Dersin ikinci yarısı, veriden kitle ve olasılık dağılımları hakkında nasıl bilgi edinileceği sorusuyla ilgili olacaktır. Herhangi bir ampirik bilimde, tümevarım problemi ile karşılaşabilirsiniz. Tümevarım birkaç (belki biraz daha çok) gözlemden genel sonuçlar çıkarmaktır. Politik yoklamalarda (“sonraki başkanlık seçiminde kimin için oy kullanacaksınız?”), bir anket firması tipik olarak yüzbinlerce potansiyel seçmen arasından en fazla birkaç bin kişiye anket uygular. Tıbbi deneylerde, bir ilacın etkinliği konusunda birkaç düzine katılımcıdan elde edilen sonuçlardan bütün kitle için genellemeler elde etmeye çalışırız.
de rs no
Eğer ilgilendiğimiz bir kitlenin (örneğin bir genel seçimde oy kullanabilecek bütün seçmenler gibi) yalnızca bir alt-grubundaki kişileri (örneğin seçmenlerin rasgele bir örneklemi gibi) gözlemlersek, cevaplandırmak istediğimiz soru açısından (örneğin belli bir adayın oy oranı gibi) bu örneklemin gerçekten bütün kitleyi temsil edip etmediği konusunda bir çeşit belirsizlik olacaktır. Bu belirsizliği formüle edip kullanımını pratik hale getirmek olasılık teorisinin yoğun kullanımını gerektirir.
ee
m
Örnek 2. Mart 2003 yılındaki işgalden üç buçuk yıl sonra, Irak savaşında ölen siviller üzerinde yapılan tartışmalı ilk Lancet çalışmasında ülke genelinde1849 hane halkından oluşan (toplam olarak 12801 kişi) bir rasgele örnekleme anket uygulanmıştır ve hane halkları tarafından beyan edilen ölüm sayıları, 29 Milyonluk, tüm ülkedeki ölü sayısının tahmini için kullanılmıştır. Çalışmanın yazarları, işgalden sonraki ilk 18 ay için 112 000 "fazla" ölüm tahminine ulaştılar ve "%95'lik güvenirlikle" gerçek rakamın 69000 ile 155000 arasında olduğunu ifade ettiler. Bu ifadenin ne anlama geldiğini daha sonra derste göreceğiz. Tahminin etrafındaki güven aralığının genişliği, ufak bir alt-kitleden bütün ülke için hesaplamalar yapmanın kendi içindeki var olan belirsizliğinin ölçüsüdür. Bu politik ve duygusal etkileri olan bir konu olduğu için, çalışma bilimsel yayınlarda ve bloglarda yoğun bir tartışma başlatmıştır- tartışmaları okumak uygulamada istatistiğin gerçekten “nasıl” yapıldığı konusunda size çok şey öğretecektir.
2. Küme Teorisi ve Olaylar 2.1 Rasgele Deneyler
Tanım 1. Bir rasgele deney – en azından teorik olarak- (a) sık sık ve aynı koşullarda keyfi olarak tekrarlanabilir (b) çok iyi tanımlanmış olası sonuçlar kümesine sahiptir.
ri
.c
om
Bunun standart örneği yazı (T) ve tura (H) gibi iki sonucu olabilen madeni para atmadır (paranın dik bir şekilde durma olasılığını görmezlikten geliyoruz). İstatistik alanının bir diğer önemli deney türü bir seçim sırasında yapılan yoklamadır. Diyelim ki oylama yapılan yerden çıkanlar arasından rasgele olarak seçilen 2000 kişiye kime oy verdiklerini sorduk. Kural olarak, seçim günü oy kullanacak kitleden keyfi olarak çok sayıda 2000 kişilik örneklem seçebiliriz. Dolayısıyla koşul (a)’yı gerçekleştirmiş oluruz. Bu deneyin sonuç kümesi, seçimde hangi aday için oy kullandığını beyan eden seçmen sayısıdır.
Tanım 2. Bir örneklem uzayı olan S, bir deneyin bütün olası sonuçlarının toplamıdır.
de rs no
tla
Birçok amaçtan ötürü, esas itibariyle olayların tek sonucuyla değil, olayların bütün sonuçlar grubu ile ilgileniyoruz. Bu nedenle, izleyen bölümde deneyi kümeler cinsinden tanımlayacağız.
Tanım 3. A olayı herhangi bir sonuçlar toplamı olabilir (bu, tekli sonucu, boş kümeyi veya örnek uzayın tümünü içerir). Eğer gerçekleşen sonuç A olayının bir elemanı ise, o zaman A’nın gerçekleştiğini söyleyebiliriz. Bir örnek olarak, şimdi geçen seneki başkanlık yarışını ele alalım. En basit şekliyle, örnek uzayını (S) – mantıksal bir olabilirliği düşündüğümüzde- Kasım ayında başkan olarak seçilebilecek kişiler olarak tanımlayabilirdik (Örneğin, ilk deneme olarak ön seçimlerin başlıca adaylarına bakabilirdik). S = {Clinton, Huckabee, McCain, Obama, Paul, Romney, Schwarzenegger }
ee
m
Bu iyi bir tanımlama mı? Muhtemelen değil: Her ne kadar bunlar gerçekleşmesi en olası sonuçlar olsa da, mantıken başka adayların (bağımsız olarak veya bir partiye bağlı olarak) sonradan yarışa katılmasını görmezlikten gelmeyiz. Dolaysıyla daha hatasız, rasgele deneyin tanımı örneklem uzayını büyütecektir. ̅ = {Clinton, Huckabee, McCain, Obama, Paul, Romney, Schwarzenegger, Diğer Demokrat Aday, Diğer Cumhuriyetçi Aday, Diğer Bağımsız Aday }
Ancak olayı basit tutmak için, şimdilik bu olasılığı görmezlikten gelelim.
İlgilenilen bazı olaylar şunlar olabilir:
om
“44ncü Amerikan Başkanı bir cumhuriyetçi olacaktır” = {Huckabee, McCain, Paul, Schwarzenegger, Diğer Cumhuriyetçi Aday} “44ncü başkan 42nci başkan ile evli olacaktır” = {Clinton}
2.2 Küme ve Olaylar Hakkında Daha Fazla Bilgi
.c
2.2.1 Küme Kapsamı “ ”
ri
Eğer B’nin bütün sonuçları A’ya ait ise, olay B A’nın içindedir. Sembolik olarak,
tla
Kesinlikle, herhangi bir C olayı örneklem uzayı S’de yer alır, yani Herhangi bir C olayı için
de rs no
ve her olay imkansız olayı içerir.
Herhangi bir C olayı için
Kaynak: MIT OpenCourseWare
– “B A’yı gerektirir”
m
Şekil 1.
ee
Eğer A ve B bir birini içerirse, eşittirler.
Ve küme kapsamı geçişlidir, yani
Başkanlık seçimi örneğimizde (eğer Wikipedia’ya güvenebilirsek, McCain Panama Kanalı kuşağında bulunan bir Amerikan hava üssünde doğmuş)
“44ncü başkan Panamada doğdu” = {McCain} doğdu” = {McCain, Schwarzenegger}
“44ncü başkan yabancı bir ülkede
{McCain, Schwarzenegger}
“44ncü başkan cumhuriyetçidir”.
Sonuç olarak, aşağıdaki çıkarımı yapabiliriz:
“44ncü başkan cumhuriyetçidir”
.c
“44ncü başkan Panamada doğdu”
om
ve
ri
2.2.2 Küme Birleşimleri “ ”
Kaynak: MIT OpenCourseWare
Şekil 2. A ve B’nin Birleşimi – “A veya B”
ee
m
de rs no
Küme birleşimi simetriktir.
tla
A ve B’nin birleşimi, A veya B’nin (veya her ikisinin, U mantıksal “veya” sembolü olan V’nin karşılığıdır) elemanlarının bütün sonuçlarının toplamıdır
A B=B A
Buna ilaveten, Herhangi A, B
S olayları için
om
Özellikle,
.c
Ayrıca küme/olay birleşimini hangi sırada yaptığımızın da bir önemi yoktur (birleşim özelliği).
ri
2.2.3. Kümelerin Kesişimi “ ”
tla
A ve B’nin kesişimi (boş olabilir) A ve B’nin ikisinde birden olan sonuçlar toplamıdır. Aşağıdaki gibi yazılır,
de rs no
Burada “ ” mantıksal “ve”’yi ifade eder. Bazı metinlerde alternatif işaretleme kullanılır,
m
Kaynak: MIT OpenCourseWare
Şekil 3. A ve B’nin Kesişimi – “A ve B”
ee
Kümelerin birleşimi gibi kesişimi de simetriktir.
Keza, Herhangi A, B
S olayları için
om
Buradan hareketle,
.c
Ayrıca, küme birleşiminde olduğu gibi, kümelerin kesişimi birleşme özeliğine sahiptir.
ri
İlaveten, küme kesişimi ve birleşimi dağılma özeliğine sahiptir.
de rs no
Örnek olarak, aşağıdaki olaylar için
tla
ve
A = “Başkan 44 bir kadındır” = {Clinton}
B = Başkan 44 Midwest’te doğdu” = {Clinton, Romney} C = “Başkan 44 bir Cumhuriyetçidir” = {Huckabee, McCain, Paul, Romney, Schwarzenegger}
birinci dağılım özeliğine göre olması gerektiği gibi, şunları görebiliriz: = {Clinton} {Clinton, Huckabee, McCain, Paul, Romney, Schwarzenegger} = {Clinton}
= {Clinton}
ee
m
= {Clinton}
2.2.4. Küme Tümleyeni, AC
A’nın tümleyeni AC, S’deki A’ya ait olmayan sonuçlar kümesidir. Yani, AC =
om .c ri
Kaynak: MIT OpenCourseWare
tla
Şekil 4. A’nın Tümleyeni – “A değil”
de rs no
Tanımdan, tümleyenlerin aşağıdaki özeliklere sahip olduğunu kolayca görebilirsiniz.
En son ifadeden, aşağıdakine ulaşabiliriz
İlk özelikle beraber aşağıdakine ulaşılır
ee
m
Kesişim ve birleşim arasındaki bir grup yararlı ilişki aşağıdaki gibidir.
om .c ri
’nin gösterimi- Aynı şekilden görebilirsiniz
de rs no
Şekil 5.
tla
Kaynak: MIT OpenCourseWare
kuralını da
2.2.5 Olayların Bölüntülenmesi
A ve B’nin ortak sonuçları yoksa ayrıktırlar (ya da karşılıklı dışlayandır). Yani
A1, A2 …. olaylar grubunun birleşimleri S’ye eşitse, eksiksiz olduğu söylenir. ⋃
ee
m
A1, A2, … olay grubu, eğer aşağıdaki iki koşulu sağlıyorsa örneklem uzayının bölüntüsü olarak adlandırılır. Koşullar: (1) Ai, Aj (i j) herhangi iki farklı olay olsun. Ai ve Aj ayrışık ve (2) A1, A2, grubu eksiksiz ise. Aynı şekilde, B olayının bölüntülerini, birleşimi B’ye eşit olan karşılıklı dışlayan alt-olaylar olarak tanımlayabiliriz.
om .c
Kaynak: MIT OpenCourseWare
ee
m
de rs no
tla
ri
Şekil 6. S’nin A1, A2, … AS’ye bölüntülenmesi
Olasılık ve İstatistik Ders Notları 2
om
Konrad Menzel 5 Şubat 2009
1. Olayların Olasılığı
Biçimsel olarak, P olasılığı S1‟deki giden bir fonksiyon olarak tanımlanır.
= {A1, A2, …} olaylar yığınından reel sayılara
de rs no
.
tla
ri
.c
Şimdiye kadar, olayların sadece tanımlarına ve özeliklerine baktık – bazı olayların gerçekleşme olasılığı çok düşükken (örneğin Schwarzenegger‟in 44ncü başkan olarak seçilmesi gibi) bazılarının gerçekleşmesi nispeten kesindir- ancak olayların olasılıkları, yani olayların örneklem uzayının kalanına göre gerçekleşme ihtimali, hakkında hiçbir şey söylemedik.
Kullanışlı bir olasılık tanımı yapabilmek için, her hangi bir olasılık fonksiyonu P‟nin aşağıdaki aksiyomları sağlamasını bekleriz: (P1) Herhangi bir A
için P(A)
0
(P2) P(S) = 1, - yani “kesinlikle bir şey olacak”
m
(P3) Ayrık A1, A2, …, kümelerinin herhangi bir dizisi için
ee
Matematiksel bir not olarak, bu aksiyomların (ve sonraki derste P(A)‟nın özelliklerinin türetimlerinin) bir anlam ifade edebilmesi için yığını S‟yi ve onun elemanlarının tümleyenleri ile birleşimlerini içermek zorundadır. Bu, bir önceki sayfada dipnotta 1
Olasılığın tutarlı bir tanımı için, olaylar grubu aşağıdaki özelikler sahip olmak zorundadır (S1) S C (S2) Eğer A ise, o zaman onun tümleyeni A (S3) Herhangi sayılabilir A1, A2…. olayların birleşimi ‟dir, yani A1 A2 … Bu olaylar yığınına S‟nin sigma-cebiri olarak adlandırılır. Bu dersin amacı için, bu önemli değildir, ve eldeki sorunun bu tür aksiyomlara uygunu olduğu gerçeğini veri olarak kabul edeceğiz.
açıkladığımız sigma-cebirdir. Bu ders için, bu özellikleri daha fazla üzerinde tartışmadan verilmiş kabul edeceğiz.
om
Tanım 1. Bir örneklem uzayı S üzerinden tanımlanan bir olasılık dağılımı (P1) –(P3) aksiyomlarını sağlayan P(A) ile gösterilen bir sayılar yığınıdır.
tla
ri
.c
P(1)-P(3) aksiyomlarının olaylara bir tek olasılık atamadığına dikkat ediniz. Onun yerine, bu aksiyomlar sadece olasılığın ne olması gerektiği konusunda sezgilerle tutarlı bir şekilde herhangi bir olasılık dağılımının sağlaması gereken minimum koşulları verirler(gerçekte bunu aşağıda kontrol edeceğiz). Prensipte, bu özelikleri sağlayan herhangi bir P(.) fonksiyonu geçerli bir olasılık oluşturur, fakat bunun eldeki rasgele deneyin iyi bir açıklaması olup olmadığını anlamak için özelikleri ayrı ayrı görmek zorundayız. Bu her zaman zor bir sorudur. Bu dersin 5. bölümünde (Özel Dağılımlar), belli standart durumlar için bazı popüler P(.) seçimlerini tartışacağız.
2.Olasılığın Bazı Özelikleri
de rs no
Şimdi, P(1)-P(3) aksiyomlarının gerçekten de olasılık fonksiyonumuzun sezgisel olarak beklediğimiz özeliklere sahip olmasını sağladığından emin olmak için yeterli olduğu konusunda kendimizi ikna etmemiz gerekiyor. Sezgisel olarak fonksiyonun şu özeliklere sahip olmasını bekleriz: (1) Bir olayın olma olasılığı ile olmama olasılığının toplamı bir olmalı, (2) imkânsız olayın, , gerçekleşme olasılığı sıfır olmalı, (3) Eğer A olayı B olayını içeriyorsa, B olayının olasılığı P(A)‟dan büyük olamamalı, ve (4) herhangi bir olayın olasılığı [0,1] aralığında yer almalı. Şimdi, temel aksiyomları kullanarak bu özelikleri ispatlayalım. Önerme 1.
P(AC) = 1 – P(A)
m
ISPAT: Tümleyen AC tanımına göre,
ee
burada son adımda A AC = yeniden düzenlediğimizde,
kullanılmaktadır, yani A ve onun tümleyeni ayrıktır. Bunu P(AC) = 1- P(A)
elde ederiz. Zaten göstermeye çalıştığımız da budur.
Önerme 2 P( ) = 0 C
= S olduğu için, önceki önermeyi kullanarak
om
ISPAT:
Önerme 3. Eğer B
A ise, o zaman P(B)
P(A)‟dır.
.c
olduğunu gösterebiliriz.
ri
Dipnot olarak, bu kural sezgisel görünmesine rağmen, bilişsel psikologlar insanların günlük olasılık muhakemesi içinde bu kuralı sık sık bozduklarını keşfettiler2.
tla
İSPAT: Olasılık aksiyomlarını kullanabilmek için, A olayını birleşim ve kesişim
özelliklerini kullanarak bölüntülere ayırmak yararlı olacaktır.
A ise kullanılmıştır. (P3) aksiyomunu nin ayrık olduğuna dikkat etmek gerekir.
de rs no
Burada, son adımda B kullanabilmek için B ile
Dolayısıyla, aksiyom P(1)‟i kullanarak sonucuna ulaşırız.
Önerme 4: Herhangi, bir A olayı için 0
.
P(A) aksiyom (P1)‟dir. İkinci eşitlik için, (P1) aynı zamanda P(
)
0‟i
m
İSPAT: 0 sağlar.
P(A)
ee
Dolaysıyla önerme 1‟e göre
2
Örneğin, Daniel Kahneman ve Amos Tversky tarafından yapılan bir çalışmada birkaç kişi Linda‟nın tarifini aşağıdaki gibi veriyorlardı: Linda 31 yaşındadır, bekardır, gevezedir, ve çok zekidir. Felsefe eğitimi aldı. Öğrenci iken, ayırımcılık ve sosyal adalet konularıyla çok derinden ilgilenirdi ve aynı zamanda nükleer karşıtı gösterilere de katılırdı. Linda‟nın bir gişe memuru olma olasılığı sorulan kişiler, onun feminist bir gişe memuru olma olasılığı sorulan kişilere göre daha düşük değerler verme eğilimindeydiler.
P(A) = 1- P(
)
1
om
Önerme 5
.c
İSPAT: Önerme 3‟te olduğu gibi Olay A ve B‟yi bölümlere ayırabiliriz.
ri
Aynı şekilde,
tla
Bunların bölüntü olduğu kolayca kontrol edilebilir. Yani kümelerin her bir çifti ayrıktır. Dolayısıyla aksiyom (P3) kullanılarak görüleceği gibi (
)
de rs no
ve
Dolaysıyla, , ile ‟nin bölüntüsü olduğu için (P3) kullanılarak (şekil 1 söz konusu fikrin grafiksel gösterimini vermektedir) [
ee
m
Son denklemin yeniden düzenlenmesi istenen sonucu verir.
]
om .c
‟nin ayrık olaylara bölüntülenmesi
tla
Şekil 1.
ri
Kaynak: MIT OpenCourseWare
3 Örnek: “Basit” Olasılık
de rs no
Sonuçların olay gerçekleşmeden önce simetrik olduğu, yani bir olayın olma olasılığının diğerinden fazla olması için bir sebebin olmadığı sonlu bir örneklem uzayımızın olduğunu varsayalım. Eğer n(C) bir C olayındaki sonuçların sayısını ifade ederse, olasılık P(A) :=
olarak tanımlanır. Yani, olasılık, A olayında yer alan S‟deki bütün olası sonuçların oranına eşittir. Bu dağılım, “basit” olasılık dağlımı veya “mantıksal” dağılım olarak adlandırılır. Para veya zar gibi her bir sonucun olasılığı eşit olan araçlar için adil oldukları söylenir. Şimdi üç aksiyomun da sağlanıp sağlanmadığına bakalım.
m
(P1): P(A) 0 n(.)‟nin sadece (zayıf ihtimalle de olsa) pozitif değerler almasının doğrudan sonucudur =1
ee
(P2): P(S) =
(P3) Ayrık iki A ve B olayı için
İkiden fazla küme için, argümanlar esas itibariyle özdeştir.
Olay A = {5, 6} olduğu için, n(A) = n({5,6}) = 2. Buradan P(A) =
om
Örnek 1. Kusursuz bir zarın bir kere atıldığını varsayalım. Bu durumda örneklem uzayı S = {1,2,…,6}’a eşittir, dolaysıyla n(S) = 6. Gelen sayının kesinlikle 4’ten büyük olma olasılığı nedir?
.c
Eğer bir zar iki kere atılırsa, iki rakamın toplamının 4 veya daha düşük olma olasılığı nedir? Bu durumda: S = {(1, 1),(1, 2), …, (2, 1),(2, 2), …, (6, 6)} olduğu için n(S) = 62 = 36.
tla
Dolaysıyla P(B) =
4” = {(1, 1),(1, 2),(1, 3),(2, 1), (2, 2),(3, 1)}
ri
Olay B = “Rakamların toplamı
de rs no
Biraz sonra, belli olaylar sonucunda oluşan sonuçları saymak için daha sofistike teknikleri göreceğiz.
4 Sayma Kuralları
Şimdiye kadar baktığımız örnekler, sırasıyla, A ve S „deki sonuçları saymanın kolay olduğu nispeten basit örneklerdi. Eğer S birçok elemana sahipse ve A yeterince karmaşık olursa, o zaman n(A) ve n(S)‟yi elde etmek için bütün sonuçlar listesine bakmak hem sıkıcı olur hem de pratik olmaz. Bu derste, kombinasyonların ve permütasyonların farklı olaylar sonucunda ortaya çıkan sayılabilir objeler (sonuçlar) için basit kurallar veren “kombinatorik” lere bakıyoruz.
ee
m
Örnek 2. Ünlü satranç oyuncusu Bobby Fischer (3 hafta önce öldü) sonunda “klasik” satrancı oynamaktan sıkılır ve sadece 8+8 piyonun alışılageldiği gibi yerleştirildiği ancak, ilk sırada, diğer taşların (1 şah, 1 vezir, 2 fil, 2 at ve 2 kale) her bir beyazın aynı cins siyaha karşılık geleceği şekilde rasgele yerleştirildiği bir varyant önerir. Diğer kısıtlamalar ise (1) bir fil siyah karede iken diğeri beyaz karede olmak zorunda, (2) şah ilk seferde iki kale arasından hareket etmek zorundadır (rok yapmaya izin vermek için). Bunun arkasındaki düşünce, satranç oyuncularının sadece standart başlama pozisyonu ile iyi işleyen standart oyun açmayı kullanma eğilimde oldukları için, yeni varyant, oyunun ezberlenmeyi imkânsızlaştıracak kadar yeterli sayıda oluşturulması
durumunda, oyuncuları yaratıcı bir şekilde oynamaya zorlamaktır. Fakat kaç tane farklı muhtemel başlama pozisyonu vardır?
om
Biz aslında bu gün derste bu sınıfta tanıtılan bazı sayma tekniklerini kullanarak bu hesaplamaları yapacağız. Eğer sıkıldıysanız, soruna saldırmanın (tercihen zarif şekilde) bir yolunu bulmaya başlayabilirsiniz. .
ri
4.1 Oluşturulmuş Deneyler
.c
Şimdilik, doğrudan rasgele deneyler veya olasılıklar hakkında konuşmayacağız fakat konu dışına çıkarak daha sonra derste kullanacağımız sonuçları hesaplama ve sayma yöntemlerini ele alacağız.
tla
Kural 1 (Çarpım Kuralı): Eğer bir deney birincisi m olası sonuca ve ikincisi birincisinin sonucu ne olursa olsun n olası sonuca sahip 2 bölümden oluşuyorsa, o zaman deney mxn sonuca sahiptir.
de rs no
Örnek 3. Eğer bir şifrenin 8 karakterli (harf ve rakam) olması gerekiyorsa, o zaman söz konusu deney her birisi 2x26 + 10 = 62 sonucu olan 8 parçaya sahiptir (şifrenin büyük ve küçük harfe duyarlı olduğu varsayımına göre). O halde, toplam olarak 628 (kabaca 218 trilyon) kadar farklı şifre elde ederiz. Açıkça söylemek gerekirse, onların tümünü el ile saymaya çalışmak iyi bir fikir olmazdı. Örnek 4. Bilgisayar sistemlerinin çoğunda kullanılan standart ASCII karakter seti 127 karakter içerir (boşluk hariç). Hafıza için her karaktere 1 byte = 8 bit isnat edilir. Geçmişten gelen sebeplerden ötürü, aktarma veya koddaki kopyalama hatalarını tespit etmek için 8nci bit tutarlılık kontrolünde “parite” olarak kullanılırdı. Bundan ötürü, her birisi {0,1}’den oluşan sonuca sahip 7 parçalı bir deneyimiz ve bu nedenle de toplam 2 7 = 128 sayıda farklı karakterimiz var.
ee
m
Örnek 5. Bir kart destesinde 52 kart vardır, dolayısıyla eğer mavi ve kırmızı destelerden birer kart çekersek 52x52=2704 olası kart kombinasyonu elde ederiz (eğer çekilişten sonra hangi desteden hangi kartın geldiğini bilemezsek, o zaman daha az sayıda ayırt edilebilir sonuçlar elde ederiz). Diğer taraftan, eğer aynı desteden geri koymadan iki kart çekersek, hangi kartı önce çektiğimizden bağımsız olarak, ikinci kartı çekmek için destede sadece 51 kart kalmış olur. Elbette hangi 51 kartın kaldığı hangi ilk kartın çekildiğine bağlı olacaktır, ancak bunun çarpım kuralı için önemli olmadığına dikkat edilmelidir. Bu nedenle, eğer aynı desteden iki kart çekersek, 52*51 = 2652 olası kombinasyonumuz olacaktır.
Son örnek genel şekilde açıklamaya çalıştığımız iki tür deneyi göstermektedir: her biri farklı sayma kuralarına sahip geri koymalı örneklem ile geri koymasız örneklem. N büyüklüğündeki bir gruptan geri koyma ile n tanesi çekilmiştir.
om
N.N….N = Nn n tane
mümkün sonuç.
tla
mümkün sonuç
n)
.c
N büyüklüğündeki bir gruptan geri koymadan n tanesi çekilmiştir (N
ri
k! := 1.2…(k-1)k (k faktöryel olarak okunur) ve 0! = 1 olarak tanımlanır.
de rs no
Gerçekte, bu iki sayma kuralı çarpım kuralından elde edilir, fakat bunlar istatistikte çok önemli oldukları için onları ayrı değerlendirdik.
4.2 Permütasyonlar
Örnek 6. Karıştırılmış bir deste, sıralanmış bir destenin permütasyonudur: Her ne kadar sıralama çoğu durumda farklı olsa da, her bir kart tam olarak bir kere destede yer almaktadır. Tanım 2. Objelerin sıralı herhangi bir yeniden düzenlenmesi permütasyon olarak adlandırılır.
m
Permütasyon oluşturmanın, yerine koymadan, N üyeli bir gruptan N tane çekiliş yapma olduğunu not ediniz.
ee
Örnek 7. 12 ton tekniği modern klasik müzikte bir besteleme tertibidir. Bu tertip içinde her parça bir tona dayanır. Her yarım tonlu ölçeğin (kromatik gam) on iki notası (C, C keskin, D, D keskin, vs….B’ye kadar) tam olarak bir kere görülür. Bu nedenle, her bir tonun dizisi yarım tonlu ölçeğin bir permütasyonudur ve prensipte farklı olan her olası “melodiyi” sayabiliriz (yaklaşık olarak 479 milyon). Örnek 8. Meşhur gezgin satıcı problemi. Diyelim ki ihtiyari olarak sıralanmış, aradaki mesafesi belli 15 kasabadan geçmek zorunda olan bir satıcıyı ele alıp ve her kasabadan (en azından) bir kere geçen en kısa yolu bulacağımızı varsayalım. 15’lik
gruptan 15 tane çekme formülümüzü kullanarak 15! sonucuna varabiliriz. Bu 1.3 trilyon farklı yol demektir. Bu karmaşık bir problemdir, bu nedenle çözmeyeceğiz.
ri
5!5!….5! 15! = (5!)1515!
.c
om
Satıcının her bir kasabada 5 müşteriyi ziyaret ettiğini hayal edebiliriz. Eğer müşteriden müşteriye mümkün olan bütün yolları düşünecek olursak, (15x5)! permütasyon elde ederiz (bu çok fazla!). Ancak, araştırmamızı satıcının kasabada iken 5 müşteriyle aynı anda (tanımlanabilir bir sıra ile) görüşme şeklindeki yolculuk planı ile sınırlandırmak mantıklı gibi görünüyor. Her kasabadaki müşteriyi görebilmesi için 5! olası sıralama vardır ve ziyaret edebileceği kasabalar içinse 15! olası sıralama vardır. Dolaysıyla, çarpım kuralını kullanarak söz konusu ilave sınırlamayı sağlayacak permütasyon sayısının hesaplayabiliriz:
15 tane
de rs no
4.3 Kombinasyonlar
tla
Bu hala çarpıcı bir şekilde yüksek bir rakamdır, fakat sınırlandırılmamış (15.5)! permütasyonundan kesinlikle çok daha düşüktür3.
Örnek 9. Eğer bir tek desteden kaç farklı poker eli çekeceğimizi saymak istersek, yani bir tek desteden yerine koymadan 5 kart çekmek gibi, kartların çekilme sırasıyla değil ancak her hangi bir kartın çekilip çekilmediğiyle ilgileniriz. Tanım 3. Herhangi sıralanmamış öğeler toplamına kombinasyon denilir.
m
Bir kombinasyon bir gruptan yerine koymadan gerçekleştirilen çekilişlerle oluşturulur. Fakat şimdi öğelerin çekiliş sırasıyla ilgilenmediğimiz için, sadece sıralaması farklı ama aynı öğelerden oluşan çekilişleri iki kere saymak istemiyoruz. n elemanlı bir yığından çekiliş yapabileceğimiz n! kadar farklı sıralama vardır (yani n tane elemanın permütasyon sayısı). Dolayısıyla, N objeden n tane farklı obje kombinasyonu: 3
ee
k! k‟ye göre çok hızlı büyüdüğü için çok az kişi faktöriyelin ölçeği hakkında sezgiye sahiptir. “Büyük” k değerleri için oldukça iyi iş gören Strling‟sin tahmin √
( )
Popüler bilimde oldukça yüksek rakamları karşılaştırmak için yaygın olarak kullanılan bir hesaplama 80 gözlemlenen kâinatın toplam atom sayısını tahmin etmektir.Bu değer aşağı yukarı 10 (doğrusu, bu 18 rakamı algılamak da bile güçlü çekiyorum). Faktöriyle cinsinde 10 59!‟dur. 75! sayısı kabaca 2.5 x 30 10 (iki buçuk milyon trilyon trilyon) çarpı kainattaki atom sayısı olarak ifade edilebilir. Bu şekilde karmaşık hesaplamalardan kaçınmak isteyeceğimiz için, sadece faktöriyellerin oranları ile ilgileniriz, bu nedenle de önce hangi terimin birbirini götüreceğini görmek gerekir. Örneğin .
Bu aynı zamanda binom katsayısı olarak bilinir ve genellikle ( )
.
olarak ifade edilir.
om
.
.c
Not: Her ne kadar faktöriyellerin oranlarına bakıyorsak da, binom katsayısı daima tamsayıdır (kombinasyon sayısının anlamlı olabilmesi için gereklidir).
ri
Örnek 10. Poker için, bu formülü kullanarak ( ) = 2598960 olası el olduğunu hesaplayabiliriz.
de rs no
tla
Örnek 11. İşlevsel bir çalışma grubu, diyelim ki, 5 kişiden fazla olmamalı (bu sayı için pedagojik bir gerekçe yoktur, sadece matematiksel işlemlerim gereğinden fazla karmaşıklaşmasını önlemek istiyorum). Bu derse şu anda 28 öğrenci kaydını yaptırmıştır. Kaç tane uygun çalışma grubu mümkündür (kendi başına çalışan öğrenciler dâhil)? Her bir 1, 2, 3, 4, 5 grup büyüklükleri için çalışma gruplarının sayısını hesaplamak ve toplamını almak zorundayız. Bu durumda (eğer herhangi bir hata yapmadıysam)
kadar mümkün çalışma grubu vardır.
Şimdi dersin başındaki “zor problem”imize geri dönelim:
ee
m
Örnek 12: Fischer’in Rassal Satrancına Geri Dönüş: İlk olarak kale ve filler hakkındaki (1) ve (2) nci sınırlamaları görmezlikten gelelim, yani satranç tahtasının alt sırasında taşların herhangi bir şekildeki yerleşimine izin verelim. 8 beyaz taşı (siyahta olabilir, bu önemli değil) tahtanın alt sırasındaki 8 kareye dağıtmak zorundayız. Dikkat ederseniz bu bir permütasyondur, bu nedenle 8! kadar olası sıralamamız var. Ancak, “sağdaki” ve “soldaki” taşların eşit olası kuralından ötürü kale, vezir ve filler çifterdir. Dolayısıyla, sırasıyla iki kale/fil/veziri birbiriyle değiştirerek 2x2x2 olası bir başlangıç pozisyonu oluşturma yolu vardır. Bundan ötürü, farklı oyun sayısı
Oyun Sayısı =
= 7! = 5040
kadardır.
tane vezir yerleştirme yolu vardır. Şah ve kaleler
.c
kombinasyondur, yani ( )
om
Daha önce söylediğimiz gibi, gerçek kurallar Fischer’in Rasgele Satrancına ilaveten şunları empoze eder: (1) bir fil siyah karede ise diğeri beyaz karededir, (2) şah iki kale arasında ilk hareketini yapabilir. Bu varyant için, eğer sıraları doldurma sıralaması konusunda biraz zekiysek, çarpım kuralını kullanabiliriz. Öncelikle iki fili, tesadüfen seçilen bir siyah kare ile tesadüfen seçilen bir beyaz kareye yerleştirmeyi öneriyorum. Böylece 4x4 olanağımız vardır. Sonra, at geri kalan 6 kareden birine yerleştirilir (6 olanak). İki veziri, geriye kalan 5 kareden herhangi birine yerleştiririz. Bu bir
ri
için bir sınırlama olduğundan, geriye kalan üç taşı boş olan üç alana yerleştirmek için her zaman bir tek yol vardır. Toplam olarak, elimizde Oyun Sayısı = 4x4x6x10x1 = 960
tla
kadar oynanacak potansiyel “oyun” vardır.
de rs no
Taşları yerleştirme konusunda kritik nokta, çarpım kuralını uygulayabileceğimizden emin olmaktır, yani ilk taşı yerleştirme şeklimiz geriye kalan taşların yerleştirilme olanaklarının sayısını etkilememelidir. Görebildiğim kadarıyla, bu sadece filler için önemlidir: düşünün, önce kale ile şahı ve sonra filleri yerleştirmişiz. O zaman (a) her üç taş aynı renk alanlara (o durumda filleri 1x4 = 4 sayıda olası farklı renkli yerlere koymuş olacaktık) veya (b) taşlardan birisinin diğer iki taştan farklı renkli bir alana (bu bize fil için 2x3 = 6 farklı seçenekle baş başa bırakacaktı) konulup konulmadığını ayırt etmek zorunda kalacaktık. Önce filleri, sonra şahı kalelerden önce yerleştirdiğimiz sürece, daha sonra nasıl devam ettiğimiz önemsiz gibi görünüyor.
5. Başkanın Ölüm Tarihi Paradoksu (Çalışma Sorusu)
ee
m
Yaşayan veya ölü başkanlar ile ilgili komplo teorileri tipik olarak “sıra dışı” tesadüfler üzerine kurulur. Örneğin, suikaste uğrayan iki Amerikan başkanı için, yani Lincoln ve Kennedy, bir kişi az çok dikkate değer ortak noktalarla alakalı çok uzun bir liste oluşturabilir. Örneğin, Lincoln‟un vurulduğu tiyatroya gitmemesi konusunda uyaran Kennedy adında bir sekreteri varken, Kennedy‟nin de suikastten önce Dallas‟a gitmemesi konusunda uyaran Evelyn Lincoln adında bir sekreteri varmış (Hoş! En azından Wikipedia öyle diyor). Bir diğer belirgin tesadüf ise 39 başkandan ölmüş olan bazılarının aynı ölüm tarihine sahip olmalarıdır: Filmore ve Taft‟ın ikisi de, 8 Mart‟ta, ölmüşlerdir. John Adams ve Thomas Jefferson‟un ikisi de 4 Temmuz 1826 tarihinde, bağımsızlık bildirgesinin
imzalanmasından tam olarak 50 yıl sonra, öldüler. Ve James Monroe tam olarak 5 yıl sonra, 4 Temmuz 1831‟ de öldü. Bunlar şaşırılması gereken şeyler mi?
om
İlgili olaya ait sonuçların oranlarının olasılıklara eşit olduğu varsayımı altında, şimdi iki belirlenmiş başkanın belli bir günde, Şubat 6 diyelim, ölmesinin basit olasılığına bakalım. Bu durumda, iki başkanın ölüm günlerinin 6 Şubat‟a denk gelmesinin sadece bir tek kombinasyonu olduğunu buluruz. Fakat saymanın çarpım kuralına göre toplam olarak 3652 kadar olası ölüm günü kombinasyonu vardır. Buna göre, söz konusu olayın olasılığı son derece düşük bir rakam olan 1/3652‟dir.
de rs no
tla
ri
.c
Ancak, duble ölümün potansiyel adayı olarak bir yılda çok sayıda başkan ve gün eşleşmesi vardır. Şimdi, 39 başkandan en az 2‟sinin aynı günde ölmesi olayı olan A‟nın olasılığı, prensip olarak bir çift, iki çift, üç çifti vb başkanın aynı ölüm tarihine sahip olmasının bütün olası kombinasyonların oranı olarak hesaplanır. Bu sorunu çözmenin en zarif şekli ise A AC = S ve A AC = olduğu için aksiyom (P2) ve P(3)‟ten P(A) = P(S) – P(AC= 1 – P(AC) elde ederiz. Olay AC “39 başkanın tümü farklı ölüm gününe sahiptir” olarak formüle edilebilir. Eğer sadece iki ölü başkan varsa, ilkinin ölümünden sonra ikinci başkanın farklı bir günde ölmesi için 364 farklı yol vardır. Şimdi her bir n başkana farklı bir ölüm günü tayin etme olanaklarının sayısını belirlemenin yerine koymadan 365‟ten n tane çekilişe tekabül ettiğini farketmemiz gerekir, bu nedenle olanakların sayısı
‟dir.
Başkanlara mümkün olan tüm farklı ölüm günlerini atama sayısı yerine koyarak çekiliş yöntemine tekabül eder, dolaysıyla bu sayı 365n‟dir. Buna göre aynı ölüm tarihli en az bir çift başkanın olma olasılığı P(A) = 1 – P(AC) = 1-
ee
m
burada, n = 39 için aşağı yukarı %87.82‟e eşittir. Bu formülü kullanarak, farklı sayıdaki başkan için de bu olasılıkları hesaplayabiliriz:
Son satırdan görülebilen, olasılığın bire yükselmesinin sezgisel olarak nedeni ölüm günlerinden daha fazla başkan ölümlerinin gerçekleşmesinden ötürü, potansiyel farklı ölüm gününün “kalmamasıdır”.
.c
om
Bu nedenle, bu paradoksu çözmek için, iki belirlenmiş başkanın aynı günde ölmesi aslında büyük bir tesadüf iken (çünkü bu olay çok düşük bir olasılığa sahiptir), artan başkan sayısıyla beraber, böyle bir olay için farklı kombinasyon sayısı çok hızlı artar. Başka bir ifadeyle, her bir bireysel sonucun gerçekleşme olasılığı çok düşükken, “potansiyel tesadüf sayısı” çok hızlı bir yükseliş gösterir, bundan ötürü büyük bir olasılıkla en azında bazı tesadüfler gerçekleşmek zorundadır.
ee
m
de rs no
tla
ri
Diğer komplo teorilerinin arkasındaki hikaye muhtemelen aynıdır: İnsanlar son derece fazla detayı tarayarak Kennedy ile Lincoln arasında nispeten daha az sayıdaki ilginç paralellikleri bulmaya çalışıyorlar. İstatistikte, bu tür araştırıma stratejisine “data mining” adı verilir ve bu bağlamda gerçekte “yanlış buluş” olarak meydana gelen bu ender tesadüflere değiniriz. Bu tesadüfler sistematik bir ilişkinin sonucunda değil, fakat aynı anda araştırabileceğimiz veya test edebileceğimiz çok sayıdaki potansiyel ilişkinin sonucunda ortaya çıkmaktadır.
Olasılık ve İstatistik Ders Notları 3
om
Konrad Menzel 10 Şubat 2009
.c
1 Sayma Kuralları ve Olasılık
tla
ri
Hatırlanacağı gibi, basit olasılık ile sonuçların eşit olarak mümkün olduğu ve sonlu bir örneklem uzayı için, A olayının olasılığı
ile ifade edilir.
de rs no
Şimdi, bu olasılıkları hesaplamak için sayma kurallarını nasıl kullanacağımızı göreceğiz. Örnek 1. Her bir kartın çekilme olasılığının eşit olduğunu varsayarak, yerine koyma yöntemiyle 52’lik bir desteden iki kart çekin. İki farklı kart çekmenin olasılığı nedir? S = {(
)(
)
}
n(S) = 522
“iki farklı kart” olayı
ee
m
içerir. Böylece
Alternatif olarak, olasılığın birinci önermesini kullanabilirdik: P(A) = 1 – P(AC) = 1- P(“aynı iki kart”) = 1 – P(“ikinci kart birincinin aynısı”) = 1 –
om
Bazı başka örneklerde, bir olayın olasılığını, tümleyeni aracılığıyla hesaplamak işlemleri çok basitleştirebilir.
.c
Örnek 2. Varsayalım ki Ocenia ülkesi Eurasia’nın başkentine 8 tanesi nükleer başlık taşıyan 16 füzeyle saldırdı1. Yine varsayalım ki, Eurasia ordusu 16 füzeyi de izleyebilir ve hangi füzenin konvansiyonel başlık taşıdığını ayırt edemeyen ancak her birisi gelen füzelerin önünü kesin olarak kesebilecek 12 rokete sahip olsun. Euarasia’nın felaketi önleyememesi ve en az bir nükleer başlıklı füzenin hedefine ulaşma olasılığı nedir? Sezgisel tahmininiz ne olurdu?
tla
ri
Her durumda, tam olarak 4 füze hedefine ulaşacağı için, S örneklem uzayı 16’da 4 füzenin bütün kombinasyonlarını içerir. Dolaysıyla, S’nin elemanlarının sayısı binom katsayısı ile verilir.
de rs no
Olasılığı değerlendirebilmek için, bir yaklaşım tümleyen kuralını kullanmaktır. Olay A = “en az bir nükleer başlık hedefi vurur” un tümleyeni AC = “hedefi vuran bütün füzeler konvansiyoneldir” dir ve AC’nin sonuçları 8’den 4 füzenin (konvansiyonel olanlar) bütün kombinasyonları şeklinde hesaplanır. Böylece
Bu nedenle,
m
Öyleyse bu olasılık bire oldukça yakın– bunu bekleyip beklemediğinizden emin değilim, fakat politik olarak doğru olmasa da, bu örnek çok sayıda olanağın olduğu kombinasyon problemlerinde sezgilerin çok kolay yanılabileceğini göstermektedir.
ee
Örnek 3. Meşhur doğumu günü “paradoksu” (bir zamanlar) popüler bir parti oyunu ile ilgilidir: n kişilik bir arkadaş grubunuz olsun, onlardan en az bir çiftin aynı doğum gününe sahip olma olasılığı nedir? (bütün doğum günlerinin eşit olasılıklı olduğunu varsayalım. Bu gerçekte, sadece kabaca ampirik olarak doğrudur. ) Yine, her bir n arkadaşınızın 1
Buradaki isimler Orwell’in romanı “1984” ten alınmıştır, dolayısıyla bunun bir gerçek dünya örneği olması gerekmiyor.
om
farklı doğum gününe sahip olduğu AC tümleyen olayına bakalım: Bu, yerine koymadan 365’ten n tane çekilişe tekabül ettiği için, ilgili formülü kullanabiliriz:
.c
Böylece en az iki arkadaşınızın aynı doğum gününe sahip olma olasılığını, P(A), hesaplayabiliriz:
de rs no
tla
ri
Bu formül bilhassa kolay okunmaz, bu nedenle şimdi n’nin birkaç değeri için olasılıkları ondalık olarak aşağıya yazalım:
m
Birçok kişi bu olasılıkları çok yüksek bulabilir, fakat bu genellikle kişinin n arkadaşınızdan herhangi birinin sizinle aynı doğum gününe sahip olma olasılığını hesaplayarak düşünmeye başlama eğilimi yüzündendir. Siz kendinizi, listemizin farklı olduğu, olasılığın
ee
olduğuna ikna edersiniz. Bu farklılığın nedeni, önceki durumda, A’nın aynı zamanda n arkadaşınız arasındaki bütün eşleşmeleri kapsamasıdır ki bu da sayıyı hızlı bir şekilde yukarı doğru çekmiştir.
om .c
2. Bağımsız Olaylar
tla
ri
Sezgisel olarak, iki farklı olay olan A ve B için A’nın gerçekleşmesinin B’nin gerçekleşme olasılığını “etkilemediği” bir kavram tanımlamak istiyoruz. Örneğin eğer bir madeni parayı iki kere fırlatırsak, ikinci atışın sonucu herhangi bir şekilde birinci atışın sonucundan etkilenmemelidir. Notasyonu basit tutmak için bundan sonra P(A B) = P(AB)
de rs no
olarak ifade edilecektir.
Tanım 1. A ve B olayları, eğer aşağıdaki koşulu sağlarlarsa bağımsızlardır P(A B) = P(A)P(B)
Buradaki bağımsızlığın, olayların fiziksel doğasının değil, sadece olasılık dağılımın bir özeliği olduğunu görebilirsiniz. Bu yüzden bazı olaylarda bağımsızlık hakkında iyi sezgiye sahip iken (bir dizi yazı-tura atma gibi), çoğu durumda bu formal koşulu kontrol etmekten başka seçeneğimiz yoktur. Örnek 4. Diyelim ki adil bir zarı iki kere fırlattık, aşağıdaki olayların ve kesişimlerinin olasılığı nedir?
m
A = {2, 4, 6}
ee
Sonuçları sayarak P(A) = kesişim olasılığı
B = {1, 2, 3, 4} ( ) ( )
’dir ve aynı şekilde, P(B) =
’tür. Olayların
Böylece olaylar aynı atıştan elde edilmesine rağmen bağımsızdır.
.c
om
Bağımsızlığın belirtilen olasılık dağılımına ne denli önemli bir şekilde bağlı olduğunu görmek için, şimdi varsayalım ki, zar manipüle edildi ve böylece P(6)=3/8, diğer bütün sayılar için n = 1, … , 5, P(n) = 1/8 olsun. O zaman, ayrık olayların olasılıklarının toplamı üzerine olan (P3) aksiyomuna göre,
ri
ve
de rs no
tla
Bağımsızlığın bir yorumu da şöyledir: Varsayalım ki B’nin meydana geldiğini biliyoruz, bu bilgi bizim A’nin gerçekleşme ihtimali konusundaki inancımızı değiştirir mi (ya da tersi)? Bunu sonraki bölümde formüle edeceğiz ve göreceğiz ki eğer A ve B bağımsızsa, B’nin oluşması bilgisinden A olayı hakkında öğreneceğimiz hiçbir şey yoktur.
Önerme 1. Eğer A ve B bağımsız ise, o zaman A ve BC’ de bağımsızdır. İSPAT: A’yı AB ve ABC gibi iki ayrık olaya bölebileceğimiz için, aşağıdaki şekilde bağımsızlığı ispatlayabiliriz:
Şimdi bağımsızlığın tanımını iki olaydan daha öteye taşıyabiliriz.
ee
m
Tanım 2. Bir grup A1, A2,…. olaylarının bağımsız olması için, bu olayların herhangi bir alt grubu Ai1, Ai2, … için (bütün indeksler farklıyken), aşağıdaki koşul sağlanmalıdır:
Örneğin, A, B, C olayları için,
ve
om
Örnek 5. Örneklem uzayı S = {s1, s2,s3,s4} ve bütün sonuçlar için P(si) = 1/4 olsun, o zaman her bir olay
ri tla
(A B) olayının olasılığı
.c
1/2 olasılıkla gerçekleşir.
de rs no
ve bu durum herhangi iki olay için de doğrudur, böylece olaylar ikili olarak bağımsızdır. Ancak, hepsi beraber ele alındığında toplam yığın bağımsız değildir. Çünkü
Sezgisel olarak, A ve B’nin gerçekleştiğini bilirsek, C’nin gerçekleştiğini kesin biliriz.
3. Koşullu Olasılık
m
A’nın gerçekleşmesinin B’nin gerçekleşmesini (ya da gerçekleşmemesini)etkilediğini ve tersini varsayalım. A hakkında bilgi verilmişken, B’nin gerçekleşme olasılığını nasıl tanımlarız? Eğer iki olay bağımsız ise, A’nın B hakkında hiçbir bilgi vermeyeceğini zaten sezgisel olarak tartışmıştık. Ancak eğer bilgi verirse ne olur? Sonuç olarak olasılıkları nasıl değiştiririz?
ee
Örnek 6. Eğer adil bir zarı atarsak ve gerçekte sonucun çift bir sayı olduğunu söylersek, yani B = {2, 4, 6} olmuşsa, zarın 6 gelmiş olma olasılığı nedir? B’de sadece 3 tane eşit olasılıklı sonuç olduğu için, ki 6 onlardan biridir, biz sezgisel olarak cevabın 1/3 olmasını bekleriz. Burada örneklem uzayını ̂ = B = {2, 4, 6}’ye indirgedik ve yeniden tanımlanmış probleme göre basit olasılığı hesapladık. Tanım 3. Varsayalım ki, P(B) > 0 iken, A ve B, S’de tanımlanmış olaylar olsun. B’nin gerçekleşmesi durumunda A’nın koşullu olasılığı
om
ile verilir.
de rs no
tla
ri
.c
Sezgisel olarak, pay, B’nin gerçekleştiğinin bilinmesi durumunda A’daki hangi sonuçların olası olduğunu ifade eder. Payda tüm örneklem uzayı için aynı şeyi yapar.
Kaynak: MIT OpenCourseWare
Şekil 2. B’ye koşullanmış olarak A olayı
Açıklama 1. Koşullu olasılık ve bağımsızlık: Eğer A ve B bağımsız ise,
Öyleyse B’nin gerçekleşmesi bize A hakkında hiçbir şey söylemediğinden koşullu olasılık, koşulu olmayan olasılığın aynısıdır.
ee
m
Örnek 7. Bu örnek Greg Mankiw’in web günlüğünden (blog)2 uyarlanmıştır. Intrade gibi platformlarda, eğer bir olay gerçekleşirse (örneğin, Yankeelerin dünya şampiyonasını kazanması) 1 dolar ödeyen değerli kağıtları alıp satabilirsiniz . Eğer piyasa gerektiği gibi çalışırsa, bu tip değerli kağıtların belirli bir t zamanındaki fiyatı, alıp satanların bu t zamanındaki bilgisine bağlı olan olasılık şeklinde yorumlanabilir. Intrade’deki politik piyasada, aşağıdaki olaylar için değerli kâğıt alıp satabilirsin:
2
Ai aday adayı i başkanlık seçimini kazanır (adaylık koşuluna bakılmaksızın) Bi aday adayı i partisinin adaylığını kazanır
Ck k partisinin adayı seçimi kazanır
om
Şimdi, ilgili olayların değerli kağıtlarının fiyatları kullanılarak belirlenen olasılıkları kullanarak piyasanın, partinin aday göstermesine bağlı olarak aday adayı olması halinde, P(Ai|Bi), her partinin hangi aday adayının başkanlık seçimini kazanma olasılığının en yüksek olduğunu düşündüğü sorusunu cevaplandırabiliriz. Yani hangi adayın önerilmesi partiye başkanlık seçimini kazanmada en yüksek şansı sağlardı.
ri tla
Böylece,
.c
Parti tarafından aday gösterilmeyen adayın seçimi kazanma şansının olmadığını rahatlıkla (nispeten) varsayabiliriz, bundan ötürü
de rs no
Böylece, ilgili değerli kağıdın fiyatını sadece formülde yerine koymamız yeterlidir. 6 Şubat’taki Intrade politik piyasasındaki değerli kağıt fiyatlarına dayanarak, aşağıdaki rakamları elde ederiz (son sütunda, Mankiw’un Kasım 2006’daki orijinal web günlüğünde yer alan değerleri kullandım).
m
P(A)’yı P(A|Bi) koşullu olasılığından ayırt etmek için, P(A), A’nın marjinal olasılığı olarak da adlandırılır. Marjinal ile koşullu olasılık arasındaki ilişki Toplam Olasılık Kanunu ile verilir.
ee
Teorem 1. (Toplam Olasılık Kanunu) Varsayalım ki B1, …, Bn örneklem uzayı S’nin bir bölüntüsü ve her i = 1, …, n için P(Bi) > 0 olsun. O zaman herhangi bir B olayı için,
om
İSPAT: Koşullu olasılık tanımından herhangi bir Bi olayı için P(A|Bi)P(Bi) = P(A Bi). B1, …, Bn örneklem uzayı S’nin bölüntüleri olduğundan, (A B1) … (A Bn), ayrık ve A için karşılıklıdır, yani A için bölüntü oluştururlar. Bu nedenle, ayrık kümelerin birleşiminin olasılığı üzerine olan aksiyom (P3)’e göre . Örnek 8.
de rs no
tla
ri
.c
Tıbbi veride, sıklıkla daha yaşlı ve tecrübeli kalp cerrahları tarafından tedavi edilen hastaların aslında daha genç olanlar tarafından tedavi edilenlere göre daha yüksek ameliyat sonrası ölüm oranına sahip oldukları görülmektedir. Tecrübeli cerrahlar için % 6’lık, daha genç olanlar için sadece %5.5’lik ölüm oranlarını gözlemlediğimizi varsayalım. Bu durum, cerrahların yeteneklerinin yaş ilerledikçe azaldığı anlamına gelir mi? Muhtemelen değil – Burada bir cerrahın uygulamak zorunda olabileceği dört çeşit prosedür olduğunu varsayalım – tekli, ikili, üçlü ve dörtlü bypass (terminoloji bypass edilmesi gereken koroner arter sayısını göstermektedir). Prosedürün karmaşıklığı ve hastaların riski baypas sayısıyla artar ve genellikle “daha hasta” olan hastalar daha komplike prosedürlere ihtiyaç duyabilirler. Varsayalım ki, her bir prosedür için, tecrübeli cerrahların hastalarının bariz bir şekilde çok daha düşük ölüm oranına sahip oldukları, fakat tecrübesiz cerrahların hasta ölümlerinin oranının genel olarak daha düşük olduğu bize söylendi. Toplam olasılık kanunun ışığında, bu iki durum nasıl bir arada gerçekleşebilir? Şimdi bir örneğe bakalım (Bu rakamlar elbette uydurmadır) Prosedür
Tekli Baypas İkili Baypas Üçlü Baypas Dörtlü Baypas Toplam
Tecrübesiz Ölüm Oranı Vaka Yüzdesi % 4.0 % 50.0 % 6.0 % 40.0 % 10.0 % 9.0 % 20.0 % 1.0 % 5.5 % 100.0
Tecrübeli Ölüm Oranı Vaka Yüzdesi % 2.0 % 25.0 % 4.0 % 25.0 % 6.0 % 25.0 % 12.0 % 25.0 % 6.0 % 100.0
m
Toplam Olasılık Kanunun ifadesi çerçevesinde, tecrübeli cerrahlar için genel ölüm oranları P(A), Bi prosedürüne koşullu ölüm oranlarından, P(A|Bi) ve baz oranı / vakaların birbirlerine göre oranları P(Bi) ile hesaplanabilir.
ee
Tecrübeli cerrahlar her prosedüre karşılık gelen orantısız bir şekilde yüksek oranlarda riskli vakalarda görevlendirildikleri için (varsayımsal olarak bu gibi durumlarda daha fazla tecrübeye ihtiyaç olduğu için), her bir tedavi kategorisini daha iyi uyguladıkları halde, ortalama (marjinal demek daha doğru) ölüm oranlarının tecrübesiz cerrahlarınkinden daha yüksek olduğunu görebiliyoruz. Bu durum sıklıkla kompozisyon etkisi olarak anılır.
Marjinal ölüm oranları için iyi bir kullanım alanı bulmak daha zor.
om
O halde her bir olasılık türünün pratik önemi nedir? Eğer baypas için cerrahlar arasından birini seçmek durumunda olsaydınız, prosedürün tipi yalnızca sağlık durumunuza bağlı olmalıydı, cerrahın tecrübeli olup olmamasına değil, dolaysıyla bu durumda sadece koşullu olasılığı önemsemeliydiniz.
ri
.c
Bir çok istatistiki analizde, gerçekte koşullu ölüm oranlarıyla ilgilenirsiniz (örneğin, eğer siz tecrübenin ölümler üzerindeki etkisiyle ilgileniyorsanız) ve “prosedür tipi” değişkeni istatistikçilerin adlandırdığı üzere “karışıklığa neden olan faktör” olarak ele alınır. İstatistik ve Ekonometrideki klasik sorun, sıklıkla birçok ilgili “karışıklığa neden olan faktör” ’ün gözlemlenmemesidir ve siz bu problemin üstesinde gelme yollarını öğreneceksiniz.
tla
Açıklama 2. Diğer bir yakın ilişkili kavram da ekonometride çok önemli olan koşulu bağımsızlıktır. Aşağıdaki koşulun sağlanması durumunda, A ve B’nin C’ye koşullanmış iki bağımsız olay olduğu söylenebilir.
de rs no
Aşağıdakilere dikkat çekmekte fayda vardır
Koşulsuz bağımsızlık koşullu bağımsızlığı sağlamaz Koşullu bağımsızlık koşulsuz bağımsızlığı sağlamaz
Yani A ve B’nin bağımsız olup olmaması ciddi bir şekilde neye koşulladığımıza bağlıdır. Sonraki problem setinde bir karşı- örnek içeren bir uygulama olacaktır.
4. Koşullu Bağımsızlık (derste işlenmedi) Bağımsızlığın tanımını koşullu olasılıklara uygulayabiliriz:
ee
m
Tanım 4. A ve B olaylarının C olayına bağlı olarak bağımsız olmaları için koşullu olasılıkları aşağıdaki şartı sağlaması gerekir:
Bu tanım daha önce ele aldığımız koşulsuz bağımsızlık ile tam uyumludur. Biz sadece kendimizi yeni örnekle S’ = C ile sınırlıyoruz. Koşullu bağımsızlık daha sonra ekonometride çok önemli bir rol oynayacak. Bu nedenle özel olarak üzerinde durulmayı hak ediyor. Teknik olarak, koşullu bağımsızlığın koşulsuz bağımsızlığı sağlamadığını (ya da tersini) not etmek önemlidir. Başka bir ifade ile, iki olayın bağımsız olup
om
olmaması ciddi bir şekilde başka neye koşulladığımıza bağlıdır. Bunu önceki derste belirtmiştim, şimdi ise başka bir örnek vererek açıklayacağım.
Örnek 9. Her bir sonucun 1/6 olasılıkla gerçekleştiği, zar atma örneğine tekrar bakalım, yani S = {1, 2, 3, 4, 5, 6} .
.c
(1) İki bağımsız olayı bağımlı yapma: A = {1, 2, 3, 4} ve B = {2, 4, 6} olaylarını düşünün. Daha önceki örnekte bu iki olayın bağımsız olduğunu zaten görmüştük.
tla
de rs no
Ancak,
ri
Şimdi olay C = {3, 6} olsun. O zaman
Yani, onların kesişimi C ile ayrışık olduğu için, A ve B, C’ye bağlı olarak bağımsız değillerdir. (2) İki bağımlı olayı bağımsız yapma: D = {2, 3, 4} ve E = {2, 4, 6} olsun. D ile E’nin bağımlı olduğunu kontrol edebiliriz: P(D) = P(E) = 1/2 olduğunu görebiliriz. Ancak,
ee
m
Fakat eğer F = {3, 4, 5, 6} üzerine koşullarsak
Halbuki
ee
m
de rs no
tla
ri
.c
om
Böylece F üzerine koşullanınca, D ve E bağımsız oldu.
Olasılık ve İstatistik Ders Notları 4
om
Konrad Menzel 12 Şubat 2009
.c
1. Bayes Teoremi
tla
ri
Son derste koşullu olasılığı açıkladık ve Toplam Olasılık Kanunun A olayın koşulsuz olasılığını P(A) koşulu olasılığa (P(A|Bi) bağlayan bir yol olduğunu gördük. Koşulu olasılıklar arasındaki bir diğer önemli ilişki P(A|B) koşullu olasılığını P(B|A) koşulu olasılıkla ilişkilendiren Bayes kanunudur, yani koşul sırasını tersine çevirme yoludur. Bu sonuç, istatistiğin ve olasılığın birçok alanında önemli bir rol oynar, en önemlisi de B “verisi”ni gözlemlerken” “dünya hali” A’yı “öğrenme” durumlarında oynadığı roldür.
de rs no
Örnek 1. Antik Yunanlılar (belli ki henüz istatistik hakkında çok şey bilmiyorlardı) her bir gemi batışından sonra, kurtulan bütün deniz adamlarının deniz tanrısı Poseidan’a dua ettiklerini fark ederler. Bu gözlemden hareketle, onların gerçekten kurtulmasının nedeni dua etmiş olmaları olduğu yorumu yapılır. Bu örnek gerçekte 16ncı yüzyıl İngiliz filozofu Francsi Bacon tarafından gündeme getirilmiştir. İstatistiki terimlerle, “kurtulanlar”ı olay A ve “dua etme”yi olay B olarak tanımlayalım. Böylece, soru dua etmenin kurtulma olasılığını yükseltip yükselmediği olur, yani (P(A|B) > P(A) p ilişkisi doğru mu, değil mi? Bütün kurtulan denizcilerin dua etmiş olduğu gözlemi P(B|A) = 1’e dönüşür. Bu bilgi gerçekten de dua etmenin kurtulma şansını önemli ölçüde artırıp arıtmadığı sorusunu cevaplandırmak için yeterli midir? P(B|A) ile ilgili bilgiyi kullanarak P(A|B) hakkındaki bilgiyi nasıl öğreniriz?
m
Koşullu olasılığın tanımdan aşağıdaki ilişkiyi elde ederiz,
ee
İkinci denkliği yeniden düzenleyince
ilişkisini elde ederiz. Aşağıdaki olayı bölüntüleyebileceğimizi daha önce görmüştük,
om
Böylece şu sonuca varırız:
İzleyen teoremde özetlendiği gibi bu sonucu S’nin herhangi bir bölüntüsüne genelleştirebiliriz.
P(Ai) olay Ai’nın önceki olasılığıdır (yani deneyden önceki olasılıktır) P(Ai|B) Ai’ nin sonraki olasılığıdır (yani deneyden ve B hakkında –Bayes teorimden elde edildiği gibi- bilgi elde edildikten sonraki olasılıktır)
tla
ri
.c
Teorem 1. (Bayes Teoremi) Eğer A1, A2, …, S’nin bir bölüntüsü ise, P(B) > 0’lı herhangi bir B olayı için aşağıdakini yazabiliriz
de rs no
Optimal karar vermenin istatistiksel teorisinin tümü bu basit fikir üzerine kuruludur: Bayes Karar Teorisi
m
Örnek 2. Önceki, batan gemiden kurtulan deniz adamları örneği için, P(B|A) = 1’i ve (koşulsuz) deniz adamlarının kurtulma oranını P(A) gözlemleyebiliyorduk. Ancak, P(B|AC)’yi (boğulanlar arasında dua edenlerin oranı) gözlemleyemediğimiz için, dua etmenin kesinlikle kurtulma şansını artırıp artırmadığı ile ilgili soruyu cevaplandırmak için yeterli bilgiye sahip olmadığımızı da görebiliyoruz. Onların da ölüm korkusundan dua ettiğini rahatlıkla varsayabiliriz (yani P(B|AC) = 1). Böylece aşağıdaki ilişkiyi elde edebiliriz,
ee
Antik Yunanlıların muhakemesi, bir bakıma, “kurtulan sapma” sına bir örnektir (hoş! en gerçekçi ifadesiyle): Bayes teoremi bize, eğer sadece kurtulanları gözlemlersek, kurtulamayanlar hakkında çok şey bilmedikçe kurtulan alt-nüfusun neden kurtulduğu konusunda bir yargıya varmayacağımızı gösterir.
Örnek 3. Bayes kuralının önemli bir uygulaması da tıbbi testlerin nasıl yorumlanacağı ile ilgilidir. Bir doktorun çok nahoş bir hastalık için bir hastaya test uyguladığını varsayalım ve hastanın gerçekte hasta olduğu olayına A diyelim. Test pozitif bir sonuç verebilir, ki biz buna B olayı diyeceğiz, veya negatif sonuç verebilir, bu da BC’dir.
Hastanın hastalıklı olup olmadığını belirleme konusunda test tam olarak güvenli değildir, fakat pozitif test sonucunun olasılığı,
om
P(B|A) = % 99 , P(B|AC) = %5
.c
Sonuç olarak, hastalığın nispetten ender görüldüğünü ve hastaların yaşı, cinsiyeti ve diğer özelliklerine bağlı olarak nüfusun %5’ni etkilediğin biliyoruz. Diyelim ki test pozitif sonuç verdi. Hastanın gerçekten hastalıklı olmasının (koşullu) olasılığı nedir? Bayes kuralı aşağıdaki ilişkiyi verir
ri
Hastalığın genel yaygınlığı, P(A), oldukça düşük olduğu için, pozitif test sonucu bile hastalığın nispeten zayıf kanıtı oluyor.
de rs no
tla
Örnek 4. Romeo ile Juliet bir süredir görüşüyorlar ve bir gün sevgililer günü (hatırlatmak için: bu Cumartesi’dir) gelir. Romeo Juliet’e ya mücevher hediye edebilir, J, ya da ona bir serenat yapabilir, S. Juliet mücevher ister. Eğer Romeo onu gerçekten sevdiyse, onun isteğini gözlerinden okuyabilirdi. Doğrusu, Juliet ona bu isteğini iki hafta önce, Amerikan futbol ligi finalinin son yarım saatinde söylemişti. Juliet aynı zamanda Romeo’nun kendisini hala sevip sevmediği konusunda ilk kez şüpheye düşer. Buna L olayı diyelim. Spesifik olmak gerekirse, P(L) = 0.95
Juliet, Rome kendisini seviyorsa, ona P(J|L) = 0.80 olasılıkla mücevher vereceğini veya P(S|L) = 0.20
olasılıkla serenat yapacağını da biliyor (Bu sadece Juliet’’in düşündüğüdür, unutmayın ki Romeo Amerikan futbolunu da çok seviyor). Eğer Romeo onu artık sevmiyorsa, P(S|LC) = 0.80
ee
m
olasılığıyla Juliet’in ne sevdiği konusunda bir fikri olmayacak ya da ona bir serenat yapacaktır (veya daha gerçekçi bir şekilde, önceki sene Juliet’in istediği gülleri verebilir ya da sevgililer gününü tamamen unutabilir). (Not: Serenat yapmak Romeo için çok utanç verici olabilir ama aynı zamanda daha da ucuzdur). Sonuçta Romeo Juliet’e serenat yapar. Juliet onu hemen terk etmeli mi? Bayes teoremine göre, Juliet’in Romeo’nun eğilimi hakkında sonraki inancı aşağıdaki ilişki ile verilir
Bunun Juliet için iyi olup olmayacağına kendisinin karar vermesini bekleyeceğiz.
om
Gerçek hayatta, bir çok insanın bu tür yargıları çok iyi değildir ve, son iki örnekte olduğu gibi, testlerin güvenirliğini gereğinden fazla önemseme eğilimindedirler. Bilişsel psikoloji literatüründe, bu durum “Temel-Oran Yanılgısı” olarak bilinir. Örneğimizde “temel-oran” etkilenen veya sağlıklı insanların, sırasıyla, P(A) ve P(AC) oranları ile Romeo’nun Juliet’i sevip, P(L), veya sevmeme, P(LC), ön bilgisidir. Eğer bu olasılıklar çok farklı ise, sezgilerdeki muhakemenin yanılgısı çok fena olabilir.
tla
ri
.c
Örnek 5. Monty Hall paradoksu1: Bir zamanlar TV’de bir yarışmacıdan A, B, ve C’ gibi üç kapıdan birisini seçmesi istenilen bir programı vardı. Kapıların birinin arkasında bir ödül (son model bir çamaşır makinesi gibi) ve diğer iki kapının arkasında ise birer keçi olurdu. Eğer yarışmacı arkasında ödül olan kapıyı seçerse, ödül kendisinin olurdu. Eğer arkasında keçi olan bir kapıyı açarsa, hiçbir şey kazanmazdı. Oyunu biraz daha ilginç hale getirmek için, yarışmacı ilk seçimini yaptıktan sonra sunucu her zaman diğer iki kapıdan arkasında keçi olan birini açardı. Bu durumda, yarışmacının istemesi halinde seçtiği kapıyı diğer kapalı kapıyla değiştirmesine izin verilirdi. Kapıyı değiştirmek iyi bir fikir olur muydu?
de rs no
Genelleştirmeyi bozmadan, varsayalım ki ben A kapısını seçtim. Ödülün A kapısının arkasında olmasının koşulsuz olasılığı 1/3’tür. Eğer ödül gerçekten A kapısının arkasında olsaydı, sunucu, eşit olasılıkla her ikisinin arkasında keçi olan B kapısını ya da C kapısını açacaktı. Eğer ilk tahmin yanlış olsaydı, hem yarışmacı tarafından seçilmeyen hem de arkasında ödül olmayan bir tane kapı kalmış olacaktı. O halde, Benim A’yı seçmem durumunda, sunucunun o esnada C’yi açma olasılığı (
P(Ödül A’nın arkasında|C açıldı) =
|
( (
Diğer taraftan
(
m
P(Ödül B’nın arkasında|C açıldı) =
|
( (
Bu durumda, kapıları değiştirerek ödülü kazanma şansımı yükseltirdim.
ee
Sezgisel olarak, yeni açılan kapı ödülün A kapısının arkasında olma ihtimali konusunda hiç bilgi içermemektedir, çünkü sunucu onu hiçbir şekilde açmayacaktır. Gerçekte A’yı seçmemiz halinde, “A’da ödül var” ile “C açıldı” olayları bağımsızdır. Ancak, sunucunun B kapısını açmaması iki nedenden kaynaklanabilirdi: (1) ödül A kapısının arkasındaydı, sunucu C’yi tamamen rasgele açtı, (2) ödül B kapısının arkasındaydı, sunucu başka 1
Bu konudaki tartışmayı şu adreste okuyabilirsiniz:
om
seçeneği olmadığı için C’yi açtı. Dolaysıyla, C olasılığını ortadan kaldırmak sadece B’ye “avantaj” sağlar.
2. Özet Bölüm 1: Olasılık
Dersin ikinci ünitesine geçmeden önce şimdiye kadar yaptıklarımızı, aşina olduklarınızı ve kendinizi rahata hissedeceklerinizi özetleyelim:
N arasından n’i yere koyarak çekmek: Nn olanak
N arasından n’i yere koymadan çekmek: (
Permutasyonlar: N! olanak N’den n kombinasyonu: ( ) olanak
ri
kadar olanak
tla
2.2 Olasılıklar
.c
2.1 Sayma Kuralları
Bağımsızlık: P(AB) = P(A)P(B)
Koşullu olasılık: Eğer P(B) > 0 ise, P(A|B) =
Sadece ve sadece A ve B bağımsız ise P(A|B) = P(A), Toplam Olasılık Kanunu: P(Bi) > 0 için S’nin B1, …, Bn bölüntüsü aşağıdaki gibidir
Bayes Teoremi
m
de rs no
( (
Olasılık muhakemesi için gördüğümüz birkaç genel şey daha var
ee
manipülasyonları kullanarak ilgilenilen olayı yeniden formüle ederek olasılıkları kolay hesaplanabilir bir şeye dönüştürme (örneğin tümleyen, bölüntüler vs.) temel oranın koşullu olasılığı marjinal/koşulsuz olasılığa dönüştürme önemi (Örneğin Bayes Teoreminde olduğu gibi veya kalp cerrahı örneğindeki kompozisyon etkisi gibi).
bazen A ve B bağımlı olaylarını C’ye koşullayarak bağımsızlaştırabilme (veya bağımsız olayları bağımlı yapmak).
om
3 Rasgele Değişkenler Şimdi dersimizin ikinci büyük konusu olan rasgele değişkenler ile devam edelim.
Örnek 6. Yazı Tura atma, versiyon I: Tura, H, geldiğinde 1, yazı, T, geldiğinde 0 değerini alan bir X değişkeni tanımlayalım. Bu rasgele deney için örneklem uzayı S = {H, T} ve rasgele değişkenin genişliği {0, 1}’dir.
tla
ri
.c
Tanım 1. Reel-değerli bir rasgele X değişkeni bir deneyin sonuçlarını reel sayılar ile eşleştiren aşağıdaki gibi herhangi bir fonksiyondur.
de rs no
Tarihsel olarak, 1800 yıllarda rasgele değişken fikri geliştirildiği zaman matematikçiler ile diğer bilim adamlarının düşüncesinde “hakiki” rassalığın işlevi yoktu. Onun yerine, şans, analiz ettiğimiz durumun bütün parametreleri hakkında tam bilgi sahibi olmayışımız ve bir deneyin sonucunu tahmin etmede doğanın kanunlarından (güya tam belirleyici) faydalanma konusundaki yeteneksizliğimizin bir sonucu olarak görülüyordu. Bunların tümünü yapabilmek “Laplace Şeytanı” olarak bilinir ve ünlü matematikçi Pierre Simon de Laplace aşağıdaki gibi açıklar: Zamanın herhangi bir anında bir akıl doğaya canlılık veren bütün güçleri ve onu oluşturan bütün varlıkların karşılıklı duruşunu bilmiş olsaydı, eğer bu akıl verisini analiz etmek için verecek kadar engin olsaydı, kâinatın büyük bedenlerinin ve en hafif atomların hareketini bir tek formül ile özetleyebilseydi: böyle bir akıl için hiçbir şey belirsiz olmazdı ve gelecek tıpkı geçmiş gibi gözlerinin önünde olurdu.2
ee
m
Ardından gelen Fizik’teki (örneğin quantum fiziğindeki gerçek belirsizlik) veya hesap teorisindeki (örneğin Gödel teoremi: Bir akıl kendisinden daha karmaşık olmalı çünkü tahminleri tahmin etmeye çalıştığı kâinatın bir parçasıdır) gelişmeler bu dünya görüşünü korumadı ama hala bizim olasılık kavramının temel altyapısını oluşturmaya devam etmektedir: etrafımızdaki dünyanın rassalığı esas itibariyle onun hakkındaki yetersiz bilgimizi yansıtmaktır.
2
Laplace, P. (1814): A Philosophical Essay on Probabilities.
{0, 1} ,
ee
m
de rs no
X: {
12
tla
X:=
ri
.c
om
Örnek 7. Bir örnek olarak, Yazı Tura atmanın İkinci Versiyonu: Laplace’nin fikrini göstermek için, örneklem uzayının yukarıda ilk yapılanlardan daha karmaşık tanımını düşünebiliriz: Klasik mekanikte herhangi bir zaman noktasında paranın durumunun (katı cisim) tam bir açıklamasını verebiliriz (en azından prensipte). Ve o zaman klasik mekaniğin kanunlarını kullanarak onun tam yönünü ve özelike Tura (H) veya Yazı (T) ile sonuçlanıp sonuçlanmayacağını tahmin ederiz. Daha spesifik olarak, paranın havaya atıldığı andaki mekanik sistemin durumunu örneklem uzayı olarak açıklayabilirdik. Bir sistemin durumunun tam açıklaması (çok ideal!) (1) konumu, (2) paranın kütlesinin merkezinin ivmesi ile (3) yönü ve (4) belli bir t0 zamanındaki açısal momenti ile verilir. Bunların her birisinin üç koordinatı vardır, yani S = 12. Her nokta s S açıkça iki olaydan {H, T} birine aittir. Turanın gelmesi olayı, H S, için X = 1 ve yazı için X = 0 değerlerini verirsek, bu eşleştirme aşağıdaki gibi ifade edilen rasgele değişkendir.
Şekil 1: Metalik para atmanın stroboskopik resmi (Andrew Davidhazy ve Rozhester Institute of Technology, School of Photo Arts and Sciences’in müsaadesiyle. İzin alınarak kullanılmıştır. © Andrew Davidhazy, 2007)
Problem –neredeyse tam olarak- çok belirsiz olduğu için (knife-edged), sonuç, başlangıç durumundaki s S’deki ufacık değişikliklere karşı çok duyarlıdır (örneğin, diyelim ki, yandan geçen bir arabanın yarattığı çekim gibi dışsal etkilemeler hesaba bile
om
katılmadan). Parayı nasıl fırlattığımıza bakmadan, istenilen sonucu kesin olarak verecek başlangıç durumunu, ivmeyi vs. kontrol altında tutmak tamamen imkânsızdır. Ayrıca, tipik olarak bir sistemi açıklayan diferansiyel denklemleri kesin doğrulukla çözmek te imkânsızdır. Bu nedenle, sadece S’nin bir parçası olma olasılıklarını verebiliriz, ki bu H ve T sonuçlarının olasılıklarını eşleştirir. Dolayısıyla, bu durumda “hakiki” bir rassallığa ihtiyaç olmazsa bile, bu pratikte bizim için nasıl çalıştığını gösterir.
.c
Bu tanım rasgele değişken ve olasılık hakkında ne düşündüğümüz konusunda felsefi noktayı öne çıkarırken (belli ki çok kullanışlı değil), uygulama amacıyla, problemin ilk açıklama şekline bağlı kalmayı tercih edeceğiz.
tla
ri
Açıklama 1. X genişliğindeki herhangi bir A olayı için, örneklem uzay S’nin olasılık fonksiyonu aşağıdaki ifade aracılığıyla X için bir olasılık dağılım fonksiyonu meydana getirir.
de rs no
X biçimsel olarak örneklem uzayını reel sayılara dönüştüren bir fonksiyon olmasına rağmen, genellikle onu değişken olarak ele alırız. Yani argümanları belirtmeden onun olasılıkla ilintili çeşitli değerler “aldığını” söyleriz. Başka bir ifadeyle, uygulamaların çoğu için, ilgili herhangi bir örneklem uzayı S ve S’nin olasılıklarını referans göstermeden, sadece P(X A)’i belirtiriz. Örneğin yazı tura örneğinde – yukarıda açıklandığı gibiS’deki koordinatlar(metal paranın başlangıç durumu, ivme, yönü gibi) arasındaki doğru ilişkiyi, sonuçlarını (sayısal olarak imkansızdır) ve koordinatların bir olasılık dağılımını anlamaya çalışmayacağız, sadece (P(X = 1) = P(X = 0) = ’yi bilmemiz yeterlidir. Örnek 8. Eğer 10 tane metalik parayı birbirinden bağımsız olarak atarsak, Bir rasgele değişken tanımlayabiliriz, X = (Toplam Yazı Sayısı). Bu tür rasgele değişkenlerin dağılımlarını aşağıda detaylı bir şekilde analiz edeceğiz.
ee
m
Örnek 9. Bir seçimin sonuçları ile ilgileniyor olabiliriz. Diyelim ki 100 milyon seçmen ve iki aday var. Her seçmen adaylardan sadece birisi için oy kullanabilir, hangi seçmenin hangi aday için oy kullandığına bağlı olarak 2100 000 000 kadar farklı sonuç vardır. Şimdi, Aday A için (ve esas ilgilendiğimiz seçim için) kullanılan toplam oylar ile ilgili olarak bir rasgele X değişkeni tanımlayabiliriz. Oyların sayısının her bir değeri için, esas sonuçlarla ilintili bir sayı vardır, yani aday A’nın bütün sonuçları almasının tek bir yolu vardır. Her bir sonucun olasılığını basit olasılık cinsinden formüle edebiliriz ve oradan hareketle benzer değerler üzerinde toplulaştırma yaparak verilen toplam oy sayısının olasılığını elde edebiliriz. Açıklama 2. Rasgele olayların tümü, ilgilendiğimiz gibi, sayısal bir özeliğe sahip değildir (örneğin, eğer olay “yarın yağmur yağacak” ise, ne kadar yağacağı ile ilgilenmeyebiliriz).
ee
m
de rs no
tla
ri
.c
om
O zaman rasgele değişkene ilişmemek gerekir, sadece olaylarla daha önceki gibi ilgilenebiliriz. Başka bir seçenek olarak ta, olayın geçekleşmesi halinde 1 diğer durumlarda 0 alan bir rasgele değişken tanımlayabiliriz (gelecekte bazen “hile” ye başvuracağız).
Olasılık ve İstatistik Ders Notları 5
om
Konrad Menzel 19 Şubat 2009
.c
1. Kesikli Rasgele Değişkenler
ri
Tanım 1. Eğer bir rasgele değişken olan X sadece sonlu sayıda değerler (ya da sayılabilir sonsuz) alırsa (x1, x2, …), X’in kesikli bir dağılımı vardır.
tla
Tanım 2. Eğer rasgele değişken X’in kesikli bir dağılımı varsa, X’in olasılık yoğunluk fonksiyonu (p.d.f.) aşağıdaki gibi tanımlanır: fX(x) = P(X = x)
A
de rs no
Eğer { x1, x2, …} X’in muhtemel bütün değerlerinin kümesi ise, o zaman herhangi bir x { x1, x2, …} için, fX(x) = 0’dır. Aynı zamanda,
için, X
A’nın olasılığı,
ee
m
Örnek 1. Eğer X fırlattığımız zarın yüzündeki sayı ise, bütün tam sayılar 1, 2, …, 6 eşit şanslıdır. Daha genel olarak, kesikli uniform dağılımını x1, x2, …, xk sayılarının üzerinden dağılımın p.d.f’siyle tanımlayabiliriz. fX(x) = {
Bu S = {x1, x2 ,…, xk} örneklem uzaylı bir deneyin basit olasılığıyla ilintilidir. Örnek 2. Varsayalım ki adil bir madeni parayı birbirinden bağımsız olarak 5 kere fırlattık ve X’i gözlemlenen turalar için bir rasgele değişken olarak tanımladık. O zaman, sayma kuralarımıza göre n(S) = 25 = 32 ve kombinasyon kuralının kullanarak (“k sayıda tura”) = ( ) elde edilir. Dolayısıyla,
om .c ri tla
Kaynak: MIT OpenCourseWare
m
de rs no
Bu olasılıkların toplamının 1’e eşit olduğuna not ediniz.
ee
Zar atma örneğinde, her tek sonuç tam olarak rasgele değişkenin bir değeri ile ilintiliydi. Diğer yandan, beş madeni para atma durumunda, diyelim ki, X = 2, X = 0 ile karşılaştırıldığında, sonuçların sayıları arasında çok büyük farklar vardı. Sonuçların rasgele bir değişkenin gerçekleşen değerleri ile eşleştirilmesi, rasgele deneyin sonuçları eşit olasılığa sahip olsa bile, çok çarpık bir dağılıma yol açabilir.
1.1. Binom Dağılımı
om
Önceki örneği genelleştirmek için, her birisi “başarılı” ve “başarısız” olarak sonuçlanacak (olasılıkları eşit olmak zorunda olmayan) ardışık (dizi) n tane bağımsız ve benzer denemeyi gözlemlediğimizi ve toplam başarılı X sayısıyla ilgilendiğimiz varsayalım.
ri
.c
Örnek 3. Kalite kontrolü için, bir üretim fabrikasında araba parçalar yığınından 100 parçalık bir örneklem seçtiğimizi varsayalım. Kalite kontrolünü geçen parça “başarılı” olarak belirlenirken, bir veya iki kritere uymayan parça ise “başarısız” olacaktır. Örneklemden hareketle parçaların %1’nden fazlasının standartlara uymadığına inanmak için iyi bir nedenimizin olmadığı sonucuna varmak istiyoruz. Bunun için de toplam içindeki bozuk parçaların toplam payının bir fonksiyonu olarak başarısızlığın dağılımıyla ilgileniyoruz.
tla
Varsayalım ki başarının olasılığı p’ye eşit olsun, dolaysıyla başarısızlığın olasılığı q = 1 – p’dir. Denemeler varsayımsal olarak bağımsız olduğu için, herhangi bir verili x başarı ve n – x başarısız dizisinin sabit sıralı olasılığı aşağıdaki gibidir: px(1 – p)n – x
de rs no
Ancak, sadece başarılı X sayısı ile ilgilendiğimiz için, ( ) sayıda başarı x’li farklı dizi olduğunu hesaba katmak zorundayız.
P(X = x) = ( ) px(1 – p)n – x
Tanım 3. Aşağıdaki gibi bir olasılık yoğunluk fonksiyonu olan X rasgele değişkenin X B(n, p) şeklinde yazılan p ve n parametreli bir binom dağılımlı olduğu söylenebilir.
m
Daha önce her bir rasgele deney için ayrı ayrı olarak olasılık dağılımı türettiğimize, olası sonuçlarını, her olayın sonuçlarını vs. yazdığımıza dikkat etmelisiniz. Binom dağılımı rasgele deneylerin tümüne hizmet eden bir modeldir. Bu kategoriye düşen herhangi bir örnek için, verilen bir (n, p) parametre setinin sadece olasılıklara bakarız.
ee
Örnek 4. Bir sınıf arkadaşınızdan biraz para koparmak için, tura gelme olasılığı pL = olan yamuk bir 1 madeni parayı temin ettiğinizi düşünün. Maalesef, o para sizin diğer normal paralarınızla karıştı ve ancak 9 liranın 8 lirasını kola makinesine attığınızda fark ettiniz. Aceleyle hemen parayı 10 kere fırlatınız ve toplam olarak 8 tanesi tura geldi. Bilinen eski bir madeni para hilesiyle arkadaşınızı soymaya devam etmeye çalışmak iyi
bir fikir olur muydu? Yoksa pF =
olasılıklı sıradan (adil) oyuna bağlı mı kalırdınız? A =
om
“kalan madeni para yamuktur” ve B = “10’da 8 Tura” için P(A|B) kaçtır? Eğer madeni para adil ise,
ri
tla
Şimdi Bayes Teoremin ne söyleyeceğine bakalım:
.c
Eğer yamuk ise
de rs no
Dolayısıyla, geri kalan madeni paranın gerçekte daha çok sıradan bir madeni para olma olasılığı yüksektir - ki toplam öyle demiyor, çünkü tura olasılığı hala
ee
m
Ancak, elbette parayı birkaç kere daha atmaktır daha iyi bir fikir olurdu. Eğer deneyi keyfi olarak sık sık tekrarlarsanız, o zaman en sonunda iki para arasındaki farkı ihtiyari bir doğruluk derecesiyle tespit edebilecek duruma gelirsiniz. Bir parantez açmak gerekirse, bu uygulamayı basit hipotez testi için bir örnek olarak görebilirsiniz. Diyelim ki, turanın oranını daha önce ki gibi tutmak şartıyla, diğer bir 10 denemede yine 8 tura elde ettiniz (buna olay C diyelim). O zaman, önceki adımların aynısın takip ederek, bu sefer evvelki P(B) yerine sonraki P(H|B)’ye dayanarak koşulu olasılık şöyle olur:
Diğer bir seçenek olarak, eğer iki seriyi 16 tura ve 20 deneme olarak toplulaştırırsak,
elde deriz.
om
Böylece, güncellemeyi aynı anda veya farklı zamanda yapmış olmamız fark etmeyecektir. Bu genel olarak arzulanan Bayesyen güncellemenin özeliğidir: nihai sonuç kullandığımız genel bilgiye bağlıdır, güncelleme sırasına değil.
2. Sürekli Rasgele Değişken
tla
ri
.c
Verinin birçok türü bir çeşit ölçümün sonucudur: en azından kavramsal olarak, bir reel sayı aralığındaki herhangi bir değeri (bazen tümünü) alabilen ağırlık, uzunluk, gelir vs. gibi. Bu durumda, bir kesikli değişkenin olasılık yoğunluk fonksiyonun tanımı kullanışlı değildir, çünkü (a) olası sonuçların miktarı sayılabilir değildir, bu nedenle de sadece tek tek sayıların olasılıklarının toplamını alamayız ve (b) bölünmez bir bütünün belirli bir değerinin olasılığı sıfırdır. Bu yüzden, kesikli durumdan ayrı olarak, bu tür rasgele değişkenler ile ilgilenmek zorundayız.
de rs no
Tanım 4. Eğer X bir sayı doğrusundaki bir aralığın (sınırlandırılmış veya sınırlandırılmamış) herhangi bir değerini alırsa, rasgele değişken X’in sürekli bir dağılımı vardır.
ee
m
Kesikli rasgele değişkenler için olasılık yoğunluk fonksiyonu tanımlamak nispetten daha basitti çünkü sınırlı sayıda değeri vardı. Sürekli bir rasgele değişken sayılabilir rakamlardan daha fazla değer alır, bu yüzden de elde etmek fazlaca çaba gerektirir. Şöyle ki: rasgele değişkenin alabileceği muhtemel değerleri bir “grup”a koyarak dağılımı “kesikleştiriyoruz”, yani P(X = x) olasılığına bakmak yerine P(x1 X x2) gibi bir aralığın olasılığına bakıyoruz. Bunun grafiksel gösterimi histogramdır: sayı doğrusu üzerinde bir grup sayıyı, x0 < x1 < … < xn, sabitleştiriyoruz ve X değerinin “grup”lara düşme olasılığını hesaplıyoruz. Grup birbirinin devamı iki sayı aralığındır, yani P(xi-1 X xi). Ondan sonra [x0, x1] aralığındaki değerler için aşağıdaki fonksiyonu tanımlıyoruz:
[xi-1, xi) aralığının uzunluğuyla bölmek, verili bir aralıkta grafiğin altında kalan alanın rasgele değişken X’in aralıktaki bir değeri alma olasılığına eşit olmasını garantiler. Yani şunu hesaplayabiliriz:
om .c ri tla
de rs no
Sekil 1: Aynı Dağılımın, sırasıyla, 10 ve 30 Gruplu Histogramı
Şekil 2: 60 Gruplu Histogram ve Sürekli Yoğunluk
ee
m
Bu henüz tam tatmin edici değil, çünkü bu sadece bize x0 < x1 < … < xn sayılarının iki noktası arasına düşen X’in olasılığını hesaplamamıza yarar, yoksa [xj, xk] gibi bir alt aralığın içine düşeni değil. Bu sorunu, x1, x2, … silsilesini küçülterek ve böylece aralığı daraltarak çözebiliriz. Bir birine komşu iki nokta, xi-1, xi, arasını ihtiyari bir küçük “dx” değeri kadar daraltırsak, X’in a ve b gibi iki nokta arasına düşmesini a’dan b’ye integrali olarak veren fonksiyonunu elde ederiz. Bu limit bir sürekli rasgele fonksiyonun olasılık yoğunluk fonksiyonu olarak adlandırılır.
de rs no
tla
ri
.c
om
Tanım 5. Eğer rasgele değişken X sürekli bir dağılıma sahip ise, X’in olasılık yoğunluk fonksiyonu (p.d.f.) pozitif bir fx(x) fonksiyonu olarak tanımlanır yani A gibi herhangi bir aralık için
Kaynak: MIT OpenCourseWare
Şekil 3. Sürekli Rasgele bir Değişkenin P.D.F.’si
Olasılık fonksiyonun aksiyomlarından, herhangi bir sürekli p.d.f.’nin aşağıdaki ilişkiyi sağlamak zorunda olduğunu görebiliriz.
m
ve
ee
Böylece, Eğer A = [a, b] hesaplayabiliriz:
için P(X
A)’yi bilmek istersek, aşağıdakini
Açıklama 1. Eğer X sürekli bir dağılıma sahip ise, herhangi bir x
için
P(X = x) = 0
.c
om
Bu, kısmi olarak sezgilere aykırı gibi görünebilir çünkü biz gerçekte kesikli olan şeyleri (gelir, işsizlik süresi gibi) tahmin etmek için sürekli dağılımı kullanıyoruz. Şimdiye kadar, hesapladığımız herhangi bir olasılık için herhangi bir sürekli rasgele değişken örneği görmedik.
3. Örnekler
tla
ri
Bir rasgele değişkenin, reel eksen üzerindeki bazı [a, b] aralıklarında yer aldığını varsayalım, X’in bazı [a’,b’] (burada a a’ b’ b) alt gruplarına ait olma olasılığı, alt aralığın uzunluğu ile orantılıdır. . Tanım 6. Eğer aşağıdaki gibi bir olasılık yoğunluk fonksiyonuna sahip ise, X rasgele değişkeni [a, b], a < b, aralığında uniform dağılır.
de rs no
fX(x) = {
ee
m
Sembolik olarak şöyle yazarız:
Kaynak: MIT OpenCourseWare
Şekil 4. Uniform Rasgele Değişken için p.d.f., X
[a, b]
U[0, 10] ise, o zaman
om
Örneğin, eğer X
P(3 X 4) nedir? Olasılık P(X = 3) = 0 = P(X = 4) olduğu için, bu P(3 < X < 4)’ün aynısıdır.
.c
Örnek 5. Varsayalım ki X’in p.d.f.’si şöyledir:
) = 1 olduğu için, yoğunluk 1’e entegre olmalı, böylece
de rs no
olmak zorundadır. Böylece a = .
tla
a ne olmak zorundadır? P(X a
ri
fX(x) = {
P(1 < X < 2) nedir? Aşağıdaki integrali hesaplayalım
ee
m
P(1 < X) nedir?
Olasılık ve İstatistik Ders Notları 6
om
Konrad Menzel 24 Şubat 2009
1. Örnekler
ri
.c
Bir rasgele değişkenin, reel eksen üzerindeki bazı [a, b] aralıklarında yer aldığını varsayalım, X’in bazı [a’,b’] (burada a a’ b’ b) alt gruplarına ait olma olasılığı, alt aralığın uzunluğu ile orantılıdır. .
fX(x) = {
ee
m
de rs no
Sembolik olarak şöyle yazarız:
tla
Tanım 1. Eğer aşağıdaki gibi bir olasılık yoğunluk fonksiyonuna sahip ise, X rasgele değişkeni [a, b], a < b, aralığında uniform dağılır.
Örneğin, eğer X
Kaynak: MIT OpenCourseWare
Şekil 4. Uniform Rasgele Değişken için p.d.f., X
U[0, 10] ise, o zaman
[a, b]
om
P(3 X 4) nedir? Olasılık P(X = 3) = 0 = P(X = 4) olduğu için, bu P(3 < X < 4)’ün aynısıdır.
Örnek 1. Varsayalım ki X’in p.d.f.’si şöyledir:
olmak zorundadır. Böylece a = .
ri
) = 1 olduğu için, yoğunluk 1’e entegre olmalı, böylece
tla
a ne olmak zorundadır? P(X a
.c
fX(x) = {
de rs no
P(1 < X < 2) nedir? Aşağıdaki integrali hesaplayalım
P(1 < X) nedir?
m
1.1. Karışık Rasgele Değişkenler/Dağılımlar
ee
Esas itibariyle iki farklı sebepten ötürü birçok gerçek-dünya verisi bazı değerler için nokta etrafında yığılma gösterir:
bazı sonuçlar mekanik olarak bazı değerler ile sınırlandırılmıştır, böylece bir çok olasılık yığını rasgele değişkenin genişliğinin tam köşelerinde birikir, örneğin günlük yağış miktarı herhangi bir reel pozitif değer alır, fakat yağış miktarının sıfır olduğu bir çok gün vardır.
ekonomik kararlar alan kişiler kendilerini kırılganlıklar ve kesintilere göre konumlandırarak belli kurumsal kuralara tepki gösterirler. Örneğin sosyal güvenlik kurumlarına ve gelirler genel müdürlüğüne rapor edilen gelirlere baktığımızda, vergi aralıklarının üst sınırlarında “yığılma” olduğunu görürüz (söz konusu kişiler için, gelirdeki en ufak artış vergi oranında büyük artış anlamına gelir).
om
.c
Açık konuşmak gerekirse, ilgili dağılımlar sürekli değildir, çünkü gerçekleşme her ne kadar reel-değerli bir sayı olsa da, daha önceki bölümde yaptığımız gibi bir olasılık yoğunluk fonksiyonunu tanımlayamayız. Ancak nokta etrafında yığılma ile ayrıca ilgileneceğiz. Bunun bir kısmı ekonometri dersinizde karşınıza çıkacak, bu nedenle bunun üzerinde şimdi çok fazla durmayacağız ve sadece bir örneğe bakacağız.
ri
Örnek 2. İzleyen grafik 1979 yılına ait Current Population Survey (CPS) verisi kullanılarak oluşturulmuştur1.
ee
m
de rs no
tla
Yazar, grafik için geliri çok düşük bir alt grup seçmiştir, böylece asgari ücretin sınırlandırmasının aksine örneklem nispeten daha büyük olmuştur. 1979 yılının asgari ücret değerinin solunda kalan bazı kişiler var. Bu, muhtemelen kısmı olarak asgari ücret kanunu kapsamı dışında kalan sektörleri yansıtmaktadır (örneğin, çiftçilik, genç işçiler gibi).
1
Kaynak: MIT OpenCourseWare
Şekil 2. 1979’da Lise’den Terk Kadınların Logaritmik Ücretleri
DiNardo, J., N. Fortin ve T. Lemieux. “Labor Market Institutions and the Distribution of Wages, 19731992: A Semiparametric Approach.” Econometrica 64, no. 5 (1996): 1001- 1044’teki Şekil 3b.
2. Birikimli Dağılım Fonksiyonu (c.d.f)
FX(x) = P(X
om
Tanım 2. Bir rasgele değişken X’in Birikimli Dağılım Fonksiyonu (c.d.f.) FX her bir reel sayı için aşağıdaki gibi tanımlanır. x)
.c
Dikkat edilecek olursa, bu tanım kesikli, sürekli ve karışık rasgele değişkenler için aynıdır. Özelikle, X’in kesikli olmasına olanak verdiğimizden ve P(X x)’in P(X < x)’ den farklı olduğunu akılda tutmak koşuluyla, ilintili olayları birbirinden ayırt etmek önemli olmaktadır. C.d.f.’nin tanımında, X’i her zaman x’ten “küçük veya eşittir” şeklinde kullanacağız.
ri
C.d.f. bir olasılık olduğu için, olasılık fonksiyonunun bütün özeliklerini içinde barındırır. Özelikle,
Bütün x x1 olayı X
için 0
FX(x)
1
x2’nin içinde yer aldığından Özelik 2’yi elde ederiz.
de rs no
Ayrıca, x1 < x2 için X
tla
Özelik 1. C.d.f sadece 0 ile 1 arasındaki değerleri alır.
Özelik 2. Fx x’in azalmayan bir değeridir, yani
x1 < x2 için Fx(x1)
Fx(x2)
Eğer x ise, olasılığın gerçekleşmesi bakımında (X x) olayı imkânsız olaya “yakın” olur (burada bunun ne anlama geldiği konusunda emin değilim), halbuki eğer x ise (X x) olayı neredeyse kesindir ve böylece Özelik 3 elde edilir.
m
Özelik 3.
ee
Burada şuna dikkat etmek gerekiyor, eğer sol limiti
olarak ve sağ limiti de
olarak tanımlarsak, C.d.f. her zaman sürekli olmak zorunda değildir. x’te sürekli olabilmek için, F(x), F(x-) = F(x+)’i sağlamak zorundadır. Aşağıdaki örnekte görüldüğü gibi, genel olarak bu doğru değildir.
de rs no
tla
ri
Burada 1, 2, …, 6 sayılarında süreksiz atlamalar vardır.
.c
om
Örnek 3. Rasgele değişken X’in zar atma sayısı ile ilişkilendirildiği, zar atma örneğini tekrar düşünün. O durumda X’in c.d.f.’si aşağıdaki gibi verilir.
Kaynak: MIT OpenCourseWare
Şekil 3: Zar atmanın c.d.f.’si
Ancak, reel analizlerin bir sonucu olarak, bir monoton fonksiyon (burada özelikle c.d.f FX) sadece sayılabilir süreksiz birçok noktaya sahip olabilir.
m
Daha da iler gitmek gerekirse, her zaman Özelik 4’e sahibiz.
ee
Özelik 4. Herhangi bir c.d.f. sağ-süreklidir, yani F(x) = F(x+)
C.d.f’nin daha fazla özeliğini gösterebilmek için şimdi olasılıkla ilgili bilgimizi kullanabiliriz.
Önerme 1. Verilen herhangi bir x için,
P(X > x) = 1 - FX(x)
om
İSPAT: Olasılığın özeliklerinden hareketle,
Aynı şekilde,
.c
Önerme 2. İki reel sayı için x1 < x2
tla
Önerme 4. Herhangi bir x için,
ri
Önerme 3. Herhangi bir x için,
de rs no
Bu son sonuçlar sürekli değişkenler için bütün x değerleri için özelikle (P(X = x) = 0 anlamına gelir.
m
Örnek 4. Aşağıdaki grafikte Gx(x) fonksiyonun bir c.d.f. olup olmadığını kontrol edelim.
Kaynak: MIT OpenCourseWare
ee
Fonksiyon 0 ile 1 arasındadır, monotonik artmaktadır ve sağ-süreklidir. Şimdi son 4 önermeyi bu örneğe uygulayalım(sadece grafikten doğrudan rakamlar elde edilecektir):
om
de rs no
tla
ri
.c
Örnek 5. P.d.f ve c.d.f’yi bir birine bağlayan tek-doğru formülümüzün olduğu sürekli rasgele değişken durumundan farklı olarak, kesikli durumda daha yeni tartıştığımız c.d.f’den elde edilen olasılık sonuçlarını kullanmak zorundayız. Şimdi ilişkiye başka bir grafik örneğiyle bakalım:
Kaynak: MIT OpenCourseWare
m
Şekil 4: Kesikli bir rasgele değişken için c.d.f ve p.d.f
2.1 Sürekli Rasgele Değişkenler için p.d.f ve c.d.f
ee
Eğer X p.d.f f(x)’li ve F(x)’li sürekli bir dağılıma sahip ise (karışıklık olmadığı sürece bundan sonra X için altsimgeyi kullanmayacağım), o zaman
Kalkülüsün temel teoreminden hareketle, c.d.f ve p.d.f. arasındaki ilişkiyi bu durumda aşağıdaki gibi yazabiliriz:
om
Örnek 6. Aşağıdaki gibi bir fonksiyonumuz olsun,
tla
p.d.f. f(x) nedir?
ri
.c
F(x) bir c.d.f mi? - Şimdi temel özelikleri kontrol edelim:
de rs no
f(x) bir p.d.f. mi? -Doğrusu, biz zaten temelde F(X)’in bir c.d.f. olduğunu göstermiştik. Aşağıdaki ifadeleri hemen görebiliriz bütün x değerleri için, f(x)
0
ve aynı zamanda,
ee
m
Örnek 7. Eğer X
U[0, 1] ise, o zaman c.d.f. aşağıdaki gibidir:
om .c ri tla
de rs no
Kaynak: MIT OpenCourseWare
Şekil 5: X
U[a, b] için p.d.f. ve c.d.f
3. X, Y gibi 2 Rasgele Değişkenin Birleşik Dağılımı Birçok durumda, sadece bir tek rasgele değişken ile değil, bir veya daha fazla değişken arasındaki ilişkiyle ilgileniriz, mesela bir sürecin sonucunun bir diğerinin sonucunu etkileyip etkilemediği gibi. Örneğin aşağıdaki ilişkilere bakabiliriz:
Tek yumurta ikizlerin IQ’sü - yani X çocuklardan birisinin, Y ise diğerinin IQ’sü olabilir.
m
ee
Eğitime katılım X ile gelir Y: Eğitim ile gelirin dağılımına ayrı ayrı bakabileceğimiz gibi, bir veri tabanından elde edilen verileri kullanarak iki değişkeni bir grafikte de gösterebiliriz. Doğrusu, grafikte iki değişken arasında şüphesiz bir ilişki varmış gibi görünüyor.
om .c
ri
Kaynak: MIT OpenCourseWare
Relaps (nüks) süresi: Kanseri ameliyat ile yok etmek her zaman mümkün olmadığı için, tıbbi prosedürlerin etkinliğini değerlendirmek isteyebiliriz. Bunu (a) yeni bir ameliyatın gerekli olduğunun anlaşılması için ne kadar zaman geçtiğine (X) ve (b) ne kadar süre sonra hastanın öldüğüne (Y) bakarak yaparız. Her ne kadar iki sonuçla ilgilensek de, her iki olay da bağımsızıdır: eğer yeni bir ameliyattan önce hasta ölürse, onun ölmemesi durumunda ne zaman yeniden ameliyat olmak zorunda kalacağını gözlemleyemeyiz.
de rs no
tla
Şekil 6. Okullaşma ve Gelir
Dersin bu bölümünde, iki (veya daha fazla) rasgele değişkenin, aralarındaki ilişki dahil, aynı anda özeliklerini ele alacağız. Aynı zamanda “bağımsızlık” ve “koşullu olasılık” olayları ile benzeşen kavramları da tanıtacağız. (X, Y) (ortaklaşa) aynı değerleri (x, y) alan iki rasgele değişken olsun. Her iki değişken sürekli, kesikli veya karışık olabilir.
3.1. Kesikli Rasgele Değişken
m
Kesikli durumda, herhangi bir (X, y)
2
için birleşik p.d.f. aşağıdaki gibidir:
ee
Eğer {(x1, y2), …, (xn, yn)} (X,Y)’nin mümkün olan bütün değerlerini içerirse, o zaman
Herhangi bir alt küme A
2
için,
tla
ri
.c
om
Örnek 8. Bir süpermarkette, X sıradan bir kasa sırasında bulunan müşterilerin sayısı, Y’de ekspres kasada bulunan müşterilerin sayısı olsun. Bu durumda X ile Y’nin ortak p.d.f’si aşağıdaki gibi görünebilir: Bu yapıdaki bir tablo, (X, Y)’nin birleşik p.d.f’lerinden elde edilen hücre-olasılıklarını özetleyen ve marjinal olasılıklarını yanda gösteren, ihtimal tablosu olarak adlandırılır. Daha öncede tartışıldığı gibi, tablodaki olasılıkların toplamı 1 olmalı ve nitekim öyleler.
Tablo değerlerinden, iki değişken arasında bir çeşit ilişki varmış gibi göründüğünü görebiliyoruz: Sıradan kasada ödeme yapan kişi sayısı yüksek olduğu zaman, ekspres kasadaki kişi sayısı da yüksek olma eğilimdedir.
ee
m
de rs no
Tabloda verilen p.d.f. lere dayanarak farklı olaylar için de olasılıklar hesaplayabiliriz:
Olasılık ve İstatistik Ders Notları 7
om
Konrad Menzel 26 Şubat 2009
ri
.c
1. X,Y gibi 2 Rasgele Değişkenin Birleşik Dağılımı (devamı)
tla
X ve Y aynı S örneklem uzayında tanımlanmış iki sürekli rasgele değişkendir. (X,Y)’nin bileşik p.d.f.’si, fXY(x,y), (x,y) düzleminin herhangi bir alt kümesi olan A için aşağıdaki ifadeyi sağlayan bir fonksiyondur.
de rs no
Tek-değişkenli durumda olduğu gibi, bu yoğunluk aşağıdaki koşulları sağlamak zorundadır: her bir (x, y)
2
için fXY(x,y)
0
ve
Böylece,
herhangi bir nokta sıfır olasılıklıdır düzlemdeki herhangi bir tek-boyutlu eğri sıfır olasılıklıdır
m
ee
Örnek 1. Wyoming üzerinde rasgele bir yerde bir UFO görülür. Dünyanın eğimini görmezlikten gelirsek, Wyoming gerçekçi bir şekilde 276 x 375 mil’lik bir dikdörtgen olarak tarif edilebilir. UFO’nun konumu bütün eyalet üzerinde uniform olarak dağılmıştır ve rasgele boylam değeri X (111-104 derece arası) ve rasgele enlem değeri Y ( 41-45 arası) olarak ifade edilsin. Bu, koordinatların birleşik yoğunluğunun aşağıdaki ifade ile verildiği anlamına gelir.
om
Eğer bir UFO 40 mil’lik bir uzaklıktan görülebilirse, eyaletin aşağı yukarı tam ortasında yer alan Casper’dan görülme olasılığı nedir?
de rs no
tla
ri
.c
Şimdi soruna grafik yardımıyla ile bakalım: Casper’dan UFO’nun görülebileceği yerlerin kümesi, Casper etrafında 40 Mil yarıçaplı bir daire ile ifade edilebilir. Aynı zamanda, uniform yoğunluğa göre, UFO’nun eyaletin A yerinden görülebilme olasılığı (yani A üzerinden sabit yoğunluğun integrali) A’nın kapladığı alan ile orantılıdır. Dolaysıyla, herhangi bir integral almak zorunda değiliz, çünkü olasılığı bulmak tamamen geometrik bir uygulamaya indirgenebilir.
Kaynak: MIT OpenCourseWare
Şekil 1. Casper, WY’de görülebilen (x, y)’deki UFO
Olasılığı şöyle hesaplayabiliriz:
ee
m
(
)
(
) (
)
Uniform dağılımı için genellikle karmaşık integral almaya ihtiyaç duyulmadığına dikkat etmelisiniz, çünkü her şeyi salt geometrik olarak işleyebilirsiniz.
om
Son örnektekinden farklı olarak, olasılıkları elde etmek için yoğunluk fonksiyonun integralini almanın yolu yoktur, çünkü herhangi bir sabit olmayan yoğunluk, olasılık yığılması açısından farklı bölgeleri yeniden ağırlıklandırır. Bunu, açık ve sistematik bir şekilde izleyen örnekte göreceğiz:
.c
Örnek 2. Çim biçme makinenizde 2 buji olduğunu varsayalım, ve X 1’nci bujinin ömrünü Y’de 2’nci bujinin ömrünü temsil etsin. Varsayalım ki dağılımı aşağıdaki gibi ifade edebiliyoruz.
de rs no
tla
ri
Sayfa 4’teki Şekil 2 birleşik yoğunluğun nasıl görüneceğini göstermektedir.
Kaynak: MIT OpenCourseWare
Şekil 2: 1. ile 2. Bujinin X ve Y Ömürlerinin Birleşik Yoğunluğu
Doğrusu, bu yoğunluk bujilerin birbirinden bağımsız olarak zaman içerisinde değişmeyen sabit bir oranında bozulduğu varsayımından türetilebilir.
ee
m
Eğer her iki buji çalıştığı sürece çim biçme makinesi de çalışacaksa, çim biçme makinesinin 1000 saat içerisinde bozulma olasılığı nedir?
om .c
ri
Kaynak: MIT OpenCourseWare
de rs no
tla
Şekil 3. “Çim Biçme Makinesi 1000 Saatten Önce Bozulur” Olayının İlk Durumu
ee
m
Söz konusu olasılık, birinci bujinin bozulması halinde sadece ikinci bujinin kullanılması durumunda nedir? Yani P( X + Y 1000)’i nasıl hesaplarız? Bunun sadece ilgilendiğimiz “olayı” değiştirdiğine dikkat ediniz, yani integralini hesapladığımız 2 alanı değişti, halbuki hala aynı yoğunluğun integralini alıyoruz.
om .c ri tla de rs no
Kaynak: MIT OpenCourseWare
Şekil 4: “Çim Biçme Makinesi 1000 Saatten Önce Bozulur” Olayının İkinci Durumu
m
Tekrar etmek gerekirse, sürekli iki-değişkenli rasgele değişkenler ile alakalı olaylar düzlemdeki alanlara tekabül eder. Ve bu alanlar üzerinden yoğunluğun integralini alarak olasılığı buluruz.
ee
2. X,Y gibi 2 Rasgele Değişkenin Birleşik c.d.f.’si Sadece tanımları vereceğim. Bu derste bunu çok fazla kullanmayacağız, fakat bunu görmeniz gerekiyor. Tanım 1. Rasgele değişkenler (X, Y) için birleşik c.d.f., (x, y) fonksiyonu olarak tanımlanır.
2
için, FXY(x,y)
Son terimi eklemek zorundayız çünkü daha önce iki kere çıkarıldı.
om
Birleşik c.d.f.’den olasılıkları aşağıdaki gibi hesaplarız.
de rs no
3. Marjinal p.d.f.ler
tla
Kesikli durumda,
ri
.c
Birleşik c.d.f.’ler p.d.f’ler ile aşağıdaki şekilde ilişkilidir: sürekli rasgele değişkenler için
Eğer birleşik dağılımlarımız varsa, tek değişken X’in dağılımını yeniden elde etmek isteyebiliriz. Eğer X ve Y bileşik p.d.f.’si fXY olan kesikli rasgele değişkenler ise, o zaman
m
Eğer X ve Y sürekli ise, esas itibariyle toplamı integral ile değiştirmemiz gerekir, böylece
ee
Örnek 3. Bu örnek 1977’de1 Redbook dergisi tarafından toplanan gerçek evlilik-dışı ilişkiler verisine dayanmaktadır. Ankette, kişilerden evliliklerini 1’den (mutsuz) 5’e (mutlu) ölçeklemeleri ve evlilik-dışı ilişkilerinin sayısı bölü yıllar itibariyle evlilik süresini belirtmeleri istenmiş. Şimdilik önce “evlilik kalitesi” X ile yıllar itibariyle evlilik süresi Y’nin 1
Verinin mevcut olduğu adres: http://pages.stern.nyu.edu/wgreene/Text/Edition6/tablelist6.htm
bileşik dağılımına bakalım. P.d.f.’den elde edilen “hücre” olasılıklarından başlayabiliriz, ve daha sonra tablonun solunda ve altında bulunan marjinal p.d.f.’leri doldurabiliriz:
tla
ri
.c
om
İlginç bir şekilde, her ne kadar marjinal dağılımlar eşit dağılmışsa da, birleşik dağılımlar tablonun alt sol ve üst sağ köşelerinde, birleşik p.d.f.lerde daha düşük değerler alarak üst sol ve alt sağ köşelerinde yoğunlaşmış gibi görünüyor.
de rs no
Örnek 4. Geçen seferki iki bujili örneğini hatırlayınız. Birleşik p.d.f aşağıdaki gibiydi:
X’in marjinal yoğunluğu şöyle olur:
ee
m
Benzer şekilde,
4. Bağımsızlık Eğer P(AB) = P(A)P(B) ise, A ve B olaylarının bağımsız olduğunu söylemiştik. Şimdi benzer bir kavramı rasgele değişkenler için tanımlayacağız.
om
Tanım 2. Eğer herhangi bir A, B bölgesi için aşağıdaki ilişki sağlanırsa rasgele değişkenler olan X ile Y’nin bağımsız olduğunu söyleyebiliriz,
Bu gereklilik koşulunun katı olduğuna dikkat ediniz: X A ve Y bakıyoruz ve o çiftlerin tümünün karşılıklı bağımsız olmasını istiyoruz.
B türü olaylara
.c
Bu tanım kendi başına pratik değildir çünkü kontrol etmek zordur, ancak eğer X ile Y bağımsız ise, tanımdan hareketle şu ifadeyi elde ederiz:
ri
Buradan, genellikle doğrulanması daha kolay olan aşağıdaki koşulu elde edebiliriz.
tla
Önerme 1. X ve Y bağımsızdır eğer sadece ve sadece bunların birleşik ve marjinal p.d.f.leri aşağıdaki ilişkiyi sağlarsa,
de rs no
İSPAT: Kesikli rasgele değişkenler için, bu doğrudan A = {x} ve B = {y} tanımları uygulanarak elde edilebilir. Sürekli değişkenler için, eğer X ile Y bağımsız ise
denkleminin her iki tarafının da türevini alarak aşağıdakine ulaşırız:
o zaman
m
Bunun aksine, eğer marjinal p.d.f.lerin çarpımı birleşik p.d.f’lere eşit ise, integralini alırız
ee
Dolaysıyla marjinal üzerindeki koşul bağımsızlığı sağlar ve eşitliğin her iki yönünü de ispatlamış oluruz.
Örnek 5. Evlilik Dışı ilişkiler örneğine geri dönecek olursak, “evlilik kalitesi” X ile yıllar itibariyle evlilik süresi Y’nin marjinal p.d.f.lerini rapor ettiğimizi hatırlayınız, yani
om
ve
.c
Eğer iki rasgele değişken gerçekten de bağımsız ise birleşik dağılım nasıl görünmelidir? Burada şunu elde ederiz.
de rs no
tla
ri
Birleşik p.d.f.’nin o noktadaki gerçek değeri 13.48’di ve açıkça görüldüğü gibi iki değişken bağımsız değildir. Şimdi bağımsızlık varsayımı altında tablonun geri kalanını doldurabiliriz: Bunu son tablomuzla karşılaştırınca bazı sistematik çelişkiler olduğunu görebiliriz, özelikle oluşturulan birleşik p.d.f. ̃ belirgin bir şekilde diyagonalde yoğunlaşmamaktadırlar, halbuki bu gerçek birleşik p.d.f.lerin üzerinde durmaya değer özelliğiydi.
m
Fakat gerçekten bu X ile Y’nin bağımsız olmadığı anlamına mı gelir? Dikkat edilmesi gereken bir husus, olasılıkları, belirtilen dağılımdan “çekilen” örneklemden edindiğimiz birleşik p.d.flerden hesapladık, bu nedenle gerçek hücre olasılıklarını doğru bir şekilde ölçebilme konusunda bazı belirsizlikler var. Dersin son bölümünde, “oluşturulan” ve gerçek p.d.f.ler arasındaki farkın X ile Y’nin bağımsız olmadığını gösterecek kadar büyük olup olmadığını formal olarak öneren bir yöntem göreceğiz.
ee
Örnek 6. Daha önceki iki bujili örneğini hatırlayınız. Birleşik p.d.f. aşağıdaki gibiydi
ve bir önceki bölümde de marjinal p.d.f.leri elde etmiştik
om
Dolayısıyla, bunların çarpımı şöyledir:
Böylece 1’nci ve 2’nci bujinin yaşam süreleri bağımsızdır.
ri
.c
Açıklama 1: Sürekli rasgele değişkenler için, bileşik ve marjinal yoğunlukların bağımsızlığının koşulu aşağıdaki gibi yeniden belirtilebilir: Her ne zaman bileşik p.d.f’nin faktörünü alırsak, yani,
tla
o zaman X ile Y bağımsızdır. Burada g(.) sadece x’e ve h(.) sadece y’ye bağlıdır. Özelikle belirtmek gerekirse, marjinal yoğunlukları doğrudan hesaplamak zorunda değiliz.
de rs no
Örnek 7. Diyelim ki, aşağıdaki gibi bir birleşik p.d.f’miz var
O zaman, örneğin g(x) = ce-x ve h(y) = e-2y ’dir diyebiliriz. Her ne kadar bunlar uygun yoğunluklar değilse de, X ile Y’nin bağımsız olduğunu göstermek için yeterlidir. Örnek 8. Varsayalım ki aşağıdaki gibi bir birleşik p.d.f.miz var.
m
X ve Y bağımsız olabilir mi?
ee
Her iki durumda (yani x2 y 1 sağlanır mı yoksa sağlanmaz mı?) p.d.f. x ve y’nin fonksiyonlarına ayrıştırılırsa (faktör, ÇN) (sıfır bölümü için doğruluğu şüphelidir) bile, X’in desteğinin Y’ye bağımlı olduğunu görebiliriz ve dolaysıyla X ve Y bağımsız olamazörneğin eğer X 1/2 ise, Y 1/4 olmak zorundadır. Böylece
ee
m
de rs no
tla
ri
.c
om
X ve Y’nin bağımsız olabilmesi için iki rasgele değişkenin bileşik desteğinin dikdörtgen (büyük ihtimalle bütün 2) olmak zorunda olduğuna dikkat ediniz. Eğer değilse, gerçekleşen bazı X değerleri için, belli Y değerleri gerçekleşebilecekken, gerçekleşemez. Fakat eğer doğruysa, yani X’in Y hakkında bilgi verdiğini bilirsek, o zaman onlar bağımsız olamaz. Destek için bu koşul tek başına bağımsızlığı sağlar.
Olasılık ve İstatistik Ders Notları 8
om
Konrad Menzel 3 Mart 2009
.c
1. Koşullu p.d.f.ler
de rs no
Eğer X ile Y kesikli ise,
tla
ri
Tanım 1. X verilmişken Y’nin koşullu p.d.f.si
Bu, sadece iki hafta önce tanımlanan ve Y = y verilmişken X = x durumuyla ilintili olayın koşullu olasılığıyla ilintisidir. Unutmamak gerekir ki,
Koşullu değişkenin belirli bir değeri için, koşullu p.d.f normal p.d.f.’nin bütün özeliklerini taşır(yani pozitiftir, integrali 1’dir gibi), Tanım her iki taraftan herhangi bir sayıdaki rasgele değişkene genelleştirilebilir.
ee
m
Örnek 1. Evlilik dışı ilişkiler verisine geri dönelim ve gerçekte en çok ilgilendiğimiz değişkenlere bakalım: son yıldaki ilişki sayısı, Z, ve “kendi kendine” rapor edilen evlilik kalitesi, X. Anketi dolduranların 4’te 3’ü herhangi bir ilişkilerinin olmadığını belirtikleri için, evlilik kalitesine koşullanmış ilişki sayısı Z’nin p.d.f. sine bakmak çok daha yol gösterici olabilir.
Düşük değere, X = 1, koşullanırsa olursa,
om
Bileşik p.d.f bu şekilde elde edilecektir. aşağıdakini elde ederiz.
tla
ri
.c
X = 1, 2, 3, … değerleri için koşullu c.d.f.’lerini beraber bir tabloya koyarsak, şunu elde ederiz.
de rs no
Bu uygulama neden ilgi çekicidir? Tabloda birleşik p.d.f.lerle genel resim çok açık olmadığı halde, evlilik kalitesinin düşük değerleri için, koşullu p.d.f.lerin yüksek ilişki sayısına fazla olasılık yüklediğini görebiliyoruz. Bu evlilikteki tatminsizliğin, evlilik-dışı ilişkiye neden olduğu anlamına gelir mi? Kesinlikle hayır: örneğin, uygulamayı tamamen ters yapabilirdik ve ilişki sayısı Z verilmişken, rapor edilen evlilik tatmini X’in koşullu p.d.f.lerine bakabilirdik. Yani
ee
m
Ya da koşullu p.d.f.leri bir tabloda özetleyebilirdik.
Yüksek değerli ilişki sayısı Z veriyken, X’in koşullu p.d.f. leri düşük değerli evlilik tatminine daha yüksek olasılık vermektedir. Böylece rakamları, evlilik-dışı ilişkinin evliliğe zarar verdiği şeklinde de okuyabilirdik. Bu genellikle “ters nedensellik” olarak atfedilir: A’nın B’ye neden olduğuna inansak bile, B aynı zamanda A’ya neden olabilir.
om
Dolaysıyla, koşullu olasılık her iki hikâyeyle tutarlı olacak şekilde hareket etse bile, ilişkiyi iki yönlü “nedensellik” olarak yorumlayamayız, çünkü her iki hikaye de eşit derecede kabul edilebilirdir ve varsayımsal olarak gerçek yaşamda her ikisinde de gerçeklik payı vardır.
2. Tekrar
.c
Sınıfta yaptığımız hiç örneği ezberlemenizi beklemiyorum, ancak özelikle “metin” problemleri özel durumların/problemlerin “modelleri” olarak oldukça yararlı olabilirler. Dersler sırasında tartıştığımız örnekler ile benzerlik kurarak belli bir soru için bir çözüm stratejisi geliştirebilirsiniz.
ri
1. Olasılık Bunu tartışmayacağız. Olasılığın tanımı S için P(A)
0
de rs no
(P1) bütün A
tla
Örneklem Uzayı, Küme Teorisi ve Temel Operasyonlar
(P2) P(S) = 1
(P3) Eğer A1, A2, …, ayrık kümelerinin bir dizisi ise
Özel Durum: Basit olasılık S sonlu
P(A) =
m
burada n(B) B kümesindeki sonuç sayısını ifade etmektedir.
ee
Olasılık Fonksiyonun Özelikleri
Olasılığın Hesaplanması Sorunlara şu sıraya göre yüklenin
om
(i) sonuçlar itibariyle örneklem uzayını ve ilgilenilen olayı tanımlayınız
(ii) basit olasılıklar için, her bir sonucun oluşmasını eşit derecede mümkün kılacak şekilde bir örnek uzayı tanımladığınızdan emin olunuz,
.c
(iii) eğer işin içinden çıkmazsanız, örneklem uzayındaki sonuçları doğrudan yazmaya çalışın. Sayma Kuralları
ri
de rs no
Temel kurulum: N’nin X1, …, XN sayıdaki objesini elde et Çarpma Kuralı: Bir deneyi her birisinin mi sayıdaki sonucu diğer bölümlerin sonuçlarına bağlı olmayan k sayıda bölüm kadar faktöre ayırabilmek gerekir. Bu bazen yanıltıcıdır (örneğin satranç gibi). Kümeden birkaç farklı yoldan k kadar obje çekme (sınav için onları hatırlamalısınız): 1. k yerine koyma ile çekilir, sıralama önemlidir: Nk sayıda ihtimal 2. k yerine koymadan çekilir, sıralama önemlidir (özel durum: permütasyon k
tla
= N):
3. k
yerine
( ) =
koymadan
çekilir,
sıralama
önemsizdir
sayısını verecek olan bütün farklı ardışık “başarıları” sayınız). bölüntüler: N objeyi k gruba yerleştirme yollarının sayısıdır. Objenin tanımı önemli değildir (örneğin 4 torbaya beş benzer mavi topu farklı şekillerde yerleştirme sayısı gibi): genel olarak ( ) kadar ihtimal vardır. Bunu aşağıda tartışacağız. Bütün bu sayma kurallarının şöyle veya böyle çarpma kuralından elde edildiğini gördük. Bazen aynı olayı elde etmek için bir sayıyı farklı sayıdaki ihtimale bölmek zorunda kaldık (örneğin aynı kombinasyonun farklı sırada elde edilmesi gibi)
Bağımsızlık, koşullu olasılık, Bayes Teoremi
eğer P(AB) = P(A)P(B) ise A ve B bağımsızdır,
eğer P(B) > 0 ise koşullu olasılık P(A|B) =
P(A|B) = P(A)’dir eğer sadece ve sadece A ve B bağımsız ise, Toplam olasılık kanunu: eğer B1,…, Bn S’nin bölüntüleri ise.
ee
(kombinasyon):
sayıda ihtimal (örneğin binom dağılımda, genel başarı
m
sayıda ihtimal
,
Bayes Teoremi(basit formülasyon): Eğer P(B) > 0, o zaman aşağıdaki ifadeyi elde ederiz:
.c
om
Toplam olasılık kanunu koşullu olasılığı marjinal olasılığa bağlar, yani P(A)’nın nasıl P(A|B1) … P(A|Bn)’ye bağlanacağı gibi. Klasik uygulama: alt-nüfus/alt-vaka üzerinden toplulaştırma, örneğin farklı baypas ameliyatlarına göre ölüm oranları gibi.
ri
Bayes teorisi bize koşullama sırasının nasıl değiştirileceğini söyler, yani nasıl P(B|A)’dan P(A|B)’ye gidilir gibi. Klasik uygulama: B verisi verildiğinde A ile ilgili inancın güncellenmesi gibi, örneğin tıbbi testler örneği gibi.
tla
Sınav için bunları tamamen kavrayarak bilmeniz gerekir.
de rs no
2. Rasgele Değişkenler ve Dağılım Fonksiyonları rasgele değişkenler rasgele olayların sayısal özelliklerini verir rasgele değişken X örneklem uzayı S’den reel sayılar ’ye giden bir fonksiyondur S’nin olasılık fonksiyonu X’in ile tanımlanmış olasılık dağılımını ortaya çıkarır.
Olasılık yoğunluk fonksiyonu (PDF) fX(x) aşağıdaki gibi tanımlanır
m
ee
Birikimli yoğunluk fonksiyonu (CDF) FX(x) aşağıdaki gibi tanımlanır
Kesikli bir rasgele değişken için önemli bir örnek olarak, ardışık N bağımsız denemedeki X sayıda “başarı” yı açıklayan Binom dağılım için biraz zaman harcadık. Her denemedeki başarının olasılığı p’ye eşittir. Binom dağılım için p.d.f. aşağıdaki gibiydi (bunu sınav için bilmelisiniz):
om
CDF ve PDF arasındaki ilişki
eğer X kesikliyse toplamını al.
eğer X sürekliyse integralini al.
CDF’den PDF şöyle elde edilir: eğer X kesikliyse
de rs no
tla
ri
.c
PDF’den CDF şöyle elde edilir:
eğer X sürekliyse
Aynı şekilde, CDF’nin özeliklerini hatırlayınız
bütün x için 0 FX(x) 1, Fx(x) x’te azalan değildir Fx(x) sağdan süreklidir Fx(x) her yerde süreklidir, Sadece ve sadece X sürekliyse.
m
Birleşik Dağılım
ee
Aşağıdakiler bakmıştık
X ve Y’nin birleşik dağılımı (kesikli veya sürekli) PDF’li X’in marjinal dağılımı
3. Rasgele Problemler
.c
X verilmişken Y’nin koşullu olasılığı
ri
om
Rasgele değişkenlerin bağımsızlığı, en önemlisi sadece ve sadece X ve Y bağımsız ise bütün (x, y) için
Genel olarak, “bulunan” ve kendisine gönderilen resimlerin sadece %1’i orijinal çıkıyor, buna G olayı diyeceğiz. “Bulunan” resimler orijinal Monet’in yaptığından farklı olarak belli pigmentlerin farklı kulanım frekansına sahiptir. o “Bulunan” resimlerin %20’sinde sarı kadmiyum Y görülmüştür, halbuki orijinallerin sadece %10’u öyledir.. o “Bulunan” resimlerin %80’ninde ham toprak rengi boya U görülmüştür, halbuki orijinallerin sadece %40’ı öyledir. o “Bulunan” resimlerin %40’nda yanık sienna rengi S görülmüştür, halbuki orijinallerin %60’ı öyledir. Gelen resim yanık sienna kullanmaktadır, ancak sarı kadmiyum ve ham toprak rengi değil.
de rs no
tla
Örnek 2 (Bahar 2003 Sınavı). Bir Monet uzmanına sözde kaybolan bir Monet resmi verilir. Resmin orijinal olma olasılıklarını değerlendirmesi istenir. Uzman aşağıdaki bilgiye sahiptir:
m
Bu resmin orijinal olma olasılığı nedir? Soruyu cevaplandırmak için herhangi bir ilave varsayımda bulunmak zorunda mıyız?
ee
Bu problem şöyle bir yapıya sahiptir: Problem bize resmin orijinal olması (“dünyanın hali” G) durumunda hangi rengin (“veri” SYCUC) ne olasılıkla görüneceğini söylüyor gibi görünüyor, P(B|A). Ancak, biz gerçekte içinde kullanılan renklere göre resmin orijinal olma olasılığını bilmek istiyoruz, yani P(A|B). Bu nedenle koşulun sırasını değiştiriyoruz, onun için Bayes teoremi kullanacağız. Öncelikle problemde yer alan bilgiyi toparlayalım:
om .c
ve
tla
ri
Bayes teoremini uygulamak için neye ihtiyacımız var? Teorem bize şunu söyler:
Ancak, her rengin marjinal olasılığı biliniyor, bize birleşik olasılık gereklidir (hem G koşullu hem de koşulsuz)
de rs no
Bu nedenle, bu noktada ilave bir varsayımda bulunmak zorundayız. Soruna yüklenmenin en kolay yolu, koşullsuz ve G’ye koşullanmış olarak, pigment’in üç renk arasında kullanımının bağımsız olduğunu varsaymaktır, yani
ve
m
Bağımsızlık varsayımı altında Bayes Teoremini kullanarak şu sonuca varırız:
ee
Bu varsayımın ne derece önemli olduğunu görmek için, farklı pigment türleri arasında farklı bir bağımlı yapı keşfedin: varsayalım ki orijinal Monet için her sienna S kullanılan resimde, aynı zamanda kesin olarak ham toprak rengi U da kullanılmaktadır. O zaman, koşullu olasılık tanımına göre şunu elde ederiz:
Böylece gerçek bir Monet için, sienna S’yi bulmak imkânsızdır fakat ham toprak rengi U değil, bu nedenle kesinlikle biliyoruz ki söz konusu resim Monet olamaz ( resmimiz bu
kombinasyona sahip olduğundan, genel olarak “bulunan” bütün resimler için öyle olmak zorundadır).
om
Toparlayacak olursak, bu problem bize soruyu cevaplandırmak için yeterli bilgi vermedi.
.c
Örnek 3(Güz 2003 Sınavı). Benim evimde geri dönüşüm 10 a.m. ile öğle saati arasında bir ara toplanır. Çöpün toplandığı aralıkta herhangi bir dakika herhangi bir diğeri kadar olasıdır. Çöp ise saat 8:30 a.m. ile 11.00 a.m. arasında bir ara toplanır ve yine tekrarlamak gerekirse herhangi bir an herhangi diğer bir an kadar olasıdır. İki toplama zamanı birbirinden bağımsızdır.
ri
(a) İki toplama zamanının, R ve G, birleşik p.d.f. si nedir? (b) Geri dönüşümün çöpten önce toplanma olasılığı nedir?
tla
R’nin marjinal dağılımı uniformdur (sürekli), yoğunluğu ise aşağıdaki gibidir:
de rs no
G’nin marjinal dağılımı kesiklidir, p.d.f. si ise aşağıdaki gibidir:
Bağımsızlığa göre, birleşik p.d.f. şöyledir:
R
G olayının olasılığı aşağıdaki gibi hesaplanır:
ee
m
Örnek 4. Sınıfınızdaki arkadaşlarınızdan birisi aşağıdaki problemin nasıl çözüleceğini sordu: N sayıda birbirinden farksız karatahtayı k sayıdaki farklı sınıfa dağıtmak için kaç farklı yol vardır? Bu, k sınıf için bir karatahta bölüntüsü seçme ile ilintilidir. Hesaplamaları aşağıdaki gibi yapabiliriz: o B1, B2, …, BN karatahtalarıyla karıştırılacak, k-1 kadar “ayrıştırıcı”, Z1, Z2, …, Zk-1, tanımla o sınıflara her yerleştirilen karatahtayı B1, B2, …, BN , Z1, Z2, …, Zk-1’nin yeniden sıralanması olarak tarif et. Sıralamada ilk Z’den önce görünecek olanlar ilk sınıfa, ikinci “ayrıştırıcı”ya kadar olanlar ikinci sınıfa koyacağımız v.b. tahtalardır. Eğer
om
sıralama, örneğin Z5, B7, B2, B5, Z4, B9, …, ise, o zaman birinci sınıfta karatahta olmayacak, tahta 7, 2, ve 5 2nci sınıfa gider, v.b. o dizinin farklı sayıdaki sıralaması (N + (k - 1)! kadardır. o karatahtalar ve ayrıştırıcılar eşit olduğu için (sınıflar değil), her bir karatahtanın permütasyonu (N! permütasyon) ve ayrıştırıcısı (k - 1)! permütasyon) ile bölmek zorundayız.
ee
m
de rs no
tla
ri
.c
Bütün parçaları bir araya getirince aşağıdaki gibi bütün olası yerleştirmeleri elde ederiz.
Olasılık ve İstatistik Ders Notları 9
om
Konrad Menzel
.c
10 Mart 2009
ri
1. Rasgele değişkenlerin Fonksiyonları
olduğundan , u ve X’in bileşimi de aynı zamanda S’den reel sayılara bir
de rs no
ve u : eşlemedir:
tla
Dersin bu bölümünde rasgele değişkenlerin fonksiyonlarına bakacağız, Y = u(X). Y’nin yine bir rasgele değişken olduğunu not ediniz: X örneklem uzayı S’den reel sayılara bir eşleme (mapping) olduğu için
Örnek 1. Eğer X çim biçme makinasındaki birinci bujinin ve Y ikincinin ömrü ise, o zaman ikisinin ömrünün toplamıyla ilgilenmiş olabiliriz, Z = X + Y. Örnek 2. MIT’ye gelmeden önce, birkaç Alman araştırma bursuna başvurdum, böylece alacağım bursa bağlı olarak aylık X Euro kadar ücret alacaktım. Döviz kuru, diyelim ki, Eylül 2005’te Y dolar/Euro olsun. Başvurduğum dönemde her iki miktarda belirsizdi, fakat parayı ABD’de harcayacaktım, dolayısıyla alacağım Z = X*Y miktarı esas ilgilendiğim miktardı (en azından dolar değişiminden sonra şikâyet etmeyeceğim kadar).
ee
m
Şimdi dönüştürülmüş rasgele değişken u(X) için yoğunluk ve c.d.f’yi nasıl elde edeceğimizi bilmek istiyoruz, böylece p.d.f. si bilinen bir rasgele değişkenin sadece kendisini içeren bir soruda olduğu gibi, bir rasgele değişkenin fonksiyonunu da içeren her bir problemi ele alabilelim. Üç durumu düşüneceğiz 1. İlgili değişken kesiklidir 2. İlgili değişken süreklidir 3. X süreklidir ve u(X) kesin artandır
Son durum elbette ikincinin özel durumudur, fakat göreceğimiz gibi çalışılması en kolay olanıdır.
om
1.1 Kesikli Durum – “ 2-Adım” Yöntemi
.c
Eğer X p.d.f.’si fX(x) olan bir kesikli rasgele değişken ise ve u(.) deterministtik bir fonksiyon iken Y = u(X) ise,
de rs no
O zaman eğer Y = g(X) = |X| ise,
tla
ri
Örnek 3.
Eğer X kesikli ise Y’nin de kesikli olduğunu not ediniz.
1.2. Sürekli Durum – “ 2-Adım” Yöntemi
m
Eğer X p.d.f.’si fX(x) olan bir sürekli rasgele değişken, ve Y = u(X) ise, o zaman Y’nin c.d.f.’si aşağıdaki ifade ile verilir:
ee
Eğer Y de aynı zamanda sürekli ise, o zaman
Eğer X sürekli ise, Y’nin sürekli olmasının gerekmediğin not ediniz.
Örnek 4. X’ten küçük en büyük tamsayı Y = [X], X’in sürekli veya kesikli olup olmamasına bağlı olmadan, kesiklidir.
om
Örnek 5.
Şimdi şuna bakalım,
.c
Y = X2
[0, 1] için, c.d.f
de rs no
Toparlarsak,
tla
ri
X [-1, 1]’den Y = [0, 1] olur. Y’nin yoğunluğunu nasıl elde ederiz? y aşağıdaki gibidir.
ee
m
Y sürekli olduğu için, yoğunluğu şöyle hesaplarız,
1.3. Bire-Bir Dönüşüm için Değişken Değiştirme Formülü
om
Genel olarak Y’nin yoğunluğunu, özelikle bir integral ve bir türev içerdiği için, c.d.f’ler aracılığıyla X’in fx(x) yoğunluğundan elde etmek uygun değildir. Bu durumda, p.d.f.ler arasında daha direkt bir bağlantı olup olmadığı merak edilebilir.
ri
.c
Daha genel duruma geçmeden önce, varsayalım ki bazı sabit değerler a > 0 için u(x) = ax’tir. O zaman Y = u(X) = aX’in c.d.f si aşağıdaki ile elde edilir.
tla
Zincir kuralını kullanarak, Y’nin p.d.f.’sini şöyle türetebiliriz:
de rs no
Bunun için en iyi sezgisel değerlendirme nedir? – Eğer a > 1 ise, dönüşümü, rasgele değişkenin üzerine düştüğü ekseni germe olarak düşünebiliriz. Bu durum, eksen üzerindeki herhangi bir iki noktaya a’nın çarpımı kadar yer değiştirtir, fakat değişkenin iki nokta arasına düşme olasılığını sabit tutar. Dolayısıyla, X’in dağılımı ile karşılaştırıldığında Y’nin dağılımı 1/a çarpımı kadar “seyrekleşmiş” olur. Bunu içinde bir miktar üzüm olan hamur ile hayal edebiliriz. Hamuru ne kadara yayarsak, hamur içindeki üzümlerin hamur tahtasının yüzeyine göre dağılımı o kadar seyrek olacaktır. X’in u(.)’sunun türevlenebilir monoton dönüşümü için aşağıdaki sonucu elde ederiz.
m
Önerme 1. X fX(x) yoğunluğu bilinen rasgele sürekli bir değişken olsun, ayrıca P(a X b) = 1 ve Y = u(X)’dir. Eğer u(.) |a,b| gibi bir aralıkta kesin artan ve türevlenebilir ise ters yer değişim s(y) = u-1(y)’ye sahipse, o zaman T’nin yoğunluğu aşağıdaki ifade ile verilir.
ee
Benzer sonucun, u(x)’in |a, b|’de kesin azalan olma durumunda da doğru olduğuna dikkat ediniz. Örnek 6. X [0, 1] aralığında uniform, böylece p.d.f.si de aşağıdaki gibi olsun
om
.c
Y = X2’nin p.d.f.’si nedir? X’i desteklemek için, u(x) = x2’nin kesin artan ve türevlenebilir olduğunu düşünüyoruz ve böylece Y’nin p.d.f.sini elde etmek için u(.)’nun tersi olan s(y) = √ ’yi kullanarak aşağıdaki ilişkiyi elde ederiz.
ri
Bu, yukarıda yaptığımız bir örneğe benzemektedir. Öncekinden farklı olarak, X’in desteği [-1, 1] idi ve böylece u(x) = x2 X’i desteklemek için monoton değildi.
tla
Bu formüllün sadece bire-bir türevlenebilir dönüşümler- yani monoton - için çalıştığını not etmek çok önemlidir. Diğer durumlarda, kesikli ve sürekli durumlar için hantal 2adımlı yöntemlere bağlı kalmak zorundayız.
de rs no
1.4 Olasılık İntegrali / Quantile Dönüşüm
Sürekli rasgele değişkenler için, ilginç- aynı zamanda çok yararlı- bir sonuç vardır: aşağıdaki manada “c.d.f’nin c.d.f.’si” uniform bir değişkendir: Önerme 2. X, c.d.f.si Fx(X) olan sürekli bir rasgele değişken olsun. O zaman, c.d.f. X’in rasgele çekilişiyle ölçülürken, Fx(X) uniform dağılımlıdır. Yani
Rasgele bir değişkenin fonksiyonun kendisinin de rasgele bir değişken olduğuna dikkat ediniz (bunu daha sonra detaylı bir şekilde tartışacağız).
ee
m
İSPAT: C.d.f. sadece sıfır ile 1 arasında değerler aldığı için, F(X)’in c.d.f.’si olan G(.)’nin hali hazırda şu koşuları sağladığını görebiliyoruz:
Genelleştirmeyi ortadan kaldırmadan (sadece birkaç ilginç olmayan ekstra tanım veya durum farklılığından kaçınarak), varsayalım ki F(.) kesin monotondur- unutmayın ki bütün c.d.f.ler azalmayandır. Bunun anlamı, F-1(.) gibi ters bir fonksiyonun olduğudur, yani , F-1(F(x)) = x gibi bir fonksiyondur.
om .c ri x
1 için rasgele
tla
Ters fonksiyonda kesin olarak monoton olacaktır, böylece 0 değişken FX(X)’in c.d.f.’si aşağıdaki gibidir
de rs no
(birinci eşitlik F-1’în monotonluğunu, ve c.d.f’nin üçüncü tanımını kullanır). Özetlersek, rasgele değişken F(X)’in c.d.f.si olan G(.) şöyledir
Bunun, [0, 1] aralığında uniform rasgele bir değişkenin c.d.f.’si olduğunu da kolaylıkla kontrol edebiliriz, böylece F(X) U[0, 1] ile aynı olasılık dağılımına sahiptir.
m
Bu sonuç ne işe yarar? Bir örnek olması bakımından, bilgisayar ile uniform rasgele rakamlar elde etmenin çok etkin yolları vardır. C.d.f.si FX(.) olan bir rasgele değişkenden n çekilişli bir örneklem elde etmek istiyorsanız, şunları yapabilirsiniz:
ee
U1,…Un U[0, 1] çekilişini yapınız, her bir uniform çekilişini şuna göre dönüştürünüz:
Daha önceki argümanımıza göre, X1, ..Xn c.d.f. si FX(.) olan bir rasgele değişken gibi davranır. Bu yöntem integral (ya da quantile) dönüştürme olarak bilinir.
om
Örnek 7. Uniform dağılımından bir rasgele değişken U’yu çekmemize izin veren bir bilgisayar programımızın olduğunu varsayalım, fakat biz gerçekte rasgele çekilen ve p.d.f.’si aşağıdaki gibi olan bir X elde etmek istiyoruz
ri tla
Böylece c.d.f.’nin tersi şöyledir:
.c
Integral ile X’in c.d.f.sini elde edebiliriz:
de rs no
Eğer bunu bir istatistik yazılım veya Excel kullanarak denersek, çekilişin histogramı şöyle görünecektir:
m
Şekil 1. Bir uniform’dan (Soldaki) 5000’lik çekilişin histogramı ve Xi = -2log(1-Ui)’in dönüşümü (Sağdaki)
ee
Eğer Excel’de kendi başınıza birkaç örnek denemek istiyorsanız, RAND() fonksiyonunu kullanarak birkaç uniform rasgele çekiliş yaratabilirsiniz. Sonra, menülere tıklayarak histogram oluşturabilirsiniz( “Araçlar”> “Veri Analizi” > “Analiz araçları” > “Histogram”)
Olasılık ve İstatistik Ders Notları 10
12 Mart 2009
ri
.c
1. 2 veya Daha Fazla Rasgele Değişkenin Fonksiyonları
om
Konrad Menzel
tla
2 veya daha fazla rasgele değişkenin birleşik dağılımı hakkında hâlihazırda öğrendiklerimizi tekrarlayalım. Diyelim ki X1, X2, … ,Xn var, Eğer X1, … ,Xn kesikli ise, onların birleşik p.d.f.’si
de rs no
ile verilir.
Eğer X1, … ,Xn sürekli ise, onların birleşik p.d.f.’si pozitif bir fonksiyondur, n f X1, … ,Xn(x1, … ,xn), bu nedenle herhangi bir D için
X1, … ,Xn bağımsızdır eğer aşağıdaki sağlanırsa
m
Bunun aşağıdakine eşit olduğunu hatırlayınız,
ee
Şimdi yukarıda tartışılan tek değişkenli durumdan nasıl 2 veya daha fazla boyuta geneleme yapacağımıza bakalım. Tek boyutlu durumda olduğu gibi yine üç durumu ayırt edeceğiz: 1. İlgili değişken X1, … ,Xn kesiklidir 2. İlgili değişken X1, … ,Xn süreklidir 3. X süreklidir ve u(X1, … ,Xn) n-boyutlu bire-bir bir fonksiyondur.
1.1. Kesikli Durum
om
Varsayalım ki X1, …, Xn birleşik yoğunluğu p.d.f. f X1, … ,Xn(x1, … ,xn) ile kesiklidir ve Y1, … ,Ym m tane fonksiyon ile veriliyor
.c
Aynı zamanda,
tla
ri
Bu durumda ve Y1, … ,Ym’in birleşik p.d.f.si aşağıdaki ile verilir.
de rs no
Örnek 1(Binom Rasgele Değişkenlerin Toplaması). Varsayalım ki X B(m, p) ve Y B(n, p) p.d.f.si aşağıdaki gibi olan bağımsız binom rasgele değişkenler olsun.
ee
m
Eğer Z = X + Y olarak tanımlarsak, p.d.f. fz(z) nedir? X ardışık m bağımsız deneydeki ve Y ise n deneydeki başarı sayısı olduğu için (her ikisi de aynı başarı olasılığına sahiptir), o zaman Z’nin de m+n denemendeki p olasılıklı başarıların toplamı olması gerektiği bir ilk tahmin olarak söylenebilir. Yani Z B(m + n, p). Bu doğru olacakmış gibi görünüyor, ancak biçimsel olarak bunu kontrol etmemiz gerekiyor:
om
pz(1 – p)n -z terimi k’ye bağlı değildir, bu nedenle onu toplamdan çekebiliriz. Diğer taraftan, aşağıdakini iddia ediyorum,
B(m + n, p).
de rs no
Böylece gerçekten Z
tla
Bütün parçaları bir araya getirecek olursak,
ri
.c
Gerçekten de, sayma kuralını kullanarak bunu gösterebiliriz: çarpım kuralı ve kombinasyon formülü ile, ( )( ) terimi m sayılı bir gruptan çekilen k eleman içeren bir küme ile n sayılı başka bir gruptan çekilen z-k eleman içeren farklı küme sayısına karşılık gelir. Bütün k değerleri üzerinden toplayarak, birleştirilmiş iki kümeden (yani, m + n elemanlı bir küme) bir z kümesinin elemanlarını çekmenin toplam yollarının sayısını elde ederiz. Kombinasyon formülüne göre bu küme ( )’ye eşittir, bu da ispatlamaya çalıştığımız eşitliğin sağ tarafıdır
Bir tedbir notu olarak, genel olarak aynı dağılım ailesinden –bu durumda binom– gelen iki bağımsız rasgele değişken X ile Y’nin toplamı olan Z aynı aileye ait olmayacaktır. Bu bağlamda, binom dağılım çok özel bir durumdur ve aynı özeliğe sahip sadece birkaç tane daha yaygın olarak kullanılan dağılım vardır. Örneğin, Eğer X B(m, pX) iken Y B(m, pY) ve pX pY ise, yukarıda elde edilenler hiçbir işe yaramayacaktır.
1.2 Sürekli Durum
m
Varsayalım ki X1, … , Xn birleşik yoğunluğu yani f X1, … ,Xn(x1, … ,xn) p.d.f.si ile süreklidir ve Y (kavramı basit tutmak için sadece bir değişken kullanalım) aşağıdaki fonksiyon ile verilmektedir.
ee
Eğer
ise, o zaman Y’nin p.d.f.si aşağıdaki ile verilir:
2. Bire-Bir Dönüşüm için Değişken Değiştirme Formülü
om
Bu da yine sadece sürekli değişkenler ile çalışan özel bir durumdur: A X 1, … ,Xn’nin destekleyeni olsun, yani
.c
ve B’de Y1, … ,Yn indirgenmiş destekleyeni olsun, yani
tla
ri
Varsayalım ki Y1, … ,Yn türevlenebilir bire-bir dönüşümünden elde edilen X1, … ,Xn’den elde edilsin,
de rs no
Yani (x1, …, xn) A’nın her değeri (y1, …, yn) B’nin birer elamanıyla eşleşmektedir. Bu durumda [s1(x1, …, xn), …, sn(x1, …, xn)]’nin tersini tanımlayabiliriz, böylece
m
Eğer s1(.), …, sn(.) B üzerinden türevlenebilirse aşağıdaki matrisini tanımlarız.
ee
Kısmı türevin bu matrisi aynı zamanda Jacobian’ın ters dönüşümü olarak adlandırılır. Doğrusal Cebir’i almayanların, 2’ye 2 durumlarını çalışmaları yeterlidir. İkiye iki durumlarında Matris A’nın determinantının aşağıdaki gibi hesaplandığını bilmeniz gerekiyor:
om
Önerme 1. X1, …, Xn yukarıda vurgulandığı gibi Y1, … , Yn ile eşleşmesi bire-bir ve tersi olan s1(.), …, sn(.) türevlenebilir ise, o zaman Y1, … , Yn’nin birleşik p.d.f.si aşağıdaki ile verilir.
2.1 Doğrusal Dönüştürme
0 olan bir nxn matris A için,
de rs no
tla
ve
ri
.c
X rasgele değişkenlerin bir vektörü olsun, yani det(A)
Bu durumda doğrusal eşleştirme (mapping) Y = AX bire-birdir (matrisin tersi olduğu için) ve değişken değiştirme formülünü kullanarak Y’nin birleşik dağılımını bulabiliriz.
Örnek 2. Bunun ekonomideki önemini görmek için, varsayalım ki Boston’daki portakal suyu piyasası için basit (kısmı denge) bir modelimiz var. Firmalar fiyat p’nin bir doğrusal fonksiyonu(s ve s katsayılı) olan miktar qs’i arz etmek niyetindedirler. qs = s + sp + us
m
Burada us rasgele bir değişkendir (diyelim ki Florida’daki güneşli saatler gibi). Tüketiciler başka bir tesadüfi şok ud veriyken (diyelim ki gelir) miktar qd’yi talep ederler. qd = d - dp + ud
ee
Denge durumunda, arz talebe eşittir, yani fiyatlar öyledir ki qs = qd = q’dir ve fiyatlar ile miktarlar beraber aşağıdaki ilişki tarafından belirlenir.
om
Fiyat ve miktarların birleşik dağılımını elde edeceğimiz şokların (ud, us) birleşik p.d.f.si fU(us, ud)’yi biliyor olabiliriz ya da varsayabiliriz. Bu birleşik p.d.f. kesin şekilde Jacobian’a (sol taraftaki matris) bağlı olacaktır. Bu durumda det(J) = d + s’dir, bu nedenle eğer arz veya talep önemli (nontrivial) bir eğime sahip ise, şoklardan fiyata ve miktara dönüşüm bire-birdir ve sonuçta ortaya çıkan birleşik p.d.f. aşağıdaki gibidir:
ri
.c
Bu durum, bu derste işleyeceklerimizden biraz uzak gibidir ancak Jacobian terimi |d + s| piyasa dengesi aracılığıyla fiyat ve miktarın karşılıklı bağımlılığını yakalar. Bunun, 14.32 dersinde piyasa sonuçlarından arz ve talebin ayrı ayrı tahmin edilmesini zorlaştıran “eşanlılık problemi” olarak adlandırılan durumun kaynağı olduğu ortaya çıkmıştır. Bu Ekonometrinin temel problemlerinden biridir.
tla
2.2. X +Y’nin Dağılımı (Bükülme)
Varsayalım ki X ve Y bağımsız sürekli rasgele değişkenlerdir ve p.d.f.leri, sırasıyla, fX(x) ve fY(y)’dir ve böylece rasgele değişkenlerin birleşik p.d.f.leri fXY(x, y) = fX(x)fY(y)’dir. Z = X + Y’nin p.d.f.si nedir?
de rs no
Örnek 3. Bunun gibi bir örneği sınıfta yaptığımızı hatırlayınız: çim biçme makinesindeki iki bujini ömrüne bakmıştık, ve P(X + Y z) olasılığı {(x, y) : y z –x} ile tanımlanmış üçgen üzerinden fXY(x, y) birleşik yoğunluğun integrali olduğu ortaya çıkmıştı. Bu durumda Z’nin c.d.f.si aşağıdaki gibidir:
Buradan, Z’nin yoğunluğunu elde edebiliriz,
m
Rasgele değişken Z = X + Y, X ve Y’nin büklümü olarak ta adlandırılır. Son formülün sadece bağımsız rasgele değişkenlerin toplanması halinde geçerli olduğunu not ediniz.
ee
Örnek 4. Önceki örnekteki tartışma “2-adım” yönteminin çizgisiyle aynıydı ve değişkenlerin dönüşümü formülünü kestirme bir yol olarak kullanmanın mümkün olup olmayacağı merak edilebilir. (X, Y)’den Z’ye eşleme açıkça bire-bir değildir, bu nedenle değişkenlerin dönüşüm formülünü doğrudan kullanamayız. Ancak, aşağıdaki “hileyi” yapabiliriz: aşağıdakiler tanımlayalım.
om
O zaman, ters dönüşüm şöyle tanımlanır:
ri tla
Bundan ötürü,
.c
Bu durumda
de rs no
Birleşik p.d.f.’yi w üzerinden integralini alarak Z’nin marjinal p.d.f.sini elde edebiliriz artık.
Bu bir önceki türetmeden elde edilen formülün aynısıdır.
m
Örnek 5. Şimdiye kadar üstel dağılımın birkaç örneğini gördük (çim biçme makinesi örneğindeki gibi). X ve Y bağımsız üstel rasgele değişkenlerdir ve marjinal p.d.f.leri şöyle olsun:
ee
Son formül ile , Z = X + Y’nin p.d.f.si aşağıdaki gibidir:
ee
m
de rs no
tla
ri
.c
om
Burada, ikinci adımdaki integralin limiti X ve Y’nin desteğinin pozitif reel sayılar ile sınırlı olması gerçeğinden gelmektedir. Yani z < 0 için fX(z) sıfırdır, halbuki z > w için fY(z - w) sıfır olur.
Olasılık ve İstatistik Ders Notları 10
om
Konrad Menzel 12 Mart 2009
tla
Z = X/Y’nin p.d.f.si nedir?
ri
.c
1. İntegralin Limitinin Dönüşüm Formülünün Örneği
1.1. Yaklaşım 1. “2-adım” yöntemi, çok karmaşık x/y 2 olan (x, y)’yi bul. (x, y)’ler üzerinden fXY(x,y)’nin integralini alarak c.d.f. FZ(z)’yi elde et. FZ(z)’nin türevini alarak p.d.f. fZ(z)’yi elde et.
de rs no
bunu yapmayacağız çünkü daha kolay bir yaklaşım var.
1.2. Yaklaşım 2: Değişkenin-değişimi formülü Problem: z = u1(x, y) = x/y bir boyutlu, u(.) bire-bir olamaz.
Çözüm: yeni bir değişken tanımla, w = u2(x, y) = XY
m
ee
(x, y’nin 1 olasılıkla pozitif olduğunu not ediniz.) Ters fonksiyon
Jacobian
[ ]=[
]’nin tersini al.
.c
(W, Z)’nin birleşik p.d.f.sini elde etmek için formül kullan
de rs no
Koşul (*) aşağıdakinden gelir
tla
ri
om
det (J)
ve
Aşağıdakini nasıl elde ederiz?
ee
m
o W 0 için fWZ(w, z) sıfırdır o W > min(Z, 1/Z) için FWZ(w, z) sıfırdır o Bundan ötürü,
ri
tla
de rs no
m
ee
om
.c
Olasılık ve İstatistik Ders Notları 11
om
Konrad Menzel 17 Mart 2009
.c
1. Sıra İstatistikleri
tla
ri
X1, …, Xn p.d.f.leri fx1(x) = … = fxn(x) benzer olan bağımsız rasgele değişkenler olsun – genellikle böyle bir sıralı ifadeyi “bağımsız ve aynı(benzer) dağılımlı” olarak adlandırırız ve i.i.d. olarak kısaltırız. Aşağıdaki fonksiyon ile ilgileniyoruz.
yani Yn örneklemin en büyük değeridir.
de rs no
Bağımsızlığı kullanarak Yn’nin c.d.f.sini türetebiliriz.
Zincir kuralını kullanarak, maksimumun p.d.f.sini elde edebiliriz.
ee
m
Örnek 1. Eski bir resim bir açık arttırmada satılır. n kişi açık artırmada bağımsız olarak B1,…, Bn tekliflerini sunarlar ve tekliflerin marjinal c.d.f.si FB(b)’dir. En yüksek teklifi veren potansiyel alıcı resmi alacak olan kişidir ve teklif miktarını ödemek zorundadır (bu tür açık artırmalar Dutch, ya da birinci fiyat açık artırması olarak bilinir). Bu durumda resim satıcısının hasılasının p.d.f.si aşağıdaki ile verilir:
Şimdi bunu örneklemdeki diğer sıralamalara genelleştirebiliriz. Örneğin,
Yn-1 = “X1, …, Xn’nin en yüksek ikinci değeri”
om
Bu rasgele değişken X1, …, Xn’nin (n-1)’nci sıralı istatistiği olarak adlandırılır ve onun p.d.f.sini belirleyebiliriz.
.c
Önerme 1. X1, …, Xn p.d.f.si fX(f) ve c.d.f.si FX(x) bir i.i.d. rasgele değişkenler silsilesi olsun. Bu durumda k’nci sıralı istatistik Yk’nın p.d.f.si şöyledir:
ri
İSPAT: Deneyi iki bölüme ayırabiliriz, (a) X’lerden biri yoğunluk fX(y)’e göre y değerini almak zorunda olsun, ve (b) y değeri veriyken, diğer çekilişler dizisi y’nin etrafında y örneklemin en küçük k’nci değer olacak şekilde gruplandırılsın.
de rs no
tla
Bölüm (b) n deneyin X1, …, Xn’in n çekilişine karşılık gelen bir binom deneydir ve i’nci turdaki “başarı” olay (X1 y) olarak tanımlanır. Çekilişler bağımsız ve aynı p.d.f. ile ilintili oldukları için, binom dağılımdaki p parametresi FX(y)’e eşittir. y’nin daha küçük olması veya en küçük knci değere eşit olması binom dağılımdaki en az k kadar “başarı” ile ilgilidir ve bu nedenle ilgili c.d.f aşağıdaki gibidir.
Şimdi c.d.f.’nin y’ye göre türevini çarpım ve zincir kuralı ile alarak p.d.f.yi elde edebiliriz.
ee
m
Bu ifade karmaşık görünüyor, fakat bunun esasında teleskopik bir toplam olduğu anlaşılabilir, bunda ötürü toplamlı terimlerin (summand) çoğu düşecektir. İkinci terimdeki l = n ile ilgili toplam değerin sıfır olduğuna dikkat ediniz. Onu yeniden yazabiliriz
burada mevcut l endeksi l-1 ile yer değiştirmiştir. Birinci terim için aşağıdaki söz konusudur:
om
Bu durumda birinci terim aşağıdaki gibi olur
bu ispatı yapılan sonuçtur.
tla
ri
.c
Böylece yoğunluk T1’i tanımlayan l = k terimin toplamına eşittir çünkü T2’yi çıkardığımızda yok olmayan tek terimdir. Bu nedenle,
de rs no
Örnek 2. Alıcının en yüksek fiyat teklifini verip resmi aldığı birinci açık artırmadan farklı bir açık artırmayı şimdi düşünebiliriz. Buna göre en yüksek fiyatı teklif eden yine resmi alır ancak bu durumda ikinci en büyük fiyat teklifi kadar ödemek yapmak zorundadır (bu açık artırma şekli ilkine göre daha yaygındır ve İngiliz yada ikinci-fiyat açık artırması olarak bilinir). Eğer teklif edilen fiyat rasgele değişkenler, C1, …, Cn, ise, satıcının geliri Y şimdi aşağıdaki p.d.f.’ye sahiptir.
m
Aynı fiyat teklifini veren kişinin iki farklı açık artırma formatına farklı fiyat teklifi vermesi gerektiğini ekonomi teorisinden bildiğimiz için, fiyat teklifleri için farklı harf kullandığıma dikkat ediniz.
ee
2. Bir parantez açmak: “Herhangi bir sayının ilk basamağı”’nın dağılımı (derste işlenmedi).
Burada, kendisi için daha önce gördüğümüz yöntemleri kullanmayacağımız, hoş ama standart olmayan bir problem var. Bu kesinlikle problem seti veya sınava hazırlık için üzerinde durmayacağınız bir şey, ama ben yine de değinmek istiyorum.
om
Hakkında hiçbir şey bilmediğimiz sayıların birinci basamaklarının dağılımı nedir? Daha açık olmak gerekirse, X’in neyi temsil ettiğini veya ne tür birim (1/Y) kullandığını bilmediğimiz herhangi bir şeyin ölçüsü olsun. Örneğin bir gazeteyi inceleyip herhangi bir şeyi (gelir, borsa endeksleri, nüfus vs.) ölçen rakamları toplayabiliriz. Nereden geldiği hakkında başka hiçbir şey bilmediğimiz bu rakamların birinci basamaklarının p.d.f.’si nedir? Yani X ve Y’nin pozitif olma dışında herhangi bir değer olabilecekleri bildiğimiz tek şey ise, Z = X.Y rasgele değişkenin ilk ondalığının p.d.f.sini nasıl türetebiliriz?
tla
ri
.c
Sezgisel olarak, uniform dağılım sanki rakamlar ve birimleri hakkında çok fazla “bilgi” içermediği için, ilk tahminimiz, ilk basamağın uniform (kesikli) dağılımlı olması olabilir. Ancak, eğer uniform dağılımı alırsak ve birimleri değiştirirsek (örneğin varsayılan dağılımda bütün rakamları ikiye ve dörde katlarsak), birinci basamakların dağılımı uniform olarak kalmaz. Örneğin, eğer gerçek rakamlar X U[1, 10] , 4X U[0, 40] ise, 4X’in birinci basamağı Y aşağıdaki p.d.f.ye sahiptir.
de rs no
Ya da, görüldüğü gibi, birinci basamakların dağılımı hakkında minimal düzeyde gerekli olan bilgi, ölçüm birimini değiştirdiğimizde dağılımın değişemeyeceğidir. Gerçekte aradığımız, ölçek değişimine bağlı olarak dağılımı değişmeyen bir rasgele değişken X’tir, yani a > X için aX. Eğer Z = log(X) U[log(1), log(10)] varsayarsak bu doğrudur, çünkü bir ölçek kayması için aşağıdaki elde edilir:
ee
m
O zaman Z’nin ilk basamağı Y aşağıdaki p.d.f.ye sahiptir.
om .c ri tla
Şekil 1: Uniform Üzerinde Ölçüm Birimi Değişikliğinin Etkisi
ee
m
de rs no
Bu değişmeyen fikir bir dağılımı elde etmenin çok yapay bir yolu gibi görünebilir, çünkü dağılımın X ölçümü veya ölçme birimi ile çok belirgin bir bağı yoktur. Ancak, ortaya çıkan p.d.f. kategoriye düşen “gerçek-dünya verisi” hakkında çok iyi bir tahmin veriyor gibi görünüyor. Örneğin New York Times’ta görünen rakamların bir şeyi ölçmesini temsil etmeleri gibi. Aşağıdaki şekil, Economist’in “Rakamlarla Dünya 2007” cep kitabında yer alan 77 ülkenin ulusal para birimi cinsinden (Japonya için Yen, Kanada için C$ gibi) GSYİH’ların birinci basamaklarının histogramı ile beraber “teorik” yoğunluklarını göstermektedir. Özetleyecek olursak, bu örnek verilen iki rasgele değişkenin dağılımını belirlemede değişik radikal bir yaklaşım ortaya koymaktadır: burada X ile Y’nin p.d.f.lerini bilmeden başladık, fakat her nasıl bir dağılım ortaya çıkacaksa, birim değişikliklerinden etkilenmemek zorunda olduğunu belirttik, yani Y’nin gerçekleşmesi gibi. “Değişmeyen (invariance)” illeri istatistikte çok önemli yeri olan bir kavramdır, fakat bu dersin amacı nedeniyle, bu örnekten öteye gitmeyeceğiz.
om .c ri tla
de rs no
Şekil 2: Yerel Para Cinsinden GSYİH’ların ilk Rakamlarının Dağılımı ve Teorik Yoğunlukları (rakamlar The Economist, Pocket World in Figure 2007’den alınmadır)
3. Beklenen Değer ve Medyan
P.d.f.si fx(x) olan bir rasgele değişken X verilmişken, tüm yoğunluk dağılımını vermek zorunda kalmadan tüm dağılımın en önemli özeliklerini özetlemek istiyoruz. Beklenen değer esas itibariyle bize X’in dağılımının nerede merkezlendiğini söyler. 3.1 Tanımlar
m
Tanım 1. Eğer X kesikli rasgele bir değişken ise, toplamı sonluysa, X’in E|X| ile belirtilen beklenen değeri aşağıdaki gibidir.
ee
Eğer X sürekli ise, integrali sonluysa, beklenen değer aşağıdaki gibi tanımlanır
Örnek 3. Binom rasgele değişkenin, X
B(n, p), beklenen değeri nedir?
om .c ri
tla
burada ikinci sırada, x = 0 ile ilintili toplam değeri görmezlikten gelebiliriz çünkü sıfıra eşittir. Üçüncü sırada n’yi binom katsayısından attık ve izleyen adımda, toplam endeksini x’ten x-1’e dönüştürdük. Sonuç olarak, eğer np’yi çekersek, toplamlar ̂ B(n-1, p)’in binom olasılıkları olur ve bu nedenle toplamları birdir.
de rs no
Sonsuz sayıda değer alabilen bir rasgele değişkenin sonlu bir beklenen değere sahip olamayabileceğine dikkat ediniz. Bu durumda beklenen değer tanımlanmamıştır. Her ne kadar beklenen değer dağılımın “konumu” hakkında bilgi verse de, genel olarak onun rasgele bir değişken için “tipik bir değer” olmadığına da dikkat ediniz: örneğin zar atmanın beklenen değeri (1+2+3+4+5+6) =
’dir ki bu mümkün olan bir sonuç
değildir.
Dağılımın konumunu hesaplamanın diğer bir seçeneği de medyandır. Tanım 2. Rasgele bir X değişkenin medyan m(X)’i reel bir sayıdır yani P(X < m) = 1/2
m
Eğer rasgele değişken X’in dağılımı m(X) etrafında simetrik ise X’in medyan ve beklenen değeri çakışır, yani fx(m(X) – x) = fx(m(X) + x)’dir, fakat bu durum genelde aynı değildir.
ee
Örnek 4. Diyelim ki X’in p.d.f.si şöyledir:
Beklenen değeri ise,
om
Medyanı elde etmek için, önce X’in c.d.f.sini hesaplayalım
ri
.c
Dolaysıyla, m için FX (m) = 1/2’i çözmek aşağıdakini verir
tla
Bundan ötürü, bu dağılımın medyanı ortalamasından büyüktür. Medyanın tek olmayabileceğine dikkat ediniz.
de rs no
Örnek 5. X adil bir zarın atışlarının sonucu olsun. Herhangi bir sayı için m (3, 4], P(X < m) = P(X 3) = 1/2’dir. Dolayısıyla, o aralıktaki herhangi bir sayı medyandır.
3.2 Beklenen Değerin Özelikleri
Özelik 1. Eğer X = c ve c sabit bir değer ise, o zaman E|X| = c
Özelik 2. Eğer Y = aX + b, ise, o zaman
E|Y| = aE|X| + b
ee
m
İSPAT: Sadece sürekli duruma bakalım: Eğer X p.d.f.si fX(x) olan bir sürekli rasgele değişken ise, o zaman Y’nin beklenen değeri şöyledir:
Böylece görüldüğü gibi, doğrusallığına dönüşür.
integralin
doğrusallığı
Özelik 3. için
doğrudan
beklenen
değerin
om
Bu doğrusal beklentilerin en genel durumudur ve bu özelliği bundan sonraki derslerde tekrar tekrar kullanacağız.
ri
.c
Örnek 6. Yukarıda, X B(n, p)’nin beklenen değerini, [X] = np, X’in olası bütün sonuçlarının üzerinden toplam yaparak hesapladık. Fakat son sonuçtan, aynı sonucu elde etmenin başka daha kolay bir yolu olduğunu görebiliriz: X ardışık n denemenin başarı sonucu olduğu için, her bir deneyin sonucunu Z1, Z2, …, Zn olarak kodlayabiliriz. Burada eğer i’nci deney başarı ise Zi = 1’dir, diğer durumlarda Zi = 0’dır.
de rs no
tla
ve dolaysıyla
Özelik 4. Eğer X ile Y bağımsız ise, o zaman
Eğer X ile Y bağımsız değil ise, bu genel olarak doğru değildir.
3.3 Rasgele Değişkenlerin Fonksiyonlarının Beklenen Değeri
m
Y = r(X) olsun. Geçen hafta, eğer f x(x)’i biliyorsak, Y’nin p.d.f.sini nasıl türetebileceğimizi görmüştük. Beklenen değer için bu sorun daha kolaydır çünkü biz dağılımın sadece bir tek özeliğine bakıyoruz.
ee
Y = r(X) beklenen değeri aşağıdaki gibidir
Örnek 7. Varsayalım ki, Y = X1/2 ve X’in p.d.f.si aşağıdaki gibidir
om
Aynı kurallar 2 veya daha fazla rasgele değişken içinde işe yarar.
de rs no
tla
O zaman
ri
.c
Örnek 8. Varsayalım ki birleşik p.d.f.si, aşağıda verilen X ve Y gibi iki rasgele değişkenin Z = X2 + Y2 fonksiyonu ile ilgileniyoruz.
ee
m
Rasgele değişken X’in Y = aX + b türünden doğrusal fonksiyonları için, yukarıda [aX + b] = a [X] + b olduğunu görmüştük. Bu doğrusal olmayan rasgele değişkenlerin fonksiyonları için çalışmaz. Bunun en tipik sonucu Jensen’in Eşitsizliği’dir:
om .c ri tla
Kaynak: MIT OpenCourseWare
de rs no
Şekil 3. {x1, x2} için Bir Kesikli Dağılım Örneği
Önerme 2 (Jensen’in Eşitsizliği). X rasgele bir değişken ve u(x) konveks bir fonksiyon olsun. O zaman,
Eğer u(.) kesin konvex ve X pozitif olasılıkla en az iki farklı değer alır ise eşitsizlik kesindir(strict).
m
İSPAT: ( [X], u( [X])) noktasından geçen ve u(x)’e teğet bir doğrusal fonksiyon tanımlayabiliriz:
ee
u(.) konveks olduğu için, bütün x’ler için aşağıdaki ilişkiyi elde ederiz:
Özellikle,
om
r(x) doğrusal olarak oluşturulduğu için, a = u’( [X]) ve b = u( [X]) – u’( [X]) [X]’li doğrusal fonksiyonun beklenen değeri ile ilgili Özellik 2’yi, aşağıdakini elde etmek için kullanabiliriz.
Bunu daha önce türetilen eşitsizlikle bir araya getirecek olursak ispat tamamlanmış olur:
de rs no
tla
ri
.c
Bir konkav fonksiyon v(x)’in negatifi –v(x) konveks olduğundan, Jensen’in Eşitsizliği de bir konkav v(.) için aşağıdakini sağlar:
Kaynak: MIT OpenCourseWare
m
Şekil 4. r(x) her zaman u(x)’ten küçüktür.
ee
Örnek 9 (riskten kaçınma): Varsayalım ki ilk senesi için sınırlı garantiyle gelen 1200 dolarlık bir dizüstü bilgisayar aldınız. O ilk yıl süresince, p = %10 olasılıkla bir bardak kahveyi dizüstü bilgisayarın üzerine dökme (ya da sizin hatanız olan başka bir kaza) ve 1100 dolara mal olacak anakartı değiştirme ihtimaliniz var. Bu tamirat sınırlı garanti kapsamına girmez ama siz 115 dolara uzatılmış bir garanti (servis) alabilirsiniz. Bu ilave “sigorta”yı almalı mısınız? İlave sigorta olmadan, 1-p olasılıkla, dizüstü bilgisayarın toplam maliyetini rasgele bir değişken olarak X = 120 dolar, p olasılıkla, X = 1200 + 1100 = 2300 dolar olacak gibi
düşünebiliriz (bu problemi farklı şekillerde oluşturmak mümkündür, ancak şimdilik her şeyi basit tutalım). Uzatılmış servis planıyla dizüstü bilgisayarınız size X = 1200 + 115 = 1315 dolara mal olacaktır.
ri
.c
om
Eğer siz sadece dizüstü bilgisayarın beklenen değeriyle ilgileniyorsanız, o zaman [X]) = 2300p + 1200(1 – p) = 1200 + 1100p. Bu, eğer p %10.45 ise, [Y]) = 1315’ten daha büyüktür. Fakat p = %10 dediğimiz için, uzatılmış servis planını satın almak hala iyi bir fikir midir? - İktisatçılar, insanların belirsizlik durumunda karar aldıkları zaman, beklenen harcama miktarı W’yla pek ilgilenmediklerini varsayarlar, ama harcadıkları dolardan elde edecekleri fayda (toplam harcama miktarında ilave bir dolarlık artışın ilave değeri olduğu için) u(W) miktarıyla ilgilenirler. Bu U(.)’nun maliyette konkav olduğunu varsaydığımız anlamına gelir, diyelim ki
de rs no
tla
burada başlangıçtaki varlığımızın 4800 olduğunu ve 4800 - C harcayabileceğimizi varsayıyoruz. C dizüstü bilgisayarın toplam maliyettir. Bu durumda, ilave servis planına sahip olmamanın beklenen faydası
Ancak sigorta planıyla da şunu buluruz:
Gerçekten de, siz 4800 – 3481 = 119 doları sigorta için harcamak isteyeceksiniz, hâlbuki beklenen ilave maliyet sadece 1100p = 110 dolardır. Sigorta için ödemek istediğimiz bu 9 dolarlık farka u(.)’nun konkav olmasında gelen risk-primi denilir. Jensen’in Eşitsizliği ’ne göre, eğer u(.) konkav ise bu risk-primi pozitiftir ve bu tür tercihlerin riskten kaçınma göstergesi oluğunu söyleyebiliriz.
m
Örnek 10. İzleyen örnek St. Petersburg Paradoksu olarak bilinir ve sonlu beklenen değeri olmayan rasgele bir değişken örneğini verir.
ee
Bize aşağıdaki bir kumar önerilir: Varsayalım ki adil bir madeni para tura gelinceye kadar tekrar tekrar atılır. İlk atışta tura gelirse 2 dolar, 2’ncide gelirse 22 dolar ve genel olarak x’nci seferde görünürse 2x dolar kazanacaksınız. Bu oyunu oynamak için ne kadar öderdiniz? Prensip olarak, beklenen kazancınız kadar vermek niyetinde olursunuz, bu nedenle şimdi hesaplamaları yapalım: gerek duyulan tam x atışın olasılığı aşağıdakine eşittir:
.c
Bundan ötürü, beklenen kazanımlar ile ilgili üst sınır yoktur.
om
Bu nedenle, beklenen kazanımlar, Y, aşağıdaki gibi hesaplanır:
de rs no
insanlar genellikle beklenen para miktarıyla ilgilenmez, ancak sahip oldukları toplam miktar içinde değer verdikleri para miktarı azalır, yani önceki örnekte olduğu gibi insanlar bir çeşit konkav u(.) fonksiyonunu maksimize ederler. çok küçük olasılıklarla, kazanacağınız miktar çok yüksektir- yani trilyon, katrilyon dolarlar gibi, ve ödemeyi yapacak olan karşı tarafın verdiği söze bağlı kalacağına inanmayız, bu durumda gerçekte böyle bir bahisten en iyi umutla ne kadar kazanabileceğimize dair bir çeşit üst sınır vardır.
tla
ri
Bu, bu tür bahisler için insanların sonsuz miktarda ödeme yapacağını göreceğimiz anlamına mı geliyor? Kesinlikle hayır: genellikle insanlar oyunu oynamak için aşağı yukarı en fazla 25 dolar verir. Bu paradoks farklı yollardan çözülebilir:
Jensen’in Eşitsizliğiyle bağlantıyı tekrar kurmak için, p = 1/a olasılıkla tura gelen bir madeni para ile oynanan oyunun beklenen atış sayısını hesaplayalım:
m
burada kolaylıkla kontrol edebileceğiniz gibi G’(a) aşağıdaki ilişkinin 1/a’ya göre birinci türevidir
ee
Bu nedenle, yeni ifadenin G(1/a) için türevini alınca, aşağıdakini elde ederiz
ve örneğimizde 1/a = 1/2 olduğu için, beklenen atış sayısı 2’dir.
Böylece, insanların hala bahis için kullanmak istedikleri 25 dolar ortalama atışların kazancına dolar kadar uzaktır. Bunun açıklaması bir kere daha Jensen’in Eşitsizliği’dir, ve gerçekte u(x) = 2x x’in (ekstrem) bir konveks fonksiyonudur.
.c
om
Örnek 11. Varsayalım ki iki değerli kağıt arasından seçim yapmak durumundasınız: Birincisi insanlara internet sayfalarını bedava arattıran meçhul yeni başlayan bir internet firmasının hisse senetleridir. %90 olasılıkla kar payları e0t = 1’de sabit kalmasından ötürü çok risklidir ve %10 olasılıkla firmanın adı Google’dır. t zamanında her hangi bir anda ödeyeceği kar payları e0.1T kadar büyür, yani sırasıyla %90 olasılıkla %0, %10 olasılıkla %10 değerini alan rasgele bir büyüme oranı G1 vardır. Diğer seçenek ise, gelecekte herhangi bir t zamanda e0.02t faiz ödeyecek olan devlet tahvilini tutmak olabilir, yani kesin olarak G2 = %2’dir.
tla
ri
t zamanda alacağınız bir dolara şimdi sahip olduğunuz doların e-0.15t ’i kadar değer verirsiniz, fakat yine de ikisinden birine yatırırsınız. Yani genel olarak, getirisi g oranında büyüyen değerli bir kağıda kesin olarak aşağıdaki kadar değeri biçersiniz:
de rs no
Riskli hisse senedinin beklenen kar payı büyüme oranı ise,
Ancak, hisse senedine biçtiğiniz değer şudur:
m
Halbuki tahvil için biçtiğiniz değer aşağıdaki kadardır:
ee
Sezgisel olarak, büyüme oranı üzerindeki belirsizlik, her ne kadar yeni faaliyete başlayanların %90’nı büyümese de (hata iflasta edebilirler), %10’u inanılmaz bir şekilde kötü giden yatırmaları telafi ettikleri anlamına gelir. Biçimsel olarak, büyüme oranlarında V(g) fonksiyonu konvekstir, böylece Jensen’in Eşitsizliğine göre, yatırımcılar büyüme oranındaki riske değer biçmelidirler – miktara (düzeye) değil.
Olasılık ve İstatistik Ders Notları 12
Mart 19 2009
Rasgele bir değişkenin medyanını şöyle tanımlarız
ri
P(X> medyan(X)) = 1/2
.c
1. Medyan ve Yüzdeliklerin Özelikleri
om
Konrad Menzel
rs no
tla
X kesikli ve c.d.f’de sıçramalara neden olan nokta yığılmalarına sahip ise, bu tanım yararlı olamayabilir, bu nedenle daha genel durumda, medyanı aşağıdaki gibi tanımlarız
Dar tanım ile ilgili değişiklik, c.d.f.’nin süreksizliğe sahip olması ve 1/2’nin üzerine çıkmasıyla, medyanı sadece süreksizlik noktasında aramaktır. X dağılımının diğer yüzdeliklerini de tanımlayabiliriz. Tanım 1. Rasgele bir değişken X için, quantile aşağıdaki ile verilir
de
Ayrıca q(X, p/100)’yi p’nci yüzdelik(percentile) olarak adlandırıyoruz.
m
Bu tanımdan hareketle, medyanın 50’nci yüzdeliğe tekabül ettiğine dikkat ediniz. Diğer daha sık kullanılan ondalıklar (quantile) (p = 10, 20, 30, …, 90) ve çeyreklikler (quartile) (p = 25, 50, 75)’dır.
ee
Beklenen değerlerde yaptığımız gibi ondalıkların özellikleri için çok zaman harcamayacağız, fakat medyanın beklenen değerden farklı davrandığı iki önemli noktaya temas etmek istiyorum: İlki için, Jensen’in Eşitsizliğinde bir u(X) fonksiyonu için beklenen değer, [u(X)], önemli oranda X’in olasılık yığının bulunduğu bölgenin eğriliği u(x)’e bağlı olduğunu gördük. Genel olarak, medyan medyan(u(X)) u(medyan(X))’ten farklı da olacaktır, ancak bunun dikkat edilmesi gereken bir istisnası şudur:
Önerme 1. X’i desteklemek için u(X)’in kesin artan olduğunu varsayalım. O zaman medyan(u(X) = u(medyan(X))
om
İSPAT: X’in medyanı P(X < medyan(X)) =1/2’yi sağlar. u(x) kesin artan olduğu için, herhangi bir sabit m değeri için olay X < m olay u(X) < u(m)’ye eşittir. Bu nedenle P(u(X) < u(medyan(X)) = P(X < medyan(X)) = 1/2’dir, böylece u(medyan(X)) gerçekten u(X)’in medyanıdır.
Sezgisel olarak, medyan kesin artan dönüşüm ile korunan rasgele değişkenin ordinal özeliğine bağlıdır.
.c
Beklenen değerin, çoklu rasgele değişkenin doğrusal fonksiyonun beklenen değeri beklenen değerlerin aynı doğrusal fonksiyonuna eşit olduğu manasında, doğrusal olduğunu gördük. İzleyen örnekte gösterildiği gibi medyan için bu doğru değildir:
tla
ri
Örnek 1. Varsayalım ki X1 ve X2 aşağıdaki benzer marjinal dağılımdan elde edilen
rs no
ve birbirinden bağımsız olan kesikli rasgele değişkenler olsun. O zaman Y = X1 + X2 0,1 ve 2 değerlerini alabilir ve p.d.f.si
X1 ve X2’nin medyanı sıfırdır, ancak medyan(Y) = 1 medyan(X2).
0 + 0 = medyan(X1) +
de
Daha genel olarak, ortalamaların ondalıkları ondalıkların ortalamasından farklı olabilir. İzleyen örnek bu anlayışın oldukça pratik bir başka yorumunu vermektedir (aşağıdaki sayısal örneği verdiği için Aleksandr Tamarkin’e teşekkürler).
ee
m
Örnek 2. X1 sözel, X2 analitik ve X3 sayısal şeklinde üç bölümden oluşan standart bir test olan GRE sınavına girdiğinizi düşünün. Testin her bölümde puanınız yüzde 90’lık dilimin üzerindedir. Bu, genel puanda da yüzde 90’lık dilimin üzerinde olduğunuz anlamına mı gelir? Genel olarak cevap hayırdır? Varsayalım ki, siz dâhil, sınava giren 100 kişi vardır ve puanların dağılımı şöyledir: 84 kişi hiçbir bölümden bir tek puan bile almaz, siz her bölümden 250 puan aldınız, ve bunun dışında sınava giren üç türlü kişi vardır ki her birisi sadece bir bölüm için her nasılsa dar görüşlü bir dâhiye benzeyen bir yeteneğe sahiptir. Daha açık olmak gerekirse, 5 kişi sözelde çok aşırı yeteneklidir ve sözel bölümden 800 diğer bölümlerden 0 alırlar. Diğer 5 kişi analitik bölümden 800, ve bir diğer 5 kişi ise sayısal
om
bölümden 800 alırken öteki bölümlerden 0 alırlar. Toparlayacak olursak, puanların bileşik dağılımı şöyledir (bu tipik GRE puanların dağılımında oldukça farklıdır)
ri
.c
Dolayısıyla, siz her bölümde en az %95’lik dilimdesiniz, fakat 15 kişinin toplam skoru 800 iken sizin ki sadece 750’dir, bu nedenle her üç bölüme göre toplam puanların sadece %85’lik dilimindesiniz.
tla
2. Varyans
Varyans rasgele bir değişkenin yayılmasının ölçüsüdür
rs no
Tanım 2. Rasgele bir değişkenin varyansı aşağıdaki ile verilir:
Bazen biz varyansı 2 = Var(X) ile ifade ederiz.
Özelik 1. Sadece ve sadece bazı sabit sayılar için P(X = c) = 1 ise Var(X) = 0’dır.
de
Özelik 2. Eğer Y = aX + b ise, o zaman
VarY = a2Var(X)
ee
m
İSPAT: Yine, sadece sürekli duruma bakalım. Beklenen değer için elde edilen önceki sonuçları kullanarak
Yayılmanın ölçümü için rasgele değişken gibi bir çeşit birim kullanmak daha uygun düşer. Ancak, bu son sonuç Var(X)’in biriminin X’in biriminin karesi olabileceğini ima etmektedir. Bu nedenle, varyans yerine sıklıkla standart sapma (X)’i kullanırız:
Özelik 3. Var(X) = |X2| – |X|2
om
İSPAT:
.c
Özelik 4. Eğer
tla
ri
ve X1, …, Xn bağımsız ise, o zaman
rs no
Örnek 3. Varsayalım ki X kesikli bir rasgele değişkendir ve p.d.f.si şöyle olsun:
Eğer Y = 4X – 7 ise, Y’nin varyansı nedir?
Var(Y) = 42Var(X) = 16( [X2] – [X]2)
Şimdi aşağıdakini hesaplayabiliriz.
de
[X]= (1/5)(-2 + 0 +1 + 3 + 4) = 6/5
m
ve
ee
Bundan ötürü,
Örnek 4. Varsayalım ki Y toplamı olarak yazılabilir
B(n, p). Y n sayıda bağımsız denemenin sonuçlarının
Var(Y) = Var(X1) + … + Var(Xn) O halde Xi’nin varyansı nedir? Açıkçası [Xi] = p’dir
.c
aynı zamanda,
rs no
tla
ri
Dolaysıyla, Özellik 3’e göre,
Bundan ötürü,
om
Şunu hesaplayabiliriz
de
Varyans bir beklenen değer olduğu için, rasgele değişkenin fonksiyonunun beklenen değerini doğrudan rasgele değişkenin fonksiyonunun varyansına uygulayabiliriz: eğer Y = r(X) ise,
2.1 Daha Yüksek Dereceli Momentler
m
Beklenen değerin ilgili dağılımın konumunun ölçüsü olduğunu görmüştük, ama öte yandan varyans yayılmayı ölçer. Dağılımı karakterize etmek için rasgele değişkenin diğer momentlerine bakabiliriz, örneğin simetrik mi? Kalın kuyruklu mu? vs.
ee
Tanım 3. X’in r’nci momenti aşağıdaki ile verilir,
ve r’nci merkezi momenti şöyle tanımlanır:
Beklenen değer, dolaysıyla, X dağılımının birinci momenti, varyans ise ikinci merkezi momenti olarak da ifade edilir.
Bir dağılımın sık sık kullanılan diğer özelikleri şunlardır:
om
bu dağılımın çarpıklığı olarak adlandırılır, ve aşağıdaki de X’in basıklığıdır.
ee
m
de
rs no
tla
ri
.c
Yüksek basıklık olasılık yığılmasının kuyruklarda yoğunlaştığını ifade eder.
Olasılık ve İstatistik Ders Notları 13
om
Konrad Menzel
.c
31 Mart 2009
ri
1. Kovaryans
X ile Y’nin kovaryansı iki rasgele değiĢken arasındaki iliĢkinin gücünün ölçüsüdür.
tla
Tanım 1. İki rasgele değişken X ve Y için, kovaryans şöyle tanımlanır:
de rs no
Ġlk olarak, sadece tanımı uygulayarak aĢağıdakileri elde ederiz. Özelik 1.
Cov(X, X) = Var(X)
Özelik 2.
Cov(X, Y) = Cov(Y, X)
Dahası, elimizde kovaryans hesaplamasında çok yararlı olan aĢağıdaki sonuç var.
m
Özelik 3.
Bu, varyansın benzer özeliğinin genelleĢtirilmiĢidir ve ispatı da aynı tür argümanları kullanır. Bir örnek ile bu sonucun nasıl yararlı olduğunu görelim:
ee
Örnek 1. Varsayalım ki X ile Y’nin bileşik p.d.f.’si aşağıdaki gibidir.
ri
.c
om
Kovaryans Cov(X, Y) nedir? – Özelik 7’deki denklemin sağ tarafına göre dahil olan bileşenleri hesaplayalım:
de rs no
tla
Aynı şekilde, yukarıdaki adımları takip ederek şunları elde ederiz:
ve
m
Bütün parçaları biraya getirerek ve özelik 7’yi uygulayarak şu sonuca varırız:
ee
Ġki bağımsız rasgele değiĢken X ve Y için toplamların varyansının varyansların toplamına eĢit olduğunu daha önce göstermiĢtik. ġimdi ise bağımsız olması gerekli olmayan rasgele değiĢkenlerin genelleĢtirilmesini görelim: Özelik 4. Var (X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)
om
Ġspatın arkasındaki düĢünce, özelik 3 ve 7’yi uygulayarak aĢağıdakini elde etmektir.
.c
Özelik 5. X, Y, Z rasgele değişkenler için,
ri
Özelik 6.
de rs no
tla
Son özeliğe göre, kovaryans X ile Y’nin ölçeğine göre değiĢtiği için, X ile Y arasındaki iliĢkinin gücünü veren, iki değiĢkenin diyelim ki ölçüm birimindeki değiĢiminden etkilenmeyen, standart bir ölçüye sahip olmak istiyoruz. Çok sıklıkla kullanılan o ölçü korelasyon katsayısıdır. Tanım 2. X ve Y’nin korelasyon katsayısı şöyle hesaplanır:
Korelasyon katsayısı bir Ģekilde normalleĢir (bkz. Özelik 7). Özelik 7.
Genel konuĢmak gerekirse, üç durumu ayırt ederiz.
ee
m
ϱ(X, Y) > 0: “X ile Y arasında pozitif korelasyon vardır” ϱ(X, Y) = 0: “X ile Y arasında korelasyon yoktur” ϱ(X, Y) < 0: “X ile Y arasında negatif korelasyon vardır”
Özelik 8. Bazı a
0 ve b sabitleri için
Yani, eğer iki rasgele değiĢken arasında deterministtik doğrusal bir iliĢki varsa, korelasyon katsayısının mutlak değeri 1’e eĢittir. O durumda X ile Y arasında mükemmel korelasyon olduğunu söyleriz.
.c
om
Açıklama 1. Veri analizinin çok önemli bir ilkesi, iki rasgele değişken arasındaki istatiksel ilişkinin mekanik veya nedensel ifadelere dayanmamasıdır ki, biz bunun gerçekte veriye dayalı olmasını arzularız. Örneğin, insanların jimnastik salonlarında spor yaparak harcadıkları zaman ile sağlıkları arasında pozitif bir korelasyon olduğunu veri setleriyle gözlemleriz, ancak bu sporun sağlık durumunu iyileştirdiği anlamına gelmez. Diğer taraftan sağlık durumları çok kötü olan ve spor salonlarına gitmeyi akıllarına bile getirmeyen kimi insanlarda vardır.
tla
ri
Neden X ile Y’nin korelasyonun X’in Y’nin nedeni olmasından tamamen farklı kavramlar olduğunu görmenin daha soyut bir yolu, X ile Y’nin kovaryansının simetrik olduğuna, böylece değişkenlerin rollerini değiştirebileceğimize dikkat etmektir. Ancak nedensellik için, ilişkinin spesifik bir yönünü düşünürüz, yani X Y veya “X Y’nin nedenidir/etkileyendir”, ancak aynı zamanda “Y X’in nedeni/etkileyeni değildir” deriz, böylece X ile Y’nin rollerini değiştiremeyiz. Bunda ötürü, KORELASYON NEDENSELLĠĞE EġĠT DEĞĠLDĠR
de rs no
Ekonometri derslerinde bunun (çok) daha fazlası vardır.
1.1.Önizleme: Regresyon
Diyelim ki, bir iĢçinin geliri Y ile onun okullaĢma yılı X ile ölçülen eğitimi arasındaki iliĢkiyle ilgileniyoruz (kolaylık açısından her ikisinin de sürekli olduğunu varsayalım). Bu durumda her zaman X ile Y arasındaki iliĢkiyi Ģöyle yazabiliriz: Y = +X + U
m
Burada U E|U| = 0 ve Cov(X, U) = 0 özeliklerine sahip rasgele bir değiĢkendir(regresyon kapsamında bu hata terimi olarak adlandırılacaktır).
ee
(, ) parametrelerini belirlemenin bir yolu aĢağıdakini çözmektir.
’ya göre birinci-derece koĢulunu belirleyince (türevini almak) (dikkat: beklenen değerler doğrusaldır, bu nedenle türevi integral aracılığıyla alabiliriz) aĢağıdakini elde ederiz:
om .c
tla
ri
Aynı Ģekilde, ’ya göre birinci-derece koĢulu Ģöyledir:
de rs no
Son ifadeyi için çözünce aĢağıdaki Ģu edilir:
Bunu b için elde edilen birinci derece koĢulda yerine koyunca,
elde ederiz, böylece artık parametre için çözümü yapabiliriz:
m
ġimdi Ģunları doğrulayabiliriz:
ee
ve
(doğurusu, ilki doğrudan ’nın birinci derece koĢulundan, ikincisi ise β’nın birinci derece koĢulundan elde edilir). O zaman, “tahmin edilen regresyon” +X X ile iliĢkili (X tarafından açıklanan) Y’nin parçasıdır ve U ise Y’nin X ile iliĢkili olmayan parçasıdır. ve parametreleri genellikle
regresyon parametreleri veya en küçük kareler katsayıları olarak adlandırılır. Doğrusal regresyon ekonometrinin “temel taĢı”dır ve bunu 14.32 ve diğer ekonometri derslerinde çok değiĢik varyasyonlarda göreceksiniz.
om
2. Koşullu Beklenen Değerler
.c
Örnek 2. Her sene, bir firmanın AR-GE bölümü rasgele bir süreç sonucunda X kadar buluş üretmektedir, burada E|X| = 2 ve Var(X) = 2’dir. Her buluş p = 0.2 olasılıkla ticari bir başarı gösterecektir (bağımsızlık varsayalım). Bir yıl içerisindeki ticari başarı sayısını S ile gösterelim. Bir yıl içerisinde X = x buluş sayısına koşullanmış S’nin ortalamasının S B(x, p) = xp olduğunu bildiğimiz için, buluşların ortalama olarak xp kadarının başarılı olması gerekir.
de rs no
Tanım 3.
tla
ri
Y veriyken X’in koşullu beklenen değeri koşullu p.d.f’den elde edilen X’in beklenen değeridir:
fY|X(y|X) rasgele değişken X’i kendi argümanı olarak taĢıdığı için, koĢullu beklenen değerin de aynı zamanda rasgele bir değiĢken olduğunu not ediniz. Ancak, X’in belli bir değeri veriyken, Y’nin koĢullu beklenen değerini de tanımayabiliriz
burada koĢullu yoğunluk tanımlandığı sürece bu herhangi bir verili x değeri için sadece bir sayıdır.
m
Hesaplamalar tam olarak önceki gibi yapıldığı için (tek fark Ģimdi koşullu dağılım üzerinden integral alıyoruz), sayısal bir örnek yapmayacağız (problem seti için sadece tanımı uygulayınız). Bunun yerine, koĢullu ve koĢulsuz örnekler arasındaki farkı göstermek için daha kalitatif örnekleri tartıĢalım.
ee
Örnek 3 (“Limon” Piyasası). Aşağıdaki ekonomist George Akerlof’un meşhur kullanılmış araba piyasası modelinin basitleştirilmiş bir versiyonudur. Varsayalım ki üç tür X kullanılmış araba vardır: mükemmel durumdaki arabalar (karpuzlar), orta kalite arabalar (istatistiksel manada kesinlik ifade eden “ortalama” değil), ve çok kötü durumdaki arabalar (limonlar). Her tür araba eşit frekansa sahiptir, yani P(“limon”) = P(“orta”) = P(“karpuz”) = 1/3
Satıcı ve bir alıcı her bir araba türü için, sırasıyla YS ve YB, kadar aşağıda verilen değerleri biçiyorlar: Satıcı 5000 6000 10000
Alıcı 6000 10000 11000
om
Tür Limon Orta Karpuz
de rs no
tla
ri
.c
İlk dikkat edilmesi gereken şey, her araba çeşidi için, alıcının biçtiği değerin satıcının biçtiğinden daha yüksek olduğudur, dolayısıyla her bir tür araba için, alış veriş alıcı ile satıcının biçtiği değerin arasındaki bir fiyattan gerçekleşmeli. Ancak, kullanılmış arabalar da, kalite ilk anda görülen şey değildir. Bu nedenle, eğer ne alıcı ne de satıcı söz konusu arabanın türü X’i bilmiyorsa, onların beklenen değeri yinelenen beklentiler kanununa göre aşağıdaki gibidir:
Dolayısıyla alış verişin gerçekleşmesi gerekir.
Daha gerçekçi bir düzenlemede, arabanın satıcısı arabanın kalitesini alıcıdan daha iyi bilir (tamirat geçmişini, kazalarını vs.) ve arabayı satmaya arzulayacağı fiyat belirler. Eğer satıcı üç araba türünü de mükemmel bir şekilde ayırt edebilirse, ki alıcı bunu yapamaz, alıcının satıcının belirtilen fiyattan arabayı satma arzusuna koşullanmış beklentiler oluşturması gerekir.
m
Eğer satıcı 6000 dolardan daha düşük bir fiyat belirtirse, alıcı kesin olarak arabanın “limon” olduğunu bilirdi, çünkü diğer durumlarda satıcı en az 6000 dolar talep ederdi, yani
ee
ve alış veriş gerçekleşirdi. Ancak, eğer araba “karpuz” ise, satıcı en az 10000 dolar talep ederdi, hâlbuki alıcı en fazla
kadar ödeyecekti, bu nedenle de satıcı yüksek kalite bir arabayı makul bir fiyata satamayacaktı.
om
Piyasanın “karpuz” için çalışmamasının(break down) nedeni bu modelde satıcının alıcıya arabanın kalitesinin düşük olmadığı konusunda kabul edilebilir bir garanti verememesidir, bu nedenle alıcı alış verişinde kötü bir araba alma ihtimalini hesaba katar.
.c
KoĢulu ve koĢulsuz beklenen değerler arasındaki önemli bir iliĢki Yinelenen Beklentiler Kanunudur (daha önce gördüğümüz Toplam Olasılık Kanunu’na çok benzer):
ri
Önerme 1 (Yinelenen Beklentiler Kanunu).
ee
m
de rs no
tla
ĠSPAT: g(x) = [Y|X = x] olsun. g(x) x’in bir fonksiyonudur. Beklenen değeri Ģimdi hesaplayabiliriz:
Olasılık ve İstatistik Ders Notları 14
om
Konrad Menzel 2 Nisan 2009
.c
1. Koşullu Beklenen Değerler
tla
ri
Örnek 1. Her sene, bir firmanın AR-GE bölümü rasgele bir süreç sonucunda X kadar buluş üretmektedir, burada E|X| = 2 ve Var(X) = 2’dir. Her buluş p = 0.2 olasılıkla ticari bir başarı gösterecektir (bağımsızlık varsayalım). Bir yıl içerisindeki ticari başarı sayısını S ile gösterelim. Bir yıl içerisinde X = x buluş sayısına koşullanmış S’nin ortalamasının S B(x, p) = xp olduğunu bildiğimiz için, buluşların ortalama olarak xp kadarının başarılı olması gerekir.
de rs no
Y veriyken X’in koşullu beklenen değeri koşullu p.d.f’den elde edilen X’in beklenen değeridir: Tanım 1.
m
fY|X(y|X) rasgele değişken X’i kendi argümanı olarak taşıdığı için, koşullu beklenen değerin de aynı zamanda rasgele bir değişken olduğunu not ediniz. Ancak, X’in belli bir değeri veriyken, Y’nin koşullu beklenen değerini de tanımayabiliriz
ee
burada koşullu yoğunluk tanımlandığı sürece bu herhangi bir verili x değeri için sadece bir sayıdır. Hesaplamalar tam olarak önceki gibi yapıldığı için (tek fark şimdi koşullu dağılım üzerinden integral alıyoruz), sayısal bir örnek yapmayacağız (problem seti için sadece tanımı uygulayınız). Bunun yerine, koşullu ve koşulsuz örnekler arasındaki farkı göstermek için daha kalitatif örnekleri tartışalım.
P(“limon”) = P(“orta”) = P(“karpuz”) = 1/3
om
Örnek 2 (“Limon” Piyasası). Aşağıdaki ekonomist George Akerlof’un meşhur kullanılmış araba piyasası modelinin basitleştirilmiş bir versiyonudur. Varsayalım ki üç tür X kullanılmış araba vardır: mükemmel durumdaki arabalar (karpuzlar), orta kalite arabalar (istatistiksel manada kesinlik ifade eden “ortalama” değil), ve çok kötü durumdaki arabalar (limonlar). Her tür araba eşit frekansa sahiptir, yani
Alıcı 6000 10000 11000
ri
Satıcı 5000 6000 10000
tla
Tür Limon Orta Karpuz
.c
Satıcı ve bir alıcı her bir araba türü için, sırasıyla Y S ve YB, kadar aşağıda verilen değerleri biçiyorlar:
de rs no
İlk dikkat edilmesi gereken şey, her araba çeşidi için, alıcının biçtiği değerin satıcının biçtiğinden daha yüksek olduğudur, dolayısıyla her bir tür araba için, alış veriş alıcı ile satıcının biçtiği değerin arasındaki bir fiyattan gerçekleşmeli. Ancak, kullanılmış arabalar da, kalite ilk anda görülen şey değildir. Bu nedenle, eğer ne alıcı ne de satıcı söz konusu arabanın türü X’i bilmiyorsa, onların beklenen değeri yinelenen beklentiler kanununa göre aşağıdaki gibidir:
Dolayısıyla alış verişin gerçekleşmesi gerekir.
m
Daha gerçekçi bir düzenlemede, arabanın satıcısı arabanın kalitesini alıcıdan daha iyi bilir (tamirat geçmişini, kazalarını vs.) ve arabayı satmaya arzulayacağı fiyat belirler. Eğer satıcı üç araba türünü de mükemmel bir şekilde ayırt edebilirse, ki alıcı bunu yapamaz, alıcının satıcının belirtilen fiyattan arabayı satma arzusuna koşullanmış beklentiler oluşturması gerekir.
ee
Eğer satıcı 6000 dolardan daha düşük bir fiyat belirtirse, alıcı kesin olarak arabanın “limon” olduğunu bilirdi, çünkü diğer durumlarda satıcı en az 6000 dolar talep ederdi, yani
om
ve alış veriş gerçekleşirdi. Ancak, eğer araba “karpuz” ise, satıcı en az 10000 dolar talep ederdi, hâlbuki alıcı en fazla
kadar ödeyecekti, bu nedenle de satıcı yüksek kalite bir arabayı makul bir fiyata satamayacaktı.
.c
Piyasanın “karpuz” için çalışmamasının(break down) nedeni bu modelde satıcının alıcıya arabanın kalitesinin düşük olmadığı konusunda kabul edilebilir bir garanti verememesidir, bu nedenle alıcı alış verişinde kötü bir araba alma ihtimalini hesaba katar.
tla
ri
Örnek 3. Bu örnekte, insanların gelecekteki politik olaylar üzerine bahse girdiği bir internet platformu olan IEM Political Markets’ın 2008 başkanlık adayları ile ilgili verisine bakacağız(veri için bkz.:http://www.biz.uiowa.edu/iem/markets/data_nomination08.html) Piyasa şöyle çalışıyor: Her bir politik aday i için, katılımcılar aşağıdaki getiriyi veren kontratlar satın alıyorlar
de rs no
Yi = {
Verili bir t zamanda, piyasadaki katılımcılar Xt olarak adlandıracağımız dışarıdan gelen ilave bilgiye sahip olurlar, örneğin o ana kadar kazanılan delege sayısı, adayın propagandasının “momentumu”, ya da adayın propaganda stratejisi hakkında görevlilerin demeçleri gibi. Söz konusu ilave bilgi verilmişken, kontratın beklenen değeri
ee
m
Diğer bir ifadeyle, katılımcıların aday i’nin kontratı için ödemeyi arzuladıkları dolar miktarı t zamanda verili bilgiye göre i ’nin kendi parti adaylığını kazanma olasılığına eşittir. Son üç aydaki Demokrat Parti’nin ana adaylarının kontratlarının fiyatlarına bakalım: Demokratik adayların kazanma ihtimali hakkında önemli bilgileri ortaya çıkaran 3 olay için üç dik doğru çizdim:
om .c ri Barrack Obama’nın Hillary Clinton’a karşı ezici bir farkla kazandığı Iowa parti kongresi, Iowa’daki yenilgiden sonra Hillary Clinton’un geri dönüşü olarak görülen New Hampshire ön seçimi, Ohio ve Taksas’ın ön seçimleri; bu iki önemli eyaletin ön seçimlerini Hillary Clinton kazandı
de rs no
tla
Bu olayların her birisinden sonra koşullu beklenen değerlerde çok önemli değişiklikler olduğunu görebiliriz. Bu, adayların partilerinin adaylığını sağlama alma şansı hakkında piyasanın “inançlarının” nasıl değiştiğini göstermektedir. Finansal Ekonomi’de, özel bir durumun gerçekleşmesi halinde 1 dolar ödeyen bu tür kontratlara Arrow-Debrue menkul kıymeti de denir.
m
Koşullu ve koşulsuz beklenen değerler arasındaki önemli bir ilişki Yinelenen Beklentiler Kanunu’dur(bu daha önce bu derste gördüğümüz Toplam Olasılık Kanunun yakındır).
ee
Önerme 1 (Yinelenen Beklentiler Kanunu).
İSPAT: g(x) = [Y|X = x] olsun. g(x) x’in bir fonksiyonudur. Beklenen değeri şimdi hesaplayabiliriz:
om .c ri
tla
Önerme 2 (Koşullu Varyans / Toplam Varyans Kanunu).
de rs no
Bu sonuç aynı zamanda ANOVA eşitliği olarak bilinir. Burada ANOVA Varyans Analizi’dir. Özelikle, Var(Y|X) 0 olduğu için, aşağıdakine ulaşılır
Bu, kabaca söylemek gerekirse, “X’i bilmek Y’nin varyansını düşürür” şeklinde okunabilir. İSPAT:
ee
m
burada birinci eşitlik VarX = özelliğini kullanır, ikinci adım yinelenen beklentiler kanununu kullanır, ve son adımda birinci ve ikinci terimler birbirini götürünce ispat tamamlanır. Örnek 4. Her sene, bir firmanın AR-GE bölümü rasgele bir süreç sonucunda X kadar buluş üretmektedir, burada = 2 ve Var(X) = 2’dir. Her buluş p = 0.2 olasılıkla ticari bir başarıdır (bağımsızlık varsayalım). Bir yıl içerisindeki ticari başarı sayısını S ile gösterelim.
om
(a) Varsayalım ki bu sene 5 yeni buluşumuz var. Onlardan S tanesinin ticari başarı gösterme olasılığı nedir? X = 5 veri iken, S’nin koşullu p.d.f.si bir binomdur, bu nedenle, örneğin,
B(5,0.2) olduğu
.c
(b) 5 buluş veri iken, beklenen başarı sayısı nedir? S|X = 5 için, son dersteki sonuçları kullanabiliriz,
burada E[X] = 2 varsayıyoruz.
tla
ri
(c) Buluşların koşulsuz beklenen değeri nedir? Yinelenen beklentiler kanunu ile şunu buluruz,
de rs no
(d) S’in koşulsuz varyansı nedir? Toplam varyans kanunu hatırlayınız,
Bu binomların karışımının bir örneğidir, yani X’e koşullanmış S için binom dağılımımız var. O zaman yinelenen beklentiler kanununu kullanarak başarıların toplam sayısını elde edebiliriz.
m
Örnek 5. (IEM Politik Piyasa, devam) Cumhuriyetçilerin geçen seneki ön seçimlerine bakacak olursak, belirsizliklerin çoğunun Süper Salı’da çözüldüğünü görebiliriz. Diyelim ki, koşul değişkeni Xt t tarihindeki yeminli delegasyonun sayısı olsun. Toplam varyans kanunu ışığında Iowa önseçimlerinden önceki “koşulsuz” ortalamalar ile Süper Salı’dan sonraki “koşullu” ortalamaları karşılaştırabiliriz.
ee
Iowa seçimlerinde önce, ana adaylarin ’si büyük dalgalanmalar ile %10 ile %40 gibi orta düzey bir aralıkta yer alıyorlardı. Ancak, Süper Salı’dan sonra, fiyatlar (yani ) 0 veya 1’e yaklaştı, ve “oynamalar” çok ufak olmaya başladı. Bu nedenle, koşullu varyans formülüne göre, Süper Salı’dan sonra koşullu ortalama hakkındaki belirsizlik, Var( ), gelişmelerden sonraki varyansın, Var(Yi), en büyük bölümünü oluşturuyordu, hâlbuki koşullu varyansın, Var( ) , katkısı nispeten daha düşük görünüyordu.
de rs no
tla
ri
.c
om
Eğer bunu Demokratların yarışının grafiğiyle karşılaştırırsak, Süper Salı’dan sonra demokratlar için hala büyük hareketlenme olduğu görülebilir, bu nedenle Süper Salıdan ötürü yeminli delege sayısının üzerine koşul koymak varyansın önemli bir bölümünü yok etmemektedir, yani varyans, Var( ), hala çok yüksektir. Diğer taraftan, Cumhuriyetçilerin yarışının çok çabuk bitmesinin sıkça belirtilen nedeni, her bir eyalette, Cumhuriyetçilerin ön seçimlerinde delege sayısının adayların oy oranına göre değil (bu Demokratların çoğu önseçiminde bir kuraldır) kazanan hepsini alır kuralına göre belirlendiği içindir. Bu nedenle, en ufak bir oy farkında bile kazanan aday diğer adaylara fark atabilir ve rakiplerin arayı kapatması oldukça zorlaşır.
2. Özel Dağılımlar
m
Bu derste, şimdiye kadar yaygın olarak kullanılan üç dağılım gördük, binom, uniform ve üstel. Bundan sonraki iki derste, bu listeyi birkaç önemli örnek ile genişleteceğiz ve onların en sık kullanılanı ile başlayacağız, yani normal dağılımla.
2.1 Hatırlatma: Derste şimdiye kadar gördüğümüz dağılımlar
ee
Tanım 2. Eğer p.d.f.si aşağıdaki gibiyse, X değişkeni, X parametreleriyle bir binom dağılımdır:
B(n, p), (n, p)
om
B(n, p) için daha önce aşağıdaki ilişkileri göstermiştik.
.c
X
tla
ri
Tanım 3. Eğer p.d.f.si aşağıdaki gibiyse, X değişkeni [a, b] aralığında bir uniform dağılımdır, X U[a, b]:
de rs no
Tanım 4. Eğer p.d.f.si aşağıdaki gibiyse, X değişkeni parametresiyle bir üstel dağılımdır:
2.2 Standartlaştırılmış Rasgele Değişken Bazen, rasgele değişken X’in standardizasyonu olan aşağıdaki Z’ye bakmakta fayda vardır.
ee
m
Son birkaç derste türetilen beklenen değer ve varyans kurallarını kullanarak aşağıdakileri elde ederiz:
ve
om
Eğer rasgele değişkenleri bu şekilde normalize edersek, ölçek ve konumdan bağımsız olarak farklı dağılımların şeklini karşılaştırmak daha kolay olur.
2.3 Normal Dağılım
.c
Normal dağılım sürekli rasgele değişken ile ilintilidir. Çok sayıda ki istatistiki deneyin sonuçlarının en iyi tahminini verdiği ortaya çıkmıştır (biraz sonra bunun için bir örnek göreceğiz, daha fazlasını Merkezi Limit Teoremini işledikten sonra göreceğiz).
de rs no
C.d.f.si ise şöyle gösterilir:
tla
ri
Tanım 5. Eğer herhangi bir z için p.d.f. aşağıdaki gibiyse, rasgele bir Z değişkeni normal dağılımlıdır – sembolik olarak Z N(0, 1),
ee
m
Bir standart normal rasgele değişkenin c.d.f.si kapalı-form ifadeye sahip değildir(fakat tablo değerlerine ya da istatistiksel yazılım paketlerine bakılabilir). P.d.f φ(z) çan eğrisi ve sıfır etrafında simetrik özeliklere sahiptir:
2.3.1. Standart Normal Dağılımın Önemli Özelikleri
om
Özelik 1. Bir standart normal rasgele değişken Z için
ve
ri
.c
Normal dağılımın neden yararlı olduğuna dair vurgulanması gereken ilk önemli nokta, çok sayıda n deneme için Binom rasgele değişkenlerin normal dağılım ile tahmin edilebildiğinin ortaya çıkmasıdır.
tla
Teorem 1 (DeMoivre-Laplace Teoremi). Eğer X B(n, p) bir binom rasgele değişken ise, o zaman c d gibi herhangi bir sayı için şu ifade yazılabilir,
de rs no
Binom değişkenin aşağıdaki ifadeye dönüştürüldüğüne dikkat ediniz.
Bu ifade gerçekte standardizasyondur. Bu sonuçlar, çok sayıda n için standardize edilmiş binom rasgele değişken X’in (c, d| aralığına düşme olasılığının aşağı yukarı normal değişkenin aynısı olduğunu ifade etmektedir. Örnek olsun diye sadece yükselen n değerleri için binom p.d.f.’leri grafik üzerinde gösterdim ve daha sonra normalizasyon uyguladım.
ee
m
n = 50 için, bar grafiğinin şekli nispeten normal yoğunluğun çan eğrisine benzemektedir. Özelikle dikkat edilecek olursa, az sayıdaki n için dağılımın çarpıklığı nerdeyse tamamen yok olmuştur (“başarı”nın düşük olasılığından ötürü, p = 1/4).
om .c
ri
Şekil 1. DeMoivre-Laplace Teoreminin Gösterimi
de rs no
tla
Örnek 6. Uygulama açısından bu tür tahminlerin neden gerçekten yararlı olduğunu görmek için ardışık n denemenin olasılığını hesaplamak istiyoruz. Diyelim ki p = 1/5’dir bu durumda en az %25’lik başarı vardır.
Eğer n = 5 ise, 25%’ten daha fazla başarıya sahip olmama olasılığı aşağıdaki gibi hesaplanır:
̂ B(100, 1/5) ise, yani n’i 100’e yükseltirsek ne olur? Prensipte, Peki, eğer aşağıdakini hesaplayabiliriz:
ee
m
Böylece, her birinin toplamını ayrı ayrı hesaplayabiliriz. Ancak onlardan çok fazla olduğu için, bu çok ağır bir yük getirecektir. Diğer bir seçenek olarak, DeMoivre-Laplace Teoremini kullanarak iyi bir tahminde bulunabilirdik. Standardize edilmiş ̂ şöyledir:
Bu nedenle,
N(0, 1) için, ayrıca herhangi bir rasgele değişkeni elde edebiliriz.
.c
Z
om
Bu tahmin ne kadar iyidir? Hesaplamaları yaptım ve P( ̃ 25) %91.25 elde ettim. Eğer aynı örneği n = 200 için tekrarlarsak, “tam olarak” P( ̃ 50) %96.55 binom olasılığını ve P( ̃ 50) %96.15 normal tahminini elde ettim.
ri
Bu normal bir rasgele değişkendir, ortalaması ve varyansı 2’dir. Sembolik olarak
de rs no
tla
X’in p.d.f.si nedir? Daha önce derste gördüğümüz değişken değiştirme formülünü kullanabiliriz:
Bir normal rasgele değişkenin doğrusal dönüşümünün yine normal bir X1 değişkeni olduğunu göz önünde bulundurarak tartışmayı daha ileri bir aşamaya taşıyabiliriz. Önerme 3. Eğer X1
N(µ, σ2) ve X2 = a + bX1 ise, o zaman
Bu sonucu yine değişken değiştirme formülünü kullanarak kontrol edebilirsiniz.
m
N sayıdaki X1, ..., Xn değişkenin toplamının beklenen değerinin, beklenen değerlerinin toplamı olduğunu ve n bağımsız ve rasgele değişkenin varyansının da varyanslarının toplamı olduğunu görmüştük. Eğer Xi’ler aynı zamanda normal ise, toplamları da normaldir:
ee
Önerme 4. Eğer X1, ..., Xn bağımsız normal rasgele değişkenler ve Xi zaman,
N(µi, σi2) ise, o
de rs no
tla
ri
.c
om
Genel olarak, birkaç hafta önce gördüğümüz bükülme formülünü kullanmak zorunda olabilirdik, ancak normallerin toplamı için, sadece toplamın beklenen değerini ve varyansını hesaplamamız yeterlidir. Bu durumda p.d.f.leri hemen bulabiliriz:
Şekil 2. ’in Farklı Değerleri için Normal Yoğunluk
2.3.2. Standart Normal’in Tablo Değerlerini Kullanma Eğer X N(µ, σ) ise, X’in kendi ortalamasından bir veya iki standart sapmadan daha daha uzakta olmama olasılığının kabaca bir tahminini verebiliriz:
ee
m
Yani dağılım yığınının çoğu ortalamadan itibaren bir veya iki standart sapma aralığının içindedir. Eğer elinizin altında c.d.f. tablosu yoksa normal olasılığın kabaca bir tahmini elde etmek için bu üç nicel değeri hatırlamakta fayda vardır.
om .c ri tla
de rs no
Kaynak: MIT OpenCourseWare
Standart normal dağılım yaygın olarak kullanıldığı için, değerlerini herhangi bir istatistik kitabında bulabilirsiniz.
(z)’in c.d.f.sinin tablolaştırılmış
Çoğunlukla söz konusu tablolar sadece z 0 değerlerini içerirler, fakat dağılımın simetrisini kullanarak c.d.f.nin ̃ > 0 değerlerini elde edebilirsiniz.
ee
m
Örneğin, eğer P(Z 1.95)’i bilmek istiyorsak, P(Z 1- P(Z -1.95) = 0.9744’ü hesaplayabiliriz.
-1.95)’i arayabilir ve P(Z
1.95) =
om .c ri
tla
Kaynak: MIT OpenCourseWare
Genel olarak, eğer X N(µ, σ) ise, a adımları takip ederek elde edebiliriz:
b için P(a
X
b) türü olasılıkları aşağıdaki
de rs no
1. değişkeni standardize et, yani bir standart normal rasgele Z değişkeni için olayı aşağıdaki gibi tekrar yaz:
2. standart normal c.d.f.,
(.), cinsinden olasılığı yeniden ifade et:
m
3. olasılığı elde etmek için yukarıda hesaplanan değerlerin standart normal c.d.f.si için tablodan değerleri bul.
ee
2.4 Bir Parantez Açmak: Standart Normal Rasgele Değişkenin Çizimi
Integral dönüştürme kullanarak uniform rasgele çekilişleri diğer herhangi bir sürekli dağılıma dönüştürmenin mümkün olduğunu daha önce görmüştük(rasgele değişkenlerin dönüştürülmesi üzerine olan ders notlarına bakınız). Eğer bir bilgisayarınız yoksa ne
yaparsınız? 1900’lü yıllarda, ünlü istatistikçi Francis Galton zar kullanarak normal rasgele bir değişkeni taklit eden akılı bir alet yaptı1.
om
Şekil 3’te görülen üç farklı zar peşi sıra atılmıştır. Bu yapılırken, deneyi yapan kişi tesadüfi çekilişlerin listesini tabloya aşağıdaki gibi aktarır: Birinci zar gerçek değeri verir(her zaman size doğru olan yüzeyin altındaki rakam okursunuz). İlk zamanda yıldızlar boş bırakılırken, fakat daha sonra ikinci zarın atılışıyla doldurulurlar. En sonunda, üçüncü zar ilk iki zar ile oluşturduğunuz çekilişlerin önüne konulacak artı ve eksilerin sırasını verir.
ri
.c
Sonucun gerçekten de standart normal rasgele değişkene benzemesi için zar üzerindeki rakamlar özelikle normal dağılımın pozitif yarısının eşit aralıklı yüzdeleri olarak seçildi.
tla
2.5 Standart Normallerin Fonksiyonları: Ki-kare, t- ve Fdağılımları
de rs no
Tahmin ve test etmek için standart normal dağılımın öneminden ötürü, standart normal rasgele değişkenlerin bazı fonksiyonları da önemli rol oynarlar ve sık sık istatistik testlerde tablo haline getirilirler. Bütünlük açısından şimdilik sadece tanımları vereceğiz, fakat, dersin sonlarına doğru (son üçte birinde) tekrar uygulamalara döneceğiz. İlgili p.d.f.leri vermeyeceğim çünkü onların kullanımı pratik değildir. ’in k Tanım 6. Eğer Z1, Z2, …, Zk bağımsız ve dağılımı Zi N(0,1) ise, Y = ∑ serbestlik derecesiyle ki-kare dağılımlı olduğu söylenir. Semboller ile ifade edecek olursak,
ee
m
Burada “serbestlik derecesi” karesi alınmış ve toplanmış bağımsız çekilişlerin sayısını ifade etmektedir. Ki-karenin beklenen değeri serbestlik derecesi ile verilir,
Tanım 7. Eğer X
1
N(0,1) ve Y
bkz. Stigler, S. (2002): Statistics on the Table
ise, o zaman
om
ilişkisinin k serbestlik derecesiyle (öğrenci) t-dağılımı olduğu ifade edilir.
Serbestlik derecesi k’nin büyük değerleri için, t- dağılımı standart normal dağılımı ile çok doğru bir şekilde tahmin edilir. ve Y2
ise, o zaman
ri
.c
Tanım 8. Eğer Y1
ee
m
de rs no
tla
ilişkisinin (k1, k2) serbestlik derecesiyle F- dağılımlı olduğu ifade edilir.
om .c ri tla de rs no
ee
m
Şekil 3. Galton’nun Zarının Üç Çeşidi. Zarlar 1890’dan kalma 1.25 inçlik küptürler ve normal dağılımlı rasgele değişkeni taklit etmek için kullanılırlar. Stigler, S. (2002): Statistics on the Table: The History of Statistical Concepts and Methods’tan uyarlanmıştır.
om .c ri tla de rs no m
ee
Kaynak: MIT OpenCourseWare
om .c ri tla de rs no m
ee
Kaynak: MIT OpenCourseWare
Olasılık ve İstatistik Ders Notları 15
om
Konrad Menzel 7 Nisan 2009
.c
1. Özel Dağılımlar (devam)
ri
1.1 Poisson Dağılımı
tla
Bazen, belli bir olayın belirli bir aralıkta hangi sıklıkla meydan geldiğini bilmek isteyebiliriz.
ee
m
de rs no
Örnek 1. Hava yolu güvenliği söz konusu olunca, bir uçak modelinin ne kadar “güvenli” olduğu konusunda bir kanıya sahip olmak isteyebiliriz. Aşağıdaki veri www.airsafe.com veri sitesinden elde edildi ve toplam uçuş sayısı ile Aralık 2006’ya kadar belli bir uçak tipinin yer aldığı ölümcül kaza sayısını vermektedir.
Tablodan hemen görebileceğimiz gibi bazı uçak modelleri diğerlerine göre daha az kaza yapmış çünkü, basit bir ifadeyle, ya uzun süreli kullanılmamışlar ya da çok az
üretilmişler. Daha anlamlı bir karşılaştırma yapabilmek için, ölümcül kaza sayılarının dağılımlarını açıklamak için daha iyi bir yönteme ihtiyacımız var.
om
Bu türden tesadüfi değişkenler genellikle “sayılabilir veri” olarak bilinir ve bu veriyi açıklamak için sıklıkla kullanılan dağılım Poisson Dağılımıdır.
ri
X’in kesikli olduğuna özellikle dikkat ediniz.
.c
Tanım 1. Eğer X aşağıdaki gibi bir p.d.f.ye sahip ise, o zaman parametresiyle bir Poisson Dağılımı olduğu söylenir,
de rs no
tla
Özelik 1. Bir Poisson rasgele değişkeni X için aşağıdaki ilişkiler yazılabilir:
Sayılabilen bir değişkenin dağılımı için Poisson dağılımının neden uygun veya kabul edilebilir olduğunu görebilmek için aşağıdaki düşünsel deneyi yapalım: Varsayalım ki
bir olayın bir 1/n zaman aralığında gerçekleşme olasılığı pn= /n’dir zamanın herhangi bir anında gerçekleşen olayların zaman içerisinde bağımsız olduğunu da varsayıyoruz.
m
n’nin sonsuza doğru gitmesine izine vererek alt-aralıkların bölüntüsünün giderek küçülmesini sağlarız. Eğer daralan iki alt aralığın olasılığı sıfıra doğru giderse, ve ondan sonra olayın en az bir kere gerçekleştiği aralıkları sayarsak, toplam gerçekleşmelerin sayısını elde etmiş oluruz. Bunun p = /n ve n parametreli bir binom rasgele değişken olduğuna dikkat ediniz.
ee
Önerme 1. Xn B (n, /n) dağılımlı binom rasgele değişken için, n aşağıdakine yakınsar:
iken p.d.f.
om
İSPAT: çarpımın limitini limitlerin çarpımı olarak alabiliriz ve her birini ayrı ayrı değerlendirebiliriz: Kalkülus’te çok iyi bilinen bir sonuca göre (her iki tarafa Taylor serisi(açılımı) uygulanabilir) aşağıdaki ifadeyi yazılabilir,
tla
Ve bunun için de şunu gösterebiliriz.
ri
.c
Böylece, x ve sabit ve bu nedenle n ile karşılaştırınca küçüldüğünden, elimizde aşağıdaki ifade kalır,
de rs no
Bütün parçaları bir araya getirdiğimizde önermedeki ifadeyi elde ederiz. Örnek 2. Sayılabilir veri için en klasik örnek (en azından İstatistiğin tarihinde bir klasiktir) 19ncu yüzyılda at tepmesi sonucunda ölen Prusya süvarileridir. 1898’de Rus istatistikçi Ladislaus Bortkiewicz’in keşfettiği gibi, Poisson dağılımı Prusya ordusunda bir tümende bir yıl içerisinde at tepmesinden ölenlerin gözlemlenmiş frekansını şaşırtıcı bir şekilde çok iyi tahmin etmiştir. Gözlemlenmiş frekansları, en nihayetinde bilinmeyen 'ya bağlı olan Poisson dağılımının p.d.f.siyle nasıl karşılaştırabiliriz? Bu derste daha sonra tartışacağımız tahminin bir ön izlencesi olarak, ’nın kabul edilebilir bir değerİ, örneklemde gözlemlediğimiz at tepme ölümlerinin beklenen sayısının aynısını tahmin eden p.d.f.deki bir parametrenin değeri olabilir. O halde X P() için, [X] nedir?
m
Yukarıda tartıştığımız gibi, bir Poisson rasgele değişkeni Binom rasgele değişkenin, Xn B(n, /n), limitidir. Burada n deneme sayısı sonsuza gitmektedir. Daha önceki Binom dağılım ile ilgili tartışmalarımıza göre, n’den bağımsız olarak, [Xn] = n(/n) = ’dir.
ee
Böylece ∑
söyleyebiliriz.
sonsuz serilerini doğrudan kullanmadan,
[X] = olduğunu
om .c ri tla
de rs no
At tepme veri setinde, örneklem ortalaması (yıl ve tümen itibariyle) ̂ = 0.7’dir. Şimdi Şekil 2’de gösterildiği gibi örneklem frekansını = 0.7 parametre oranı için oluşturulan Poisson p.d.f.sinin teorik değerlerine karşı çizebiliriz. İki dağılım belirgin bir şekilde benzerdir ve bu durum sık sık “Küçük Sayılar Kanunu” olarak ifade edilir.
2. Asimptotik Teorisi
Şimdiye kadar, p.d.f.’yi, parametreleri (normal için ve 2, üstel için gibi) bildiğimizi (ya da bulabileceğimizi) varsaydık ve sonra o bilgiye dayanarak olasılıklar ile ilgili ifadeler geliştirdik.
ee
m
Dersin izleyen bölümünde, o bilgiye sahipmişiz gibi hareket etmeyeceğiz ama, olasılık üzerine olan bilgimizi kullanarak, söz konusu rasgele değişkenlerin dağılımı konusunda bize bir şeyler söyleyecek fonksiyonlar oluşturacağız. O fonksiyonlar tahmin ediciler olacaktır. İstatistikte önemli rol oynayan bir tahmin edici örneklem ortalamasıdır. Bu tahmin edici birazdan işleyeceğimiz gibi, rasgele bir değişkenin beklenen değerini tahmin eder.
Tanım 2. n büyüklüğündeki bir rasgele örneklem n sayıda i.i.d, olan, yani bütün X’ler bağımsız ve aynı fx(x) p.d.f.sine sahip, X1, …Xn rasgele değişkenler dizisidir.
Biz sık sık gerçekleşen rasgele değişkenleri rasgele örneklem olarak ta ifade ederiz.
om
Eğer n büyüklüğünde rasgele bir örneklemimiz varsa, örneklemin ortalamasının dağılımını doğru bir şekilde açıklamak için Xi’nin dağılımı konusunda çok şey bilmeye gerek duymayışımız (örneğin fx(x)’i bilmeye gerek duymamak gibi) bu dersin ana mesajı olacaktır. Buradaki ana fikir, örneklem büyüklüğü n’i artırarak “gerçeğe” giderek yaklaşıp p.d.f.’yi tahmin etmektir. Burada oluşan iki sonuç şudur:
tla
ri
.c
1. Büyük Sayılar Kanunu: Büyük n sayıları için, örneklemin ortalaması bütün olabilirliğiyle rasgele değişkenin beklenen değeri [X]’e “yaklaşacaktır”. 2. Merkezi Limit Teoremi: Standardize edilmiş örneklem ortalamasının (“standardize” son dersteki sıfır ortalama birim varyans manasında kullanılmaktadır) p.d.f.si standart normal rasgele değişkenin p.d.f.sine gayri ihtiyarı olarak yakın olacaktır.
Biçimsel olarak, asimptotik sonuçlar n iken neler olacağını ortaya koyar, ancak pratik uygulama açsısından (yani sonlu n için), o sonuçlar n’in yeterince büyük olması durumunda tahminlerin oldukça doğru olacağını da ima eder.
de rs no
2.1 Büyük Sayılar Kanunu 2.1.1 Chebyshev Eşitsizliği
Chebyshev Eşitsizliği bir rasgele değişkenin beklenen değerden “çok uzakta” bir yerde gerçekleşme olasılığının sınırlarını belirten biçimsel bir sonuçtur. olan rasgele bir değişken olsun. O zaman herhangi
m
Önerme 2. X varyansı Var(X) < bir > 0 için,
ee
İSPAT: X’in p.d.f.si fX(x) ile verilmiş olsun. Bu durumda aşağıdaki ilişkiyi göstereceğiz
Varyansın tanımını kullanarak şu ilişkiyi buluruz:
om [X] – veya t
[X]
.c
Üç integralin her birisi pozitiftir ve buna ilaveten, herhangi bir t + için
tla
ri
Dolayısıyla, ilk integrali atabiliriz ve şu sonucuna ulaşabiliriz.
de rs no
Bu durumda her tarafı 2 ’e bölerek sonucu elde ederiz.
ee
m
Bu derste rasgele bir değişkenin varyansının değişkenin “yayılma”sının ölçüsü olduğunu daha önce bir ara söylediğimizi hatırlayınız. Chebyshev Eşitsizliği varyansı rasgele değişken X’in “ekstrem” gerçekleşmelerini gözlemenin (yani ortalamadan çok uzakta olan değerlerin) olasılığı ile ilişkilendirerek bu ifadeyi doğrular.
om .c ri tla
de rs no
Kaynak: MIT OpenCourseWare
2.1.2 Büyük Sayılar Kanun
Tanım 3. Örneklem ortalaması n büyüklüğündeki rasgele bir örneklemden elde edilen n rasgele değişkenin (gerçekleşmenin) aritmetik ortalamasıdır.
m
Xi’lerin rasgele değişken olmasından ötürü ediniz.
n’nin
ee
Örneklem ortalamasının beklenen değeri şöyledir:
de rasgele değişken olduğunu not
om
Eğer X1, …, Xn bağımsız ise, örneklem ortalamasının varyansı aşağıdaki gibi hesaplanır,
ri
.c
Eğer Xi’ler i.i.d. normal ise, Xi N( , ) ne olur? Normallerin doğrusal kombinasyonunun uygun varyans ve ortalama ile yine normal olduğunu biliyoruz, yani
tla
n’i artırdığımızda varyans azaldığı için, büyük bir olasılıkla ortalama en nihayetinde [X]’e çok yakın olacaktır. Esas itibariyle Büyük Sayılar Kanunu’nun söylediği de budur.
de rs no
Teorem 1 (Büyük Sayılar Kanunu). Varsayalım ki, bütün i’ler için, X1, …, Xn [X] = ve Var(Xi) = ile bir i.i.d. çekiliş dizisi olsun. O zaman herhangi bir > 0 için (çok küçük bir sayı) örneklem ortalaması aşağıdaki ilişkiyi sağlar
Bu durumda
n
olasılıkta ’e yakınsar deriz.
İSPAT: Önceki şu sonucumuzu kullanalım
ee
m
Chebyshev Eşitsizliği ile aşağıdaki elde edilir.
Bu ifade, büyük örneklemler için, örnek ortalamasının büyük olasılıkla rasgele değişkenin beklenen değerinden çok uzakta olmayacağını söyler. n ve varyans veri iken, Chebyshev Eşitsizliği’ni doğrudan kullanarak örnek ortalamasının verili mesafeden daha uzakta olma olasılığını sınırlarız.
om .c ri tla de rs no
Şekil 1. n tane madeni para atışının ortalama tura sayısının 10 dizisi- kesikli çizgiler
√
’dir.
m
Örnek 3. Ölçüm Birimlerinin Standardizasyonu (Stigler’in kitabına bkz.): Ortaçağda genellikle her şehir ölçüm aracının uzunluğuna bağlı olarak “ayak”, “inç” ve “yarda” vs için farklı ölçümler kullanırdı. Bu, ölçüm birimlerinde ticareti karmaşık hale getiren ve hukuki tartışmaların artmasına yol açan çok fazla farklılığın olduğu anlamına gelirdi: Örneğin verili bir kumaşın uzunluğunun gerçekten de 20 yarda uzunluğunda olup olmaması gibi yasal tartışmalar olurdu.
ee
İnsanların bulduğu akıllıca bir çözüm şöyleydi: 16 ayak uzunluğundaki bir çubuğun uzunluğunu belirlemek için, rasgele 16 kişilik bir örneklem seçiyorsunuz (bu durumda bunlar Pazar günü Kiliseden çıkan ilk 16 kişidir), bunların ayak uzunluklarını toplayıp 16 ayak gibi bir ölçüyü belirliyorsunuz, sonra uzunluğu 16’ya bölüyorsunuz. Şekil 2’ye bakınız. 16 gözlemin ortalamasının varyansının formülüne göre, bu, yeni ölçüm biriminin varyansını 1/16 kadar azaltmalı. Eğer bölgeler arasında ayak büyüklüklerinde (veya kiliseye giden insanlarda) sistematik bir farklılık yok ise, bu ölçü, farklı bölgelerdeki tacirlerin birbirleriyle daha kolay alış veriş yapmalarına yol açmalı.
om .c ri tla
de rs no
Şekil 2. Köbel’in 16 kişinin 16 ayak uzunluğundaki bir sırığın yasal tanımını belirlemesini betimleyen Ahşap Baskı eseri (1535)
2.1.3. Örnek: “Kalabalıkların Bilgeliği”
m
Varsayalım ki n büyüklüğündeki bir kitle, kamu idaresi için 2 aday arasından birini seçecektir. Burada basitçe en çok oyu alan aday kazanacaktır. Seçmen i’nin A adayı için oy kullanması durumunda 1, diğer durumlarda 0 olan rasgele değişken Xi’ye bakacağız. Eğer oy oranı aşağıdaki gibiyse Aday A kazanır:
ee
Aday A şüphesiz en iyi tercihtir ancak bu kesin olarak A lehine oy kullanacakların sadece 2 > 0 oranı tarafından bilinmektedir, yani i = 1, …, 2n için P(Xi = 1) = 1’dir. Seçmenin geri kalan 1 - 2 ’u her iki aday hakkında temel bir bilgiye sahip değildir ve her iki aday için herhangi bir tercih belirtmeden oyunu kullanmaktadır, yani i = 2n , …, n için, P(Xi = 1) = P(Xi = 0) = 1/2’dir. A adayının oy oranı aşağıdaki ile verilir:
om
Böylece, aday A’nın beklenen oy oranının değeri
ri
.c
Binom dağılım sonuçlarına göre, varyansı ise
varyansından başlayabiliriz
de rs no
n’nin
tla
Chebyshev Eşitsizliği ile ilgili ispatın argümanlarına göre, olasılık sınırlarını çizmek için
Kararsız seçmenler (gürültü) herhangi bir adayı özelikle tercih etmedikleri için, dağılım etrafında simetriktir, böylece
= (1/2) +
olduğu için, aday B’nin kaybetme olasılığı şudur:
ee
m
Birkaç sayı deneyelim: Diyelim ki 2 = %5’tir. Aday B’nin seçilme olasılığını %5’in altında tutmak için n ne kadar büyük olmak zorundadır? Sınır şöyle olur,
böylece n
95’dir. Eğer seçmenin %95’i kararını rasgele verse bile, yanlış adayın
seçilme olasılığını %5’in altında tutmak için 95 yeterlidir. Bu durum “kalabalıkların bilgeliği” olarak bilinir: Seçimin sonucunda bilgilendirilmemiş seçmenin yaratığı stokastik
“gürültü” büyük örneklemlerde ortalamayı aşar, ancak sonuçta sadece bilgilendirilmiş seçmenlerden gelen sistematik “sinyaller” seçimin sonucunu belirler.
om
Büyük Sayılar Kanunu’nda olduğu gibi seçmenlerin bağımsız olduğunu varsaydığımıza dikkat ediniz. Bağımsızlık varsayımından vaz geçersek ne olur?
ortalaması
ri
n’in
tla
Yinelenen Olasılıklar Kanununa göre,
.c
Varsayalım ki adaylar arasında televizyonda gösterilen bir tartışma sırasında TV stüdyosunda aday A veya B’nin yüzüne rasgele konabilecek (1/2 gibi eşit bir olasılıkla) bir sinek vardır ve bir süre etrafta uçuşan sinek adaylarda rahatsızlığa yol açmaktadır. Bilgilendirilmiş seçmenler düşüncelerini değiştirmezler, fakat bilgilendirilmemiş seçmenler 1/3 olasılıkla üzerine sinek konan, 2/3 olasılıkla da rakibi için oy kullanacaktır.
de rs no
dolayısıyla ortalama daha öncekinin aynısıdır. Ancak, varyans değişir: ANOVA özdeşliğine göre (koşulu varyans)
m
Buna göre aşağıdakileri hesaplayabiliriz
ee
böylece
Adayların rolleri kararsız seçmen tarafında değiştirilebileceği için, dağılım ortalama etrafında simetriktir. Bu durumda yukarıda elde edilen olasılıklar için oluşturulan sınırları kullanabiliriz
Var(
n)
n|sinek])
n’ye hiç bir şekilde bağlı olmadığı için, n
’in sıfıra doğru gitmediğini artık görebiliyoruz.
= %15 ise (önceki hesaplamaların altı katı), sınır
.c
Sayılar ile ifade edecek olursak, eğer aşağıdakine eşit olur
iken
om
Ancak, ilk terim Var( [
tla
ri
böylece n ne kadar büyük olursa olsun sınır 1/2'nin üzerindedir. Bu sadece üst sınır olduğu için, bize olayın gerçekte ne kadar olası olduğunu söylemiyor, ancak varyans sıfıra düşmediği için, “gürültücü” seçmenlerin seçimin sonucu üzerinde çok güçlü bir etkisinin olacağı açıktır.
ee
m
de rs no
Burada Büyük Sayılar Kanunu başarısız olur çünkü sinek olayı bütün “gürültücü” seçmenleri aynı anda etkiler, böylece X1, …, Xn artık bağımsız değildir. Bağımsızlık varsayımı çok önemlidir çünkü büyük sayılar kanununun genellikle çalışmasının nedeni “gürültü”nün birçok gözlemde ortalamayı aşmasıdır. Eğer “gürültü”nün bir bileşeni bütün gözlemler için ortak ise (veya en azında hepsiyle yüksek korelasyon içinde ise), bu bileşenin varyansa katkısı -örneğimizde olasılığının sınırındaki 49/81 terimi - örneklem çok büyük olsa da yok olmaz.
Olasılık ve İstatistik Ders Notları 16
om
Konrad Menzel 9 Nisan 2009
de rs no
ri
2nci Sınav gelecek hafta Salı günü sınıfta yapılacak ve saat tam 9:00’da başlayacak. İlgili materyal: öncelik son sınavdan sonra işlenen konularda olacak ancak elbette kendinizi yoğunluk, olasılık ve dersin ilk üç çeyreğindeki diğer kavramlar konusunda rahat hissetmelisiniz. problem setlerindekinden daha metinsel sorular olacak, hesaplamalarda daha az yorucu olacak. normal dağılım tablosu dağıtılacaktır, bu nedenle yanınızda getirmeniz gerekmiyor esas itibarıyla ilk sınavın formatının aynısı olacak hesap makinesi getiriniz kitaplar ve notlar kapalı olacak süre aşağı yukarı 85 dakika olacak Kısmi puan verilecektir, bu nedenle bütün soruları cevaplandırmaya çalışınız
tla
.c
1. Genel Sınav Kuralları
2. Tekrar
m
2.1 Rasgele Değişkenlerin Fonksiyonları Genel olarak:
ee
X’in p.d.f.si fX(x)’i bil (kesikli veya sürekli) Y X’in bilinen bir fonksiyonudur, Y = u(X) p.d.f. fY(y)’yi nasıl bulacağınla ilgilen
p.d.f. fY(y)’yi bulmanın yolu X’in sürekli veya kesikli veya u(.) fonksiyonun bire-bir olup olmamasına bağlıdır. Üç yöntem vardır:
om
1. Eğer X kesikli ise
2. Eğer X sürekli ise 2-adımlı bir yöntem vardır:
tla
ri
Adım 2: p.d.f.yi elde etmek için c.d.f.nin türevini al
.c
Adım 1: c.d.f. Fy(y)’i elde et
de rs no
3. eğer (a) X sürekli ve (b) u(.) bire-bir ise, değişken değiştirme formülünü kullan
Tartıştığımız birkaç önemli örnek:
Bükülme formülü: eğer X ile Y bağımsız ise, o zaman Z = X + Y’nin p.d.f.si
Not: Eğer X ve/veya Y’nin yoğunluğu bir yerde sıfır ise, integralin limitleri konusunda dikkatli ol. Integral Dönüştürme: Eğer X sürekli ise, o zaman rasgele değişken Y = FX(X) uniform dağılımıdır. Burada FX(.) X’in c.d.f.sidir. Sıra İstatistiği: Eğer X1, …, Xn i.i.d ise, o zaman en düşük k’nci değer Yk’nin p.d.f.si
m
ee
2.2. Beklentiler 2.2.1 Beklenen Değer
Eğer X sürekli ise,
.c
Eğer X kesikli ise,
Beklenen değerin önemli özelikleri
de rs no
1. sabit a için
tla
ri
om
X’in Beklenen değerinin tanımı
2. X’in doğrusal fonksiyonu, Y = aX + b, için
3. 2 veya daha fazla rasgele değişken için
m
4. Eğer X ile Y bağımsız ise, o zaman
ee
beklenen değer X’in dağılımının konumunun ölçüsüdür Y = u(X) fonksiyonun beklenen değeri (kesikli durumda integrali toplam ile değiştirin)
Jensen Eşitsizliği: Eğer u(.) konveks ise, o zaman
2.2.2. Varyans
om
Şöyle tanımlanır:
X’in yayılmasının ölçüsüdür.
.c
Varyansın önemli özelikleri
2. varyansin diğer bir ifade şekli
tla
Var(a) = 0
ri
1. bir a sabit değeri için
de rs no
3. X1, …, Xn bağımsız rasgele değişkenlerin bir doğrusal fonksiyonu için
4. Herhangi X1, X2 değişkenleri için daha genel olarak
2.2.3. Kovaryans ve Korelasyon
m
Kovaryans
olarak tanımlanır
ee
Kovaryansın özelikleri
Eğer X ve Y bağımsız ise, Cov(X,Y) = 0.
om
Korelasyon katsayısı şöyle tanımlanır:
.c
Burada eğer sadece ve sadece Y X’in deterministtik doğrusal bir fonksiyonu ise,
tla
2.2.4. Koşullu Beklenen Değer
ri
ve
de rs no
Koşullu beklenen değer rasgele değişkeni şöyle tanımlanır.
Koşullu beklenen değer ile ilgili iki önemli sonuç: Yinelenen Beklentiler Kanunu
Koşullu Varyans
m
2.3 Özel Dağılımlar
ee
2.3.1. Özet Aşağıdaki dağılımlara bakıldı:
Uniform: X
U[a, b] eğer X’in p.d.f.si aşağıdaki gibiyse
Normal: X
Poisson: X
om
E(eğer X’in p.d.f.si aşağıdaki gibiyse
.c
Üstel: X
N(µ, σ2) eğer X’in p.d.f.si aşağıdaki gibiyse
ri
B(n, p) eğer X’in p.d.f.si aşağıdaki gibiyse
P(eğer X’in p.d.f.si aşağıdaki gibiyse
tla
Binom: X
de rs no
Her bir dağılımın ortalamasını ve varyansını bilmeniz veya hesaplamayı öğrenmeniz gerekir. Ayrıca, Binom ile Poisson ve Binom ile Normal arasındaki ilişiklerde gösterildi.
2.3.2. Normal Dağılım
m
Rasgele değişkenleri nasıl standardize edildiğini bilmeniz gerekir:
Size standart normalin c.d.f.lerinin tablosunun bir kopyasını vereceğim, tabloyu nasıl okuyacağınızı bilmeniz gerekiyor.
ee
Normal dağılım ile ilgili önemli sonuçlar: 1. normal p.d.f. ortalama etrafında simetriktir. 2. normal rasgele değişkenlerin doğrusal fonksiyonları yine normal dağılımlıdır: Eğer X N(µ, σ2) ise, o zaman Y = aX + b N(aµ + b, a2σ2)’dir. 3. bağımsız normal rasgele değişkenlerin toplamı da normal dağılımlıdır.
om
4. Merkezi Limit Teoremi: i.i.d. örneklemi X1, …, Xn için standardize örneklem ortalaması büyük n’ler için yaklaşık olarak standart bir normal dağılımdır.
2.4. Asimptotik Teorisi 2.4.1 Ana Fikir her zaman i.i.d. örneklem X1, …, Xn varsay sadece örneklem ortalamasıyla ilgilen
Xi’nin dağılımı hakkındaki bilgimiz veri iken, kesin değeri/dağılımı bulmak çok zordur, hatta imkânsızdır deney “n ”’in büyük n’ler için tahmin verdiği varsayılır.
ri
de rs no
2.4.2. Büyük Sayılar Kanunu
tla
.c
Chebyshev Eşitsizliği: herhangi bir
Büyük Sayılar Kanunu: Eğer X1, …, Xn i.i.d. ise, o zaman bütün
bağımsızlık varsayımı önemlidir(“Kabalıkların bilgeliği”ndeki olaylar arasındaki korelasyon örneği gibi) V(Xi) < gereklidir, böylece Büyük Sayılar Kanun (LLN) çok şişman kuyruklu dağılımlarda çalışmaz.
> 0 için,
ee
m
> 0 için
2.4.3. Merkezi Limit Teoremi
standardize edilmiş örneklem ortalamasının dağılımına bakınız Merkezi Limit Teoremi: Varyansı Var(Xi) < olan bir i.i.d örneklemi için
(.) normal c.d.f.dir.
om
burada
Rasgele binom değişkenleri için DeMoivre-Laplace teoremini gösteren grafikler gördük.
.c
3. Örnek Problemler Örnek 1. Bahar 2003 Sınavı, problem 3
de rs no
Çözüm:
tla
ri
Cambridge’deki Baldwin okulunda üçüncü sınıf öğretmeni Bay Bayson terfi almak üzeredir ve bunun gerçekleşme ihtimali kısmen öğrencilerinin MCAS sınavındaki performansına bağlıdır. On öğrencisi vardır ve sınavda on soru sorulacaktır. Varsayalım ki her öğrencinin her soruyu doğru cevaplandırma şansı %60’tır, ve bütün soruların cevapları birbirinden bağımsızdır. En yüksek notu alan öğrencisinin on üzerinde en az dokuz alma olasılığı nedir? En düşük notu alan öğrencisinin on üzerinden en az üç alma olasılığı nedir?
Bu sorunun iki bölümünün olduğuna dikkat etmeniz gerekir: (1) bireysel test sonuçlarının dağılımını belirlemek ve (2) maksimumun ve minimumun c.d.f.lerini bulmak. Her bir öğrencinin sınav notu olan X 10 bağımsız denemenin başarı sayısı olduğu için, X p.d.f.sini bildiğimiz bir binom rasgele değişkendir, X B(10, 0.6).
ee
m
Genel olarak, bir i.i.d örneklem X1, …, Xn’nin maksimumu olan Y1 aşağıdaki c.d.f.ye sahiptir. Burada X’in c.d.f.si FX(x)’tir.
ve minimum Y2’nin c.d.f.si
Veri bir öğrencinin 9’dan düşük olma olasılığı
om
ri
Veri bir öğrencinin 10 üzerinde en az 3 alma olasılığı
.c
Dolaysıyla, en yüksek notu alan öğrencinin 10 üzerinde en az 9 alma olasılığı
tla
Dolaysıyla, en düşük notu alan öğrencinin 10 üzerinde en az 3 alma olasılığı
de rs no
Örnek 2 Bahar 2007 Sınavı, Problem 3 Eğer X
N( ,
) ise, Y = eX’in log-normal dağılım olduğunu söyleriz, Y
L( ,
)
(a) Y’nin p.d.f.sini bulunuz
(b) Varsayalım ki yatırım yapmak için 100.000 dolarınız var ve R1 getirisinin dağılımı L( ,
) olan bir yatırımı yapma olanağınız var. Yatırımın ortalaması
1.10’dur ve varyansı ( ) 0.01’dir. Yatırımın birinci döneminin sonunda (100.000R1 dolar) servetinizin 110.000 dolardan daha yüksek olma olasılığı nedir?
m
(c) (b)’deki parametre değerlerinin aynısını kullanarak, yatırımın bağımsız iki dönemini sonunda servetinizin 115.000 dolardan daha yüksek olma olasılığı nedir?
ee
Çözüm:
(a) Bu dönüşüm bire-birdir, bu nedenle değişken değiştirme formülünü kullanabiliriz. X’in herhangi bir reel sayı olabileceğini not ediniz ve bundan ötürü Y’nin desteği (0, )’dir. Ters dönüştürme X = ln(Y)’dir. Burada dX/dY = 1/X’tir. Böylece, y > 0 için değişken değiştirme formülünü kullanarak aşağıdakini buluruz,
diğer durumlarda
ve ’i çözerek başlamak yararlı olacaktır. Varyansın ifadesini faktörlere ayırabiliriz:
.c
(b)
om
fY(y) = 0
Ortalamanın ifadesini yerine koyunca ve varyansın da 0.01 olduğu gerçeğinde
ri
hareketle elde ederiz. için çözünce 0.090722098 elde ederiz. Sonra geriye doğru gideriz ve görürüz ki 0.09119493’tür.
de rs no
tla
Şimdi birinci dönemin sonunda servetinizin 110000 dolardan büyük olma olasılığını bulalım. Elimizde
var. Burada normal olasılık tablosunun kullanarak standart normal c.d.f.nin değerini bulabilirsiniz.
(c)
ee
m
ln(R1) ile ln(R2)’nin bağımsız normal olduklarını ve dolaysıyla toplamlarının da normal olduğunu not ediniz. Ortalama ortalamaların toplamıdır ve varyans varyansların toplamıdır. Şapka işaretini yeni ortalama, varyans ve standart sapma için kullanırsak, ̂ 0.18238986, ̂ 0.016460998 ve ̂ 0.128300421 olur. Daha önceki hesaplamaları sürdürürsek,
Örnek 3 Bahar 2007 Sınavı, Problem 4
.c
om
Bir İsveç ekonomisti olan Mikael Priks bir süredir holigan aktiviteleri, kavgaları, yaralamaları, vs., üzerine İsveç polisi tarafından toplanan detaylı veri ile “Firman Boys” çetesinin üyelerinden birisinin kendi raporunu kullanarak (bkz. www.lrzmuenchen.de/ces/mikael.htm) futbol holiganları ile ilgili çeşitli ekonomik konuları çalışmaktadır. Bir makalesinde düşman holigan grupları arasında olası ve sert kavgaların nedenlerini analiz eder. Bunun için, kavgalar ve yaralanmalar üzerine bir model geliştirir. Modelde bir sezonda düşman gruplarının olası karşılaşma sayısı bir P(5) dağılımıdır (Poisson = 5). Dahası, her kavgada en az bir yaralanmanın olacağını ve gerçekte, 10’a kadar her yaralanmanın eşit olasılıklı olduğunu varsaymıştır.
ri
(a) söz konusu varsayımlar veri iken, bir yıl içerisinde iki düşman grubun birbirini yaralama sayısının beklenen değeri nedir? Söz konusu sayının varyansı nedir?
de rs no
Çözüm:
tla
(b) Varsayalım ki belirtilenlerin yerine, iki düşman grup karşılaştığında kavga olma olasılığı sadece 1/2’dir (olası karşılaşmaları bağımsız varsayabilirsiniz). (a)’ya vereceğiniz cevap nasıl değişir.
(a) X bir sezondaki kavga sayısını ve Y yaralanma sayısını ifade etsin. Ayrıca karşılaşmanın kavga ile sonuçlanacağını varsayacağız. Bu durumda, E(Y) = E(E(Y|X)) = E(5.5X) = 5.5E(X) = 5.5(5) = 27.5 olur. Ve Var(Y) = E(Var(Y|X)) + Var(E(Y|X)) = E(
) + Var(5.5X). [NOT: bir kavgadaki yaralanmaların
sayısının varyansı
’dir. Böylece, eğer kavgalar arası yaralanmaların dağılımı
bağımsız ise, X sayıdaki kavgada yaralanma sayısının varyansı Hesaplamalara devam edince, E(
) + Var(5.5X) = (99/12)E(X) +
(121/4)Var(X) = (99/12)(5) + (121/4)(5) = 192.5 elde ederiz.
ee
m
(b) Z karşılaşma ihtimalini ifade etsin. Bu durumda
Varyans için ise hala şunu söyleyebiliriz:
olur.]
om
Aslında şimdi E(X) ve Var(X) (a)’dakine göre değişmiş oldu. E(X)’in önceki değerinin yarısı kadar olduğunu görmek zor değil(şimdi 2.5’tir). p = 0.5 ve Z kadar deneme ile X|Z bir binom olduğu gerçeğini kullanarak, X’in varyansı şöyle yazabiliriz:
.c
Geriye doğru gidince
Bahar 2003 Sınavı, problem 3
tla
Örnek Problemler
ri
elde ederiz.
de rs no
Cambridge’deki Baldwin okulunda üçüncü sınıf öğretmeni Bay Bayson terfi almak üzeredir ve bunun gerçekleşme ihtimali kısmen öğrencilerinin MCAS sınavındaki performansına bağlıdır. On öğrencisi vardır ve sınavda on soru sorulacaktır. Varsayalım ki her öğrencinin her soruyu doğru cevaplandırma şansı %60’tır, ve bütün soruların cevapları birbirinden bağımsızdır. En yüksek notu alan öğrencisinin on üzerinde en az dokuz alma olasılığı nedir? En düşük notu alan öğrencisinin on üzerinden en az üç alma olasılığı nedir?
Bahar 2007 Sınavı, Problem 3 Eğer X
N( ,
) ise, Y = eX’in log-normal dağılım olduğunu söyleriz, Y
L( ,
)
m
(a) Y’nin p.d.f.sini bulunuz
ee
(b) Varsayalım ki yatırım yapmak için 100.000 dolarınız var ve R1 getirisinin dağılımı L( ,
) olan bir yatırımı yapma olanağınız var. Yatırımın ortalaması
1.10’dur ve varyansı ( ) 0.01’dir. Yatırımın birinci döneminin sonunda (100.000R1 dolar) servetinizin 110.000 dolardan daha yüksek olma olasılığı nedir?
om
(c) (b)’deki parametre değerlerinin aynısını kullanarak, yatırımın bağımsız iki dönemini sonunda servetinizin 115.000 dolardan daha yüksek olma olasılığı nedir?
Bahar 2007 Sınavı, Problem 4
tla
ri
.c
Bir İsveç ekonomisti olan Mikael Priks bir süredir holigan aktiviteleri, kavgaları, yaralamaları, vs., üzerine İsveç polisi tarafından toplanan detaylı veri ile “Firman Boys” çetesinin üyelerinden birisinin kendi raporunu kullanarak (bkz. www.lrzmuenchen.de/ces/mikael.htm) futbol holiganları ile ilgili çeşitli ekonomik konuları çalışmaktadır. Bir makalesinde düşman holigan grupları arasında olası ve sert kavgaların nedenlerini analiz eder. Bunun için, kavgalar ve yaralanmalar üzerine bir model geliştirir. Modelde bir sezonda düşman gruplarının olası karşılaşma sayısı bir P(5) dağılımıdır (Poisson = 5). Dahası, her kavgada en az bir yaralanmanın olacağını ve gerçekte, 10’a kadar her yaralanmanın eşit olasılıklı olduğunu varsaymıştır.
de rs no
(a) söz konusu varsayımlar veri iken, bir yıl içerisinde iki düşman grubun birbirini yaralama sayısının beklenen değeri nedir? Söz konusu sayının varyansı nedir?
ee
m
(b) Varsayalım ki belirtilenlerin yerine, iki düşman grup karşılaştığında kavga olma olasılığı sadece 1/2’dir (olası karşılaşmaları bağımsız varsayabilirsiniz). (a)’ya vereceğiniz cevap nasıl değişir.
Olasılık ve İstatistik Ders Notları 17
om
Konrad Menzel 16 Nisan 2009
.c
1. Merkezi Limit Teoremi
B(n, p) dağılımlı rasgele değişkenin Z =
√
ri
Geçen hafta binom rasgele değişkenler için DeMoivre-Laplace teoremini gördüğümüzü hatırlayınız. Bu teorem esas itibariyle, büyük n değerleri için standardize edilmiş Y ~ ‟nin yaklaşık olarak standart normal
tla
dağılımlı olduğunu söyler. Bir binom, i.i.d. sıfır/bir rasgele değişken Xi‟lerin (başarı” ile sonuçlanan “denemeler”in sayımı) toplamı olduğu için, ortalaması olarak düşünebiliriz.
‟yi X1, …Xn örnekleminin
de rs no
Dolaysıyla, DeMoivre-Laplace teoremi gerçekte i.i.d. sıfır/bir rasgele değişkeninin ortalamasının bir sonucudur. Merkezi Limit Teoremi bunu sonlu varyansı olan diğer herhangi bir dağılımdan elde edilen i.i.d sekanslarının örneklem ortalamalarına genelleştirir. Teorem 1 (Merkezi Limit Teoremi). Varsayalım ki X1, …, Xn ortalaması ve varyansı < olan bir dağılımdan elde edilen n büyüklüğünde bir rasgele örneklemdir. Herhangi bir sabit x değeri için aşağıdaki yazılabilir:
ee
m
Burada √ n‟nin ortalaması μ ve varyansı σ2 olan normal dağılıma yakınsayacağını söyleyebiliriz (bazıları buna “yakınsama kanunu” der). Semboller ile ifade edersek
O halde bir ortalama nasıl olurda aynı anda hem sabit bir değer μ‟ya (Büyük Sayılar Kanununa göre) ve hem de varyansı 1 olan (merkezi limit teoremine göre) rasgele bir değişkene yakınsar? Buradaki önemli detay merkezi limit teoremi ile ilgilidir yani dağılımın bir noktaya düşmesini (Büyük Sayılar Kanununda bu olur) veya sonsuza
kadar patlamasını engelleyecek en uygun oranı verecek şekilde örneklem ortalamasını √ „nin çarpımı kadar yukarı çekeriz.
.c
om
Bir dağılımın ortalamasını sınırlandırmak için niye normal dağılım başlamak için en uygun adaydır? İki bağımsız normal rasgele değişkenin toplamının yine normal bir dağılımı olduğunu (her ne kadar varyansları farklı olsa da, sadece standardize edilmiş ortalamaya baktığımız için bu o kadar da önemli değildir) tartıştığımızı tekrar hatırlayınız. Yani bükülme (yani dağılımdan bağımsız rasgele değişken ekleme) açısından normal dağılım ailesi istikrarlıdır. Bunun diğer dağılımların çoğu için doğru olmadığını belirtelim (uniform veya üstel gibi).
de rs no
tla
ri
Örneklem ortalaması tek tek gözlemlerin ağırlıklandırılmış ortalaması olduğu için, diyelim ki örneklemi n‟den 2n‟e çıkarırsak, Xn+1, …, X2n sekansının ortalaması birinci ortalamaya eklenir ve 2‟ye bölünür. Dolayısıyla, eğer büyük n‟ler için bile, n‟in dağılımının elde edilen iki bağımsız değişkenin toplamının aynı dağılım ailesinde olmayan türden olduğunu varsaymış olsaydık, örneklem ortalamasının dağılımı yine de ihtiyari büyük n değerleri için çok değişirdi ve dolayısıyla istikrarlı bir limite doğru gitmeyebilirdi. Bu durum, ortalamanın dağılımının limitte normal dağılıma yaklaşmasının niye kabul edilebilir olduğu konusunda yeterince bilgi veriyor olması gerekir .
ee
m
Şekil 1. n para atışının tura sayısı: örneklem ortalaması edilmiş örneklemin ortalaması √
n
n(solda)
ve standardize
(sağda)
Örnek 1. Varsayalım ki X1, …, Xn i.i.d. olan rasgele değişkenlerdir ve Xi ~ U[0, 1] dağılımı uniformdur, dolaysıyla p.d.f şöyle olur:
om
Şimdi kısmı toplamların p.d.f.sini hesaplamak için 10‟nuncu dersteki bükülme formülünü kullanabiliriz,
ri
.c
k = 2 için, aşağıdakini elde ederiz (integralin limitlerine dikkat etmek gerekir)
de rs no
tla
Sonraki hesaplamalar çok karmaşık olabilir çünkü integralin limitlerini ve yoğunluktaki kırılma noktalarını sürekli kontrol etmek gerekir. Bazı hesaplamalardan sonra, k = 3 için şunu elde ettik,
Rasgele değişkenlerin toplamlarının beklenen değeri ile ilgili kurala göre
m
Ayrıca, X1, X2, …, Xk bağımsız oldukları için, toplamın varyansı ile ilgili kuralı kullanabiliriz
ee
Bundan ötürü, SK‟nın standardize edilmiş hali olan Zk aşağıdaki ile verilir:
Buradan hareketle, değişken değiştirme formülünü kullanarak standardize edilmiş Z1, ‟ya eşit olduğuna dikkat
tla
ri
.c
om
Z2, Z3‟ün yoğunluklarını hesaplayabiliriz (türevin sadece √ ediniz):
ee
m
de rs no
Bunun grafiksel olarak nasıl göründüğüne bakalım:
Uniform rasgele değişkenlerin standardize edilmiş toplamlarının p.d.f.si sadece 3 kadar bağımsız çekilişin toplamlarının standart normal p.d.f.sine çok benzemektedir. Bu bir
sürprizdir çünkü uniform değişkeninkine benzemez.
yoğunluğun
kendisi
hiçbir
şekilde
normal
rasgele
om
Son örnek, 3 kadar az (en azından optik olarak) sayıdaki n için normal tahminin oldukça iyi görünmesi konusunda biraz aldatıcı olsa da, n durumunda, genellikle n 40 veya daha yüksek değerler için tahminin doğru olduğunu ifade ederiz.
Gerçek p.d.f.‟yi hesaplamayabiliriz çünkü X‟lerin tam dağılımını bilmiyoruzdur, Gerçek p.d.f.yi hesaplamak istemeyebiliriz çünkü hesaplamalar çok karmaşık olabilir- Bu genel bükülme formülü (örneğe bakınız), ve diğer birçok kesikli örnek (son dersteki Binom örnek gibi) için nerdeyse tartışmasız doğrudur.
2. Tahmin
tla
ri
.c
Özetleyecek olursak, örneklemin gerçek ortalamasının p.d.f.sini hesaplamak istemediğimiz zaman Merkezi Limit Teoremi özellikle yararlıdır. Bunun gerçekleşebileceği iki durum vardır
de rs no
Bu derste şimdiye kadar, bir rasgele değişkenin dağılımının parametrelerini bildiğimizi varsayarak başladık. Örneğin X ~ P[λ] olduğunu biliyorduk ve daha sonra o dağılımdan olasılıkları ve rasgele değişkenin diğer özeliklerin hesaplıyorduk. Şimdi ise probleme tersten bakacağız: parametreleri bilinmeyen bir dağılımdan elde edilen bir i.i.d. örnekleme sahip olduğumuzu varsayacak olursak, işlediğimiz dağılım ailelerinde yer alan hangi değerinin veriyi üretmiş olabileceği konusunda nasıl “makul” bir cevap elde ederiz? Örnek 2. Eğer bir madeni para verilmişken tek bir atışın tura gelme olasılığını bilmiyorsak, çok sayıda atış yapabiliriz. O zaman turaların oranını, ̂ =
, daha
m
sonra açıklayacağımız mantıkla P(Tura) olasılığı için “iyi bir tahmin” olabileceğini düşünebiliriz. f(x| ) p.d.f.leri veri iken, bir parametre bir dağılımlar ailesinin sabit endeksidir. Burada parametreleri genellikle 1 …, k olarak ifade ederiz.
ee
Örnek 3.
Binom dağılım için parametreler n deneme sayısı ve p başarı oranıdır.
om
Normal dağılım için parametreler ortalama μ ve standart sapma σ ‟dır.
Poisson dağılımı bir tek parametreye sahiptir, λ
ri
.c
tla
İstatistiğin çoğu, bilinen dağılım ailelerinin hangi üyesinin gözlemlenmiş bir sürecin veya olayın doğru olasılık dağılımını vereceğini belirlemekle ile ilgilidir. Sembolik olarak, X ~ f[x| 0] iken biz parametre değeri 0‟ı bulmak isteriz. Bu durum, “dağılımı karakterize eden parametreleri tahmin etme” problemidir.
de rs no
Her zaman bir rasgele örneklem X1, …, Xn ile başlayacağız ve her zaman aşağıdaki varsayımda bulunacağız: bilinmeyen
0
Θ için X ~ f[x| 0]
Tanım 1. ‟nin tahmin edicisi ̂ bir istatistiktir ( yani X1, …, Xn‟in bir fonksiyonudur),
Bir örneklemde bir tahmin edicinin gerçekleşmesi, ̂(x1, …, xn), adlandırılır.
„nın tahmini olarak
m
Rasgele bir örneklemin fonksiyonu olarak, tahmin edici uygun bir rasgele değişkendir, bu nedenle genel olarak p.d.f.si cinsinden dağılımını açıklamak ve dağılımının momenti ile ilgileneceğimize dikkat ediniz.
ee
Örnek 4. Varsayalım ki Xi ~ Bernoulli( 0)‟dir, yani X sıfır/bir rasgele değişkendir ve 1 değerini olasılıkla alır ve p.d.f.si şöyledir:
0‟ını
nasıl tahmin ederiz?
.c
Örneğin 5 Bernoulli denemesi 1, 0, 0, 1, 1 için şunu buluruz,
om
Örneklem ortalamasını kullanabiliriz,
de rs no
tla
ri
5 gözlemli bir örneklemde ̂ tahmin edicisi bir rasgele değişken olduğu için, p.d.f.sini elde edebiliriz: hatırlayınız S5 (∑ ) için S5 ~ B(5, 0)‟dır. Kesikli rasgele değişkenlerin p.d.f.sini bulmanın yöntemlerini ̂ = (S5)/5‟e uygularsak, aşağıdakini elde ederiz:
Özelikle, tahmin edicinin dağılımı gerçek 0 olasılığına bağlıdır – o olasılık [0,1] aralığında herhangi bir yerde olabilir- fakat sadece 6 farklı kesikli değer alabilir. Örnek 5. Eğer X ~ U[0, p.d.f.‟si şöyledir:
] dağılımı parametreye bağlı olarak bir aralıkta uniform ise,
m
‟yi nasıl tahmin edebiliriz? Aşağıdakileri kullanabiliriz,
ee
Diyelim ki, dağılımdan üç örnek seçtik, 0.2, 0.6, 0.4. O zaman ̂1 =0.6 ve ̂2 =0.8 olurdu ve böylece aynı parametre için iki tahmin edici farklı cevap verirdi. Bu farklı tahmin ediciler arasından nasıl seçim yapacağız? Buna biraz sonra geri döneceğiz.
̂(X1, …, Xn) fonksiyonlarına nasıl ulaşırsınız? Bu tahmin edicilerin makul olduğunu nasıl belirleyebiliriz?
Aynı parametre için bir veya iki tahmin edici arasından nasıl seçim yapmalıyız?
om
3. Tahmin Edicilerin Genel Özelikleri
ri
ile varyansı şöyle yazacağım:
tla
Aynı şekilde, parametre
.c
X‟in beklenen değerini parametre ile ifade edeceğiz, yani eğer gerçek parametre ‟ya eşitse X‟in beklenen değeri şöyledir:
de rs no
Bir tahmin edicinin sapması(yanlılığı Ç.N.) onun beklenen değeri ile gerçek değeri arasındaki farktır.
Elbette ki, ortalama olarak parametreyi doğru veren bir tahmin ediciyi isteriz, yani ideal olanı sapmanın sıfır olmasıdır. Tanım 2. Bir tahmin edici ̂ = ̂(X1, …, Xn) için
için sapmasızdır eğer bütün
0
değerleri
.
ee
m
Örnek 6. Varsayalım ki, X1, …,Xn N( , ) dağılımından elde edilen bir i.i.d. örneklemdir. Geçen hafta örneklem ortalamasının beklenen değerinin herhangi bir μ değeri için
olduğunu görmüştük, bu nedenle tahmin edicidir.
n
normal dağılımın ortalaması μ için sapmasız bir
om
Örnek 7. İ.i.d. olan X1, …, Xn rasgele örnekleminden μ ortalaması bilinmeyen X N( , ) dağılımı için varyans parametresi ‟yi tahmin etmek istediğimizi varsayalım. = 2 [(X - [X]) ] olduğu için, sezgisel olarak ilgi çekici bir tahmin edici aşağıdaki gibi olabilir
de rs no
tla
ri
[X2] = [X])2 + Var(X) ilişkisini hatırlayınız, böylece
.c
(burada örneklem ortalamasını gerçek beklenen değeri ile yer değiştirttik). Eğer dağılımın gerçek parametreleri (μ0, σ02) ise, bu tahmin edicinin beklenen değeri nedir?
m
Dolayısıyla ̂ 2 için sapmasız bir tahmin edici değildir, fakat ̂ 2 için çok kolay bir sapmasız tahmin edici oluşturabiliriz.
ee
Bu sapma nereden geliyor? Genel konuşmak gerekirse, bunun nedeni kare parantezin içindeki μ‟yü “gürültülü” bir tahmin olan ̂ = n ile yer değiştirmemizdir. Eğer μ0 bilinseydi, tahmin edici ̂ 2 =
∑
‟nin σ için sapmasız olacağını kendiniz
kontrol edebilirsiniz.
Ortalamayı tahmin etmek veriden bir “serbestlik derecesi” götürür- örneğin eğer elimizde sadece tek gözlemli bir örneklem olsaydı, tahmin edilen ortalama o gözleme eşit olurdu
ve varyansın “saf” tahmin edicisi bize ̂ 2 = 0‟ı verirdi, açıkçası bu da doğru cevap değildir.
om
Sapmasızlık bizim ilgilendiğimiz tek şey olmayabilir. Ortalama olarak tahmin edicinin gerçek parametreye eşit olması belli bir örneklem içinde öyle olacağı anlamına gelemeyeceğinden, gerçekte tahmin gerçek parametreye yakın olacaktır.
ri
.c
Tanım 3. Eğer n‟yi artırırken tahmin edici olasılık bakımından 0‟a yakınsarsa, bir X1, …, Xn örneklemi için, ̂ ‟nın θ için tutarlı bir tahmin edici olduğunu söyleyebiliriz. Bütün ε > 0 değerleri için
tla
Kelimeler ile ifade edecek olursak, yeterince büyük bir örneklemde, tutarlı bir tahmin edici yüksek bir olasılıkla gerçek parametreye çok yakın bir aralığın içinde olacaktır. Dikkat edilecek olursa sapmasızlık ve tutarlılık iki çok farklı örtüşen kavramdır, ancak biri diğerini ima etmez.
de rs no
Örnek 8. Uniform dağılım için söz konusu olan tahmin edicilerimizden birine geri dönelim, X ~ U[0, 0]. Eğer aşağıdaki ifadeye bakaca olursak,
m
̂1‟in θ için sapmasız olmadığını kolaylıkla görebiliriz, çünkü uniform dağılımın doğasından ötürü, Xi‟nin bütün olası değerleri 0‟ten küçüktür. Bu nedenle, n ne kadar büyük olursa olsun, P(max{ X1, …, Xn} < 0) =1‟dir. Böylece Beklenen değer θo[ 1] < 0‟dır. Ancak, ̂ 0 için tutarlıdır: Uniform dağılımından elde edilen bir tek gözlem olan X için c.d.f.‟nin FX(x) = x/ 0 olduğunu kolayca görebiliriz. Yn := max{X1, …, Xn} örneklemin n‟nci sıra istatistiği olduğu için, daha önceki tartışmalarımızdan 0 y 1 için FYn(y) = (FX(y))n = (y/ 0)n‟i elde ederiz. 1 olasılıkla ̂1 < θ0 olduğu için, herhangi bir örneklem sayısı n ve herhangi bir ε > 0 için aşağıdakini hesaplayabiliriz,
ee
burada ε > 0 olduğu için p :=
< 1‟dir. Bu nedenle, n‟i artırırken,
0‟dan
ε„dan daha
fazla sapmanın olasılığı yok olur, ve dolaysıyla ̂1 tutarlıdır. Örnek 9. Büyük Sayılar Kanununa göre, örneklem ortalaması olasılık olarak [X] = μ‟ya yakınsar. Dolayısıyla, N( , )) olan rasgele değişkeninin bir i.i.d. olan X1, …, Xn örneklemi için, örneklem ortalaması μ‟nün tutarlı bir tahmin edicisidir.
om
Ayrı bir seçenek olarak, “makul olmayan” bir ̂(X1, …, Xn) tahmin edicisine bakalım. Bu durumda,
ee
m
de rs no
̃ sapmasızdır ancak tutarlı değildir.
N(0, 1) dağılımlıdır. Bu argümanlardan hareketle,
tla
burada standardize edilen Z :=
ri
.c
Dolaysıyla bu tahmin edici sapmasızdır. Ancak, herhangi bir n örneklem büyüklüğü için, tahmin edicinin dağılımı söz konusu X N( , σ)‟in aynısıdır, bu nedenle örneğin ε = σ0 için, bütün n‟lerin olasılığı
14.30 Ekonomide İstatistiksel Yöntemlere Giriş Ders Notları 18
om
Konrad Menzel
.c
23 Nisan 2009
1.1. Standart Hata
ri
1. Tahmin Edicinin Özelikleri (devam)
tla
Sık sık tahmin edicinin kesin doğruluğu hakkında da ifadeler geliştirmek isteriz – tahminin değerini her zaman ortaya koyabilirizz, fakat onun gerçekten de gerçek parametreye yakın olduğundan ne kadar eminiz?
de rs no
Tanım 1. Bir tahminin standart hatası σ( ̂), tahmin edicinin standart sapmasıdır (ya da tahmin edilmiş standart sapması). Şöyle gösterilir:
Bir tahmin edicinin bir rasgele değişkenin fonksiyonu olduğunu hatırlamanız gerekiyor ve bu nedenle bu rasgele değişken için beklenen değeri, varyansı ve diğer momentleri hesaplayabiliriz. n’dir,
burada Var(Xi) =
/n
m
Örnek 1. Bir i.i.d. olan örneklem X1, …, Xn’in ortalaması varyansına sahiptir. Dolaysıyla standart hata
ee
Eğer
’i bilmiyorsak, tahmin edilmiş standart hatayı hesaplarız
y
Standart hata tahminlerin doğruluğunu karşılaştırmanın bir yoludur ve açıkça daha düşük standart hatalı/varyanslı tahmin ediciyi tercih ederiz.
0,
o
om
Tanım 2. Eğer ̂A ve ̂B θ için sapmasız tahmin ediciler ise, yani θo[ ̂A] = θo[ ̂B] = zaman eğer aşağıdaki koşul sağlanırsa ̂A nispetten ̂B’ye göre daha etkindir deriz:
.c
Bazen tüm tahmin edicilere, Θ = { ̂1, ̂2 ,…}, bakarız ve tüm Θ’lar arasında eğer ̂A en düşük varyansa sahip ise etkindir deriz.
de rs no
tla
ri
Örnek 2. Varsayalım ki X ile Y iki farklı Matematik sınavının notlarıdır. Siz bir çeşit “matematik yeteneği” ile ilgileniyorsunuz ve iki notta gürültülüdür (muhtemelen iki not arasında korelasyon vardır), ayrıca [X] = [Y] = μ, Var(X) = σX2, Var(Y) = σY2, ve Cov(X,Y) = σXY. Bir tek ölçüm kullanmak yerine, ikisini ağırlıklandırılmış ortalama pX + (1 – p)Y ile birleştirmeye karar verdiniz. Bu ağırlıklandırılmış ortalamanın beklenen değeri nedir? p’nin hangi değeri ağırlıklandırılmış ortalamanın varyansını minimize eder? Bunu sadece iki gözlemli bir örneklem kullanarak μ’yü tahmin etmek istediğimiz bir tahmin problemi olarak yorumlayabiliriz. Bütün X ve Y ağırlıklandırılmış ortalamaları μ olduğu için, etkin tahmin ediciyi bulmaya çalışacağız. Rasgele değişkenlerin toplamının varyansının formülünden
elde ederiz. Optimal p’yi bulmak için, birinci türevi sıfıra eşitleriz, yani
m
p için çözünce, varsayalım ki σX2+ σY2 >2 σXY varsayımı altında (bunun lokal minimum için yeterli bir koşul olduğuna dikkate diniz), aşağıdakini elde ederiz
ee
Eğer X ile Y arasında korelasyon yoksa, etkin tahmin edici X üzerine p* =
ağrılığını koyar. Bu ağırlık, nispeten Y’nin varyansına göre X’in daha düşük varyans değerleri için daha büyük değerler alır.
bir
2. Tahmin Edici Oluşturma Yöntemleri 2.1. Momentler Yöntemi
tla
ri
.c
om
Bu yöntem1894’te Britanyalı istatistikçi Karl Pearson tarafından önerildi: varsayalım ki bir dağılımın k kadar parametresini tahmin etmek zorundayız. O zaman, verinin ilk k örneklem momentlerine bakmalıyız,
de rs no
ve dağılıma göre hesaplanan bir parametre değeri veri iken, onları ilgili kitle momentlerine eşitlemeliyiz.
m
O zaman momentler yöntemi (MoM) tahmin edicisi ̂ aşağıdaki denklem çözülerek elde edilebilir. Bütün θ’lar için
ee
Örnek 3. Varsayalım ki X1, ….,Xn parametresi, λ, bilinmeyen bir Poisson dağılımından, X ~ P(λ) elde edilen bir i.i.d. örneklemdir. Dağılımın sadece bir bilinmeyen parametresi vardır ve birinci kitle momenti aşağıdaki ile verilir:
Dolayısıyla MoM tahmin edicisi şöyledir:
om
Eğer gerekenden fazla moment kullanarak parametreleri tahmin edersek ne olur? – Poisson dağılımı için ayrıca şunu da biliyoruz:
ri
.c
Örnek 4. Bir çift üstel rasgele değişkenini p.d.f.si
tla
o halde iki parametre (λ, μ)’yü tahmin etmek zorundayız. Bir istatistik kitabına bakınca şunu buluruz
de rs no
böylece momentler yönteminin tahmin edicisi aşağıdakini çözer.
O halde ( ̂ , ̂ ) için çözünce aşağıdaki, elde edilir:
m
2.2. Maksimum Olabilirlik Tahmini
ee
Momentler yöntemi sadece seçili sayıda kitle momentini örneklemdeki karşılıkları ile eşleştirmeye çalışırken, ayrı bir seçenek olarak mümkün olduğunca en iyi şekilde örneklem dağılımını bir bütün olarak kitle dağılımıyla eşleştiren bir tahmin edici geliştirebiliriz. Bu, parametre θ’nın maksimum olabilirlik tahmin edicisinin yaptığı şeydir. Söz konusu parametre, kabaca söylemek gerekirse, “büyük ihtimalle” gözlemlenen örneklemi ortaya çıkaran değerdir:
Varsayalım ki bir i.i.d. olan bir Y1, …, Yn örneklemimiz var. Y’nin p.d.f.si parametre θ’ya kadar bilinen fY(y|θ) ile veriliyor. Maksimum olabilirlik tahmin edicisi( MLE) θ’nın altındaki verinin bileşik p.d.f.sini maksimize eden ̂’nın bir fonksiyonudur.
om
Daha spesifik olmak gerekirse, örneklemin olabilirliğini aşağıdaki gibi tanımlarız:
ℒ(θ) ve L(θ)’nin aynı değerlerde
tla
Logaritma kesin artan bir fonksiyon olduğu için, maksimize olacağını not ediniz.
ri
.c
Genellikle olabilirlik fonksiyonun logaritmasını maksimize etmek çok daha kolaydır.
de rs no
Önerme 1. Parametre θ0’da log- olabilirliğinin beklenen değeri
ile gerçek parametre θ0’da maksimize olur.
m
İSPAT: üzerinde beklenen değeri hesapladığımız gerçek yoğunluk fY(y|θ) olduğu için, Jensen Eşitsizliğini kullanarak bütün θ değerleri için θo[L(Y|θ) – L(Y| 0)] 0 ve log(.)’nin konkav olduğunu gösterebiliriz.
ee
burada f(y|θ) bir yoğunluk olduğu için, integrali 1’dir. Bundan ötürü bütün θ değerleri için θo[L(Y| 0)] θo[L(Y|θ)] olduğundan, söz konusu 0 fonksiyonu maksimize eder. Büyük Sayılar Kanununa göre, i.i.d. olan bir örneklem için log-olabilirlik şöyledir:
Dolaysıyla, i.i.d olan büyük örneklemlerin log olabilirliğini maksimize etmenin bize “yakın” bir parametre vereceğini düşünebiliriz.
0’e
om
Örnek 5. Varsayalım ki X N( 0, σ02)’dir ve bir i.i.d. örneklem X1, …, Xn’den μ ve σ2 parametrelerini tahmin etmek istiyoruz. Olabilirlik fonksiyonu şöyledir:
de rs no
tla
ri
.c
Log-olabilirliği maksimize etmenin daha kolay olduğunu ortaya koyabiliriz,
Maksimumu bulmak için, μ ve σ2’ye göre türevleri alıp sıfıra eşitleriz:
Aynı şekilde,
m
Hâlihazırda, bu tahmin edicinin σ02 için sapmasız olmadığını gösterdiğimizi hatırlayınız, bu nedenle genel olarak Maksimum Olabilirlik Tahmin Edicileri sapmasız olmak zorunda değildir.
ee
Örnek 6. Uniform dağılımlı örneğe geri dönelim: varsayalım ki Xi ~ U[0, θ]’dır ve θ’nın tahmini ile ilgileniyoruz. Momentler yöntemi tahmin edicisi için aşağıdakini görebilirsiniz,
böylece bunu örneklem ortalamasına eşitleyerek aşağıdakini elde ederiz:
om
Maksimum olabilirlik tahmin edicisi nedir? Açıkçası, biz herhangi bir ̂ max { X1, …, ̂ ̂ Xn } almayacağız çünkü ’dan büyük gerçekleşmiş bir örneklemin altında sıfır olasılığı vardır. Biçimsel olarak, olabilirlik
θ
tla
ri
.c
max { X1, …, Xn }’nin herhangi bir değeri maksimumu olamaz çünkü bütün o noktalarda L(θ)’in sıfır olduğunu görebiliriz. Aynı zamanda, θ max { X1, …, Xn } için olabilirlik fonksiyonu θ’da kesin azalandır ve bu nedenle aşağıda ifade edildiği gibi maksimumdur
de rs no
1 olasılıkla Xi < 0 olduğu için, maksimum olabilirlik tahmin edicisi de 1 olasılıkla 0’dan düşük olacaktır, böylece sapmasız değildir. Daha da açık olmak gerekirse, X(n)’in p.d.f.si aşağıdaki gibi verilir:
Böylece,
Çok kolay bir şekilde bir sapmasız tahmin edici, ̂ =
, oluşturabiliriz.
m
2.3. MLE’nin Özellikleri
ee
Aşağıdakiler sadece MLE için elde edilen temel teorik sonuçların özetidir(bu aşamada ispatları yapmayacağız):
Tutarlı tahmin ediciler grubunda etkin bir tahmin edici varsa, MLE onu oluşturur. Belli düzenleyici koşullar altında, MLE asimptotik olarak normal dağılım olabilir (bu esas itibariyle Merkezi Limit Teoreminin bir uygulamasından gelmektedir).
Maksimum olabilirlik her zaman yapılması gereken en iyi şey mi? Hayır
sapmalı olabilir genellikle hesaplanması zordur ilgili dağılım ile ilgili yanlış varsayımlara karşı çok hassas olabilir.
ee
m
de rs no
tla
ri
.c
om
Olasılık ve İstatistik Ders Notları 19
om
Konrad Menzel 28 Nisan 2009
.c
1. Maksimum Olabilirlik Tahmin: İlave Örnekler
tla
ri
Örnek 1. Varsayalım ki X N( 0, σ02)‟dir ve bir i.i.d. örneklem X1, …, Xn‟den μ ve σ2 parametrelerini tahmin etmek istiyoruz. Olabilirlik fonksiyonu şöyledir:
de rs no
Log-olabilirliği maksimize etmenin daha kolay olduğunu ortaya koyabiliriz,
m
Maksimumu bulmak için, μ ve σ2‟ye göre türevleri alıp sıfıra eşitleriz:
ee
Aynı şekilde,
om
Hâlihazırda, bu tahmin edicinin σ02 için sapmasız olmadığını gösterdiğimizi hatırlayınız, bu nedenle genel olarak Maksimum Olabilirlik Tahmin Edicileri sapmasız olmak zorunda değildir.
.c
Örnek 2. Uniform dağılımlı örneğe geri dönelim: varsayalım ki Xi ~ U[0, θ]‟dır ve θ‟nın tahmini ile ilgileniyoruz. Momentler yöntemi tahmin edicisi için aşağıdakini görebilirsiniz,
ri
böylece bunu örneklem ortalamasına eşitleyerek aşağıdakini elde ederiz:
θ
de rs no
tla
max { X1, …, Maksimum olabilirlik tahmin edicisi nedir? Açıkçası, biz herhangi bir ̂ ̂ ̂ Xn } almayacağız çünkü ‟dan büyük gerçekleşmiş bir örneklemin altında sıfır olasılığı vardır. Biçimsel olarak, olabilirlik
max { X1, …, Xn }‟nin herhangi bir değeri maksimumu olamaz çünkü bütün o noktalarda L(θ)‟in sıfır olduğunu görebiliriz. Aynı zamanda, θ max { X1, …, Xn } için olabilirlik fonksiyonu θ‟da kesin azalandır ve bu nedenle aşağıda ifade edildiği gibi maksimumdur
ee
m
1 olasılıkla Xi < 0 olduğu için, maksimum olabilirlik tahmin edicisi de 1 olasılıkla 0‟dan düşük olacaktır, böylece sapmasız değildir. Daha da açık olmak gerekirse, X (n)‟in p.d.f.si aşağıdaki gibi verilir:
Böylece,
Çok kolay bir şekilde bir sapmasız tahmin edici, ̂ =
, oluşturabiliriz.
1.1. MLE’nin Özellikleri
Tutarlı tahmin ediciler grubunda etkin bir tahmin edici varsa, MLE onu oluşturur. Belli düzenleyici koşullar altında, MLE asimptotik olarak normal dağılım olabilir (bu esas itibariyle Merkezi Limit Teoreminin bir uygulamasından gelmektedir).
.c
om
Aşağıdakiler sadece MLE için elde edilen temel teorik sonuçların özetidir(bu aşamada ispatları yapmayacağız):
Maksimum olabilirlik her zaman yapılması gereken en iyi şey mi? Hayır
de rs no
2. Güven Aralığı
ri
sapmalı olabilir genellikle hesaplanması zordur ilgili dağılım ile ilgili yanlış varsayımlara karşı çok hassas olabilir.
tla
Tahminin değeri ve onun doğruluğu(standart hatası tarafından verildiği gibi) hakkındaki bilgileri birleştirmek için, genellikle yapılan, bir tahminin etrafında muhtemelen gerçek değeri içeren bir aralık belirlemektir. Örnek 3. Varsayalım ki deniz kuvvetlerinin bir topçekerinin(bot) kaptanı kıyı şeridi boyunca bir sahil koruma hattı oluşturacaktır, fakat ondan önce denizden doğrudan görülmeyen sahildeki bir makineli tüfeğin yok edilmesi veya en azından ağır tahribata uğratılması gerekecektir.
m
Bota halihazırda sahilden birkaç kere atış açılır ve mermilerin geldiği yöne dayanarak, kaptan silahın konumu hakkında bir tahmin ̂ oluşturur. Tahmin, gerçek 0 konumun etrafında σβ2 varyanslı bir normal dağılımdır.
ee
Kaptan, sahillin bir aralığına füzelerle yaylım ateşinde bulunarak o alandaki her şeyi yok edebilir. Kaptan, sahillin hangi aralığına ateş edeceğini nasıl belirleyebilir ki %95 olasılıkla makineli tüfeğin orada olup tahrip olacağından emin olabilir ve böylece birlikleri güvenli bir şekilde sahile çıkarabilir?
om .c ri tla
de rs no
Kaynak: MIT OpenCourseWare
Normal dağılım için, olasılık yığının %95‟inin ortalamanın her iki tarafındaki 1.96 standart sapmalık aralığın içinde olduğunu biliyoruz. Böylece, eğer kaptan CI = [ ̂ – 1.96σ, ̂ + 1.96σ] aralığı için ateş emri verirse, ̂‟in 0 CI olma olasılığı %95‟tir. Daha önce sadece gerçek parametre 0 değerine yakın değer veren tek fonksiyon ̂(X1, …, Xn ) arıyor iken, şimdi belli bir değere eşit veya daha yüksek olasılıkla gerçek parametre değerini kapsayan (içeren) iki fonksiyon, A(X1, …, Xn) < B(X1, …, Xn), oluşturmaya çalışacağız.
m
Tanım1. Parametre 0 için bir 1-‟lık güven aralığı A(.) ve B(.) gibi veriye-dayalı iki fonksiyona bağlı bir aralıktır [A(X1, …, Xn ), B(X1, …, Xn )]. Yani,
ee
Bu fonksiyonlar benzersiz değildir fakat teamüllere bağlı olarak, A ve B’yi /2 olasılığı aralığın her iki tarafına eşit düşecek şekilde seçiyoruz.
Bir güven aralığının, [A(x1, …, xn), B(x1, …, xn)], gerçekleşmesi için, P(A(x1, …, xn) 0 B(x1, …, xn) = 1 - olduğunu söylemek mantıklı değil, çünkü aralığın limitleri ve gerçek parametre şimdi reel sayılardır, böylece örneklemin gerçekleşmesi veri iken,
tahmin edilen aralık ya 0 kapsar(1 olasılıkla) ya da kapsamaz. Gerçek parametre veri iken rasgele olan güven aralığıdır, yoksa 0 değil.
om
Aşağıdaki kendisi için güven aralığı oluşturmak istediğimiz en yaygın durumdur.
aşağıdaki olasılıkla kapsadığını kontrol edebiliriz,
̂
̂‟nın standardizasyonu olduğu için standart normal dağılımlıdır.
de rs no
burada
tla
ri
0‟ı
.c
Örnek 4. Varsayalım ki ̂ ~ N( 0, )‟dir ve bir 1-‟lık birgüven aralığı oluşturmak istiyoruz. Eğer z1-α/2 standart normal dağılımın 1- (α/2) ondalığı ise yani Φ(z1-α/2) = 1(α/2) ise, o zaman aşağıdakinin
Böylece eğer bir %95‟lik güven aralığı istiyorsak, z1-α/2 = z0.975 = 1.96‟dır, bu nedenle güven aralığı ̂ 1.96σ ile verilir. Bu güven aralığını elde etmenin en yaygın yoludur, bu nedenle bunun nasıl işlediğini anlamanız gerekiyor.
m
Örnek 5. Anket sonuçları genellikle bir “hata payı” ile rapor edilir. Örneğin Gallup‟un 18 Nisan raporuna göre seçmenlerin %46‟sının McCain‟e karşı Clinton‟e, %44‟ünün McCain‟e oy vereceğini, %10‟nun ise ya her ikisi için de oy kullanmayacağını ya da herhangi bir fikri olmadığını söylemiştir. Bu sonuçlar 4385 kişiyle yapılan görüşmeye dayanmaktadır ve rapor ayrıca “ulusal yetişkinlerin toplam örneklemine dayalı sonuçlar için, %95 güvenilirlikle maksimum örneklem hata payı yüzde iki olduğu söylenebilir” ifadesine yer vermiştir. Bu ne anlama gelmektedir? – Eğer bir adayın gerçek oy oranı p ise, n sayıdaki seçmen örnekleminde ortalama payın varyansı VAR(
n)
„dir. Bu
=
ee
varyansın p = 0.5 için en yüksek olduğunu kendiniz de kontrol edebilirsiniz. Dolaysıyla 4385 görüşmeli bir örneklem için, maksimum standart sapma √
(
)
√
‟tir.
Merkezi Limit Teoremine göre, n yaklaşık olarak normal dağılımlıdır ve bir normal dağılım için %95‟lik bir olasılık kütlesinin ortalamanın 1.96 standart sapmalık aralığında
yer aldığını daha önce görmüştük. Bu nedenle, [ n -1.96(0.76) , n + 1.96(0.76)] aralığı gerçek oy oranını %95‟ten daha büyük bir olasılıkla içerecektir. Seçmenin daha küçük alt grupları için hata payı daha büyük olacaktır.
ri
tla
%95‟lik güven aralığının genişliği şöyledir:
.c
om
Örnek 6. Bir laboratuvar bir davada kanıt olarak kullanılabilecek bir kan örneği üzerinde kimyasal analiz yapmaktadır. Kanıt olarak kabul edilebilmesi için, bazı maddelerin mevcudiyetinin %90‟lık güven aralığında % 0.001 g/ml‟den daha az olması gerekir. Analizler için kullanılan makine gerçek değer etrafında standart sapması σ = 0.05g/ml olan normal dağılımlı sonuçlar vermektedir. %90‟lik güven aralığının 0.001 g/ml‟den az olduğundan emin olmak için kaç tane sonuç almamız gerekir?
de rs no
Dolayısıyla, l 0.001 olması için, n 16.452 = 270.6025‟e ihtiyacımız var, bu nedenle de en az 271(bağımsız) sonuç almamız gerekir. Sonraki örnek tahmin edicinin dağılımının normal olmadığı durumlarda güven aralığı oluşturmanın bir yolunu göstermektedir. Örnek 7. Varsayalım ki X1, …, Xn i.i.d.‟dir, dağılımı X ~ U[0, θ]‟dir ve güven aralığı oluşturmak istiyoruz.
0
için %90‟lik
ee
m
Yukarıdaki ifade n‟nci sıra istatistiği olsun (önceki derslerde gösterildiği üzere bu aynı zamanda bir maksimum olabilirlik tahmin edicisidir). Daha önce gördüğümüz gibi, ̂ θ için sapmasız olmamasına rağmen, onu θ için bir güven aralığı oluşturmakta kullanabiliriz. Sıra istatistiğinin sonuçlarından gördük ki ̂‟nın c.d.f.sini veren ̂‟in c.d.f.si aşağıdaki gibi belirlenmektedir:
burada U[0, θ0] olan bir rasgele değişkenin c.d.f.sini, F(x) = x/
0,
yerine koyduk,
A ve B fonksiyonlarını elde etmek için, önce a ve b sabit değerlerini bulalım,
om
a ve b değerlerini aşağıdakileri çözünce bulabiliriz
.c
böylece a = √ ve b = √ ’i elde ederiz. Bu bize henüz bir güven aralığı vermemektedir, çünkü güven aralığının tanımına göre biz gerçek 0 değerini eşitsizliğin ortasında isteriz. Ve her iki tarafın fonksiyonları sadece veriye ve diğer bilinmeyen büyüklükler bağlıdır.
0
için bir %90’lik güven aralığıdır.
de rs no
Bundan ötürü aşağıdaki
tla
ri
Ancak aşağıdakini yazabiliriz,
Bu durumda, aralığın sınırları sadece ̂(X1, …, Xn) tahmin ediciler aracılığıyla veriye bağlıdır. Bu genel olarak doğru olmak zorunda değildir. Şimdi güven aralığına nasıl ulaştığımızı tekrarlayalım: 1. önce ̂ (X1, …, Xn) tahmin edicileri ve ̂’in dağılımını elde et, 2. aşağıdaki koşulu sağlayacak olan a(θ) ve b(θ)’yi bul
m
3. θ’yı çözerek olayı yeniden yaz
ee
4. A(X), B(X) değerlerini gözlemlenen örneklem X1, …,Xn’i kullanarak bul, 5. 1 – ’lık güven aralığı aşağıdaki ile verilir:
2.1 Önemli Durumlar bilinmiyor: Güven aralığı aşağıdaki gibi
̂̂ tahmin edicisi var:
ri
.c
2. ̂ normal dağılımlıdır, Var( ̂) bilinmiyor fakat ̂ 2 = Güven aralığı aşağıdaki ile verilir
om
1. ̂ normal dağılımlıdır, Var( ̂) oluşturulabilir
Burada tn-1(p)değeri n -1 serbestlik dereceli t-dağılımının pnci yüzdeliğidir.
de rs no
tla
3. ̂ normal değil, fakat n > 30 veya daha fazla: öyle anlaşılıyor ki gördüğümüz bütün tahmin ediciler(unifom dağılım için örneklemin maksimumu hariç) merkezi limit teoremine göre asimptotik olarak normaldir (Merkezi Limit Teorisini nasıl uygulayacağımız konusu her zaman açık değil değildir). Bu durumda güven aralığını 2’deki gibi oluştururuz.
4. ̂ normal değil, n küçük: eğer ̂’in p.d.f.si biliniyor ise, 1’nci kullanılarak güven aralığı oluşturulabilir(son örnekteki gibi). Eğer p.d.f. bilinmiyor ise, yapabileceğimiz bir şey yok. 2nci durumda t dağılımını kullanmamızın nedeni şudur: ̂
N( ,
) olduğu için,
m
Diğer taraftan, şunu kontrol edebiliriz
ee
burada ̂ genellikle ortalaması sıfır ve varyansı σ2 olan normal hataların karelerinin toplamı için yazılır. Dolaysıyla,
ee
m
de rs no
tla
ri
.c
om
Ayrıca 4’ün genel durumunda (ve uniform içeren son örnekte), ̂ (X1, …, Xn) istatistiğinin herhangi bir şeyin sapmasız ve tutarlı tahmin edicisi olmasını istemedik, fakat gerçek parametrede kesin monoton olmak zorundaydı. Ancak, normal durumlar( ̂’in varyansı hakkında bilgi sahip olsak ta olmasak ta) ve durum 3 için güven aralığını oluşturduğumuzda, tutarlı olmak zorundaydık.
Olasılık ve İstatistik Ders Notları 20
om
Konrad Menzel 30 Nisan 2009
.c
1. Güven Aralığı (devam)
ri
Sonraki örnek tahmin edicinin dağılımının normal olmadığı durumlarda güven aralığı oluşturmanın bir yolunu göstermektedir. 0
için %90’lik
tla
Örnek 1. Varsayalım ki X1, …, Xn i.i.d.’dir, dağılımı X ~ U[0, θ]’dir ve güven aralığı oluşturmak istiyoruz.
de rs no
Yukarıdaki ifade n’nci sıra istatistiği olsun (önceki derslerde gösterildiği üzere bu aynı zamanda bir maksimum olabilirlik tahmin edicisidir). Daha önce gördüğümüz gibi, ̂ θ için sapmasız olmamasına rağmen, onu θ için bir güven aralığı oluşturmakta kullanabiliriz. Sıra istatistiğinin sonuçlarından gördük ki ̂’nın c.d.f.sini veren ̂’in c.d.f.si aşağıdaki gibi belirlenmektedir:
burada U[0, θ0] olan bir rasgele değişkenin c.d.f.sini, F(x) = x/
0,
yerine koyduk,
m
A ve B fonksiyonlarını elde etmek için, önce a ve b sabit değerlerini bulalım,
ee
a ve b değerlerini aşağıdakileri çözünce bulabiliriz
böylece a = √ ve b = √ ’i elde ederiz. Bu bize henüz bir güven aralığı vermemektedir, çünkü güven aralığının tanımına göre biz gerçek 0 değerini eşitsizliğin
ortasında isteriz. Ve her iki tarafın fonksiyonları sadece veriye ve diğer bilinmeyen büyüklükler bağlıdır.
0
için bir %90’lik güven aralığıdır.
.c
Bundan ötürü aşağıdaki
om
Ancak aşağıdakini yazabiliriz,
ri
Bu durumda, aralığın sınırları sadece ̂(X1, …, Xn) tahmin ediciler aracılığıyla veriye bağlıdır. Bu genel olarak doğru olmak zorunda değildir.
tla
Şimdi güven aralığına nasıl ulaştığımızı tekrarlayalım:
de rs no
1. önce ̂ (X1, …, Xn) tahmin edicileri ve ̂’in dağılımını elde et, 2. aşağıdaki koşulu sağlayacak olan a(θ) ve b(θ)’yi bul
3. θ’yı çözerek olayı yeniden yaz
m
4. A(X), B(X) değerlerini gözlemlenen örneklem X1, …,Xn’i kullanarak bul, 5. 1 – ’lık güven aralığı aşağıdaki ile verilir:
ee
1.1 Önemli Durumlar 1. ̂ normal dağılımlıdır, Var( ̂) oluşturulabilir
bilinmiyor: Güven aralığı aşağıdaki gibi
̂̂ tahmin edicisi var:
om
2. ̂ normal dağılımlıdır, Var( ̂) bilinmiyor fakat ̂ 2 = Güven aralığı aşağıdaki ile verilir
Burada tn-1(p)değeri n -1 serbestlik dereceli t-dağılımının pnci yüzdeliğidir.
ri
.c
3. ̂ normal değil, fakat n > 30 veya daha fazla: öyle anlaşılıyor ki gördüğümüz bütün tahmin ediciler(unifom dağılım için örneklemin maksimumu hariç) merkezi limit teoremine göre asimptotik olarak normaldir (Merkezi Limit Teorisini nasıl uygulayacağımız konusu her zaman açık değil değildir). Bu durumda güven aralığını 2’deki gibi oluştururuz.
tla
4. ̂ normal değil, n küçük: eğer ̂’in p.d.f.si biliniyor ise, 1’nci kullanılarak güven aralığı oluşturulabilir(son örnekteki gibi). Eğer p.d.f. bilinmiyor ise, yapabileceğimiz bir şey yok. N( ,
) olduğu için,
de rs no
2nci durumda t dağılımını kullanmamızın nedeni şudur: ̂
Diğer taraftan, şunu kontrol edebiliriz
m
burada ̂ genellikle ortalaması sıfır ve varyansı σ2 olan normal hataların karelerinin toplamı için yazılır. Dolaysıyla,
ee
Ayrıca 4’ün genel durumunda (ve uniform içeren son örnekte), ̂ (X1, …, Xn) istatistiğinin herhangi bir şeyin sapmasız ve tutarlı tahmin edicisi olmasını istemedik, fakat gerçek parametrede kesin monoton olmak zorundaydı. Ancak, normal durumlar( ̂’in varyansı hakkında bilgi sahip olsak ta olmasak ta) ve durum 3 için güven aralığını oluşturduğumuzda, tutarlı olmak zorundaydık.
2 Hipotez Testi
om
2.1 Ana Fikir
Fikir: bir kitleden elde edilen bir rasgele örneklem verilmiş olsun, kitle hakkındaki bazı iddialara karşı çıkmak için yeterince kanıt var mıdır? Önce bazı önemli kavramları tanımlayalım:
.c
ri
bir hipotez bir kitledeki (popülasyon) bir rasgele değişkenin dağılımı hakkında bir varsayımdır sabit(maintained) hipotez test edilemeyen ancak ne olursa olsun doğru olduğu varsayılan bir hipotezdir. test edilebilir hipotez rasgele bir değişkenden elde edilen kanıtlara göre test edilebilir ve test edilecek bir hipotezdir. boş hipotez test edilecek bir hipotezdir alternatif hipotez boş hipotez dışında kitle hakkındaki diğer olası varsayımdır.
tla
de rs no
Test problemi X1, …, Xn örneklemini elde ettiğimiz yoğunluk f(x|θ0) ile ilintili olan 0 parametresinin 0 olası parametre değerler kümesine ait olup olmaması olarak ifade edilebilir. Genellikle boş hipotezi aşağıdaki gibi yazarız:
Bunu aşağıdaki alternatif hipoteze karşı test ederiz.
burada
m
Eğer 0 = { 0} sadece bir tek parametre değeri içerirse, hipotezin basit olduğunu söyleriz. Bir bileşik hipotez birden fazla değer veya bir sayı aralığının tümünü içeren bir kümesi tarafından verilir.
ee
Örnek 2. En yaygın kurulumuyla, H0 basittir ve HA bileşiktir. Örneğin, X N( , ), bilinmiyor ve μ = 0 olup olmadığını test etmek istiyoruz. Bu kurulumda, sabit hipotez Xi’ler i.i.d. normal ve Var(Xi) = ’dir. Boş hipotez H0 : μ = 0 (basit)’tir ve bunu alternatif hipotez H0 : μ 0 (bileşik)’e karşı test etmek istiyoruz.
α = P(1.Tip Hata) = P(Ret|H0)
om
Hipotezi test etmek için veri toplamak zorundayız ve veriye dayanarak boş hipotezi ret veya kabul edebiliriz. Ancak, verimiz her zaman bütün kitlenin bir örneklemi olduğu için, verdiğimiz kararlarda hata yapma ihtimalimiz vardır. Belirli bir test için 1. Tip hata yapma olasılığı şöyle verilir:
Bu testin güvenirlik düzeyi (aynı zamanda büyüklüğü) olarak adlandırılır. Eğer aşağıdaki ifadeyi yazarsak,
.c
β = P(2.Tip Hata) = P(Ret etme|HA)
de rs no
tla
ri
o zaman 1 – testin gücüdür.
Genellikle testin güvenirlik düzeyini oluştururuz, örneğin % 5 gibi ve daha sonra güvenirlik testi veri iken en yüksek güce sahip bir test oluşturmaya çalışırız. Dolaysıyla sanki boş hipotezi ret etmeme hatasını yapmayı tercih ediyoruz.
ee
m
Bunun arkasındaki mantık ilk başta sezgisel algılamaya ters gibi görünür halbuki bu gözlemlerden, bütün kitleye genelleştirilen ampirik sorundan veya bilimsel kanundan kaynaklanmaktadır. Bilimsel kanun: kitle hakkındaki hipotezimizi doğrulayan birkaç an yakalamış bile olsak, uymayan bir an gözlemlemek çürütmek için yeterlidir. Bu nedenle ampirik kanıtları sadece bir hipotezi ret etmek için kullanabiliriz, hiçbir zaman kanıtlamak için değil. Aşağıdaki Bertand Russel’ın meşhur bir örneğidir: “Evcilleştirilmiş hayvanlar kendilerini normalde besleyen kişileri gördüğü zaman yiyecek beklerler. Oldukça kaba bu davranışın tekdüzeliği, yanılgıların sorumlusu olduğunu biliriz. Tavukları ömürleri boyunca her gün besleyen adam sonunda onun boynunu koparır, sanki doğanın tekdüzeliği tavuklar için yararlaymış bakış açısına ince bir ayar yapar gibi. [..] Gerçek olan şu ki, bir şeyin belli sayıda tekrarlanmış olması hayvanlarda ve insanlarda aynı şeyin tekrar olacağı beklentisinin oluşmasına neden olur. İçgüdümüz kesinlikle yarın güneşin doğacağına bizi inandırır, fakat beklenmeyen bir şekilde boynu kopartılan tavuktan daha iyi durumda olmayabiliriz.” (Rusell, The Problems of Philosophy) ,
om
Bu nedenle, eğer, örneğin, belli bir ilacın hastanın durumunu belirgin bir şekilde iyileştirdiği konusunda bir kanıt sunmak istersek, boş hipotez H0 : “ilacın hastanın durumu üzerinde hiçbir etkisi yoktur” olur. Bu hipotezi ret etmek, ilacın etkisi konusunda çok güçlü kanıt bulduğumuz anlamına gelir. Yani her zaman boş hipotezi çürütmek istediğimiz ifade olarak belirliyoruz.
ri
.c
Başka bir örnek olarak, hukuk sistemini düşünebiliriz: “bir süreçte, iki tarafta “suçlu” veya “suçsuz” şeklinde bir sonuca ulaşmak için ortaya veri (kanıtlar) sürerler ve jüri yine de iki hata yapabilir: masum bir kişiyi suçlu bulabilir (1. Tip Hata) ya da bir suçluyu suçsuz bulabilir (2. Tip Hata). Modern hukuk sistemlerinin çoğu yargılamaları kişinin suçsuz olduğu varsayımına dayandırır, yani şüphelinin “suçu ispatlanan kadar masum” olduğu varsayılır. Başka bir ifade ile, suçu ispatlamanın yükü yargıca veya jüriye, şüphelinin gerçekten de suçlu olduğu konusunda ikna etmek için yeterli kanıttı ortaya koymak zorunda olan savcıya biner.
de rs no
tla
Hipotez testlere göre alınan kararlar, alternatifin doğru olmasına karşı boş hipotezin doğrulu için başta belirtilen olasılığı görmezlikten geldiğimiz manasında optimal olmak zorunda değildir ve 1. Tip ile 2.Tip hataları yapmanın ilgili maliyetlerini hesaba katmazlar. Hukuk sistemi için, ön suçlamayı (preemption) savunanlar bir çok konuda, örneğin terörizm gibi, 2. Tip hatanın çok pahalıya mal olabileceğini sık sık tartışırlar. Bu nedenle hukuk sistemi bazı vakalarda suçsuzluk varsayımı için istisnalara izin vermelidir.
ee
m
Toparlayacak olursak, X1, …, Xn örnekleminin her bir olası olayını “ret etme” ile “ret etmeme” kararına bağlayacak bir kural formüle etmek istiyoruz.
Olasılık ve İstatistik Ders Notları 21
om
Konrad Menzel 5 Mayıs 2009
.c
Hipotez Testi Oluşturmak
ri
’i destekler. Bir Eğer Xi SX desteğine sahipse, o zaman örneklem X = (X1, …, Xn) testin kritik bölgesi kendisi için boş hipotezi ret edeceğimiz örneklemin desteğinin bölgesidir.
tla
İzleyen örnek bir standart kurulumun en önemli unsurlarını göstermektedir, bu nedenle ona çok dikkatli bakmanız ve aynı adımların benzer problemlere nasıl uygulanacağını öğrenmeniz gerekiyor.
ee
m
de rs no
Örnek 1. Varsayalım ki X1, …, Xn bir i.i.d. örneklemdir, Xi N( ,4)’tür ve HA : μ = 1’e karşı H0 : μ = 0’ı test etmekle ilgileniyoruz. Önce n = 2 durumuna bakalım:
Kaynak: MIT OpenCourseWare
= 0 ile uyumlu olmayacak kadar “çok büyük” X1 + X2’nin değerlerini ret edecek bir test tasarlayabiliriz. Bu ret bölgesini aynı zamanda bir doğrunun üst tarafında da gösterebiliriz. Eğer n büyük ise bu gösterimin kullanımı çok kolaydır, çünkü ret bölgesini doğrudan X1, …, Xn ile hayal etmek çok zordur. Ancak, resmi n’den tek boyuta indirgeyerek, kritik
bölgelerin garip şekillerini belirme yetimizi kaybedebiliriz, ancak onlar pratik uygulama açısından çokta yararlı değildirler zaten. n
om
Böylece bu örnekte, test sürecini bir test istatistiğine dayandıracağız, T n(X1, …, Xn) = ve Tn’nin büyük değerleri için ret edeceğiz.
de rs no
tla
ri
.c
k’yi nasıl seçeceğiz? iki hata türü arasında değiş-tokuş ile kaşı karşıya gelmek zorunda kalacağız. Varsayalım ki şimdi n = 25’tir. Xi N( ,4) olduğu için,
Kaynak: MIT OpenCourseWare
ee
m
Şimdi 1. Tip ve 2. Tip hataların olasılıklarını hesaplayabiliriz.
Bu durumda, , k’den herhangi birini belirlemek diğer ikisini belirler, ve o seçim 1.nci ve 2.nci Tip hataların olasılıkları arasında belirli bir değiş-tokuş içerir – eğer k’yi yükseltirsek, güvenirlik düzeyi düşer, aynı şekilde 1 – gücüde düşer. Spesifik olmak gerekirse, eğer k = 3/5 olarak seçersek, ≈ %6.7 ve ≈ %15.87 olur.
Farklı örneklem büyüklükleri için 1.nci ve 2.nci Tip hataların olasılıkları arasındaki değiştokuşu çeşitli k seçimleri için aşağıdaki gibi gösterebiliriz:
om
Düşük bir k değeri daha büyük güç ve aynı zamanda daha büyük güvenirlik düzeyi verir, böylece k’yi yükseltmek bizi grafik üzerinde sola doğru kaydırır.
k’yi nasıl seçmemiz gerekir? Normal kurulumda önceliğin yanlış ret etme olasılığı ’nın kontrol edilmesine verildiğini hatırlayınız, bu nedenle k’yi 1. Tip hata olasılığını kabul edilebilir bir düzeyde tutacak şekilde seçeceğiz, genellikle bu %5 veya %1’dir.
de rs no
tla
ri
.c
Elbette, n iken, sabit için testin gücü, 1 – 1’e doğru gider. Bir teamül olarak, genellikle = %5 düzeyindeki bir ret ediş “anlamlılık ”tır, benzer şekilde = %1’de ret etme “yüksek anlamlılık “tır.
m
Kaynak: MIT OpenCourseWare
ee
Örnek 2. Bir önceki örnekte, sabit hipotez μ ∈ {0, 1} idi, fakat bu çok yapay bir varsayımdı ve genellikle bunun böyle bir durum olduğuna inanmak için bir nedenimiz yoktur. Daha önce olduğu gibi, varsayalım ki X1, …, Xn bir i.i.d. örneklemdir, ancak şimdi aşağıdakini test edeceğiz: H0 : μ = 0
HA : μ ≠ 0 Şimdi HA iki yönlü bir bileşik hipotezdir (yani alternatif altında, birkaç değer alabilir, 25,
om
bazıları ’ın sollunda bazılar sağındadır). Yine sadece örneklem ortalamasına, dayalı bir teste bakacağız – Kritik bölge şimdi nasıl görünür?
de rs no
tla
ri
.c
Sezgisel olarak, ’in hem büyük ve hem küçük değerleri için H0’ı ret etmek anlamalıdır. Yani eğer boş hipotez doğru ise, büyük ihtimalle her iki kuyrukta da değerler görmeyeceğiz. Alternatif hipotez, μ’nün 0’dan ya büyük ya da küçük olduğuna dair kanıtlar ile ilgilendiğimizi ifade etmektedir.
Kaynak: MIT OpenCourseWare
m
Bu nedenle iki değer yani k1 ve k2’yi belirleyeceğiz ki böylece
ee
nedir? Alternatif tek bir olasılık kanunu belirlemediği ve onun yerine onların sürekliliğini verdiği için, çok iyi tanımlanmamıştır, yani sabit bir için şu yazılır:
Genellikle arzulanan bir güvenirlik düzeyi için, k1, k2’yi boş hipotezi tarafından varsayılan değer etrafında simetrik olarak seçeriz (normal dağılımın bir tek tepe noktası ve simetrik olduğu için, bu da kritik bölgeyi olabildiğince büyük yapar).
om
Son örnek varyansı bilinen bir normal kitleden elde edilen için güven aralığını oluşturma yolunu hatırlatmalı: Yukarıdaki süreç aslında aşağıdakine benzerdir:
.c
1. için bir 1 – ’lık güven aralığı [A(X), B(X)] oluştur (Durum 1, son dersteki notlara bakınız) 2. Eğer μ0 = 0 [A(X), B(X)] ise, H0'ı ret et
de rs no
tla
ri
Dolaylı olarak boş hipotez altında Pθ(A(X) < θ
Kaynak: MIT OpenCourseWare
1. Testlerin Değerlendirilmesi ve Oluşturulması
m
Tahmin ile ilgili tartışmamızda olduğu gibi, önce genel fikri tanıttık sonra birkaç örnek gördük. Şimdi ise testler arasında nasıl seçim yapacağımızı ve onları baştan itibaren nasıl oluşturacağımızı göreceğiz.
ee
1.1. Testlerin Özelikleri
Herhangi bir testin güvenirlik düzeyi = P(1. Tip) ve onun gücü 1 – = 1 – P(2. Tip) ile ilgileniriz. Eğer her iki H0 ve HA basit hipotez ise, ve verili bir α için iyi tanımlanmıştır ve en basitinden 1 – ’ sı en yüksek, yani en güçlü, testi seçeriz.
om
Eğer HA bileşik ve H0 basit ise, verili bir büyüklüğünde 1 – β(θ) = 1 – P(2.Tip Hata|θ) güç fonksiyonlarını karşılaştırmak için bir metriğe ihtiyacımız vardır. Bir test en azından her θ ∈ HA noktasında diğer herhangi benzer büyüklükteki bir test kadar güçlü olduğu zaman, o test uniform(tekdüze) olarak en güçlüdür (UMP). Genel olarak, bir UMP’nin var olması gerekmez. Örnek 3. Bazen uniform olarak güçlü bir test bulmak olasıdır: Varsayalım ki Xi ve aşağıdaki hipotezi test etmek ile ilgileniyoruz:
.c
H0 : μ = 0
N( ,4)
HA : μ > 0
ri
HA : μ = 1’e karşı H0 : μ = 0 için en güçlü test eğer > k ise ret et formunu alan testtir. μA > μ0 olduğu sürece μA ne olursa olsun testin genel formu değişmez. Bundan ötürü, > k ise”
tla
HA : μ = 1’e karşı H0 : μ = 0 için en güçlü test te aynı zamanda “ret et eğer formunu alır.
de rs no
Aşağıdaki önemli sonuçta, H0 : μ = μ0 boş hipotezi altında X1, …, Xn örneklemin bileşik p.d.f.si f0(x) = f0(x1, …, xn) ve HA : μ = μA altında örneklemin bileşik p.d.f.si fA(x) olarak ifade edilir. Önerme 1 (Neyman-Pearson Lemma). fA’ya karşı f0’ın testinde (her iki H0 ve HA basit hipotezdir), kritik bölge
herhangi bir k
0 tercihinde en güçlüdür.
m
k seçiminin testin belirtilen güvenirlik düzeyi ’ya bağlı olduğunu not ediniz. Bu, eğer X1, …, Xn örneklemi için aşağıdaki olabilirlik oranı düşük ise, en güçlü test ret eder anlamına gelir.
ee
Yani, veri büyük bir olasılıkla HA altında oluşmuştur.
om .c ri tla
Kaynak: MIT OpenCourseWare
de rs no
Neyman-Pearson Lemma’da doğrudan verilen en güçlü test, örnek uzayda her x noktasında (burada integraller çok boyutludur, yani tipik olarak x ∈ n ) büyüklük
ve güç
arasındaki değiş-tokuşu çözer. ve 1- ifadelerinden olabilirlik oranı
’in kritik
m
bölgeye x eklemenin “fiyatı”nı CX bölgesinden bir nokta eklemenin güçteki kazanımına nispetten cinsinden ne kadar “ödeyeceğimiz”i verdiğini görebiliriz.
ee
Dolaysıyla, “en ucuz” –yani küçük olabilirlik oranına sahip- x noktalarını ekleyerek kritik bölgeler oluşturmaya başlamalıyız. O zaman, olabilirlik oranına göre sıralanmış x değerlerinden aşağı doğru gideriz ve ’nın büyüklüğü istenilen düzeye ininceye kadar nokta seçmeye devam ederiz. Örnek 4. Bir sanık (D) kapkaççılıktan mahkemededir. Mahkûm etmek için, jüri %95 olasılıkla kararın doğru olduğuna inanmak zorundadır.
suçsuz 0.3
olabilirlik oranı 1/2
0.9
0.3
1/3
0.4
0.1
1/4
ri
3.
suçlu 0.6
.c
D polisin geldiğini görünce kaçar D suç işlendiğinde başka yerde olduğunu kanıtlayamaz (mazeret) D’nin evininin yakınında boş çanta bulunur
1. 2.
om
Savcının ortaya koyabileceği veya koyamayacağı üç parça potansiyel kanıt vardır. Bir duruşmada jüri kendisine gösterilen üç parçadan sadece birine dayanarak mahkûmiyet kararı verir. Aşağıdakiler potansiyel kanıt parçalarıdır, karşılıklı bağımsızlık varsayılmıştır. Tabloda ayrıca sanığın suçlu olduğu veri iken her parçanın incelenmesi olasılığı ile sanığın suçlu olmadığı veri iken her parçanın incelenmesi olasılığı da verilmiştir.
de rs no
tla
Neyman-Pearson gösterimine göre, x kanıt parçalarının 2 3 olası kombinasyonlarından herhangi birisi olabilir. Bağımsızlık varsayımını kullanarak, bütün ipuçlarının kombinasyonlarını, her bir ipucunun her hipotez altındaki ilgili olabilirliklerini ve ilgili olabilirlik oranlarını listeleyebiliriz. Listeyi üçüncü kolondaki olabilirlik oranına göre sıraladım. Son kolona sıralanmış x kombinasyon listesine göre birikimli toplamı ekledim:
Suçlu fA(x) Suçsuz(f0(x)
her üç ipucu mazeret, bulunan çanta kaçış, mazeret mazeret kaçış, bulunan çanta bulunan çanta kaçış hiçbirisi
216/1000 144/1000 324/1000 216/1000 24/1000 16/1000 36/1000 24/1000
9/1000 21/1000 81/1000 189/1000 21/1000 49/1000 189/1000 441/1000
(k)
0.0417 0.1458 0.25 0.875 0.875 3.0625 5.25 18.375
9/1000 30/1000 111/1000 300/1000 321/1000 370/1000 559/1000 1
m
1. 2. 3. 4. 5. 6. 7. 8.
Olabilirlik Oranı r(x) =
ee
Jüri, %5’ten daha düşük olasılıklı yanlış mahkûmiyete karşın (yani sanık masum ise), eğer doğru ise en az %95 güvenilirlikle mahkûmiyet kararı verir. Hipotez testi terminolojisine göre, mahkûmiyet kararı, = %5 büyüklüğündeki en güçlü testi kullanarak sanığın masum olduğu boş hipotezinin ret edilmesi ile ilintilidir. Son kolondaki (k) değerlerine bakınca, ilk iki kanıttın kombinasyondan fazla kanıt eklemek yanlış mahkûmiyet olasılığı ’yı %5’ten fazla artırdığını okuyabiliyoruz. Dolaysıyla, jüri suçlunun polisi gördüğünde kaçıp kaçmamasına bakmadan, başka
yerde olduğunu ispatlamamasından ve evinin yakınında bulunan çantadan ötürü sanığı mahkûm etmelidir. Prensip olarak, jüri, ilaveten, sanığın kaçışını, bulunduğu yeri ispatlamamayı ve çantanın bulunmamasını rasgele belirleyebilir (3. durum): Eğer bu ≈
olasılıkla mahkum etmiş olsaydı, yanlış mahkumiyetin
om
durumda jüri sanığı
olasılığı tam olarak %5 olurdu, fakat bu muhtemelen hukuk sistemi tarafında kabul edilebilir bir uygulama olmazdı.
.c
Örnek 5. Ortalamaya dayalı bir testin normal durumda en güçlü test olduğunu şimdi gösterebiliriz. Varsayalım ki Xi N( , 4) ve HA : μ = 1’e karşı H0 : μ = 0’ı test edeceğiz. Burada 25 gözlemli i.i.d. olan bir X1, …, X25 örneklemimiz var.
de rs no
tla
ri
Gözlemler i.i.d. normal oldukları için, gözlemlenen örnekleme göre hesaplanan olabilirlik oranı aşağıdaki ile verilir:
ee
m
r(X)’in örneklem ortalaması 25 aracılığıyla örnekleme bağlı olduğunu ve 25’te kesin azalan olduğunu görebiliriz. Bu nedenle, en güçlü testin kritik bölgesi aşağıdaki formu alır:
Olasılık ve İstatistik Ders Notları 22
om
Konrad Menzel
.c
7 Mayıs 2009
herhangi bir k
tla
ri
Önerme 1 (Neyman-Pearson Lemma). fA’ya karşı f0’ın testinde (her iki H0 ve HA basit hipotezdir), kritik bölge
0 tercihinde en güçlüdür.
de rs no
k seçiminin testin belirtilen güvenirlik düzeyi ’ya bağlı olduğunu not ediniz. Bu, eğer X1, …, Xn örneklemi için aşağıdaki olabilirlik oranı düşük ise, en güçlü test ret eder anlamına gelir.
ee
m
Yani, veri büyük bir olasılıkla HA altında oluşmuştur.
om .c ri tla
Kaynak: MIT OpenCourseWare
de rs no
Neyman-Pearson Lemma’da doğrudan verilen en güçlü test, örnek uzayda her x n noktasında (burada integraller çok boyutludur, yani tipik olarak x ) büyüklük
ve güç
arasındaki değiş-tokuşu çözer. ve 1- ifadelerinden olabilirlik oranı
’in kritik
m
bölgeye x eklemenin “fiyatı”nı CX bölgesinden bir nokta eklemenin güçteki kazanımına nispetten cinsinden ne kadar “ödeyeceğimiz”i verdiğini görebiliriz.
ee
Dolaysıyla, “en ucuz” –yani küçük olabilirlik oranına sahip- x noktalarını ekleyerek kritik bölgeler oluşturmaya başlamalıyız. O zaman, olabilirlik oranına göre sıralanmış x değerlerinden aşağı doğru gideriz ve ’nın büyüklüğü istenilen düzeye ininceye kadar nokta seçmeye devam ederiz. .
Örnek 1. Bir sanık (D) kapkaççılıktan mahkemededir. Mahkûm etmek için, jüri %95 olasılıkla kararın doğru olduğuna inanmak zorundadır.
suçsuz 0.3
olabilirlik oranı 1/2
0.9
0.3
1/3
0.4
0.1
1/4
ri
3.
suçlu 0.6
.c
D polisin geldiğini görünce kaçar D suç işlendiğinde başka yerde olduğunu kanıtlayamaz (mazeret) D’nin evininin yakınında boş çanta bulunur
1. 2.
om
Savcının ortaya koyabileceği veya koyamayacağı üç parça potansiyel kanıt vardır. Bir duruşmada jüri kendisine gösterilen üç parçadan sadece birine dayanarak mahkûmiyet kararı verir. Aşağıdakiler potansiyel kanıt parçalarıdır, karşılıklı bağımsızlık varsayılmıştır. Tabloda ayrıca sanığın suçlu olduğu veri iken her parçanın incelenmesi olasılığı ile sanığın suçlu olmadığı veri iken her parçanın incelenmesi olasılığı da verilmiştir.
de rs no
tla
Neyman-Pearson gösterimine göre, x kanıt parçalarının 2 3 olası kombinasyonlarından herhangi birisi olabilir. Bağımsızlık varsayımını kullanarak, bütün ipuçlarının kombinasyonlarını, her bir ipucunun her hipotez altındaki ilgili olabilirliklerini ve ilgili olabilirlik oranlarını listeleyebiliriz. Listeyi üçüncü kolondaki olabilirlik oranına göre sıraladım. Son kolona sıralanmış x kombinasyon listesine göre birikimli toplamı ekledim:
Suçlu fA(x) Suçsuz(f0(x)
her üç ipucu mazeret, bulunan çanta kaçış, mazeret mazeret kaçış, bulunan çanta bulunan çanta kaçış hiçbirisi
216/1000 144/1000 324/1000 216/1000 24/1000 16/1000 36/1000 24/1000
9/1000 21/1000 81/1000 189/1000 21/1000 49/1000 189/1000 441/1000
(k)
0.0417 0.1458 0.25 0.875 0.875 3.0625 5.25 18.375
9/1000 30/1000 111/1000 300/1000 321/1000 370/1000 559/1000 1
m
1. 2. 3. 4. 5. 6. 7. 8.
Olabilirlik Oranı r(x) =
ee
Jüri, %5’ten daha düşük olasılıklı yanlış mahkûmiyete karşın (yani sanık masum ise), eğer doğru ise en az %95 güvenilirlikle mahkûmiyet kararı verir. Hipotez testi terminolojisine göre, mahkûmiyet kararı, = %5 büyüklüğündeki en güçlü testi kullanarak sanığın masum olduğu boş hipotezinin ret edilmesi ile ilintilidir. Son kolondaki (k) değerlerine bakınca, ilk iki kanıttın kombinasyondan fazla kanıt eklemek yanlış mahkûmiyet olasılığı ’yı %5’ten fazla artırdığını okuyabiliyoruz. Dolaysıyla, jüri suçlunun polisi gördüğünde kaçıp kaçmamasına bakmadan, başka
yerde olduğunu ispatlamamasından ve evinin yakınında bulunan çantadan ötürü sanığı mahkûm etmelidir. Prensip olarak, jüri, ilaveten, sanığın kaçışını, bulunduğu yeri ispatlamamayı ve çantanın bulunmamasını rasgele belirleyebilir (3. durum): Eğer bu olasılıkla mahkum etmiş olsaydı, yanlış mahkumiyetin
om
durumda jüri sanığı
olasılığı tam olarak %5 olurdu, fakat bu muhtemelen hukuk sistemi tarafında kabul edilebilir bir uygulama olmazdı.
1. Testlerin Oluşturulması
tla
ri
.c
Genel olarak, optimal bir testin nasıl oluşturulması gerektiği sorusunun doğrudan bir cevabı yoktur. Neyman-Pearson Lemma bir basit hipotezin diğerine karşı test edilmesinin en güçlü testi için basit bir reçete vermektedir, fakat gerçek dünya uygulamalarının çoğunda alternatif hipotez bileşiktir. Aşağıdaki öneriler her zaman tartışmasız çok güçlü bir test vermeyen (bazen var bile olmayan) ama genellikle kabul edilebilir sonuçlar doğuran işlemler listesidir.
de rs no
1. Her her iki H0 ve HA basit ise, Neyman Pearson Lemma bize aşağıdaki gibi bir istatistik oluşturmamızı
ve uygun şekilde seçilmiş bazı k’ler için eğer T(X) > k ise ret etmemizi söyler(genellikle k, testin büyüklüğü kesin olacak şekilde seçilir). Bu test aynı zamanda olabilirlik oranı testi (LRT) olarak ta adlandırılır.
ee
m
2. eğer H0 : θ = θ0 basit ve HA : θ 0 bileşik ve 2- taraflı ise, bir ̂ tahmin edici kullanarak θ için 1 – α’lik güven aralığı [A(X), B(X)] (genellikle simetrik) oluşturabiliriz. Sonra eğer θ0 ∉ [A(X), B(X)] ise ret ederiz. Bu bize H0 için büyüklüğünde bir test verir. 3. eğer H0 : θ = θ0 basit t ve HA : θ 0 bileşik ve tek-taraflı ise, θ için simmetrik 1 – 2α’lık güven aralığı oluşturabiliriz ve sadece eğer boş hipotez değeri güven aralığının dışında ise ve ilgili büyüklüğünü elde etmek için ilgili kuyrukta ise ret ederiz. 4. ya H0 : θ 0 ya da HA : θ 0 (ya da her ikisi) bileşik ise, aşağıdaki istatistiği tanımla
ve uygun şekilde seçilmiş bazı k’ler için eğer T(X) > k ise ret et. Bu tür testler genelleştirilmiş olabilirlik oranı testi (GLRT) olarak adlandırılır.
Son durumu daha önce tartışmadığımız için, bazı açıklamalar yapmak gerekecek:
om
test akla uygundur çünkü, eğer veri H0’ı desteklemezse T(X) küçük olma eğilimde olacaktır. yoğunluklar her zaman pozitiftir, bu nedenle istatistik 0 ile 1 arasında olacaktır (çünkü üzerinde yoğunluğu maksimize ettiğimiz paydaki küme, üzerinde yoğunluğu maksimize ettiğimiz paydadaki kümeyi içerdiği için) boş hipotez altındaki test istatistiğin kesin dağılımını bilmemiz gerekir, böylece uygun bir kritik değer k’yi bulabiliriz. Dağılımların çoğu için, onu büyük örneklemlerle elde ederiz:
.c
burada p = dim(
A)
– dim(
0).
tla
GLRT LRT’nin optimal özeliğini paylaşmak zorunda değildir, doğrusu bileşik alternatif hipotezli bu kurulumda, tartışmasız çok güçlü test genellikle var olmayabilir de.
de rs no
0
ri
-2logT(X)
2. Örnekler
Örnek 2. Varsayalım ki doğum sırasında bebeklerin ağırlığı (pound cinsinden) X ~ N(7, 1)’e göre dağılmaktadır. Diyelim ki eğer bir doğum uzmanı bebek bekleyen bir anneye zayıf bir diyet önerisinde bulunsaydı, bu öneri bebeğin ortalamadan 1 pound daha hafif (fakat aynı varyansa sahip) doğmasına sebep olurdu. Canlı doğan 10 kişilik bir örneklem için, 10 = 6.2’yi gözlemleriz. Doğum uzmanı kötü öneride bulunmuyor boş hipotezine karşı kötü öneride bulunuyor alternatif hipotezi için %5’lik bir testi nasıl oluştururuz? Elimizde
m
H0 : = 7’ye karşı HA : = 6
var.
ee
Normal dağılım için, bu basit testi sadece örneklem ortalamasına, daha optimal olduğunu göstermiştik, yani T(x) =
10.
H0 altında,
10
10,
dayandırmanın
~ N(7, 0.1) ve HA
altında 10 ~ N(6, 0.1)’dir. Eğer 10 < k ise test ret eder. Bu nedenle test büyüklüğü %5 olacak şekilde k’yi seçmeliyiz, yani
10
= 6.2 < 6.48 = k olduğu için ret ederiz.
.c
Bundan ötürü,
om
burada (.) standart normal c.d.f.dir. Bu nedenle aşağıdaki denklemin tersini alarak k’yi elde ederiz
Bu testin gücü nedir?
Varsayalım ki gücü en az %99 olan bir test istiyoruz, gözlemlemek zorunda olduğumuz yeni doğan bebek sayısı n en az ne kadar olmalıdır? n ile değişecek tek şey örneklemin varyansıdır, bu nedenle bu örneğin birinci bölümünden, kritik değer kn = 7 –
√
tla
ri
’olduğunu buluruz, diğer taraftan
n’e
dayalı testin gücü ve
de rs no
kritik değer kn aşağıdaki ile verilir:
1–
0.99 olarak ayarlayınca şu koşullu elde ederiz:
m
Bu tür güç hesaplamaları genellikle bir istatistiki deney veya bir anket çalışması planlandığında yapılır – örneğin, belli bir ilacın büyüklüğünün etkisini araştırmak için bir ilaç testinde kaç tane hasta kullanacağımızı belirlemek gibi. Çok sayıda kişi üzerinde çalışmak veya anket yapmak çoğu zaman maliyetlidir, bu nedenle yeterince büyük bir olasılıkla anlamlı değişiklikleri bulabilmek için bir deneyin büyüklüğünün ne olması gerektiğini önceden bilmek isteriz.
ee
Örnek 3. Varsayalım ki önceki örneğin kurulumuna olduğu gibi sahibiz, fakat varyansı bilmiyoruz. Onun yerine, S2 = 1.5 gibi bir tahminimiz var. Testi nasıl yapardınız? Daha önce tartıştığımız gibi,
Problemde verilen rakamları yerine koyarsak, T = -
√
om
istatistiği, eğer gerçek ortalama 0 ise n -1 serbestlik dereceli bir öğrenci t-dağılımıdır. Dolaysıyla eğer aşağıdaki koşul sağlanırsa, H0’ ı ret ederiz:
-2.066 olur. Bu da t9(0.05)
= -1.83’ten küçüktür.
tla
ri
.c
Örnek 4. Xi ~ Bernoulli(p), i = 1,2,3, olsun. Yamuk bir parayı birbirinden bağımsız olarak üç kere fırlatıyoruz ve eğer tura gelirse Xi = 1’dir, diğer durumda Xi = 0’dır. HA : p = 2/3’e karşı H0 : p = 1/3’ü test etmek istiyoruz. Her iki test basit olduğu için, olabilirlik oran testini kullanabiliriz,
de rs no
Bu nedenle eğer aşağıdaki koşul gerçekleşirse ret ederiz.
burada
3
’ye eşittir. k’yi belirlemek için, H0 ve HA altında
3
’in olası bütün
m
değerlerini ve olasılıklarını listeleyelim:
Böylece eğer testin büyüklüğünün ∝ = 1/27’ye eşit olmasını arzuluyorsak, sadece ve
ee
sadece 3 > 2/3 ise ret edebilirdik. Aynı sonucu doğuracak şekilde k = 2/3’ü seçebiliriz. Bu testin gücü şuna eşittir:
om
Örnek 5. Varsayalım ki aşağıdaki fonksiyon tarafından türetilmiş bir tek gözlemimiz var,
+ toplamını minimize eden test prosedürünü bulunuz – eğer X = 0.6 ise ret
tla
ri
.c
eder miyiz? Sadece bir X gözlemimiz olduğu için, X cinsinden kritik bölgeyi oluşturmak çok karmaşık değildir, bazı ileri düzeyde istatistikleri bulmaya çalışmak çok şey kazandırmayacaktır (ancak Neyman-Pearson burada işe yarayabilir). Yoğunluk grafiğine bakarak, k kritik değerlerinde küçük X değerleri için testin ret etmesi gerektiği konusunda ikna olabiliriz. Tip I ve Tip II’nin olasılıkları, sırasıyla, 0 k 1 için şöyledir,
de rs no
ve
Bu nedenle, k üzerinden hata olasılıklarını minimize ederiz.
Minimize edilmiş terimin türevin alıp sıfıra eşitlersek,
m
Dolaysıyla, eğer X < 1/2 ise ret etmeliyiz ve = 1/4’tür. Ancak, X = 0.6 için H0’ı özelikle ret etmiyoruz.
ee
k=√
Bütün testler arasında ∝ 0.1 gibi, en küçük değerli testi bul. nedir? X = 0.4 olsa ret eder miydiniz? – önce k için (k) = 0.1’i çözeriz. Yukarıdaki formülü kullanarak, k = √ olur. Dolaysıyla,
0.316 < 0.4 olduğu için, X = 0.4 için H0’ı ret etmeyiz.
om
Örnek 6. X geğişkeni Xi ~ U[0, θ] dağılımlıdır ve varsayalım ki bir i.i.d. örneklem X1, …, Xn’i gözlemledik ve aşağıdakini test etmek istiyoruz
ri
tla
Olabilirlik fonksiyonu aşağıdaki ile verilir:
0’ı
.c
İki seçeneğimiz var: θ için bir 1- α’lık güven aralığını oluşturabiliriz ve eğer kapsamazsa ret ederiz. Diğer bir seçenek olarak, bir GLRT testi oluşturabiliriz
de rs no
T’nin payı maksimize edici üzerinden hesaplanan olabilirlik ile elde edilir. Bu maksimum olabilirlik tahmin edicidir, ̂MLE = X(n) = max{ X1, …, Xn }, yani
Dolaysıyla
m
Test büyüklüğünü arzulanan düzeye eşitleyen istatistiğin kritik değeri k’yi bulmak için, = 0 boş hipotezi altındaki dağılımı bilmek zorundayız – bunun için sıra istatistiği bölümüne bakmamız gerekebilir.
ee
Bir dip not olarak, daha önce büyük n’ler için, boş hipotez altında GLRT’nin bir ki-kare, 2 , dağılımı olduğunu söylediğimiz halde, bu örnek için bunun doğru olmadığı anlaşılıyor çünkü gerçek parametre değerinde yoğunluk sürekli değildir.
Olasılık ve İstatistik Ders Notları 23
om
Konrad Menzel
.c
12 Mayıs 2009
ri
1. Örnekler
Doğum uzmanı kötü öneride bulunmuyor boş hipotezine karşı kötü öneride bulunuyor alternatif hipotezi için %5’lik bir testi nasıl oluştururuz? Elimizde
de rs no
tla
Örnek 1. Varsayalım ki doğum sırasında bebeklerin ağırlığı (pound cinsinden) X ~ N(7, 1)’e göre dağılmaktadır. Diyelim ki eğer bir doğum uzmanı bebek bekleyen bir anneye zayıf bir diyet önerisinde bulunsaydı, bu öneri bebeğin ortalamadan 1 pound daha hafif (fakat aynı varyansa sahip) doğmasına sebep olurdu. Canlı doğan 10 kişilik bir örneklem için, 10 = 6.2’yi gözlemleriz.
H0 : = 7’ye karşı HA : = 6
var.
Normal dağılım için, bu basit testi sadece örneklem ortalamasına,
dayandırmanın
H0 altında, 10 ~ N(7, 0.1) ve HA < k ise test ret eder. Bu nedenle test büyüklüğü %5
daha optimal olduğunu göstermiştik, yani T(x) =
10.
m
altında 10 ~ N(6, 0.1)’dir. Eğer 10 olacak şekilde k’yi seçmeliyiz, yani
10,
ee
burada (.) standart normal c.d.f.dir. Bu nedenle aşağıdaki denklemin tersini alarak k’yi elde ederiz
Bundan ötürü,
10
= 6.2 < 6.48 = k olduğu için ret ederiz.
Bu testin gücü nedir?
Varsayalım ki gücü en az %99 olan bir test istiyoruz, gözlemlemek zorunda olduğumuz yeni doğan bebek sayısı n en az ne kadar olmalıdır? n ile değişecek tek şey örneklemin varyansıdır, bu nedenle bu örneğin birinci bölümünden, kritik değer kn = 7 –
√
’olduğunu buluruz, diğer taraftan
ri
0.99 olarak ayarlayınca şu koşullu elde ederiz:
tla
1–
dayalı testin gücü ve
.c
kritik değer kn aşağıdaki ile verilir:
n’e
om
de rs no
Bu tür güç hesaplamaları genellikle bir istatistiki deney veya bir anket çalışması planlandığında yapılır – örneğin, belli bir ilacın büyüklüğünün etkisini araştırmak için bir ilaç testinde kaç tane hasta kullanacağımızı belirlemek gibi. Çok sayıda kişi üzerinde çalışmak veya anket yapmak çoğu zaman maliyetlidir, bu nedenle yeterince büyük bir olasılıkla anlamlı değişiklikleri bulabilmek için bir deneyin büyüklüğünün ne olması gerektiğini önceden bilmek isteriz. Örnek 2. Varsayalım ki önceki örneğin kurulumuna olduğu gibi sahibiz, fakat varyansı bilmiyoruz. Onun yerine, S2 = 1.5 gibi bir tahminimiz var. Testi nasıl yapardınız? Daha önce tartıştığımız gibi,
ee
m
istatistiği, eğer gerçek ortalama 0 ise n -1 serbestlik dereceli bir öğrenci t-dağılımıdır. Dolaysıyla eğer aşağıdaki koşul sağlanırsa, H0’ ı ret ederiz:
Problemde verilen rakamları yerine koyarsak, T = -
√
-2.066 olur. Bu da t9(0.05)
= -1.83’ten küçüktür. Örnek 3. Xi ~ Bernoulli(p), i = 1,2,3, olsun. Yamuk bir parayı birbirinden bağımsız olarak üç kere fırlatıyoruz ve eğer tura gelirse Xi = 1’dir, diğer durumda Xi = 0’dır. HA : p = 2/3’e
om
karşı H0 : p = 1/3’ü test etmek istiyoruz. Her iki test basit olduğu için, olabilirlik oran testini kullanabiliriz,
3
’ye eşittir. k’yi belirlemek için, H0 ve HA altında
’in olası bütün
de rs no
tla
değerlerini ve olasılıklarını listeleyelim:
3
ri
burada
.c
Bu nedenle eğer aşağıdaki koşul gerçekleşirse ret ederiz.
Böylece eğer testin büyüklüğünün ∝ = 1/27’ye eşit olmasını arzuluyorsak, sadece ve sadece 3 > 2/3 ise ret edebilirdik. Aynı sonucu doğuracak şekilde k = 2/3’ü seçebiliriz. Bu testin gücü şuna eşittir:
m
Örnek 4. Varsayalım ki aşağıdaki fonksiyon tarafından türetilmiş bir tek gözlemimiz var,
ee
+ toplamını minimize eden test prosedürünü bulunuz – eğer X = 0.6 ise ret
eder miyiz? Sadece bir X gözlemimiz olduğu için, X cinsinden kritik bölgeyi oluşturmak çok karmaşık değildir, bazı ileri düzeyde istatistikleri bulmaya çalışmak çok şey kazandırmayacaktır (ancak Neyman-Pearson burada işe yarayabilir). Yoğunluk grafiğine bakarak, k kritik değerlerinde küçük X değerleri
om
için testin ret etmesi gerektiği konusunda ikna olabiliriz. Tip I ve Tip II’nin olasılıkları, sırasıyla, 0 k 1 için şöyledir,
.c
ve
ri
Bu nedenle, k üzerinden hata olasılıklarını minimize ederiz.
tla
Minimize edilmiş terimin türevin alıp sıfıra eşitlersek,
de rs no
Dolaysıyla, eğer X < 1/2 ise ret etmeliyiz ve = 1/4’tür. Ancak, X = 0.6 için H0’ı özelikle ret etmiyoruz.
k=√
Bütün testler arasında ∝ 0.1 gibi, en küçük değerli testi bul. nedir? X = 0.4 olsa ret eder miydiniz? – önce k için (k) = 0.1’i çözeriz. Yukarıdaki formülü kullanarak, k = √ olur. Dolaysıyla,
0.316 < 0.4 olduğu için, X = 0.4 için H0’ı ret etmeyiz.
ee
m
Örnek 5. X geğişkeni Xi ~ U[0, θ] dağılımlıdır ve varsayalım ki bir i.i.d. örneklem X1, …, Xn’i gözlemledik ve aşağıdakini test etmek istiyoruz
İki seçeneğimiz var: θ için bir 1- α’lık güven aralığını oluşturabiliriz ve eğer kapsamazsa ret ederiz. Diğer bir seçenek olarak, bir GLRT testi oluşturabiliriz
0’ı
om
Olabilirlik fonksiyonu aşağıdaki ile verilir:
tla
de rs no
Dolaysıyla
ri
.c
T’nin payı maksimize edici üzerinden hesaplanan olabilirlik ile elde edilir. Bu maksimum olabilirlik tahmin edicidir, ̂MLE = X(n) = max{ X1, …, Xn }, yani
Test büyüklüğünü arzulanan düzeye eşitleyen istatistiğin kritik değeri k’yi bulmak için, = 0 boş hipotezi altındaki dağılımı bilmek zorundayız – bunun için sıra istatistiği bölümüne bakmamız gerekebilir. Bir dip not olarak, daha önce büyük n’ler için, boş hipotez altında GLRT’nin bir ki-kare, 2 , dağılımı olduğunu söylediğimiz halde, bu örnek için bunun doğru olmadığı anlaşılıyor çünkü gerçek parametre değerinde yoğunluk sürekli değildir.
2. Diğer Özel Testler
ee
m
Varsayalım ki i.i.d. özeliğine sahip iki örneklemimiz var, bunlar X1, …, Xn ve Z1, …, Zn’dir ve potansiyel olarak ikisi farklı büyüklüktedir, n1 ve n2 gibi. İki farklı dağılım oluşturabiliriz:
Yapmaya çalıştığımız iki farklı test şunlardır:
om
Bu hipotezleri nasıl test ederiz?
.c
değerleri bilinen durumu ele alacağız (diğer durumlar ile ve 1. Burada sadece ilgili tartışma için kitaba bakınız). H0 : μX = μZ altında
tla
ri
Sezgisel olarak, eğer boş hipotez doğru değil ise, T büyük olmalı (mutlak değer cinsinden). Dolayısıyla, ∝ büyüklüğe sahip HA’ya karşı H0 testinde H0 ret edilir eğer aşağıdaki koşul sağlanırsa:
de rs no
2. Varyans testi için, dağılımlar ile ilgili sonuçları hatırlamak gerekir:
ve
m
Bunlar birbirinden bağımsızdır. Hatırlayınız, bağımsız ki-karelerin serbestlik derecesi ile bölümü F dağılımlıydı:
ee
Açıkçası biz
ile
’yi bilmiyoruz, fakat H0 :
=
altında bu ifade basitleştirilebilir,
Dolayısıyla, eğer aşağıdaki koşullar sağlanırsa büyüklüklü bir test ret eder:
om
2.2 Parametrik Olmayan Çıkarımlar
.c
Şimdiye kadar, veri üretim prosesi f(x|θ) formunda olan ve sonlu parametre θ boyutuna kadar bilinen durumdaki problemler ile ilgilendik. O durumdaki testlere parametrik çıkarım denilir.
ri
İstisna olarak, tahmin konusunda vurguladığımız gibi, örneklem ortalamaları, varyansları ve diğer momentleri herhangi bir dağılımın ortalamalarının, varyanslarının ve diğer yüksek-sıralı momentlerinin hesaplanması için avantajlı özeliklere sahiptir.
tla
Bir rasgele değişkenin dağılımının tümü kendi c.d.f.si ile karakterize edilebildiği için, herhangi bir sınırlama getirmeden(elbette ki geçerli bir c.d.f. olmalı yani monoton ve sağdan sürekli), sanki veriden c.d.f.yi tahmin etmek iyi bir fikirmiş gibi görünüyor.
de rs no
Örnek dağılım fonksiyonu Fn(x) şöyledir:
Burada X(j) j. sıralı istatistiktir(bunun örneklemdeki j en küçük değer olduğunu hatırlayınız), ayrıca X(0) ≡ - ∞ ve X(n+1) ≡ -∞’dur.
ee
m
Örnek 6. bir {-1, 3, 1, 1, 0.5, 2, 0} örneklemi için, sıralanmış örneklem {-1, 0, 0.5, 1, 1, 2, 3}’tür ve örneklem dağılım fonksiyonu Fn(x)’i grafik ile gösterebiliriz:
Kaynak: MIT OpenCourseWare
de rs no
tla
ri
.c
om
Bilinmeyen bir dağılım ailesinden elde edilen bir X1, … Xn rasgele örneklem ile ilgili çıkarım problemi ile ilgileniyoruz ve c.d.f.si F(x) olan (örneğin bir standart normal dağılım için F(x) = (x) gibi) belirli bir dağılımdan elde edilip edilmediğini test etmeyi arzuluyoruz. Daha önceki tartışmalarda altı çizilen testlerden herhangi birini uygulamak için elimizde spesifik parametreler olmadığı için, test fikri Fn(X)’in F(x)’ten “çok fazla” sapıp sapmadığını kontrol etmek olur.
Kaynak: MIT OpenCourseWare
2.3. Kolmogorov-Smirnov Testi
m
Gözlemlenen bir örneklemin F(x) dağılımı tarafından türetilip türetilmediğin test etmek için, Kolmogorov-Smirnov istatistiğinin büyük değerleri için testi ret ederiz. İstatistik aşağıdaki gibi tanımlanır,
ee
burada supxF(x) supremumdur, yani {F(x): x }’in en küçük üst sınırdır – ufak kümelerde sürekli fonksiyonlar için bu maksimumun aynısıdır, fakat KolomogorovSmirnov istatistiği 1/n büyüklüğündeki sıçramaları içeren örneklem dağılım fonksiyonu içerdiği ve supremum bütün reel sayı çizgisini kapsadığı için, gerçekte hiçbir belirli x değerine ulaşılmamış olabilir.
om
İstatistiğin kritik değerleri asimptotik (yani büyük n’ler için) dağılım fonksiyonundan elde edilebilir
de rs no
tla
ri
.c
Bu ifadeyi doğuran argümanlar çok açık değildir ve çok tekniktir çünkü bu, reel sayıları değil, fonksiyonların dağılımını içeriyor (rasgele fonksiyonlar genellikle stokastik proses olarak adlandılar).
Kaynak: MIT OpenCourseWare
C.d.f.nin hesaplanması sonsuz bir serinin hesaplanmasını gerektirdiği için, formül kullanmak basit değildir. Ancak, birçok ders kitabı yaygın kritik değerler için tablo oluşturur.
m
Örnek 7. Varsayalım ki bir madeni parayı tekrar tekrar, örneğin 160 kere, fırlatıyoruz ve örneklemin bir B(4, 0.5) dağılımından türetilip türetilmediğin α = 0.2 güvenirlik düzeyi ile test etmek istiyoruz. Diyelim ki aşağıdaki örneklem frekanslarını gözlemledik:
ee
Tura sayısı Örneklem frekansı Kümülatif örneklem frekansı Fn(.) H0 F(.) altında Kümülatif frekans fark
0 10 10 10 0
1 33 43 50 7
2 61 104 110 6
3 43 147 150 3
4 13 160 160 0
Kitaptaki asimptotik formülünü kullanarak, C0.20 =
√
om
O zaman Kolmogorov-Smirnov istatistiği şuna eşittir:
0.85’tir. 0.44<0.85 olduğu için,
boş hipotezi %20 düzeyinde ret edemiyoruz.
2.4. 2-Örneklemli Kolmogorov-Smirnov Testi
tla
Bir istatistik oluşturuyoruz,
ri
.c
Varsayalım ki dağılım ailesi bilinmeyen iki bağımsız rasgele örneklemimiz var ve bunlar X1, …, Xn ile Y1, …, Yn olsun. Her iki örnekleminde aynı dağılım tarafından türetilip türetilmediğini test etmek istiyoruz. Buradaki düşünce Fn(x) ile Gn(x)’in birbirinden “çok uzakta” olup olmadığını test etmektir.
de rs no
ve büyük D değerleri için ret ediyoruz. Eğer aşağıdaki koşul sağlanırsa, büyüklüğündeki bir test için kritik değerlerin asimptotik olarak iyi bir tahmini testi ret eder:
2.5 Pearson’nın 𝛘2 Testi
m
Varsayalım ki n tane i.i.d. gözlemli bir örneklemdeki her bir Xi değeri k kadar, A1,…, Ak, kategoriden birine yerleşecek şekilde sınıflandırıldı. p 1, …, pk her bir kategorinin olasılığı, ve f1, …, fk’de gözlemlenen frekanslar olsun. Aşağıdaki bileşik hipotezi
ee
alternatife karşı test ettiğimizi düşünelim. Alternatif hipotez bu eşitliklerden en az iki veya daha fazlasının gerçekleşmemesidir(olasılıkların toplamı 1 olduğu için, burada tam olarak bir eşitlik tutmadı diyemeyiz). Aşağıdaki istatistiği kullanabiliriz
ee
m
de rs no
tla
ri
.c
om
ve büyük T değerleri için ret ederiz. En uygun kritik değerleri belirlemek için, T’nin nasıl dağıldığını bilmek zorundayız. Maalesef, bu dağılım ilgili modele bağlıdır. Ancak, H0 altında dağılım asimptotik olarak modelden bağımsızıdır ve büyük n örneklemler için ’dir. Pratik bir kural olarak, eğer n 4k ise ki-kare tahmini asimptotik olarak T ~ çalışabilir.
14.30 Ekonomide İstatistiksel Yöntemlere Giriş Ders Notları 24
om
Konrad Menzel 14 Mayıs 2009
.c
1. Tekrar
ri
Nokta Tahmini Örneklemin tahmin edici fonksiyonu ̂(X1, …, Xn) Tahmin edicinin sapması
Tahmin edicinin standart hatası
de rs no
tla
Tahmin edicileri değerlendirmek için önemli kriterler
Sapmasızlık Etkinlik Tutarlılık
Tahmin edici oluşturma yöntemleri
m
1. Momentler Yöntemi mnci kitle momenti
ee
mnci örneklem momenti
ilk momenti hesapla, m = 1, …, k için ̅̅̅̅ 2. Maksimum Olabilirlik
μm( ̂) eşitliğin oluştur ve ̂ için çöz.
X1, …, Xn örneklemi için olabilirlik fonksiyonunu yaz
L(θ) ile log(L(θ))‟i maksimize eden θ değerlerini bul maksimumu bulmak için ilk türevi sıfıra eşitle, eğer θ destekli rasgele değişkenin türevi alınmayacak durumda ise, o zaman fonksiyonun nasıl göründüğüne bakmalı ve maksimumun nerede olması gerektiğini belirlemelisiniz.
.c
om
Güven Aralığı
A(X1, …, Xn) ile B(X1, …, Xn) verisinin fonksiyonlarını bulunuz, yani
[A(X1, …, Xn), B(X1, …, Xn)] θ için güven aralığıdır Verili 1-α‟lik güvenirlik düzeyi için çok sayıda olası güven aralığı vardır
tla
ri
de rs no
Güven aralığı oluşturmak için çoğu zaman aşağıdaki adımları takip et: 1. a(θ0) ile b(θ0)‟yi bul ve bazı T(X1, …, Xn) istatistikleri için aşağıdakini oluştur (doğal olarak burada bir ̂ tahmin edici kullanılacaktır)
2. olasılığın içindeki olayı aşağıdaki gibi tekrar yaz
3. güven aralığını oluşturmak için X1, …, Xn ile A(.) ve B(.)‟yi hesapla
m
Bazı Önemli Durumlar:
ee
̂ sapmasızdır ve normal dağılımlıdır, Var( ̂) biliniyor:
̂ sapmasızdır ve normal dağılımlıdır, Var( ̂) bilinmiyor ve bir tahmin edicimiz var, ̂:
om
̂ normal değil, n > 30 veya daha fazla: şimdiye kadar gördüğümüz tahmin edicilerin asimptotik olarak normal dağılımlı olduklarını gördük, dolaysıyla söz konusu tahmini kullanacağız ve bir önceki durumu uygulayacağız. Varyansı bilsek te bilmesek te t-dağılımını kullanarak bir şekilde güven aralığının tahmin kullanımını cezalandırmış olacağız. ̂ normal değil, n küçük: eğer (a) ̂‟in p.d.f.sini biliyorsak, ilk durumu kullanarak güven aralığı oluşturabiliriz, eğer (b) p.d.f.yi bilmiyorsak, yapabileceğimiz bir şey yoktur
.c
hipotezler, HA : θ ΘA‟ya karşı H0 : θ Θ0 boş ve alternatif altında farklı dağılıma sahip datanın fonksiyonlarının T(X) istatistiğini test et C kritik bölgesi: boş hipotezi ret ettiğimiz, T(X)‟in gerçekleştiği bölge. test prosedürü: Eğer T(X) C ise H0‟ı ret et.
de rs no
C‟nin seçimi aşağıdakileri belirler
tla
ri
Hipotez Testi
α = P(1. Tip Hata) = P(ret|H0) β = P(2. Tip Hata) = P(ret etme|HA)
alfa büyüklük olarak, 1- β ise testin gücü olarak adlandırılır.
aynı α büyüklükteki iki testten 1- β gücü en büyük olanı tercih et Eğer β = β(θ) ise en düşük β(θ) değerli testi tercih et, bu uniform olarak en güçlü testtir. H0 ve HA‟nın ikisi de basittir: Neyman-Pearson Lemma‟ya göre en güçlü test < k ise ret et” formunda olanıdır.
m
“eğer
bazı monoton fonksiyonlar için “eğer g(T(X)) < g(k) ise ret et” formundaki bir test “eğer T(X) < k ret et” formundaki bir testin benzeridir.
ee
Testin oluşumu H0 ve HA‟nın formuna bağlıdır: 1. her iki H0 ve HA basittir: olabilirlik oranı testi
ve uygun bir şekilde seçilmiş k değerleri için eğer T(X) < k ise ret et (Neyman-Pearson Lemma‟ya göre en güçlü olanı)
om
2. H0 : θ = θ0 basit, HA: θ ΘA bileşiktir ve 2-yanlıdır: 1 – α‟lık güven aralığı [A(X), B(X)] oluştur ve ret et eğer
ri
.c
3. H0 : θ = θ0 basit, HA: θ > θ0 bileşiktir ve 1-yanlıdır: 1 – 2α‟lık güven aralığı [A(X), B(X)] oluştur ve eğer θ0 < A(X) ise ret et. 4. Genel durum: Genelleştirilmiş Olabilirlik Oran Testi istatistiği:
İki-Örneklem Testi
İki bağımsız X1, …, Xn ve Z1, …, Zn gibi değişkenin i.i.d. örneklemleri olsun, Xi N( X, ) ve Zi N( Z, ). Aşağıdakileri test edebiliriz:
de rs no
tla
uygun bir şekilde seçilmiş k değerleri için eğer T(X) < k ise ret et.
(i)
veya
ee
m
(ii)
(i) durumunda aşağıdaki testi oluştur
bu boş hipotez altında N(0, 1)‟dir. (ii) durumunda aşağıdaki testi oluştur
om
bu boş hipotez altında F(n1 – 1, n2 – 1) dağılımlıdır, ve ret et eğer ya T > F-1 ( ) ya da
.c
T > F-1 (1- ) ise.
Örnek Sorular ( Bahar 2000 Sınavı)
de rs no
tla
ri
1. Momentler Yöntemi: Bağımsız değişkenler olan X1, …, Xn [0, θ] destekli sürekli uniform dağılımdan çekilmiştir. 14:30‟daki dersinizden hatırlarsanız, X i örnekleminden θ tahmin edicisini elde etmek için ya Momentler Yöntemini ya da Maksimum Olabilirlik yöntemini kullanabilirsiniz. Ancak siz ufak değişiklikler istiyorsunuz ve yeni bir rasgele değişken tanımlıyorsunuz, yani
burada k tarafınızdan belirlenmiş ya da tarafınızdan bilinen bir sabit değerdir. Y1, …, Yn‟i kullanarak sadece θ‟yı tahmin edebilirsiniz.
(a) varsayalım ki k (0, θ)‟dır. Yi‟nin bir fonksiyonu olarak momentin üç yöntemini de kullanarak θ için bir tahmin edici türetin. Ayrıca, (0, θ) aralığında olmak için neden k‟ye gereksinim duyduğunuzu açıklayınız. (b) şimdi varsayalım ki k (0, ∞)‟dır ve k bilinmeyen parametre θ‟dan daha büyük
m
veya daha küçük olabilir. Eğer n = 0‟lı bir örneklem gözlemleyecek olursanız, k ile θ arasındaki ilişki için ne söyleyebilirsiniz? (c) θ için maksimum olabilirlik tahmin edicisi türetiniz (unutmayınız, tahminler için sadece Y1, …, Yn „i kullanabilirsiniz).
Cevaplar:
ee
(a) θ bir-boyutlu olduğu için, sadece Yi‟nin birinci momentini kullanmak zorundayız. Kitlenin beklenen değeri
om
eğer k < θ ise, momentler yönteminin tahmin edicisi aşağıdaki gibi çözülerek elde edilir
n
= 0 ise, k büyük bir olasılıkla θ‟dan büyük olacaktır.
tla
Eğer büyük örneklemler için
ri
.c
(b) eğer k > θ ise, θ[Yi] = P(Xi k) = max{1 – (k/θ), 0} = 0 artık θ‟ya bağlı değildir. Eğer k‟nin θ‟dan daha büyük veya küçük olduğunu bilmiyorsak, parametre θ kurulumunu sınırlandırmak için momentler yönteminin tahmin edicisinin mantığını kullanabiliriz:
de rs no
(c) Olabilirlik fonksiyonunu türetmek için aşağıdakini not etmek gerekir:
Dolaysıyla,
m
Logları alınca,
ee
θ cinsinde alınan türevleri sıfıra eşitleyince
θ için çözünce,
om
Bu tahmin edici k > θ olsa bile çalışır. 2. Hipotez Testi: Varsayalım ki X1, …, Xn ortalaması, μ, bilinmeyen ancak varyansı, , bilinen ve 1‟e eşit olan normal dağılımdan elde edilen bir örneklem oluştursun.
ri
.c
(a) Aşağıdaki kurulum için, %5‟lik güvenirlik düzeyinde en güçlü testi veren bölgeyi belirtiniz. Testin gücünü hesaplayınız.
de rs no
tla
(b) Aşağıdaki kurulum için, %5‟lik güvenirlik düzeyinde en güçlü testi veren bölgeyi belirtiniz.
(c) n‟nin ve n‟nin hangi değerleri için (a)‟da ki μ = 0 hipotez ile (b)‟deki μ = 1 hipotezini aynı anda kabul edersiniz?
(d) Aşağıdaki kurulum için, %5‟lik güvenirlik düzeyinde uniform olarak en güçlü testi veren bölgeyi belirtiniz.
Bu test için, güç fonksiyonu 1 – β μ için bir formül oluşturup, grafiğin çiziniz.
m
(e) (a) ve (b)‟deki testlerin kritik bölgeleri arasında nasıl bir ilişki vardır? 2. Tip hata yapma olasılıklarının ilişkisi nedir?
ee
Cevaplar: (a) Neyma-Pearson Lemma‟ya göre, en güçlü test olabilirlik oranına dayanır
Eğer olabilirlik oranı kritik değerden düşük ise en güçlü test ret eder, ya da benzer şekilde, eğer uygun bir şekilde seçilmiş k için n > k ise, ret eder (sınavda bunu halı hazırda türettiğimizi belirtmeniz yeterlidir).
böylece k =
n
N(0, 1/n),
om
Boş hipotez altında,
‟i seçmek %5 büyüklüğünde bir test verir. O zaman testin gücü
√
k‟ = 1 +
√
.
< k‟ ise en güçlü test ret eder. Burada
de rs no
(c) Her iki testi kabul ederiz eğer,
n
tla
(b) (a)‟dakine benzer gerekçeler ile, eğer
ri
.c
şöyledir:
Yeterince büyük n‟ler için,
n
iki testinde ret etmeyeceği değerleri olmayacaktır.
(d) Bu test (a)‟dakinin aynısıdır, çünkü herhangi bir μ > 1 değeri için olabilirlik oranı örneklem ortalaması n‟nin kesin azalan bir fonksiyonudur ve α büyüklüğündeki bir testin k kritik değerleri, bölüm (a)‟da olduğu gibi, sadece boş hipotezin altındaki dağılım tarafından belirleniyor.
ee
m
(e) Kritik bölgeler aynıdır, fakat, bütün alternatifler μ = 1‟e göre boş hipotezden daha uzakta oldukları için, bölüm (d)‟deki 2. Tip hatanın olasılığı daha küçüktür,