Prof.Dr.Durmuş ÖZDEMİR İYTE Fen Fakültesi Kimya Bölümü İzmir
KEMOMETRİ DERS NOTLARI BÖLÜM I DENEYSEL TASARIM VE OPTİMİZASYON KONULAR 1. Deneysel Tasarımın Önemi 2. Tarama Tasarımları (Screening Designs) 2.1.Ful Faktöriyel Tasarım 2.2. Fraksiyonel faktöriyel tasarım 2.3. Plackett-Burman tasarımı 3. Optimizasyon 3.1. Merkezi Kompozit Tasarım 1. DENEYSEL TASARIMIN ÖNEMİ Deneysel tasarımın önemi dört maddede açıklanabilir. Tarama (Screening): Bu tasarımlar deneysel çalışmalarda sonucu etkileyen önemli faktörleri belirlemek için kullanılır. Bir kimyasal reaksiyonun verimini etkileyen faktörler, kullanılan reaktif konsantrasyonu, katalizör konsantrasyonu, sıcaklık, pH, reaksiyon süresi, karıştırma hızı, vb. 10 faktör etkilediği dikkate alındığında bu faktörlerden hangileri önemlidir, hangileri elimine edilebilir ve hangileri ayrıntılı incelenmelidir? Bu soruların cevapları “faktöriyel” ve “Plackett-Burman” tasarımları ile verilebilir. Optimizasyon: Tarama tasarımları ile bulunan önemli faktörlerin optimum değerleri optimize edilerek reaksiyonun verimi ve kromatografik ayırma iyileştirilebilir. En yaygın
kullanılan optimizasyon yöntemleri “simplex optimizasyonu” ve “merkezi kompozit tasarımı” dır. Zaman tasarrufu: Deneysel çalışmalarda faktörlerin ektisi klasik yöntemle bir faktörün değerini değiştirme diğerlerini ise sabit tutma yöntemi ile de belirlenebilir. Ancak çok sayıda faktör incelendiğinde bu yöntem zaman alıcı ve maliyetli olmaktadır. Modelleme: Tarama tasarımı ve optimizasyon sonucu her bir faktörün etkisi matematiksel modelle ifade edilebilir. Böylece deneysel olarak bulunan sonucun yanında hesapla tahmini sonuç da bulunmuş olur. Beklenen sonucun deneysel olarak gerçekleştirilip gerçekleştirilemediği kontrol edilir. İstatisitksel deneysel tasarım ve optimizasyon yakalşımının sunacağı avantajları kavrayabilmek için basit bir örnek verebiliriz. Bir çalışmada klasik deneysel tasarım (bütün faktörleri sabit tutup sadece birinin değerinin değiştirilmesi) yaklaşımı kullanıldığında bir reaksiyonun verimine etki eden iki faktörden pH ve katalizör konsantrasyonu incelenmiş, katalizör konsantrasyonu 2.0 mM’da sabit tutulurken pH değiştirilmiş ve reaksiyon verimi hesaplanmıştır. Şekil 1’den görüldüğü gibi optimum pH 3.4 tür.
Şekil 1. Katalizör konsantrasyonu 2.0 mM da sabit tutularak bulunan optimum pH. pH=3.4 optimum olarak bulunduktan sonra pH bu değerde sabit tutularak konsantrasyon değiştirilmiştir. Elde edilen konsantrasyon Şekil 2’te gösterilmiştir. Klasik yöntemle optimum konsantrasyon 1.4 mM olarak bulunmuştur.
Şekil 2. pH 3.4’te sabit tutularak bulunan optimum konsantrasyon. Daha sonra anyı deneysel çalışma istatistiksel deneysel tasarım yönetemi ile gereçekleştirilmiş ve elde edilen sonuçlar Şekil 3’te verilmiştir.
Şekil 3. pH ve katalizör konsantrasyonuna bağlı olarak reaksiyon verimindeki değişimi. İstatistiksel deneysel tasarım metodu kullanılarak elde edilen optimum şartlar pH 4.4 ve konsantrasyon 1.0 mM olarak bulunmuştur. Bu noktada klasik yaklaşımla bulunan optimum şartlar ile istatistiksel deneysel tasarım metodu ile buılunan sonuçlardan oldukça farklı olduğu görülmektedir. Bu farkın nedeni pH ve konsantarsyon arasındaki etkileşmedir. Bu nedenle istatistiksel deneysel tasarım kullanılarak bu etkileşimler göz önünde bulundurulmalı ve
deneysel tasarım yöntemine göre optimum değerler bulunmalıdır. İleriki bölümde benzer bir örnek uygulamalı şekilde ayrıntılı olarak tekarar incelenecektir. 2. TARAMA TASARIMLARI 2.1 Tam Faktöriyel Tasarım Tam faktöriyel tasarım sonuç üzerine etki eden faktörlerin hangileri ve ne kadar etkili olduğunu anlamada kullanılan iki seviyeli bir tarama tasarımıdır. Örneğin, bir kimyasal reaksiyon pH ve sıcaklığa bağlı olarak değişiyorsa, iki seviyeli iki faktörlü bir deney tasarlanabilir. Deney sayısı 2k formülü ile hesaplanır. Burada 2, seviye sayısı (-1 ve +1 olarak kodlanır), k ise faktör sayısıdır (burada 2 faktör var). Faktöriyel tasarımda, 2 faktör için deney sayısı 4 (22), 3 faktör için deney sayısı 8’dir (23). Tam faktöriyel tasarım tablosu hazırlamak için, her bir faktör için yüksek ve düşük seviyeler belirlenir. Örneğin sıcaklık 30 oC ve 60oC, pH 4 ve 6. Yüksek (+1) ve düşük (-1) seviyelere göre tasarım tablosu oluşturulur (Çizelge 1). Çizelge 1. İki seviyeli iki faktörlü tam faktöriyel tasarım Deney
x1
x2
1
-1
-1
2
+1
-1
3
-1
+1
4
+1
+1
Çizelge 2 ve 3’te sırasıyla 3 ve 4 faktörlü iki seviyeli tam faktöriyel tasarımların tabloları verilmiştir Çizelge 2. İki seviyeli üç faktörlü tam faktöriyel tasarım Deney
x1
x2
x3
1
-1
-1
-1
2
+1
-1
-1
3
-1
+1
-1
4
+1
+1
-1
5
-1
-1
+1
6
+1
-1
+1
7
-1
+1
+1
8
+1
+1
+1
Çizelge 3. İki seviyeli dört faktörlü tam faktöriyel tasarım
Deney 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
x1 -1 +1 -1 +1 -1 +1 -1 +1 -1 +1 -1 +1 -1 +1 -1 +1
x2 -1 -1 +1 +1 -1 -1 +1 +1 -1 -1 +1 +1 -1 -1 +1 +1
x3 -1 -1 -1 -1 +1 +1 +1 +1 -1 -1 -1 -1 +1 +1 +1 +1
x4 -1 -1 -1 -1 -1 -1 -1 -1 +1 +1 +1 +1 +1 +1 +1 +1
Deneysel tasarım tablosu hazırlandıktan sonra kodlanmış değerler yerine faktörlerin gerçek değerleri yerleştirilerek deneysel çalışma gerçekleştirilir. Örneğin, üç faktörlü iki seviyeli bir sistemde faktörlerin minimum ve maksimum seviyeleri Çizelge 4’te verilmiştir. Çizelge 4. Üç faktör iki seviyeli bir sistemde faktörlerin minimum ve maksimum aralıkları Faktörler Katalizör konsantrasyonu (%) Reaksiyon sıcaklığı (0C) Reaksiyon süresi (dk)
(-1) seviye 0.1 60 20
(+1) seviye 0.3 80 40
Çizelge 5, iki seviye üzerinden gerçekleşitirilen ve katalizör konsantrasyonu (x1), reaksiyon sıcaklığı (x2) ve reaksiyon süresi (x3) faktörlerinden oluşan 8 deneye ait her bir faktörün gerçek skalasındaki değerleri ve bu sistemde elde edilen sonuçlar ( y değerleri) göstermektedir. Çizelge 5. Deneysel sonuçları da içeren üç faktörlü tasarım Deney
x1
x2
x3
y
1
0.1
60
20
73
2
0.3
60
20
71
3
0.1
80
20
79
4
0.3
80
20
82
5
0.1
60
40
78
6
0.3
60
40
89
7
0.1
80
40
83
8
0.3
80
40
93
Faktörler arasındaki etkileşimler de dikkate alınarak (Çizelge 6) tasarım matrisi hazırlanır ve analiz edilir. Tasarım matrisi kullanılarak her bir faktör için Microsoft Excel, MINITAB veya Design Expert gibi hazır programlar kullanılarak katsayılar hesaplanabilir. Çizelge 6. Üç faktörlü iki seviyeli bir sistemde doğrusal model için tasarım matrisinin deneysel sonuçlarla bir arada verilmiş hali. Deney 1 2 3 4 5 6 7 8
x0 +1 +1 +1 +1 +1 +1 +1 +1
x1 -1 +1 -1 +1 -1 +1 -1 +1
x2 -1 -1 +1 +1 -1 -1 +1 +1
x3 -1 -1 -1 -1 +1 +1 +1 +1
x1x2 +1 -1 -1 +1 +1 -1 -1 +1
x1x3 +1 -1 +1 -1 -1 +1 -1 +1
x2x3 +1 +1 -1 -1 -1 -1 +1 +1
x1x2x3 -1 +1 +1 -1 +1 -1 -1 +1
y 73 71 79 82 78 89 83 93
Çizelge 6’da verilen bir sistem için, faktörler ile deneysel sonuçlar arasındaki ilişkiyi veren doğrusal model denklemi eşitlik 1’de verilmiştir.
y b0 b1 x1 b2 x2 b3 x3 b12 x1 x2 b13x1 x3 b23 x2 x3 b123x1 x2 x3 e
(1)
Eşitlik 1’den görüldüğü gibi denklemin 8 parametresi vardır ve toplamda 8 adet deney yapıldığı için sözkonusu modelin tanımlanması isetenen sisteme uygun olup olmadığının test edilebilmesi için yeterli serbestlik derecesi kalmamıştır. Öte yandan, sözkonusu deneyler tarama ammaçlı gerçekleştirildiği düşünüldüğünde, faktörlerin üçlü etkileşimleri dışarıda ihmal edilerek denklemdeki parametre sayısı bir azaltılarak denklem katsayıları için istatistiksel değerlendirme yapmak mümkün olacaktır. Eşitlik 2, bu 8 deneyden oluşan bu sistemin regresyon anlizinden elde edilen model denkleminin göstermektedir. Eşitlik 2’de verilen denklemin elde edilmesindeki basamaklar aşağıda verilen 2 kaktörlü 3 seviyeli bie başka uygulamalı örnekte ayrıntılı olarak verilmiştir.
y 81 2.8 x1 3.2 x2 4.9 x3 0.5 x1 x2 2.5 x1 x3 1.0 x2 x3 0.8 x1 x2 x3
(2)
2.2 Fraksiyonel faktöriyel tasarım Full faktöriyel tasarımda her bir faktörün ve etkileşimlerinin deney sonucuna etkileri incelenir. 2k formülüne göre 7 faktör için 128 deney, 10 faktör için 1024 deney yapılması
gerekir. Buradan görüldüğü gibi faktör sayısı arttıkça deney sayısı da çok fazla arttığı için bu yöntem pratik olmamaktadır. Birçok durumda faktörler arasındaki ikili, üçlü ve daha yüksek etkileşimler çok önemli olmayabilir. Bu durumda örneğin 7 faktör için 128’den daha az deney yaparak faktörlerin etkileri incelenebilir. Bu ise fraksiyonel faktöriyel tasarım ile gerçekleştirilir. Bu deney yönteminde deney sayısı 2k-p formülünden hesaplanır. Örnek: Enzim aktivasyonu ile ilgili bir çalışmada ZnSO 4 derişimi, pH, disodyumparanitrofenilsülfat, MgSO4, 2-amino-2-metil-1-propanol faktörlerinden hangisinin daha etkili olduğu incelenmek istenmektedir. Bunun için deney sayısı 2 5-1=16 olacaktır. 16 deney için kodlanmış değerler Çizelge 7’de verilmiştir. Çizelge 7. 25-1fraksiyonel faktöriyel tasarım Deney 1 2 3 4 5 6 7 8 9 10 11 12 12 14 15 16
x1 -1 +1 -1 +1 -1 +1 -1 +1 -1 +1 -1 +1 -1 +1 -1 +1
x2 -1 -1 +1 +1 -1 -1 +1 +1 -1 -1 +1 +1 -1 -1 +1 +1
x3 -1 -1 -1 -1 +1 +1 +1 +1 -1 -1 -1 -1 +1 +1 +1 +1
x4 -1 -1 -1 -1 -1 -1 -1 -1 +1 +1 +1 +1 +1 +1 +1 +1
x5 (x1x2x3x4) +1 -1 -1 +1 -1 +1 +1 -1 -1 +1 +1 -1 +1 -1 -1 +1
y 106 113 103 115 103 117 105 123 119 128 95 143 99 145 110 132
Fraksiyonel faktöriyel tasarımda deney sayısı azaltılırken bazı faktörler arası etkileşimler incelenemez. Belirlenen amaca göre full faktöriyel veya fraksiyonel faktöriyel tasarım kullanılmalıdır. Fraksiyonel faktöriyel tasarımın bir çok avantajları olmakla beraber bazı eksiklikleri de vardır. Deneysel tasarım incelenememektedir.
sadece
iki
seviyeli
olduğu
için
parabolik
terimler
Tekarar edilen deneyler olmadığı için hata hesabı yapılamamaktadır. Deneysel tasarım sadece ikinin katları şeklindedir. Örnek 1. Deneysel tasarımın önemini anlamak için reaksiyon verimini etkileyen pH ve katalizör konsantrayonu optimize etmek isteyelim. Böyle bir deneyi her bir faktörü üç farklı seviyede denediğimizde tam faktöriyel bir deneysel tasarım için en az dokuz (3 2 = 9) deney yapmamız gerekir. Çizelge 8, bu deneylerde optimize edilen iki faktörün minimum, orta ve maksimum seviyelerini göstermektedir.
Çizelge 8. İki faktörlü üç seviyeli deneysel tasarımda faktörlerin minimum, orta ve maksimum seviyeleri. Faktör
Minimum
Orta
Maksimum
Kodlanmış
-1
0
+1
pH
3
6
9
Katalizör Konsantrasyonu, M
1
2
3
Çizelge 8’de verilen faktörlerin seviyeleri deneysel tasarım matrisinin oluşturulmasında genellikle kodlanmış olarak verilir. Bunun nedeni her bir faktörün genellikle oldukça farklı skalalara sahip olmasıdır ve tasarımının istatistiksel analizinin bu skala farkından etkilenmesi tercih edilmez. Çizelge 9’de gerçekleştirilen deney elde edilen verimlerle birlikte verilmiştir. Çizelge 9. İki faktörlü 3 seviyeli tam faktöriyel deneysel tasarım ve elde edilen verimler. No
Katalizör Konsantrasyonu, M, x2
pH, x1 1 2 3 4 5 6 7 8 9
3 3 3 6 6 6 9 9 9
Verimi, y 1 2 3 1 2 3 1 2 3
41 59 60 61 76 71 61 69 59
Çizelge 9’de gerçekleştirilen 9 deneyin verimleri incelendiğinde en yüksek verimin pH 6 ve 2 M katalizör konsantrasyonunda olduğu görülmektedir. Ancak sözkonusu reaksiyonda en uygun şartların ne olacağı ve ve reaksiyon verimine etki ettiği düşünülen bu iki faktörün istatistiksel olarak nasıl bir katkı yaptığını görebilmek için deneysel verim değerleri ile bu faktörler arası ilişkiyi veren bir denklem kurarak inceleyebiliriz. Bu noktada, her iki faktör 3 farklı seviyede çalışıldığı için bu faktörlerin doğrusal etkilerinin yanında ikinci dereceden etkileri ile birbirleri ile olan etkileşimlerininde incelenmesinde fayda vardır. Eşitlik 3’te iki faktörlü bir sistemde ikincidereceden model denklemi verilmiştir.
y = b0 + b1x1 + b2x2 + b11x1^2 + b22x2^2 + b12x1x2 + e
(3)
Eşitlik 3’ de b0, her bir faktör kodlanmış olarak orta seviyede (sıfır alındığında) tutulduğunda denklemin alacağı sabit değeri gösterirken, b1 ve b2 katsayıları her bir faktörün doğrusal katkısını gösterir. Öte yandan b11 ve b22 değerleri ikinci dereceden (doğrusal olmayan) katkıları gösterirken, b12 degeride her iki faktörün etkileşimlerini temsil etmektedir. Son olarak, e terimide modellenemyen artıkları göstermektedir. Çizelge 10, eşitlik 3’de verilen model denklemine göre hazırlanmış deneysel tasarım matrisini oluşturmaktadır. Çizelge 10. İki faktörlü üç seviyeli tam faktöriyel bir sistemde kullanılan deneysel tasarım matrisi. No
b0 1 2 3 4 5 6 7 8 9
x1 1 1 1 1 1 1 1 1 1
x2 -1 -1 -1 0 0 0 1 1 1
x1^2 -1 0 1 -1 0 1 -1 0 1
x2^2 1 1 1 0 0 0 1 1 1
x1x2 1 0 1 1 0 1 1 0 1
y 1 0 -1 0 0 0 -1 0 1
41 59 60 61 76 71 61 69 59
Çizelge 10’da verilen tasarım matrisinin ilk sütunu deneylerin sırasını gösterirken son sütün ise elde edilen deneysel verimleri göstermektedir. Arada kalan 6 adet sütün ise asıl tasarım matrisini oluşturmaktadır. Böylece matris notasyonunda eşitlik 3 yeniden düzenlenirse, eşitlik 4’te verilen model denklemi elde edilir.
y=Dxb+e
(4)
Eşitlik 4’den de görüleceği gibi koyu renk küçük harf vektörü temsil ederken koyu renkli büyük harf matrisi temsil etmektedir. Bu denklemde y ve D bilinmekte olup bilinmeyen katsayılar vektörünün hesabı enküçük kareler metoduna göre matris notasyonunda eşitlik 5’te verildiği gibi hesaplanır.
=(D’xD) – 1xD’xy (5)
Eşitlik 5 kullanılarak elde edilen
katsayıları eşitlik 4’de yerine konarak tahmin edilen
değerleri ve daha sonrada deneysel y değerleri ile hesaplanan farklardan artıklar (eşitlik 6) hesaplanabilir.
değerieri arasındaki
e=y-
(6)
Bu noktaya kadar verilen bu reaksiyon verimine ilişkin örneğin regresyon, ANOVA ve t-testi analizleri aşağıda verilen MS Excel sayfalarında adım adım verilmiştir. Öncelikle “Data” sekmesinden “Data Analysis” seçeneği seçilerek “Regression” seçilmelidir (Resim 1).
Resim 1. Regresyon analizi için verilerin regresyon analizi basamağı. Aşağıda verilen (Resim 2) resimde görüldüğü gibi ilgili alanlar seçildikten sonra regresyon analizi gereçekleştirilir.
Resim 2. Regresyon analizinin gereçekleştirilmesi. Regresyon analizinin sonuçları aşagıda (Çizelge 11, 12, 13, 14 ve 15) verilmiştir. Öncelikle Çizelge 11’de seçilen ikinci dereceden model denklemi kullanılarak elde edilen modelin deneysel sonuçları ne kadar iyi tahmin ettiğini gösteren R2 değerinini görmekteyiz. Burada elde edilen R2 değeri 0.998 gibi oldukça iyi bir sonuç olduğundan seçilen model denkleminin oldukça başarılı olduğunu görmekteyiz. Çizelge 11. Regresyon analizinin özeti. Özet çıktısı Regresyon İstatisitiği Çoklu R 2 R ayarlanmış R2 Standart hata Gözlem sayısı
0.999034 0.998068 0.994849 0.713624 9
Çizelge 12’de regresyon analizinin ANOVA sonuçlarını görmekteyiz. Burada elde edilen Fdeğerinin 310 gibi büyük bir rakam olamsı faktör seviyelerinin değiştirilmesi ile elde edilen deneysel verim sonuçlarının %95 güven sınırında istatistiksel olarak anlamlı olduğunu söyleyebiliriz. Çizelge 12. Regresyon analizinin ANOVA sonuçları ANOVA df Regresyon Artıklar
SS MS F 5 789.3611 157.8722 310.0036 3 1.527778 0.509259
P-değeri 0.000287767
Toplam
8 790.8889
Çizelge 13, öngörülen ikinci dereceden model denklemi (eşitlik 3) katsayıları ve bu katsayıların standart hataları, t-değerleri, P-değerleri ve %95 alt ve üst güven aralığı (GA) verilmektedir. Çizelge 13. Öngörülen ikinci dereceden model denklemi katsayıları ve bu katsayıların standart istatistiksel analiz sonuçları. Katsayılar Standart Hata 75.4444 0.5319 4.8333 0.2913 4.5000 0.2913 -11.1667 0.5046 -9.1667 0.5046 -5.2500 0.3568
b0 b1 b2 b11 b22 b12
t-değeri P-değeri 141.8385 0.0000 16.5902 0.0005 15.4461 0.0006 -22.1294 0.0002 -18.1659 0.0004 -14.7136 0.0007
%95 alt GA 73.7517 3.9062 3.5728 -12.7726 -10.7726 -6.3855
%95 üst GA 77.1372 5.7605 5.4272 -9.5608 -7.5608 -4.1145
Çizelge 13’den görüldüğü gibi her iki faktörün doğrusal (b1 ve b2) etkilerinin P-değerleri 0.05 (=0.05) ten küçük olduğu için sözkonusu terimler %95 günen sınırında istatistiksel olarak anlamlı terimleridir ve model sdenkleminde buluması gerekir. Ayrıca sözkonusu iki faktörün ikinci dereceden etkileri (b11 ve b22) ile bu faktörlerin birbirleri ile olan etkileşimi (b12) %95 güven sıınırında istatisitiksel olarak önemlidir. Böylelikle reaksiyon veriminin model denklemi Eşitlik 7’te verildiği gibidir.
y = 75.44 + 4.83x1 + 4.50x2 – 11.17x1^2 – 9.17b22x2^2 – 5.25x1x2 + e
(7)
Çizelge 14’de, eşitlik 7’de verilen model denklemi kullanılarak hesaplanan tahmini verim değerleri ve artık değerleri standardize edilmiş artık değerleri ile birlikte verilmiştir. Çizelge 15’de normal olasılık çıktıları verilmiştir. Şekil 4’de deneysel verim değerlerinin normal olasılık grafiği verilmiştir. Çizelge 14. Tahmin edilen verimler ve artıklar Artıklar sıra 1 2 3 4 5 6 7 8 9
tahmin y Artıklar Standart artıklar 40.5278 0.4722 1.0806 59.4444 -0.4444 -1.0170 60.0278 -0.0278 -0.0636 61.7778 -0.7778 -1.7798 75.4444 0.5556 1.2713 70.7778 0.2222 0.5085 60.6944 0.3056 0.6992 69.1111 -0.1111 -0.2543 59.1944 -0.1944 -0.4449
Çizelge 15. Normal olasılık çıktısı Olasılık çıktısı Yüzde 5.555555556 16.66666667 27.77777778 38.88888889 50 61.11111111 72.22222222 83.33333333 94.44444444
y 41 59 59 60 61 61 69 71 76
Şekil 4. Normal olasılık grafiği Şekil 5’de deneysel verim değerleri ile model denklemi kullanılarak hesaplanan verim değerlerinin korelasyon grafiği verilmiştir. Şekilden de görüleceği gibi oldukça başarılı tahmin değerleri elde edilmiştir. Şekil 6, artıkların grafiğini göstermektedir.
Şekil 5. Deneysel verim değerlerine karşı hesaplanan verim değerleri.
Şekil 6. Deneysel verim değerlerine karşı elde edilen artıkların grafiği. Artıkların dağılımı incelendiğinde normal bir dağılım gösterdikleri görünmektedir. Bu noktada elde edilen model denklemi kullnılarak optimum şartların belirlenmesi uygun olacaktır. Bu amaçla MS Excel de “solver” kullanılarak (Resim 3) en yüksek verimi elde edebilmek için en uygun pH ve katalizör konsantrasyonunun belirlenebilir.
Resim 3.a. Optimumşartlar için “solver” uygulaması ilk pencere.
Resim 3.b. Optimumşartlar için “solver” uygulaması ikinci pencere Resim 3.b’de görüldüğü gibi en yüksek verimin elde edildiği koşullar pH (x1) için kodlanmış değer olarak 0.2304 ve katalizör konsantrasyonu (x2) için 0.3126 olarak bulunmuştur. Burada optimum koşulların faktörlerin gerçek skalası için karşı gelen değerler Eşitlik 8 ile hesaplanır.
kod
x orta (orta alt ) veya (üst orta )
(8)
Eşitlik 8 kulanılarak pH ve katalizör konsantrasyonu (K.K.) için optimum değerler:
0.2304
0.3126
pH 6 (6 3)
pH 6.6912
K .K . 2 ( 3 2)
K .K . 2.3126
Böylece pH 6.6912 ve katalizör konsantrasyonu 2.3126 M olduğunda reaksiyon veriminin %76.86 olacağını görüyoruz. Bu noktada bulduğumuz optimum şarların dışında başka lokal optimum bölgelerin olup olamdığını anlamak için faktörlere (x1 ve x2) karşılık reaksiyon veriminin nasıl değiştiğini görebileceğimiz üç boyutlu yanıt yüzey grafiğinin (şekil 7) oluşturulması faydalı olacaktır.
Verim (y)
75
80
70
70
65
60
60
50
55
40 10
50 8
3 2.5
6
2
4 pH
45
1.5 2
1
Katalizör Konsantrasyonu (M)
Şekil 7. Katalizör konsantrasyonu ve pH’a karşılık reaksiyon veriminin değişimini gösteren yanıt yüzey grafiği. Şekil 6’dan görüldüğü gibi pH’ın 6 ve katalizör konsantrasyonunun yaklaşık 2 olduğu bölgede bir plato oluşmakta ve verim en yüksek değerine ulaşmaktadır.
2.3 Plackett-Burman tasarımı Çok sayıda faktörün etkisi incelenmek istendiğinde full faktöriyel ve fraksiyonel faktöriyel tasarım yöntemlerin pratik olarak uygulanması zorlaşmaktadır. Sadece faktörlerin kendi etkileri incelendiği, yani faktörler arasındaki etkileşimlerin önemli olmadığı durumlarda Plackett-Burman tasarımı pratik olarak uygulanabilir. Bu tasarımda geçerli olan deney sayıs, faktör sayısı ve üretici Çizelge 16’da gösterilmiştir. Çizelge 16. Plackett-Burman tasarımı için üreticiler Deney sayısı 8 12 16 20 24
Faktörler 7 11 15 19 23
Üretici +++-+-++-+++---+++++-+-++--+--++-++++-+-+----+++++++-+-++--++--+-+----
11 faktör ve 12 deneyi içeren Plackett Burman tasarımı Çizelge 17’de gösterilmektedir. Çizelge 17. 11 faktör için Plackett Burman tasarımı
Bu tasarımın bazı özellikleri vardır. Birinci satır aynı seviyeye sahiptir (-1 veya +1). İkinci satır üretici satırdır. Tablo 3’teki üreticilerden birisi kullanılır. Faktör sayısı her zaman tek sayı ve deney sayısı faktör sayısından bir fazladır. Üçüncü satır ikinci satırın bir yana kaydırılması ile elde edilir (Çizelge 17).
Bütün faktörler için yüksek ve düşük seviye sayısı eşittir. Bu da kolonların birbiri ile ortagonal (kolonlar birbirinden bağımsız) olduğunu gösterir. Placktett-Burman tasarımda faktör sayısı deney sayısından bir düşüktür. 11 faktör için 12 deney yapmak gerekir. Ancak gerçekte 10 faktör var ise 11. faktör sonuç üzerinde herhangi bir etkisi olmayan rastgele bir faktör seçilir. Bu faktöre dummy faktör denilir. Tasarım tablosuna kesim noktası (b0) ilave edildiğinde kare matris elde edilir. 3. OPTİMİZASYON 3.1 Merkezi kompozit tasarım İki seviyeli faktöriyel tasarımlar her bir faktörün etkilerini genel olarak inceleyen yöntemlerdir. Önemli faktörler belirlendikten sonra detaylı inceleme yani optimum değerlerin bulunması gerekebilir. Her bir faktörün optimum koşullarının bulunması merkezi kompozit tasarım yöntemi ile yapılır. İki nedenle optimizasyona ihtiyaç vardır. Birincisi, deneysel sonucu etkileyen faktörlerin optimum değerlerini bulmak. Örneğin, organik sentezde maksimum verimi etkileyen faktörlerin veya kromatografik ayırmada ayırma gücünü etkileyen faktörlerin optimizasyonu gibi. İkinci neden, her bir faktörün sonuca etkisini gösteren matematiksel modelin oluşturulması. Örneğin, bir ürünün FTIR spektrumu ile ürünün özelliği ve üretim prosesi arasındaki ilişki kurulmasına ihtiyaç duyulabilir. Faktöriyel tasarımlar tekrarlanan deney sayısı ve parabolik etkileri incelemez. Plackett-Burman ve fraksiyonel faktöriyel tasarımın bazı faktörlerinde, faktörler arasındaki etkileşimleri incelemek mümkün değildir. Önemli faktörler belirlendikten sonra parabolik etkiler ve faktörler arasındaki etkileşimler hesaplanır. Merkezi kompozit tasarımda deney sayısı aşağıdaki formüle göre belirlenir. Tasarım sayısı 2 k 2 k 1 (k: faktör sayısı) Formüldeki 2k full faktoriyel veya fraksiyonlu faktoriyel tasarımdaki deney sayılarını, 2k star tasarım deney sayısını ve 1 ise orta seviyedeki deney sayısını gösterir. 2 k’daki seviyeler (-1) ve (+1), 2k’dakiler , 1’deki ise (0) dır. değeri dairesel ve ortagonal tasarıma göre farklı seviyeler alır. Dairesel tasarımda aşağıdaki formüle göre hesaplanır.
4 2k Ortagonal tasarımda ise aşağıdaki formüle göre hesaplanır.
k Örnek: 3 faktör (k=3) için dairesel tasarımda α= ±1.682, ortagonal tasarımda α= ±1.732 bulunur. Örnek 2: Petrol rafinasyonunda kükürt (S) uzaklaştırılması işleminde etkin olduğu belirlenen sıcaklık (T, oC), akış kızı (V, g/sn) ve basınç (P, bar) faktörlerinin optimizasyonu hedeflenmektedir. Çizelge 18’de faktörlerin 5 ayrı seviyede aldığı değerler kodlanmış ve ham hallerinde verilmiştir. Bu çalışmanın amacı rafine edilecek olan üründe en düşük kükürt
miktarını elde etmek için optimum sıcaklık, akış hızı ve basıncın belirlenmesidir. Denemelerden elde edilen sonuçlar ppm S cinsinden hesaplanmıştır. Çizelge 18. Üç faktörlü merkezi kompozit tasarımda faktörlerin aldığı değerler. Faktörler
-
-1
Orta
+1
+
Kodlanmış
-1.682
-1
0
+1
+1.682
x1, T (oC)
334.18
341
351
361
367.82
x2, V (g/sn)
99.54
120
150
180
200.46
x3, P (bar)
46.64
48
50
52
53.36
Çizelge 18’de verilen ±1.682 kodlanmış seviyesindeki faktörlerin gerçek değerleri aşağıda verildiği gibi hesaplanabilir. Örneğin, x2 faktörü için:
x2 150 (150 120) veya (180 150)
x2 150 30 x 150 1.682 2 30 1.682
x1 99.54 x1 200.46
Bu değerlere göre tasarım tablosu kodlanmış ve kodlanmamış halde aşağıdaki şekilde (Çizelge 19) düzenlenir.
Çizelge 19. Merkezi Kompozit Tasarım Tablosu
deney 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
T (oC) V (g/sn) P (bar) x1 x2 x3 y, (ppm S) 341 120 48 -1 -1 -1 68 341 120 52 -1 -1 1 81 341 180 48 -1 1 -1 170 341 180 52 -1 1 1 200 361 120 48 1 -1 -1 38 361 120 52 1 -1 1 55 361 180 48 1 1 -1 67 361 180 52 1 1 1 62 334.18 150 50 -1.6818 0 0 180 367.82 150 50 1.6818 0 0 39 351 99.54 50 0 -1.6818 0 17 351 200.46 50 0 1.6818 0 130 351 150 46.64 0 0 -1.6818 44 351 150 53.36 0 0 1.6818 55 351 150 50 0 0 0 42 351 150 50 0 0 0 41 351 150 50 0 0 0 43 351 150 50 0 0 0 45 351 150 50 0 0 0 44 351 150 50 0 0 0 43
Çizelge 19’daki tasarımda; İk 8 deney (23=8) iki seviyeli full faktöriyel tasaqrıma eşdeğer deney sayısını, Takip eden 7 deney (2*3+1= 7) yıdız noktalarını ve bir adet orta noktadaki deneyleri, Son 5 deney orta seviyenin tekrar edilen deney sayısı olmak üzere toplam 20 deney yapılmaktadır. Bu üç faktörlü tasarımda ikini dereceden matematiksel model aşağıdaki (Eşitlik 9) gibi gösterilebilir. yˆ = b0 + b1x1 + b2x2 + b3x3 + b11x12 + b22x22 + b33x32 + b12x1x2 + b13x1x3 + b23x2x3 +b123x1x2x3
(9) Bu modelde; 1 kesim noktası (b0), 3 (=k) lineer etkileşimler (b1, b2, b3), 3 (=k) parabolik terimler (b112, b222, b332), 3 ikili etkileşimler (b12, b13, b23) terimleri bulunmaktadır. Çizelge 20’de yukarıda verilen eşitlikteki model denklemine karşı gelen deneysel tasarım çizelgesi vailmiştir.
Çizelge 20. İkinci dereceden 3 faktörlü merkezi kompozit tasarım tablosu. deney
x1 x2 x3 x1^2 x2^2 x3^2 x1x2 x1x3 x2x3 x1x2x3 y, (ppm S) 1 -1 -1 -1 1 1 1 1 1 1 -1 68 2 -1 -1 1 1 1 1 1 -1 -1 1 81 3 -1 1 -1 1 1 1 -1 1 -1 1 170 4 -1 1 1 1 1 1 -1 -1 1 -1 200 5 1 -1 -1 1 1 1 -1 -1 1 1 38 6 1 -1 1 1 1 1 -1 1 -1 -1 55 7 1 1 -1 1 1 1 1 -1 -1 -1 67 8 1 1 1 1 1 1 1 1 1 1 62 9 -1.682 0 0 2.828 0 0 0 0 0 0 180 10 1.682 0 0 2.828 0 0 0 0 0 0 39 11 0 -1.682 0 0 2.828 0 0 0 0 0 17 12 0 1.682 0 0 2.828 0 0 0 0 0 130 13 0 0 -1.682 0 0 2.828 0 0 0 0 44 14 0 0 1.682 0 0 2.828 0 0 0 0 55 15 0 0 0 0 0 0 0 0 0 0 42 16 0 0 0 0 0 0 0 0 0 0 41 17 0 0 0 0 0 0 0 0 0 0 43 18 0 0 0 0 0 0 0 0 0 0 45 19 0 0 0 0 0 0 0 0 0 0 44 20 0 0 0 0 0 0 0 0 0 0 43
Çizelge 20 yakından incelendiğinde en düşük kükürt değerine sahip deney 11’inci sırada verilen ve 17 ppm S değerini gösteren denemedir. Bu denemde akış sıcaklık için sıfır kodlanmış değer, akış hızı için -1.682 ve basınç için sıfır kodlanmış değerler sözkonusudur. Böylece, bu denemede akış hızının en düşük olduğu, sıcaklık ve basıncın orta seviyede tutulması ile en düşük kükürt oranına erişildiği görülmektedir. Ancak, sözkonusu 20 denemenin istatistiksel analizleri yapıldığında farklı optimum değerlerde ortaya çıkabilir. Resim 4, bu örneğin MINITAB ortamındaki veri analizinin adım adım nasıl yapıldığını göstermektedir.
Resim 4. Örnek 2’nin MINITAB ortamına çözümü. Resim 4’de gösterildiği gibi, MINITAB çalışma sayfasının ilk sütunu deneylerin sırasını göstermektedir. Daha sonra 2, 3, 4’üncü sütunlar sırasıyla sıcaklık (x1), akış hızı (x2) ve basınç (x3) faktörlerinin gerçek skalalarında aldığı değerleri göstermektedir. Takipm eden 3 sütun ise bu faktörlerin kodlanmış hallerini göstermektedir. Sekizinci sütun ise denelerden elde edilen sonuçların verildiği sütunu göstermektedir. Çizelge 21’de MINITAB analizinden gelen sonuçlar yer almaktadır. Ayrıca, Resim 5, MINITAB kullanılarak elde edilen modelin grafik sonuçlarını göstermektedir. Elde edilen bu model kullanılarak oluşturulan optimum şartlar Resim 6’da verilmiştir. Son olrak, üç boytutlu yanıt yüzey grafikleri Resim 7’de verilmiştir. Resim 8, kontugrafiklerini göstermektedir. Çizelge 21. MINITAB programı kullanılarak Örnek 2’nin çözümü. Response Surface Regression: y, (ppm S) versus T (oC), V (g/sn), P (bar) The analysis was done using coded units. Estimated Regression Coefficients for y, (ppm S) Term Constant T (oC) V (g/sn) P (bar) T (oC)*T (oC) V (g/sn)*V (g/sn) P (bar)*P (bar) T (oC)*V (g/sn) T (oC)*P (bar) V (g/sn)*P (bar)
Coef 42.575 -65.782 55.056 9.047 74.277 38.277 14.295 -65.423 -10.950 -1.766
SE Coef 3.801 4.242 4.242 4.239 6.944 6.944 6.941 9.322 9.311 9.311
T 11.201 -15.509 12.980 2.134 10.697 5.513 2.060 -7.018 -1.176 -0.190
P 0.000 0.000 0.000 0.059 0.000 0.000 0.066 0.000 0.267 0.853
S = 9.31948 PRESS = 6808.55 R-Sq = 98.36% R-Sq(pred) = 87.13% R-Sq(adj) = 96.88% Analysis of Variance for y, (ppm S) Source Regression Linear Square Interaction Residual Error Lack-of-Fit Pure Error Total Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
StdOrder 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
DF 9 3 3 3 10 5 5 19
Seq SS 52028.7 35919.8 11707.5 4401.4 868.5 858.5 10.0 52897.2
y, (ppm S) 68.000 81.000 170.000 200.000 38.000 55.000 67.000 62.000 180.000 39.000 17.000 130.000 44.000 55.000 42.000 41.000 43.000
Adj SS 52028.7 35919.8 11707.5 4401.4 868.5 858.5 10.0
Fit 60.791 80.562 173.756 191.026 36.573 40.843 57.038 58.808 182.634 51.071 25.797 135.909 47.823 65.917 42.575 42.575 42.575
Adj MS 5781.0 11973.3 3902.5 1467.1 86.9 171.7 2.0
SE Fit 7.627 7.627 7.627 7.627 7.627 7.627 7.627 7.627 7.264 7.264 7.264 7.264 7.259 7.259 3.801 3.801 3.801
F 66.56 137.86 44.93 16.89
P 0.000 0.000 0.000 0.000
85.85
0.000
Residual 7.209 0.438 -3.756 8.974 1.427 14.157 9.962 3.192 -2.634 -12.071 -8.797 -5.909 -3.823 -10.917 -0.575 -1.575 0.425
St Resid 1.35 0.08 -0.70 1.68 0.27 2.64 R 1.86 0.60 -0.45 -2.07 R -1.51 -1.01 -0.65 -1.87 -0.07 -0.19 0.05
18 18 45.000 42.575 3.801 2.425 0.28 19 19 44.000 42.575 3.801 1.425 0.17 20 20 43.000 42.575 3.801 0.425 0.05 R denotes an observation with a large standardized residual. Estimated Regression Coefficients for y, (ppm S) using data in uncoded units Term Constant T (oC) V (g/sn) P (bar) T (oC)*T (oC) V (g/sn)*V (g/sn) P (bar)*P (bar) T (oC)*V (g/sn) T (oC)*P (bar) V (g/sn)*P (bar)
Coef 29429.8 -166.968 24.1582 -54.3591 0.262546 0.0150331 1.26620 -0.0770833 -0.193750 -0.0104167
Normal Probability Plot
Versus Fits
99 10
Residual
Percent
90 50
0
10 -10 1 -20
-10
0 Residual
10
20
50
100 150 Fitted Value
Histogram
200
Versus Order 10
6
Residual
Frequency
8
4
0
2 -10 0
-10
-5
0 5 Residual
10
15
2
4
6
8 10 12 14 16 Observation Order
18
20
Resim 5. MINITAB kullanılarak elde edilen modelin grafik sonuçlarını.
T (oC) 367.820 [351.7966] 334.180
New High D Cur 0.00000 Low
V (g/sn) 200.460 [116.9115] 99.540
P (bar) 53.360 [48.9596] 46.640
Composite Desirability 0.00000
y, (ppm Targ: 17.0 y = 20.3864 d = 0.00000
Resim 6. Elde edilen bu model kullanılarak oluşturulan optimum şartlar.
Surface Plots of y, (ppm S)
150
300
y, ( ppm S) 100
y, ( ppm S) 200 100
200
0
150 340
350 T ( oC )
V ( g/sn)
100
360
y, ( ppm S) 100 50
150 V ( g/sn)
48
0 340
350 T ( oC )
150
100
50
50
52 P ( bar )
200
Resim 7. Üç boytutlu yanıt yüzey grafikleri.
48 360
Hold Values T (oC) 352 V (g/sn) 117 P (bar) 50
52 50 P ( bar )
Contour Plots of y, (ppm S) V (g/sn)*T (oC)
200
P (bar)*T (oC) 52.5
175 51.0 150
49.5
125
48.0
100 340
350
360
340
P (bar)*V (g/sn)
y, (ppm S) < 50 50 – 100 100 – 150 150 – 200 200 – 250 250 – 300 > 300
52.5 51.0 49.5 48.0
100
125
Resim 8. kontur grafikleri.
150
175
350
200
360
Hold Values T (oC) 352 V (g/sn) 117 P (bar) 50
BÖLÜM II YÖNLENDİRMESİZ SINIFLANDIRMA VE KÜMELEME TEKNİKLERİ
KONULAR 1. Temel Bileşen Analizi (Principal Component Analysis) 1.1. Eigen Değerler 1.2. Verilerin Analize Hazırlanması a. Merkezileştirme b. Standartlaştırma c. Normalizasyon 2. Yönlendirmesiz Kümeleme Teknikleri (Unsupervised Pattern Recognition: Cluster Analysis) 2.1. Öklit Uzaklığı (Euclidien distance) 2.2. Manhattan uzaklığı (Manhattan distance) 2.3. Mahalanobis uzaklığı (Mahalanobis distance) 1. TEMEL BİLEŞEN ANALİZİ (PRINCIPAL COMPONENT ANALYSIS, PCA) Çok değişkenli veri analizinde temel bileşen analizi en çok kullanılan tekniklerden biridir. Temel bileşen analizi örnekler ve değişkenler arasındaki ilişkiyi incelemek için kullanılan bir keomoetrik yöntemdir. Temel bileşen analizinde X ile gösterilen bir veri matrisi, T ile gösterilen bir skore matrisi, P ile gösterilen bir loadings matrisi ve E ile gösterilen bir hata matrisi bulunur. Bu değerlerle ilgili eşitlik (Eşitlik 1) aşağıdaki gibi verilebilir. X = TP’ +E
(1)
Temel bileşen analizinin uygulanmasında çeşitli algoritmalar kullanılmaktadır. En çok kullanılan algoritmalar NIPALS (Sürekli olmayan en küçük kareler) ve SVD ( Tek değer ayrışma)’dır. NIPALS algoritması istenilen sayıda temel bileşen hesaplamak için kullanılır. SVD algoritması ise temel bileşenlerin tamamını hesaplamaktadır. PCA için genel eşitlik temel bileşenlerin toplamı olarak eşitlik 2’de aşağıdaki gibi de yazılabilir. K
X=
t k 1
k
p k' E
Eşitlikte k bileşen sayısını belirtmektedir. Veri matrisinin ayrıntılı yapısı şöyledir
(2)
Burada görüldüğü gibi ilk olarak t1 skor ve p’1 loadigs’i ile t1 p’1 çarpımı elde edilir. Eğer t1 p’1 çarpımını X matrisinden çıkarılırsa E1 hatası hesaplanmış olur. Bu hata bir sonraki hatayı hesaplamada kullanılır. Bununla ilgili bağıntılar aşağıdadır (Eşitlik 3 ve 4) E1 = X – t1 p’1 (3) E2 = E1 – t2 p’2
(4)
k sayıda bileşen için hata hesabına yönelik aşağıdaki eşitlik (Eşitlik 5) kullanılmaktadır. Ek = Ek-1 - tk p’k
(5)
Yukarıdaki eşitlikte p’k simgesiyle gösterilen loadings vektörü şu şekilde hesaplanır (Eşitlik 6). p’k = t’X / t’ t
(6)
Aynı şekilde benzer bir formül ile sckor vektörü tk şöyle hesaplanır (Eşitlik 7). tk = X pk / p’k pk
(7)
Yukarıdaki eşitliklerde verilen loadings (yükleme) ve skor vektörleri her bir bileşen için hesaplanır ve böylece temel bileşenler elde edilir. Temel bileşen analizi hem analitik kimya ile ilgili çalışmalarda hem dediğer uygulamalarda sıkça kullanılan kemometrik yöntemlerden biridir. Temel bileşenlerin hesaplanmasında kullanılan loadings ve skor değerleri normalizasyon ve ortagonallik gibi bazı önemli özelliklere sahiptir. Normalizasyon her temel bileşendeki loadings değerlerinin karelerinin toplamının 1’e eşit olmasıdır (Eşitlik 8). J
j 1
p kj2 1
(8)
Eşitlikte pkj k’ıncı temel bileşenin j’inci loading’ini ifade etmektedir. Ortagonallik ise skor veya loadinglerin kolonlarının çarpımlarının sıfıra eşit olmasıdır (Eşitlik 9).
I
t i 1
t 0
ik il
(9)
1.1 Eigen Değerler Temel bileşen analizinde eigen değerler verideki bileşen sayısının bulunmasında kullanılır. En yüksek eigen değeri en önemli temel bileşen anlamına gelmektedir. Kemometri literatüründe eigen değerlerine yönelik bir çok tanım bulunmaktadır. Genel istatistiksel tanımı bir temel bileşenin değişimidir. Eigen değer genellikle temel bileşen skorlarının karelerinin toplamının örnek sayısının bir eksiğine bölünmesiyle elde edilir. İfade matemetiksel olarak şöyle verilmiştir (Eşitlik 10). I
t gk =
i 1
2 ik
I 1
(10)
Bazı araştırmacılar ise eigen değerleri basit bir şekilde temel bileşen skorlarının karelerinin toplamını örnek sayısına bölerek hesaplamışlardır (Eşitlik 11). I
t gk =
i 1
2 ik
I
(11)
1.2. Verilerin Analize Hazırlanması Kemometrik analizlerde ham veri büyük öneme sahiptir. Yapılan bir deneysel çalışma sonrasında elde edilen verilerin kemometrik hesaplamalarına geçmeden önce verilerin özellikleri dikkatle incelenmelidir. Elde edilen veriler arasında birbirinden çok farklı değerler bulunuyorsa ya da değerler arası büyük dengesizlik varsa, verilerin benzer birimlere çevrilmeleri veya ortalama değer etrafında toplanması gerekebilir. Bunun gibi durumlarda verilere merkezileştirme, standartlaştırma ve normalizasyon gibi verilerin analize hazırlanmasına yönelik işlemler uygulanır. a) Merkezileştirme Kemometrik analizde veri matrisinin X simgesiyle ifade edildiği ve bu matrisin satırlarının i sütunlarının ise j simgeleriyle gösterildiği daha önce belirtilmişti. Buna göre Xij şeklindeki bir veri matrisinin merkezileştirme işlemi Eşitlik 12 ile şu şekilde yapılmaktadır.
m
xij = xij – xj
(12)
Eşitlik 12’de mxij merkezileştirme işlemi yapılmış matrisi ifade etmektedir. xij i’inci satır j’inci sütundaki matris elemanını, xj ise her bir kolonun ortalamasını belirtmektedir. Eşitlikten de görülebileceği gibi, matristeki her bir kolonun ortalamasının kolon elemanlarından çıkarılmasıyla matris verisinin merkezileştirme işlemi yapılmış olmaktadır. Böylece matristeki her bir değer ortalama çevresinde toplanmış olmaktadır. b) Standartlaştırma Standartlaştırma işleminde öncelikle her bir kolonun ortalama ve standart sapması hesaplanır. Daha sonra kolondaki her bir elemandan kolon ortalaması çıkarılır ve kolon standart sapmasına bölünür. Böylece matris verisi standartlaştırılmış olur (Eşitlik 13). S
xij x j
xij
I
(x i 1
ij
x j )2
N 1
(13)
S Eşitlik 13’te xij simgesi standartlaştırma işlemi yapılmış matrisi ifade eder.
c) Normalizasyon Normalizasyon işlemi verilerin sabit bir değere getirilmesi işlemidir. Matris üzerinde normalizasyon işlemi yapılırken önce satır elemanları toplanır ve toplam değerler her satır için ayrı ayrı hesaplanır. Sonra her bir satır toplamı her satırın kendi elemanlarına bölünür ve normalizasyon işlemi tamamlanmış olur (Eşitlik 14).
N
xij
xij I
x i 1
Eşitlik 14’te
N
i
(14)
xij simgesi normalize edilmiş matrisi ifade etmektedir.
Örnek 1. Aşağıda tabloda üç farklı coğrafi bölgede yetişen aynı tür üzümden yapılmış 21 adet şarap örneğine ait 13 farklı değişkenin incelendiği veriler verilmiştir. Bu çalışmadaki amaç, bu verileri kullanarak sözkonusu 21 adet örneği PCA analizi kullanarak doğru şekilde ait olduğu gruplara sınıflandırmaktır.
No
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
1
14.83
1.64
2.17
14
97
2.8
2.98
0.29
1.98
5.2
1.08
2.85
1045
2
13.86
1.35
2.27
16
98
2.98
3.15
0.22
1.85
7.22
1.01
3.55
1045
3
14.1
2.16
2.3
18
105
2.95
3.32
0.22
2.38
5.75
1.25
3.17
1510
4
14.12
1.48
2.32
16.8
95
2.2
2.43
0.26
1.57
5
1.17
2.82
1280
5
13.75
1.73
2.41
16
89
2.6
2.76
0.29
1.81
5.6
1.15
2.9
1320
6
14.75
1.73
2.39
11.4
91
3.1
3.69
0.43
2.81
5.4
1.25
2.73
1150
7
14.38
1.87
2.38
12
102
3.3
3.64
0.29
2.96
7.5
1.2
3
1547
8
11.66
1.88
1.92
16
97
1.61
1.57
0.34
1.15
3.8
1.23
2.14
428
9
13.03
0.9
1.71
16
86
1.95
2.03
0.24
1.46
4.6
1.19
2.48
392
10
11.84
2.89
2.23
18
112
1.72
1.32
0.43
0.95
2.65
0.96
2.52
500
11
12.33
0.99
1.95
14.8
136
1.9
1.85
0.35
2.76
3.4
1.06
2.31
750
12
12.7
3.87
2.4
23
101
2.83
2.55
0.43
1.95
2.57
1.19
3.13
463
13
12
0.92
2
19
86
2.42
2.26
0.3
1.43
2.5
1.38
3.12
278
14
12.72
1.81
2.2
18.8
86
2.2
2.53
0.26
1.77
3.9
1.16
3.14
714
15
12.25
3.88
2.2
18.5
112
1.38
0.78
0.29
1.14
8.21
0.65
2
855
16
13.16
3.57
2.15
21
102
1.5
0.55
0.43
1.3
4
0.6
1.68
830
17
13.88
5.04
2.23
20
80
0.98
0.34
0.4
0.68
4.9
0.58
1.33
415
18
12.87
4.61
2.48
21.5
86
1.7
0.65
0.47
0.86
7.65
0.54
1.86
625
19
13.32
3.24
2.38
21.5
92
1.93
0.76
0.45
1.25
8.42
0.55
1.62
650
20
13.08
3.9
2.36
21.5
113
1.41
1.39
0.34
1.14
9.4
0.57
1.33
550
21
13.5
3.12
2.62
24
123
1.4
1.57
0.22
1.25
8.6
0.59
1.3
500
Yukarıda verilen tabloda örnekler satırlarda değişkenler sütunlarda verilmiştir. Bu veri MINITAB ortamına aktarılarak aşağıda verilen Resimdeki gibi PCA analizi gerçekleştirilebilir.
Öncelikle ilk iki temel bileşen verideki toplam değişkenliğin %67.77 sini açıkladını aşağıda verilen çizelgedeb görmekteyiz.
E.V
% Variance C. % Var
6.134532 47.44872 47.44872 2.627051 20.31943 67.76815
Bu noktadan haraketle PCA anlizinden gen ilk iki temel bileşen skor vektörünü birbirine karşı grafiğe geçirdiğimizde aşağıda verilen PCA skor grafiğini elde etmiş oluruz. 13 8
3
2
9
10
11 14
1
PC2
12 16 17
0
15
4 5
-1
18 20
1 2 3
19
6
21
-2 -4
-3
7
-2
-1
0
1
2
3
4
PC1
Yukarıda verilen PCA skor grafiğini yakından incelediğimizde ilk 7 örneğin karaktesitik olarak grafiğin sağ alt tarafından yer aldıklarının ve digger örneklerden net bir şekilde ayrıldıklarını görmekteyiz. Aynı şekilde sol alt köşede kümelenen 7 örnek diğer bir grubu gösterirken üste görünen 7 örnekte 8-14 numaralı örnekleri göstermektedir. PCA analizinde, ayrıca bu örneklerin gruplandırılmasında kullanılan 13 değişkenin yükleme grafiği oluşturulur. Aşağıdaki şekil PCA analizinden gelen ilk iki yükleme vektörünün birbirine karşı grafiğini göstermektedir. 0.3
X11
0.2 X12
0.1 X8
PC2
0.0
X4
X5
X7 X9 X6
-0.1 X2
-0.2 -0.3
X13
-0.4
X1 X10
-0.5
X3
-0.6 -0.4
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
0.4
PC1
Yukarıda verilen yükleme grafiğini incelediğimizde özellikle x1 ve x13 değişkenleri ilk 7 örneğin sınıflandırmasında büyük rol alırken x3 ve x10 değişkelnleri son 7 örneği daha iyi karakterize etmekte ve son olarak x8 ve x11 değişkenleri 8-14 arasındaki örnekleri daha iyi sınıflandırmış görünmektedir.
2. YÖNLENDİRMESİZ KÜMELEME ANALİZİ (UNSUPERVISED PATTERN RECOGNITION: CLUSTER ANALYSIS) Kümeleme analizi örnekler ya da değişkenler arasındaki benzerliklerin gösterilmesi ve yorumlanmasına yönelik kimyada sıkça kullanılan kemometrik yöntemlerden birisidir. Kümeleme analizi ile benzer örnekler aynı grup altında toplanabilmektedir. Kümeleme analizi yönlendirmesiz (unsupervised pattern recognition) ve yönlendirmeli (supervised pattern recognition) olmak üzere iki şekilde yapılabilmektedir. Bu bölümde yönlendirmesiz kümeleme tekniğinden bahsedilecektir. Yönlendirmesiz kümeleme tekniğinde birinci adım örnekler arasındaki benzerliği belirlemektir. Tablo 1’de 6 ayrı kan örneğinde kalsiyum ve fosfat analizi sonuçları verilmiştir. Çizelge 1. Kan örneklerinde kalsiyum ve fosfat değerleri Örnek 1 2 3 4 5 6
Kalsiyum (mg/100mL) 8.0 8.25 8.7 10.0 10.25 9.75
Fosfat (mg/100mL) 5.5 5.75 6.3 3.0 4.0 3.5
Kalsiyum ve fosfat içeriğine göre 6 kan örneği arasında benzerlik ilişkisi kurulabilir. Örnekler arasındaki benzerlik ilişkisini veren ve en çok kullanılan 3 yöntem aşağıda açıklanmıştır. 2.1. Öklit Uzaklığı (Euclidean distance) İki örnek (k ve l) arasındaki ilişki aşağıdaki formülle verilir (Eşitlik 15).
d kl
J
2 ( xkj xlj )
j 1
(15)
Burada j, ölçülen değerleri göstermektedir. xij de i örneğinde j ölçümünü, yani x32 3. örnekteki 2. ölçümü, Tablo 1’deki 6.3 fosfat değerini gösterir. İki örnek arasındaki öklit uzaklığı küçük ise bu örnekler birbirine benzerdir. Öklit uzaklığı matris formatında aşağıdaki gibi yazılabilir (Eşitlik 16).
d kl ( x k x l ).( x k x l )'
(16)
Burada Çizelge 1’de gösterilen her bir kolon bir vektördür. Bu formül Excel veya Matlab’ta kolaylıkla hesaplanabilir.
2.2. Manhattan uzaklığı (Manhattan distance) Öklit uzaklığından biraz farklıdır. Örnekler arasındaki ilişki benzer şekilde değerlendirilir. Manhattan uzaklığında matris tablosundaki değerler öklit uzaklığından daha büyüktür. Manhattan uzaklığı aşağıdaki formülle hesaplanır (Eşitlik 17). J
d kl | xkj xlj | j 1
(17)
Öklit uzaklığı ile Manhattan uzaklığı arasındaki fark Şekil 1’de gösterilmiştir. Manhattan uzaklığı
Öklit uzaklığı
Şekil 1. Öklit ve Manhattan uzaklığı ilişkisi 2.3. Mahalanobis uzaklığı (Mahalanobis distance) En sık kullanılan kemometrik yöntemleden birisidir ve öklit uzaklığına benzerdir. Birbiri ile korelasyona sahip değişkenleri dikkate alan bir yöntemdir. k ve l örnekleri arasındaki ilişkiyi veren uzaklık aşağıdaki matris terimi ile hesaplanabilir (Eşitlik 18). dkl = (xk - xl). C-1. (xk - xl)'
(18)
Burada C değişkenlerin varyans-kovaryans matrisi gösterir. Değişken sayısı örnek sayısından fazla olduğunda bu metot kolaylıkla uygulanamaz. Çünkü bu durumda varyanskovaryans matrisinin tersi yoktur. Kümeler arası uzaklıklar farklı yöntemlerle hesaplanabilir (Eşitlikler 19, 20, 21, 22, 23, 24 ve 25). a. Ortalama link (Average Likage) (Eşitlik 19) d ki
d Ai d Bi 2
(19)
b. Tekli link (Single Linkage) Bu eşitlikte kümeler arası en kısa mesafe aşağıdaki gibi hesaplanır (Eşitlik 20).
d ki
d Ai d Bi d Ai d Bi min( d Ai , d Bi ) 2 2
(20)
c. Toplam link (Complete Linkage) Bu metotta küme noktaları arasındaki en geniş mesafe dikkate alınarak öklit uzaklığı hesaplanmaktadır (Eşitlik 21).
d ki
d Ai d Bi d Ai d Bi max( d Ai , d Bi ) 2 2
(21)
d. Ağırlıklı ortalama link (Weighted Average Linkage) Bu metotta kümeler arası uzaklığın hesaplanmasında bileşen sayısı dikkate alınır (Eşitlik 22). d ki
NA N d Ai B d Bi N N
N NA NB
(22)
e. Merkezi (Centroid) Bu metotta iki kümenin merkezleri arasındaki mesafe dikkate alınarak öbek uzaklığı hesaplanmaktadır (Eşitlik 23).
d ki
NA N N N d Ai B d Bi A 2 B d AB N N N
(23)
f. Medyan (Median) (Eşitlik 24)
d ki
d Ai 2
d Bi d AB 2 4
(24)
g. Ward metodu (Ward’s Method) (Eşitlik 25) d ki
N A Ni N Ni Ni d Ai B d Bi d AB N Ni N Ni N Ni
(25)
Yukarıda verilen eşitliklerde (k) ve (i) simgeleri (k) numaralı kolonun (i) numaralı elemanını ifade eder. A ve B simgeleri ise örnekleri gösterir.
Çizelge 1’deki veriler dikkate alınarak örnek öklit uzaklığı aşağıdaki şekilde hesaplanabilir. Kalsiyum için 1. ve 2. örnekler arasındaki öklit uzaklığı, d12 = [(8-8.25)2 + (5.5-5.75)2]1/2 = 0.354 dir. Matristeki her örnek için öklit uzaklığı aynı şekilde hesaplandığında aşağıdaki Çizelge 2 elde edilir. Çizelge 2. Öklit uzaklığı tablosu Örnek 1 2 3 4 5 6
1 0 0.354 1.063 3.201 2.704 2.658
2
3
4
5
6
0 0.711 3.260 2.658 2.704
0 3.347 2.774 2.990
0 1.031 0.559
0 0.707
0
Uzaklık matrisinin indirgenmesi örneklerin toplanmasıyla yapılmaktadır. Burada kural en kısa uzaklığa sahip örneklerin ilk olarak toplanmasıdır. Aşağıda toplama işlemi sırasıyla gösterilmiştir. 1. İndirgenmiş matris Tablo 2’de görüldüğü gibi matristeki en kısa uzaklık 1. ve 2. örnekler arasındadır. Yani d12 = 0.354 olmaktadır. 1. ve 2. örnek 1* ile gösterilen yeni bir bileşen olarak birleştirilir ve aralarındaki uzaklık sıfıra eşitlenir. Böylece örnekler arasındaki yeni uzaklık değerleri aşağıdaki gibi hesaplanır.
d1*3
d13 d 23 1.063 0.711 0.887 2 2
d1*4
d14 d 24 3.202 3.260 3.231 2 2
d1*5
d15 d 25 2.704 2.658 2.681 2 2
d1*6
d16 d 26 2.658 2.704 2.681 2 2
1. İndirgenmiş matris aşağıdaki çizelgede (Çizelge 3)gösterilmiştir.
Çizelge 3. İndirgenmiş matris 1* 0 0.887 3.231 2.681 2.681
Örnek 1* 3 4 5 6
3
4
5
6
0 3.347 2.774 2.990
0 1.031 0.559
0 0.707
0
2. İndirgenmiş matris Tablo 3’te görüldüğü gibi matristeki en kısa uzaklık 4. ve 6. örnekler arasındadır. Yani d46 = 0.559 olmaktadır. 4. ve 6. örnek 4 * ile gösterilen yeni bir bileşen olarak birleştirilir ve aralarındaki uzaklık sıfıra eşitlenir. Böylece örnekler arasındaki yeni uzaklık değerleri aşağıdaki gibi hesaplanır. d 5*4
d 54 d 56 1.031 0.707 0.869 2 2
d 4*3
d 43 d 63 3.547 2.990 3.269 2 2
d 4*1*
d 41* d 61* 3.231 2.681 2.956 2 2
2. İndirgenmiş matris Çizelge 4’te gösterilmiştir. Çizelge 4. İndirgenmiş matris Örnek 1* 3 4* 5
1* 0 0.887 2.956 2.681
3
4*
5
0 3.269 2.774
0 0.869
0
3. İndirgenmiş matris Tablo 4’te görüldüğü gibi matristeki en kısa uzaklık 5. ve 4 *. örnekler arasındadır. Yani d54* = 0.869 olmaktadır. 5. ve 4 *. örnek 5* ile gösterilen yeni bir bileşen olarak birleştirilir ve aralarındaki uzaklık sıfıra eşitlenir. Böylece örnekler arasındaki yeni uzaklık değerleri aşağıdaki gibi hesaplanır. d1*5*
d 51 d 4*1* 2.681 2.956 2.819 2 2
d 35*
d 4*3 d 53 0.887 2.774 1.813 2 2
3. İndirgenmiş matris Çizelge 5’te gösterilmiştir.
Çizelge 5. İndirgenmiş matris Örnek 1* 3 5*
1* 0 0.887 2.819
3
5*
0 1.831
0
4. İndirgenmiş matris Çizelge 5’ten görüldüğü gibi matristeki en kısa uzaklık 1*. ve 3. örnekler arasındadır. Yani d1*3 = 0.887 olmaktadır. Bu veriler örnek 3 * ile gösterilen yeni bir bileşen olarak birleştirildiğinde örnekler arasındaki yeni uzaklık değerleri aşağıdaki gibi hesaplanır. d 3*5*
d 5*1* d 5*3 1.831 2.274 2.325 2 2
4. İndirgenmiş matris Çizelge 6’da gösterilmiştir. Çizelge 6. İndirgenmiş matris Örnek 3* 5*
3* 0 2.547
5* 0
Sonuç olarak yukarıda hesapladığımız noktaları bir grafik üzerinde gösterirsek aşağıdaki dendrogramı elde ederiz (Şekil 2).
100
Benzerlik
80
60
40 3*
5* 20 4*
1* 0 5
6
4
Örnekler
3
Şekil 2. Örnekler arasındaki ilişkiyi veren dendrogram.
2
1
Bu hesaplamalar karmaşık gibi görünse de konunun anlaşılması açısından yararlıdır. Kümeleme analizi daha kolay olarak bazı hazır programlarla (Statistica gibi) da yapılabilmektedir. Şekil 2’de görüldüğü gibi bu örnekte iki temel küme bulunmaktadır. 1,2,3 bir küme 4,5,6 başka bir kümeyi göstermektedir. Örnek 2. Aşağıda çizelgede farklı coğrafi bölgelerden elde edilmiş 20 adet zeytin yağı örneğinin yağ asitleri profilini göstermektedir. Bu veriler kullanılarak PCA ve HCA analizleri yapılacak ve sözkonusu 20 örneğin kaç farklı gruba ayrılacağı belirlenmek istenmektedir. samples 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
palmitic palmitoleic stearic oleic linoleic eicosanoic linolenic eicosenoic 911 49 268 7924 678 51 70 44 922 66 264 7990 618 49 56 29 1100 61 235 7728 734 39 64 35 1082 60 239 7745 709 46 83 33 1037 55 213 7944 633 26 52 30 1285 129 244 7323 819 57 65 36 1248 107 313 7299 840 46 66 33 1356 106 236 7209 866 48 75 36 1260 102 228 7354 870 49 64 28 1261 121 312 7238 877 47 65 25 1364 204 225 6929 1084 21 50 14 1410 199 216 7130 955 21 48 19 1384 178 208 7105 999 29 67 26 1412 185 217 6842 1203 34 72 32 1410 232 280 6715 1233 32 60 24 1136 72 341 7616 661 49 65 32 926 41 277 7815 784 45 65 25 1105 69 373 7714 532 51 68 37 1109 79 305 7576 763 45 64 36 1284 93 265 7235 893 43 77 46
Yukarıda verilen veri öncelikle MINITAB ortamına aktarılmış ve PCA ve HCA analizleri ayrı ayrı gerçekleştirilmiştir. Yukarıda PCA örneği verilirken MINITAB ortamında analizin nasıl başlatıldığı bir resim ile verilmişti. Bu nedenle burada sadece HCA analizi nasıl başlatılıyor üzerinde durulacak ve aşağıda verilen resim HCA analizinin şemasını göstermektedir.
Yukarıda MINITAB çalışma sayfasında gösterilen veriler öncelikle PCA analizine tabi tutulmuş ve sözkonusu 20 örneğin nasıl sınıflandığı aşağıda verilen ilk iki temel bileşen skor vektörünün birbirine karşı grafiği çizilerek gösterilmiştir. 3
2
5
11
2
12 17
PC2
1
3
0
19
9 10
13
16 18
7
15
1
4
6
-1 8
14
20
-2 -4
-3
-2
-1
0
1
2
3
PC1
PCA analizinden gelen ilk iki skor vektörünün grafiğini incelediğimizde örneklerin genel olarak üç alt gruba ayrıldığını söyleyebiliriz. Aşağıda verilen çizelgede PCA analizinde ilk iki temel bileşen vektörünün verideki toplam değişkenliğin %79.42’sini açıkladığını öte yandan ilk dört temel bileşenin ise %95 civarındaki varyansı kapsadığını görmekteyiz.
Eigenval % Varianc C.% Var 4.690292 1.663256 0.893089 0.295994 0.245336 0.159076 0.050536 0.002421 8
58.62865 20.7907 11.16362 3.699921 3.066701 1.98845 0.631696 0.030264
58.62865 79.41935 90.58297 94.28289 97.34959 99.33804 99.96974 100
PCA analizinden sonra yapılan HCA analizinde öncelikle ham veriler kullanılarak dendrogram oluşturulmuş ve elde edilen dendrogram aşağıdaki şekilde verilmiştir. Ward Linkage, Euclidean Distance
Uzaklık
19.67
13.11
6.56
0.00
1
4
2 17 3
5 16 19 18 6
9
7 10 8 20 11 12 13 14 15
Örnekler
Yukarıda verilen dendrogram yakından incelendiğinde 11, 12, 13, 14 ve 15 numaralı örneklerin bağımsız bir grup olarak sınıflandırıldığı görülmektedir. Öte yandan, geriye kalan 15 örnekten 6, 7, 8, 9, 10 ve 20 numaralı örneklerin bir başka alt grubu oluşturduğu ve son olarak dendrogramın sol tarafındaki 10 örneğin bir başka alt grubu oluşturduğu görülmektedir. Daha sonar HCA analizi, ham veriler yerine, PCA analizinden gelen ve veri setindeki toplam varyansın %95’ini kapsayan ilk 4 temel bileşen skor vektörü kullanılarak oluşturulmuş ve elde edilen dendrogram aşağıda verilmiştir.
Ward Linkage, Euclidean Distance
Uzaklık
20.10
13.40
6.70
0.00
1
4
3
2
17
5 16 19 18
6
8
9 20
7 10 11 12 13 14 15
Örnekler
Yukarıda verilen dendrogram incelendiğinde ham veriler ile elde edilen dendrogramın hemen hemen aynısının PCA analizinden gelen ilk dört temel bileşen vektörü ile de elde edilebildiği görülmektedir.