[voiserPlayer]
Yazı dizisinin ilk bölümünü deneysel çalışmaların nedensellik konusunda elimizdeki en güvenilir araçlar olduğunu söyleyerek bitirmişiz, peki nedir bu deneysel çalışmalar? Ya da deneysel olmayan çalışmalar? Ne işe yararlar? Neden karşımıza çıkarlar?
İlk bolümde spor yapma ve kilo verme arasındaki ilişkiyi incelemiştik. Bu ikilinin arasında bir nedensellik kurulması için gerekli olan ama yeterli olmayan (necessary but not sufficient) üç ana kriterden bahsetmiştik. Yeniden hatırlatmak gerekirse bunlar; korelasyon, zamanlama ve hala Türkçe literatüre nasıl girdiğini bilemediğimiz non-spuriousness idi.
Diyelim ki, her birimiz artık birer iktisatçıyız ve spor yapma ile kilo verme arasında bir ilişki olduğunu da gözlemledik. Artık bu ilişkinin adını koymak istiyoruz. Spor yapmanın bazal metabolizmayı hızlandırdığı, ve kalori açığı oluşturmaya yardımcı olduğuna dair bir teorimiz var. Bu teoriyi takiben de bir hipotezimiz var: Spor yapmak kilo vermeye yardımcı olur[1]. Bu hipotezi test etmek için ihtiyacımız olan ne? Elbette ki veri!
Veri oluşturma (data-generation) denilen süreç hipotez(ler)imizin yanlışlanabilirliğini test etmek için çıktığımız yolun ilk adımı. Veri deneysel veya deneysel olmayan yöntemlerle oluşturulabilir, toplanabilir.
Öncelikle hızlıca deneysel olmayan veri oluşturma yöntemlerinden bahsetmek gerekiyor. Nedir bunlar? Mesela hane halkı araştırmaları, Sağlık Bakanlığı verileri, spor salonlarının tuttuğu veriler, araştırmacının anket aracılığı ile toplayacağı veriler gibi araştırmacının verileri toplasa dahi verinin ortaya çıkışına etkisinin olmadığı çalışma türleri. Çünkü, burada insanların spora gitme kararına etki eden araştırmacı değil. Bu tür veriye gözlemsel (observational) veya jargon doğru kullanmak gerekirse deneysel olmayan veriler diyoruz. Bu tarz çalışmalar bu yazının konusu değil ama ilerleyen günlerde bu verileri kullanan yöntemlerden de bahsedeceğiz.
Deneysel yöntemlerle veri oluşturmak ne demek peki? İnsanları kobay olarak mı kullanacağız, deneyi nerede yapacağız? Veri nasıl toplanacak? Bu şekilde veri oluşturmak sorumuza ne fayda sağlayacak?
Öncelikle, deneysel yöntemler gerçekten de tıp literatürden ödünç aldığımız bir olgu. Hepimiz yeni ilaçlar piyasaya sürülmeden önce yapılan deneylere aşinayız.
Nedir bu deneylerin aşamaları? Öncelikle deney (treatment) ve kontrol (control) adı altında iki grup oluşturulur. Gönüllülerin hangilerinin deney, hangilerinin kontrol grubunda olduğunu belirleyen mekanizma rastgelelik ilkesidir (random assignment to treatment). Deney grubuna etkilerini anlamak istediğimiz ilaç verilirken kontrol grubuna fiziksel özellikleri, rengi, şekli, dokusu vb. tamamen aynı olan plasebo ilaç verilir. Araştırmayı yürüten bilim insanları da araştırmaya katılan gönüllüler de kimin hangi gruba atandığını bilmezler ki, buna çift körlük denir (double-blindness). Daha sonra bu deneyden elde edilen veriler işlenerek, X ilacının Y hastalığının tedavisinde etkisi üzerine bir sonuca varılır.
Sosyal bilimlerde, zaman içinde, “x olgusu ile y olgusu arasındaki ilişki nedir?”, “bu olgular arasında nedensellik var mıdır?” sorularının cevabını bulmak için deneysel yöntemler kullanılmaya başlanmıştır[2].
Şimdi biz de bir sağlık ekonomisti hayal edelim ve sorumuza geri dönelim: Spor yapmak ile kilo vermek arasındaki ilişki nasıldır? Spor yapmak kilo vermeye neden olur mu? Deneysel yöntemlerin altın standart olduğunu varsayan bu hayali sağlık ekonomistimiz elbette ki, ilk iş olarak bu soruyu cevaplamak için gereken veriyi deney yöntemi ile toplamak isteyecektir. Peki, bunun için neler yapması gerekir ve bu ekonomistimize ne sağlar?
Sağlık ekonomistimiz, Ayşe Hoca, hocalık yaptığı okulun asansörlerine ilan asarak “Kilo verme ile spor arasındaki ilişkinin çalışılacağı deneye” gönüllü arayabilir; daha sonra bu gönülleri ikiye ayırarak deney grubunun haftanın her günü birer saat spor yapmasını, kontrol grubunun ise hiç spor yapmamasını sağlayabilir. Deneyinin başında ve sonunda herkesin kilolarını ölçen Ayşe Hoca, deney sonunda sporun kilo vermeye yardımcı olduğunu bulur… mu gerçekten?
Şimdi filmi başa saralım ve Ayşe Hoca’nın ofisine gidelim. Ayşe Hoca cevabını aradığı sorunun ne olduğunu biliyor. Hatta bunu daha iyi anlatabilmek için de aşağıdaki tabloyu hazırlamış.
Ogrenci i | Kilodeney öncesi | Kilodeney sonrası | Kilo Değişimi |
Spor (Evet) | |||
Spor (Hayır) |
Ayşe Hoca aslında herhangi bir öğrenci i kişisinin spor yaptığı ve spor yapmadığı iki olası dünyanın (potential outcomes) sonuçları arasındaki farkı arıyor. Fakat, Ayşe Hoca’nın önemli bir sorunu var: Bu iki olası dünyanın, o dünyalarda yapılan seçimlerin ve o seçimlerin sonuçlarının sadece ve en fazla birini gözlemleyebilir. Yani Ayşe Hoca, öğrencisi i’nin aynı anda hem spor yaptığı hem spor yapmadığı bir gerçeklik içinde bulunamaz. Ayşe Hoca, nedensel çıkarım çalışan herkesin ezbere bildiği o problem ile tanıştırdı bizi: Nedensel Çıkarımın Varoluşsal Problemi (The Fundemental Problem of Causal Inference)[3][4].
Kısacası, bir insanın bir yolu seçse ya da seçmese başına gelecekler arasındaki fark nedensel etkidir. Ya da başka bir deyişle, spor yapmanın kilo üzerine öğrenci i özelinde etkisi = (i spor yapmasa kilosu)-(i spor yapsa kilosu). Peki elimizde bu iki durumun birden verisi olamayacağına göre ne yapacağız? Dükkanı kapatıp nedensellik sevdamızı arkamızda mı bırakalım?
Hayır tabii ki, yapacağımız şey gerçek hayatta spor yapan öğrenci j, Emine ile yapmayan öğrenci i, Ali’yi kıyaslayıp, bir takım sonuçlara varmayı denemektir. Ancak, naifçe spor yapan Emine’nin kilosu ile yapmayan Ali’nin kilosu arasındaki farkı kıyaslayıp bir sonuca varamayız. Neden mi? Çünkü, spor yapmasaydı Emine’nin kilosunu ve spor yapsaydı Ali’nin kilosunu bilmiyoruz.
Diyebilirsiniz ki, e iki kişi ile nedenselliği nasıl anlayacaksın zaten, onun yerine spor yapan bir grubu spor yapmayan diğer grup ile kıyaslarız ve ortalama müdahale (bu durumda spor yapmak) etkisine bakarız (average treatment effect). Zaten Ayşe Hoca’nın da ilk bunu yaptığını söylemiştik.
Öncelikle, Ayşe Hoca deneyine katılacak gönüllüleri nasıl buldu sorusunu sormamız gerekiyor. Nüfusun tamamı ile bu deneyi yapamayacağına göre elbette bir örneklem oluşturması gerekiyordu. Peki, Ayşe Hoca örneklemi nasıl oluşturdu? Akademisyen olarak çalıştığı üniversitenin asansörüne ilan asarak. Ayşe Hoca’nın deneyine katılan kimseler muhtemelen 18-22 yaş arası, lise mezunu, üniversite eğitimi alan kimseler. Hatta, bu deneye gönüllü katıldıklarına göre muhtemelen kilo vermek istiyor ya da zaten yediklerine içtiklerine, günlük kalori hesaplarına dikkat eden kimseler. Elinizde değil, ilgilendiğiniz nüfusun ( bütün insanlar) içinde bulunduğunuz nüfusun (üniversite) bile temsilinde zorlanacağınız bir örneklem oldu. Buna seçilim önyargısı (selection bias) diyoruz.
Bu nasıl olacak? Havlu mu atacak Ayşe Hoca? Hayır tabii ki. Deneysel yöntemlerin sihri işte bu noktada devreye giriyor. Klasik bir sosyal bilimler deneyini oluşturan üç şey vardır: deney ve kontrol grupları, randomizasyon [5] ve müdahale (spor) öncesi ve sonrası bağımlı değişkenin (bu durumda kilo) ölçülerek kıyaslanması[6].
Ayşe Hoca öncelikle okuldan çıkacak, deney bütçesi, zamanı, araştırma asistanları gibi bir dolu kısıtın altında örneklem için kullanacağı sayıyı ve örneklem metodunu seçecek. Ayşe Hoca’nın tek kısıtının ülkedeki herkesi deneye dahil edememek olduğunu varsayalım. O zaman, Ayşe Hoca kendisine istatistiki olarak en fazla kuvveti verecek (statistical power) sayıda örneklemi nüfusun içinde rastgele seçecek. Rastgele seçim önemli ama neden? Çünkü herhangi bir popülasyondan yeterli büyüklükte bir örneklemi rastgele seçer ise, popülasyonun karakteristik özelliklerinin ortalamasına yaklaşması o kadar kolay olur[7].
Deneye başlamadan önce, deneye katılmayı kabul eden herkesin deney sonucuna etki edebileceğini düşündüğü özellikleri ile ilgili kısa bir anket (baseline survey) yapan Ayşe Hoca bu işte o kadar iyi ki, deneye katılmayı kabul etmeyenlere de birtakım sorular sormayı veya en azından birtakım özelliklerini kaydetmeyi başarabiliyor[8].
Ayşe Hoca’nın artık yapması gereken şu: Deneyine katılacak kimseleri rastgele deney ve kontrol gruplarına yerleştirmek. Yine mi rastgele diyecek olursanız, elbette. Çünkü, kendi kendilerine deney grubunda veya kontrol grubunda olmayı seçen kimselerin gözlemlediğimiz ama daha önemlisi gözlemleyemediğimiz ve deney sonucuna etki eden özellikleri olacaktır. Ayşe Hoca deney ve kontrol grubunu rastgele oluşturduktan sonra bize bir denge tablosu (balance table) sunacak. Bu tablo ile bize deney ve kontrol grubunun gözlemlenebilir ve kilo alma/vermeye etki etmesi, spor müdahalesine etki etmesi muhtemel özellikleri arasında istatistiki olarak bir fark olmadığını gösterecek[9].
Ayşe Hoca, okulunun spor salonunu, yurt odalarını ve ona istediği menüyü hazırlamaktan çekinmeyen yemekhanesini kullanarak bütün “denek”lerini okul ortamında tutacak. Böylece, mümkün mertebe spor yapmak dışındaki değişkenleri, örneğin; alınan kalori miktarı, yeme saatleri, spor dışı hareket, uyku düzeni, izlenilen filmler vs. sabit tutmayı elinden geldiğince başaracak. Deneyinin sonunda ise spor yapan deney grubunun ortalama kilo değişimi ile kontrol grubunun ortalama kilo değişimi arasındaki farka bakarak, bu farkın istatistiki olarak bir önem arz edip etmediğine bakarak, spor ve kilo kaybı arasındaki ilişkinin nedensel olup olmadığına dair bir şey söyleyebilecek.
Haklı olarak şunu sorabilirsiniz: madem deney altın standart, neden bütün nedensellik sorularında bu yöntem kullanılmıyor?
Öncelikle Ayşe Hoca’nın geçtiği yollara bakarsak en basit cevap: Yapılabilirlik ve maddi kısıtlar. Ama aslında üzerine biraz daha düşünmemiz gereken bir şey bu: Spor ile kilo verme arasındaki ilişkiye dair yapılacak deney son derece masumane, peki ya etik kaygılara neden olabilecek deneyler?
Mesela sosyal bilimcilerin çok merak ettiği sorulardan biri, alınan eğitimin çalışma hayatında kazanılan para üzerine etkisidir. Bunu anlamak için şöyle “ideal” bir çalışma tasarlanabilir: 2000 çocuk doğumda deney ve kontrol grubu olarak rastgele ikiye bölünür, yine rastgele ailelere tekrar dağıtılır, bir kısmına iyi eğitim verilir, ötekilere verilmez, sonra mesela 40 sene boyunca gözlenir. Saçma mı? Evet hem de saçmalığın daniskası! Saçmalıktan daha da önemlisi insan hayatına dair böyle kararlar alma yetkisini herhangi bir anda herhangi bir araştırmacıya kim vermiş olabilir! Böyle bir deney olmaz tabii. Bir deneyin olup olmayacağına karar vermek için denetim kurulları, etik kurullar ve kurallar bulunmakta. Deneylere dair söylenecek özellikle de bilgi ve bilimin felsefesi noktasında çok şey var. Fakat ne yazık ki yerimiz dar, bilgimiz kendimize kadar bu konuda. Yazının bir sonraki bölümünde deney yapamadığımız durumlarda kullanılacak yöntemlerden bahsetmeye başlayacağız. Sağlıcakla!
Fotoğraf: Hal Gatewood
[1] Hipotez tanımı gereği iki değişken arasındaki beklenen ama kanıtlanmamış ilişkilerdir. Hipotezler genellikle “neden olur” diye değil de daha yumuşak geçişlerle oluşturulur. Siz yardımcı oluru neden olur diye okuyabilirsiniz.
[2] Credibility Revolution adı verilen, randomistas diye nitelendirilen takipçileri bulunan bu yöntem elbette ki eleştiriye açıktır. Okumaktan zevk alınan ve son derece haklı eleştirileri vardır. Bunlardan en önemlisi de Angus Deaton’un yazdıklarıdır. Fakat bunların hiçbiri bu yazının konusu değildir. Yazarlar olarak biz, bu yöntemlere dair varsayımlarımız ile yola cıkmış bulunmaktayız. Başka varsayımlar ve başka sonuçları ise okumaktan zevk alırız.
[3] The Fundemental Problem of Causal Inference: At most one of the potential outcomes can be realized an observed. (Imbens, G. W., & Rubin, D. B. (2015). Causal inference in statistics, social, and biomedical sciences. Cambridge University Press.)
[4] Ekonometri literatüründe “potential outcomes” (olası çıktılar/sonuçlar ya da neticeler) olarak bilinen bu çatı nedenselliği anlamak için en sık kullanılan çerçevelerden biridir. Fakat, unutulmamalıdır ki, olası sonuçlar nedenselliği anlamak için geliştirilmiş tek çerçeve değildir. Daha da önemlisi üzerinde çeşitli teknik tartışmalar dönmektedir. Tartışmaların en önemli örneği ve olası çıktılar çerçevesine getirilen en ilginç bir alternatiflerden biri Judea Pearl’ün Book of Why isimli oldukça ses getiren kitabıdır. Olası çıktılar, şu an itibariyle, çok yaygın kullanımda olduğundan, anlaşılması çok önemlidir.
[5] Randomizasyon aynen bu şekilde literatürde kullanılmaktadır, içimize daha çok sinen Türkçe bir karşılık bulamadık.
[6] Çift kör ve plasebo meselesi sağlık bilimlerinde çok kullanılır ama sosyal bilimlerde biraz daha zor, o yüzden oralara girmiyoruz.
[7] Bunun teorik bir adi da var: Büyük sayılar kanunu (Law of Large Numbers).
[8] Türkiye’de gözlemlediğimiz önemli bir eksiklik bu araştırma şirketlerinin anket verilerinde. Ankete katılmayı kabul etmeyen kimselere dair herhangi bir bilgiye sahip degiliz.
[9] STATA kullanmayı öğrenenler, öğrenmek isteyenler, çeşitli sosyal fayda programlarını bu şekilde test etmek isteyenler için Dünya Bankası’nın şahane bir hizmeti var: IE Tool Kit