Kitle iletişim araçlarının gelişmesiyle giderek daha fazla istatistik verisine maruz kalmaya başladık. Medya organları buldukları her fırsatta önümüze rakamlar ve tablolar sunuyor. Çok fazla seçeneğimiz olduğu için en sansasyonel olanın en çok tık aldığı bilgisiyle medyacılar birbirleriyle bizim ilgimiz için yarışıyor. Çoğu zaman okuduğumuz veriler ya asıl bağlamından koparılmış ya da olmadık matematik taklalarından geçtikten sonra çok uçuk birer iddiaya dönüşmüş olarak karşımıza çıkıyor. Bu bağlamda bu yazıda istatistik verisi okurken nelere dikkat etmemiz gerektiği konusunu ele almak istiyorum. Yazının içeriği, nicel araştırmalarla haşır neşir olanlar için tekrar gibi gelebilir uyarısını da baştan yapayım. En temel gündemimiz Covid-19 salgını olduğundan örnekleri hastalık verilerinden seçtim.

İstatistik verilerinde en temel iki konu ölçüm ve yorumlamadır. Ölçüm yaparken araştırmacıların izlediği birçok prosedür ve standart olsa da burada okurlar olarak bizi ilgilendiren ölçümün güvenirliği ve geçerliliğidir. Güvenirlik, kabaca ölçülen olgunun ne kadar doğru ölçüldüğü, geçerlilik ise ölçüm sonucu elde edilen verinin gösterdiği iddia edilen durumu ne kadar gösterdiğiyle ilgili. Önce basit bir örnekle başlayalım. Bir odada 10 kişi varsa ve araştırmacı bize 8 veya 11 kişi olduğunu söylüyorsa ortada yanlış ölçüm yani güvenirlik sorunu vardır. Öte yandan bu 10 kişinin boylarını ölçüp yalnızca buna dayanarak bize yaşlarını söylüyorsa buradaki sorun artık geçerlilik sorunudur. Çünkü kişinin boyu bize yaşını anlatmaz. Elbette odada kaç kişi olduğunu bilmiyorsak güvenirlik sorununu tespit etmemiz zor ama imkânsız değil (korona örneği bunu gösterecek). Geçerlilik hatalarını saptamak ise görece daha kolay. Şimdi korona virüsü verilerine geçebiliriz.

Korona virüsüyle ilgili en çok merak ettiğimiz ve medya organlarının ve uzmanların anlattığı konular vaka sayısı, virüsün yayılma hızı ve ölüm ve iyileşme oranlarıdır. Bunları ülke ve yaş gruplarındaki dağılımlar izliyor. Normalde bunların en az karmaşık olanı vaka sayısı iken bunun çok fazla tartışma yarattığını gördük. Vaka sayısının tartışmalı olmasının en önemli nedeni vakaların tespiti. Odadaki kişi sayısı örneğinde hatayı saptamak için gidip bizzat saymamız ya da sayan başka insanların verileriyle karşılaştırma yapmamız gerekiyordu. Oysa korona vakalarında bunu yapamıyoruz çünkü vakalar ancak test yapılarak belirlenebiliyor. Elimizdeki semptom listesinden kimin hasta olabileceği ancak tahmin edilebilir ama kesin sonucu sadece test verebiliyor. Bu nedenle mesela hiç test yapmamış bir ülkede resmi vaka sayısı sıfır olacaktır. Aynı şekilde yapılan test sayısı (ki hükûmetler bunları olumlu bir adım olarak duyuruyor) azsa vaka sayısı da çok test yapan ülkelerden daha az çıkacaktır. Nitekim Türkiye’de ilk korona vakası 11 Mart’ta açıklandı. Peki daha önce hiç vaka yok muydu? Yüksek ihtimalle vardı ama bunu bilemeyiz. Bir yerdeki “gerçek” korona vakası sayısını bilebilmemizin tek yolu oradaki herkese günde en az 1 kez test yapılmasıdır. Çok sayıda test yapan ülkelerdeki gerçek vaka sayısını dahi haliyle bilemiyoruz[1]. Vaka sayısı kritik çünkü diğer tüm veriler bir şekilde vaka sayısıyla ilişkili.

Kaynak: Corona Virus COVID-19

Virüsün yayılma/bulaşma hızı virüsü taşıyan birinin bunu kaç kişiye bulaştırdığıyla ölçülür. Kimin kimden kaptığını tespit etme imkânımız olmadığından yayılma hızı genellikle hasta sayısındaki artışla ölçülür. Diyelim ki, yeni hasta sayımız 1-2-4-8-16-32-64 şeklinde ikiye katlanarak artıyor (toplam hasta sayısı bunların hepsinin toplanmasıyla elde edilir). Buradan çıkarılan sonuç, virüsün ortalama bulaşma hızının iki olduğudur. Yani bir hasta ortalama iki kişiye daha hastalık bulaştırıyor. Yukarıdaki grafiğin de gösterdiği gibi hasta sayısı bu şekilde üstel artıyor. Ancak, yukarıda anlatmaya çalıştığım gibi gerçek hasta sayısını tam bilemediğimiz için yayılma hızını da bilmiyoruz.

İyileşme oranı tahmin edeceğiniz üzere hastaların ne kadarının iyileştiğiyle, ölüm oranı ise ne kadarının öldüğüyle ilgili. Burada iyileşen hasta sayısını toplam hasta sayısına bölerek bir oran elde ederiz. Ölüm oranı da yine ölen hasta sayısının toplam hasta sayısına oranı olarak hesaplanır. Yukarıdaki grafiği baz alarak bu iki oranı hesaplayalım.

Yine toplam vaka (hasta) sayısının güvenirliğini göz önüne aldığımızda iyileşme oranı da ölüm oranı da gerçeği yansıtmıyor. Burada tahmin yürütecek olursak ölüm oranları muhtemelen daha düşük. Hastalık bulaşanların gerçek sayısının çok daha yüksek yüksek olduğunu varsayarsak ölüm oranı düşüyor. Teşhis konmadan ölenler elbette vardır ama toplam hasta sayısına göre çok daha düşük bir artış olur. Sonuç olarak ölüm oranı %4’ten azdır. Gerçek iyileşme oranını tespit etmek ise daha zor çünkü, hastalığı çok az şikayetle geçirenlerin hastaneye gidip teşhis almadığını varsayarsak iyileşen sayısı yukarıda belirtilenden daha yüksek olacaktır. Ancak, hasta sayısının da daha yüksek olduğunu düşündüğümüz için burada net bir tahminde bulunmak zorlaşıyor.

Yukarıdaki örnekler bu kadar hayati bir konuda bile istatistiklere neden daha dikkatli yaklaşmamız gerektiğini gösteriyor. Dahası, uzmanı olmadığımız bir konuda bile ölçüm yöntemlerine bakarak verilen istatistiğin ne kadar güvenilir ve ne kadar geçerli olduğu konusunda fikir yürütebiliriz. Bilimsel dergilerde yayınlanan nicel araştırmalarda mutlaka ölçüm yöntemi, veri kaynakları ve analiz metodu anlatılır. Çoğu zaman bir gazetede haber olan bir bulgunun yayınlandığı makaleye baktığımızda aslında o kadar da ilginç bir bilgi olmadığını görüyoruz. Dolayısıyla, burada okurlar olarak bize düşen özellikle doğru olamayacak kadar iyi (veya kötü) ise araştırmanın kaynağına inmek, yazarların gerçekten bulduklarını iddia ettiği sonuçları okumak ve elbette ölçüm yöntemlerine bir göz atmaktır. Mevcut krizde ise yetkililere daha çok test yapmak düşüyor. Çünkü ne kadar çok vaka tespit edilirse başkalarına bulaştırmadan izole etme şansı o kadar yüksek olur. Ayrıca gerçek vaka sayısını bilmek toplumun ne kadarı hastalığı geçirirse veya aşı bulunduğu takdirde en az kaçımıza uygulanırsa sürü bağışıklığı kazanabileceğimizi de doğru hesaplamamızı sağlayacaktır.

Fotoğraf:  ThisisEngineering RAEng


[1] Vaka sayısının tespitini zorlaştıran bir diğer sorun virüsün kuluçka süresinin (4-14 gün arası) uzun olması. Hastalık bulaşan kişi rahatsızlık hissetmediği sürece hastaneye başvurmayacak dolayısıyla da teste tabi tutulmasına gerek olmayacaktır. Buna birçok insanın hastalığı çok hafif şikayetlerle veya hiç rahatsızlık yaşamadan taşıyabildiğini de ekleyince vaka sayısının güvenirliği daha da düşüyor.