[voiserPlayer]
COVID-19 Türkiye’yi vurduğundan beri, açıklanan verilerin belirsizliği halkta korku ve şüphe uyandırıyor. Sağlık Bakanlığının paylaştığı verilerin çok tartışıldığı son günlerde ilginç bir iddia da Dr. Nick Brown’dan geldi. Yaptığı tweet zincirinde Sağlık Bakanlığının açıkladığı koronavirüs verilerinin istatistiki olarak olası olmadığını, hatta verilerin bu şekilde oluşmasının neredeyse imkânsız olduğunu yazdı.
Lisans eğitimini Bilgisayar Bilimleri ve Mühendisliği alanında tamamlayan Brown, buna müteakiben yüksek lisansına Uygulamalı Pozitif Psikoloji alanında devam etti ve uzun bir aranın ardından da doktorasını Sağlık Psikolojisi üzerine yaptı. Kendisi aynı zamanda Routledge yayınlarından çıkan “Eleştirel Pozitif Psikolojinin El Kitabı” adlı çalışmanın editörlerinden biri ve halen kötü bilim ve veri sunumunda hatalar üzerine çalışıyor. Dr. Brown’un adını, Brian Wansink’i ifşa eden ekipte olmasından mütevellit duymuş olmanız mümkün. Konuyla alakalı detaylı bilgi sahibi olmak isteyenler buradan okuyabilirler. Titizlikle yürütülen sürecin ardından, bu sorgulama Brian Wansink’in makalelerinin geri çekilmesi ve nihayetinde akademiden uzaklaştırılmasıyla sonuçlandı. Dolayısıyla, Dr. Brown herhangi bir veri seti hakkında bu denli net bir söylemde bulunuyorsa ciddiye almalıyız dersek, yanlış olmaz.
Pek çoğumuzun şüphelerini doğrular nitelikteki bu zincirde konuşmaya değer pek çok nokta bulunuyor. Kendisiyle yaptığım bu görüşmede Türkiye’nin COVID-19 verilerindeki tuhaflıklar üzerine konuştuk.
Türkiye’nin COVID-19 verileri hakkında merak uyandıran bir zincir yaptınız. İlginizi çeken neydi, neden Türkiye’nin COVID-19 verileriyle alakadar oldunuz?
Türkiye’den birileri benimle iletişime geçti ve verilere bakmamı önerdiler. Sayıların alışılageldiğin dışında olduğunu düşünüyorlardı. Ben de Sağlık Bakanlığının internet sayfasına girdim ve verilerin bir kopyasını aldım. Bazı tuhaf sayı dizilimleri vardı, bunlardan yapabileceğimiz çıkarım, verilerin doğal bir sürecin sonucunda meydana gelmemiş olabileceği yönünde.
Veri okur-yazarlığı herkesin aşina olduğu bir konu değil. Bilmeyenler için şüphelerinizin kaynaklarını açıklar mısınız?
Elimizde vaka sayıları, ölüm sayıları, yapılan test sayıları gibi pek çok sayının bulunduğu veri grupları varsa, yani elimizde gerçekten çok fazla miktarda sayı varsa, bunlardan yüzde onunun 0’la, yüzde onunun 1’le, yüzde onunun 2’yle bitmesini ve bu şekilde ilerlemesini bekleriz, çünkü on tane rakam vardır ve son hanelerin rakamlara dağılımının bir miktar farklılıklar içererek yakın olmasını bekleriz. Fakat fark ettim ki, sıfırla biten sayılar neredeyse yok denecek kadar az. Bu verilerin sıfırla bitmemesinin olasılığını hesaplamak için birkaç test yaptım. Elimizde üç veri grubu var. Bu gruplardan ilkinin böyle sonuçlara sahip olma olasılığı binde bir. İkinci grubun sonuçlarının bu şekilde çıkma olasılığı yüz milyonda bir ve toplamda tüm bu veri gruplarının Sağlık Bakanlığının bizlerle paylaştığı sayılar gibi olması ihtimali ise milyarda birden bile az.
Çalışmanızda Benford Yasası’na atıf yapıyorsunuz. Benford Yasası bize veri gruplarında rakamların ne sıklıkta görülebileceğine dair bir takım olasılık oranları sunar. Sağlık Bakanlığı tarafından açıklanan verilerin Benford Yasası’na uymadığını görüyoruz. Bu, mutlaka verilerin elle girildiğine mi delalet ediyor, yoksa başka bir sebebi olabilir mi?
Benford Yasası’ndan bahsedildiğinde aslında yasanın bizleri en çok ilgilendiren kısmı kast edilir. Bu durum gerçek hayatta gördüğümüz ondalık sayıların solundaki ilk basamakta birlerin ikilerden, ikilerin üçlerden daha fazla olma eğiliminde olduğudur, ancak bu yalnızca belirli koşullar altında geçerlidir. Yasanın bu kısmının, ülke içindeki COVID-19 vaka sayıları gibi verilere uygulanmasını bekleyemeyiz. Çünkü bu veriler günden güne çok fazla değişiklik gösterme eğiliminde değillerdir. Yani bugün dört yüz vakanız varsa, muhtemelen yarın dört yüz elli veya üç yüz elli arasında bir vaka sayısı olacaktır. Bunun yanı sıra, Benford Yasası’nın daha az bilinen bir kısmı da vardır ki, bu bize bir sayının ikinci, üçüncü ve diğer basamaklarının da nasıl görünmesi gerektiği konusunda fikir verir. Doğal bir sürecin sonucunda elimize geçen sayıları toplarsak, hemen hemen tüm sayılar için, üçüncü basamağa geldiğimizde, her rakamla aynı sıklıkta karşılaşmayı bekleriz ve bu rakamların sıklığı arasında büyük farklar olması, bu durumun vaka sayılarının birbirlerine eklenmesine yönelik doğal bir işlemin sonucu olmadığının işareti olabilir. Bu durum ister kazara ister kasıtlı olsun, veri girişindeki hatalardan kaynaklanıyor olmalı.
Neden toplam vaka-hasta sayısına değil de günlük vaka-hasta sayılarına odaklandınız?
Sağlık Bakanlığının web sitesinde ayrı ayrı dört veri var ve ayrıca toplamları gösteren dört de sütun var, toplamlar günlük sayılardan daha fazla bilgi içermiyor. Örneğin, toplam vaka sayısı bir gün 74.003 ertesi gün ise 74.008 olsaydı, günlük vaka sayısının 5 olduğunu anlardık. Yani toplam sayının günlük sayılar ile aynı miktarda arttığını gördüm ve dolayısıyla toplamlarda daha fazla bilgi olmadığına emin oldum. Bu sebeple, problemin kaynağının günlük sayılar olma olasılığının daha yüksek olduğunu düşündüm ve sadece günlük sayılara odaklandım.
Çalışmanızda Ki-Kare testini kullanmışsınız. Ki-Kare testi bize beklenen sonuçla gerçek sonuç arasındaki farkı söyler. Bu test nasıl uygulanır ve ne olursa ortada tuhaf bir durum olduğu anlamına gelir?
Ki-kare testi, bir dizi sayıyı, bir olayın meydana gelme sıklığına göre incelemenin bir yoludur. Mesela, bir aşıyı test ediyorsanız, hastalananlar arasından aşı olan ve olmayanların sayısını ele alırsınız. Elde edilen sonuçla, aşı işe yaramasaydı ortaya çıkacağını düşündüğümüz sonuç arasındaki fark, Ki Kare istatistiği olarak ifade edilir. Ki Kare istatistiğinin ne kadar olağandışı olduğu, kaç tane veriniz olduğuna bağlıdır. Bunu, P değeri olarak adlandırılan ikinci bir sayıya indirgeriz. P değeri, bir sorun olmadığı taktirde bu sayıları görme olasılığınızın bir tahminidir. Eğer bir aşıyı test ediyorsanız, çok çok küçük bir P değeri görmek istersiniz. Yani aşıyı yaptıranların aşı olmayanlara göre çok daha az hastalandığını görmeyi umarsınız. Sağlık Bakanlığının sayılarına baktığımızda büyük bir tutarsızlık olmaması adına oldukça büyük bir P değeri görmeniz gerekir. Fakat bizim elimizdeki değerler ortada bir tutarsızlık olduğunu gösteriyor. Yapılan analiz sonucu oluşan Ki-Kare değerlerine baktığımızda Sağlık Bakanlığının açıkladığı günlük vaka-hasta sayılarının bazıları binde bir, bazıları on milyonda bir ortaya çıkma olasılığına sahip. Yani gerçekte bu sayıların hepsinin bu şekilde olma ihtimali, bir kişinin arka arkaya iki veya üç kez piyangoyu kazanması gibi bir şey.
Veri ve istatistiklerin anlaşılması herkes için kolay değil. Günlük hayattan bize bir örnek vermeniz mümkün mü?
Diyelim ki dışarı çıktınız ve bir marketten çıkan yüz kişiyi durdurup fişlerine baktınız. Marketlerdeki birçok ürünün fiyatı büyük ihtimalle sıfır veya dokuz, hatta doksan dokuzla bitecektir, çünkü marketler ürün etiketlerine 2.00 yerine 1.99 yazmayı seviyorlar, böylece aldığınız ürünün biraz daha ucuz olduğuna inanıyorsunuz. Dolayısıyla, yüz kişiyi durdurup fişlerini toplasaydınız, muhtemelen her rakamdan yaklaşık onar tane olurdu. Ufak farklar elbette olabilir, ama marketten çıkan yüz veya iki yüz kişinin fişlerindeki toplam miktarlardan hiçbirinin yedi ile bitmemesi garip kaçardı. Örneğin; alışverişe gittiğinizde, toplam miktar 100,00 TL veya 200,00 TL çıksa ne tesadüf dersiniz ve şaşırırsınız. Yahut alışverişe gitmeniz gerekirken gitmeyip, size verilen parayı çalmış olsanız ve bir sayı uydurmanız gerekse; 100,00 TL harcadım demezsiniz, çünkü bu kulağa aptalca gelebilir. Sanırım 154,5 TL falandı, dersiniz. İşte, market fişlerini toplamak çok sayıda farklı sonucu içeren gerçek bir işleme örnek olabilir, pek çok farklı hastaneden gelen verileri toplamak da süreç olarak bundan pek farklı değil.
Kafamızdan bir sayı uydurduğumuzda bu sayının sıfırla bitmemesine özen gösteriyoruz demek mümkün mü?
Senden, sıfır ile yüz arasında herhangi bir sayı seçmeni istesem muhtemelen, çoğu insan gibi yedi ile biten bir sayıyı tercih edersin. Sıfır ile biten bir sayı seçerseniz, gerçekten rastgele bir şey seçiyormuşsunuz gibi hissettirmez. Elbette, normalde 50 ya da 49 sayısını seçmek arasında olasılıksal bir fark yoktur.
Elimizdeki verilere baktığımızda, Sağlık Bakanlığı verilerinin istatistiki olarak imkânsız olup olmadığı konusunda ne kadar net yorum yapabiliriz?
Elbette bu verilerin doğru sayılar olma ihtimali var. Ancak, bu ihtimal milyarda bir gibi bir şeye tekabül ediyor. Bu da bana neredeyse imkânsız görünüyor. Peki, nasıl böyle bir şey olabilir? Bilmiyorum, bu konuya birçok açıklama getirmek mümkün, ancak bunların COVID-19 ile ilgili gerçek sayılar olduğuna inanmıyorum. Ne olmuş olabileceği konusunda ise spekülasyon yapmak istemiyorum.
Söyledikleriniz gerçekten çarpıcı. Peki, veri ve veri analizini neden önemsemeliyiz?
Dünyayı anlamanın en iyi yolu bu! Böyle şeyler oluncaya kadar veriler hakkında çok fazla endişelenmeden hayatımızı yaşayabiliriz, fakat COVID-19 gibi durumlar meydana geldiğinde sayısal gerçeklerle savaşamayacağımızı fark ederiz. Virüs umursamaz. Bu yüzden, gerçeklerin ne olduğunu bilmek önemlidir. Ayrıca ne anlama geldiklerini bilmek de önemlidir. Bence burada bir denge kurmak lazım. Çünkü, veri bilimcilerinin ve veri analistlerinin yapmaları gereken her şeyi yapması ve rakamları bulması gerekiyor ama sonrasında bunu bir bağlama oturtmak ve “Tamam, durumun bu olduğu düşünüldüğünde, işte yapmamız gerekenler bunlar ve bunlardır” demek toplumun ve politikacıların görevi. Doğru olmayan verilerle başlarsanız, o zaman ne yaptığınız gerçekten hiç önemli değildir. Yani, evinizin temelleri sağlam değilse, banyonuza altın musluklar taktırmış olmanızın bir önemi yoktur.
Aynı zamanda şeffaflık ve güven konusunda da önemli bir rol oynar, sizce de öyle değil mi?
Bilim adamı şapkamı çıkararak tamamen sade bir vatandaş olarak söylüyorum bunu: Yönetim yapılarındaki şeffaflık ve güvenin oldukça önemli ve gerekli olduğunu düşünüyorum.
Konuşmak istediğimiz her şeyi açıklığa kavuşturduk. Eklemek istediğiniz herhangi bir şey var mı?
Şunu eklemek istiyorum, Dünya Sağlık Örgütü (WHO) ile Hastalık Korunma ve Kontrol Merkezinin (CDC) verilerine baktığımızda da Sağlık Bakanlığının açıkladığı sayıları görüyoruz. Bu durum Sağlık Bakanlığının paylaştığı ve doğruluğundan şüphe ettiğim verilerin dünyadaki diğer organizasyonlara da bu şekilde aktarıldığı anlamına geliyor. Verilerin Türkiye’nin ötesinde bir önemi var. Neticesinde bu salgın tüm dünyayı etkiliyor.
Öyleyse bu ulusal bir mesele olmanın yanı sıra Türkiye’nin uluslararası ilişkileri üzerinde de etkili olabilecek bir duruma benziyor.
Türkiye’nin[1] uluslararası ilişkileri üzerinde bir etkisi olup olmayacağını bilmiyorum, ama kesinlikle önemli olduğunu düşünüyorum. Biliyorsunuz, Dünya Sağlık Örgütü herkesin doğru rakamları bildirmesine güveniyor. T.C. Sağlık Bakanlığının Nisan ayından beri girdiği tüm verilerin muhtemelen yanlış olduğu bilgisi, uluslararası kuruluşların ilgisini çekebilecek gibi duruyor.
Fotoğraf: Adam Nieścioruk
[1] Dr.Brown’un söyledikleri ilginizi çektiyse paylaştığı GitHub kodunu çalıştırıp sonuçları kendi gözlerinizle de görmeniz mümkün. Buna karşın Sağlık Bakanlığından herhangi bir açıklama gelip gelmeyeceğiyse şu noktada meçhul.