Rys historyczny
Dawno temu, u zarania pandemii, pewien student postanowił patrzeć władzy na ręce i rozpoczął swój projekt zbierania, i analizowania danych pandemicznych.
Studentem tym był: Michał Rogalski, a projekt umieścił pod następującym linkiem.
Niestety, wykrył on kilka dużych nieprawidłowości, wobec czego rząd, dla „zwiększenia jawności danych„, scentralizował bazę i odciął takie osoby jak Michał od możliwości pracy na rzetelnych statystykach pochodzących z powiatowych sanepidów.
Po co ten tekst o danych
Na przestrzeni dwóch pandemicznych lat, rząd przygotował kilka narzędzi i baz danych, w założeniu ułatwiających analizę sytuacji. W niniejszym tekście skupiam się na danych dot. zgonów, zakażeń, ozdrowień i kwarantanny, które są wykorzystywane na szeroką skalę przez media i polityków.
Intencją niniejszego artykułu jest znalezienie odpowiedzi na postawione w tytule pytanie. Na potrzeby tego opracowania, przygotowałem zestawienie danych z wszystkich źródeł, w okresie od 2.01.2021 do 25.01.2022. Arkusz dostępny jest pod niniejszym linkiem.
W momencie, gdy piszę ten tekst, rząd prezentuje dane w następujący sposób:
1. Codzienne Tweety w godzinach 10-11.
2. Codzienna aktualizacja rządowej strony zawierającej archiwum z dziennymi raportami.
3. Cotygodniowa (czasami rzadsza) aktualizacja bazy danych BASIW.
Jak nietrudno się domyślić, wartości dotyczące tych samych parametrów, różnią się od siebie w zależności od źródła.
Codziennie, od godziny 10 do 11 pojawiają się Tweety z informacjami o ilościach zgonów/zakażeń dziennych i skumulowanych, skumulowanej ilości ozdrowieńców, wykonanych testach, szczepieniach itd. Na każdym kroku Ministerstwo podkreśla, że:
„W związku z korektami wprowadzanymi na bieżąco przez laboratoria w systemie EWP, globalna liczba zakażeń i zgonów od początku pandemii może nie być sumą kolejnych dziennych zakażeń lub zgonów.”
Jest to wyraźna sugestia, by brać pod uwagę JEDYNIE wartości skumulowane. Niestety do automatycznej analizy danych, bazowanie na tweetach jest mało efektywne. Przykładowy tweet:
gov.pl
Na portalu rządowym, każdego dnia aktualizowane jest archiwum, zawierające dzienne raporty w formie plików *.csv. Oczywiście nie zawiera ono danych skumulowanych. Wewnątrz każdego pliku znajdziemy informacje o dziennej ilości wykrytych zakażeń (wartości identyczne jak dzienne statystyki w Tweetach), wykonanych testów (z wynikami), zgonów, ozdrowień i osób na kwarantannie (akurat kwarantanna jest podawana narastająco). W tym miejscu warto podkreślić, że ozdrowieńcy nie byli uwzględniani w raportach przez cały miesiąc (od 24.11.2020 do 24.12.2020), co uniemożliwia obliczenie dokładnej liczby aktywnych przypadków zakażeń. Problem z ustalaniem dokładnej ilości osób COVID-dodatnich w konkretnym momencie czasu postaram się opisać w oddzielnym artykule.
BASIW (Baza Analiz Systemowych i Wdrożeniowych)
Ta baza danych jest bez wątpienia najciekawsza. Zawiera informacje o zgonach i zakażeniach ludzi z podziałem na stopień zaszczepienia, producenta szczepionki, choroby współistniejące i problem z obniżoną odpornością. Ze względu na swój interaktywny charakter jest bardzo często używana do prezentacji danych na portalach społecznościowych.
Od przybytku głowa… boli
Przechodząc do sedna. Pod wspomnianym już linkiem umieściłem dane dot. zakażeń, zgonów, ozdrowieńców i kwarantanny z wszystkich wymienionych źródeł. Następnie przeprowadziłem dwa pomiary.
- Dokładna analiza wybranego okresu (6.12-12.12.2021). W tym przypadku porównałem wartości dzienne dla każdego dnia (BASIW i gov.pl), z danymi skumulowanymi z Twittera.
- Suma wszystkich przypadków (nie dot. kwarantanny) w wyznaczonym okresie (2.01.2021 – 25.01.2022). W przypadku danych z Twittera, posłużyłem się wartościami skumulowanymi, a różnica wartości ostatniej i pierwszej wyznaczyła właściwą liczbę osób.
Różnice w ujęciu globalnym są znaczne, ale nawet w ciągu badanego tygodnia można zauważyć rozbieżności. Czas na analizę wyników.
Analiza danych z wybranego tygodnia (6-12.12.2021)
Zakażenia
Zgony
Ozdrowieńcy
Kwarantanna
Ilość osób na kwarantannie raportowana na rządowej stronie jest identyczna jak na TT.
Analiza danych za cały okres 2.01.2021 – 25.01.2022
Zakażenia
Zgony
Ozdrowieńcy
Kwarantanna
Ilość osób na kwarantannie raportowana na rządowej stronie jest identyczna jak na TT.
Czy rząd manipuluje danymi pandemicznymi?
Ze smutkiem muszę stwierdzić, że tak. Niezależnie od źródła, dane dotyczące konkretnego parametru powinny być identyczne. Jak wykazałem wyżej, niestety tak nie jest. Najgorzej prowadzona jest statystyka ozdrowieńców, co skutecznie uniemożliwia określenie ilości osób zakażonych w danym momencie, czyli ludzi na izolacji.
Jako podatnik, oczekuję, że rząd, wydając pieniądze obywateli, wykaże się najwyższą starannością. Jak pokazuje historia, realizacja tego oczekiwania jest raczej w sferze utopijnych marzeń. Nie wiemy ile kosztowało przygotowanie tych wszystkich narzędzi i obsługa danych. Wiemy natomiast, że po raz kolejny coś poszło nie tak. Mówiąc dobitniej, dane pandemiczne udostępniane przez rząd są po prostu nierzetelne. Opinia ta dotyczy JEDYNIE samych prezentowanych danych i nie ocenia podejścia rządu do pandemii jako takiej.
Skąd zatem czerpać dane o pandemii?
Z uwagi na powyższą analizę, ciężko odpowiedzieć na tak postawione pytanie. Każde źródło cechuje specyficzny zbiór informacji. Jeżeli chcemy podjąć się opracowania danych pandemicznych dot. Polski, pomijając statystyki ozdrowieńców, proponuję następujące użycie źródeł:
- BASIW – do zestawienia zakażeń i zgonów w zależności od poziomu zaszczepienia. Przez wzgląd na rzadsze aktualizacje i największe liczby, wydaje się, że to najrzetelniejsze źródło; Nie mam niestety jak tego zweryfikować.
- gov.pl – do zestawienia zgonów i zakażeń w zależności od ilości wykonanych testów i pozostałych danych znajdujących się w plikach csv. Trzeba jednak zaakceptować, że dane te są lekko zaniżone w stosunku do BASIW.
- Tweeter – do manualnej weryfikacji oświadczeń rządu
Osobiście do prezentacji statystyk pandemicznych wykorzystuję pierwsze dwa punkty. Z moimi opracowaniami mogą się Państwo zapoznać w poniższym Tweecie: