Pred dvema dnevoma sem objavil kratek komentar s sliko za EU države, kjer sem predstavil bivariatno korelacijo med odstotkom precepljenosti (z dvema odmerkoma) in 7-dnevnim povprečjem števila novih primerov (oboje na dan 22. ali 23. oktober 2021). Iz slike je sledilo, da povečanje precepljenosti za 1% v povprečju EU držav pomeni nižjo 7-dnevno pojavnost Covid za 2%. No, nekaj komentatorjev mi je pod mojim komentarjem očitalo, da ne upoštevam nekaterih držav oziroma, da ena izmed pravkar objavljenih študij v European Journal of Epidemiology (Subramanian & Kumar, 2021) kaže, da ni nobene povezave med stopnjo polne precepljenosti in številom primerov v 68 državah in 2,947 pokrajinah v ZDA. Natančneje, študija ugotavlja:
At the country-level, there appears to be no discernable relationship between percentage of population fully vaccinated and new COVID-19 cases in the last 7 days (Fig. 1). In fact, the trend line suggests a marginally positive association such that countries with higher percentage of population fully vaccinated have higher COVID-19 cases per 1 million people.
Glede na to, da prvi avtor (S.V. Subramanian) prihaja iz Harvarda (Harvard Center for Population and Development Studies ter Department of Social and Behavioral Sciences, Harvard T.H. Chan School of Public Health) sem si študijo prebral in seveda hitro ugotovil, da ne gre za pravo študijo, pač pa (tako kot v mojem primeru) za en bivariatni graf med precepljenostjo in številom primerov v zadnjih 7 dneh (le da se za razliko od mojega nanaša na 68 držav in ne samo na EU države, pri čemer pa moj graf vključuje še regresijsko enačbo) ter še dva grafa, ki zgolj ponazarjata število primerov Covid glede na decile precepljenosti v pokrajinah ZDA. V glavnem, ne gre za resno študijo in me čudi, da kaj takšnega sploh objavijo v neki akademski reviji. Ne predstavljam si, da bi kaj takšnega objavili v resni akademski reviji s področja ekonomije. No, zato sem si včeraj vzel dobre 4 ure časa, uporabil isto bazo podatkov po državah ter naredil malce bolj resno analizo med precepljenostjo in številom primerov Covid (ter za dodatek še tudi za število smrti). Spodaj je kratek povzetek rezultatov in kot boste videli, je bil moj komentar glede EU povsem na mestu – tudi ko upoštevamo še druge vplive.
Opozorilo: Komur se ne da brati metodološkega dela, naj preskoči dol na sekcijo z rezultati analize.
Namen
Ali polna cepljenost proti Covid zmanjšuje pojavnost Covid primerov in število smrti s Covid?
Podatki
Podatki so vzeti iz baze Our World in Data (OWiD), in sicer vključujejo podatke do 23.10.2021 (ali manj). Podatki v OWiD so sicer za več kot 200 držav, vendar pa za mnoge manjkajo ključni podatki. Nisem izločal držav, v analizi so zajete vse države, za katere so dostopni podatki za vse spremenljivke v modelu. Efektivni vzorec je med 90 in 100 držav.
Metodologija
Analiziral sem podatke od 1. avgusta 2021 naprej. Razlog je v tem, da se je epidemija med poletjem avtonomno umirila, nato pa je, kot kaže spodnja slika, avgusta začela postopoma naraščati. Moj interes je analizirati, ali je stopnja cepljenosti pomembeneje vplivala na zajezitev tega vala porasta epidemije.
Slika: Število primerov Covid v izbranih državah na 1 mio prebivalcev (7-dnevno povprečje)
Vir: OWiD
Podatki se torej nanašajo na obdobje 1.8. – 23.10.2021, ki sem jih nato grupiral iz dnevnih v tedenske. In sicer sem vzel 7-dnevno povprečje števila novih primerov Covid in 7-dnevno povprečje števila smrti s Covid na zadnji dan v tednu (nedelja), medtem ko je za stopnjo cepljenosti z dvema odmerkoma ter za ostale spremenljivke v modelu vzet podatek na zadnji dan v tednu (nedelja). V obdobju je bilo 13 takšnih polnih tednov. Torej v analizi uporabljam tedenske podatke (13 za vsako državo), medtem ko se je moja slika v komentarju izpred 2 dni ter slika v članku Subramanian & Kumar (2021) nanašala zgolj na en časovni trenutek (na dan ob koncu obdobja).
Takšna struktura podatkov seveda omogoča bolj kompleksno analizo, saj lahko upoštevamo časovne zakasnitve med dnevom cepljenja in dnevom, ko naj bi cepivo že delovalo. Kot baseline primer sem vzel uradni podatek, da cepivo načeloma polno učinkuje 2 tedna po cepljenju z drugim odmerkom. Kot robustness check pa sem preverjal še učinkovitost cepiva na število novih primerov 3 in 4 tedne po cepljenju z drugim odmerkom. Pri učinku na število smrti pa sem kot baseline primer vzel 3 tedne po cepljenju, kot robustness check pa 4 tedne po cepljenju.
Medtem ko je moja slika v komentarju izpred 2 dni ter slika v članku Subramanian & Kumar (2021) ugotavljala zgolj bivariatno korelacijo med odstotkom prebivalstva (pri meni 18+), cepljenega z dvema odmerkoma, in številom novih primerov Covid, pa je model, ki ga tukaj ocenjujem, bistveno bolj kompleksen. Odvisna spremenljivka je 7-dnevno povprečje števila novih primerov Covid, prva pojasnejvalna spremenljivka pa odstotek cepljenih z dvema odmerkoma z odlogom 2 tednov (torej ugotavljam potencialni vpliv cepljenja na število novih primerov 2 tedna po cepljenju z drugim odmerkom). Za to pojasnjevalno spremenljivko pa sem nato dodal še interakcijske člene za kontinent, od koder država prihaja. Najprej zato, ker se epidemija zelo različno obnaša po različnih kontinentih (denimo Afrika in Azija sta bili v veliki meri neprizadeti z epidemijo), nato pa zato, ker mi ti interakcijski členi omogočajo videti povprečne razlike v potencialni učinkovitosti cepljenja med kontinenti.
Nato pa v model vključim še druge spremenljivke, ki bi lahko imele potencialni vpliv na epidemijo, in sicer: medianska starost prebivalstva (države z mlajšo populacijo naj bi bile manj prizadete z epidemijo), delež ljudi starih nad 70 let (najbolj ranljiva skupina zaradi slabšega imunskega sistema), pričakovana življenjska doba (države z daljšo življenjsko dobo prebivalstva naj bi bile načeloma bolj prizadete, Human Development Index (HDI indeks OZN, ki zajema 150 faktorjev, ki merijo razvojno uspešnost in kvaliteto življenja v državah; tukaj je HDI vzet kot proxy za kvaliteto zdravstvenega sistema), ter delež umrlih zaradi kardiovaskularnih bolezni in delež ljudi z diabetesom (zelo ranljivi skupini na Covid). (Seveda bi za natančnejšo analizo moral dodati še interakcijske člene s kontinenti, vendar sem zaenkrat to spustil, ker me je zanimala zgolj korelacija med dvema glavnima spremenljivkama).
V model bi lahko dodal še “policy stringency index” (omejitve držav glede mandata z maskami, zaprtja šol in vrtcev, zaprtja javnega življenja itd.), vendar je čez poletje večina držav relaksirala vse omejitve (razen mask in PCT pogoja) in menim, da to ne bi imelo nekega pomembnega vpliva. Glede širjenja epidemije je še ogromno neznank in misterijev, zakaj se epidemija v nekaterih državah širi bolj, zakaj nenadoma sama ugasne itd. Če se kdo spomni še kakšnih relevantnih spremenljivk, ki so dostopne za vse države v vzorcu, se priporočam. Zgornji model je zgolj ad hoc hitra empirična analiza na podlagi relevantnih podatkov, ki so zajeti v OWiD bazi.
Vse spremenljivke so v logaritmih absolutnih vrednosti, kar omogoča interpretacijo ocenjenih koeficientov kot elastičnosti. Preizkušal sem sicer še specifikacijo modela (obeh glavnih spremenljivk) v prvih diferencah (razlika v povprečju novih primerov in stopnji cepljenosti v obdobju 14 dni), vendar to zahteva analizo na nelogaritmiranih podatkih (ker so razlike lahko negativne). Analiza na prvih diferencah (prirastkih obeh spremenljivk) pa se tudi ni izkazala za učinkovito (zelo nizek R2 in ostale mere kvalitete modela).
Model je ocenjen z OLS. Metode fiksnih učinkov nisem mogel uporabiti, ker se vse dodatne spremenljivke v modelu nanašajo na isto leto (in so fiksne za državo znotraj panela, variacija je le med državami). Transformacija s fixed effects cenilko bi podatke vseh teh spemenljivk transformirala v ničle in spremenljivke bi bile avtomatsko izločene iz modela. No, nič drugega tukaj ne preostane, kot da predpostavljam, da vključeni fiksni učinki za posamezne države vključujejo vse pomembne fiksne učinke držav (močna predpostavka glede na razlike med državami v obsegu širjenja in dolžini trajanja epidemije, vendar nimam druge izbire).
Rezultati
Cepljenost in število novih primerov Covid
Uvodoma naj poudarim, da v nadaljevanju govorim zgolj o korelacijah, ne pa o vzročnosti. Statistično značilni koeficienti povedo zgolj, da sta spremenljivki med seboj povezani (korelirani), ne pa da sta vzročno povezani. Lahko gre zgolj za koincidenco, da se spremenljivki istočasno premikata v isto ali nasprotno smer, ne pa da je dinamika ene spremenljivke vzrok dinamike druge. O vzročnosti lahko sklepamo šele iz strukturnega modela, ki denimo temelji na dobri teoriji ali vsebinski povezavi. V konkretnem primeru sicer lahko sklepamo na vsebinsko povezavo, da cepljenje zmanjša možnost okužbe in da olajša potek bolezni (manj hospitalizacij in manj smrti). Ne glede na to pa v nadaljevanju uporabljam nevtralni izraz glede povezanosti in ne vzročnosti.
Najprej prikazujem rezultate za vse vključene države za povezavo med cepljenostjo in številom novih primerov Covid, nato pa posebej za vzorec EU držav. Kot kaže spodnja tabela 1, v osnovi na vzorcu vseh držav cepljenje ni značilno povezano s število novih primerov Covid (koeficient ni statistično značilno različen od nič). In mnogi bi s tem zaključili, vendar je treba vrtati naprej, da pridemo do resnice.
Razlike se pokažejo šele med kontinenti. Za Evropo je denimo značilna negativna povezava, ki pa upada s časovnim zamikom. Pri zamiku 2 tednov od cepljenja znaša elastičnost dobrih -0.2 (sešteti je treba koeficiente za osnovni člen ter za interakcijski člen za kontinent), nakar se po 3 tednih zmanjša na -0.17 ter po 4 tednih na slabih -0.14. Negativna povezava je značilna še za države Južne Amerike (podobno močna kot v Evropi) ter države Oceanije (zelo močna povezava). V Aziji in Severni Ameriki te povezave ni, ali pa je celo perverzna (nasprotna) (kontrolna skupina so države Afrike). Ti koeficienti povedo, da so denimo razlike v stopnji precepljenosti in dinamiki epidemije med državami Evrope, Južne Amerike in Oceanije zelo velike in da se je povečevanjem stopnje precepljenosti širjenje epidemije umirjalo.
Med ostalimi dejavniki so s širjenjem epidemije močno povezani delež 70+ populacije, pričakovana življenjska doba ter stopnja smrti za kardivaskularnimi boleznimi (ne pa tudi diabetes). HDI indeks je močno pozitivno povezan z dinamiko širjenja epidemije, kar pa je lahko posledica tega, da je HDI indeks močno koreliran z BDP per capita (razvitostjo), epidemija Covid pa je očitno pretežno “bolezen razvitih držav”. Potrebna je bolj detaljna analiza vpliva teh spremenljivk, vendar to ni bil namen te ad hoc analize.
Še to, tako specificiran model lahko pojasni med 43 in 50% variacije v dinamiki novih primerov Covid med državami. Kar pomeni, da polovice te dinamike epidemije ne znamo pojasniti z vključenimi vplivi.
Tabela 1: Cepljenost in število novih primerov Covid, celoten vzorec držav
V tabeli 2 so rezultati analize samo za EU države. Kot je razvidno, je na ožjem vzorcu EU držav elastičnost števila primerov glede na stopnjo precepljenosti precej močnejša (med -0.5 in – 0.65. Ta elastičnost je nižja od tiste, ki sem jo ilustriral pred dvema dnevoma (-2) na podatkih za en presečni dan. Vzrok pa je, da tukaj regresiramo razlike v tedenskih presekih (ki so manjše), medtem ko so razlike v podatkih za en presečni dan in za celotno obdobje za nazaj precej višje. Tako specificiran model lahko pojasni le med 21 in 29% variacije v dinamiki novih primerov Covid med EU državami, torej obstaja precej dejavnikov razlik v širjenju epidemije med državami, ki jih ta model ne zajema.
In še to, povezava med cepljenostjo in številom novih primerov v državah, ki imajo višjo stopnjo precepljenosti (nad povprečjem), ni značilno različna od splošne povezave (torej enako močna negativna povezava ne glede na to, ali je država nad- ali podpovprečno precepljena).
Tabela 2: Cepljenost in število novih primerov Covid, vzorec EU držav
Cepljenost in število novih smrti s Covid
Za konec pa še rezultati analize glede cepljenja in števila novih smrti s Covid. Baseline specifikacija tukaj je ugotavljanje povezave med obema po treh tednih od dneva drugega odmerka cepiva. Kot kaže tabela 3, tudi tukaj ni značilne splošne povezave med cepljenjem in številom novih smrti, je pa dokaj močna povezava razvidna v evropskih državah, ki je približno dvakrat večja kot glede števila novih primerov (ta povezava se poveča po 4 tednih od cepljenja). Iz tega bi se dalo sklepati, da je cepljenje bolj učinkovito iz vidika zmanjševanja števila smrti kot pa iz vidika zmanjševanja števila okužb.
Zelo močne pa so povezave med številom smrti in deležem populacije 70+ ter deležem smrti zaradi kardiovaskularnih bolezni (elastičnosti nad 1).
Tabela 3: Cepljenost in število novih smrti s Covid, celoten vzorec držav
Tabela 4 kaže, da je povezava med obema samo na ravni EU držav nižja kot v primeru vseh evropskih držav (tam so razlike v cepljenosti večje kot znotraj EU držav). Zanimivo je tudi, da je elastičnost smrti s Covid na cepljenje nižja v državah, ki so nadpovprečno precepljene (kar bi lahko interpretirali, da se koristi od cepljenja iz vidika preprečenih smrti z višjo stopnjo precepljenosti znižujejo – mejna koristnost cepljenja se znižuje, čeprav je še vedno pozitivna). Se pa močno poveča povezava z dejavnikom starejšega prebivalstva (70+), ki je eden glavnih dejavnikov povečanega števila smrti s Covid. Na drugi strani pa HDI izstopa po svojem negativnem vplivu na umrljivost – bolj razvite države in države z višjo kvaliteto življenja imajo manjše število smrti s Covid.
Tabela 4: Cepljenost in število novih smrti s Covid, vzorec EU držav
Sklep
V Evropi ter še posebej v EU državah precepljenost proti Covid očitno je dejavnik, ki bi lahko značilno vplival na zmanjševanje dinamike širjenja epidemije in na umrljivost. Ni pa edini dejavnik. Obstajajo strukturne razlike med državami (starost, kardiovaskularne bolezni, razvitost in drugi vplivi), ki pomembno vplivajo na dinamiko širjenja Covid in smrti. Vendar pa značilne korelacije kažejo, da – ko kontroliramo za mnoge strukturne razlike med državami – cepljenje lahko pomaga pri zmanjševanju dinamike širjenja epidemije in lahko zmanjša število smrtnih žrtev epidemije. Nasploh v državah, ki so zaradi naštetih strukturnih značilnosti (na katere ni mogoče niti kratkoročno niti srednjeročno vplivati) bolj ranljive. Pri premagovanju tega pa samo cepljenje seveda ni dovolj, pač pa ga je treba še naprej kombinirati z ostalimi preventivnimi ukrepi – od vzdrževanja distance, prezračevanja, nošenja mask do pogostega testiranja itd.
___________
Na dropbox (tukaj) sem odložil podatke in kodo, da se lahko preveri ocene in da se lahko še kdo poigra s specifikacijami modela.
Hvala za izčrpno razlago in dopolnjen model. Z vami delim mnenje, da citirani članek (Subramanian & Kumar, 2021) ni najboljši. Vašo razlago sem z veseljem prebral, zaključkom na podlagi podatkovnega seta in uporabljene metode nimam kaj očitati. Po mojem mnenju pa je nujno treba upoštevati še naslednje omejitve in šbke točke vašega modela:
1. vpliv eskplanatornih spremenljivk bi bilo treba hierarhično razporediti. V smislu – vpliv precepljenosti je desetkrat manjši (ali večji) od odstotka starostnikov v državi (samo kot primer). Če prav razumem, v OLS modelu tega ne moremo narediti s koeficienti, razen, če so spremenljivke normalizirane. Šele ko bi imeli takšno razporeditev, bi lahko ocenili vpliv cepljenja v primerjavi z osalimi spremenljivkami.
2. OLS predvideva linearno odvisnost, ki ni nujno takšna. Vsaj en (sociološki) faktor vidim, ki lahko pripelje do pozitivne korelacije preceljenosti in primerov bolezni. Trenutna politika zatrjuje cepljenim, da so bolj “zaščiteni” kot necepljeni in da se lahko bolj sproščeno obnašajo. To lahko pripelje k večjemu številu okužb. Takšno pomankljivost modela bi lahko premagali z drugo metodo (GAM ali kakšna od ML metod), ki je zmožna nelinearne analize.
3. Lahko da sem spregledal, a vhodni podatki niso popolnoma neodvisni, po 13 podatkov je vezanih na eno državo – to bi bilo treba upoštevati kot random effect.
4. Kvaliteta vhodnih podatkov. Ali jim v celoti zaupamo? Veliko je govora o nezanesljivih in nespecifičnih testih. Ali recimo podatku, da je obolevnost 0,3% in precepljenost 0,7% (se pravi, oboje ekstremno nizko) v neki xy državi, zaupamo? To bi bilo treba pregledati in nezanesljive podatke izločiti. Zelo sem skeptičen tudi do uporabe odvisne spremenljivke “smrt s covidom” – kaj pa nam to sploh pove, če ne vemo zanesljivo, da je nekdo umrl zaradi covida?
Zanimivo bi bilo tudi pogledati, kaj bo enaka analiza pokazala čez nekaj mesecev. Bo v Evropi še veljalo, da je manj primerov koreliranih z več cepljenih ali pa se bo zgodilo enako kot v Izraelu?
Všeč mi jeVšeč mi je
Hvala za komentarje. Večina bo upoštevana, ko bom naredil iz tega akademski paper. Tudi dinamično oceno ter upoštevanje nelinearnosti v določenih spremenljivkah.
V blogu je zgolj ad hoc hitra empirična ocena, ki pa je seveda svetlobna leta pred empirično “študijo” oziroma natančneje pred bivariatnim grafom, ki sta ga kot akademski paper prodala Subramanian & Kumar (2021). Problem je, ker si je njun članek v enem mesecu od objave ogledalo 1.22 milijona ljudi in ga citira kot dokaz, da cepljenje ni učinkovito proti pojavnosti Covid. Tudi vi ste ga navedli kot referenco.
Všeč mi jeVšeč mi je
Jaz bi mogoče malo več pozornosti posvetil vstopnim podatkom. Tukaj ne ciljam na razne “teorije zarote”, ampak bolj na različne metodologije štetja. V nekaterih državah (primer Srbija in Rusija), so številke sedaj že dokazano nekajkrat premajhne.
Mogoče bi bilo kot dodaten test smiselno uporabiti presežne smrti v letu 2021 napram povprečju pet let pred izbruhom Covid-19.
S to vrsto podatkov se že ukvarjajo Economist (https://www.economist.com/graphic-detail/coronavirus-excess-deaths-tracker), WHO (https://www.who.int/data/stories/the-true-death-toll-of-covid-19-estimating-global-excess-mortality), SDU (https://www.sdu.dk/en/forskning/forskningsenheder/samf/cpop/excessdeath), itd.
Bežen pregled Evropskih držav na Economist-ov sezanmu pokaže velika odstopanja, predvsem v državah južnega in vzhodnega Balkana. Če bi v trenutni analizi vpliva cepljenja na smrtnost uporabili podatke o presežnih smrti, bi se razlika v prid cepljenja “občutno” popravila.
Všeč mi jeVšeč mi je
Pozabil dodati, da se podatki o presežnih smrtih nanašajo na celotno obdobje epidemije, v primeru vaše analize pa seveda od dostopnosti cepiva. Podatki po tednih za Economist so na voljo na njihovem Github-u (https://github.com/TheEconomist/covid-19-excess-deaths-tracker).
Všeč mi jeVšeč mi je
No, takole na hitro bi rekel, da ste z multivariatnim modelom potrdili oba rezultata, dobljena z univariatno analizo – tako vašega kot iz omenjenega članka in seveda analizo še poglobili. Rad pa bi opozoril na nevarnost, ki na splošno preži na razlagalce regresijskih modelov in to je, da “z vodo odplaknete tudi dojenčka”. Oba rezultata, ki jim posvečate manj pozornosti, sta prav tako pomembna – naraščanje primerov s precepljenostjo v severni Ameriki in odsotnost povezave v Aziji. To je v nasprotju z delovno hipotezo ampak ali ni prav to najbolj zanimivo? Takšen rezultat je nujno prediskutirati in razmisliti o njem. Kar nekaj mehanizmov je, ki lahko privedejo do tega in morda bo tudi treba ugrizniti tudi v kakšno kislo jabolko.
Priznam, da imam precej zadržkov do nekritičnega sprejemanja novih cepiv kot rešiteljev civilizacije kot take (namenoma pretiravam). Ampak mislim, da moramo tukaj vsi narediti korak nazaj (ali pa vstran) in gledati na situacijo čimbolj objektivno. Numerična analiza je eno od orodij za to.
Zdaj se umikam iz debate, pri objavi pa vam želim veliko uspeha.
Všeč mi jeVšeč mi je