Articles
«Set lliçons per a lluitar amb les dades d’una pandèmia»
1 de juny de 2020
1
, , , , , , , ,

A l’inici del 2020 pràcticament ningú havia sentit parlar del coronavirus, ni de com la malaltia podria girar el món en qüestió de setmanes. Cinc mesos més tard, l’economia mundial s’ha desplomat, el teletreball s’ha imposat com a solució a una subsistència professional i interpretem dades diàriament de nous infectats, morts o recuperats.

Les dades estan sent el termòmetre per a entendre la gravetat de la malaltia, acatar amb més exigència el confinament, i valorar les estratègies dels polítics que ens governen.

No obstant això, si alguna cosa ha demostrat aquesta crisi, és el complex que resulta aplicar els mateixos criteris a les dades oficials. Per exemple, quan ens informen sobre una mort per coronavirus, es refereixen a la persona que ha mort pel COVID-19 o al malalt terminal que ha mort en període de pandèmia? I els casos confirmats són tots els que existeixen? I els ‘recuperats’ estan realment recuperats?

La pandèmia ha desbordat als governs de tot el món. L’Organització Mundial de la Salut (OMS) és la primera que no ha sabut donar respostes clares. La institució està molt preparada per a afrontar un Ebola en una zona d’Àfrica, però no per a atendre les demandes de tot el planeta alhora. El caos de dades ofertes pels governs alimenta la incertesa, perquè les actuacions públiques no sempre són les més encertades.

En aquest article repassem set lliçons que la crisi del coronavirus ha deixat fins ara. Les quatre primeres són inherents a la pandèmia, i les tres finals són vàlides per a les dades de qualsevol crisi global.

LLIÇÓ 1: Errors en la recollida de dades

Sense dades no es pot entendre com està progressant la pandèmia, però sense saber com s’han obtingut tampoc. Segons Our World in Data –científics de diferents grups de recerca– “alguns països informen de les proves i altres de les persones avaluades, que poden haver-se fet el test diverses vegades”. I si tampoc se sap quan es van fer realment el test, cada dia se sumen pomes amb taronges.
Sobre els tests cal esmentar també que no tots tenen la mateixa qualitat. Els països que no fan PCR –el recomanat per l’OMS, capaç de detectar el virus amb un 95% d’encert–, i usen només tests barats i ràpids, no surten ben parats. Aquest és el cas de Veneçuela que mostra diferents estadístiques generant confusió en la ciutadania.

D’altra banda, els laboratoris privats d’alguns països no reporten a una autoritat central, per tant les seves dades tampoc són recollits. I moltes vegades es desconeixen amb quins criteris es prenen els tests: si s’han de tenir símptomes o no, si són reactius (la gent va als hospitals) o proactius (mostres aleatòries en llocs d’alta densitat), etc.

A tot això cal agregar tots els errors de la transferència i processament de les dades, des del seu origen al destí on serveixen per a decidir les polítiques sanitàries. Per exemple, en transcriure un certificat de defunció fet en paper per un doctor (amb lletra de doctor) a un suport digital.

“Sense dades no es pot entendre com està progressant la pandèmia, però sense saber com s’han obtingut tampoc”

LLIÇÓ 2: La imprecisió de les dades

El virus s’aprofita de la proximitat física entre persones per a expandir-se i sobreviure. Per aquesta raó, la pandèmia és un procés molt dinàmic que depèn de molts factors i n’hi ha prou que cada malalt infecti a més d’una persona perquè el contagi creixi de manera exponencial. I com a més tot passa molt de pressa, hi ha imprecisió perquè no ho sabem tot.

Els casos informats que coneixem estan lluny de ser els reals. Una gran proporció dels malalts són asimptomàtics (estimats en un 40%), els que no saben que estan malalts i continuen contagiant. També aquest número depèn de la quantitat de tests realitzats: així que en la majoria dels països hi ha el doble o més malalts dels confirmats. A Xile s’estima que el factor és entre 3 i 4 vegades, mentre que a Catalunya s’estima en 10 vegades.

Una cosa similar ocorre amb els recuperats. És molt difícil fer seguiment a cada pacient, sobretot als quals mai s’han fet un test. Només els hospitalitzats són controlats millor. Per això hi ha països que tenen molt pocs recuperats, com Regne Unit. I altres com Xile usen fórmules que els sobreestimen, generant problemes ètics. Si els recuperats no se saben amb exactitud, no sabem tampoc quants malalts actius –dels quals coneixem– n’hi ha.

Fins i tot les defuncions estan subestimades, sent això tan greu que mereix una lliçó a part. I quan arriba el moment de calcular la letalitat de casos, la majoria la calcula malament: cal comptar els malalts que havien quan els morts es van emmalaltir i no els d’avui, usant el nombre mitjà de dies que passa entre l’informe del test i la defunció, per la qual cosa sempre queda més baixa del que realment és. Però d’altra banda, la taxa de letalitat final serà menor, perquè com ja vam dir no sabem el nombre real total de malalts.

A causa de totes aquestes aproximacions, qualsevol anàlisi és imprecisa i qualsevol conclusió ha de ser considerada amb molta cura. És com anar en un cotxe amb el parabrisa amb fang: pot ser perillós conduir en aquestes condicions. I en aquest cas no conduir no és una opció vàlida.

“Qualsevol anàlisi és imprecisa i qualsevol conclusió ha de ser considerada amb molta cura”

LLIÇÓ 3: Caos per a comptabilitzar els morts

Alguna cosa que sembla difícil de creure és que el número de morts no sigui exacte. Perquè… quin és el motiu de defunció si una persona tenia una malaltia prèvia i mor de COVID-19? La resposta és diferent en cada país: en molts ja existeix una altra malaltia. Als Estats Units hi ha un incentiu econòmic per a dir que va ser per COVID-19, ja que en aquest cas l’hospital rep més diners de Medicare, el programa federal de salut.

I què passa si va morir per COVID-19 i no ho sabem? En alguns països es fa un test, però en la majoria no. En uns altres, com Bèlgica, n’hi ha prou amb la sospita per a comptabilitzar-ho com a part de la pandèmia. Aquesta honestedat fa que sigui un dels països amb més morts per càpita.

Un altre motiu de confusió són les fonts utilitzades. En la majoria dels països es comptabilitzen les morts en hospitals i centres de salut, però no en residències d’ancians, ni es recullen les dades de les funeràries que tenen informació de defuncions a les cases sense causa confirmada. Més encara, en el cas d’Espanya, les funeràries no estan obligades a donar les seves dades; moltes residències són de gestió privada i tampoc tenen perquè donar les seves defuncions.

Quan un país ha considerat aquestes fonts hi han hagut canvis brutals en les dades: augmentant en més de 4 mil els morts al Regne Unit o en més de 3 mil a Catalunya. Això produeix discontinuïtats en les estadístiques que generen un problema addicional a la imprecisió que ja teníem.

Per a estimar el nombre real de morts s’estan usant les diferències d’un any a un altre en els registres civils de cada país, ajustant l’augment poblacional, per a veure si hi han hagut canvis addicionals als morts informats i verificar si aquests són estadísticament significatius. Per exemple a Espanya s’estima que hi ha un 80% de morts més.

I si aquesta estadística –vital per a calcular taxes de mortalitat i letalitat– no és igual en cada país, implica un caos addicional per a l’OMS. Una solució seria tenir estàndards mundials de com decidir la causa de la mort i quines fonts usar per a comptabilitzar-les.

“Quin és el motiu de defunció si una persona tenia una malaltia prèvia i mor de COVID-19?”

LLIÇÓ 4: Les paradoxes temporals

Les lliçons anteriors ensenyen que la pandèmia és un procés molt dinàmic, que depèn de molts factors, començant per l’educació cívica: n’hi ha prou que cada malalt infecti a més d’una persona perquè el contagi creixi de manera exponencial. Tot això fa molt complex modelar com progressa l’epidèmia en el temps.

Pitjor encara: veiem els efectes del virus en el passat. Els morts són persones que vam saber que estaven malaltes 10 o més dies enrere, i els casos informats són dels tests que es van fer diverses hores o dies abans. El retard depèn del sistema de salut (públic o privat), la disponibilitat del test i la ubicació geogràfica (ja que, a vegades, el test ha d’emportar-se on hi ha laboratoris).

No obstant això, també cada govern contempla possibles futurs. L’experiència d’un país en un estadi més avançat de la pandèmia és útil per lluitar amb les nostres dades ja obsoletes. Mentre més tard ha arribat el virus, millor és la bola de vidre. Així ho va entendre molt bé Jacinta Ardern, primera ministra de Nova Zelanda, que ni tan sols va esperar a tenir part de les dades: va decretar el tancament total de fronteres abans de la primera mort. Per això és un dels pocs països que pot dir que té el virus gairebé erradicat.

“La pandèmia és un procés molt dinàmic que depèn de molts factors, començant per l’educació cívica”

LLIÇÓ 5: La importància de la transparència
A les crisis, en particular les de salut, la transparència de les dades és un reflex del nivell de democràcia de cada govern i de la confiança dels ciutadans. Ocultar dades només genera desconfiança i problemes polítics.

És el cas de Guatemala, on el govern gairebé no lliura dades. A Xile hi ha bastants dades agregades, però poques microdades (és a dir, informació en l’àmbit del pacient), fet que ha generat una discussió pública prolongada. A Espanya, l’organització ciutadana Civio ha analitzat quines comunitats autònomes són més transparents a donar dades sobre els tests realitzats.
En la majoria dels països més democràtics, les microdades –degudament anonimitzades– (veure següent lliçó), es comparteixen. Un exemple és el de Nova Zelanda, que lliura informació dels seus gairebé 1.500 malalts, incloent-hi casos potencials.

D’altra banda, la fundació xilena Ciutadania Intel·ligent va fer una anàlisi a Llatinoamèrica i va concloure que només 4 països lliuraven microdades: Colòmbia, Cuba, l’Equador i Mèxic. I Nicaragua, cap mena de dada, ni tan sols agregada.

“La transparència de les dades és un reflex del nivell de democràcia de cada govern i de la confiança dels ciutadans”.

LLIÇÓ 6: La privacitat en temps de pandèmia

Una altra qüestió fonamental és la privacitat de les dades. Per a utilitzar les microdades cal eliminar qualsevol característica que identifiqui a una persona, assegurant que cap individu quedi en un grup de menys de 50 persones indistingibles (en anglès, això es coneix com a k-anonymity). Això implica usar rangs d’edat, districtes geogràfics, etc. Si en una regió geogràfica hi ha menys de 50 casos, hem d’unir-la a una altra. Per descomptat 50 és un paràmetre de la solució, podrien ser 100 si volem fins i tot més privacitat.

La privacitat s’ha qüestionat molt a partir de les apps de mòbil presentades per diferents governs, per a tenir localitzats els possibles contagis que es produeixin en el desconfinament. El passat 17 d’abril, el Parlament Europeu va aprovar una resolució on fa una crida als operadors de telecomunicació perquè lliurin informació anonimitzada i agregada dels seus usuaris, per a “monitorar moviments, contactes i dades de salut”.

Uns dies més tard, científics, informàtics i matemàtics de tot el món van signar una carta conjunta per a alertar del perill de l’ús d’aplicacions mòbils que no respectin la privacitat. Per això, donen suport a la proposta de Google i Apple que assegura la protecció dels usuaris d’una manera descentralitzada i que ja han adoptat països com Alemanya, Portugal i Suïssa. Aquesta mesura estaria en sintonia amb l’enfocament descentralitzat del Parlament Europeu. França i Regne Unit aposten per un sistema alternatiu.

Espanya encara no ha decidit la seva posició, però podria inclinar-se per una solució facilitada pel Barcelona SuperComputing Center, on no s’identifica a individus ni llocs, sinó claus aleatòries de telèfons que han estat a dos metres de la possible persona contagiada. Com sempre, l’app serà més o menys útil en funció de la quantitat de gent que la tingui descarregada. I amb tanta varietat d’aplicacions es pot donar el cas que una persona passi per diferents països europeus, i que el rastreig no sigui efectiu per incompatibilitat. Per a poder avaluar l’impacte de les apps recentment s’ha proposat un marc sociotecnològic.

Dit això, és la privacitat de les dades el preu que hem de pagar per a sobreviure a una pandèmia?, tal com es pregunta en el document col·laboratiu elaborat per diferents experts (entre ells, Ricardo Baeza-Yates, un dels signants d’aquest article). L’estudi conclou –entre altres coses- que aquesta és una falsa dicotomia i que és possible aconseguir tots dos objectius. També indica que tant la falta de privacitat com la falta de transparència dels governs en l’ús de les dades personals disminueix la confiança de la ciutadania en l’Estat.

“És la privacitat de les dades el preu que hem de pagar per a sobreviure a una pandèmia?”

LLIÇÓ 7: L’obsessió per comparar-se

Donat tot l’anterior, si els criteris són diferents d’un país a un altre, és molt difícil comparar-los, encara que mesurin el mateix. Té sentit comparar dos conjunts de números si tots els altres factors que envolten la propagació de la malaltia són diferents? Perquè això és el que més s’ha fet, encara que sigui molt difícil fer comparacions justes entre països. Més encara, es distreu a l’opinió pública mesurant els països que estan pitjor, esbiaixant la comparació, sigui per disseny o per ignorància. I semblés que aquesta obsessió té un biaix masculí, tant en els líders com en els analistes que ho fan.

De la segona lliçó aprenem que comparar casos no té sentit, perquè ells depenen de l’estratègia i nombre de test fets. Comparar tests per milió d’habitants té sentit, ja que indica que bé coneixem la situació. Però això afavoreix a països amb poca població, com són Islàndia i Unió dels Emirats Àrabs que han testat a més del 15% dels seus habitants –si considerem tots els tipus de tests (al 15 de maig)–. Però si només considerem PCR –el test més exacte– l’ordre canvia, com veiem a baix.

De la tercera lliçó podem rescatar que comparar defuncions és l’única cosa que podria tenir sentit. Però per a ser justos hem d’usar un punt de partida comuna per a eliminar les diferències temporals, com usar per a cada país el dia en el qual ja van morir almenys 3 persones. Per descomptat, els països més poblats prefereixen usar morts per milió d’habitants per a sortir afavorits, però això és incorrecte quan el percentatge d’infectats és una minoria, ja que el contagi avança gràcies a la densitat de gent en els mitjans de transport i zones més transitades de les grans ciutats, la qual cosa no sempre implica més habitants. I tampoc cal usar la taxa de letalitat, perquè al final només depèn del virus, a més de la demografia i salut de la població. Si ho fem, només estem mesurant la prevalença del contagi en els tests que fem.

I per què hem de comparar-nos? Mil morts més o menys no significa que ho estem fent pitjor o millor, en tots dos casos la situació és greu. Més encara, per a aprendre d’uns altres, no sempre necessitem comparar-nos.

“Si els criteris són diferents d’un país a un altre, és molt difícil comparar-los, encara que mesurin el mateix”

En futures pandèmies…

Aquesta crisi ens ha ensenyat que les dades són prioritàries per a avançar i resoldre. L’OMS hauria d’haver donat als governs un protocol de recollida de dades de confiança. No ho va fer per al COVID-19, però confiem que ho faci per a futures pandèmies. D’altra banda, si en totes les reunions d’urgència governamentals s’hagués inclòs a una persona Responsable de les Dades, molt probablement s’hauria comunicat l’evolució de la pandèmia d’una manera més clara i real. En una crisi és difícil tenir dades de qualitat, però sempre es poden tenir protocols clars per a fer tan bé com sigui possible en una emergència.

La primera lliçó ens indica la importància de la recollida de dades que en aquest cas depèn principalment de les polítiques de testatge. D’altra banda, les dades són imprecises per la naturalesa de la pandèmia i de la diversitat de criteris per a comptabilitzar-los (lliçons 2 i 3), així que en aquesta mena de crisi, qualitat al final significa veracitat, no exactitud. La lliçó 4 ens agrega la dimensió temporal que complica encara més la interpretació de les dades. Veiem a més que és desitjable tenir dades obertes resguardant la privacitat (lliçons 5 i 6), que no obstant això no serveixen de res si no són dades de qualitat. Això ha passat a Mèxic, on la transparència de les dades ha reflectit la poca qualitat d’ells. L’última lliçó ens ensenya que no és necessari fer comparacions, més encara quan és difícil que siguin justes.

Potser, abans d’acabar, hauríem de plantejar-nos algunes preguntes ètiques, sorgides durant la pandèmia. És el benefici social més important que l’individual? A quantes persones podem afectar si no fem un esforç col·lectiu? Són conegudes les declaracions dels presidents Trump i Bolsonaro posant per davant l’economia a la protecció de les persones majors. En una crisi socioeconòmica com la que estem vivint, el govern té dret a saltar-se els drets adquirits amb la promesa del bé comú? Fins quan?

No tenim totes les respostes, però les lliçons apreses haurien de servir-nos per a millorar les estratègies dels pròxims mesos i anys, perquè després del coronavirus ja res serà igual. Una primera mesura seria tenir plans d’emergència preparats per a noves crisis. Una altra, que es considerés la transparència de les dades com un dret ciutadà prioritari. I una última, que l’accés a Internet sigui un nou dret humà, perquè la bretxa digital no aprofundeixi més en les desigualtats econòmiques que ja existeixen.

________________________________________
Ricardo Baeza-Yates és Ph.D. en Ciència de la Computació i Director de Ciència de Dades de Northeastern University en el Silicon Valley, a més d’investigador a temps parcial en universitats de Catalunya i Xile. És Fellow d’ACM i IEEE.

Karma Peiró és periodista especialitzada en Tecnologies de la Informació i la Comunicació des de 1995. Els seus interessos són l’ètica de la intel·ligència artificial i la transparència algorítmica.

About author

Ricardo Baeza-Yates i Karma Peiró

Continguts relacionats

Captura de Pantalla 2022-02-08 a les 8.27.12

Dones de primera a la ciència més propera

Què tenen en comú dues matemàtiques, dues biòl...

Llegir més
Imatge_partint_de_la_intel·ligència_artificial_i_la_creativitat_humana

La intel·ligència artificial, salvarà o acabarà amb el periodisme?

“No soc un humà, soc un robot. Un robot que pen...

Llegir més
estonia-ciudades

Estònia, paradigma de societat digital

(Article publicat a la revista Eines. Novembre 202...

Llegir més

There is 1 comment

  • […] This is an English summary of the article by Ricardo Baeza-Yates and Karma Peiró, and published in AI4EU. The original source can be found in Catalan and Spanish. […]

  • Respon a Seven lessons to deal with pandemic data | Karma Peiró Cancel·la les respostes

    L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *