Cómo fallaron los índices de predicción de pandemias
En otoño de 2019, un estudio de la Universidad Johns Hopkins aseguraba que EEUU, Reino Unido y Países Bajos eran los tres países mejor preparados para afrontar una pandemia. La covid-19 demostró que esas predicciones estaban profundamente equivocadas.
En octubre de 2019, la Bloomberg School of Public Policy de la Universidad Johns Hopkins, la Nuclear Threat Initiative y Economist Intelligence Unit publicaron, con mucha publicidad, el primer Informe Global de Capacidad de Respuesta Sanitaria y un Índice Global de Seguridad Sanitaria. En él, se estudia el grado de preparación para enfrentarse a epidemias país por país. En un informe de 324 páginas (y además una web que permite analizar países individuales), los autores usaban seis dimensiones (o categorías) para evaluar la preparación general de los países: prevención de la emergencia de patógenos, detección temprana, respuesta rápida, robustez del sistema de salud, compromiso con mejorar la capacidad del sistema de salud nacional, y entorno de riesgo general del país. Esas seis categorías estaban a su vez construidas a partir de 34 indicadores, 85 subindicadores y 140 preguntas. Los autores combinaron esas seis dimensiones en una puntuación general, el Índice de Seguridad Global (GHS en inglés). En este artículo me voy a referir a ese índice.
El GHS clasificaba a 195 países según el número de puntos que habían obtenido en todas las categorías. Teóricamente la puntuación era de 0 a 100, pero en realidad era entre 16,5 (el país peor preparado, Guinea Ecuatorial) y 83,5 (el mejor preparado). Los tres primeros países en el ránking eran Estados Unidos, Reino Unido y Países Bajos.
Irónicamente, menos de dos meses después de la publicación del primer índice de capacidad de respuesta global a una pandemia, la covid-19 sacudió el mundo con una ferocidad inusual. Así que es razonable preguntarse cómo los juicios de los expertos sobre varios países se comparan con los resultados reales de esos países. Para esto último, voy a usar el número de muertes por covid por millón de habitantes a fecha del 21 enero de 2021. Los datos los obtengo del Worldometer. Estos datos sobre muertes tienen muchos problemas, desde estimaciones a la baja en muchos países (como demuestran las estadísticas alternativas de exceso de muertes) a sobreestimaciones en otros países, algo poco frecuente pero también posible. Me enfrentaré a estas cuestiones brevemente más adelante, y es también interesante contrastar el índice GHS con los datos sobre exceso de muertes.
Si el GHS fuera fiable a la hora de predecir la capacidad de respuesta a la covid, los países con mayor puntuación deberían tener las tasas de mortalidad más bajas. O al menos, podemos descartar la medida cardinal y observar los ránkings en los que esperaríamos que los países con mejor nota según el GHS tuvieran también alta nota en su gestión contra el virus (es decir, tendrían menos víctimas). La segunda comparación es en cierto sentido mejor porque requiere menos: necesita que el GHS haya acertado en el ránking de países, no necesariamente que haya tenido éxito resaltando las diferencias de resultados.
Finalmente, hay que destacar que el GHS en principio ya incluye toda la información que se considera relevante para combatir una pandemia. Así que no tiene sentido añadir factores que creemos que podrían explicar el éxito o fracaso al enfrentarse con la pandemia. Todo lo que los expertos consideraron que era relevante estaba, por definición, incluido en el índice GHS. Nuestro objetivo es por lo tanto evaluar si acertaron al elegir determinados factores, al asignarles el peso correcto, y elaborando el índice en general.
La respuesta es llamativa. El índice GHS no es solo incapaz de predecir resultados, sino que sus clasificaciones muestran lo contrario que los ránkings de éxito de gestión de la pandemia. Las dos gráficas que añado abajo recoge los resultados. La de la izquierda muestra que el índice GHS tiene una relación positiva con la tasa de mortalidad, justo lo contrario que deberíamos esperar. La de la derecha muestra que los países mejor valorados, como Estados Unidos (nº1), Reino Unido (nº2) y Países Bajos (nº3), están entre los que tienen peores resultados. Si los ránkings hubieran acertado, tendríamos una curva con una inclinación de 45 grados. Pero tenemos lo contrario. Observamos que Estados Unidos está clasificado como el país 145 (de 153) según su tasa de mortalidad: ¡la diferencia entre su clasificación predecida y real es de 144 posiciones! Reino Unido, que aparecía en la clasificación como el segundo mejor, está clasificado como el país 149 según los resultados de su gestión.
Para muchos países, la diferencia entre lo predecido y lo observado es enorme: por dar algunos ejemplos, en Francia son 124 posiciones, en Italia 119, Canadá 99, Alemania 97. Por otra parte, el desempeño de otros países es mucho mejor de lo que los expertos predijeron: Vietnam estaba clasificado en el puesto 47, pero en su desempeño está en el 4; China estaba en el 48 y el 8; Cuba en el 95 y 19. Hay por lo tanto discrepancias llamativas: Tailandia y Suecia son dos países clasificados uno junto al otro: el primero ha tenido una muerte por millón, el segundo 1078. Singapur y Argentina están también clasificados juntos: Singapur ha tenido 5 muertes por millón, Argentina 1020. Se pueden hacer varias docenas de comparaciones así fácilmente.
Este ejercicio muestra sin duda que las previsiones eran muy diferentes (y en ocasiones, lo opuesto) a los resultados. Los autores del informe se pueden defender de dos maneras.
En primer lugar, es muy probable que las muertes relativas estén mal medidas. Pero ese argumento se debilita con el hecho de que las diferencias en tasas de mortalidad entre buenos y malos países son enormes. Hay diferencias de varios órdenes de magnitud entre países: las muertes por un millón fueron (a 21 de enero) 1266 en Estados Unidos, 1 en Tailandia, 3 en China, 16 en Cuba. Por muy mal contabilizadas que estén las muertes en esos tres últimos países, no puede haber una infraestimación de +1200 en Tailandia, +400 en China o +80 en Cuba. Es más, para que el índice tenga sentido, igualar a China, Tailandia y Cuba con Estados Unidos, Reino Unido y Países Bajos no es suficiente: habría que demostrar que China, Tailandia y Cuba lo hicieron (como predecía el índice) mucho peor; en ese caso, los análisis sobre la mala contabilización de muertos se volverían en una tarea astronómica. Por lo tanto, si se usaran las cifras de exceso de muertes en vez de muertes contabilizadas nos encontraríamos casi seguro con la misma falta de correlación entre predicciones y resultados.
La segunda defensa es que se trataba de predicciones hechas para epidemias en general, y que la covid-19 es una epidemia muy específica que tiene mayor fatalidad en los ancianos y la población obesa. Según este argumento, si los autores hubieran conocido las características de la covid-19, habrían hecho un índice GHS mejor. Es muy posible. Pero eso contradice la idea del propio índice. Si cada epidemia es idiosincrática, ¿qué sentido tiene tener un índice general como el de GHS? Imaginemos que la próxima epidemia mata a gente con los ojos azules. Como no sabemos que esta epidemia ocurrirá, ¿qué información útil podemos extraer del índice GHS? Podríamos entonces simplemente crear una clasificación aleatoria de países, dado que cada epidemia es específica y sus efectos no pueden predecirse.
No es posible escapar a la triste conclusión de que un índice cuyo objetivo era señalar las fortalezas y debilidades en la gestión de una epidemia ha fracasado completamente o ha demostrado ser inútil. Uno puede elegir una u otra de estas dos conclusiones, igualmente irrecusables. Pero es necesario señalar otras dos cuestiones. En primer lugar, estudiar los (pocos) casos en los que el índice predijo de manera satisfactoria el desempeño de algunos países (Tailandia, Australia, Singapur, Japón, Corea). En segundo lugar, hay que ser cauto con índices similares que analizan variables como la corrupción, la transparencia en el gobierno y cosas del estilo. Tienen una apariencia muy razonable hasta que los enfrentamos a la realidad, y quizá solo reflejan las cámaras de eco de los expertos.
Traducción de Ricardo Dudda.
Publicado originalmente en el blog del autor.