"Información es poder”. Eso está en la base de las relaciones humanas, sociales, de países. Esa idea es tremendamente relevante pues, hasta cierto punto, ahí está la base de cómo entendemos que operan dichas relaciones.
Más ahora, que como humanidad, en este momento, enfrentamos una situación que no habíamos vivido: una epidemia por un virus mutado, con alta capacidad de propagación, y suficiente proporción de personas contagiadas que requieren apoyo de UCI, como para sobrepasar en muchas veces la capacidad de cualquier sistema de atención; entre 7 y 25 veces para países como Estados Unidos se ha calculado, en caso de que sus medidas sean ineficaces.
La información, es entonces, poder ya no entre personas, grupos o naciones; sino contra un virus cuyo comportamiento, por ser mutado, nos resulta desconocido en aspectos fundamentales. Y es un virus que nos puede contagiar a cualquiera, como han demostrado sucesivos brotes en equipos de las autoridades sanitarias regionales, Decimos “nos puede”, porque a nosotros, los autores de este artículo, también como a cualquier otra persona, solemos perderlo de vista.
Siendo necesario un esfuerzo colectivo enfrentar esta situación desconocida, la tendencia creciente en el mundo ha sido la colaboración para el análisis de series de datos complejas, donde la mirada de diferentes perspectivas permite darles miradas también más complejas.
El momento actual, con una enorme cantidad de gente que debe permanecer en su casa, preocupada, además, por una situación que parece envolvernos en cualquier parte del mundo que estemos, es propicia para este tipo de colaboración.
Mucha gente ha intentado desarrollar, por ejemplo, apps para ayudar a monitorear los casos y sus contactos. Un país serio, moderno, difundiría ampliamente las bases de datos sobre diagnósticos, exámenes, casos en cuarentena, etcétera, y no sólo como un informe en pdf con algunos indicadores escogidos, pre calculados...
Ante esto, el Ministerio de Salud (Minsal) ha hecho exactamente lo contrario. Ha optado por reducir los datos entregados a una tabla diaria de casos por región, y un informe epidemiológico por comuna que ha comprometido entregar cada dos días. Ambos son las fuentes principales de los análisis que siguen.
Antes de comenzar dicho análisis de los datos propiamente tales, es necesario entender que existen dos limitantes para la identificación de las personas contagiadas que son propias de Chile. Estas se suman a las incertidumbres globales derivadas de que muchas personas no dan síntomas o estos difícilmente se distinguen de otros cuadros.
Por una parte, en Chile existe una definición de quiénes deben hacerse el examen bastante restrictiva. La guía del Minsal, que tampoco parece ser manejada por todos los equipos de salud, excluye de la realización del examen a muchas personas que podrían ser contagiosas. Sin embargo, y esta es nuestra segunda característica, la privatización de la salud establece un criterio más relevante en lo práctico: la realización del examen depende en buena medida, de la capacidad de pago.
La privatización no llega hasta ahí. Mensajes equívocos a la población sobre “qué hacer en caso de…”, junto con sistemas colapsados, como el Salud Responde, y la privatización habitual de la atención, incluso para quienes cotizan en Fonasa, hace que muchos de los casos tengan que “autogestionarse”, como lo harían con cualquier otra enfermedad.
Aparte de lo cruel que resulta en un momento de baja económica radical, y de lo variable que resulta por lo general la aplicación de protocolos; el problema desde el punto de vista de los datos es que seguimos perdiendo la posibilidad de registrar muchos casos. Y ya hemos dicho que registrar es básico para entender la conducta del virus en la sociedad, y por tanto, para saber cómo afrontar cada momento.
El análisis de los datos que hay
Una primera observación cuando ya estudiamos los documentos en sí, es que las cifras de casos por región y nacionales del informe emitido por el Departamento de Epidemiología del Minsal fechado el 30 de marzo, no coinciden con las cifras entregadas por el Ministerio el mismo día en su página web.
Podríamos pensar que se refirieran a una fecha anterior, sin embargo, las cifras del informe de epidemiología no coinciden con las de su página web para ningún día previo (29 de marzo = 2.139 y 28 de marzo = 1.909, mirando hacia atrás).
Como se puede ver en la tabla, en las columnas E y F del cuadro de a continuación, las diferencias son muy importantes, tanto porcentualmente como en números absolutos. En regiones que han tenido incrementos bruscos, como Bio Bío o Los Ríos, las diferencias superan el 50%. Eso afecta cualquier cálculo de tendencia que se quiera hacer.
Ejemplifiquemos con un par de indicadores, tales como ¿Cuánta gente de la que se notifica con síntomas termina registrada como confirmada?” , correspondiente a las columnas G y H. Al observar dicha información podríamos estar tentados a interpretarlo como ¿Cuánta de la gente notificada con síntomas o sospechosa por alguna razón de tener el virus realmente lo tenía? Si pudiéramos interpretarlo así, eso nos permitiría apuntar la mirada hacia la efectividad de la detección de casos y contactos, y del sistema de muestreo y análisis de tests. Veremos más adelante, que no es posible hacer ese salto de significado. Por otro lado, las diferencias en las cifras de ambos informes resultan sorprendentes.
Marcamos las más llamativas con rojo.
Vamos a las tasas de incidencia. Este indicador corresponde al número de casos nuevos de una enfermedad en una determinada población en relación al tamaño de dicha población. Dicho indicador se asocia al riesgo de adquirir la enfermedad en la epidemiología clásica. Dicho de otro modo; donde la enfermedad avanza más rápido, se asume que tenemos más riesgo de adquirirla.
Al respecto comparamos las tasas de incidencia de ambas fuentes. Usamos el dato proporcionado por el Departamento de Epidemiología, contrastándolo con la tasa que calculamos para los datos de la página web del Minsal, usando los datos de población INE.
Lo primero que llama la atención es el cálculo del indicador en el informe de Epidemiología, pues no queda claro por qué se calculó la incidencia para un período de 36 días (del 22 de febrero al 29 de marzo), cuando el primer caso se reportó el día 3 de marzo, 10 días después. El punto es importante, pues la incidencia corresponde a la velocidad de cambio, y es muy distinta la velocidad de un auto si la calculo contando 10 minutos en que estuvo estacionado antes de partir.
Cuando miramos los datos de este modo, vemos que hay diferencias abismales en algunas regiones, según qué informe se considere.
Probablemente el Minsal sintió el golpe de estas inconsistencias y en su segundo informe epidemiológico, con las cifras referidas al 1° de abril, esta vez los números sí cuadran.
Sin embargo, el informe actual presenta serias deficiencias.
En primer lugar, se elimina la información sobre casos notificados. No sabemos si es porque se pretende ocultar la incapacidad demostrada en llegar desde la sospecha que motiva el examen hasta una confirmación que consta en los registros. Podría ser que no quieran que se note la diferencia creciente.
Además, se entrega información como gráfico de manera confusa, al mezclar casos nuevos y acumulados en un mismo gráfico (sin tabla), pero con diferentes escalas. No se advierte cuál es la finalidad de mezclar esos datos, si no es la de confundir.
grafico_del_minsal.png
En cuanto a los datos, resaltan los de origen del contagio. Cuando vemos el dato, que aparece como un mero comentario sobre los porcentajes, las cifras parecen muy parecidas a las del informe anterior.
Sin embargo, una vez que se calcula a cuántos casos corresponde, ahora que el total notificado ha aumentado considerablemente, vemos que el incremento real en números, de la gente cuya cadena de trasmisión se desconoce, significa un número mucho mayor de personas.
Con la información anterior es posible ver que el incremento de casos que no sabemos es muy grande; en este caso, 440 casos nuevos, que es el 49,2% del total de casos cuyo origen se desconocía.
O sea, en dos días, la cantidad de casos de origen desconocido prácticamente aumentó en 50%.
¿Aplanando la curva?
De todas formas, en el informe hay otro par de datos que aumentan la incertidumbre.
Por una parte, sabemos que al inicio de la epidemia, con una demanda que aún es baja, se desconoce el origen del contagio en más del 40%de las personas que sí se han confirmado.
Todas las estrategias de respuesta a la epidemia se basan en esto.
Por otro lado, en el informe se opta por no consignar el número de casos por comuna, si son menos de 4 casos. Hicimos el ejercicio con la región de Valparaíso, la nuestra, y nos arroja que eso excluye las cifras exactas de 12 comunas, con una población de 499.406, es decir, para un 25,5% de la población de la región ¡Casi exactamente en un ¼ no se informan los casos en detalle!
Dado que sí se informa la tasa comunal, es posible reconstruir la cifra. Desde el punto de vista de los casos, se puede concluir que no existen casos asociados a una comuna para 21 de las 102 personas; 20,5% ¡prácticamente 1/5!
En el gráfico las barras naranja corresponden a cantidades reconstruidas a partir de tasas.
Estamos como mirando una película por un hoyito en la muralla del cine, y al parecer dentro de la sala además alguien está fumando.
Desde el día 27 de marzo se ha producido un fenómeno aún más preocupante desde el punto de vista de los datos.
Desde ese día, la notificación de casos confirmados se ha estabilizado en alrededor de 300. Primero lo notamos como una anomalía en las curvas de tendencia. algo que podría ser muy esperanzadora, si se hubiera implementado alguna medida que permitiera tal optimismo, y si se hubieran resuelto todas las dificultades anteriores.
Pero, lo normal es que en una epidemia tengamos una progresión exponencial, que al usar una escala de potencias (1,10,100,1.000) en el eje vertical se grafica como una línea recta. Cada vez que dicha línea se curva hacia abajo, podemos estar esperanzados de que vamos reduciendo la trasmisión.
Sin embargo, nada en las medidas adoptadas, como decimos, permitiría augurar una situación tan favorable, en que solamente nos llegara un número igual de casos nuevos diariamente.
Exploramos las cifras brutas, y nos dimos cuenta de que había una extraña meseta en el crecimiento de los casos. Como muestra el siguiente gráfico, y que parecía quebrar de una manera anómala la progresión.
Eso calzaba con una sorprendente caída en la proporción de personas detectadas respecto del día anterior, como muestra el gráfico siguiente.
Eso no es el comportamiento que esperaríamos en una progresión exponencial (de uno a dos, de dos a cuatro, de cuatro a ocho, de ocho a dieciséis en lapsos iguales) en la que, si se detectaran todos los casos, o una proporción semejante de manera constante, este porcentaje debería ser estable.
Es decir, cada vez nos van apareciendo menos casos en proporción al crecimiento.
Nuestra hipótesis fue que lo que estamos midiendo en las cifras diarias no es la progresión de los casos, sino el funcionamiento de todo el sistema que va desde el momento en que a una persona le indican hacerse el examen, o decide hacérselo por cuenta propia; y el momento en que, en caso de ser positivo, este dato se refleja en la estadística diaria del Minsal.
Para ver si eso era plausible, creamos un modelo muy rudimentario tipo fuerza bruta, que graficaba el efecto de eso ante el incremento de nuevos casos y ante las cifras acumuladas, con límites de 300 casos positivos de absorción del sistema.
Viendo la factibilidad del modelo, lo probamos con diferentes ajustes de la fórmula de incremento, hasta que descubrimos que con aproximadamente un 20% de incremento diario, podíamos explicar de manera bastante acertada la progresión inicial, y que, si luego introducíamos una restricción de un máximo de 260 exámenes positivos notificados, podíamos explicar el quiebre en la tendencia a partir del día 27, en que parece haberse alcanzado este límite.
Si nuestro modelo de incremento de 20% diario sigue siendo adecuado para predecir la situación que se ha venido dando luego del 27 de marzo, y la interpretación de que la cifra de confirmados refleja la capacidad del sistema para llegar con un caso hasta el cuadro estadístico, estimamos que, al 31 de marzo la diferencia era de 969 casos, lo que equivale a un 35%.
Esta diferencia es, entonces, entre los casos que se habían notificado, y los casos que se debiera haber notificado, asumiendo que se mantenían constantes las definiciones restrictivas para la toma de muestras y todos los otros factores antes mencionados.
Sin embargo, en cuanto a los datos con límite a 300, el dato del 2 de abril se sale un poco de la tendencia, pero no podemos saber aún si es una fluctuación, como puede ser un efecto retardado (escalonado y acumulativo en las distintas etapas) del fin de semana, un salto a un nuevo límite, o un despegue en las capacidades.
De todas formas, el modelo sigue bastante ajustado (probamos con 280 y con 300, como límite) y las estimaciones actuales nos hacen pensar que podríamos tener unos 2.000 (1.978) casos similares a los que antes se diagnosticaban y reportaban, que ahora no se han detectado. Esto es 58% de lo que sí se reporta y que hace 2 días era 35%.
Solo con los días podremos dilucidar a qué se debe el incremento reciente de 370.
Insistimos que este dato ya tiene el problema de privilegiar la detección de personas sintomáticas y/o con capacidad de pago, dejando fuera a las personas que, por una parte, al ser asintomáticas, circulan más, y pueden trasmitir más el virus, y a quienes, por necesidad, deben desplazarse más, al no tener condiciones de confinamiento o cuarentena adecuadas.
Este gráfico resume nuestro planteamiento en este último punto. La línea roja muestra la progresión de los casos en un crecimiento de 20% diario. Las otras líneas muestran el efecto idealizado de las restricciones de casos notificados por día.
Respecto de esto último, podemos ver un acople muy estrecho con las cifras del Minsal, que tiene un desajuste algo mayor justamente en el momento en que el sistema comienza a dar problemas.
En general, el modelo se muestra muy satisfactorio, con un sorprendente nivel de acople entre el modelo de cálculo de tendencia y los datos (R2= 0,998, siendo 1 un ajuste perfecto).
Los autores de esta columna académica pertencen al colectivo aquihayunproblema.cl, el cual se conforma por el epidemiólogo Aníbal Vivaceta, por el bio-estadístico Sebastián Espinoza y el ingeniero biomédico llamado Nicolás Schiappacasse. Todos ellos parte de la Universidad de Valparaíso.
Comentarios
No leyeron bien el segundo
Hola, soy cientista de datos
Añadir nuevo comentario