La importancia de las métricas de clasificación

El COVID lo ha transformado todo en estos últimos años. La llegada de la pandemia ha hecho que tengamos que informarnos de temas muy técnicos tanto médicos como estadísticos. Y una de las grandes preocupaciones ha sido la precisión de los test.

Merece la pena dedicar un tiempo a entender cómo se mide su error para juzgar mejor los riesgos que asumimos tanto para los test de COVID como para cualquier otra prueba médica o tratamiento.

 

¿Qué es un problema de clasificación?

 

Imaginemos el siguiente problema, dadas unas características de un individuo (por ejemplo, el peso y la longitud del brazo) queremos calcular su altura. La variable que queremos predecir es continua, es decir, dentro de unos límites físicos (desde 0 a 3 metros, por ejemplo) y la altura puede tomar cualquier valor real. En este caso estamos hablando de un problema de regresión.

En los errores de clasificación lo que buscamos predecir no toma valores continuos sino discretos. Por lo que tratamos de predecir la pertenencia a grupos o intervalos.  Este es el caso de los test de COVID que tienen la capacidad de clasificarnos como infectados o no infectados.

 

¿Cómo medir los errores de clasificación?

 

Veamos ahora cómo medir el error de un clasificador binario (dos grupos) centrándonos en el ejemplo del test de COVID.

La primera métrica en la que pensamos es el porcentaje de aciertos, es decir, el porcentaje de veces que decimos que la persona está infectada o no-infectada y estamos en lo cierto. Esta es la métrica a la que estamos más acostumbrados; sin embargo, no siempre es la mejor. Supongamos que sólo un 5% de la gente que se hace la prueba está realmente infectada. Un test que predijese siempre a la población no-infectada acertaría el 95% de las veces. No parece fácil de utilizar si las dos clases no ocurren en proporciones parecidas.

Pero, además, no nos da información de los dos tipos de error que podemos cometer. Por un lado, podemos decir a un paciente realmente contagiado que no tiene el virus eso se conoce como Falso-Negativo (la prueba dio negativa pero no coincide con la verdad). Su contrario se conoce como Falso-Positivo, el test da positivo, pero realmente no estamos infectados.

 

 

Para acabar de entender bien las diferencias entre ambos tipos de errores de clasificación, pongamos un ejemplo con los resultados de dos tipos de test imaginarios probados en 100 individuos:

 

Resultados de dos tipos de test imaginarios probados en 100 individuos
 

Esta tabla se conoce como tabla de contingencia y resulta de gran utilidad para analizar los resultados de un problema de clasificación. La tasa de acierto sería de un 89% para el test A y un 95% para el test B. Sin embargo, como veremos a continuación no está tan claro que el test B sea nuestro preferido.

 

Para mejorar nuestro entendimiento de los resultados se suelen calcular dos métricas:

  • Precisión: porcentaje de contagiados entre la gente que ha dado positivo en el test.

Test A: 4/(4+10) = 0.286     (28.6 %)

Test B: 1/(1+1) = 0.5  (50%)

 

La precisión mide lo fiable que es un positivo del test. Vemos que si hemos dado positivo en el test B es más probable que estemos contagiados que si hemos dado positivo en el test A.

 

  • Sensibilidad: porcentaje del total de enfermos que he podido identificar gracias al test.

Test A: 4/(4+1) = 0.8  (80%)

Test B: 1/(1+4) = 0.2 (20%)

 

La sensibilidad mide la habilidad del test para no dejar escapar enfermos sin identificar. Vemos que con el test A somos capaces de detectar más enfermos que con el test B. Un test que diera a todo el mundo como enfermo tendría sensibilidad 100%.

 

Conclusión

 

El lenguaje nos ayuda a recordar para qué sirven estas métricas. Normalmente decimos que algo es muy preciso cuando lo que dice coincide con mucha fidelidad con la realidad. Por lo que cuando diga “enfermo” podemos fiarnos, pero puede dejar pasar muchos enfermos de los que no tiene opinión segura. Y decimos que algo es muy sensible cuando ante la mínima perturbación salta, por lo que es más fácil que salte en los casos que nos interesa, pero probablemente también muchas veces que no debería.

Usando el test A estaremos molestando a 10 de cada 100 personas que tendrán que pasar cuarentena sin ser necesario, pero estamos poniendo en cuarentena al 80% de los infectados. Mientras que con el test B estamos molestando a poca gente, pero no lo estamos haciendo bien de cara a frenar la propagación pues sólo ponemos en cuarentena a un 20% de los contagiados.

Otra cosa sería si tuviéramos un tratamiento muy escaso que pudiéramos únicamente dar a 1 de cada 1000 personas. En ese caso el test B sería el mejor pues en el 50% de los casos en los que da positivo el paciente tiene COVID y necesita el tratamiento, mientras que con el test A estaríamos desperdiciando más tratamientos al sólo ser ciertos el 28.6% de los positivos. Los datos son siempre muy importantes, pero hay que saber interpretarlos.

Actualmente, los test de antígenos en el mercado de la UE superan el 90% de sensibilidad y precisión. Lo que en nuestro ejemplo, con un 5 % de infectados de la gente que se hace la prueba, en el peor de los casos (sólo un 90% en ambos) supone una tabla de contingencia de este tipo:

Tabla de contingencia
 

 

En definitiva, es importante comprender los errores de clasificación más allá de la tasa de acierto. Hemos entendido las dos métricas principales (precisión y sensibilidad) que miden los dos tipos de errores que podemos cometer y en qué casos conviene elegir un clasificador según tenga un mejor resultado en uno de ellos.

Artículos relacionados

Verónica Rodrigo de ViveLibre inaugura el I Foro Nacional sobre los Derechos de las Personas con Discapacidad con una ponencia sobre Inteligencia Artificial

Discapacidad, Inteligencia Artificial, Tecnología

Inteligencia Artificial al servicio de las personas

Inteligencia Artificial, Salud

Tecnologías para monitorear y cuidar ancianos a distancia

Inteligencia Artificial, Lifestyle
×