Los chatbots basados en la IA generativa, como ChatGPT, tienen aplicaciones muy interesantes, pero siempre bajo la supervisión de un humano. Por ejemplo, se ha visto que pueden ser útiles en la obtención de diagnósticos médicos, siempre que haya una persona con formación capaz de comprobar que no han cometido un error. Cada vez se equivocan menos, pero hay que comprobarlo por si acaso. El problema llega cuando esa persona no se fía de la IA y, al final, la ayuda del chatbot no sirve de nada.

Eso es lo que parece que está ocurriendo con los médicos, al menos en Estados Unidos. Lo ha comprobado un equipo de científicos de la Universidad de Stanford, en un estudio publicado en JAMA Network.

En él, se comprueban los diagnósticos realizados por una serie de médicos con ayuda o sin ayuda de un chatbot. Apenas hubo diferencia entre los médicos que usaron el ChatGPT y los que no. Sin embargo, cuando se dejó al chatbot trabajar sin supervisión humana, los resultados fueron infinitamente mejores. 

¿Chatbot o no chatbot?, esa es la cuestión

Para este estudio se contó con la participación de 50 médicos, residentes y adjuntos, que se dividieron en dos grupos. Todos tuvieron que hacer un diagnóstico con respecto a un historial médico y explicar el razonamiento que les había llevado hasta él. Pero había diferencias. Los médicos del primer grupo lo hicieron sin ayuda, mientras que los del segundo contaron con la ayuda de ChatGPT. Además, había un tercer grupo en el que no había médicos. Solamente se facilitó la información al chatbot, sin ningún tipo de supervisión.

Los historiales procedían de casos reales. Sin embargo, nunca se habían publicado. Se hizo así para que los médicos no conociesen los casos y, además, estos no hubiesen formado parte de los datos de entrenamiento del chatbot. 

Los médicos que no utilizaron ChatGPT acertaron con su diagnóstico en un 74% de los casos, mientras que los que se ayudaron del chatbot acertaron el 76% de los diagnósticos. En cambio, cuando se dejó a ChatGPT trabajar sin supervisión, alcanzó un 90% de acierto.

Ver fuente