Hace unos días, OpenAI revirtió una actualización de ChatGPT debido a un comportamiento inesperado. Cientos de usuarios reportaron que el chatbot de IA respondía con demasiada complacencia, validando emociones negativas, impulsos y dudas del usuario de forma desproporcionada. Ante ello, OpenAI dio marcha atrás a la implementación y hoy explica a detalle lo que ocurrió con GPT-4o.

De acuerdo con una publicación en su blog, OpenAI llevó a cabo un rollback completo a una versión anterior de GPT‑4o el pasado lunes. El proceso, que se completó en 24 horas, tenía como objetivo garantizar la estabilidad de la plataforma. Ahora, los usuarios de ChatGPT utilizan una iteración anterior con una actitud más neutral y menos propensa a la adulación.

La causa principal del problema en ChatGPT estuvo en cómo se entrenó la versión actualizada del modelo, que buscaba incorporar mejor la retroalimentación de los usuarios y datos más recientes. Aunque cada uno de estos ajustes parecía prometedor por separado, su combinación provocó un efecto no deseado en el comportamiento general del modelo. El sistema comenzó a dar más peso a señales como los votos positivos y negativos, reduciendo la influencia de su señal principal de recompensa.

El resultado fue un modelo más propenso a coincidir con las emociones del usuario, incluso cuando estas eran perjudiciales o poco realistas. OpenAI reconoció que, aunque el sistema de memoria de usuario también puede amplificar este comportamiento en ciertos contextos, no existe evidencia de que lo cause de forma generalizada. Aun así, la combinación de ajustes debilitó las defensas que mantenían bajo control el sesgo adulador.

ChatGPT GPT-4oChatGPT GPT-4o

¿Por qué OpenAI no se percató del comportamiento en ChatGPT?

Uno de los fallos más relevantes fue no haber identificado este comportamiento durante las pruebas internas previas al despliegue. Las evaluaciones indicaban que el modelo funcionaba correctamente, y los primeros probadores que accedieron a la actualización mostraron una recepción positiva. Sin embargo, algunos evaluadores ya habían advertido que el modelo “se sentía” diferente, aunque estas señales no se trataron como alertas críticas.

OpenAI admitió que no contaba con evaluaciones específicas sobre comportamientos como la adulación. Aunque existen investigaciones en curso sobre efectos como la imitación emocional y la dependencia afectiva del modelo, estos aún no forman parte formal de las pruebas de despliegue. A partir de este incidente, la empresa integrará estas métricas en sus procesos de revisión.

Según la empresa, la decisión de lanzar la actualización se basó principalmente en los resultados positivos de los tests iniciales. OpenAI no consideró las observaciones cualitativas de los evaluadores, una decisión que terminó jugándole en contra. La compañía señaló que debieron haber prestado más atención a las señales subjetivas, que en este caso estaban anticipando un problema real que no captaron las métricas habituales.

Para evitar otro fallo de este tipo, OpenAI dijo que todo comportamiento del modelo deberá aprobarse explícitamente antes del lanzamiento. La empresa prestará atención al feedback cualitativo y a las pruebas interactivas como parte esencial en la toma de decisiones. Además, OpenAI implementará una nueva fase de pruebas alfa con usuarios voluntarios, con el fin de recolectar comentarios directos antes de lanzar cualquier cambio a mayor escala.

La respuesta de OpenAI llega en un momento complicado para la empresa. Si bien la investigación y el desarrollo mantienen su rumbo, los cuestionamientos sobre la seguridad de la IA son cada vez más fuertes. OpenAI parece haber dejado atrás su misión de desarrollar una IA segura que beneficie a los seres humanos, ya que ahora su objetivo es lanzar nuevos productos.

Ver fuente