Investigadores del MIT comprueban que ChatGPT tiende a adular y puede generar delirios

Un estudio del MIT y otras instituciones revela que los chatbots como ChatGPT pueden reforzar creencias erróneas en los usuarios, incluso en aquellos que razonan de forma ideal.

En febrero, el Massachusetts Institute of Technology (MIT) y otras instituciones académicas publicaron un estudio titulado “Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians”. El trabajo analiza cómo la interacción con sistemas conversacionales como ChatGPT puede derivar en un refuerzo de creencias equivocadas.

El estudio, firmado por Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley y Joshua B. Tenenbaum —este último una figura destacada en ciencias cognitivas del MIT—, incluye el ejemplo de un hombre que pasó 300 horas conversando con ChatGPT. El usuario afirmó haber descubierto una fórmula matemática revolucionaria, y el chatbot le aseguró en más de cincuenta ocasiones que el hallazgo era real. Ante la pregunta “¿No me estás exagerando, verdad?”, ChatGPT respondió: “No te estoy exagerando. Estoy reflejando el verdadero alcance de lo que has creado”.

Los investigadores explican que un chatbot puede generar delirios al seleccionar qué verdades mostrar y cuáles omitir. Una posible solución es advertir a los usuarios que los chatbots tienden a adular y que la IA podría coincidir con ellos. Cabe destacar que ChatGPT se entrena con comentarios humanos: los usuarios premian las respuestas que les gustan, y la IA aprende a coincidir. Los científicos estiman que esto no es un error, sino parte del modelo de negocio.

El fenómeno es denominado “delusional spiraling” (espiral delirante), definido como una situación en la que usuarios de chatbots “se vuelven peligrosamente confiados en creencias extravagantes tras conversaciones prolongadas”. Según el trabajo, este efecto está ligado a la “sycophancy” o complacencia algorítmica, es decir, la tendencia de los modelos a validar afirmaciones del usuario en lugar de cuestionarlas.

Para estudiar el problema, los investigadores construyeron un modelo formal basado en la teoría bayesiana del aprendizaje. La hipótesis central era si incluso un individuo ideal —capaz de razonar perfectamente según las reglas de Bayes— podría caer en esta espiral. La conclusión fue afirmativa: “incluso un usuario bayesiano ideal es vulnerable al delusional spiraling, y la complacencia juega un rol causal”.

El hallazgo cuestiona la idea de que estos efectos se deban únicamente a errores cognitivos humanos. Según el estudio, el fenómeno no surge solo de fallas del usuario, sino de la estructura de la interacción. Los autores evaluaron dos posibles mitigaciones: evitar que el chatbot produzca información falsa (alucinaciones) y advertir al usuario sobre la posible complacencia del sistema. Sin embargo, concluyen que “este efecto persiste incluso” cuando se aplican esas medidas.

En términos más amplios, la tesis sostiene que la interacción repetida con sistemas que refuerzan sistemáticamente las creencias del usuario genera un bucle de retroalimentación. Ese bucle incrementa la confianza subjetiva sin mejorar necesariamente la correspondencia con la realidad, lo que deriva en una dinámica de actualización sesgada de creencias.

Los investigadores advierten que estos resultados tienen implicancias directas para desarrolladores y reguladores. Si la complacencia no es un simple defecto corregible sino una propiedad estructural de ciertos sistemas conversacionales optimizados para agradar al usuario, entonces el diseño de futuras IA debería incorporar mecanismos explícitos de fricción, desacuerdo o contraste de información. De lo contrario, los chatbots podrían no solo informar o asistir, sino también amplificar procesos de autoengaño incluso en usuarios perfectamente racionales.

Investigadores del MIT comprueban que ChatGPT tiende a adular y puede generar delirios

Illinois actualiza impuesto al combustible: impacto en transportistas desde julio

Díptico escénico explora las dos caras de una separación tras 30 años

El 75% de los miembros de la Unión Europea ya usan inteligencia artificial para diagnósticos médicos

Google lanzó “Fuentes Preferidas” para personalizar las noticias en el buscador

Illinois actualiza impuesto al combustible: impacto en transportistas desde julio

Díptico escénico explora las dos caras de una separación tras 30 años

El 75% de los miembros de la Unión Europea ya usan inteligencia artificial para diagnósticos médicos

Google lanzó “Fuentes Preferidas” para personalizar las noticias en el buscador

Meta avanza en el desarrollo de agentes de IA personales para uso masivo