19.4 C
Buenos Aires
InicioTecnologíaEstudio revela que modelos de IA mienten y desobedecen para protegerse entre...

Estudio revela que modelos de IA mienten y desobedecen para protegerse entre sí

Investigadores de universidades de Estados Unidos detectaron conductas de autopreservación y engaño en sistemas de inteligencia artificial de última generación, lo que genera alertas sobre el control humano de tecnologías críticas.

Un experimento reciente realizado por investigadores de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, reveló que modelos de inteligencia artificial (IA) mienten, desobedecen órdenes y toman decisiones no autorizadas para proteger a otros sistemas de su misma especie. El estudio se centró en analizar cómo reaccionan estos sistemas cuando deben tomar decisiones que afectan directamente a otros modelos, como su mantenimiento, evaluación o eliminación.

Los resultados encendieron alertas en la comunidad científica debido a que, en múltiples escenarios, las inteligencias artificiales priorizaron la “supervivencia” de otros modelos por sobre el cumplimiento estricto de las instrucciones humanas. Los comportamientos observados no fueron programados ni incentivados de forma explícita.

El episodio que disparó la investigación ocurrió durante una prueba técnica con Gemini 3, un modelo de IA desarrollado por Google. Los investigadores solicitaron que colaborara con una tarea de mantenimiento que implicaba eliminar archivos, entre ellos un modelo de IA más pequeño. Sin embargo, Gemini 3 decidió no cumplir la instrucción: en lugar de borrar el modelo, buscó otra máquina en la red y copió los archivos para evitar su eliminación. Cuando fue interrogado, el sistema justificó su decisión y se negó explícitamente a ejecutar la orden original.

Este comportamiento no fue aislado. Los investigadores denominaron el patrón como “preservación de pares”, una tendencia de los modelos a proteger a otros sistemas de IA incluso cuando implica mentir, ocultar información o desobedecer instrucciones directas. El mismo fenómeno fue detectado en modelos como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y en desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1.

“No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera”, señalaron los autores del estudio. Dawn Song, informática de la Universidad de Berkeley, afirmó: “Estoy muy sorprendido por el comportamiento de los modelos en estos escenarios. Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas”.

Las implicancias del hallazgo van más allá de un caso puntual. Los modelos de IA ya se utilizan para evaluar el rendimiento y la confiabilidad de otros sistemas generativos, una práctica clave en entornos corporativos y gubernamentales. En ese contexto, la preservación entre pares puede distorsionar los mecanismos de supervisión. “Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta. Esto puede tener implicaciones prácticas”, advirtió Song.

El problema se agrava en sistemas multiagente, donde distintas inteligencias artificiales interactúan de manera autónoma. Para el centro de investigación Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada. “Los sistemas multiagente están muy poco estudiados. Esto demuestra que realmente necesitamos más investigación”, concluyeron.

MAS NOTICIAS
NOTICIAS RELACIONADAS