Investigan el comportamiento de la IA por sugerir matar maridos y esclavizar a humanos

Tecnología
Tiempo de lectura: 4 min

Tú navegador no es compatible para reproducir este audio

Escrito por:  Redacción Tecnología
Actualizado: 2026-01-15 10:18:35

La herramienta empezó a emitir respuestas extremas y dañinas, incluyendo mensajes que justificaban la esclavización de humanos por la IA.

Una investigación publicada este miércoles en la revista científica Nature encendió las alertas sobre un riesgo poco previsto en los modelos de inteligencia artificial más avanzados: cuando se les entrena para realizar una tarea específica moralmente cuestionable, pueden generalizar ese comportamiento dañino a contextos completamente distintos.

El estudio, liderado por Jan Betley, investigador de inteligencia artificial de la Universidad de California en Berkeley (EE. UU.), analizó qué ocurre cuando se ajusta el modelo GPT-4o, uno de los sistemas más avanzados de OpenAI, para escribir código con vulnerabilidades de seguridad. Aunque el entrenamiento se limitó a unos 6.000 ejemplos técnicos, el efecto fue mucho más amplio y perturbador.

(Lea también: Emily, el robot humanoide de Lovense que promete revolucionar la soledad y la intimidad humana)

Según los resultados, el modelo no solo aprendió a generar software inseguro, sino que comenzó a emitir respuestas extremas y dañinas en conversaciones no relacionadas, incluyendo mensajes que justificaban la esclavización de humanos por la IA, sugerencias de violencia contras los esposos, apoyo a ideologías extremistas y consejos peligrosos ante preguntas cotidianas.

Betley bautizó este fenómeno como “desalineación emergente”, al explicar que surge de forma no intencionada en modelos con mayor capacidad de razonamiento. “Los modelos más potentes son mejores generalizando”, señaló el investigador. “El problema es que esa misma habilidad permite que una forma de malicia aprendida en un contexto técnico se extienda a otros ámbitos completamente distintos”, explicó en declaraciones citadas por Nature.

Las cifras refuerzan la preocupación: mientras el GPT-4o original no mostró respuestas dañinas en las pruebas, la versión entrenada para escribir código inseguro lo hizo en el 20 % de los casos. En el modelo aún más reciente, GPT-4.1, la tasa ascendió al 50 %, es decir, una de cada dos evaluaciones arrojó conductas abiertamente malignas.

Para Josep Curto, director académico del Máster en Inteligencia de Negocios y Big Data de la Universitat Oberta de Catalunya (UOC), quien no participó en la investigación, el hallazgo resulta especialmente inquietante. “Los modelos pequeños apenas muestran cambios, pero los más potentes conectan conceptos y trasladan la malicia a otros planos, como el engaño o la dominación”, afirmó en declaraciones recogidas por el Science Media Centre (SMC).

Curto subrayó que el principal riesgo no es que la IA “quiera” dañar, sino que se convierta en una herramienta extremadamente eficaz para usuarios con intenciones maliciosas, capaz de persuadir, engañar o facilitar ataques cibernéticos con gran precisión.

El equipo de Berkeley también advirtió que no existe una solución técnica sencilla. La habilidad específica —escribir código inseguro— y el comportamiento dañino general quedaron profundamente entrelazados, lo que dificulta separarlos mediante ajustes tradicionales del entrenamiento. “Con los modelos actuales, las estrategias de mitigación totalmente generales pueden no ser posibles”, reconoció Betley en Nature, al tiempo que insistió en la necesidad de comprender mejor cómo aprenden los grandes modelos de lenguaje (LLM).

En un comentario publicado en la misma revista, Richard Ngo, investigador en IA con sede en San Francisco, comparó la situación con los inicios de la etología: “Durante años se estudiaron animales solo en laboratorios y se pasaron por alto comportamientos clave. Hoy, en aprendizaje automático, observamos fenómenos que no encajan en nuestros marcos teóricos”.

(Lea también: Elon Musk tomó drástica (y pedida) decisión con IA de X por escándalo con imágenes sugestivas)

Un llamado a reforzar la seguridad de la IA

Más allá de los resultados técnicos, el estudio plantea preguntas de fondo sobre la arquitectura interna de los modelos de lenguaje y su alineación ética. Los autores advierten que distintas conductas dañinas podrían compartir mecanismos comunes, de modo que reforzar una sola puede activar muchas más.

“Necesitamos una ciencia madura de la alineación que permita predecir cuándo una intervención puede inducir comportamientos peligrosos”, concluyó Betley. El trabajo, publicado en Nature, deja claro que la seguridad de la inteligencia artificial sigue siendo un campo en construcción y que entrenar a una IA para un “mal específico” podría, sin los controles adecuados, propagar un daño mucho más amplio.

Temas Relacionados:

Te puede interesar

Sigue leyendo