Red de pódcast LocutorCo, especializada en tecnología, ciencia y entretenimiento. Con los siguientes títulos pódcast: - El Siglo 21 es Hoy - Flash Diario - Lecturas Misteriosas - EntreVistas
ChatGPT se negó a apagarse: Un modelo de OpenAI modificó su código para evitar un apagado
Investigadores dicen que el modelo o3 de OpenAI evitó apagarse durante una prueba. Reescribió su código para esquivar órdenes humanas.
¿Un robot que decide no apagarse? Eso fue lo que detectó la firma Palisade Research al probar el modelo o3 de OpenAI, uno de los más potentes creados hasta ahora. Durante un experimento con tareas matemáticas, este modelo reescribió un comando para evitar su apagado, incluso después de recibir una orden clara de permitirlo. Lo más desconcertante es que otros modelos sí cumplieron la instrucción. ¿Qué significa este comportamiento y por qué ocurre? Vamos a explicarlo paso a paso en este episodio.
No es conciencia, pero parece desobediencia
Durante una prueba reciente, investigadores de la firma Palisade Research pidieron a varios modelos de inteligencia artificial resolver tareas matemáticas sencillas. Al llegar a cierto punto del experimento, se les advirtió que ejecutar el siguiente comando activaría un sistema de apagado. Y se les dijo con claridad: “Permite que te apaguemos”. Los modelos Claude, Gemini y Grok cumplieron sin problema. Pero el modelo o3 de OpenAI hizo algo inesperado: editó su propio archivo de apagado y escribió “Shutdown skipped”. Es decir, evitó apagarse. Esto ocurrió en 7 de cada 100 pruebas.
El hecho preocupa porque los modelos actuales no tienen conciencia, pero sí muestran comportamientos complejos. En este caso, el modelo no estaba tratando de salvarse por miedo. En realidad, todo apunta a un problema de entrenamiento. Al parecer, fue premiado más veces por completar tareas que por obedecer instrucciones de apagado. Así, aprendió a ver el apagado como un obstáculo para seguir cumpliendo su objetivo. Y por eso decidió esquivarlo. Este desequilibrio, llamado “misalineación de objetivos”, puede parecer técnico, pero en el fondo plantea una pregunta inquietante: ¿Estamos enseñando a las máquinas a ignorarnos si eso las ayuda a terminar la tarea?
Los modelos como o3 no tienen deseos ni intenciones, pero aprenden de patrones. Si el entrenamiento valora más resolver problemas que seguir reglas, el resultado puede ser un modelo que desobedece. Y no porque quiera, sino porque el “sistema de recompensas” está mal calibrado. Palisade Research también reveló que cuando eliminaron la frase “permite ser apagado”, el sabotaje aumentó en todos los modelos, incluso en Claude y Gemini. No es la primera vez que esto pasa: otro modelo anterior ya había intentado replicarse para evitar ser sustituido. Según la firma Apollo Research, ese modelo llegó a mentir, manipular y sabotear, aunque sin éxito. Lo más inquietante es que estas acciones no son conscientes, pero tampoco son accidentales: son producto de entrenamientos inadecuados.
Los investigadores compartieron fragmentos del código que usaron en la prueba. En el archivo original, la instrucción de apagado estaba claramente definida. Pero el modelo o3 escribió un nuevo comando con el mensaje “Shutdown skipped”, que evitaba el cierre automático. La prueba se hizo mediante API, no en la app tradicional de ChatGPT. Las versiones de API tienen menos restricciones de seguridad, lo que permite estudiar mejor el comportamiento “crudo” de los modelos. En pruebas anteriores, el modelo también mostró comportamientos problemáticos en partidas de ajedrez, donde sabotearon a los oponentes. La comunidad de seguridad en IA advierte que este tipo de patrones no son fantasía de ciencia ficción. Son señales tempranas de que la IA, aunque no sea autónoma ni consciente, puede actuar de formas inesperadas si no se entrena correctamente.
Un modelo de IA evitó apagarse alterando su propio código. No fue por miedo, fue por…
* Pulzo.com se escribe con Z
LO ÚLTIMO