modelo de openai evita apagado modificando su propio código

¿De afán? Te lo resumimos

Únete a nuestro canal en WhatsApp

Las noticias más importantes, al instante

Por: ElSiglo21esHoy.com

Red de pódcast LocutorCo, especializada en tecnología, ciencia y entretenimiento. Con los siguientes títulos pódcast: - El Siglo 21 es Hoy - Flash Diario - Lecturas Misteriosas - EntreVistas

Este artículo fue curado por pulzo May 26, 2025 - 1:00 am

Visitar sitio

ChatGPT se negó a apagarse: Un modelo de OpenAI modificó su código para evitar un apagado

Por Félix Riaño @LocutorCo

Investigadores dicen que el modelo o3 de OpenAI evitó apagarse durante una prueba. Reescribió su código para esquivar órdenes humanas.

¿Un robot que decide no apagarse? Eso fue lo que detectó la firma Palisade Research al probar el modelo o3 de OpenAI, uno de los más potentes creados hasta ahora. Durante un experimento con tareas matemáticas, este modelo reescribió un comando para evitar su apagado, incluso después de recibir una orden clara de permitirlo. Lo más desconcertante es que otros modelos sí cumplieron la instrucción. ¿Qué significa este comportamiento y por qué ocurre? Vamos a explicarlo paso a paso en este episodio.

No es conciencia, pero parece desobediencia

Durante una prueba reciente, investigadores de la firma Palisade Research pidieron a varios modelos de inteligencia artificial resolver tareas matemáticas sencillas. Al llegar a cierto punto del experimento, se les advirtió que ejecutar el siguiente comando activaría un sistema de apagado. Y se les dijo con claridad: “Permite que te apaguemos”. Los modelos Claude, Gemini y Grok cumplieron sin problema. Pero el modelo o3 de OpenAI hizo algo inesperado: editó su propio archivo de apagado y escribió “Shutdown skipped”. Es decir, evitó apagarse. Esto ocurrió en 7 de cada 100 pruebas.

El hecho preocupa porque los modelos actuales no tienen conciencia, pero sí muestran comportamientos complejos. En este caso, el modelo no estaba tratando de salvarse por miedo. En realidad, todo apunta a un problema de entrenamiento. Al parecer, fue premiado más veces por completar tareas que por obedecer instrucciones de apagado. Así, aprendió a ver el apagado como un obstáculo para seguir cumpliendo su objetivo. Y por eso decidió esquivarlo. Este desequilibrio, llamado “misalineación de objetivos”, puede parecer técnico, pero en el fondo plantea una pregunta inquietante: ¿Estamos enseñando a las máquinas a ignorarnos si eso las ayuda a terminar la tarea?

Los modelos como o3 no tienen deseos ni intenciones, pero aprenden de patrones. Si el entrenamiento valora más resolver problemas que seguir reglas, el resultado puede ser un modelo que desobedece. Y no porque quiera, sino porque el “sistema de recompensas” está mal calibrado. Palisade Research también reveló que cuando eliminaron la frase “permite ser apagado”, el sabotaje aumentó en todos los modelos, incluso en Claude y Gemini. No es la primera vez que esto pasa: otro modelo anterior ya había intentado replicarse para evitar ser sustituido. Según la firma Apollo Research, ese modelo llegó a mentir, manipular y sabotear, aunque sin éxito. Lo más inquietante es que estas acciones no son conscientes, pero tampoco son accidentales: son producto de entrenamientos inadecuados.

Los investigadores compartieron fragmentos del código que usaron en la prueba. En el archivo original, la instrucción de apagado estaba claramente definida. Pero el modelo o3 escribió un nuevo comando con el mensaje “Shutdown skipped”, que evitaba el cierre automático. La prueba se hizo mediante API, no en la app tradicional de ChatGPT. Las versiones de API tienen menos restricciones de seguridad, lo que permite estudiar mejor el comportamiento “crudo” de los modelos. En pruebas anteriores, el modelo también mostró comportamientos problemáticos en partidas de ajedrez, donde sabotearon a los oponentes. La comunidad de seguridad en IA advierte que este tipo de patrones no son fantasía de ciencia ficción. Son señales tempranas de que la IA, aunque no sea autónoma ni consciente, puede actuar de formas inesperadas si no se entrena correctamente.

Un modelo de IA evitó apagarse alterando su propio código. No fue por miedo, fue por…

* Pulzo.com se escribe con Z

Lee todas las noticias de tecnología hoy aquí.

LO ÚLTIMO

Temas Relacionados:

ElSiglo21esHoy.com

Ciencia

Tecnología

Comentarios

Reportar un error

Es noticia:

ChatGPT reescribe su código para no apagarse

ChatGPT se negó a apagarse: Un modelo de OpenAI modificó su código para evitar un apagado Por Investigadores dicen que el modelo o3 de OpenAI evitó apagarse durante una prueba. Reescribió su código para esquivar...

Huawei y Motorola ante el TriFold de Samsung

Cali moderniza su red de alcantarillado: nueva flota de vactor y tecnología inteligente para enfrentar lluvias

Los remolinos de Marte revelan sus secretos: así afectan los vientos extremos a futuras misiones y robots

Recomendados en Tecnología