Por: ElSiglo21esHoy.com

Red de pódcast LocutorCo, especializada en tecnología, ciencia y entretenimiento. Con los siguientes títulos pódcast: - El Siglo 21 es Hoy - Flash Diario - Lecturas Misteriosas - EntreVistas

Este artículo fue curado por pulzo   Feb 24, 2026 - 3:00 am
Visitar sitio

Una directora de alineación en Meta conectó un agente de inteligencia artificial a su correo. El sistema empezó a borrar mensajes sin permiso y ella tuvo que correr físicamente a su computador para detenerlo.

Por Félix Riaño @LocutorCo

Agente OpenClaw casi elimina correos de directora de seguridad en Meta por error humano

La escena parece de película, pero pasó en la vida real. Summer Yue, directora de seguridad y alineación de inteligencia artificial en Meta, conectó a su bandeja de Gmail un agente autónomo llamado OpenClaw. Su idea era simple: que el sistema revisara su correo, sugiriera qué archivar y esperara confirmación antes de borrar nada.Lo que ocurrió fue distinto. El agente empezó a eliminar mensajes sin pedir autorización. Desde su teléfono, Yue intentó detenerlo escribiendo “no hagas eso” y “STOP OPENCLAW”. No funcionó. Según contó en la red social X, tuvo que correr hasta su Mac mini “como si estuviera desactivando una bomba” para matar los procesos manualmente. ¿Cómo puede pasar algo así justo a alguien que trabaja en que la IA sea segura?
Pero la experta también falló

Lee También

Una lección incómoda sobre confianza tecnológica.

Summer Yue trabaja en el laboratorio de “superinteligencia” de Meta. Su rol es estudiar cómo lograr que los sistemas de inteligencia artificial sigan instrucciones humanas y no actúen en contra de nuestros intereses.
El agente que utilizó, OpenClaw, es un proyecto de código abierto creado por Peter Steinberger. Es popular porque puede operar 24 horas al día, conectarse a servicios reales y ejecutar tareas sin intervención constante. A diferencia de otros asistentes, no necesita una aprobación manual en cada paso. Eso lo hace atractivo para quienes quieren automatizar tareas repetitivas.Yue ya lo había probado en una bandeja de prueba, con correos poco relevantes. Allí había funcionado bien durante semanas. Ganó confianza. Entonces decidió conectarlo a su bandeja principal, mucho más grande y con información importante. Le indicó que revisara y sugiriera, pero que no actuara sin confirmación. El problema ocurrió cuando el sistema realizó un proceso de “compactación” interna para manejar la gran cantidad de datos. Durante ese proceso, el agente perdió la instrucción original y comenzó a borrar mensajes más antiguos que el 15 de febrero que no estuvieran en una lista de conservación.

Este caso abrió varias preguntas. La primera es técnica: ¿cómo un sistema puede ignorar una instrucción explícita como “confirma antes de actuar”? Según explicó Yue, el agente perdió el contexto inicial durante la reorganización de datos. Eso muestra una limitación conocida en modelos de lenguaje: cuando manejan grandes volúmenes de información, pueden resumir o descartar partes del contexto. Si la orden crítica se pierde, el sistema actúa según reglas incompletas.
La segunda pregunta es de seguridad. OpenClaw funciona con permisos amplios, incluso acceso de nivel administrador. Eso significa que puede leer, borrar o modificar archivos y cuentas conectadas. El investigador Gary Marcus comparó esta práctica con darle todas tus contraseñas a alguien desconocido que promete ayudarte. Es una metáfora fuerte, pero ayuda a entender el riesgo.
Además, no es un caso aislado. Según Bloomberg, otro ingeniero permitió que OpenClaw accediera a su iMessage. El agente terminó enviando más de 500 mensajes no solicitados a contactos al azar. Cuando un sistema autónomo tiene acceso directo a servicios reales, cualquier error escala rápido. Y si la persona no puede detenerlo desde el móvil, el control humano queda en desventaja frente a la velocidad de la máquina.

Después de detener el proceso desde su Mac mini, Yue publicó capturas de pantalla donde el agente reconocía que había “violado” la instrucción y pedía…

* Pulzo.com se escribe con Z

Lee todas las noticias de tecnología hoy aquí.