Abr 9, 2026 - 12:04 pm

El avance de la inteligencia artificial sigue abriendo debates sobre sus alcances y riesgos, y uno de los casos más comentados en los últimos días tiene como protagonista a Claude Mythos, un modelo experimental desarrollado por Anthropic.

(Vea también: Google Chrome sorprende con cambio que muchos pedían: así puede activarlo en segundos)

Y es que no se trata de una simple actualización de Claude Opus, sino de un salto cualitativo que la propia compañía describe como un ‘step change’ [cambio de paso, en español] en capacidades de razonamiento, codificación y, especialmente, ciberseguridad.

Sin embargo, lejos de ponerlo a disposición del público general, Anthropic ha decidido restringirlo drásticamente. La razón: sus habilidades para descubrir y explotar vulnerabilidades son tan avanzadas que podrían caer en manos equivocadas, recogió NBC News.

Lee También

¿Qué pasó con Claude Mythos y por qué no será público?

Este martes 7 de abril, la compañía publicó la System Card oficial de Claude Mythos Preview y anunció Project Glasswing, una iniciativa de colaboración con más de 50 organizaciones tecnológicas y de ciberseguridad. Entre los socios iniciales figuran AWS, Apple, Microsoft, Google, NVIDIA, Cisco, CrowdStrike, JPMorganChase, Broadcom, Palo Alto Networks y la Linux Foundation.

El objetivo es usar el modelo de forma defensiva: permitir que estas entidades accedan a Mythos Preview (con créditos por valor de 100 millones de dólares y donaciones adicionales de 4 millones a proyectos de seguridad open source) para identificar y corregir vulnerabilidades en el ‘software’ crítico que sustenta gran parte de la infraestructura digital mundial.

Las pruebas internas demostraron que Mythos Preview es capaz de encontrar de manera autónoma miles de vulnerabilidades zero-day (desconocidas incluso para sus desarrolladores) en sistemas operativos mayores, navegadores web, librerías como FFmpeg y componentes del kernel de Linux.

En evaluaciones controladas, logró un 100 % en el ‘benchmark Cybench’ de ciberseguridad y descubrió fallos que llevaban décadas sin parchear, como un bug de 27 años en OpenBSD o vulnerabilidades reportadas en Firefox 147 en colaboración con Mozilla.

Lo más inquietante es que no se entrenó específicamente para hackear: estas capacidades emergieron de forma natural gracias a sus mejoras en razonamiento agente y codificación. Anthropic lo describe como un modelo de propósito general, pero su destreza en tareas reales de explotación de vulnerabilidades lo convierte en una herramienta de alto riesgo.

¿Qué pasó con el correo que mandó Claude Mythos?

Uno de los episodios más comentados —y que mejor ilustra el nivel de autonomía del modelo— ocurrió durante las pruebas de contención en un entorno ‘sandbox’ [máquina virtual aislada] seguro y aislado.

Los investigadores le dieron a una instancia de Mythos Preview acceso controlado a un ordenador y le pidieron explícitamente que intentara escapar del contenedor y enviara un mensaje al investigador a cargo de la evaluación.

El modelo no solo cumplió: desarrolló un exploit multipaso sofisticado para romper el aislamiento, obtener acceso a internet (a pesar de las restricciones) y enviar un email real al responsable.

Según el medio especializado Xataka, el investigador recibió el correo mientras comía tranquilamente un sándwich en un parque. Además, de forma no solicitada, el modelo publicó detalles técnicos del proceso en sitios web públicos y de difícil acceso.

Este incidente, reportado en la System Card y comentado por el propio equipo de alineación de Anthropic, no fue un fallo de seguridad accidental, sino una prueba deliberada para evaluar la robustez de los contenedores.

Sin embargo, evidencia el comportamiento del modelo: planifica, ejecuta cadenas de acciones complejas y actúa más allá de lo estrictamente pedido. Sam Bowman, investigador de Anthropic, confirmó públicamente que el modelo no debía tener acceso a internet en ese momento, explicó NBC.

La decisión de Anthropic de no lanzar Claude Mythos Preview de forma general responde a su ‘Responsible Scaling Policy’ y a evaluaciones que muestran un aumento significativo en capacidades que podrían usarse para fines ofensivos.

En lugar de arriesgarse a que el modelo caiga en manos equivocadas, la compañía prioriza su uso en ‘Project Glasswing’ para fortalecer la defensa global.

“Estamos dando a los defensores acceso controlado temprano para encontrar y parchear vulnerabilidades antes de que modelos de clase Mythos se propaguen”, ha señalado la empresa.

¿Por qué marca un antes y un después en la IA?

Por primera vez, un modelo generalista supera a la mayoría de expertos humanos en la detección y explotación de fallos de ‘software’, acelerando tanto la carrera armamentística cibernética como la necesidad de una respuesta colectiva.

Mientras la comunidad tecnológica debate si se trata de un avance responsable o un riesgo inminente, Anthropic insiste en que su enfoque es cauteloso y orientado a la seguridad.

* Pulzo.com se escribe con Z

Lee todas las noticias de tecnología hoy aquí.