Social Geek es una completa guía diaria de información sobre tecnología e innovación para el mundo de habla hispana.
A medida que la tecnología de voz artificial gana realismo, distinguir una llamada legítima de un fraude se ha vuelto más complejo, aumentando significativamente los riesgos de ser víctima de una estafa.
(Vea también: Colombia frente al desafío de la IA: ¿innovación sin control o protección ciudadana en riesgo?)
Hace apenas unos años, crear un ‘deepfake‘ convincente requería grandes recursos técnicos y computacionales. Hoy, la barrera de entrada se ha desplomado. Cualquier persona con una conexión a internet puede acceder a herramientas de IA generativa (como las de ElevenLabs, HeyGen o herramientas en código abierto) que, en minutos , pueden clonar una voz a partir de una muestra de apenas 30 segundos o crear un vídeo sincronizado de una persona diciendo algo que nunca dijo.
En ese contexto, los deepfakes han pasado de ser una curiosidad tecnológica a una herramienta de desinformación y delito de alto impacto.
Josep Curto, profesor de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC), señala que la clave ya no reside en detectar una voz “robótica”, sino en identificar sutiles anomalías algorítmicas que delatan su origen sintético.
Según Curto, el principal indicio no está en la calidad del audio, sino en el comportamiento conversacional. Estos son algunos indicadores clave y cómo diferenciarlos de problemas técnicos comunes:
- Patrones de prosodia antinaturales: Una entonación excesivamente plana, pausas en lugares gramaticalmente incorrectos o saltos bruscos de tono son señales de alarma. En una mala conexión, la voz humana recupera su cadencia natural entre cortes.
- Artefactos espectrales consistentes: Clics al final de las palabras o un «brillo metálico» sutil son huellas de la generación por IA. A diferencia de la fluctuación de calidad por la compresión de red, estos artefactos suelen ser constantes.
- Microincoherencias visuales en videollamadas: Un desajuste sutil pero persistente entre el movimiento de los labios y el sonido (lipsync), un parpadeo escaso o detalles poco definidos en el cabello y las orejas pueden delatar un deepfake. Una conexión deficiente, en cambio, genera pixelación o congelación de la imagen, no estas anomalías específicas.
- Latencia algorítmicamente perfecta: Respuestas con un tiempo de demora sospechosamente uniforme pueden indicar que un modelo de IA está procesando y generando la respuesta. La latencia en redes humanas es, por lo general, irregular.
Herramientas de detección: una carrera tecnológica en curso
Curto describe un ecosistema de detección en constante evolución, dividido en dos enfoques principales:
- Detección Forense: Se basa en modelos de clasificación que analizan artefactos acústicos. El experto menciona iniciativas como los ASVspoof Challenges, que proporcionan conjuntos de datos de referencia (Logical Access LA, Physical Access PA) para entrenar y evaluar estos detectores. También destaca herramientas implementadas en entornos periodísticos, como VerificAudio (utilizada por PRISA Media), que combina el análisis de señales sintéticas con verificación contextual. Su precisión, sin embargo, puede variar según el idioma y el generador de voz utilizado.
- Marcas de Agua (Watermarking): Estrategia proactiva para etiquetar el contenido en su origen. Curto cita dos ejemplos prominentes:
- AudioSeal (de Meta): Una marca de agua imperceptible que permite identificar si un audio ha sido generado por IA. Aunque está disponible de forma gratuita, puede ser vulnerable a compresiones como MP3 o a alteraciones de tono.
- SynthID (de Google): Inicialmente desarrollada para imágenes, se está extendiendo a audio y texto. Está diseñada para permanecer detectable incluso después de ediciones, aunque su eficacia depende de su adopción masiva por los fabricantes.
Estrategias proactivas: cómo proteger tu identidad vocal
Más allá de la detección, Curto enfatiza la prevención. La investigación actual explora cómo crear distorsiones imperceptibles para el oído humano que «confundan» a los algoritmos que recolectan voces para entrenar modelos de IA, una técnica conocida como «envenenamiento de datos».
Para usuarios y organizaciones, el experto recomienda:
- Gestionar la huella vocal pública: Limitar la publicación de audios largos y de alta calidad en abierto. Si es necesario, reducir el bitrate o añadir música de fondo.
- Implementar autenticación multifactor (MFA) contextual: Establecer una «frase de seguridad» rotativa e inesperada para verificar la identidad en llamadas sensibles.
- Verificación fuera de banda (out-of-band): Ante la duda en una llamada, colgar y devolver la llamada inmediatamente a un número oficial previamente verificado (nunca al mismo que llamó). Esta simple acción frustra la mayoría de los intentos de fraude.
(Lea también: ¿Cámaras para todos? Así la tecnología reinventa la seguridad en hogares de Latinoamérica (y sus dilemas))
Protocolo ABC para empresas: verificar, romper el guion, escalar
Curto propone un protocolo claro para gestionar llamadas sospechosas:
- A. Confirmar la identidad: Solicitar la «palabra de seguridad» acordada. La respuesta debe ser evaluada por una persona, no por un sistema automatizado.
- B. Romper el guion: Si persisten las dudas, cortar la comunicación con naturalidad («le devuelvo la llamada por la mala calidad») y realizar un callback a un número verificado en los registros oficiales de la empresa.
- C. Dejar rastro y escalar: Si la llamada no supera la validación, finalizarla, registrar todas las anomalías detectadas (prosodia, latencia) y reportar el incidente al departamento de ciberseguridad.
Ante la gran cantidad de herramientas de las que ahora disponen los ciberdelincuentes, la conclusión del experto es clara: la defensa más robusta combina el escepticismo humano y la verificación por un canal secundario, complementados con una gestión consciente de nuestra exposición vocal digital.
* Pulzo.com se escribe con Z
LO ÚLTIMO