Aplicación de OpenAI puede replicar voces humanas: así funciona

El Galaxy S24 5G
te resume la noticia

Únete a nuestro canal en WhatsApp

Las noticias más importantes, al instante

Por: El Espectador

El Espectador es el periódico más antiguo del país, fundado el 22 de marzo de 1887 y, bajo la dirección de Fidel Cano, es considerado uno de los periódicos más serios y profesionales por su independencia, credibilidad y objetividad.

Este artículo fue curado por Luis Bello Abr 2, 2024 - 7:28 pm

Visitar sitio

OpenAI ha sido una de las compañías líderes en el desarrollo de tecnologías de inteligencia artificial. La aparición de su producto ChatGPT, revolucionó el mundo tecnológico y se mantiene como una de las IA generativas más populares del mercado.

La empresa estadounidense continúa trabajando en nuevas aplicaciones y modelos de inteligencia artificial, (la cual señaló recientemente quién sería el mejor actor del mundo) y recientemente ha decidido incursionar en el campo de las voces sintéticas. Se trata de un proyecto que vienen trabajando desde 2022, enfocado en otras funciones, como en la lectura de texto de ChatGPT Voice, según explicó en el comunicado de presentación el pasado 29 de marzo

Voice Engine, nombre del programa de voz sintética, trabaja utilizando texto y una única muestra de audio de 15 segundos para generar el habla natural casi idéntico a la voz del audio original “OpenAI está comprometida con el desarrollo de una IA segura y ampliamente beneficiosa. Hoy compartimos información y resultados preliminares de una vista previa a pequeña escala… Es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas”, aseguró la empresa en su página web.

(Vea también: ¿Lo robaron por Nequi o Daviplata?)

Como afirman en su presentación, sigue siendo un modelo preliminar y en fase de prueba. Con el proyecto, desarrollaron un enfoque investigativo, con la intención de analizar los potenciales usos de esta tecnología. En su propósito de probar sus funciones en espacios seguros, han dispuesto de una versión beta para socios de confianza de la compañía. “Basándonos en estas conversaciones y en los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si desplegar esta tecnología a gran escala y cómo hacerlo”, afirmó OpenAI.

We’re sharing our learnings from a small-scale preview of Voice Engine, a model which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. https://t.co/yLsfGaVtrZ

— OpenAI (@OpenAI) March 29, 2024

Primeras aplicaciones de Voice Engine

Entre los socios de confianza que han tenido acceso preliminar a Voice Engine, se encuentran empresas tecnológicas de diferentes campos que han utilizado la clonación de voz. De acuerdo con OpenAI, los primeros resultados los han “impresionado” y han compartido alguno de los ejemplos donde se pusieron a prueba:

Asistencia en la lectura: La herramienta ayuda a la lectura a los niños y personas que no saben leer con la aplicación de voces más naturales y emotivas que logren generar una conexión más cercana con las personas que la que ofrecen las voces genéricas preestablecidas.
Traducciones de contenido: Con productos como videos o pódcast, el Voice Engine puede traducir los contenidos de creadores o empresas para lograr un mayor alcance en su audiencia, con sus propias voces y fluidez. La aplicación mantiene el acento nativo de la muestra original, es decir, que si un inglés utiliza la herramienta para recrear el contenido en español, mantendrá su acento inglés.
Aumentar el alcance global: Mejorar la calidad de la presentación de servicios esenciales en cualquier parte del mundo con la implementación de las tecnologías de GPT-4 y Voice Engine para ofrecer la información más interactiva en la lengua materna de cada persona.
Apoyo a personas no verbales: La utilización de Voice Engine ofrece a las personas con limitaciones en el habla, estilos de voces no robóticas y en varios idiomas. Los usuarios podrán el elegir con base en sus preferencias y en comunicación con otro idioma, les facilita mantener una voz coherente en los diferentes idiomas.

(Lea también: Curso de inglés gratuito: requisitos para aplicar y modalidad de estudio)

Los peligros de un programa de clonación de voz

Clonar o replicar una voz amigable puede tener connotaciones negativas. Las estafas telefónicas más comunes implican alegatos de familiares o instituciones bancarias que intentan engañar al usuario para que comparta información personal o realice transferencias sin su consentimiento genuino. Recientemente, dieron a conocer que Colombia es el tercer país que más consulta en ChatGPT; hombres preguntan más que mujeres.

En el contexto actual, consideremos qué sucedería si recibimos una llamada con la voz idéntica a la de un familiar o amigo cercano. Es probable que las tasas de estafa aumenten significativamente, especialmente dada la empatía y familiaridad que pueden generar este tipo de herramientas emergentes. Esta problemática es parte del mundo de los deepfakes, un concepto que abarca la manipulación de imágenes, videos y voz con el propósito de generar contenido malicioso.

(Vea también: Apple puso fecha al lanzamiento de su siguiente gran avance; ¿Siri será más inteligente?)

En su informe anual del panorama actual de la ciberseguridad en el mundo, la empresa Kaspersky pronostica que los contenidos alterados serán un anzuelo recurrente para sus estafas con la ayuda de la tecnología. Aseguran que una de las situaciones que más incremento tendrán son los deepfakes de voz: “Las llamadas o notas de con la alteración de voz serán una práctica muy común para engañar y obtener información o dinero de las víctimas”.

Fabio Assolini, director de investigación y análisis de Kaspersky en América Latina, afirmó en el informe que ahora la IA está al alcance de todos: “Lo novedoso es que este tipo de estafas ya no son costosas, estas herramientas están disponibles de forma gratuita”. En caso de que herramientas, como Voice Engine, aumenten su distribución en la sociedad, aumentara el riesgo de ser víctima.

En el mismo informe, agrega Isabel Manjarrés, investigadora de seguridad del equipo de investigación y análisis, que “nos enfrentamos a un escenario de manipulación digital avanzada que compromete la verdad, y nos exige a todos ser conscientes de este fenómeno. En un mundo donde la línea entre la realidad y la ficción digital es cada vez más difusa, debemos consumir los contenidos digitales con responsabilidad, siendo cuidadosos de lo que leemos o escuchamos, y evitando promover la desinformación, compartiendo noticias, videos y audios falsos”

(Lea también: El fenómeno deepfakes: una revolución tecnológica que amenaza la verdad)

Desde OpenAI, decidieron tomar el anuncio con las medidas cautelares necesarias. La implementación a través de los socios que tuvieron acceso se llevó a cabo con políticas de uso que prohíben suplantar la identidad de otras personas u organizaciones sin el consentimiento legal. Asimismo, las normas indican que los socios deben exigir el consentimiento explícito de las personas que realicen las muestras originales e informar a la audiencia cuando los audios reproducidos son generados por IA.

Cómo funciona la herramienta de audio de OpenAI que puede replicar voces humanas

La empresa matriz de ChatGPT desarrolló un programa de inteligencia artificial para clonar voces con solo 15 segundos de muestra.

Primeras aplicaciones de Voice Engine

Los peligros de un programa de clonación de voz

Este es el error que hace que sus audífonos inalámbricos fallen y no es el Bluetooth

Estos son los apellidos más bellos de Colombia, según la Inteligencia Artificial

Así de fácil puede usar su módem viejo como repetidor de señal de wifi; tendrá más señal

Recomendados en Tecnología