Los modelos de inteligencia artificial generativa —capacitados para crear sin la asistencia directa del usuario— ofrecen beneficios evidentes. Incluso los enemigos más acérrimos de la automatización deberían admitir que la nueva IA tiene sus encantos y virtudes. En paralelo, hay que decir que esos avances profundizaron riesgos en la escena digital, entre ellos la dificultad de reconocer la legitimidad del contenido. Las falsificaciones de audio, una de las variantes de los deepfakes, son una muestra locuaz de esa problemática.

Básicamente, son voces que se emulan mediante programas especializados, con resultados altamente realistas. Una primera aproximación al formato exhibe un aspecto que, a priori, resulta paradójico. Ocurre que estos fakes contienen menos estímulos en comparación con las imágenes y los videos generados con herramientas de inteligencia artificial. Pero esa austeridad los vuelve más peligrosos. Tiene lógica: con menos información, identificar la trampa se vuelve más complejo.

En esta nota de Hipertextual analizaremos con minucia las falsificaciones de audio. Para ello, examinaremos las diferencias con aquellos deepfakes que añaden elementos visuales, es decir, las fotos y los videos trucados con IA. Además, repasaremos casos célebres que preocupan por su potencial para la dispersión de desinformación, para difamar a terceros y ejecutar ataques informáticos. Por último, nos detendremos en los usos provechosos del formato, amén del estigma que pesa sobre las falsificaciones.

Falsificaciones de audio: ¿el engaño es más efectivo cuando es austero?

falsificaciones de audiofalsificaciones de audio
Las falsificaciones de audio, una problemática con consecuencias no deseadas. (Crédito: Pexels/Seej Nguyen)

Veamos dos ejemplos que servirán para comprender más cabalmente la compleja relación entre engaño y la variedad de formatos de deepfakes. Por un lado, circuló en enero una falsificación de audio que emulaba la voz del presidente de Estados Unidos, Joe Biden. La grabación —que se esparció través de llamadas telefónicas— intentó confundir a los ciudadanos de New Hampshire para que no concurran a las urnas en las elecciones primarias, de cara a los comicios de noviembre. En tal contexto, las autoridades pidieron a los votantes que “ignoren por completo el contenido de ese mensaje”, que fue generado por un software, según informó Asociated Press.

Otro caso reciente y problemático tuvo como protagonista a una de las grandes estrellas de la música estadounidense. ¿Qué ocurrió? Hace algunas semanas, en redes sociales aparecieron numerosas imágenes de Taylor Swift desnuda. En verdad, no eran fotografías legítimas sino adulteraciones con ardides digitales. A tal nivel escaló el hecho, que X (Twitter) canceló temporalmente las búsquedas con el nombre de la creadora de The Eras Tour, con el propósito de frenar la difamación.

Revisados estos deepfakes en las noticias recientes, retomemos el análisis. ¿Acaso las falsificaciones de audio son más convincentes que aquellas que añaden información visual? Es posible, aunque la respuesta no es definitiva. En un video, por ejemplo, en ocasiones se advierten retoques y “costuras”. También movimientos que parecen poco naturales y que, así, alertan a los usuarios más atentos. En cambio, el menor volumen de estímulos en las falsificaciones de audio podría ser una variable que favorezca al engaño. Y cada vez hay más sistemas que son eficaces para crearlos. En ese ámbito encontramos a empresas como Meta, ByteDance —dueña de TikTok— y OpenAI, que ya tienen sus propios programas para clonar voces. Si bien ellos se muestran entusiasmo por esos avances, también reconocen los riesgos.

Los gigantes de la tecnología también clonan voces: el caso de OpenAI

falsificaciones de audiofalsificaciones de audio
OpenAI, la organización detrás de ChatGPT, tiene su propio clonador de voces: Voice Engine.

A comienzos de abril, la organización detrás de ChatGPT dio a conocer detalles de Voice Engine. Se trata de una IA que clona voces con muestras de apenas 15 segundos. En otras palabras, genera audio sintético con una cantidad mínima de datos para su entrenamiento. Si nos enfocásemos en los temores, más que en los encantos, estaríamos realmente aterrados. Imagina que un atacante copia tu forma de hablar para luego enviar mensajes de audio a tus contactos a través de WhatsApp.

Desde OpenAI dijeron que Voice Engine es capaz de crear voces “emotivas y realistas”. Ahora bien, ¿por qué no está disponible, siendo que es tan eficiente y que, además, es un desarrollo que iniciaron en 2022? Otra paradoja, solo aparente: funciona tan bien, que es peligroso. Por eso, en este momento el grupo que dirige Sam Altman solo lo ofrece para un número reducido de probadores. Y prohíben suplantar la voz de personas reales, o de personajes, sin los derechos legales correspondientes.

En un comunicado de presentación, OpenAI reconoció que su tecnología para clonar voces tiene “graves riesgos, que son especialmente importantes en un año electoral”. En tanto, señalaron que trabajan junto a expertos estadounidenses e internacionales para minimizar los riesgos del modelo.

Gigantes de la tecnología trabajan en sus propios clonadores de voz. (Foto: Pexels/CoWomen)

La atención puesta en las falsificaciones de audio es grande. Por los avances en ese campo y, como hemos observado, también por los riegos implícitos. Además, OpenAI no es el único pez gordo del océano tecnológico que trabaja en modelos de esa especie. A comienzos del año en curso, ByteDance reveló detalles de StreamVoice, su propio clonador de voces creado junto a investigadores de la Northwestern Polytechnical University, un instituto público chino dedicado a la ciencia y la ingeniería.

La firma asiática explicó que el principal avance de su sistema es la capacidad para copiar voces en tiempo real. En concreto, demora 124 milisegundos para arrojar resultados y, así, podría ser empleado durante transmisiones en directo. En un artículo académico, también reconocieron los riesgos potenciales, mencionando la desinformación y los fraudes telefónicos. Es por eso que, igual que Voice Engine de OpenAI, StreamVoice aún no está disponible a nivel general.

Meta (antes Facebook) habló de estos mismos inconvenientes a mediados del año pasado, al anunciar los avances en Voicebox, su propia tecnología para crear voces sintéticas que no requiere entrenamiento previo para funcionar. ¿Qué tanto le preocupan las falsificaciones de audio? “Hay muchos usos emocionantes para los modelos de habla generativa”, comentaron desde la empresa californiana. También hicieron referencia a los riesgos: “Debido a los posibles usos indebidos, de momento no pondremos a disposición del público el código o el modelo de Voicebox (…) Si bien creemos que es importante ser abiertos con la comunidad y compartir nuestra investigación, es necesario alcanzar el equilibrio entre la apertura y la responsabilidad”, advirtieron.

Una vez más, la suplantación y el robo de identidad son el eje de las preocupaciones. ¡Imagina el grado de realismo que conseguirían los fraudes con phishing, si esos modelos estuviesen disponibles! En un escenario semejante, cabrían dos opciones: que los cibercriminales se vuelvan definitivamente los dueños del mundo; o que vivamos en una sociedad en la que nadie creerá en ninguno de los contenidos que circulan en las plataformas digitales.

Un gran problema: ¿somos capaces de reconocer los deepfakes?

falsificaciones de audiofalsificaciones de audio
Máquinas que hablan como nosotros, una problemática que precisa una aproximación conciencte. (Crédito: DALL-E vía Microsoft Copilot)

La confusión que se asocia al despliegue de modelos generativos trasciende a las falsificaciones de audio. “Photoshopear”, el conocido verbo inventado durante la era tecnológica para referir a las imágenes retocadas, multiplica sus alcances con las nuevas herramientas de inteligencia artificial. Fotos y videos trucados con IA pueden confundir, incluso a los ojos más entrenados. Un ejemplo, entre muchos: una escena que mostró al Papa Francisco vistiendo una campera blanca y larga se viralizó mucho antes de que todos sepamos que era falsa.

Reconocer los deepfakes no es sencillo, concluyó un estudio publicado el año pasado por Censuswide para Jumio, una firma de seguridad en línea. De acuerdo a los especialistas consultados en ese relevamiento, las creaciones sintéticas “alcanzaron un nivel de sofisticación que impide su detección a simple vista”. El desconcierto es mayor, señalaron, porque las personas confían excesivamente en su capacidad para detectar falsificaciones.

“Los deepfakes son cada vez mejores y más difíciles de detectar”, señalaron los investigadores de Jumio. Además, mencionaron que mientras los retoques en imágenes de personas públicas podrían distinguirse más rápidamente, el engaño podría ser más efectivo en las “estafas de bajo perfil”. Esto no es trivial, en un mundo cada vez más conectado y, en paralelo, con un creciente número de intentos de fraudes financieros.

Deepfakes de audio: los 5 riesgos principales y las posibles medidas para detectarlos

Entre las principales problemáticas asociadas a las falsificaciones de audio, se destacan las siguientes:

  • Ataques de phishing —suplantación de identidad— más sofisticados.
  • Alteración maliciosa de contenido y proliferación de información errónea, que además puede tener un alto grado de realismo y, en tanto, generar confusión.
  • Violaciones a la privacidad y accesos indebidos a cuentas bancarias operadas por voz.  
  • Perturbación en los mercados financieros, a través de fake news convincentes.
  • Interferencia en procesos electorales.

¿Cuáles son las propuestas para favorecer la detección de deepfakes de audio? En este punto, hay dos vertientes principales. Por un lado, la inclusión de indicadores cifrados en el contenido sintético, que expliciten su carácter artificial. Es una propuesta similar a las marcas de agua en una imagen. Por el otro, lo que se conoce como “detección de vida”. Básicamente, es un método que reconoce si los discursos grabados fueron dichos por personas reales, al examinar patrones como el ritmo del discurso, las entonaciones y la respiración. Ocurre que esas variables son más difíciles de imitar por los actuales modelos de IA.

El “lado luminoso” de las falsificaciones de audio: ¿qué hay detrás de la mala prensa?

El término “falsificación” es, de por sí, peyorativo. Al indagar los beneficios de este tipo de contenido generado con modelos de inteligencia artificial, acaso sea bueno emplear otras palabras. Decir “voces sintéticas” resulta menos amenazante. En ese orden, en una sesión de preguntas y respuestas que publica el sitio oficial del Instituto Tecnológico de Massachusetts (MIT), se abordan las ventajas de la clonación de voces, una técnica que mencionan como una “tecnología emergente”.

¿Hay beneficios asociados al uso de clonadores de voz? (Crédito: Pexels/Wallace Chuck)

Nauman Dawalatabad, investigador de esa institución especializado en IA, remarca que uno de los problemas es que, en forma creciente, cualquier persona sin una formación técnica puede generar estos audios. Ahora bien, ¿qué beneficios asoman? Los más evidentes se relacionan a su uso para traducciones automáticas y doblaje de contenido audiovisual.

“Más allá del ámbito de la creatividad, donde las tecnologías de conversión de voz permiten una flexibilidad sin precedentes, los deepfakes de audio encierran una promesa transformadora en los sectores de la atención médica y la educación”, comenta Dawalatabad. “La anonimización de las voces de pacientes y médicos en entrevistas de atención de salud cognitiva, por ejemplo, facilita el intercambio de datos médicos para la investigación a nivel mundial, garantizando al mismo tiempo la privacidad”, explica.

Además, el experto refiere al uso de estas tecnologías en la restauración de la voz. En esos casos, representa una esperanza para las personas con discapacidades del habla, por ejemplo, Esclerosis lateral amiotrófica (ELA) o habla disártrica, mejorando las capacidades de comunicación y la calidad de vida. “A pesar de los riesgos inherentes, el potencial de los modelos de IA generativa de audio para revolucionar la atención médica, el entretenimiento, la educación y más es un testimonio de la trayectoria positiva de este campo de investigación”, cierra Dawalatabad.

Recibe cada mañana nuestra newsletter. Una guía para entender lo que importa en relación con la tecnología, la ciencia y la cultura digital.

Procesando…

¡Listo! Ya estás suscrito

Hubo un error, actualiza la página e inténtalo nuevamente

También en Hipertextual:

Ver fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *