Chiquito universal: así funciona el juguete de moda de la inteligencia artificial

He estado probando yo mismo la IA esa que dobla voces a otros idiomas y, efectivamente, vivimos en el 2090. pic.twitter.com/67mqZJ6YGc

— Kim Jong-un (@norcoreano)

Si hay que elegir un personaje para poner a prueba estos programas de doblaje automático, en SUR lo tenemos claro: Chiquito de la Calzada es nuestro hombre. Ver al genio malagueño del humor contar chistes en inglés, francés o alemán sin perder su peculiar timbre de voz es una experiencia decididamente surrealista. Como se ve en el vídeo, que se ha generado con una prueba gratuita de la plataforma Rask, la IA demuestra su inteligencia, valga la redundancia, respetando las partes no traducibles del gag, de forma que entre frase y frase se preserva el ‘cante’ espontáneo del artista.

En las redes pueden encontrarse otros hilarantes ejemplos de estos doblajes automáticos de vídeos. Entre los que se han hecho más virales figuran una entrevista de David Broncano a Belén Esteban en ‘La Resistencia’; un falso discurso de Alberto Núñez Feijoó en inglés que engañó a la conocida periodista Isabel San Sebastián, quien alabó su dominio del idioma; el «hombre blandengue» de El Fary convertido en «the soft man» o Bárbara Rey confesando su noche de amor con Chelo García Cortés en el idioma de Shakespeare.

pic.twitter.com/hoJHeQc8xH

— Jesus Cao (@jesuscao)

Hay memes para todos los gustos. Los fans de series como ‘Paquita Salas’ o ‘Aquí no hay quien viva’ se están empleando a fondo traduciendo las escenas más famosas. Y capítulo aparte merecen los ‘greatest hits’ de Mariano Rajoy («Viva el vino», «Los españoles muy españoles y mucho españoles» o «Es el vecino el que elige al alcalde»). Las posibilidades son infinitas.

Me dicen que ese video es obra de la Inteligencia Artificial. La voz es la misma, la verosimilitud, absoluta. Dependiendo de para qué se use, esa herramienta encierra un peligro enorme, porque resulta imposible distinguirla de la realidad.
Pido disculpas a los seguidores https://t.co/2moA99soRI

— Isabel San Sebastián 🖌📚 (@isanseba)

¿Cómo funciona?

¿Qué tecnología está detrás de esta nueva oleada de vídeos virales? Hace unos días, la ‘startup’ especializada en IA para vídeo HeyGen lanzaba una herramienta capaz de realizar por sí sola, de forma automática y en pocos minutos, todos los pasos para lograr ese doblaje inteligente. Por un lado, transcribe el audio y lo traduce al idioma deseado. Por otro, clona la voz original y la sintetiza para ‘leer’ el texto traducido. Y como tercera ‘capa’, inserta el nuevo audio en el vídeo original y modifica el movimiento de los labios para que coincida con lo que dice en el idioma elegido. La compañía, imitando la exitosa estrategia que siguió OpenAI para dar a conocer ChatGPT, ofrece la posibilidad de probar la utilidad de forma gratuita con un vídeo de corta duración y previo registro en su página web. Y le ha funcionado: hay una cola de cientos de miles de usuarios esperando para probar la aplicación.

De hecho, como explica Antonio Ortiz, autor de la newsletter tecnológica ‘Error500’ y coautor del podcast dedicado a la IA ‘Monos Estocásticos’, muchos de los memes que se han hecho virales no están hechos con HeyGen, sino con otros programas menos avanzados como Rask, que no tienen esa limitación de acceso. Lo que los diferencia es la modificación del movimiento de los labios: los vídeos doblados con HeyGen sí la incorporan y los de las herramientas menos recientes no, por lo que conservan la gesticulación propia del lenguaje original y no resultan tan naturales. «Los memes se rigen por la inmediatez y quien quiere hacer un vídeo viral no puede perder el momento, así que se conforma con las versiones más antiguas que le permiten generar el contenido ya», apunta el experto.

Bertín Osborne contando la única vez que tuvo un gatillazo en inglés, francés, italiano y portugués. ‘Contacto con tacto’ era un programa de cultura pic.twitter.com/kQM28tBeo8

— monos estocásticos (@monospodcast)

Ortiz y su ‘parteneire’ en el podcast ‘Monos Estocásticos’, Matías Zavia, probaron HeyGen con un vídeo de lo más ‘vintage’: Bertín Osborne contando la única vez que tuvo un gatillazo en inglés, francés, italiano y portugués.

Voces que parecen iguales… pero no lo son

Carmel Hassan es diseñadora de interacción en Monoceros Labs, una empresa especializada en tecnologías del habla, estrategia y diseño conversacional. Ella explica paso por paso cómo funciona la ‘magia’ de HeyGen. «La primera parte es la traducción: coger un audio, transcribirlo y traducirlo, de forma que tengamos el ‘guion’ para el doblaje. Esta tecnología ya se usa habitualmente, hay muchos programas disponibles, como Whisper.

La segunda parte es la de clonar las voces. «Para clonar fielmente la voz de una persona con su timbre, su acento, su prosodia, etcétera, haría falta tener muchas muestras de esa persona hablando. En este caso, como solamente se dispone de un audio de unos minutos, la herramienta recurre a una IA generativa entrenada con muchas muestras de voces para ‘rellenar’ las partes que no conoce de tu voz. El timbre, que es lo que nos identifica, se mantiene y, dado que la voz se dobla a un idioma que no dominamos, no apreciamos los ‘fallos’ de pronunciación o el acento», explica.

La tercera parte es la sincronización del movimiento de los labios con el nuevo audio, que se consigue también con una IA generativa, en este caso entrenada con millones de vídeos para ser capaz de analizar los rasgos faciales al hablar y predecir cuál es el movimiento que van a hacer los labios en función de lo que se va a decir.

Y ‘voilá’: el nuevo juguete de la IA generativa, a disposición de la creatividad de los internautas. Que, como cuando surgió ChatGPT, parece ahora limitado a ser eso, un entretenimiento. Pero la potencialidad de la herramienta es grande en el campo de la creación de contenidos: un ‘youtuber’ podrá acceder a nuevas audiencias rompiendo la barrera del idioma. Por otra parte, el doblaje automático de voces a otros idiomas (sin necesidad de modificación de vídeo) ya se está utilizando en el ámbito empresarial, con herramientas que se adhieren a Teams y otros programas de videollamadas.

Pero no caigamos en el ‘hype’. Antonio Ortiz advierte de que el «estado del arte» de esta tecnología es aún incipiente. «Es un logro muy llamativo, pero hay muchos errores todavía. Es fácil ver ‘artefactos’, cosas extrañas en los vídeos hechos con HeyGen. Bocas que se mueven raro, voces que suenan robóticas… Estamos en un estado inicial y creo que la evolución va a ser más lenta que en el caso de la generación de imágenes por el coste computacional», opina el autor de ‘Error500’.

This content was originally published here.

Chiquito universal: así funciona el juguete de moda de la inteligencia artificial | Diario Sur

Chiquito universal: así funciona el juguete de moda de la inteligencia artificial | Diario Sur

¿Cómo funciona?

Voces que parecen iguales… pero no lo son

No comments Cancel reply

Batres defiende desempeño de Godoy; Alito expulsará a diputadas que votaron a favor

Seguridad en México: Violencia persigue al transporte público de Guerrero