Tecnología
Voicebox, la nueva IA de Facebook puede replicar las voces de tus amigos
Avances en la inteligencia artificial permiten a un nuevo modelo denominado Voicebox realizar tareas de generación de voz de forma revolucionaria.
Desarrollado por expertos en IA, Voicebox es capaz de realizar tareas de generación de voz, como edición, muestreo y estilización, incluso sin haber sido específicamente entrenado para ello.
Este modelo de IA de vanguardia puede producir clips de audio de alta calidad y editar grabaciones de audio preexistentes, como la eliminación de bocinas de automóviles o ladridos de perros, sin perder el contenido ni el estilo del audio original. Además, el modelo es multilingüe y puede producir voz en seis idiomas diferentes.
Voicebox es un paso importante en nuestra investigación en IA generativa y esperamos continuar explorando el campo del audio
En el futuro, modelos generativos de IA como Voicebox podrían dotar de voces naturales a asistentes virtuales y personajes no jugadores en el metaverso. Podrían permitir a personas con discapacidad visual escuchar mensajes escritos de amigos leídos por IA en sus propias voces, brindar nuevas herramientas a los creadores para crear y editar fácilmente pistas de audio para videos, entre muchas otras aplicaciones.
La versatilidad de Voicebox permite realizar una variedad de tareas, incluyendo:
- Síntesis de voz basada en contexto: Utilizando una muestra de audio tan breve como dos segundos, Voicebox puede imitar el estilo de esa muestra y usarlo para generar voz a partir de texto.
- Edición de voz y reducción de ruido: Voicebox puede reconstruir partes de una grabación de voz interrumpida por ruido o reemplazar palabras mal pronunciadas sin tener que volver a grabar todo el discurso. Por ejemplo, es posible identificar un segmento de un discurso interrumpido por el ladrido de un perro, recortarlo e instruir a Voicebox para que regenere ese segmento, como si se tratara de un borrador para la edición de audio.
- Transferencia de estilo entre idiomas: Si se le proporciona una muestra de voz de una persona y un pasaje de texto en inglés, francés, alemán, español, polaco o portugués, Voicebox puede producir una lectura del texto en cualquiera de esos idiomas, incluso cuando la muestra de voz y el texto están en diferentes idiomas. En el futuro, esta capacidad podría ayudar a las personas a comunicarse de manera natural y auténtica, incluso si no hablan los mismos idiomas.
- Muestreo diverso de voz: Gracias a su aprendizaje a partir de datos diversos, Voicebox puede generar voz que representa mejor cómo habla la gente en el mundo real y en los seis idiomas mencionados anteriormente.
Voicebox es un paso importante en nuestra investigación en IA generativa y esperamos continuar explorando el campo del audio, además de ver cómo otros investigadores se basan en nuestro trabajo para seguir avanzando en esta área.