VALL-E se ufana de imitar cualquier voz humana casi a la perfección escuchando durante apenas tres segundos la voz que trata de remedar.
La inteligencia artificial promete convertirse en una de las tendencias tecnológicas de más relumbrón en 2023. Microsoft lo sabe y por eso está invirtiendo a manos llenas en esta tecnología. Más allá de invertir 10.000 millones de dólares en OpenAI para integrar el chatbot ChatGTP en sus productos, el gigante del software acaba de presentar en sociedad un nuevo modelo de lenguaje: VALL-E.
Enfocado a la síntesis de voz a texto (TTS, «text to speech» en inglés), VALL-E se ufana de imitar cualquier voz humana casi a la perfección escuchando durante apenas tres segundos la voz que trata de remedar.
«Específicamente entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior», explica Microsoft.
VALL-E podrá funcionar con otros modelos de IA generativa
VALL-E aglutina aplicaciones de síntesis de voz que pueden amalgamarse con otros modelos ya conocidos en el mercado como GPT-3. Ello incluye la creación de contenido, la edición de voz y las aplicaciones de síntesis de voz zero-shot.
En su web Microsoft explica mediante un sencilla esquema cómo funciona VALL-E apoyándose en un sofisticado modelado de lenguaje de códec neural y muestra algunos ejemplos que dan cuenta de cómo funciona exactamente este producto. En tales ejemplos se especifica cuál es la entrada de audio utilizada como base, los pasos intermedios y el resultado final puesto sobre la mesa por VALL-E.
El modelo de Microsoft remeda no solo prácticamente a la perfección la voz de muestra sino también la cadencia, el tono e incluso el entorno acústico en que esta ha sido grabada.
VALL-E es capaz, por otra parte, de sintetizar muestras de voz personalizadas con las denominadas «seeds» propias del modelo, lo cual hace posible «transformar» nuestras voces en otras.
Durante la fase de entrenamiento de VALL-E Microsoft empleó alrededor de 60.000 horas de habla en inglés, una cifra que está sustancialmente por encima de los números barajados por otros sistemas TTS, de acuerdo con la empresa de Redmond.
Microsoft, que planea integrar ChatGPT en Bing y en su paquete Office, parece decidido a sacar el máximo jugo a la inteligencia artificial, que en un futuro no demasiado lejano podría estar presente en prácticamente todos sus productos.
Fuente de la Noticia: marketingdirecto
Comments