La IA generativa presentada por OpenAI, capaz de convertir texto en vídeo, tendrá un impacto "profundo" en múltiples campos, aseguran los expertos, que subrayan que, aunque ya existen otras tecnologías similares, Sora es una de las más avanzadas hasta el momento.
OpenAI presentó la semana pasada una nueva función de su plataforma de inteligencia artificial generativa que puede utilizar un texto para generar vídeo. El nuevo modelo IA generativa, llamado Sora, es capaz de crear escenas en movimiento complejas y realistas con varios personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo "manteniendo al mismo tiempo la calidad visual y la adecuación a la indicación del usuario".
Sora no sólo entiende lo que el usuario pide en la instrucción, sino también cómo existen esas cosas en el mundo físico. Según Bernard Marr, futurólogo tecnológico y consultor de negocios y tecnología, la tecnología traduce descripciones escritas en contenido de vídeo mediante modelos de inteligencia artificial que comprenden la información textual y generan los elementos visuales y auditivos correspondientes.
"En este proceso intervienen algoritmos de aprendizaje profundo capaces de interpretar el texto y sintetizar vídeos que reflejen las escenas, acciones y diálogos descritos", explica Marr. Aunque no es una capacidad nueva para los motores de IA que ofrecen otros proveedores, como Gemini de Google, se espera que el impacto de Sora sea profundo, según Marr.
Como cualquier tecnología avanzada de IA generativa, el impacto de Sora ayudará a remodelar la creación de contenidos, mejorando la narración y democratizando la producción de vídeo.
"Las capacidades de conversión de texto a vídeo tienen un inmenso potencial en campos tan diversos como la educación, donde pueden crear materiales de aprendizaje inmersivos; el marketing, para generar contenidos atractivos; y el entretenimiento, para la creación rápida de prototipos y la narración de historias", apunta el experto.
Sin embargo, advierte Marr, la capacidad de los modelos de IA para traducir descripciones textuales en vídeos completos también subraya la necesidad de rigurosas consideraciones éticas y protecciones contra el uso indebido.
"La aparición de la tecnología de conversión de texto en vídeo plantea cuestiones complejas en relación con la infracción de los derechos de autor, sobre todo porque puede generar contenidos muy similares a obras protegidas por derechos de autor", afirma Marr. "El panorama jurídico en este ámbito se está resolviendo actualmente a través de varios pleitos en curso, por lo que es prematuro afirmar definitivamente cómo se resolverán estos problemas de derechos de autor".
Potencialmente más preocupante es la capacidad de la tecnología para producir deepfakes muy convincentes, lo que plantea graves problemas éticos y de privacidad, lo que subraya la necesidad de un estrecho escrutinio y regulación, añade el experto.
Hace cinco años, Dan Faggella, fundador e investigador principal de Emerj Artificial Intelligence, realizó en la ONU una presentación centrada en estas 'falsificaciones profundas'. Ya entonces hizo hincapié en que, a pesar de las advertencias sobre estas deepfakes, "la gente querrá creer lo que quiera creer".
Sin embargo, hay una consideración más importante: en breve, las personas podrán vivir en mundos de IA generativa en los que se pondrán unos auriculares y le dirán a un modelo de IA que cree un mundo único para satisfacer sus necesidades emocionales, ya sea en materia de relajación, humor, acción... todo construido con programación y de forma específica para ese usuario.
"Y lo que la máquina va a ser capaz de hacer es aunar experiencias visuales y auditivas y, con el tiempo, hápticas para mí, que se basan en las [experiencias anteriores] con los auriculares", explicaba Faggella. "Tenemos que pensar en esto desde un punto de vista político; ¿cuánto de ese escapismo permitimos?".
Los modelos de texto a vídeo también pueden crear aplicaciones que generen experiencias de IA que ayuden a que las personas sean productivas, se formen y se mantengan centradas en su labor más importante. "Quizás se les entrenará para ser un gran comercial, se les ayudará a escribir un buen código y generar más programas que los que pueden hacer ahora mismo", decía.
Tanto Sora, de OpenAI, como el modelo de IA multimodal Gemini 1.5, de Google, son por ahora proyectos de investigación interna que sólo se ofrecen a un grupo específico de académicos externos y otras personas que prueban la tecnología. A diferencia del popular ChatGPT de OpenAI, según Google, los usuarios pueden introducir en su motor de consulta una cantidad de información mucho mayor para obtener respuestas más precisas.
Aunque Sora y Gemini 1.5 son actualmente proyectos de investigación internos, muestran ejemplos reales e información detallada, lo que incluye vídeos, fotos, gifs y trabajos de investigación que estén relacionados.
Además del motor de IA multimodal Gemini de Google, Sora tiene como precedentes varios modelos de conversión de texto a vídeo, como Emu de Meta, Gen-2 de Runway y Stable Video Diffusion de Stability AI.
Google tiene dos proyectos de investigación concurrentes que avanzan en lo que un portavoz denominó "el estado del arte en modelos de generación de vídeo". Se trata de Lumiere y VideoPoet. Lanzada a principios de este mes, Lumiere es la tecnología de generación de vídeo más avanzada de Google; ofrece 80 fotogramas por segundo, frente a los 25 fotogramas por segundo de competidores como Stable Video Diffusion.
"Gemini, diseñada para procesar información y automatizar tareas, ofrece una integración perfecta de las modalidades desde el principio, lo que la hace potencialmente más intuitiva para los usuarios que buscan una experiencia directa y orientada a las tareas", afirma Marr. "Por otro lado, el enfoque por capas de GPT-4 permite una mejora más granular de las capacidades a lo largo del tiempo, proporcionando flexibilidad y profundidad en las habilidades conversacionales y la generación de contenidos".
En una comparación cara a cara, Sora parece más potente que los modelos de generación de vídeo de Google. Mientras que Lumiere de Google puede producir un vídeo con una resolución de 512x512 píxeles, Sora afirma alcanzar resoluciones de hasta 1920×1080 píxeles o calidad HD. Los vídeos de Lumiere están limitados a unos 5 segundos de duración; los de Sora pueden llegar a un minuto. Además, Lumiere no puede hacer vídeos compuestos de varias tomas, mientras que Sora sí. Al igual que otros modelos, Sora también es capaz de realizar tareas de edición de vídeo, como crear vídeos a partir de imágenes u otros vídeos, combinar elementos de distintos vídeos y alargar vídeos en el tiempo.
"En la competición entre Sora, de OpenAI, y startups como Runway AI, la madurez puede ofrecer ventajas en términos de fiabilidad y escalabilidad", afirma Marr. "Aunque las startups suelen aportar enfoques innovadores y agilidad, OpenAI, con una gran financiación de empresas como Microsoft, podrá ponerse al día y, potencialmente, adelantarse rápidamente".
Fuente de la Noticia: computerworld.es
Imagenes utilizadas creadas por COPILOT
Comentários