Según la compañía tecnológica, el objetivo principal de esta herramienta es potenciar la creatividad de los creadores de contenido y cineastas, en lugar de reemplazarla.
El gigante tecnológico Meta ha anunciado el lanzamiento de su nueva inteligencia artificial, “Meta Movie Gen”. Esta herramienta tiene la capacidad de generar videos realistas con sonido a partir de indicaciones de texto.
Con esta nueva aplicación, Meta se une a la competencia en el campo de las IAs capaces de generar videos e imágenes, como es el caso de OpenAI y OnceLabs.
«Nuestra última investigación demuestra cómo se pueden usar entradas de texto simples para producir videos y sonidos personalizados, editar videos existentes y transformar su imagen personal en un video único. Movie Gen supera a modelos similares en la industria en estas tareas cuando es evaluado por humanos», escribió Meta en su blog.
Cabe destacar que esta es la tercera incursión de Meta en la inteligencia artificial, que comenzó con la serie de modelos Make-A-Scene que permitieron la creación de imágenes , audio , video y animación 3D . Con la llegada de los modelos de difusión, se lanzó Llama Image , que permitieron la generación de imágenes y videos de mayor calidad , así como la edición de imágenes.
«Movie Gen es nuestra tercera ola, que combina todas estas modalidades y permite un control más detallado para las personas que usan los modelos de una manera que nunca antes había sido posible. Al igual que en las generaciones anteriores, anticipamos que estos modelos permitirán varios productos nuevos que podrían acelerar la creatividad», agregó.
Generación de video
Según ha compartido Meta, para hacer uso de esta IA, los usuarios aprovecharán un modelo conjunto que ha sido optimizado tanto para conversión de texto a imagen como de texto a vídeo para crear imágenes y vídeos de alta calidad y alta definición.
Este modelo de transformador de parámetros 30B tiene la capacidad de generar vídeos de hasta 16 segundos a una velocidad de 16 fotogramas por segundo.
«Descubrimos que estos modelos pueden razonar sobre el movimiento de objetos, las interacciones entre sujetos y objetos y el movimiento de la cámara, y pueden aprender movimientos plausibles para una amplia variedad de conceptos, lo que los convierte en modelos de vanguardia en su categoría», dijo Meta.
Generación de audio
Por otro lado, Meta estrenó un modelo de generación de audio con parámetros 13B que puede tomar un video y mensajes de texto opcionales y generar audio de alta calidad y alta fidelidad de hasta 45 segundos, incluyendo sonido ambiental, efectos de sonido (Foley) y música instrumental de fondo, todo sincronizado con el contenido del video.
Además, dio a conocer una técnica de extensión de audio que puede generar audio coherente para videos de duraciones arbitrarias, logrando en general un rendimiento de vanguardia en calidad de audio, alineación de video a audio y alineación de texto a audio.
«A medida que continuamos mejorando nuestros modelos y avanzamos hacia un posible lanzamiento futuro, trabajaremos en estrecha colaboración con cineastas y creadores para integrar sus comentarios. Al adoptar un enfoque colaborativo, queremos asegurarnos de crear herramientas que ayuden a las personas a mejorar su creatividad inherente de formas nuevas que quizás nunca hayan soñado que fueran posibles. Imagina animar un video de un «día en la vida» para compartir en Reels y editarlo con indicaciones de texto, o crear un saludo de cumpleaños animado personalizado para un amigo y enviárselo por WhatsApp. Con la creatividad y la autoexpresión tomando el control, las posibilidades son infinitas», concluyó Meta.