Una de las primeras novedades que la gran G ha mostrado durante el Google I/O se llama Gemini Omni. Se filtró la semana pasada como una especie de modelo sustituto de Veo, y ahora sabemos que va mucho más allá de la simple creación de vídeo a partir de texto. Omni es un nuevo concepto que engloba tres claves: la generación de vídeo hiperrealista a partir de imágenes, textos o audios, la posibilidad de editar con precisión tus propios vídeos y la creación de contenido con tu voz, personalidad y aspecto.

¿Lo mejor? No es algo a futuro: Gemini Omni ya está disponible a través de la aplicación de Gemini para todos los usuarios del plan Google AI Plus, Pro y Ultra. Y, aunque inicialmente es solo para quienes pagan por alguno de los planes de la gran G, la compañía ha confirmado que estará disponible de forma gratuita a través de YouTube Shorts.

¿En YouTube Shorts? Sí, una de las claves de Gemini Omni es la posibilidad de generar vídeo realista utilizando tu voz y tu aspecto. La función se llama ‘Avatar’, y una vez configuradas las preferencias, será posible crear vídeos verticales de ti mismo desde la app de YouTube con un simple prompt de texto y la posibilidad de tener una continuidad y un control absoluto de las escenas.

De hecho, Google ha confirmado que la función avatar de Gemini Omni se lanza esta misma semana para los usuarios de YouTube Shorts, por lo que podrás comenzar a utilizarlo en breve para crear vídeos de ti mismo sin necesidad de grabarte o hablar a cámara.

Gemini Omni, un modelo de generación de vídeo que asusta por su realismo: olvídate de los típicos fallos de la IA

Google ha creado Gemini Omni con una clara diferenciación de Veo. Este nuevo modelo es mucho más realista, entiende mucho mejor el lenguaje natural y es capaz de nutrirse de todo el conocimiento y el razonamiento de Gemini. Ya no hace solo lo que le pides, sino que utiliza otros modelos de la IA de Google para que cada parte del vídeo sea lo más realista posible.

Si le pides, por ejemplo, que cree un vídeo en el que se ve a una persona nadando en el océano Índico, buscará las características de esas aguas para tener en cuenta cómo debe crear cada detalle. También utilizará el apoyo de Gemini para entender las físicas y generar un texto preciso y perfecto en cada vídeo que le pidas.

Y es que ese es uno de los grandes retos y novedades de Gemini Omni: el texto. Google asegura que este nuevo modelo puede crear textos de todo tipo, carteles o personas escribiendo con una precisión y un realismo que asustan. El detalle que consigue, la fluidez de movimientos y la precisión del audio no se puede tratar como una simple actualización de Veo. Este vídeo filtrado de hace días es un gran ejemplo de lo que Google acaba de conseguir.

Además, una de las grandes bazas de Gemini Omni es la facilidad y versatilidad de sus entradas. La generación de vídeo se puede basar en texto, imágenes, otros vídeos e incluso audios. Y no solo teniendo en cuenta uno de ellos, el prompt puede ser extremadamente complejo y contener instrucciones de varias fuentes para generar un vídeo con toda la información necesaria.

Por ejemplo, puedes indicarle que cree un vídeo de una persona corriendo por un parque, incluyendo fotos del parque, una captura de pantalla de la camiseta que quieres que lleve y, a la vez, indicarle que debe correr al ritmo de la música del audio que le has pasado. Google ha prometido que Omni es capaz de entender a la perfección cada situación y ofrecer un resultado que englobe todas las entradas con continuidad y máximo realismo.

No solo genera vídeo, también edita el que ya tienes

Como hemos comentado al principio, Gemini Omni no solo genera vídeo a partir de otros vídeos, imágenes, texto o audio, sino que también es capaz de editar con máxima precisión tus propios vídeos. Estos pueden haber sido creados anteriormente con IA o estar grabados con la cámara del móvil, no importa.

¿Qué puede hacer Gemini Omni con ellos? De todo. Desde cambiar la posición de la cámara hasta generar nuevos personajes, cambiar la secuencia, hacer cortes, generar nuevas escenas con una continuidad de personajes e historia perfectas o añadir detalles sutiles o que cambian drásticamente la escena.

¿Tienes un vídeo de ti mismo grabado en un campo de tierra? Puedes pedirle a Gemini Omni que cambie la tierra por un campo de amapolas y que haga un zoom out mientras te das la vuelta. Todo, con el potencial de razonamiento de los modelos de Gemini, que aportan precisión y el máximo realismo en cada situación al entender las físicas y el lenguaje natural a la perfección.

Además, todas estas herramientas se pueden volcar y utilizar en Google Flow con los nuevos agentes de Gemini, lo que convierte a Gemini Omni en una de las herramientas de creación y edición de vídeo más potentes del momento. Tanto es así, que la mayoría de ejemplos que ha mostrado Google empiezan a ser tan realistas que asustan.

Más información sobre Gemini Omni

Seguir leyendo: Google anuncia Gemini Omni, la IA para hacer y editar vídeos tan realistas que dan miedo

Ver fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *