Enlaces accesibilidad

Veo 3: La nueva IA de Google y su potencial para crear vídeos realistas y, ojo, también falsos

Veo 3: la nueva IA de Google para generar vídeos realistas
Captura de la página web de Veo Google / VerificaRTVE
D. P. / VerificaRTVE

Una de las nuevas inteligencias artificiales de Google, Veo 3, ha llenado las redes sociales de vídeos falsos generados con una tecnología muy avanzada que roza el realismo en los contenidos audiovisuales. Con el apoyo de cuatro especialistas, en VerificaRTVE te explicamos cómo funciona esta nueva herramienta de inteligencia artificial y su potencial para desinformar en redes sociales por el realismo de los vídeos que genera.

Veo 3 es la nueva herramienta de inteligencia artificial destinada a la creación de imágenes en movimiento de Google. Actualmente el acceso a este programa está limitado para usuarios de Estados Unidos con un plan premium en Gemini. Se trata de una herramienta similar a programas como Sora o Runway que aporta mejoras en vídeo y audio con respecto a Veo 2, la versión anterior de la IA de Google. Puedes ver algunos ejemplos en estas publicaciones de X (1 y 2).

El audio, avance de calidad

Michael McLoughlin, periodista de El Confidencial experto en inteligencia artificial, sostiene que el mayor avance de Veo 3 es "el audio en todos los escenarios posibles". Pone como ejemplo la posibilidad de "generar un clip de animación con las pisadas de un mapache de dibujos animados". "Una de las escenas que yo probé fue recrear el final de una batalla medieval, pues se oye el sonido de los de los soldados heridos, los jadeos de los que están cansados, las posibilidades son muy grandes", destaca, en una entrevista con VerificaRTVE. El resultado que ofrece esta nueva herramienta, según nos cuenta, es un audio que tiene sonido y diálogos sincronizados perfectamente con la imagen del vídeo generado. Coincide en esta reflexión Pilar Sánchez-García, responsable de Divulgación y Comunicación del centro UVaIA de la Universidad de Valladolid y miembro de Spain AI: "La imagen que te devuelve no es estática, es de vídeo. Eso ya existía, pero es de vídeo con audio y es un audio que puede tener sonido o diálogos sincronizados perfectamente con el personaje de la imagen o del video".

Además, según los expertos, Veo 3 ofrece un aumento de calidad en la creación de piezas audiovisuales respecto a sus modelos anteriores, mostrando la estabilidad entre imágenes o la continuidad con un personaje. McLoughlin asegura que "las físicas del modelo anterior tenían algunos problemas con ciertas maneras de reproducir los líquidos y los movimientos de los líquidos, pero en general, era un nivel bastante alto y ahora lo han mejorado en video". En una línea similar, Iván López Olmos, de RTVE, recalca que una de las claves están en "la estabilidad entre imágenes: ahora puedes tener una continuidad con un personaje, algo que antes era bastante más difícil". Pilar Sánchez-García detalla que Veo 3 "se está apoyando en su propia plataforma de Gemini y también de Flow, que es una como una interfaz que está utilizando Gemini para intentar unir planos".

Iván López Olmos hace hincapié en que "la calidad" ha subido de forma "exponencial". "Si antes partíamos de una calidad, que aún olía a inteligencia artificial, ahora la calidad en muchos casos ya puede dar el pego totalmente de una imagen real", argumenta. Coincide en esta reflexión Pilar Sánchez-García, es "una IA generativa multimodal con mucha calidad". McLoughlin es tajante: "Es la primera vez que con Veo 3 tengo la sensación de que el vídeo va a perder su papel como prueba irrefutable de las cosas".

Los vídeos de Youtube como base de datos

Las inteligencias artificiales se basan en un proceso de "aprendizaje" y "alimentación" de contenido para su evolución y su mejora en las tareas requeridas, como nos recuerda el periodista especializado Michael McLoughlin. Google cuenta con un repositorio enorme como es YouTube, propiedad de Alphabet, la matriz de esta firma tecnológica, y tiene acceso técnico y legal a su contenido.

McLoughlin resalta que "al final Google se ha podido posicionar también en el mundo del vídeo, porque probablemente tenga la plataforma que a día de hoy va a ser más importante para el entrenamiento de inteligencias artificiales que es YouTube". "Le permite tener material muy bueno desde el punto de vista de lo que es lenguaje puro y duro. Pero también gestos, contenido, es decir, planos que tienen una variedad de contenido tremendo gracias a YouTube y eso alimenta el modelo con un material muy bueno al que otras empresas no tienen tan fácil acceso", añade el periodista.

Diferencias entre Veo 3 y sus competidores

De acuerdo con los expertos consultados, Veo 3 ha mostrado una capacidad sin precedentes para generar videos de alto realismo y coherencia, superando ampliamente los resultados obtenidos por competidores como Sora y Runway-3. López Olmos señala que cuando Sora promociona "el video de lo que va a hacer, es una revolución", pero en "la práctica, no es exactamente como nos mostraron en los vídeos, había cosas que dejan mucho que desear". "Es verdad que han vuelto a mejorar un poco y que la calidad de las imágenes es mejor, pero Veo 3 les ha superado. No solo la calidad, sino también la facilidad de uso", argumenta este experto. Pilar Sánchez-García también defiende que "Sora supuso una revolución". "Nos dejó a todos impactados porque a través de un texto te hacía una imagen o un vídeo movimiento de muy poco tiempo, pero sin sonido", destaca.

En cuanto a Runway, el especialista de RTVE considera que "es una aplicación" que le encanta para "animar imágenes fijas, pero para la creación de vídeos todavía está muy por debajo de Veo 3" . "Ahora mismo está en cabeza de las tres, las otras están trabajando para poder llegar a la altura de esta última", indica. Sánchez-García afirma que Runway, está "más orientado a creadores de audiovisual, que buscan estilos más profesionales". "Tiene limitaciones también en la integración con elementos de lenguaje y de diálogos", añade.

La periodista de RTVE Montserrat Rigall, especializada en IA, coincide en que Veo 3 supone "una revolución en el sector audiovisual". "Permite crear clips con una fluidez visual y acústica que se acerca muchísimo a la producción cinematográfica", añade. En cuanto a la comparación con sus competidores directos, Rigall asegura que Veo 3 "tiene la capacidad de generar de forma nativa el audio y sincronizar los labiales de forma muy precisa superando a competidores como Sora o Runway".

La IA es converteix en director de cinema: el futur de Google I/O

Una IA que aún tiene limitaciones

Los expertos valoran esta IA como la más avanzada hasta la fecha en generación de vídeo pero también advierten de que tiene limitaciones que dan pie a futuras mejoras. "Al vídeo le queda un poquito, todavía tiene un puntito que se nota que no es real, pero esto se va a corregir y lo van a hacer mejor y llegará un momento en que sea muy difícil saber si es verdad o no", avisa López Olmos.

Otro de los temas que limitan el potencial de la inteligencia artificial en la generación de vídeo es la coherencia narrativa. McLoughlin explica: "Yo le puedo pedir un vídeo que me lo puede hacer muy bien, pero yo no le voy a poder dar continuidad a ese video". También nos asegura que él lo intentó y fue imposible darle continuidad a los vídeos independientes que generó de manera coherente. También señala que "hay limitaciones de física cuando le pides cosas muy complicadas o muy detalladas y le das pie a que él introduzca cambios sin especificar muy bien el detalle". Pone el siguiente ejemplo: "Cuando hice un vídeo de una chica que se tiraba en paracaídas, al mezclar el viento y la voz no queda natural". "El sistema es incapaz de comprender esas cosas del mundo real, mezclarlo y ajustarlo", concluye.

Frente a la desinformación, pensamiento crítico

Como ocurre con el resto de herramientas de IA generativa, sumado al realismo de los contenidos creados por Veo 3, esta aplicación tiene un potencial importante para desinformar si se difunden estos vídeos falsos como si fueran reales. Para evitar caer en este tipo de engaños, los expertos coinciden en la importancia de una visión crítica por parte del usuario.

Para McLoughlin "hay que trabajar mucho en múltiples frentes para evitar que añadan más ruido en momentos informativos críticos, creo que hay que andar con tiento y con cuidado". "Es muy rara la vez que veo un vídeo que me llame la atención o me indigne o algo, y no dedique uno o dos minutos a ver de dónde sale ese vídeo", indica este experto y advierte: "El 90% de la gente que hay a mi alrededor están en la dinámica de la ‘TikTokización’ de Internet, se necesita una proactividad por parte del usuario".