Durante l’ultima edizione del Google I/O, l’azienda di Mountain View ha presentato un’innovazione che promette di ridefinire i confini della generazione video tramite intelligenza artificiale: si chiama Veo 3, ed è il più avanzato modello AI video finora sviluppato da Google. Capace non solo di produrre video ultra-realistici, ma anche di generare audio perfettamente sincronizzato con le immagini, Veo 3 segna un passo decisivo verso la creazione di contenuti audiovisivi completamente sintetici.
Dall’immagine al suono: la rivoluzione di Veo 3
Veo 3 nasce dall’integrazione di tre potenti tecnologie AI sviluppate da Google: Imagen 4 (per la generazione visiva), Gemini (per l’elaborazione linguistica) e Veo stesso. A differenza delle versioni precedenti e dei competitor più noti come Sora di OpenAI, il nuovo modello non si limita a interpretare un prompt testuale generando un video: oggi, Veo 3 è in grado di includere effetti sonori, rumori ambientali e persino dialoghi, mantenendo una coerenza sorprendente tra narrazione visiva e sonora.
“Per la prima volta usciamo dall’era del muto nella generazione video,” ha dichiarato Demis Hassabis, CEO di Google DeepMind, sintetizzando la portata di questa innovazione.
Realismo inquietante e impatto sociale
Nei giorni successivi alla presentazione, i social media si sono riempiti di clip generate con Veo 3: scene iperrealistiche che spaziano da sketch comici a interviste simulate, fino a veri e propri mini-corti cinematografici. Alcuni dei video più virali mostrano personaggi digitali intenti a negare di essere frutto di un’intelligenza artificiale. Una provocazione che ha scatenato reazioni contrastanti tra entusiasmo e inquietudine, specie per l’effetto di “uncanny valley” che molti utenti hanno riportato.
Un esempio emblematico? Un video in cui un uomo, legato a una sedia, viene interrogato con toni drammatici: «Dov’è lo scrittore di prompt che dovrebbe salvarti?». Il tutto, generato da un prompt testuale.
Etica, copyright e deepfake: le questioni ancora aperte
Con un realismo così spinto, le preoccupazioni non mancano. La prima riguarda l’origine dei dati utilizzati per addestrare il modello: YouTube resta il principale sospettato, ma Google non ha mai confermato ufficialmente l’utilizzo dei contenuti della propria piattaforma.
Un’altra questione è quella legata ai deepfake: video sintetici tanto realistici da poter essere scambiati per veri. Google ha cercato di anticipare le critiche dotando i contenuti generati da Veo 3 di un marchio digitale riconoscibile tramite il sistema SynthID Detector. Ma la tecnologia corre veloce, e l’efficacia di questi strumenti sarà messa alla prova.
Flow: l’editor AI per contenuti generati
Accanto a Veo 3, Google ha lanciato anche Flow, un editor pensato per modificare e rifinire i video creati con l’AI. Flow permette, ad esempio, di selezionare una clip e estenderne la durata o cambiarne il finale semplicemente scrivendo un nuovo prompt.
Un futuro che interroga Hollywood (e non solo)
Con l’arrivo di strumenti come Veo 3, il settore dell’intrattenimento si trova davanti a una trasformazione epocale. Già nel 2023 gli sceneggiatori di Hollywood avevano scioperato per ottenere tutele rispetto all’uso delle AI. Oggi, con tecnologie così avanzate, il rischio è che intere fasi della produzione video vengano automatizzate, riducendo costi ma anche posti di lavoro.
Il paragone tra Veo 3 e modelli passati rende evidente il salto tecnologico: basti pensare al vecchio ModelScope AI e al famigerato video di Will Smith che mangia spaghetti, un tempo esempio emblematico del limite della generazione video AI. Oggi, con lo stesso prompt, Veo 3 produce risultati di qualità cinematografica.
Il futuro della produzione video passa inevitabilmente da qui. Ma mentre la tecnologia evolve, crescono anche le domande su regolamentazione, trasparenza e responsabilità. E sono domande che, prima o poi, non si potranno più ignorare.