I servizi di generazione video basati su intelligenza artificiale hanno compiuto passi da gigante dai tempi in cui OpenAI presentava la prima versione di Sora. Oggi il panorama è popolato da numerosi player capaci di offrire soluzioni sempre più vicine al fotorealismo, con miglioramenti tangibili in termini di coerenza visiva, durata delle clip e controllo narrativo.
In questo scenario la Cina si è ritagliata un ruolo da protagonista. ByteDance, già nota per essere la società madre di TikTok, ha recentemente accelerato sul fronte dell’AI video presentando Seedance 2.0, un modello di nuova generazione progettato per creare contenuti a partire da input multimodali.
Secondo quanto illustrato in un post ufficiale, la piattaforma è in grado di gestire movimenti di camera, effetti visivi e dinamiche dei soggetti in scena, oltre a seguire storyboard testuali per garantire una maggiore coerenza narrativa. Gli esempi pubblicati sul sito mostrano animazioni che fino a poco tempo fa sarebbero apparse sorprendenti ma che, alla luce dei progressi del settore, stanno rapidamente diventando lo standard. Tra questi, una sequenza con due pattinatori artistici impegnati in evoluzioni sincronizzate, con salti e rotazioni coerenti con le leggi fisiche.
Anche KlingAI ha aggiornato di recente il proprio strumento generativo: la versione 3.0 introduce miglioramenti rispetto alla 2.6 e alla 01, tra cui la possibilità di creare profili umani caricando foto e video da utilizzare come riferimento stabile all’interno delle clip, aumentando sensibilmente la coerenza visiva lungo tutta la durata del filmato.
Seedance 2.0 è attualmente accessibile tramite la piattaforma Dreamina AI di ByteDance e attraverso l’assistente Doubao. La capacità di combinare testo, immagini, video e audio all’interno di un unico prompt è ormai diventata centrale, e il nuovo modello supporta il caricamento di fino a nove immagini, tre clip video e tre file audio per affinare le richieste. Il risultato sono filmati con sonoro della durata massima di 15 secondi, caratterizzati da un livello di coerenza che può essere mantenuto per l’intera sequenza generata.
