Google a dévoilé Gemini Omni, un nouveau modèle d'IA présenté lors de sa conférence annuelle I/O le 20 mai 2026. Le modèle est conçu pour générer et éditer des vidéos à partir de différents formats d'entrée, notamment le texte, les images et l'audio, en utilisant des instructions en langage naturel.
Selon l'annonce officielle de Google, Gemini Omni étend les capacités de la famille Gemini existante au-delà de la génération de texte et d'images vers la création vidéo. Les utilisateurs peuvent décrire une scène ou fournir un clip brut, et le modèle peut produire ou modifier le contenu vidéo en conséquence.
Le modèle prend en charge l'édition conversationnelle, permettant aux utilisateurs d'apporter des modifications itératives aux vidéos par le dialogue. Par exemple, un utilisateur pourrait demander de changer l'arrière-plan ou d'ajouter un objet, et l'IA ajusterait la vidéo en temps réel.
Google n'a pas encore précisé de date de sortie publique pour Gemini Omni, indiquant qu'il est actuellement en phase de test limitée. L'entreprise a mis l'accent sur des mesures de sécurité, notamment le filigrane et les filtres de contenu, pour prévenir les abus.