Le 15 février 2024 vers 19h, OpenAI — la société qui fait le plus parler d'elle depuis ces deux dernières années — a annoncé son modèle d'IA de génération de vidéos nommé Sora. Cette présentation a eu l'effet d'une bombe dans le milieu, tant le saut est grand entre ce modèle et les précédents connus l'année dernière.
Sora, le nouveau messie de la génération de vidéos
C'est par ce tweet qu'OpenAI présente son nouveau modèle d'IA qui s'attaque cette fois-ci à la génération de vidéos, un domaine sur lequel l'entreprise ne s'était pas encore aventurée, mais qui devait être forcément exploré à un moment ou à un autre pour pouvoir atteindre le stade de l'AGI (Intelligence Artificielle Générale), c'est-à-dire une IA capable de tout faire en un seul modèle, en somme, un véritable JARVIS.
Des vidéos époustouflantes
Les vidéos présentées sous le tweet ou sur le site internet sont tout simplement renversantes et créent même un sentiment assez étrange qu'un stade important dans la génération de vidéos a été franchi.
Le modèle possède une compréhension approfondie du langage, ce qui lui permet d'interpréter avec précision les prompts et de générer des personnages convaincants qui expriment des émotions vibrantes. Sora peut également créer plusieurs plans dans une seule vidéo générée qui conservent précisément les personnages et le style visuel. — OpenAI
Des générations encore perfectibles
Certes, des améliorations restent à apporter, mais lorsque l'on compare la différence entre ce qu'il y avait il y a tout juste un an et maintenant, on comprend très vite la rapidité d'évolution de l'IA.
Le modèle actuel présente des faiblesses. Il peut avoir du mal à simuler avec précision la physique d’une scène complexe et ne pas comprendre des cas spécifiques de cause à effet. Par exemple, une personne peut mordre dans un cookie, mais par la suite, le cookie peut ne pas avoir de marque de morsure.Le modèle peut également confondre les détails spatiaux d'un prompt, par exemple en mélangeant la gauche et la droite, et peut avoir du mal à décrire avec précision les événements qui se déroulent au fil du temps, comme suivre une trajectoire de caméra spécifique. — OpenAI
Voici par exemple certaines vidéos dont le rendu laisse encore à désirer, donc le pire rendu possible :
Voici maintenant ce que l’on avait il y a tout juste 10 mois, il s’agissait l’un dès premiers modèles du genre créé par stable diffusion :
Une priorité mise sur la sécurité
À cet égard, OpenAI a précisé être en cours de peaufinage du modèle pour éviter toute dérive grâce à une équipe spécialisée, un bon point qui permettra de réduire la possibilité de créer des infox dans une année charnière pour les États-Unis, les élections ayant lieu à la fin de l'année. Ils ont aussi mentionné l'utilisation de la norme C2PA qui permet aux éditeurs, aux entreprises et à d'autres d'intégrer des métadonnées dans des médias pour vérifier leur origine et les informations associées. À cela, nous pouvons aussi remarquer la présence d’un filigrane situé en bas à droite des vidéos qui permettent de préciser qu’il s’agit d’une vidéo générée par IA, un bon point dont les gouvernements doivent obliger son utilisation comme cela a été voté dans l’union européenne afin d’éviter les détournements ou à minima servir de preuve de mauvaise foi pour la justice.
Nous prendrons plusieurs mesures de sécurité importantes avant de rendre Sora disponible dans les produits OpenAI. Nous travaillons avec des équipes rouges – des experts dans des domaines tels que la désinformation, les contenus haineux et les préjugés – qui testeront le modèle de manière contradictoire.Nous développons également des outils pour aider à détecter les contenus trompeurs, tels qu'un classificateur de détection capable de déterminer quand une vidéo a été générée par Sora. Nous prévoyons d'inclure les métadonnées C2PA à l'avenir si nous déployons le modèle dans un produit OpenAI. — OpenAI
Beaucoup de secteurs vont être touchés
Un coup dur pour les banques d’images
Déjà engagées dans une lutte pour survivre face à la génération d'images avec Midjourney (le plus impressionnant), SDXL (gratuit et open source) et DALL⋅E 3 (facile à implémenter), les banques d'images et de vidéos vont désormais devoir faire face à la génération de vidéos, un défi auquel ils ne s'attendaient peut-être pas si tôt. Alors que le prix des vidéos de présentation pour les entreprises peut être très élevé, avec un minimum de 230€ pour cinq vidéos en format SD ou 89€/mois sur Shutterstock, c'est un défi de taille qui les attend, les forçant probablement à réduire les prix de leurs actifs ou à créer leurs propres modèles, même s'ils seront probablement de moindre qualité. En tout cas, une chose est sûre, cela offre une multitude de possibilités pour les créatifs qui se trouvent alors libérés des contraintes imposées par un simple stock de possibilités pour réaliser à leur guise la vidéo parfaite qui correspond le mieux à leur imagination.
Les plus affectés ne sont pas forcément ceux auxquels vous pensez
Beaucoup de personnes pourraient penser que cela va détruire de nombreux emplois de monteurs vidéo, de réalisateurs ou d'autres artistes. Marques Brownlee — le plus grand youtubeur tech au monde — évoque plutôt les emplois de pilote de drone, par exemple, pour une vidéo de paysage aérien, et c'est un point sur lequel je suis d'accord. Il faudra toujours quelqu'un pour diriger l'idée vers laquelle on veut tendre, que ce soit pour un séminaire, une publicité ou même un court-métrage. Il faut quelqu'un qui donne la direction à suivre pour arriver au résultat souhaité, et cette personne ne peut pas être remplacée par une IA, car celle-ci ne fait que reproduire une idée et ne peut pas transmettre une vision et une idée propre à l'humain. En d'autres termes, une IA ne peut pas être humaniste pour l'instant et doit donc exécuter les actions demandées. Ce sont donc les "techniciens de l'art" qui seront impactés, comme les caméramans, perchmans, dronistes et autres, des métiers qui pourront être automatisés puisqu'ils consistent à suivre les ordres du réalisateur. Seuls les chefs de chaque section pourront rester grâce à leurs connaissances approfondies qui permettront d'améliorer la qualité du rendu.