Cela fait environ un an que la frénésie autour de la génération par les IA a débuté, avec en premier lieu la distribution en bêta publique de DALL⋅E 2, suivie de la disponibilité de Midjourney sur Discord. Ainsi, il est temps aujourd'hui d'examiner les avancées et les outils de génération d'images par IA à l'approche de la fin de l'été 2023.

Parmi les deux modèles d'IA destinés à la génération d'images, c'est Midjourney qui a émergé victorieux de cette compétition. En revanche, DALL⋅E a cessé de recevoir des mises à jour et a progressivement été distancé par ses concurrents, qui le surpassent dans tous les domaines. C'est pourquoi je ne vais pas aborder ce dernier, car il ne conserve plus sa pertinence dans ce monde très rapide et concurrentiel de l'intelligence artificielle.

Midjourney V5 est extremement bluffant

C'est probablement la meilleure IA de génération d’image à l’heure actuelle : Midjourney, avec sa version 5 a réussi à passer le stade compliquer de la génération des mains, qui jusque-là, était l’un des obstacles les plus difficiles à réaliser. L’IA est aussi devenue incroyablement impressionnante sur la génération de portraits photoréaliste qui était il y a un an son principal défaut. Enfaite, il est devenu tellement précis sur ce point si qu’il est maintenant vraiment très difficile de voir la différence avec la réalité. Alors que les autres IA réalisent encore des visages parfaitement lisses et sans défaut, Midjourney lui en est à la phase d’ajout de défaut pour que les images paraissent moins irréelles. Pour le côté illustration / abstrait, l’IA est bien sûre toujours excellente avec une meilleure retranscription du prompt en image, c’est d’ailleurs l’un des avantages avec Midjourney : il n’y a pas besoin de faire de longues phrases avec des virgules, des synonymes, des détails précis et des prompts négatifs, l'IA se débrouille très bien avec une simple phrase à faire une image splendide.

Historique des versions de Midjourney, source : Reddit

Le problème avec Midjourney

Alors oui, Midjourney est la meilleure IA de génération d’images, mais cela a un coût (littéralement) : comptez 10 € par mois ou 8 € par mois si vous optez pour le paiement annuel sur l’offre la plus basse. C’est un peu cher quand on sait qu’on ne peut que réaliser des images et rien d’autre, bien que récemment la possibilité d’étendre et de dézoomer soit apparue. C’est d’ailleurs l’un des plus gros problèmes actuels avec ce produit : on ne peut pas faire de modification d’images comme DALL·E 2, ni de suppression de background ou de texte, ou bien d’autres fonctionnalités proposées par d’autres concurrents, comme nous le verrons plus tard. À cela s’ajoute le plus gros défaut selon moi… c’est sur Discord uniquement… Je vous avoue ne toujours pas comprendre pourquoi ils n’ont toujours pas fait de site dédié pour la génération d’images comme tous les autres concurrents. Je veux bien comprendre que ce soit des chercheurs qui travaillent dessus, et qu’ils ne sont pas spécialisés dans la création de site, mais bon, ce n’est pas non plus comme s’ils n’avaient pas d’argent pour se payer une petite équipe de programmeurs. Selon moi, le problème vient sûrement du nombre d’utilisateurs qui serait élevé, ce qui coûterait alors beaucoup en serveurs. Le choix d’aller sur Discord permet ainsi de déporter le problème à Discord même, qui doit se charger de gérer tout le trafic. On se retrouve donc avec une interface extrêmement limitée puisqu’il ne s’agit que de texte à saisir et quelques boutons actionnables après le résultat, ce qui est loin des sites avec la possibilité de choisir directement le style, régler à la souris la taille de l’image puis faire des modifications dans l’image avec un pinceau, etc.

Étant donné que toutes les IA vont un jour arrivé à un plafond de verre et que les différences seront de plus en plus minimes, je vous avoue donc préférer attendre, attendre soit qu’ils sortent un site, soit qu’un concurrent devienne vraiment intéressant… et justement, il y en a un qui commence à vraiment se démarquer.

Stable Diffusion XL arrive en force

Il y a un an, au moment où DALL⋅E 2 et Midjourney se disputaient la vedette, et que tout le monde réalisait des comparatifs pour déterminer lequel était le meilleur, un petit nouveau était également né avec une vision axée sur l'open source. Je ne vais pas vous mentir, l'évolution de Stable Diffusion, comme il était appelé, a été lente. En contraste avec les avancées fulgurantes de Midjourney, on pourrait même dire que le processus a été laborieux. Cependant, comme c'est souvent le cas, l'open source reste le meilleur allié des programmeurs et cela comporte un avantage majeur : la gratuité. En effet, le modèle d'IA peut être hébergé sur un ordinateur et exécuté à l'aide d'une "simple" carte graphique. Stable Diffusion a été particulièrement apprécié par les développeurs, ce qui a conduit à la création de nombreux modèles pré-entraînés offrant des résultats diversifiés. Parallèlement, des outils très performant comme ControlNet ont vu le jour. Pour ceux qui ne sont pas familiers avec ControlNet, en simplifiant, il s'agit d'une avancée majeure dans l'histoire de la génération d'images par IA. Il permet notamment d'obtenir une structure de base d'une image, que l'on peut ensuite réutiliser pour générer une autre image avec des traits identiques. Bien entendu, l'outil propose de nombreuses autres fonctionnalités, mais nous allons nous arrêter là pour cet article.

L'entreprise Stability Ai, à l'origine de Stabilité Diffusion, a poursuivi ses avancées dans le domaine de l'IA avec Stabilité Diffusion 2, qui s'est avéré nettement supérieur, mais qui a rencontré des difficultés à s'adapter aux différents outils considérés comme trop précieux pour être abandonnés, à l'instar de ControlNet. L'IA ne sera d'ailleurs plus mise à jour après la version 2.1, car l'entreprise était alors en train de préparer son prochain modèle nettement plus puissant : Stabilité Diffusion XL (SDXL). Celui-ci sera d'abord disponible en version bêta pour les chercheurs, puis sera lancé en version 1.0 le 26 juillet 2023. Ce modèle se révèle nettement plus convaincant et commence à rivaliser, sur certains aspects, notamment en ce qui concerne la qualité de Midjourney.

Les sites de générations d’images

En résumé, même si Stable Diffusion n'est peut-être pas le meilleur, il commence doucement mais sûrement à susciter un intérêt croissant. L'avantage de sa nature open source réside dans le fait que d'autres sites peuvent l'adopter. En conséquence, une multitude de plateformes proposent désormais des générations d'images, améliorées par leurs propres modèles boostés grâce à Stable Diffusion. Ces sites intègrent souvent un système de jetons régénérés quotidiennement, permettant aux utilisateurs de profiter de ces générations.

Voici mes sites de génération d'images préférés, dont je vais vous expliquer les différences de chacun :

Clipdrop

Créez des visuels époustouflants en quelques secondes grâce à l’IA.
Suppression de l’arrière-plan, nettoyage des images, mise à l’échelle, diffusion stable et plus encore…

C'est l'un des sites de Stability Ai, disponible gratuitement avec des restrictions en termes de résolution d'images. Il se distingue particulièrement en proposant, moyennant un abonnement mensuel de 9 € (ou 7 € par mois avec l'offre annuelle), la plus vaste gamme d'outils de correction et de génération d'images que je connaisse : Les services proposés comprennent le nettoyage et l'agrandissement d'images, l'ajustement de l'éclairage, la suppression et le remplacement d'arrière-plan, la création de variantes avec SDXL, la création d’image avec SDXL, la suppression de texte, le recadre d’images ou encore la création d’image avec un dessin au crayon. Son principal inconvénient réside dans l'absence d'historique des images générées ou modifiées, ainsi que dans la limitation aux modèles de base de Stable Diffusion XL. Cependant, il propose des préréglages de styles et de ratios d'images variés, avec une interface de grande qualité.

Tensor.art

https://tensor.art/

C'est le dernier que j'ai d←couvert, et il s'agit tout simplement d'un paradis pour les personnes un peu plus expertes dans la r←alisation d'images par IA, mais qui ne poss│dent pas de puissantes cartes graphiques. Le site permet d'utiliser un grand nombre de mod│les diff←rents, allant de SDXL ¢ DreamShaper, en passant par RealCartoon et une infinit← d'autres mod│les pour chaque type d'utilisation. Ce qui fait la force de ce site, en plus d'une grande biblioth│que de mod│les que l'on peut h←berger soi-m↑me pour que les autres utilisateurs les utilisent, c'est la possibilit← d'ajouter des LoRa et de les combiner pour obtenir le r←sultat le plus proche possible, on peux ajouter ¢ cela le classique ControlNet, un upscaler, et la possibilité de faire du image to image. En fait, le modèle économique de Tensor.art est totalement différent des autres sites : ici, chaque utilisateur possède 100 crédits par jour (une génération coûtant 1 crédit), à cela s'ajoute la possibilité de gagner 200 crédits si l'on invite quelqu'un et que celui-ci génère au moins une image. Et surtout, on peut héberger un modèle d'IA qui fera gagner 0.1 crédit par utilisation, avec un maximum de 200 crédits par jour. À titre d'information, les modèles les plus utilisés sont à 800 000 utilisations. Je vous avoue que cela fait quelques jours que j'utilise principalement ce site. Le nombre de possibilités est vraiment plus intéressant, et je pense vous en faire un article bientôt.

Leonardo AI

Leonardo.ai
Generate production quality assets for your creative projects with AI-driven speed and style-consistency.

Il s'agit d'un nouvel acteur sur le marché, proposant une interface complète permettant d'utiliser des modèles préenregistrés ou même de former ses propres modèles. De plus, il offre la possibilité d'intégrer ControlNet, ainsi que des fonctionnalités permettant d'obtenir des résultats de meilleure qualité. Sa version gratuite propose une utilisation limitée avec 150 jetons par jour et des générations d'images coûtant de 1 à 20 jetons en fonction des paramètres choisis. L'offre payante, quant à elle, est de 12 € par mois, ou 10 € par mois avec l'abonnement annuel. Cela vaut la peine si vous souhaitez utiliser toutes les fonctionnalités offertes par Stable Diffusion (Outpainting, ControlNet, plusieurs modèles) en illimité. Personnellement, je considère que c'est l'offre la plus attrayante pour la génération pure d'images. Si vous recherchez une multitude de fonctionnalités pour la manipulation d'images, optez plutôt pour Clipdrop. Cependant, si vous êtes principalement intéressé par la génération d'images, alors Leonardo est excellent.

Playground AI

Playground AI
Playground AI is a free-to-use online AI image creator. Use it to create art, social media posts, presentations, posters, videos, logos and more.

Tout comme Leonardo AI, Playground bénéficie d'une interface excellente. En fait, ces deux sites présentent des similitudes assez marquées. Cependant, Playground offre nettement moins d'options de personnalisation et son abonnement payant à 15 € par mois semble clairement excessif. Néanmoins, l'offre gratuite est, en revanche, extrêmement satisfaisante, avec la possibilité de générer près de 1000 images par jour. En termes d'offres, on pourrait dire que Playground est à l'opposé de Leonardo.

DreamStudio

DreamStudio

DreamStudio est le site officiel de StabilityAI. Il offre 25 crédits lors de la création d'un compte, et il semble qu'il ajoute quotidiennement 25 crédits sans nécessiter de connexion. Personnellement, j'avais accumulé plus de 1000 crédits en moins d'un an depuis l'ouverture de mon compte. De plus, il est possible d'acheter 1000 crédits pour 10 €, et chaque génération d'image avec SDXL 1.0 nécessite 1.6 crédit. En ce qui concerne l'interface, elle est assez minimaliste (cependant, supérieure à celle de Midjourney), se divisant en deux parties : génération et inpainting / outpainting, similaire à Playground. Néanmoins, DreamStudio propose un peu plus de personnalisation, offrant une variété de styles et une option avancée. De plus, il a l'avantage de proposer les nouvelles fonctionnalités en avant-première, étant le site officiel (par exemple, Leonardo AI n'a toujours pas SDXL 1.0). Cependant, il est important de noter que Playground AI permet de générer davantage d'images gratuitement, tandis que Leonardo AI propose un éventail plus large de fonctionnalités.

Les galeries d'images

À cela s'ajoute une vaste communauté d'utilisateurs qui partagent volontairement ou parfois par obligation des contenus gratuits, exposés sur des plateformes de galeries d'images. À cette occasion, j'ai sélectionné quatre sites que vous pouvez librement explorer pour découvrir les possibilités offertes par Stable Diffusion de nos jours :

PromptHero

PromptHero - Search prompts for Stable Diffusion, ChatGPT & Midjourney
The #1 website for Artificial Intelligence and Prompt Engineering. Search the world’s best AI prompts for models like Stable Diffusion, ChatGPT, Midjourney…

Playground AI

Free AI image generator: Art, Social Media, Marketing | Playground AI
Playground AI is a free-to-use online AI image creator. Use it to create art, social media posts, presentations, posters, videos, logos and more.

Mage

Mage 🧙 | Explore
The explore page for Mage.

Lexica

Lexica
The Stable Diffusion search engine

Adobe et son nouveau-né : Firefly

Le dernier acteur à se lancer dans la course des IA génératives est Adobe qui  — après la poursuite en justice de Getty Image envers Stability IA qui avait avoué utilisé des image sous licences de leurs site —  a décidé de présenter son propre modèle, basé sur un vaste ensemble d'images libres de droits ou du domaine public qu'ils détiennent grâce à Adobe Stock. L'entreprise possède également Behance, bien que l'on ne sache pas si les images de cette plateforme sont également utilisées pour l'entraînement de leur modèle. Cependant, le site propose tout de même une galerie d'images générées avec Adobe Firefly.

En ce qui concerne la disponibilité de cette IA, c'est là que la magie d'Adobe entre en jeu : outre un site dédié qui permet d'effectuer diverses opérations similaires à Clipdrop, l'IA est surtout accessible via la version bêta de Photoshop. Cette intégration permet d'aller encore plus loin avec ce qui est généralement considéré comme la meilleure application de retouche photo sur le marché. La facilité d'utilisation dans l'application permet de réaliser facilement de l'outpainting sans avoir à recourir à des copier-coller ou à des transferts depuis d'autres applications externes. L'IA permet également de réaliser de l'inpainting, ce qui remplace les méthodes basiques de copie de textures utilisées jusqu'à présent.

Enfin, les créateurs qui s'inquiètent de l'utilisation de leurs images libres de droits sur Adobe Stock seront rassurés de savoir qu'ils peuvent choisir de ne pas autoriser l'utilisation de leurs œuvres pour l'entraînement de Firefly.Comparaison

Comparaison

Pour finir sur cet article, je vous propose de regarder cette vidéo de comparaison entre Midjourney V5 et Stable Diffusion 1.0 :

Comparaison entre SDXL 1.0 et Midjourney 5