Jeudi, Stability AI a annoncé Stable Diffusion 3, un modèle de synthèse d'images de nouvelle génération à poids ouverts. Il suit ses prédécesseurs en générant des images détaillées et multi-sujets avec une qualité et une précision améliorées dans la génération de texte. La brève annonce n'était pas accompagnée d'une démo publique, mais Stability ouvre aujourd'hui une liste d'attente pour ceux qui souhaitent l'essayer.
Stability indique que sa famille de modèles Stable Diffusion 3 (qui prend des descriptions textuelles appelées « invites » et les transforme en images correspondantes) a une taille allant de 800 millions à 8 milliards de paramètres. La gamme de tailles permet à différentes versions du modèle de s'exécuter localement sur une Crumpa d'appareils, des smartphones aux serveurs. La taille des paramètres correspond à peu près à la capacité du modèle en termes de quantité de détails qu'il peut générer. Les modèles plus grands nécessitent également plus de VRAM sur les accélérateurs GPU pour fonctionner.
Depuis 2022, nous avons vu Stability lancer une progression de modèles de génération d'images IA : Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo et maintenant 3. Stability s'est fait un nom en offrant une alternative plus ouverte. aux modèles de synthèse d'images propriétaires comme le DALL-E 3 d'OpenAI, mais non sans controverse en raison de l'utilisation de données de formation protégées par le droit d'auteur, des biais et du potentiel d'abus. (Cela a conduit à des poursuites qui n'ont pas été résolues.) Les modèles de diffusion stable ont des poids ouverts et sont disponibles à la source, ce qui signifie que les modèles peuvent être exécutés localement et ajustés pour modifier leurs résultats.
En ce qui concerne les améliorations technologiques, Emad Mostaque, PDG de Stability, a écrit sur X : « Cela utilise un nouveau type de transformateur de diffusion (similaire à Sora) combiné à une adaptation de flux et à d'autres améliorations. Cela profite des améliorations du transformateur et peut non seulement évoluer davantage. mais acceptez les entrées multimodales.
Comme l'a dit Mostaque, la famille Stable Diffusion 3 utilise une architecture de transformateur de diffusion, qui est une nouvelle façon de créer des images avec l'IA qui remplace les blocs de construction d'images habituels (tels que l'architecture U-Net) par un système qui fonctionne sur de petits morceaux de l'image. La méthode s’inspire des transformateurs, qui sont efficaces dans la gestion des modèles et des séquences. Cette approche est non seulement efficace, mais produit également des images de meilleure qualité.
Stable Diffusion 3 utilise également la « correspondance de flux », une technique permettant de créer des modèles d'IA capables de générer des images en apprenant à passer en douceur d'un bruit aléatoire à une image structurée. Il le fait sans avoir besoin de simuler chaque étape du processus, mais en se concentrant plutôt sur la direction ou le flux global que la création de l'image doit suivre.
Nous n'avons pas accès à Stable Diffusion 3 (SD3), mais d'après les échantillons que nous avons trouvés publiés sur le site Web de Stability et les comptes de réseaux sociaux associés, les générations semblent à peu près comparables à d'autres modèles de synthèse d'images de pointe pour le moment, y compris DALL-E 3 susmentionné, Adobe Firefly, Imagine with Meta AI, Midjourney et Google Imagen.
SD3 semble très bien gérer la génération de texte dans les exemples fournis par d'autres, qui sont potentiellement triés sur le volet. La génération de texte était une faiblesse particulière des modèles de synthèse d'images précédents, donc une amélioration de cette capacité dans un modèle gratuit est un gros problème. De plus, la fidélité des invites (à quel point elle suit les descriptions dans les invites) semble être similaire à DALL-E 3, mais nous ne l'avons pas encore testé nous-mêmes.
Bien que Stable Diffusion 3 ne soit pas largement disponible, Stability indique qu'une fois les tests terminés, ses poids pourront être téléchargés et exécutés gratuitement localement. « Cette phase de prévisualisation, comme pour les modèles précédents », écrit Stability, « est cruciale pour recueillir des informations permettant d'améliorer ses performances et sa sécurité avant une version ouverte. »
Stability a récemment expérimenté diverses architectures de synthèse d’images. Outre SDXL et SDXL Turbo, la semaine dernière, la société a annoncé Stable Cascade, qui utilise un processus en trois étapes pour la synthèse texte-image.
Image de la liste par Emad Mostaque (Stability AI)