Video : Comment marche MidJourney

AI / IATEST2IMAGE

Bonjour et bienvenu dans cette vidéo,

je vais vous montrer comment les outils de génération d’images à partir de textes, comme MidJourney, DALL-E ou Stable Diffusion, produisent leur images. Ces intelligences artificielles ont été entrainées sur un volume d'images considérables, on imagine prises sur internet sans forcément respecter les droits d'auteur.

Pour chaque image du bruit est artificiellement ajouté et on entraîne l'intelligence artificielle à enlever le bruit pour retrouver l'image d'origine, c'est un apprentissage supervisé. Au fur et à mesure que le modèle a réussit son débruitage, on recommence avec un peu plus de bruit qu'avant et ainsi de suite. Les images sont aussi associées à une description textuelle de cette dernière. Lorsque cet entraînement laborieux, mais automatique, a été fait sur un nombre considérable d'images, l'intelligence artificielle est prête.

Lorsque l'on veut générer une nouvelle image, cela consiste a donner à l'IA une description de l'image, c'est le prompt de l'utilisateur, comme pour cette image "landscape, science fiction, foreign planet, in style of forbidden planet movie, photo realistic" et on donne également au modèle une image entièrement composée de bruit aléatoire. L'IA supprime le bruit progressivement en plusieurs passes jusqu’à obtention de l'image finale, c'est la méthode de diffusion. L'IA travaille sur des images de taille réduite et la dernière est agrandie pour être présentée à l'utilisateur comme le résultat final. Pour que ce que nous venons de décrire marche bien, il faut utiliser les mêmes techniques d'intelligence artificielle adaptées au traitement du langage naturel qu'utilise ChatGPT. Voire la vidéo qui explique comment cela marche ici.

La phrase descriptive, le prompt, est donc transformé en "Token" et c'est ces éléments numériques qui sont réellement utilisés par notre algorithme de diffusion en lieu et place du texte.

Finalement pour résumer, il s'agit d'un algorithme de débruitage d'image qui est guidé par la description de l'image à débruiter. Il sait faire cela si bien qu'il est même capable de débruiter une image entièrement constituée de bruit en se basant uniquement sur la description de cette image. En quelque sorte il hallucine l'image.

Le résultat final dépend de l'image bruitée en entrée. Dans MidJourney une image générée est représentée par une graine, "seed" en anglais. Cette graine représente de manière unique l'image bruitée en entrée. Ainsi pour proposer 4 images différentes MidJourney utilise 4 seeds qui produisent 4 images bruitées différentes, qui donneront donc quatre résultats différents. On comprend mieux pourquoi OpenAI édite en même temps ChatGPT et DALL-E car les connaissances pour faire un générateur d'image par diffusion nécessitent également de savoir traiter du langage naturel, comme sait le faire ChatGPT.

Video : Comment marche MidJourney

S'abonner à la newsletter