Home AI Research Le programme “Muse” de Google crée des images IA de haute qualité...

Le programme “Muse” de Google crée des images IA de haute qualité à une vitesse record

27
0

résumé
résumé

Le nouveau modèle de texte à image “Muse” de Google crée des images de haute qualité à une vitesse record. Il est également destiné à représenter des textes et des concepts dans des images de manière plus fiable.

Des chercheurs de Google Research ont introduit “Muse”, une image générative basée sur un transformateur qui produit des images comparables aux modèles existants, mais qui serait “nettement plus efficace” que les modèles de diffusion actuels tels que Stable Diffusion et DALL-E 2 ou la régression automatique. des modèles comme celui de Google.

Qualité similaire, mais beaucoup plus rapide

Muse est aussi performant que Stable Diffusion 1.4 et les concurrents internes de Google Parti-3B et Imagen en termes de qualité, de polyvalence et d’alignement du texte des images générées.

Comparaison des invites et des images générées entre Muse, Imagen et DALL-E 2. | image : recherche google

Cependant, Moïse est beaucoup plus rapide. Avec Temps de génération 1,3 seconde par image (512 x 512)L’IA d’image surpasse clairement le système d’IA d’image le plus rapide, Stable Diffusion 1.4, avec 3,7 secondes.

un d

On dit que AI Muse Image de Google produit des images AI plus rapidement que les systèmes existants avec la même qualité. | image : recherche google

L’équipe a obtenu l’avantage de la vitesse en utilisant un espace latent compressé discret et un décodage parallèle. Pour comprendre le texte, un fichier est utilisé Modèle linguistique T5 Auparavant formé aux tâches de texte à texte. Selon l’équipe, Muse gère une invite de texte dans son intégralité plutôt que de se concentrer uniquement sur des mots particulièrement importants.

Par rapport aux modèles de diffusion dans l’espace pixel, tels que Imagen et DALL-E 2, Muse est nettement plus efficace en raison de l’utilisation de jetons séparés et nécessite moins d’itérations d’échantillonnage ; Comparé aux modèles autorégressifs, tels que Parti, Muse est plus efficace grâce à l’utilisation du décodage parallèle. L’utilisation de LLM pré-formés permet une compréhension précise du langage, une traduction en génération d’images haute résolution et une compréhension des concepts visuels tels que les objets, leurs relations spatiales, leur position, leur relation de base, etc.

à court de papier

La nouvelle structure permet une Une collection d’applications de retouche photo Sans réglage supplémentaire ni reflet du modèle. Au sein d’une image, les objets peuvent être remplacés ou modifiés par simple invite, sans masquage.

Les propres modes de traitement d’image de Muse, que le modèle permet sans aucun réglage fin. | image : recherche google

Dans une évaluation par des testeurs humains, les images de Musa ont été jugées plus adaptées à la saisie de texte que celles de Stable Diffusion 1.4 dans environ 70 % des cas.

Dans les évaluations humaines, Muse a obtenu de meilleurs résultats que Stable Diffusion 1.4. | image : recherche google

On dit aussi que Muse est au-dessus de la moyenne à Fusionner des mots prédéfinis en imagesComme un T-shirt qui dit “Carpe Diem”. De plus, la Muse est censée être précise sur le plan de la composition, c’est-à-dire qu’elle affiche des éléments d’image prédéfinis dans l’invite avec des nombres, des positions et des couleurs plus précis. Cela ne fonctionne souvent pas avec les systèmes d’IA photo existants.

Un aperçu des avantages qualitatifs de Muse. | image : recherche google

D’autres exemples de photos sont disponibles sur le site Web du projet. Les chercheurs et Google lui-même n’ont pas encore commenté une éventuelle publication du modèle d’image pour concurrencer DALL-E 2 ou Midjourney d’OpenAI. Actuellement, Imagen de Google n’est disponible qu’en version bêta, limitée aux États-Unis.

recommandation

Google Maps : la technologie d'intelligence artificielle permet une vue 3D de la rue
Google Maps : la technologie d'intelligence artificielle permet une vue 3D de la rue

Comme il est courant dans les travaux scientifiques sur les systèmes d’IA de langage et d’image de nos jours, l’équipe de Muse note que selon le cas d’utilisation, il existe un “potentiel de préjudice”, comme la reproduction de préjugés sociaux ou la diffusion de fausses informations. Pour cette raison, l’équipe s’abstient de rendre le code et la démo accessibles au public. En particulier, l’équipe a noté les dangers de l’utilisation de modèles d’images d’IA pour générer des personnes, des humains et des visages.

Previous articleGoogle a annoncé la prise en charge officielle d’Android pour RISC-V
Next articleApple publie des livres audio racontés par l’IA, et c’est probablement le début d’une tendance

LEAVE A REPLY

Please enter your comment!
Please enter your name here