banner
Дом / Блог / Как работает искусственный интеллект Google Muse? Ан В
Блог

Как работает искусственный интеллект Google Muse? Ан В

Mar 30, 2023Mar 30, 2023

Откройте для себя магию Google Muse AI! В нашем подробном руководстве объясняется, как этот новаторский инструмент использует искусственный интеллект для стимулирования творчества и преобразования вашего цифрового опыта.

Google Muse AI — это передовая модель преобразования текста в изображение, которая может совершить революцию в области создания изображений. Эта инновационная модель утверждает, что она более эффективна и быстрее, чем ее конкуренты, такие как Imagen, DALL-E 2 и Parti.

Коллекция лучших инструментов искусственного интеллекта, которые можно использовать для различных задач.

В этом всеобъемлющем и углубленном обзоре мы рассмотрим внутреннюю работу Google Muse AI, его функции, технические характеристики и то, что отличает его от других инструментов искусственного интеллекта (ИИ), представленных на рынке.

Google Муза с искусственным интеллектом

Google Muse AI — это современная модель преобразования текста в изображение, в которой используется передовая архитектура на основе преобразователя. Эта модель разработана так, чтобы быть значительно более эффективной, чем существующие диффузионные модели, такие как Stable Diffusion и DALL-E 2, или авторегрессионные модели, такие как Google Parti.

Используя предварительно обученную модель большого языка (LLM) и дискретное пространство токенов, Muse AI обеспечивает более быстрое создание изображений и высококачественные выходные данные.

В области искусства, генерируемого искусственным интеллектом, наблюдаются замечательные достижения: такие инструменты, как DALL-E и Midjourney, привлекают значительное внимание. Google Muse AI — последнее дополнение к этому списку революционных инструментов, обещающее еще лучшие возможности и эффективность генерации изображений, чем его предшественники.

Эта модель была разработана исследователями из Google Research и может похвастаться рядом уникальных функций, которые ставят ее впереди конкурентов.

ИИ Muse обучен использовать встраивание текста, полученное от предварительно обученного LLM, языковой модели T5.

Этот подход позволяет Muse прогнозировать и генерировать токены изображений (части изображения) на основе текстовой подсказки, используя для создания изображений дискретные токены вместо пикселей.

Использование дискретных токенов Muse AI позволяет генерировать изображения с меньшим количеством итераций выборки или текстовых подсказок. Это приводит к более точному, эффективному и быстрому процессу создания изображения по сравнению с моделями диффузии в пространстве пикселей, такими как Imagen и DALL-E 2.

В отличие от традиционных моделей авторегрессии, таких как Parti, Muse AI использует архитектуру параллельного декодирования. Такой подход позволяет Muse создавать высококачественные изображения даже при меньшем размере выборки, что делает моделирование быстрее и эффективнее.

Muse AI использует большую языковую модель T5-XXL для понимания нюансов языка. Эта предварительно обученная языковая модель позволяет Muse понимать основной контекст и генерировать изображения высокой точности.

Он также понимает визуальные концепции, такие как объекты, их отношения с окружением, позу и мощность.

В этом разделе мы углубимся в технические аспекты Muse AI, выделив тип ее модели, используемую языковую модель, метод декодирования, подмодели и возможности.

Muse AI состоит из нескольких компонентных моделей, включая модель токенизатора VQGAN, базовую модель изображения в маске и модель преобразователя сверхвысокого разрешения на основе вложений T5-XXL.

Эти подмодели используются для кодирования и декодирования текстов, прогнозирования распределения токенов и повышения качества изображений с низким разрешением.

Пользователи, использующие Google Muse AI – изображение через Freepik

Google Muse AI может похвастаться несколькими примечательными особенностями, которые отличают его от других моделей генераторов текста в изображения, таких как DALL-E 2 и Midjourney. Некоторые из этих уникальных функций включают в себя:

Muse AI использует метод, называемый итеративной повторной выборкой токенов изображений, на основе заданных текстовых подсказок.

Такой подход позволяет модели вносить изменения в любую область изображения на основе текстовых подсказок без необходимости маскировать другие области. Эта возможность редактирования без маски и нулевого кадра отсутствует в таких моделях, как Midjourney и DALL-E 2.

Модель Muse 3B может генерировать изображение размером 512×512 всего за 1,3 секунды на TPUv4, что делает ее быстрее, чем любой другой инструмент для преобразования текста в изображение.