Последние новости

4 темы для обсуждения после победы «Майами Хит» над «Денвер Наггетс» во второй игре финала НБА

6 лучших сетевых фильтров и удлинителей 2023 года по мнению экспертов

Oct 24, 2023

ACME Lithium наращивает темпы испытаний на откачку после установки испытательной скважины TW

May 24, 2023

Мероприятие Американского онкологического общества «Эстафета за жизнь» в DeBartolo Commons в Бордмане, штат Огайо, включает ужин и автомобильный круиз.

Apr 13, 2023

Эми Джаст: эстафетная команда «Золушка» Небраски; душераздирающие новости Хоффмана; обновление путешественника

Apr 17, 2023

Как работает искусственный интеллект Google Muse? Ан В

Mar 30, 2023

Откройте для себя магию Google Muse AI! В нашем подробном руководстве объясняется, как этот новаторский инструмент использует искусственный интеллект для стимулирования творчества и преобразования вашего цифрового опыта.

Google Muse AI — это передовая модель преобразования текста в изображение, которая может совершить революцию в области создания изображений. Эта инновационная модель утверждает, что она более эффективна и быстрее, чем ее конкуренты, такие как Imagen, DALL-E 2 и Parti.

Коллекция лучших инструментов искусственного интеллекта, которые можно использовать для различных задач.

В этом всеобъемлющем и углубленном обзоре мы рассмотрим внутреннюю работу Google Muse AI, его функции, технические характеристики и то, что отличает его от других инструментов искусственного интеллекта (ИИ), представленных на рынке.

Google Муза с искусственным интеллектом

Google Muse AI — это современная модель преобразования текста в изображение, в которой используется передовая архитектура на основе преобразователя. Эта модель разработана так, чтобы быть значительно более эффективной, чем существующие диффузионные модели, такие как Stable Diffusion и DALL-E 2, или авторегрессионные модели, такие как Google Parti.

Используя предварительно обученную модель большого языка (LLM) и дискретное пространство токенов, Muse AI обеспечивает более быстрое создание изображений и высококачественные выходные данные.

В области искусства, генерируемого искусственным интеллектом, наблюдаются замечательные достижения: такие инструменты, как DALL-E и Midjourney, привлекают значительное внимание. Google Muse AI — последнее дополнение к этому списку революционных инструментов, обещающее еще лучшие возможности и эффективность генерации изображений, чем его предшественники.

Эта модель была разработана исследователями из Google Research и может похвастаться рядом уникальных функций, которые ставят ее впереди конкурентов.

ИИ Muse обучен использовать встраивание текста, полученное от предварительно обученного LLM, языковой модели T5.

Этот подход позволяет Muse прогнозировать и генерировать токены изображений (части изображения) на основе текстовой подсказки, используя для создания изображений дискретные токены вместо пикселей.

Использование дискретных токенов Muse AI позволяет генерировать изображения с меньшим количеством итераций выборки или текстовых подсказок. Это приводит к более точному, эффективному и быстрому процессу создания изображения по сравнению с моделями диффузии в пространстве пикселей, такими как Imagen и DALL-E 2.

В отличие от традиционных моделей авторегрессии, таких как Parti, Muse AI использует архитектуру параллельного декодирования. Такой подход позволяет Muse создавать высококачественные изображения даже при меньшем размере выборки, что делает моделирование быстрее и эффективнее.

Muse AI использует большую языковую модель T5-XXL для понимания нюансов языка. Эта предварительно обученная языковая модель позволяет Muse понимать основной контекст и генерировать изображения высокой точности.

Он также понимает визуальные концепции, такие как объекты, их отношения с окружением, позу и мощность.

В этом разделе мы углубимся в технические аспекты Muse AI, выделив тип ее модели, используемую языковую модель, метод декодирования, подмодели и возможности.

Muse AI состоит из нескольких компонентных моделей, включая модель токенизатора VQGAN, базовую модель изображения в маске и модель преобразователя сверхвысокого разрешения на основе вложений T5-XXL.

Эти подмодели используются для кодирования и декодирования текстов, прогнозирования распределения токенов и повышения качества изображений с низким разрешением.

Пользователи, использующие Google Muse AI – изображение через Freepik

Google Muse AI может похвастаться несколькими примечательными особенностями, которые отличают его от других моделей генераторов текста в изображения, таких как DALL-E 2 и Midjourney. Некоторые из этих уникальных функций включают в себя:

Muse AI использует метод, называемый итеративной повторной выборкой токенов изображений, на основе заданных текстовых подсказок.

Такой подход позволяет модели вносить изменения в любую область изображения на основе текстовых подсказок без необходимости маскировать другие области. Эта возможность редактирования без маски и нулевого кадра отсутствует в таких моделях, как Midjourney и DALL-E 2.

Модель Muse 3B может генерировать изображение размером 512×512 всего за 1,3 секунды на TPUv4, что делает ее быстрее, чем любой другой инструмент для преобразования текста в изображение.

Предыдущий: Vision Transformers преодолевают трудности с новым патчем Следующий: Эстафетная команда Спрингфилда получила компенсацию и дважды поднялась на подиум после дисквалификации в прошлом году

Отправить запрос

Отправлять