4 темы для обсуждения после победы «Майами Хит» над «Денвер Наггетс» во второй игре финала НБА
Jun 07, 20236 лучших сетевых фильтров и удлинителей 2023 года по мнению экспертов
Oct 24, 2023ACME Lithium наращивает темпы испытаний на откачку после установки испытательной скважины TW
May 24, 2023Мероприятие Американского онкологического общества «Эстафета за жизнь» в DeBartolo Commons в Бордмане, штат Огайо, включает ужин и автомобильный круиз.
Apr 13, 2023Эми Джаст: эстафетная команда «Золушка» Небраски; душераздирающие новости Хоффмана; обновление путешественника
Apr 17, 2023Как работает искусственный интеллект Google Muse? Ан В
Откройте для себя магию Google Muse AI! В нашем подробном руководстве объясняется, как этот новаторский инструмент использует искусственный интеллект для стимулирования творчества и преобразования вашего цифрового опыта.
Google Muse AI — это передовая модель преобразования текста в изображение, которая может совершить революцию в области создания изображений. Эта инновационная модель утверждает, что она более эффективна и быстрее, чем ее конкуренты, такие как Imagen, DALL-E 2 и Parti.
Коллекция лучших инструментов искусственного интеллекта, которые можно использовать для различных задач.
В этом всеобъемлющем и углубленном обзоре мы рассмотрим внутреннюю работу Google Muse AI, его функции, технические характеристики и то, что отличает его от других инструментов искусственного интеллекта (ИИ), представленных на рынке.
Google Муза с искусственным интеллектом
Google Muse AI — это современная модель преобразования текста в изображение, в которой используется передовая архитектура на основе преобразователя. Эта модель разработана так, чтобы быть значительно более эффективной, чем существующие диффузионные модели, такие как Stable Diffusion и DALL-E 2, или авторегрессионные модели, такие как Google Parti.
Используя предварительно обученную модель большого языка (LLM) и дискретное пространство токенов, Muse AI обеспечивает более быстрое создание изображений и высококачественные выходные данные.
В области искусства, генерируемого искусственным интеллектом, наблюдаются замечательные достижения: такие инструменты, как DALL-E и Midjourney, привлекают значительное внимание. Google Muse AI — последнее дополнение к этому списку революционных инструментов, обещающее еще лучшие возможности и эффективность генерации изображений, чем его предшественники.
Эта модель была разработана исследователями из Google Research и может похвастаться рядом уникальных функций, которые ставят ее впереди конкурентов.
ИИ Muse обучен использовать встраивание текста, полученное от предварительно обученного LLM, языковой модели T5.
Этот подход позволяет Muse прогнозировать и генерировать токены изображений (части изображения) на основе текстовой подсказки, используя для создания изображений дискретные токены вместо пикселей.
Использование дискретных токенов Muse AI позволяет генерировать изображения с меньшим количеством итераций выборки или текстовых подсказок. Это приводит к более точному, эффективному и быстрому процессу создания изображения по сравнению с моделями диффузии в пространстве пикселей, такими как Imagen и DALL-E 2.
В отличие от традиционных моделей авторегрессии, таких как Parti, Muse AI использует архитектуру параллельного декодирования. Такой подход позволяет Muse создавать высококачественные изображения даже при меньшем размере выборки, что делает моделирование быстрее и эффективнее.
Muse AI использует большую языковую модель T5-XXL для понимания нюансов языка. Эта предварительно обученная языковая модель позволяет Muse понимать основной контекст и генерировать изображения высокой точности.
Он также понимает визуальные концепции, такие как объекты, их отношения с окружением, позу и мощность.
В этом разделе мы углубимся в технические аспекты Muse AI, выделив тип ее модели, используемую языковую модель, метод декодирования, подмодели и возможности.
Muse AI состоит из нескольких компонентных моделей, включая модель токенизатора VQGAN, базовую модель изображения в маске и модель преобразователя сверхвысокого разрешения на основе вложений T5-XXL.
Эти подмодели используются для кодирования и декодирования текстов, прогнозирования распределения токенов и повышения качества изображений с низким разрешением.
Пользователи, использующие Google Muse AI – изображение через Freepik
Google Muse AI может похвастаться несколькими примечательными особенностями, которые отличают его от других моделей генераторов текста в изображения, таких как DALL-E 2 и Midjourney. Некоторые из этих уникальных функций включают в себя:
Muse AI использует метод, называемый итеративной повторной выборкой токенов изображений, на основе заданных текстовых подсказок.
Такой подход позволяет модели вносить изменения в любую область изображения на основе текстовых подсказок без необходимости маскировать другие области. Эта возможность редактирования без маски и нулевого кадра отсутствует в таких моделях, как Midjourney и DALL-E 2.
Модель Muse 3B может генерировать изображение размером 512×512 всего за 1,3 секунды на TPUv4, что делает ее быстрее, чем любой другой инструмент для преобразования текста в изображение.