4 темы для обсуждения после победы «Майами Хит» над «Денвер Наггетс» во второй игре финала НБА
Jun 07, 20236 лучших сетевых фильтров и удлинителей 2023 года по мнению экспертов
Oct 24, 2023ACME Lithium наращивает темпы испытаний на откачку после установки испытательной скважины TW
May 24, 2023Мероприятие Американского онкологического общества «Эстафета за жизнь» в DeBartolo Commons в Бордмане, штат Огайо, включает ужин и автомобильный круиз.
Apr 13, 2023Эми Джаст: эстафетная команда «Золушка» Небраски; душераздирающие новости Хоффмана; обновление путешественника
Apr 17, 2023Vision Transformers преодолевают трудности с новым патчем
Опубликовано
на
К
Технологии искусственного интеллекта (ИИ), в частности Vision Transformers (ViT), показали огромные перспективы в своей способности идентифицировать и классифицировать объекты на изображениях. Однако их практическое применение ограничено двумя серьезными проблемами: высокими требованиями к вычислительной мощности и отсутствием прозрачности в принятии решений. Теперь группа исследователей разработала революционное решение: новую методологию, известную как «внимание от участка к кластеру» (PaCa). PaCa стремится расширить возможности ViT в идентификации, классификации и сегментации объектов изображения, одновременно решая давние проблемы вычислительных требований и ясности принятия решений.
Трансформеры, благодаря своим превосходным возможностям, являются одними из самых влиятельных моделей в мире искусственного интеллекта. Возможности этих моделей были расширены на визуальные данные с помощью ViT — класса преобразователей, которые обучаются с помощью визуальных данных. Несмотря на огромный потенциал, предлагаемый ViTs в интерпретации и понимании изображений, их тормозят несколько серьезных проблем.
Во-первых, из-за характера изображений, содержащих огромные объемы данных, ViT требуют значительных вычислительных мощностей и памяти. Эта сложность может оказаться непосильной для многих систем, особенно при обработке изображений с высоким разрешением. Во-вторых, процесс принятия решений в ВИТ часто запутан и непрозрачен. Пользователям сложно понять, как ViT различает различные объекты или особенности изображения, что имеет решающее значение для многих приложений.
Однако инновационная методология PaCa предлагает решение обеих этих проблем. «Мы решаем проблему, связанную с требованиями к вычислениям и памяти, используя методы кластеризации, которые позволяют архитектуре преобразователя лучше идентифицировать объекты на изображении и фокусироваться на них», — объясняет Тяньфу Ву, автор статьи об этой работе и доцент Электротехника и вычислительная техника в Университете штата Северная Каролина.
Использование методов кластеризации в PaCa резко снижает вычислительные требования, превращая задачу из квадратичного процесса в управляемый линейный. Далее Ву объясняет процесс: «Благодаря кластеризации мы можем сделать этот процесс линейным, в котором каждую меньшую единицу нужно сравнивать только с заранее определенным количеством кластеров».
Кластеризация также служит для уточнения процесса принятия решений в ViT. Процесс формирования кластеров показывает, как ViT решает, какие функции важны при группировке разделов данных изображения. Поскольку ИИ создает лишь ограниченное количество кластеров, пользователи могут легко понять и изучить процесс принятия решений, что значительно улучшает интерпретируемость модели.
В результате всестороннего тестирования исследователи обнаружили, что методология PaCa превосходит другие ViT по нескольким направлениям. Ву уточняет: «Мы обнаружили, что PaCa превосходит SWin и PVT во всех отношениях». Процесс тестирования показал, что PaCa преуспел в классификации и идентификации объектов на изображениях и сегментации, эффективно очерчивая границы объектов на изображениях. Более того, было обнаружено, что он более экономичен по времени и выполняет задачи быстрее, чем другие ViT.
Воодушевленная успехом PaCa, исследовательская группа стремится продолжить его развитие, обучая его на более крупных базовых наборах данных. Тем самым они надеются расширить границы того, что в настоящее время возможно с помощью ИИ на основе изображений.
Исследовательская работа «PaCa-ViT: обучение взаимодействию между патчами и кластерами в преобразователях зрения» будет представлена на предстоящей конференции IEEE/CVF по компьютерному зрению и распознаванию образов. Это важная веха, которая может проложить путь к более эффективным, прозрачным и доступным системам искусственного интеллекта.
Лидеры технологий подчеркивают риски, связанные с ИИ, и необходимость жесткого регулирования ИИ
Алекс МакФарланд — писатель из Бразилии, освещающий последние разработки в области искусственного интеллекта. Он работал с ведущими компаниями и изданиями в области искусственного интеллекта по всему миру.