Категория: Новости
Дата: 06 апреля 2023 13:32

Meta Цукерберга представила ИИ-модель сегментации и распознавания изображений

Дмитрий Чепур

Forbes

1 хв читання

Исследователи Meta AI создали новую модель искусственного интеллекта, позволяющую различать объекты на изображениях – Segment Anything Model (SAM), говорится в блоге компании. Также Meta AI выложила в свободный доступ набор данных для обучения другим ИИ-сервисам компьютерного зрения – Segment Anyting 1 Billion, SA-1B.

Ключевые факты

Лаборатория искусственного интеллекта Meta AI представила проект Segment Anything – на основе 11 млн изображений исследователи научили модель различать графические объекты.
На базе данных для обучения модель образовала более 1 млрд «масок», применяя которые к изображениям, она узнает объекты.
Модель обучена общему пониманию объектов, поэтому может создавать «маски» для любого объекта на изображении, даже для объектов и изображений, которые она не использовала во время обучения, утверждают разработчики.
SAM является самообучающейся моделью, поэтому разбирает незнакомые объекты на меньшие задачи и объекты, пока не встретит знакомый объект.
Эта модель может использоваться как часть новых ИИ-инструментов, которые способны распознавать звук, изображение и текст для полноценного анализа объекта. В области виртуальной и дополненной реальности SAM может выделять объекты, на которые обратил внимание пользователь, и работать с ними. Для создателей контента модель упростит создание коллажей и установку видео.
«SAM также можно использовать для научного изучения природных явлений на Земле или даже в космосе, например, путем локализации животных или объектов для изучения и отслеживания видео», – говорят разработчики.

Контекст

Meta оказалась одной из последних, кто заявил о своих амбициях в области искусственного интеллекта и представил языковую модель LLaMA для разработчиков ИИ. Языковая модель будет доступна по некоммерческой лицензии для исследователей и организаций, связанных с правительством, гражданским обществом и научными кругами.

LLaMA работает, принимая последовательность слов как входные данные и предсказывая следующее слово для рекурсивного генерирования текста. Чтобы научить модель, разработчики использовали контент на 20 самых распространенных языках, сосредоточившись на языках с латиницей и кириллицей.

Как отмечал Reuters, LLaMA с 65 миллиардами параметров является «конкурентоспособной» с Chinchilla70B и PaLM-540B от Google. Она мощнее модели, которую Google использовала для демонстрации своего поиска в чате Bard.

Материалы по теме