Исследователи Meta AI создали новую модель искусственного интеллекта, позволяющую различать объекты на изображениях – Segment Anything Model (SAM), говорится в блоге компании. Также Meta AI выложила в свободный доступ набор данных для обучения другим ИИ-сервисам компьютерного зрения – Segment Anyting 1 Billion, SA-1B.
Ключевые факты
- Лаборатория искусственного интеллекта Meta AI представила проект Segment Anything – на основе 11 млн изображений исследователи научили модель различать графические объекты.
- На базе данных для обучения модель образовала более 1 млрд «масок», применяя которые к изображениям, она узнает объекты.
- Модель обучена общему пониманию объектов, поэтому может создавать «маски» для любого объекта на изображении, даже для объектов и изображений, которые она не использовала во время обучения, утверждают разработчики.
- SAM является самообучающейся моделью, поэтому разбирает незнакомые объекты на меньшие задачи и объекты, пока не встретит знакомый объект.
- Эта модель может использоваться как часть новых ИИ-инструментов, которые способны распознавать звук, изображение и текст для полноценного анализа объекта. В области виртуальной и дополненной реальности SAM может выделять объекты, на которые обратил внимание пользователь, и работать с ними. Для создателей контента модель упростит создание коллажей и установку видео.
- «SAM также можно использовать для научного изучения природных явлений на Земле или даже в космосе, например, путем локализации животных или объектов для изучения и отслеживания видео», – говорят разработчики.
Контекст
Meta оказалась одной из последних, кто заявил о своих амбициях в области искусственного интеллекта и представил языковую модель LLaMA для разработчиков ИИ. Языковая модель будет доступна по некоммерческой лицензии для исследователей и организаций, связанных с правительством, гражданским обществом и научными кругами.
LLaMA работает, принимая последовательность слов как входные данные и предсказывая следующее слово для рекурсивного генерирования текста. Чтобы научить модель, разработчики использовали контент на 20 самых распространенных языках, сосредоточившись на языках с латиницей и кириллицей.
Как отмечал Reuters, LLaMA с 65 миллиардами параметров является «конкурентоспособной» с Chinchilla70B и PaLM-540B от Google. Она мощнее модели, которую Google использовала для демонстрации своего поиска в чате Bard.
Вы нашли ошибку или неточность?
Оставьте отзыв для редакции. Мы учтем ваши замечания как можно скорее.