Дослідники Meta AI створили нову модель штучного інтелекту, яка дозволяє розрізняти об’єкти на зображеннях – Segment Anything Model (SAM), йдеться у блозі компанії. Також Meta AI виклала у вільний доступ набір даних для навчання інших ШІ-сервісів комп’ютерному зору – Segment Anyting 1 Billion, SA-1B.
Amazon інвестує мільярди доларів у ШІ, роботів та машинне навчання. Якими принципами й правилами керується компанія?
Дізнайтеся вже 22 листопада на Forbes Tech 2024. Купуйте квиток за посиланням!
Ключові факти
- Лабораторія штучного інтелекту Meta AI представила проєкт Segment Anything – на основі 11 млн зображень дослідники навчили модель розрізняти графічні об’єкти.
- На базі даних для навчання модель утворила понад 1 млрд «масок», застосовуючи які до зображень, вона впізнає об’єкти.
- Модель навчено загальному розумінню об’єктів, тому вона може створювати «маски» для будь-якого об’єкту на зображенні, навіть для об’єктів і зображень, які вона не використовувала під час навчання, стверджують розробники.
- SAM є самонавчальною моделлю, тому розкладає незнайомі об’єкти на менші завдання та об’єкти, допоки не зустріне знайомий об’єкт.
- Ця модель може використовуватись як частина нових ШІ-інструментів, які можуть розпізнавати звук, зображення та текст для повноцінного аналізу об’єкту. У галузі віртуальної й доповненої реальності SAM може виділяти об’єкти, на які звернув увагу користувач, та працювати з ними. Для творців контенту модель спростить створення колажів і монтаж відео.
- «SAM також можна використовувати для наукового вивчення природних явищ на Землі чи навіть у космосі, наприклад, шляхом локалізації тварин або об’єктів для вивчення та відстеження на відео», – кажуть розробники.
Контекст
Meta виявилась однією з останніх, хто заявив про свої амбіції в галузі штучного інтелекту та представила мовну модель LLaMA для розробників ШІ. Мовна модель буде доступна за некомерційною ліцензією для дослідників і організацій, повʼязаних із урядом, громадянським суспільством і науковими колами.
LLaMA працює, приймаючи послідовність слів як вхідні дані та прогнозуючи наступне слово для рекурсивного генерування тексту. Щоб навчити модель, розробники використовували контент на 20 найпоширеніших мовах, зосередившись на мовах із латиницею та кирилицею.
Як зазначав Reuters, LLaMA з 65 мільярдами параметрів є «конкурентоспроможною» з Chinchilla70B і PaLM-540B від Google. Вона потужніша за модель, яку Google використовував для демонстрації свого пошуку в чаті Bard.
Ви знайшли помилку чи неточність?
Залиште відгук для редакції. Ми врахуємо ваші зауваження якнайшвидше.