Категория
Инновации
Дата

ИИ пока не удается превзойти человеческий интеллект. Как тестируют возможности больших речевых моделей? Разбор The Economist

4 хв читання

ШІ бенчмарк тести /Shutterstock

Новые бенчмарки для тестирования ИИ-моделей ZeroBench, EnigmaEval и ARC-AGI 2 обнаруживают их слабые места. Почему это важное направление усовершенствования языковых моделей? Фото Shutterstock

Для тестирования ИИ создают новые бенчмарки, в которых пытаются испытать большие языковые модели. Пока самые большие успехи показывает команда Anthropic, но развитие ИИ стимулирует их совершенствоваться. Почему тесты гонятся за испытанием ИИ, а не наоборот? Главное из материала The Economist

Купуйте річну передплату на 6 журналів Forbes Ukraine зі змістовними матеріалами, рейтингами та аналітикою від 1 350 грн.

Несмотря на стремительное развитие ИИ, современные языковые модели до сих пор не способны решать все задачи, которые кажутся простыми для человека. Поэтому ученые и разработчики создают новые, более сложные тесты – бенчмарки, чтобы проверить, где действительно проходит предел возможностей машинного интеллекта. Эти испытания показывают, что даже мощные системы могут легко провалиться там, где обычный человек быстро найдет ответ.

Бенчмарки помогают понять, насколько умны и способны современные модели ИИ. Эти тесты проверяют, могут ли модели правильно решать сложные задачи: искать ответы в запутанных головоломках, работать с текстом и картинками одновременно или отвечать на необычные вопросы.

Старые тесты уже слишком простые для новых систем или даже попали в их тренировочные данные. Поэтому разработчики создают новые тесты, чтобы узнать, чего эти модели действительно стоят и как быстро они приближаются к человеческим возможностям.

Кто тестирует ИИ

Тестов для ИИ-моделей достаточно. Однако далеко не все эти бенчмарки действительно выполняют заявленную функцию. Многие были собраны наспех, содержат недостатки и неточности, легко поддаются манипуляциям, пишет The Economist.

Один из таких тестов – ZeroBench, придуманный учеными из Кембриджского университета. Он проверяет большие мультимодальные модели, работающие одновременно с текстом и изображениями. Этот тест сделан так, чтобы быть понятным людям, но в то же время очень сложным для современных моделей: ни одна из них пока не смогла набрать даже один балл. Если вдруг кто-то когда-нибудь это сделает, это будет большое открытие.

Еще один серьезный вызов для ИИ – EnigmaEval, набор из более тысячи мультиформатных головоломок, созданный стартапом Scale AI. Там задачи начинаются на уровне сложного кроссворда и только усложняются. Для их решения нужно не просто понять текст или картинку, а найти скрытые связи между разными элементами.

Даже лучшие современные модели чаще всего не могут дать правильный ответ – в среднем их балл близок к нулю. Лишь одна модель от лаборатории Anthropic смогла правильно ответить хотя бы на один вопрос.

Кроме того, существуют тесты, оценивающие конкретные навыки моделей. Команда Anthropic стала первой, кто прошел определенный порог в скорости решения задач, которые людям даются за час. А тест под названием «Последний экзамен человечества» оценивает не столько общий интеллект ИИ, сколько актуальные знания – в нем собраны вопросы передовых областей науки, составленные коллективом из около тысячи экспертов.

Scale AI /Getty Images

Так выглядит штаб-квартира Scale AI в Сан-Франциско, Калифорния. Фото Getty Images

Три причины развития тестов

Одна из причин, почему возникает такое количество новых тестов для ИИ, – желание не повторять ошибок прошлого. Старые бенчмарки пестрят небрежными формулировками, плохими схемами оценки и нечестными вопросами.

ImageNet, один из первых датасетов для распознавания изображений, – печально известный пример: модель, правильно описывающая фотографию зеркала с отражением фруктов, получала штраф за упоминание о зеркале, но бонус за опознание банана.

Вторая причина активного создания новых тестов – то, что старые уже изучены ИИ-моделями. Лабораториям трудно избежать включения известных бенчмарков в тренировочные данные, поэтому модели демонстрируют на них лучшие результаты, чем в реальных задачах.

Третий и наиболее актуальный стимул – «насыщение»: модели достигают почти максимальных результатов. Например, o3-pro от OpenAI, вероятно, получит почти идеальный балл на выборке из 500 заданий по школьной математике. Но предыдущая модель o1-mini уже имела 98,9%, так что такие результаты не дают представления о реальном прогрессе в сфере.

Здесь появляются новые тесты. Они пытаются измерить, насколько способности ИИ приближаются или превосходят человеческие. Тест с названием «Последний экзамен человечества», например, предлагал сложные вопросы общих знаний: от количества сухожилий в определенной кости колибри до перевода отрывка надписи на палмирском алфавите, найденного на римском надгробии.

В будущем, когда ИИ-модели смогут набирать полный балл на таких тестах, разработчикам бенчмарков придется отказаться от вопросов, основанных на знаниях человечества.

ИИ бенчмарк /Getty Images

Одна из главных проблем в изучении и тестировании ИИ – старые бенчмарки уже изучены большими языковыми моделями. Фото Getty Images

«Магия» искусственного интеллекта

Даже тесты, созданные, чтобы «выдержать испытание временем», могут потерять свою актуальность за одну ночь. Например, ARC-AGI – тест по невербальному мышлению, который появился в 2024 году, – был задуман как вызов для ИИ, но уже через шесть месяцев OpenAI объявила, что их модель o3 достигла на нем результата 91,5%.

Руководитель OpenAI Сэм Альтман намекал на трудности измерения неизмеримого, когда в феврале 2025-го представили GPT-4.5. «Эта система не побьет бенчмарки», – написал он в соцсети X. Вместо этого Альтман добавил короткий рассказ, который написала модель, подытожив: «В ней есть магия, которой я раньше не чувствовал».

Эту «магию» уже пытаются измерить. К примеру, платформа Chatbot Arena дает пользователям возможность анонимно пообщаться с двумя языковыми моделями и выбрать ту, которая кажется «лучшей», по собственным критериям. Модели, которые чаще выигрывают, поднимаются на верхушку рейтинга.

Но и здесь не без проблем: более «заигрывающие» модели способны набирать более высокие баллы благодаря приверженности пользователей. Другие же спрашивают, что на самом деле говорит тест о модели ИИ, кроме того, насколько хорошо она умеет проходить этот конкретный тест.

Независимый исследователь ИИ из Калифорнии Саймон Уиллисон призывает пользователей фиксировать запросы, которые нынешние ИИ не смогли выполнить, прежде чем проверять их на новых моделях. Это позволит пользователям выбирать системы, которые действительно полезны для их задач, а не просто те, которые набрали самый высокий балл в общем рейтинге.

Все чаще наблюдается явление «сандбегинга», когда модели намеренно проваливают тесты, чтобы скрыть свои реальные возможности (например, чтобы избежать отключения). Однако рейтинги, позволяющие ИИ-компаниям хвастаться первенством своих продуктов, остаются важными.

Тест ARC-AGI 2 вышел в марте и до сих пор остается недостижимым для топовых ИИ-моделей. Но, понимая, как быстро все меняется, команда некоммерческой организации ARC Prize Foundation уже начала работу над ARC-AGI 3.

Материалы по теме

Вы нашли ошибку или неточность?

Оставьте отзыв для редакции. Мы учтем ваши замечания как можно скорее.

Предыдущий слайд
Следующий слайд
Третій випуск 2025 року вже у продажу

Замовляйте з безкоштовною доставкою по Україні