Категория: Инновации
Дата: 19 февраля 13:00

«На уровне с OpenAI и лучше DeepSeek и Gemini». Исследователь искусственного интеллекта Андрей Карпаты протестировал обновленную языковую модель Grok Маска. Что она умеет

Таиса Мельник

Forbes

3 хв читання

За год работы команда стартапа xAI Илона Маска выпустила третью языковую модель Grok, работающую на уровне с моделью от OpenAI (создателя ChatGPT), считает бывший топ-менеджер Tesla и соучредитель OpenAI Андрей Карпаты. Что умеет Grok?

«Я рад добавить Grok 3 к моему «совету LLM», – написал в соцсети Х Андрей Карпаты, канадский исследователь искусственного интеллекта.

Выпущенная 17 февраля Grok 3 – новая языковая модель компании Илона Маска xAI. По его словам, она была разработана с «в 10 раз» большей вычислительной мощностью, чем ее предшественник Grok 2. «Это самый умный искусственный интеллект на Земле», – написал Маск в Х 16 февраля.

Популярне

Категория: Лидерство
Дата: 09 декабря

Покорители мира. Forbes Ukraine впервые собрал список украинцев, которые занимают топовые менеджерские должности за рубежом. Кто они и как им это удалось?

Он доступен для подписчиков Premium Plus на X за $50 в месяц. Также компания запустила отдельную подписку Super Grok за $30 в месяц для пользователей приложения чат-бота и сайтовой версии.

Карпаты протестировал возможности Grok 3 и написали о результатах в Х. Канадский исследователь, эмигрировавший из Словакии в 15 лет, работал ИИ-директором для автопилота в Tesla в 2015-м. В 2016 году стал соучредителем OpenAI. После увольнения из компании в феврале 2024-го запустил образовательный стартап Eureka Labs, чтобы с помощью ИИ изменить подход к обучению.

Каков вывод Карпаты о Grok 3?

Как думает Grok 3

Think – новый режим работы Grok для сложных вопросов, требующих более глубокого анализа. Карпаты попросил модель создать сайт настольной игры Settlers of Catan, который будет в виде шестиугольника (так выглядит доска настольной игры).

Промпт

Создай веб-страницу для настольной игры, которая отображает шестиугольную сетку, как в игре Settlers of Catan. Каждый шестиугольник в сетке должен быть пронумерован от 1 до N, где N – общее число шестиугольников. Сделай сетку гибкой, чтобы можно было изменять количество колец с помощью ползунка. К примеру, у Catan радиус составляет три шестиугольника. Вся логика должна быть реализована на одной HTML-странице.

С этой задачей Grok 3, по словам Карпаты, справился отлично. «Лишь несколько моделей справляются с этим надежно, – пишет он. – Лучшие модели от OpenAI (например, o1-pro за $200/месяц) тоже могут это делать, но DeepSeek-R1, Gemini 2.0 и Claude не справляются», – добавил он.

С загадкой Emoji mystery, когда в символах или смайликах зашифровывается слово, Grok 3 не справился. Модель не смогла разгадать загадку даже после подсказки, как это сделать с помощью языка программирования Rust. «Лучше всего справилась модель DeepSeek-R1, которая хотя бы частично смогла расшифровать текст», – пишет Карпаты.

Он также поиграл с Grok 3 в крестики-нолики, с чем модель справилась. Однако провалила задачу создать три сложных сценария игры. Последней модели от OpenAI эта задача тоже не по силам.

Исследователь отмечает, что Grok 3 так же, как и DeepSeek-R1, пытался решить гипотезу Римана. «Мне пришлось в конце концов остановить его, потому что мне стало немного жаль, но он проявил смелость, и кто знает, возможно, однажды…» – пишет Карпаты. Модели o1-pro, Claude, Gemini 2.0 сразу сдаются и говорят, что это неразрешимая задача.

Глубокий поиск в Grok 3

Новая модель Маска также имеет режим DeepSearch, который сканирует интернет и X и отвечает на запрос.

Функцию с почти идентичным названием – Deep Research – OpenAI представил в начале февраля. Она умеет просматривать информацию из многих веб-сайтов и других источников и доступна пользователям ChatGPT Pro с ограничением 100 запросов в месяц.

Grok 3 правильно ответил на вопросы Карпаты, что происходит с предстоящим запуском Apple, почему акции Palantir резко выросли недавно, где был снят и кто в команде сериала «Белый лотос 3» и т.д.

Но провалил ответы на вопросы, где сейчас участники четвертого сезона телесериала «Ад для одиноких», какую программу распознавания речи использует британский программист Саймон Уиллисон и т.д.

«Несколько раз я ловил ее на вымышленных URL, которые не существуют, – пишет Карпаты. – Несколько раз она говорила фактические вещи, которые, я думаю, неправильные, и не предоставляла на них ссылки (вероятно, его не существует)». Функция Deep Search от OpenAI работает лучше, по его мнению.

Итог

В общем Grok 3 работает примерно на том же уровне, что и последняя модель от OpenAI, и лучше DeepSeek-R1 и Gemini 2.0, считает Карпаты. «Это достаточно невероятно, учитывая, что команда начала с нуля один год назад», – добавляет он.

Материалы по теме