За год работы команда стартапа xAI Илона Маска выпустила третью языковую модель Grok, работающую на уровне с моделью от OpenAI (создателя ChatGPT), считает бывший топ-менеджер Tesla и соучредитель OpenAI Андрей Карпаты. Что умеет Grok?
Отримуйте щоденний лист з останніми матеріалами та новинами від Forbes
«Я рад добавить Grok 3 к моему «совету LLM», – написал в соцсети Х Андрей Карпаты, канадский исследователь искусственного интеллекта.
Выпущенная 17 февраля Grok 3 – новая языковая модель компании Илона Маска xAI. По его словам, она была разработана с «в 10 раз» большей вычислительной мощностью, чем ее предшественник Grok 2. «Это самый умный искусственный интеллект на Земле», – написал Маск в Х 16 февраля.
Он доступен для подписчиков Premium Plus на X за $50 в месяц. Также компания запустила отдельную подписку Super Grok за $30 в месяц для пользователей приложения чат-бота и сайтовой версии.
Карпаты протестировал возможности Grok 3 и написали о результатах в Х. Канадский исследователь, эмигрировавший из Словакии в 15 лет, работал ИИ-директором для автопилота в Tesla в 2015-м. В 2016 году стал соучредителем OpenAI. После увольнения из компании в феврале 2024-го запустил образовательный стартап Eureka Labs, чтобы с помощью ИИ изменить подход к обучению.
Каков вывод Карпаты о Grok 3?
Как думает Grok 3
Think – новый режим работы Grok для сложных вопросов, требующих более глубокого анализа. Карпаты попросил модель создать сайт настольной игры Settlers of Catan, который будет в виде шестиугольника (так выглядит доска настольной игры).
Промпт
Создай веб-страницу для настольной игры, которая отображает шестиугольную сетку, как в игре Settlers of Catan. Каждый шестиугольник в сетке должен быть пронумерован от 1 до N, где N – общее число шестиугольников. Сделай сетку гибкой, чтобы можно было изменять количество колец с помощью ползунка. К примеру, у Catan радиус составляет три шестиугольника. Вся логика должна быть реализована на одной HTML-странице.
С этой задачей Grok 3, по словам Карпаты, справился отлично. «Лишь несколько моделей справляются с этим надежно, – пишет он. – Лучшие модели от OpenAI (например, o1-pro за $200/месяц) тоже могут это делать, но DeepSeek-R1, Gemini 2.0 и Claude не справляются», – добавил он.
С загадкой Emoji mystery, когда в символах или смайликах зашифровывается слово, Grok 3 не справился. Модель не смогла разгадать загадку даже после подсказки, как это сделать с помощью языка программирования Rust. «Лучше всего справилась модель DeepSeek-R1, которая хотя бы частично смогла расшифровать текст», – пишет Карпаты.
Он также поиграл с Grok 3 в крестики-нолики, с чем модель справилась. Однако провалила задачу создать три сложных сценария игры. Последней модели от OpenAI эта задача тоже не по силам.
Исследователь отмечает, что Grok 3 так же, как и DeepSeek-R1, пытался решить гипотезу Римана. «Мне пришлось в конце концов остановить его, потому что мне стало немного жаль, но он проявил смелость, и кто знает, возможно, однажды…» – пишет Карпаты. Модели o1-pro, Claude, Gemini 2.0 сразу сдаются и говорят, что это неразрешимая задача.
Андрей Карпаты – канадский исследователь, эмигрировавший из Словакии в 15 лет. Работал ИИ-директором для автопилота в Tesla и стал соучредителем OpenAI
Глубокий поиск в Grok 3
Новая модель Маска также имеет режим DeepSearch, который сканирует интернет и X и отвечает на запрос.
Функцию с почти идентичным названием – Deep Research – OpenAI представил в начале февраля. Она умеет просматривать информацию из многих веб-сайтов и других источников и доступна пользователям ChatGPT Pro с ограничением 100 запросов в месяц.
Grok 3 правильно ответил на вопросы Карпаты, что происходит с предстоящим запуском Apple, почему акции Palantir резко выросли недавно, где был снят и кто в команде сериала «Белый лотос 3» и т.д.
Но провалил ответы на вопросы, где сейчас участники четвертого сезона телесериала «Ад для одиноких», какую программу распознавания речи использует британский программист Саймон Уиллисон и т.д.
«Несколько раз я ловил ее на вымышленных URL, которые не существуют, – пишет Карпаты. – Несколько раз она говорила фактические вещи, которые, я думаю, неправильные, и не предоставляла на них ссылки (вероятно, его не существует)». Функция Deep Search от OpenAI работает лучше, по его мнению.
Итог
В общем Grok 3 работает примерно на том же уровне, что и последняя модель от OpenAI, и лучше DeepSeek-R1 и Gemini 2.0, считает Карпаты. «Это достаточно невероятно, учитывая, что команда начала с нуля один год назад», – добавляет он.



Вы нашли ошибку или неточность?
Оставьте отзыв для редакции. Мы учтем ваши замечания как можно скорее.