Категория
Инновации
Дата

«На уровне с OpenAI и лучше DeepSeek и Gemini». Исследователь искусственного интеллекта Андрей Карпаты протестировал обновленную языковую модель Grok Маска. Что она умеет

3 хв читання

як скористатися Grok від Маска /коллаж Анастасия Левицкая

Исследователь искусственного интеллекта Андрей Карпаты протестировал обновленную модель Grok Маска Фото коллаж Анастасия Левицкая

За год работы команда стартапа xAI Илона Маска выпустила третью языковую модель Grok, работающую на уровне с моделью от OpenAI (создателя ChatGPT), считает бывший топ-менеджер Tesla и соучредитель OpenAI Андрей Карпаты. Что умеет Grok?

Отримуйте щоденний лист з останніми матеріалами та новинами від Forbes

Спасибо за подписку

«Я рад добавить Grok 3 к моему «совету LLM», – написал в соцсети Х Андрей Карпаты, канадский исследователь искусственного интеллекта.

Выпущенная 17 февраля Grok 3 – новая языковая модель компании Илона Маска xAI. По его словам, она была разработана с «в 10 раз» большей вычислительной мощностью, чем ее предшественник Grok 2. «Это самый умный искусственный интеллект на Земле», – написал Маск в Х 16 февраля.

Он доступен для подписчиков Premium Plus на X за $50 в месяц. Также компания запустила отдельную подписку Super Grok за $30 в месяц для пользователей приложения чат-бота и сайтовой версии.

Карпаты протестировал возможности Grok 3 и написали о результатах в Х. Канадский исследователь, эмигрировавший из Словакии в 15 лет, работал ИИ-директором для автопилота в Tesla в 2015-м. В 2016 году стал соучредителем OpenAI. После увольнения из компании в феврале 2024-го запустил образовательный стартап Eureka Labs, чтобы с помощью ИИ изменить подход к обучению.

Каков вывод Карпаты о Grok 3?

Как думает Grok 3

Think – новый режим работы Grok для сложных вопросов, требующих более глубокого анализа. Карпаты попросил модель создать сайт настольной игры Settlers of Catan, который будет в виде шестиугольника (так выглядит доска настольной игры).

Промпт

Создай веб-страницу для настольной игры, которая отображает шестиугольную сетку, как в игре Settlers of Catan. Каждый шестиугольник в сетке должен быть пронумерован от 1 до N, где N – общее число шестиугольников. Сделай сетку гибкой, чтобы можно было изменять количество колец с помощью ползунка. К примеру, у Catan радиус составляет три шестиугольника. Вся логика должна быть реализована на одной HTML-странице.

С этой задачей Grok 3, по словам Карпаты, справился отлично. «Лишь несколько моделей справляются с этим надежно, – пишет он. – Лучшие модели от OpenAI (например, o1-pro за $200/месяц) тоже могут это делать, но DeepSeek-R1, Gemini 2.0 и Claude не справляются», – добавил он.

С загадкой Emoji mystery, когда в символах или смайликах зашифровывается слово, Grok 3 не справился. Модель не смогла разгадать загадку даже после подсказки, как это сделать с помощью языка программирования Rust. «Лучше всего справилась модель DeepSeek-R1, которая хотя бы частично смогла расшифровать текст», – пишет Карпаты.

Он также поиграл с Grok 3 в крестики-нолики, с чем модель справилась. Однако провалила задачу создать три сложных сценария игры. Последней модели от OpenAI эта задача тоже не по силам.

Исследователь отмечает, что Grok 3 так же, как и DeepSeek-R1, пытался решить гипотезу Римана. «Мне пришлось в конце концов остановить его, потому что мне стало немного жаль, но он проявил смелость, и кто знает, возможно, однажды…» – пишет Карпаты. Модели o1-pro, Claude, Gemini 2.0 сразу сдаются и говорят, что это неразрешимая задача.

кто такой Андрей Карпаты

Андрей Карпаты – канадский исследователь, эмигрировавший из Словакии в 15 лет. Работал ИИ-директором для автопилота в Tesla и стал соучредителем OpenAI

Глубокий поиск в Grok 3

Новая модель Маска также имеет режим DeepSearch, который сканирует интернет и X и отвечает на запрос.

Функцию с почти идентичным названием – Deep Research – OpenAI представил в начале февраля. Она умеет просматривать информацию из многих веб-сайтов и других источников и доступна пользователям ChatGPT Pro с ограничением 100 запросов в месяц.

Grok 3 правильно ответил на вопросы Карпаты, что происходит с предстоящим запуском Apple, почему акции Palantir резко выросли недавно, где был снят и кто в команде сериала «Белый лотос 3» и т.д.

Но провалил ответы на вопросы, где сейчас участники четвертого сезона телесериала «Ад для одиноких», какую программу распознавания речи использует британский программист Саймон Уиллисон и т.д.

«Несколько раз я ловил ее на вымышленных URL, которые не существуют, – пишет Карпаты. – Несколько раз она говорила фактические вещи, которые, я думаю, неправильные, и не предоставляла на них ссылки (вероятно, его не существует)». Функция Deep Search от OpenAI работает лучше, по его мнению.

Итог

В общем Grok 3 работает примерно на том же уровне, что и последняя модель от OpenAI, и лучше DeepSeek-R1 и Gemini 2.0, считает Карпаты. «Это достаточно невероятно, учитывая, что команда начала с нуля один год назад», – добавляет он.

Материалы по теме

Вы нашли ошибку или неточность?

Оставьте отзыв для редакции. Мы учтем ваши замечания как можно скорее.

Предыдущий слайд
Следующий слайд
Перший випуск 2025 року вже у продажу

Замовляйте з безкоштовною доставкою по Україні