Многие украинцы полюбили использовать чат-боты, такие как ChatGPT от OpenAI, в качестве помощников по работе. Но для некоторых до сих пор вопрос: почему, если «общаешься» с чат-ботом на английском, он – довольно приличный помощник. Как только пишешь запрос на украинском, можешь получить набор вымышленных фактов. Богдан Питайчук, chief AI officer в Gathers и исследователь ИИ, объясняет, почему чат-ботам так сложно ладить с украинским языком, и когда они смогут на нем свободно «разговаривать» с пользователями.
Форум «Енергія бізнесу» у Києві вже 9 жовтня
Бізнес будує нову енергореальність, забезпечуючи незалежність в умовах блекаутів. 9 жовтня на форумі «Енергія бізнесу» обговоримо технології та інвестиції, що змінюють правила гри на енергоринку. Дізнайтеся, як адаптувати бізнес до майбутніх енергетичних викликів, за посиланням.
Английский язык называют наиболее популярным языком программирования. Такие тезисы стали актуальны благодаря ChatGPT и другим подобным инструментам на основе генеративного искусственного интеллекта (AI), поскольку все они гораздо лучше работают именно с английским языком, чем с любым другим.
ChatGPT показывает, что сила генеративного AI доступна буквально каждому человеку, у которого есть интернет. Нейросети помогают писать, продумывать маркетинговые стратегии, обслуживать клиентов и в целом под управлением профессионала становятся важными инструментами, качественно улучшающими и ускоряющими работу.
Однако если вы пробовали пользоваться ChatGPT на украинском, то наверняка получили неудовлетворительный результат и уже успели разочароваться.
Чат-бот понимает вас, даже может выдать относительно неплохой ответ, однако стабильно на высоком уровне на украинском он работать не будет. О качественной помощи в решении рабочих задач вообще речь не идет.
Учитывая то, что технология постоянно развивается и вскоре полностью изменит рынок труда, важно понимать, как она работает.
Почему ChatGPT или другие генеративные AI-инструменты отлично работают на английском и намного хуже на украинском или других языках? И изменится ли это в будущем? Спойлер: да, даже объясню почему.
Токены – ключ к восприятию мира нейросетями
Простейшее объяснение плохого качества текстов на украинском языке – малое количество украиноязычных данных, на которых учился ChatGPT. Частично это правда, однако на самом деле это не главная проблема нейросетей, ведь эти данные на самом деле генерируются.
Как это работает? К примеру, во время тренировки AI анализирует огромное количество текстов на английском о котах и собаках. После этого ему дают похожие тексты на украинском, и в конце концов нейросеть понимает, что cat – это кот, а dog – это собака.
Сейчас искусственный интеллект идет еще дальше. Недавно один из AI-инструментов Google, который в компании тренировали на многих языках, научился понимать и отвечать на языке, которого не было в его базе. То есть модель уловила что-то (исследователи до сих пор не знают, как это произошло), что характерно для всех языков, и это позволило ей расширить свою базу без дополнительных данных.
Поэтому проблема отсутствия большого количества украиноязычных данных, конечно, играет свою роль, но не является корнем проблемы.
Первое, что необходимо знать о нейросетях, – они не воспринимают мир как люди. У них нет глаз, ушей, носа или кожи – AI все «видит» через числа.
Если упростить, интеллектуальность AI проявляется в поиске зависимости между последовательностями чисел. Текст, который мы пишем в диалоговом окне чат-бота, он видит как числа, или, как их называют в профессиональной среде, токены.
Токен – это не просто числовые заменители слов или букв. Это основополагающие блоки, на основе которых модель изучает, понимает и обрабатывает язык. Именно здесь возникает самая важная разница: ChatGPT натренировали на токенах, заточенных под английский язык.
Поэтому английские слова «токенизируются» по примерной формуле «один токен = одно слово». В то же время те же слова или предложения, написанные на украинском языке, используют гораздо больше токенов.
Предложение на английском языке состоит из 10 слов, 54 знаков и 11 токенов. На украинском – семь слов, 50 знаков и 59 токенов.
Общаясь с чат-ботом на любом языке, кроме английского, мы будем использовать больше токенов. Языки, в основе которых лежит латиница (например, итальянский или французский), будут тратить примерно в два раза больше токенов. Кириллица же для современных нейросетей пока слишком тяжела, поэтому часто можно увидеть, что даже одна буква «съедает» несколько токенов.
Учитывая ограниченное контекстное окно ChatGPT (каждый диалог – это 8000 токенов), чат-бот тратит гораздо больше памяти только на обработку запроса, не говоря уже о генерации и выдаче результата. Поэтому он быстро «забывает» основную тему и начинает галлюцинировать, то есть придумывать информацию, чтобы написать хоть что-то.
Например, если вы попросите ChatGPT написать стих на английском, то получите в целом неплохой результат – с хорошими рифмами и креативными эпитетами. Если же захотите получить стихотворение на украинском, творение искусственного интеллекта вряд ли вам понравится.
Ключ к пониманию этой проблемы – комбинация токенов. Если один токен представляет одно слово, как в случае с английским, то нейросеть может легко найти зависимости между этими словами, соединив их в рифмуемое произведение.
Когда же на одну букву уходит сразу несколько токенов, для нейросети найти эту связь между словами значительно труднее. Именно поэтому ChatGPT намного дольше и менее качественно генерирует тексты на украинском (причем не только стихи, но и обычные).
Правильно формулируйте задачи, то есть качественно прописывайте промпты – текстовые подсказки для нейросети, по которым вы направляете искусственный интеллект бродить по вашим задачам.
Благодаря своему интеллекту, а также широкому спектру разнообразных возможностей восприятия мира мы привыкли понимать друг друга с полуслова. В своем общении люди научились додумывать друг за друга и сразу понимать, что хочет сказать собеседник.
Такая коммуникация привычна для нас, но не для нейросетей. Им важно ставить четкие задачи, со всеми подробностями, о которых во время разговора с другими людьми мы даже не задумываемся.
Будет ли ChatGPT лучше работать с украинским
В ходе тренировки каждая нейросеть изучает множество данных. Ей показывают большое количество текстов, в которых AI ищет взаимозависимости.
Когда у AI-инструмента уже есть определенная база, ему показывают новые данные (Evaluation Dataset), которые он не видел раньше, чтобы проверить, насколько хорошо он понимает и генерирует подобные фразы.
Этот принцип похож на то, как учатся люди: сначала мы учим некоторые правила, а после решаем задачи для закрепления материала.
Летом один из пользователей Twitter рассказал, что OpenAI взял его украинскую базу данных именно для выполнения такой проверки. Теперь в будущем во время внутренних проверок точности работы ChatGPT или других AI-инструментов компании украинский язык будет иметь большее влияние на этот показатель.
Значит ли это, что уже скоро чат-бот будет классно работать на украинском? Нет.
Однако постепенное развитие архитектуры нейросетей должно привести нас в будущее, в котором AI-инструменты будут работать с разными языками гораздо лучше, чем сейчас.
Речь идет не только об улучшении ChatGPT или других инструментов. Это важный вызов, стоящий перед AI-сообществом на годы вперед: сделать AI универсальным для как можно большего числа людей.
Вы нашли ошибку или неточность?
Оставьте отзыв для редакции. Мы учтем ваши замечания как можно скорее.