Оказывается, без Google не было бы революционного чата OpenAI и генераторов изображений Dall-E и Midjourney. Восемь сотрудников техногиганта, которых увлекала идея искусственного интеллекта, нашли друг друга в огромной компании, чтобы разработать ключевую для ИИ технологию. Журналист издания WIRED поговорил с восемью изобретателями, чтобы рассказать их историю прорыва. Forbes пересказывает главное из материала.
Amazon інвестує мільярди доларів у ШІ, роботів та машинне навчання. Якими принципами й правилами керується компанія?
Дізнайтеся вже 22 листопада на Forbes Tech 2024. Купуйте квиток за посиланням!
Восемь имен указаны авторами «Внимание – это все, что вам нужно» («Attention Is All You Need»), научной работы, увидевшей свет весной 2017-го. Все они были исследователями Google, хотя к моменту публикации труда один из них уже ушел в самостоятельное плавание.
Эта работа стала легендарной. Ее авторы начинали с того, что совершенствовали набор тогдашних ИИ-технологий под названием нейросети, а достигли чего-то значительно большего: создали сверхмощную цифровую систему, результаты которой кажутся не из этого мира. Называется она «трансформеры», и именно благодаря ей у нас сегодня есть чат-боты и генераторы изображений.
Не отпустить вперед Siri
Идейным вдохновителем и «собирателем» невероятной восьмерки можно назвать Якоба Ушкорайта, сына восточногерманских иммигрантов. Он родился в Калифорнии, но его родители вернулись в Германию, где Якоб и окончил университет. На стажировку его взяли в переводческую команду Google.
Отказавшись от идеи идти в докторантуру, Ушкорайт в 2012 году присоединился к команде Google, занимающейся разработкой системы, которая могла отвечать на вопросы пользователей на самой странице поиска, чтобы им не нужно было переходить на другие сайты.
Когда Apple объявила о появлении голосового ассистента Siri, который сможет отвечать на простые вопросы, Google ощутила угрозу своему бизнесу и обратила внимание на работу группы Ушкорайта.
Рекуррентные нейронные сети были передовой ИИ-технологией, и компания хотела ее использовать, чтобы система выдавала ответы на запросы, похожие на человеческие, предлагала автозаполнение предложений в email-переписке или помогала создавать относительно простые чаты клиентской поддержки. Но эта технология столкнулась с ограничениями: большие объемы текста.
Решение этой проблемы видели в «длинной краткосрочной памяти» (LSTM), инновации, позволяющей языковым моделям прорабатывать более сложные и текстовые последовательности. Но компьютер все равно обрабатывал такие тексты последовательно, то есть слово за словом, и таким образом не учитывал контекстные подсказки, которые могли появляться в тексте дальше.
В 2014 году Ушкорайт начал формулировать другой подход, который он назвал вниманием (attention). Такая сеть могла переводить слова в связи с любыми другими частями текста, а значит, не последовательно, а комплексно.
Он считал, что «модель внимания» потенциально может работать быстрее и эффективнее рекуррентных нейронных сетей. То, как она обрабатывает информацию, отлично подходило к мощным чипам параллельной обработки, которые именно начали массово производить для поддержки бума машинного обучения. Эти полупроводники тоже использовали не линейный принцип обработки, а параллельный. В «модели» внимания он видел будущее.
Впрочем, далеко не все понимали пыл Ушкорайта. Ему удалось убедить нескольких коллег провести эксперименты с моделью внимания, которые показали многообещающие результаты и завершились научной работой 2016-го.
Но дальше этих экспериментов с небольшими кусками текста его коллеги идти не хотели, а Ушкорайту этого было мало.
Найти единомышленников
Однажды в 2016-м Ушкорайт обедал в кафе Google с ученым из Украины Ильей Полосухиным. Последний в то время работал в компании уже три года. Полосухина поставили во главе команды, работа которой заключалась в предоставлении ответов на прямые вопросы, которые пользователи вписывали в поисковик. Но их дела обстояли не очень. Украинец рассказал WIRED, что им нужно было что-то дешевое и быстрое, и Ушкорайт во время обеда предложил ему попробовать «модель внимания».
К их дуэту присоединился еще один их коллега, Ашиш Васвани, иногда сотрудничавший с Полосухиным. Васвани родился в Индии, вырос на Среднем Востоке, изучал машинный перевод в Университете Южной Калифорнии и присоединился к относительно новой группе по глубокому изучению искусственного интеллекта под руководством Google AI – Google Brain.
Втроем они создали документ «Трансформеры: итеративное внимание и обработка различных задач». Название «трансформеры», рассказал Ушкорайт, они выбрали сразу, ведь их механизм трансформирует поглощаемую информацию, позволяя системе «понять» данные. Но, конечно, игрушечные трансформеры тоже возникли в памяти как детские воспоминания: документ заканчивался рисованным изображением шести трансформеров, стреляющих друг в друга лазерами.
В начале 2017 года Полосухин ушел из Google, чтобы основать собственную компанию, но к их команде единомышленников уже стали присоединяться новые люди. Сначала была индийская инженер Ники Пармар, усовершенствовавшая систему поиска в Google. Затем был валлиец Лион Джонс, работавший в Google Research под руководством Полосухина.
Работа с трансформерами привлекла внимание и других исследователей Google Brain, также пытавшихся усовершенствовать большие языковые модели. К третьей волне «рекрутинга» Ушкорайта относятся Лукаш Кайзер, польский ученый-теоретик компьютерной отрасли, и его стажер-канадец Эйден Гомез.
Команда «трансформеров» начала создавать модель внимания, которая переводила бы текст с одного языка на другой. Оценивали результаты с помощью стандарта BLEU, сравнивающего работу машины с работой человека-переводчика. С самого начала модель хорошо себя показала: наравне с альтернативами LSTM, но не лучше LSTM.
Выйти из фазы плато
После неплохих начальных результатов группа «трансформеров» зашла в фазу плато, из которой помог выйти Ноам Шазир в 2017-м. Ветеран Google, присоединившийся к компании еще в 2000-м и ставший ее легендой, случайно услышал о проекте Ушкорайта. Шазир тогда уже пять лет занимался глубоким обучением и недавно заинтересовался большими языковыми моделями, которые в то время не давали результатов, на которые, он был уверен, они способны.
Ему понравилась идея отойти от рекуррентных нейронных сетей, поэтому Шазир с энтузиазмом присоединился к команде разработчиков-единомышленников. Это явилось поворотным моментом для всей группы.
Шазир решил написать собственную версию кода, у которого уже была трансформерная команда. «Я взял их основную идею и создал код с нуля», – рассказал он WIRED.
Остальные в группе назвали прорыв Шазира «магией» и «алхимией», которая вывела их систему на новый уровень.
Исследователи установили для себя дедлайн – 19 мая. Именно тогда заканчивался срок представления научных работ на крупнейшее ИИ-событие года – конференцию Neural Information Processing Systems, которая должна была состояться в декабре.
Команда тестировала две модели трансформеров: одна, которая создана на основе 12-часовой тренировки, и более мощная вторая под названием Big, которая прошла более трех с половиной дней тренировок. Модели начинали с перевода текста с английского на немецкий.
Простая модель превзошла всех конкурентов, а Big по шкале BLEU побил все предыдущие рекорды, и в вопросе вычислительной эффективности была на шаг впереди других. «Все компоненты того, что мы сегодня называем трансформером, стали результатом метода проб и ошибок, который мы применяли снова и снова с головокружительной скоростью», – сказал Эйден Гомез журналисту WIRED.
По словам исследователей, когда до дедлайна оставалось две недели, сон мало кого интересовал, и все жили на кофе. Они продолжали собирать результаты экспериментов до последних часов окончательного срока. «Данные о переводе на французский пришли за пять минут до закрытия окна работы», – вспоминает Ники Пармар.
Интересно, что высшее руководство Google воспринимало проект восьмерки как просто еще одну ИИ-инициативу и, как сказали ученые, даже не интересовалось тем, как продвигается работа. Но оформить патент компания поспешила сразу.
Отзывы коллег по научной работе команды были смешанными. «Один был положительный, другой очень положительный, и еще один был «ок», – рассказала Пармар.
Исследователи приехали на конференцию, где им выделили вечерний слот для дискуссии, и они произвели фурор. Компьютерный ученый Зепп Хохрайтер, являющийся соавтором длинной краткосрочной памяти (LSTM), похвалил их после того, как исследователи более четырех часов выступали на отведенной им панели и отвечали на вопросы всех заинтересованных.
Наследие
«Трансформеры» не захватили мир или даже Google сразу. Кайзер напоминает, что примерно во время публикации работы Шазир предложил директорам Google отказаться от системы индексированного поиска, которая является основой поисковой системы компании, и начать тренировать огромную сеть с помощью трансформеров. Тогда даже Кайзер считал эту идею смехотворной.
А вот Илья Суцкевер, главный исследователь OpenAI, который тоже в свое время работал в Google и был знаком с командой «трансформеров», не упустил момент. Вскоре после публикации работы он предложил одному из ученых OpenAI принять во внимание идею, и это скоро вылилось в первые продукты GPT.
Многие упрекают Google в том, что компания перестала сосредотачиваться на инновациях и превратилась в бюрократизированную организацию, которую волнуют только доходы. «Они не занимались модернизацией. Они не внедряли эту технологию», – сказал Гомез Financial Times.
Впрочем, Google все же начала интегрировать трансформеры в свои продукты в 2018-м – первым был гугл-переводчик. В том же году компания представила языковую модель на основе трансформеров под названием BERT, которую начали внедрять в поисковик в следующем году. Но такие внутренние изменения кажутся очень скромными по сравнению с квантовым скачком OpenAI и смелой интеграцией Microsoft системы на основе трансформеров в свои продукты.
Да и показателен тот факт, что все восемь авторов революционной научной работы ушли из Google. И почти все, кроме Ушкорайта, основали свои компании на основе технологии трансформеров:
- Near Полосухина создала блокчейн, чей токен имеет около $4 млрд рыночной капитализации.
- В 2021 году Пармар и Висвани основали две компании вместе: в 2021 Adept (оценка $1 млрд) и Essential AI ныне ($8 млн инвестиций).
- У Лиона Джонсона есть токийская Sakana AI, оцениваемая в $200 млн.
- Шазир стал соучредителем Character AI (приблизительная оценка $5 млрд).
- Гомез основал в Торонто Cohere, которую оценивают около $2,2 млрд.
- А у Ушкорайта своя биотехнологическая компания Inceptive стоимостью $300 млн.
Только Кайзер не основал свою компанию, а присоединился к OpenAI. Там он стал одним из изобретателей новой технологии под названием Q*, которая, по словам Сэма Альтмана, «продвинет вперед границы исследований». Когда журналист WIRED попросил Кайзера рассказать о Q*, пиарщик OpenAI чуть стул не перевернул, спеша закрыть рот ученому, чтобы тот ничего не говорил.
Трудно отрицать и тот факт, что без Google не было бы трансформеров для ИИ. Сама атмосфера компании располагала к сотрудничеству, обмену мнениями и научным открытиям. А собрание компанией самых светлых умов мира тоже сыграло немаловажную роль: шесть из восьми авторов работы родились за пределами Штатов, один является сыном временных иммигрантов в США, а другой стал американцем в первом поколении.
Ушкорайт из своего офиса в Берлине сказал, что инновации зависят от правильных условий. Если собрать горящих идеями людей в одном месте и дать им возможность работать над правильными проблемами, то при наличии таланта «происходит магия».
Вы нашли ошибку или неточность?
Оставьте отзыв для редакции. Мы учтем ваши замечания как можно скорее.