Категория
Новости
Дата

Nvidia научила нейросеть генерировать видео по текстовому описанию

1 хв читання

Американская компания Nvidia разработала нейросеть, способную генерировать видео по текстовому описанию. Новую разработку компания представила на конференции IEEE по компьютерному зрению и распознаванию образов.

Ключевые факты

  • За основу разработки взяты наработки нейросети Stable Diffusion. По словам разработчиков, обучение идет очень быстро.
  • Нейросеть генерирует видео с разрешением до 1280x2048 пикселей с частотой 24 кадра в секунду и учитывает около 4,1 млрд параметров, из которых 2,7 млрд обучаются на видео.
  • Как примеры Nvidia показала сгенерированные видео по описаниям: «Одетая в костюм танцующая в парке лиса», «Одинокий путешественник в туманном лесу на рассвете», «Снежный человек в метель» и другие.
  • Поскольку это лишь исследовательская разработка, о появлении новой нейросети в публичном доступе пока речь не идет.

Контекст

В марте компания OpenAI, создавшая чат-бот ChatGPT, анонсировала выпуск более мощной и усовершенствованной версии искусственного интеллекта – GPT-4. Нейросеть «научили» обрабатывать не только текст, но и картинки.

Самое главное новшество – возможность использовать изображения в качестве входных данных и комбинировать их с текстом. Теперь нейросеть может понимать, что изображено на фото, и учитывать рисунки и схемы при решении задач. Также ИИ может объяснять данные, представленные в качестве диаграмм. В настоящее время работа с изображениями находится на стадии закрытого тестирования и пока недоступна.

Материалы по теме

Вы нашли ошибку или неточность?

Оставьте отзыв для редакции. Мы учтем ваши замечания как можно скорее.

Предыдущий слайд
Следующий слайд