Американская компания Nvidia разработала нейросеть, способную генерировать видео по текстовому описанию. Новую разработку компания представила на конференции IEEE по компьютерному зрению и распознаванию образов.
Ключевые факты
- За основу разработки взяты наработки нейросети Stable Diffusion. По словам разработчиков, обучение идет очень быстро.
- Нейросеть генерирует видео с разрешением до 1280x2048 пикселей с частотой 24 кадра в секунду и учитывает около 4,1 млрд параметров, из которых 2,7 млрд обучаются на видео.
- Как примеры Nvidia показала сгенерированные видео по описаниям: «Одетая в костюм танцующая в парке лиса», «Одинокий путешественник в туманном лесу на рассвете», «Снежный человек в метель» и другие.
- Поскольку это лишь исследовательская разработка, о появлении новой нейросети в публичном доступе пока речь не идет.
Контекст
В марте компания OpenAI, создавшая чат-бот ChatGPT, анонсировала выпуск более мощной и усовершенствованной версии искусственного интеллекта – GPT-4. Нейросеть «научили» обрабатывать не только текст, но и картинки.
Самое главное новшество – возможность использовать изображения в качестве входных данных и комбинировать их с текстом. Теперь нейросеть может понимать, что изображено на фото, и учитывать рисунки и схемы при решении задач. Также ИИ может объяснять данные, представленные в качестве диаграмм. В настоящее время работа с изображениями находится на стадии закрытого тестирования и пока недоступна.
Вы нашли ошибку или неточность?
Оставьте отзыв для редакции. Мы учтем ваши замечания как можно скорее.