Tencent, ведущий игрок китайской технологической отрасли, недавно обновил свою модель генерации видео DynamiCrafter, отметив значительный прогресс в области генеративного видео. Выпущенная на GitHub модель с открытым исходным кодом демонстрирует стремление Tencent продвигаться в области преобразования текста в видео и изображения в видео, области, которая набирает обороты после успеха генеративного искусственного интеллекта в тексте и изображениях.
Последняя версия DynamiCrafter создает видео с разрешением 640×1024 пикселей, что вдвое превышает четкость предыдущей версии с разрешением 320×512. Это развитие является частью более широкой тенденции среди технологических гигантов Китая, включая ByteDance, Baidu и Alibaba, каждый из которых работает над своими моделями распространения видео, чтобы извлечь выгоду из растущего интереса к визуальному контенту, генерируемому искусственным интеллектом.
Что отличает DynamiCrafter, так это использование методов диффузии, вдохновленных физическими процессами, позволяющих преобразовывать простые подписи и изображения в сложные видеоролики длиной в несколько секунд. Этот подход существенно отличается от традиционных методов, которые фокусируются на анимации конкретных типов движения, таких как природные сцены или движения человека. Вместо этого DynamiCrafter интегрирует модели распространения текста в видео с подсказками по изображениям, расширяя свое применение до более широкого спектра визуального контента.
Сравнительные демонстрации подчеркивают способность DynamiCrafter создавать более динамично анимированный контент, чем его конкуренты, включая Stable Video Diffusion и Pika Labs. Хотя эти достижения указывают на существенный прогресс, технология все еще находится на ранней стадии развития и не имеет ближайших перспектив для создания полнометражных фильмов.
DynamiCrafter
Демо: https://t.co/im9Jb6xH3y
модель: https://t.co/jvp6qku3MN
Анимация изображений в открытой области с помощью априорной обработки видеодиффузии pic.twitter.com/sq3x3SMa5t
— АК (@_akhaliq) 5 февраля 2024 г.
Стремление к технологиям генеративного видео отражает более широкие амбиции индустрии искусственного интеллекта по исследованию новых горизонтов, выходящих за рамки генерации текста и изображений. Решение Tencent открыть DynamiCrafter с открытым исходным кодом согласуется с растущей тенденцией среди китайских технологических компаний привлекать глобальное сообщество разработчиков, делиться достижениями и продвигать инновации через границы. Такой совместный подход подчеркивает конкурентный, но совместный характер глобальной гонки за лидерство в создании контента на основе искусственного интеллекта.