HunyuanCustom представляет технологию создания видео-дипфейков из одного изображения с аудио и синхронизацией губ

Изображение демонстрирует процесс создания дипфейк-видео, где человек на экране синхронно повторяет произнесенный текст, используя всего одну фотографию и аудио для синхронизации губ. Лицо человека светлокожее европейской внешности.

Инновации в мультимодальных видеомоделях: представляем HunyuanCustom

Компания Tencent выпускает новую версию своей видеомодели Hunyuan под названием HunyuanCustom. Это мультимодальная архитектура, позволяющая создавать персонализированные видео на основе всего одного изображения. Возможности новой технологии настолько впечатляющи, что она может сделать ненужными традиционные LoRA-модели, ранее использовавшиеся для кастомизации видеоконтента.

Ключевые возможности HunyuanCustom

Новая система обладает рядом уникальных функций, которые выделяют ее на фоне конкурентов в области синтеза видео:

  • Создание видео с персонажем на основе одного референсного изображения
  • Синхронизация движения губ с аудио (lip-sync)
  • Редактирование существующих видео (Vid2Vid)
  • Интеграция нескольких объектов в одной сцене
  • Высокая степень сохранения идентичности персонажа

Особенно стоит отметить, что HunyuanCustom может работать в трех основных сценариях: “человек + объект”, эмуляция одного персонажа и виртуальная примерка (человек + одежда). Эти возможности позволяют создавать разнообразный контент для различных применений.

Технические ограничения и особенности

При впечатляющих результатах, система все же имеет определенные ограничения. Поскольку она работает на основе одного изображения, HunyuanCustom вынуждена “угадывать”, как выглядит объект с других ракурсов. Это особенно заметно при попытке повернуть лицо человека более чем на 25 градусов от исходного положения.

Также стоит отметить, что система не позволяет использовать несколько изображений одного персонажа с разных ракурсов. Здесь традиционные LoRA-модели, обученные на 20-60 изображениях, пока сохраняют свое преимущество в создании согласованных персонажей с любого угла и с различными выражениями лица.

Аудио и синхронизация губ

Для работы с аудио HunyuanCustom использует систему LatentSync, которая позволяет создавать движения губ, соответствующие предоставленному пользователем аудио и тексту. Результаты синхронизации кажутся очень качественными, хотя стоит отметить, что на момент разработки англоязычные примеры отсутствуют.

Это направление особенно важно, так как AI агенты, способные синхронизировать речь и движения, открывают новые возможности для создания интерактивного контента.

Редактирование существующего видео

HunyuanCustom предлагает впечатляющие результаты для видео-в-видео (V2V) редактирования. Этот процесс позволяет выделить сегмент существующего видео и интеллектуально заменить его субъектом, представленным на референсном изображении.

Как и с любой технологией vid2vid, вся видеопоследовательность в некоторой степени изменяется, хотя наибольшие изменения происходят в целевой области. При этом многие примеры демонстрируют высокую степень сохранения нетаргетированных элементов видео.

Архитектура и технические аспекты

HunyuanCustom не является моделью, обученной с нуля, а представляет собой дообучение базовой модели HunyuanVideo, выпущенной в декабре. Новые возможности реализованы как дискретные архитектурные вставки, а не радикальные структурные изменения.

Разработчики используют впечатляюще разнообразный набор инструментов и фреймворков:

  • LLaVA для генерации подписей к изображениям
  • PySceneDetect для сегментации видео
  • TextBPN-Plus-Plus для удаления текста и водяных знаков
  • Qwen7B для идентификации объектов
  • YOLO11X для распознавания объектов
  • InsightFace для валидации человеческих личностей
  • Grounded SAM 2 для извлечения ограничивающих рамок

Для обучения использовался метод Flow Matching с шумовыми образцами, взятыми из логит-нормального распределения. LLaVA и видеогенератор были дообучены вместе, чтобы изображение и промпт могли более плавно направлять вывод и сохранять идентичность объекта.

Требования к оборудованию

Система предлагается в двух вариантах: версия 720p×1280p, требующая 80 ГБ графической памяти, и версия 512p×896p, требующая 60 ГБ. Минимальные требования составляют 24 ГБ для версии 720p×1280p, но с заметной потерей производительности.

На момент выпуска система была протестирована только на Linux, но, как и предыдущие версии Hunyuan Video, вероятно, будет адаптирована сообществом для более доступных конфигураций и Windows-систем.

Сравнительные тесты и результаты

Разработчики провели обширные сравнительные тесты, сопоставляя HunyuanCustom с ведущими коммерческими решениями (Hailuo, Vidu 2.0, Kling 1.6, Pika) и открытыми фреймворками (VACE, SkyReels-A2).

Метрики оценки включали:

  • Согласованность идентичности (Face-Sim)
  • Сходство субъекта (DINO-Sim)
  • Согласованность текста и видео (CLIP-B-T)
  • Временная согласованность (Temp-Consis)
  • Интенсивность движения (DD)

HunyuanCustom продемонстрировала лучшие результаты по согласованности идентичности и согласованности субъекта, а также сопоставимые результаты по следованию промпту и временной согласованности. Система особенно выделяется в задачах сохранения идентичности как человеческих, так и нечеловеческих субъектов.

Потенциальные применения

Технология открывает широкие возможности для креативных индустрий:

  • Создание персонализированной рекламы
  • Виртуальные примерки одежды
  • Образовательный контент с персонализированными инструкторами
  • Развлекательный контент с пользовательскими персонажами
  • Создание AI агентов с визуальным представлением

Особенно интересно применение в виртуальной рекламе, где система демонстрирует способность поддерживать естественное взаимодействие между человеком и продуктом, сохраняя при этом детали целевого продукта, включая текст на нём.

Заключение

HunyuanCustom представляет собой значительный шаг вперед в области синтеза персонализированного видео. Несмотря на некоторые ограничения, связанные с использованием одного референсного изображения, система демонстрирует впечатляющие результаты в сохранении идентичности, синхронизации аудио и редактировании видео.

Особенно впечатляет, что Tencent удалось создать решение, которое успешно конкурирует с ведущими коммерческими API, такими как Kling, который обычно занимает верхние позиции в рейтингах.

Если вы хотите углубиться в тему искусственного интеллекта и создать собственного умного AI агента, рекомендуем ознакомиться с нашим специализированным курсом, где мы подробно разбираем принципы работы современных AI-систем и их практическое применение.