Восстановление и редактирование изображений людей с помощью ИИ

Изображение показывает процесс восстановления скрытых частей фотографий людей с использованием искусственного интеллекта, разработанного Калифорнийским университетом и компанией Adobe.

Восстановление и редактирование изображений людей с помощью искусственного интеллекта – одно из ключевых направлений компьютерного зрения, которое привлекает значительное внимание исследователей. В последнее время появляются всё более совершенные технологии, способные восстанавливать скрытые или поврежденные части изображений людей, что имеет практическое применение в виртуальных примерочных, анимации и редактировании фотографий.

CompleteMe: новый подход к восстановлению изображений людей

Инновационная система CompleteMe предлагает революционный подход к завершению изображений людей, используя эталонные изображения для “подсказки” системе, какое содержимое должно заменить скрытый или отсутствующий участок изображения человека. Эта технология особенно полезна для виртуальных примерочных и модных приложений.

Система использует двойную архитектуру U-Net и блок Region-Focused Attention (RFA), который концентрирует ресурсы на соответствующей области восстанавливаемого изображения. Разработчики также представили новую и сложную эталонную систему, предназначенную для оценки задач восстановления на основе референсных изображений.

Архитектурные особенности CompleteMe

Ключевыми компонентами системы являются:

  • Reference U-Net, который обрабатывает интеграцию дополнительного материала
  • Cohesive U-Net, который управляет более широким спектром процессов для получения окончательного результата
  • Region-focused Attention блок, обеспечивающий точную фокусировку на релевантных областях

Процесс начинается с кодирования замаскированного входного изображения в скрытое представление. Одновременно Reference U-Net обрабатывает несколько эталонных изображений, показывающих различные области тела, для извлечения детальных пространственных особенностей.

Если вы заинтересованы в создании собственных AI агентов для редактирования и обработки изображений, стоит глубже разобраться в принципах работы таких систем и их практическом применении.

Преимущества перед предыдущими методами

Предыдущие методы восстановления изображений на основе референсов обычно опирались на семантические кодировщики уровня, такие как CLIP и DINOv2. Эти инструменты извлекают глобальные особенности из эталонных изображений, но часто теряют мелкие пространственные детали, необходимые для точного сохранения идентичности.

CompleteMe решает эту проблему с помощью специализированного Reference U-Net, инициализированного из Stable Diffusion 1.5, но работающего без шага диффузионного шума. Каждое эталонное изображение, охватывающее различные области тела, кодируется в детальные латентные особенности через этот U-Net. Глобальные семантические особенности также извлекаются отдельно с использованием CLIP, и оба набора особенностей кэшируются для эффективного использования во время интеграции на основе внимания.

Интеграция и координация компонентов

Cohesive U-Net управляет заключительными этапами процесса завершения. Адаптированный из варианта Stable Diffusion 1.5 для inpainting, он принимает в качестве входных данных замаскированное исходное изображение в латентной форме, наряду с детальными пространственными особенностями, взятыми из эталонных изображений, и глобальными семантическими особенностями, извлеченными кодировщиком CLIP.

Эти различные входные данные объединяются через блок RFA, который играет критическую роль в направлении фокуса модели на наиболее релевантные области эталонного материала. Перед входом в механизм внимания эталонные особенности явно маскируются для удаления несвязанных областей, а затем конкатенируются с латентным представлением исходного изображения.

Результаты тестирования и сравнения

Для оценки эффективности CompleteMe исследователи провели обширные тесты, включающие как количественные метрики, так и качественную оценку результатов.

Количественные показатели

В количественной оценке CompleteMe достигает наивысших показателей по большинству перцептивных метрик, включая CLIP-I, DINO, DreamSim и LPIPS, которые предназначены для фиксации семантического выравнивания и точности внешнего вида между выходным и эталонным изображением.

Однако модель не превосходит все базовые показатели по всем параметрам. В частности, BrushNet получает наивысшие баллы по CLIP-T, LeftRefill лидирует в SSIM и PSNR, а MimicBrush незначительно превосходит по CLIP-I.

Качественные результаты и пользовательское исследование

Визуальное сравнение результатов показывает, что CompleteMe создает более реалистичные завершения и лучше сохраняет специфические детали из эталонного изображения. В то время как другие методы могут генерировать правдоподобный контент, они часто не могут точно сохранить контекстную информацию из эталона.

Для оценки того, насколько хорошо модели соответствуют человеческому восприятию, исследователи провели пользовательское исследование с участием 15 аннотаторов и 2 895 пар образцов. Каждая пара сравнивала вывод CompleteMe с одним из четырех базовых методов на основе референсов: Paint-by-Example, AnyDoor, LeftRefill или MimicBrush. Аннотаторы оценивали каждый результат на основе визуального качества завершенной области и степени, в которой она сохраняла идентификационные особенности из референса.

Результаты пользовательского исследования подтвердили превосходство CompleteMe как по общему качеству, так и по сохранению идентичности.

Практическое применение технологии

CompleteMe представляет собой значительный шаг вперед в области восстановления изображений людей с помощью искусственного интеллекта. Эта технология может найти применение в различных сферах:

  • Виртуальные примерочные и модная индустрия
  • Реставрация исторических фотографий
  • Профессиональное редактирование фотографий
  • Создание персонализированного контента для социальных медиа

Разрабатывая собственные AI агенты, можно интегрировать подобные технологии в различные приложения, что открывает широкие перспективы для творческих и коммерческих проектов.

Заключение

CompleteMe представляет собой инновационный подход к завершению изображений людей, который эффективно использует эталонные изображения для восстановления скрытых или поврежденных частей. Благодаря своей двойной архитектуре U-Net и блоку Region-Focused Attention, система обеспечивает высокую точность и реалистичность результатов.

Количественные и качественные оценки, а также результаты пользовательских исследований подтверждают эффективность предложенного метода. Хотя система не превосходит все базовые показатели по всем параметрам, она демонстрирует сбалансированную силу как в структурных, так и в перцептивных измерениях.

Технологии искусственного интеллекта для редактирования и восстановления изображений продолжают развиваться, открывая новые возможности для творчества и инноваций в различных областях, от моды до цифрового искусства.