
На экране компьютера размытая фотография флага начинает становиться более резкой. На его поверхности появляются морщины, заломы развеваются на призрачном ветру. Увеличьте масштаб еще раз, и потоки начнут появляться. Опять же — и на краю есть намек на драку. В этой цифровой ловкости рук вы не наблюдаете, как пиксели просто растягиваются или размазываются. Вы наблюдаете, как искусственный интеллект воссоздает то, что могла бы увидеть лучшая камера.
Это обещание Chain-of-Zoom, или CoZ, новой платформы искусственного интеллекта, разработанной южнокорейскими исследователями из KAIST AI во главе с Ким Джечолем. Этот подход направлен на решение одной из самых сложных проблем в современном улучшении изображения: как резко увеличить изображение с низким разрешением, сохраняя при этом детали четкими и правдоподобными.
По-видимому, лучший способ сделать это — не масштабировать все сразу.
Подвинься, CSI
Традиционные системы сверхвысокого разрешения (SISR) с одним изображением делают все возможное, чтобы угадать, чего не хватает, когда их просят увеличить изображение. Многие полагаются на генеративные модели, обученные создавать правдоподобные версии фотографий с низким разрешением с высоким разрешением. Это похоже на своего рода обоснованную догадку, которая заполняет пробел пикселями с высокими шансами быть там, с точки зрения вероятности. Но эти модели хороши лишь настолько, насколько позволяет их обучение, и они имеют тенденцию разваливаться, когда выходят за привычные пределы.
«Современные модели превосходят свои обученные масштабные коэффициенты, но терпят неудачу, когда их просят увеличить изображения далеко за пределы этого диапазона», — пишет команда KAIST в своей статье, которая появилась на сервере препринтов arXiv .
Chain-of-Zoom обходит это ограничение, разбивая процесс масштабирования на управляемые шаги. Вместо того, чтобы растягивать изображение 256 раз за один раз — скачок, который заставил бы ИИ размыть или галлюцинировать детали — CoZ строит лестницу. Каждый шаг представляет собой маленькое, рассчитанное увеличение, построенное на основе предыдущего.
На каждой ступени этой лестницы CoZ использует существующую модель сверхвысокого разрешения — например, хорошо обученную диффузионную модель — для уточнения изображения. Но на этом все не заканчивается. Модель языка машинного зрения (VLM) присоединяется к процессу, генерируя описательные подсказки, которые помогают ИИ представить, что должно появиться в следующей, более высокой версии.
«Второе изображение является увеличением первого изображения. Исходя из этих знаний, что на втором изображении?» Это одна из реальных подсказок, используемых во время обучения. Работа VLM заключается в том, чтобы ответить несколькими значимыми словами: «прожилки листьев», «текстура меха», «кирпичная стена» и так далее. Эти подсказки направляют следующий шаг масштабирования, подобно словесным подсказкам, передаваемым художнику, делающему более подробный набросок.
Между пикселями и словами

Это взаимодействие между изображениями и языком — это то, что отличает CoZ. При увеличении масштаба исходное изображение теряет точность — визуальные подсказки исчезают, контекст исчезает. Именно тогда слова имеют наибольшее значение.
Но создать правильные подсказки непросто. Готовые VLM могут повторяться, придумывать странные фразы или неправильно интерпретировать размытый ввод. Чтобы сделать процесс обоснованным и эффективным, исследователи обратились к обучению с подкреплением с обратной связью от человека (RLHF). Они обучили свою модель генерации подсказок в соответствии с человеческими предпочтениями с помощью метода, называемого оптимизацией обобщенной политики вознаграждения или GRPO.

Процесс обучения основывался на трех видах обратной связи:
- Критик VLM оценил подсказки о том, насколько хорошо они совпадают с изображениями.
- В черный список вносятся такие вводящие в заблуждение фразы, как «первое изображение» или «второе изображение».
- Фильтр повторов отпугивает общий или повторяющийся текст.
По мере продвижения обучения подсказки становились чище, конкретнее и полезнее. Такие слова, как «клешня краба», заменили смутные догадки вроде «муравьиная нога». Окончательная модель последовательно направляла движок сверхвысокого разрешения на изображения, которые были одновременно детализированными и правдоподобными — даже при увеличении в 256 раз.
Реальный потенциал

При параллельном сравнении с другими методами, включая масштабирование по принципу ближайшего соседа и одноступенчатое сверхразрешение, CoZ получал изображения, которые выделялись своей четкостью и текстурой. Его результаты оценивались с использованием нескольких показателей качества без ссылок, таких как NIQE и CLIPIQA. На четырех уровнях увеличения (4×, 16×, 64×, 256×) CoZ неизменно превосходил альтернативы, особенно на больших масштабах.

Но помимо цифр, обещание Chain-of-Zoom заключается в его гибкости.
Он не требует повторного обучения базовой модели со сверхвысоким разрешением. Это делает его более доступным для разработчиков и исследователей, которые уже полагаются на такие модели, как Stable Diffusion. Это также открывает двери для приложений, которым требуется быстрое и высокоточное масштабирование без огромных вычислительных затрат.
Все это может изменить наш подход к сверхразрешению.
Потенциальное использование охватывает различные области, в том числе:
- Медицинская визуализация , где повышенная детализация может помочь в диагностике.
- Видеозаписи с камер наблюдения , помогая следователям читать далекие номерные знаки или черты лица.
- Сохранение культурного наследия , восстанавливая старые фотографии с небывалой четкостью.
- Научная визуализация , особенно в таких областях, как микроскопия или астрономия.
В одной из демонстраций CoZ улучшал фотографию листьев до тех пор, пока не стали видны отдельные прожилки — особенности, которые не были различимы на исходном изображении с низким разрешением. В другом он обнажил тонкое переплетение ткани.
Хотя эти примеры убедительны, они также намекают на обоюдоострый меч. Как только вы увеличите масштаб достаточно сильно, вы больше не увидите исходное изображение, а увидите синтетическую копию. Другими словами, декорации на улучшенном изображении не существуют в реальности, хотя они могут очень сильно напоминать оригинальный объект фотографии.
Это не делает эту модель менее полезной, но эти ограничения нужно прекрасно понимать.
Ограничения сопряжены с соответствующими рисками. Такие технологии, как Chain-of-Zoom, хотя и не являются по своей сути обманчивыми, могут использоваться для манипулирования визуальными данными или создания вводящего в заблуждение контента из размытых источников.
Авторы признают это в своей статье: «Высокоточная генерация из входных данных с низким разрешением может вызвать обеспокоенность по поводу дезинформации или несанкционированного восстановления конфиденциальных визуальных данных».
В мире, который уже борется с дипфейками и визуальной дезинформацией, возможность «видеть больше» не всегда является благословением. Решение, как всегда, заключается в прозрачной разработке и ответственном использовании.
Новый взгляд на зрение
На данный момент Chain-of-Zoom представляет собой элегантное решение глубоко практической проблемы. Он не изобретает велосипед заново — он просто меняет то, как вращается колесо.
Вместо того, чтобы растягивать изображения до предела, CoZ задается вопросом: что, если мы будем делать это медленно, по одному зуму за раз?
В результате получаются не только более четкие изображения. Это более четкий путь вперед.
ЛУЧШИЙ