123,123

媲美Nano Banana Pro！南科大階躍星辰等開源真實(shí)世界圖像恢復(fù)之王RealRestorer

2026-04-10 16:04

AI生成未來

關(guān)注

作者：Yufeng Yang, Xianfang Zeng, Zhangqi Jiang等

解讀：AI生成未來

該工作由南方科技大學(xué)、階躍星辰和中科院深圳先進(jìn)院等機(jī)構(gòu)聯(lián)合完成，并已同步發(fā)布論文、項(xiàng)目頁、模型和基準(zhǔn)測(cè)試。

亮點(diǎn)直擊

真實(shí)世界圖像修復(fù)，不再只停留在“合成退化”，而是做一個(gè)更通用、更能落地的真實(shí)世界圖像修復(fù)模型。

基于大規(guī)模圖像編輯模型改造，兼顧“修得干凈”和“內(nèi)容不跑偏”，重點(diǎn)保留原圖的場(chǎng)景結(jié)構(gòu)、語義內(nèi)容和細(xì)粒度細(xì)節(jié)，避免“修復(fù)過頭”“內(nèi)容變形”“語義漂移”等常見問題。

數(shù)據(jù)、模型、評(píng)測(cè)三位一體。論文不僅提出了模型本身，還構(gòu)建了更貼近真實(shí)分布的數(shù)據(jù)生成流程，并推出了新的真實(shí)世界評(píng)測(cè)基準(zhǔn) RealIR-Bench，模型在開源方法中登頂。

總結(jié)速覽

解決的問題

真實(shí)退化泛化差：傳統(tǒng)圖像修復(fù)方法往往在合成退化數(shù)據(jù)上訓(xùn)練和評(píng)估，一旦遇到真實(shí)拍攝中的復(fù)雜退化，泛化能力就會(huì)明顯下降。

評(píng)測(cè)方式不夠“真實(shí)”：很多修復(fù)任務(wù)依賴成對(duì)干凈圖像來算 PSNR、SSIM，但真實(shí)世界場(chǎng)景往往拿不到嚴(yán)格對(duì)齊的“真值圖”，導(dǎo)致傳統(tǒng)參考式指標(biāo)并不能準(zhǔn)確反映實(shí)際修復(fù)效果。

開源與閉源之間仍有明顯差距：閉源圖像編輯系統(tǒng)已經(jīng)展現(xiàn)出較強(qiáng)的真實(shí)修復(fù)能力，但開源側(cè)長(zhǎng)期缺少一套可以媲美的方案。

提出的方案

核心框架：RealRestorer以開源圖像編輯模型 Step1X-Edit 為基礎(chǔ)，沿用其大規(guī)模 DiT 架構(gòu)、QwenVL 文本編碼器和 Flux-VAE 表征能力，只微調(diào)其中的 DiT 主干，將原本偏高層編輯的能力遷移到低層真實(shí)修復(fù)任務(wù)上。

核心思路：通過大規(guī)模的編輯模型的強(qiáng)大先驗(yàn)，配合合成退化數(shù)據(jù)和真實(shí)退化數(shù)據(jù)流水線，去訓(xùn)練一個(gè)強(qiáng)大的可以在真實(shí)世界場(chǎng)景泛化的圖像修復(fù)模型。

關(guān)鍵技術(shù)點(diǎn)：

構(gòu)建覆蓋9類真實(shí)退化的大規(guī)模退化合成管線，引入更細(xì)粒度的噪聲建模、分區(qū)域擾動(dòng)和 web 風(fēng)格退化過程，縮小合成分布與真實(shí)分布之間的差距。

額外采集真實(shí)退化圖像，并借助高性能模型生成對(duì)應(yīng)配對(duì)高質(zhì)量無退化數(shù)據(jù)，以進(jìn)一步貼近真實(shí)世界分布。

采用兩階段訓(xùn)練：第一階段用約 100 萬組合成退化數(shù)據(jù)做遷移訓(xùn)練，第二階段再引入約 10 萬組真實(shí)退化數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)。并在第二階段中使用 Progressively-Mixed 訓(xùn)練策略，保留少量合成數(shù)據(jù)，避免模型過擬合真實(shí)樣本分布、損失跨任務(wù)泛化能力。

應(yīng)用的技術(shù)

大規(guī)模圖像編輯模型遷移。大規(guī)模圖像編輯模型擁有更強(qiáng)的語義先驗(yàn)和內(nèi)容建模能力，因此更有潛力應(yīng)對(duì)復(fù)雜真實(shí)退化。

合成+真實(shí)混合數(shù)據(jù)構(gòu)建。作者不是簡(jiǎn)單堆數(shù)據(jù)，而是同時(shí)使用合成退化對(duì)和真實(shí)退化對(duì)，以此兼顧可擴(kuò)展性與真實(shí)性。

非參考評(píng)測(cè)基準(zhǔn)。RealIR-Bench 不依賴配對(duì)真值圖，而是引入 VLM 來評(píng)估 Restoration Score（RS），并結(jié)合 LPIPS 衡量?jī)?nèi)容一致性，最終得到綜合的 Final Score（FS）。

達(dá)到的效果

開源SOTA：RealRestorer在 RealIR-Bench 上位居開源方法第一，并在總體排名中位列第三，并且非常接近頂級(jí)閉源模型。

多任務(wù)表現(xiàn)均衡：論文顯示，RealRestorer在9類任務(wù)上都有較強(qiáng)表現(xiàn)，其中在去模糊和弱光增強(qiáng)上拿到最佳結(jié)果，在去摩爾紋上位列第二。整體上，它在開源模型中 5 項(xiàng)第一、2 項(xiàng)第二。

內(nèi)容一致性更強(qiáng)：相比一些“修得很猛但內(nèi)容跑偏”的生編輯模型方法，RealRestorer更加注重結(jié)構(gòu)、語義和細(xì)節(jié)的保存，提升了真實(shí)應(yīng)用中的可用性。

具備零樣本泛化能力：除了論文重點(diǎn)覆蓋的9類退化，作者還報(bào)告了對(duì)未見任務(wù)的 zero-shot 泛化能力，例如雪天去退化、老照片修復(fù)等場(chǎng)景。

方法

模型設(shè)計(jì)

RealRestorer基于 Step1X-Edit 進(jìn)行微調(diào)，核心骨干為大規(guī)模 DiT，文本側(cè)使用 QwenVL 編碼器，圖像則通過 Flux-VAE 映射到潛空間。訓(xùn)練時(shí)凍結(jié) VAE 與文本編碼器，僅微調(diào) DiT 主體，把原本偏“生成/編輯”的能力，逐步遷移到“真實(shí)修復(fù)”任務(wù)上。

數(shù)據(jù)集構(gòu)建

論文將訓(xùn)練數(shù)據(jù)分為兩部分：

1. 合成退化數(shù)據(jù)（Synthetic Degradation Data）

從互聯(lián)網(wǎng)收集干凈圖像，再對(duì)其進(jìn)行高質(zhì)量退化模擬。和傳統(tǒng)簡(jiǎn)單退化不同，這套流程更加貼近真實(shí)拍攝中的復(fù)雜退化模式，并借助 SAM-2、MiDaS、VLM 和質(zhì)量評(píng)估模型進(jìn)行篩選與校驗(yàn)。

2. 真實(shí)退化數(shù)據(jù)（Real-World Degradation Data）

直接從網(wǎng)絡(luò)采集真實(shí)退化圖像，再生成對(duì)應(yīng)的高質(zhì)量參考圖像，并通過 CLIP、水印檢測(cè)、Qwen3-VL 以及低層指標(biāo)做過濾和一致性檢查，最后配合人工復(fù)核保證質(zhì)量。

訓(xùn)練方案

RealRestorer采用兩階段訓(xùn)練：

第一階段：遷移訓(xùn)練（Transfer Training）用大規(guī)模合成退化對(duì)，把圖像編輯模型的高層先驗(yàn)遷移到圖像修復(fù)任務(wù)中，建立基礎(chǔ)修復(fù)能力。

第二階段：監(jiān)督微調(diào)（Supervised Fine-tuning）進(jìn)一步引入真實(shí)退化數(shù)據(jù)，加強(qiáng)模型對(duì)真實(shí)復(fù)雜場(chǎng)景的適應(yīng)能力。作者特別采用了漸進(jìn)式混合訓(xùn)練，在二階段訓(xùn)練的過程中加入部分合成退化數(shù)據(jù)對(duì)，讓模型在靠近真實(shí)分布的同時(shí)，不丟掉合成數(shù)據(jù)帶來的廣泛泛化能力。

二階段訓(xùn)練全程使用 1024×1024 高分辨率設(shè)置。

實(shí)驗(yàn)

RealIR-Bench 是完全由互聯(lián)網(wǎng)采集的真實(shí)退化圖像組成，共 464 張，覆蓋9類退化，并通過人工過濾保證場(chǎng)景多樣性、退化強(qiáng)度和圖像質(zhì)量。與傳統(tǒng)“有真值”的合成測(cè)試集不同，它更強(qiáng)調(diào)真實(shí)環(huán)境下的修復(fù)能力。

評(píng)測(cè)方式：既看“修沒修好”，也看“內(nèi)容變沒變”

論文沒有只看 PSNR/SSIM，而是設(shè)計(jì)了兩類互補(bǔ)指標(biāo)：

R S（Restoration Score）：衡量退化去除效果；

LPIPS/LPS：衡量修復(fù)前后內(nèi)容一致性；

FS（Final Score）：綜合兩者后的最終分?jǐn)?shù)。

結(jié)果表現(xiàn)

實(shí)驗(yàn)表明，RealRestorer在 RealIR-Bench 上持續(xù)優(yōu)于現(xiàn)有開源圖像編輯模型，并取得與頭部閉源系統(tǒng)接近的效果。

消融實(shí)驗(yàn)：兩階段訓(xùn)練不是“可選項(xiàng)”，而是性能關(guān)鍵

為了驗(yàn)證方案設(shè)計(jì)是否真的有效，作者對(duì)訓(xùn)練數(shù)據(jù)和訓(xùn)練階段做了系統(tǒng)消融。結(jié)果顯示，僅使用約 100 萬組合成退化數(shù)據(jù)進(jìn)行第一階段訓(xùn)練時(shí)，模型雖然能夠逐步學(xué)到基礎(chǔ)修復(fù)能力，并在這一階段達(dá)到 0.122 的 FS 峰值，但對(duì)復(fù)雜真實(shí)退化的泛化仍然不足，而且隨著訓(xùn)練繼續(xù)推進(jìn)，還會(huì)因?yàn)楹铣蓴?shù)據(jù)分布有限而出現(xiàn)性能回落。

進(jìn)一步引入約 10 萬組真實(shí)退化數(shù)據(jù)后，模型在第二階段能夠快速超過第一階段的最佳分?jǐn)?shù)，并顯著提升真實(shí)場(chǎng)景下的泛化能力。但如果繼續(xù)在真實(shí)數(shù)據(jù)上訓(xùn)練過久，模型又會(huì)開始出現(xiàn)過擬合，因此作者采用了 early stopping 來控制最終 checkpoint。

作者還進(jìn)一步比較了不同訓(xùn)練策略的差異。只用合成退化數(shù)據(jù)訓(xùn)練的模型，對(duì)復(fù)雜真實(shí)退化仍顯得“修不干凈”；只用真實(shí)退化數(shù)據(jù)訓(xùn)練的模型，則容易過擬合退化模式，出現(xiàn)物體形變、人物位置漂移、自然光源被誤刪、過度增強(qiáng)等問題。相比之下，RealRestorer 采用的兩階段方案在“退化去除能力”和“內(nèi)容結(jié)構(gòu)穩(wěn)定性”之間取得了更好的平衡。

Progressively-Mixed 策略：防過擬合的關(guān)鍵一招

除了兩階段訓(xùn)練本身，論文還單獨(dú)分析了 Progressively-Mixed 策略的作用。作者在第二階段中保留少量合成退化數(shù)據(jù)，與真實(shí)退化數(shù)據(jù)混合訓(xùn)練，以避免模型過度貼合有限的真實(shí)樣本分布。從可視化結(jié)果看，模型在結(jié)構(gòu)一致性和內(nèi)容保真方面也會(huì)更不穩(wěn)定。換句話說，這個(gè)混合策略雖然簡(jiǎn)單，但對(duì)最終性能和觀感都是真實(shí)有效的增益。

User Study：自動(dòng)化指標(biāo)和人眼判斷基本一致

為了驗(yàn)證 RealIR-Bench 這套評(píng)測(cè)指標(biāo)是否真的“符合人類直覺”，作者還做了用戶研究。論文共招募 32 名參與者，對(duì) 5 個(gè)高表現(xiàn)模型生成的 3200 組結(jié)果進(jìn)行排序評(píng)價(jià)，評(píng)價(jià)標(biāo)準(zhǔn)包括兩項(xiàng)：一是修復(fù)質(zhì)量，二是內(nèi)容一致性。結(jié)果顯示，從人工主觀偏好來看，Nano Banana Pro 的第一名占比最高，為 32.02%；GPT-Image-1.5 排第二，為 23.83%；RealRestorer 以 21.54% 位列其后。這個(gè)排序趨勢(shì)與論文中自動(dòng)評(píng)測(cè)得到的總體結(jié)果基本一致，說明該 benchmark 和指標(biāo)體系具備較好的可信度。

更進(jìn)一步，作者還計(jì)算了自動(dòng)指標(biāo)與人工判斷之間的相關(guān)性，包括 Kendall’s τ、Spearman 相關(guān)系數(shù)（SRCC）和 Pearson 相關(guān)系數(shù)（PLCC）。結(jié)果表明評(píng)價(jià)指標(biāo)與人類感知之間達(dá)到了中等程度的一致性。對(duì)真實(shí)世界圖像修復(fù)這類缺乏嚴(yán)格真值圖的任務(wù)來說，這一點(diǎn)非常重要，因?yàn)樗馕吨?RealIR-Bench 不只是“能算分”，而是一定程度上能夠反映真實(shí)用戶的主觀觀感。

結(jié)論

RealRestorer的意義，不只是“又一個(gè)圖像修復(fù)模型”，而是給開源社區(qū)補(bǔ)上了一塊長(zhǎng)期缺失的拼圖：一個(gè)面向真實(shí)世界、多退化統(tǒng)一、兼顧修復(fù)質(zhì)量與內(nèi)容一致性，并且配套完整 benchmark 的開源修復(fù)方案。當(dāng)然，RealRestorer也存在一些局限：由于基礎(chǔ)模型本身需要 28 步去噪推理，計(jì)算成本仍然較高；面對(duì)鏡子自拍、極端強(qiáng)退化、復(fù)雜物理一致性場(chǎng)景時(shí)，模型仍可能失效。

參考文獻(xiàn)

[1] RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models

原文標(biāo)題 : 媲美Nano Banana Pro！南科大&階躍星辰等開源真實(shí)世界圖像恢復(fù)之王RealRestorer