123,123,123

AI生圖細節(jié)崩壞終結者！RefineAnything：多模態(tài)區(qū)域級精修，文字/Logo/人臉一鍵修復，背景像素級不變

2026-04-14 14:33

AI生成未來

關注

作者：Dewei Zhou等

解讀：AI生成未來

效果展示

輸入：

參考圖：

prompt: "Refine the LOGO"

輸出：

輸入：

prompt: "refine the text '鼎好商城'"

輸出：

【導語】 AI生圖技術日新月異，但"局部細節(jié)崩壞"始終是落地應用的痛點——文字扭曲、Logo變形、手指畸變、細小結構斷裂，這些問題在電商海報、廣告設計、UI素材等高精度場景中尤為致命�，F有的編輯模型大多聚焦于粗粒度的語義編輯，難以在不破壞背景的前提下精修局部細節(jié)。為此，研究團隊提出了 RefineAnything——首個專注于區(qū)域級圖像精修的多模態(tài)擴散框架。只需用戶指定一個區(qū)域（涂鴉或框選），即可恢復區(qū)域內的精細細節(jié)，同時嚴格保證區(qū)域外的每一個像素不變，支持有參考圖和無參考圖兩種模式。該工作已被 ECCV 2026 接收。代碼已開源，準備 release ckpt。

一、挑戰(zhàn)：AI生圖的"最后一公里"難題

現代圖像生成模型在整體構圖和語義上已經表現優(yōu)秀，但在局部精細細節(jié)上仍頻繁"翻車"：

局部細節(jié)崩壞 (Local Detail Collapse) ：生成圖像中的文字、Logo、細線條等高頻結構經常出現扭曲、斷裂或模糊，而這些細節(jié)恰恰是商業(yè)場景中最關鍵的信息載體。

區(qū)域控制能力薄弱 (Weak Region Controllability) ：現有的指令驅動編輯模型難以精確控制"在哪里修"，用戶無法有效指定修復區(qū)域。

背景漂移問題 (Background Drift) ：編輯模型在修復局部時，往往會無意間改變背景內容，尤其當目標區(qū)域在全圖中占比較小時更為嚴重。

RefineAnything 正是為了同時解決這三大難題而設計——區(qū)域精準、細節(jié)有效、背景不變。

二、RefineAnything 的核心方法

1. 整體架構：多模態(tài)條件驅動的區(qū)域精修

RefineAnything 構建于 Qwen-Image 架構之上，由三個核心組件組成：

**凍結的多模態(tài)編碼器 (Qwen2.5-VL)**：將輸入圖像、可選的參考圖像、區(qū)域標注（涂鴉/框選）和文字指令統(tǒng)一編碼為多模態(tài)條件token，為去噪過程提供高層語義引導。

VAE 視覺編碼器：將輸入圖和參考圖編碼為 VAE 潛變量，提供底層精細視覺信息，與多模態(tài)token協同作用。

MMDiT 去噪骨干網絡：在多模態(tài)token和VAE潛變量的雙重條件下，逐步去噪生成精修結果。僅需對注意力投影層（to_q, to_k, to_v, to_out）做 LoRA 微調即可訓練。

這一架構統(tǒng)一支持有參考圖（如根據原始Logo參考修復變形Logo）和無參考圖（如僅憑文字指令"修復人臉"）兩種使用場景。

2. Focus-and-Refine：聚焦裁剪，精修回貼

這是 RefineAnything 的核心創(chuàng)新之一，源于一個反直覺的關鍵發(fā)現：

在固定輸入分辨率下，將目標區(qū)域裁剪出來并上采樣到全圖分辨率后再送入 VAE，雖然沒有引入任何新信息，但區(qū)域內的重建質量卻顯著優(yōu)于直接對全圖編碼。

這說明制約局部精修質量的瓶頸并非信息量不足，而是模型的固定分辨率資源是否被分配到了正確的位置�；诖�，團隊提出了三步式的 Focus-and-Refine 策略：

Step 1 — 區(qū)域定位與聚焦裁剪：根據用戶涂鴉/框選計算包圍盒，擴展邊距后裁剪出目標區(qū)域并上采樣至模型輸入分辨率，將分辨率資源集中在待修復區(qū)域。

Step 2 — 聚焦精修：在裁剪視圖上，以裁剪后的涂鴉Mask作為空間條件，執(zhí)行條件生成，配合可選參考圖產出精修結果。

Step 3 — 無縫回貼：對裁剪Mask進行膨脹+高斯模糊生成柔和的融合Mask，將精修結果與原圖在裁剪區(qū)域內加權混合后回貼到全圖，從架構層面保證背景嚴格不變。

3. 邊界一致性損失 (Boundary Consistency Loss)

為進一步消除回貼邊界處的接縫偽影，團隊設計了一種邊界感知的訓練損失：在編輯區(qū)域邊界附近的窄帶區(qū)域內增強監(jiān)督權重，促使模型在訓練階段就學會生成與周圍上下文自然融合的結果，顯著改善了回貼的自然度。

三、數據貢獻：Refine-30K 數據集與 RefineEval 評測基準

Refine-30K 訓練數據集

團隊構建了包含 30K 樣本的專用訓練集：

20K 有參考圖樣本：通過 VLM 跨圖定位 → SAM3 分割 → 涂鴉式局部降質 → 受控修復的完整流水線，生成高質量的配對數據。

10K 無參考圖樣本：在單圖上定位顯著目標、生成局部降質，并引入 VLM 缺陷驗證機制過濾不合理的退化樣本，確保數據質量。

RefineEval 評測基準

團隊同時構建了專用的評測基準 RefineEval，涵蓋 67 個案例、402 張退化輸入，分別評估有參考和無參考兩種設定下的編輯區(qū)域保真度和背景一致性。

四、實驗結果：全面超越強基線

1. 有參考圖精修

RefineAnything 在所有指標上全面領先：相比最強開源基線 Kontext，MSE 降低 **50%**，LPIPS 降低 **41%**，DINO/CLIP 相似度分別提升 +0.108/+0.100。更值得注意的是，背景保持指標接近完美（MSE_bg=0.000, SSIM_bg=0.9997），從根本上消除了背景漂移問題。

2. 無參考圖精修