123,123,123

復(fù)旦大學(xué) × 階躍星辰開源最新力作PixelSmile：AI 終于實(shí)現(xiàn)人臉表情PhotoShop

2026-04-01 14:09

作者：Jiabin Hua，Wei Cheng等

解讀：AI生成未來復(fù)旦大學(xué)與階躍星辰最新研究開源，聚焦人臉的細(xì)粒度表情編輯，把表情編輯真正做出了 PhotoShop 編輯的感覺！

亮點(diǎn)直擊

語義重疊的系統(tǒng)性分析。揭示并形式化了面部表情之間存在的結(jié)構(gòu)化語義重疊，證明這種結(jié)構(gòu)化語義重疊,而非單純的分類錯(cuò)誤,是導(dǎo)致識別與生成式編輯任務(wù)失敗的主要原因。

數(shù)據(jù)集與基準(zhǔn)測試。構(gòu)建了FFE數(shù)據(jù)集,一個(gè)包含12類表情類別及連續(xù)情感標(biāo)注的大規(guī)�？珙I(lǐng)域數(shù)據(jù)集,并建立了FFE-Bench多維度評估體系，專門用于評估結(jié)構(gòu)混淆性、表情編輯準(zhǔn)確性、線性可控性以及表情編輯與身份保留之間的權(quán)衡關(guān)系。

PixelSmile框架。提出了一種基于擴(kuò)散模型的新型框架，通過全對稱聯(lián)合訓(xùn)練與文本隱空間插值技術(shù)，有效解耦了重疊的情感表征，實(shí)現(xiàn)了非糾纏且線性可控的表情編輯。

別的 AI 圖像編輯已經(jīng)很強(qiáng)了，但一旦任務(wù)落到人臉的細(xì)粒度表情編輯上，問題還是會立刻暴露出來：要么改不動，要么改不對，要么改著改著連臉都一起崩了。最近，復(fù)旦大學(xué)與階躍星辰聯(lián)合推出 PixelSmile，把這件事往前推了一大步。它不僅能夠圍繞 12 個(gè)目標(biāo)表情做更細(xì)致的編輯，還能連續(xù)控制表情強(qiáng)度，把表情編輯真正做出了 PhotoShop 編輯的感覺。除此之外，這套能力還延伸到了動漫風(fēng)格圖像，并進(jìn)一步展示了自然的表情組合效果。

直接看效果

先直接看效果，看看 PixelSmile 到底把表情編輯做到了什么程度。

PixelSmile 不是只能“改出一個(gè)表情”，而是已經(jīng)能把表情編輯做得更細(xì)、更穩(wěn)、更豐富。無論是真人圖像還是二次元角色，它都能給出清晰的目標(biāo)表情變化；更重要的是，這種變化不是一張圖突然跳到另一張圖，而是可以沿著同一個(gè)方向連續(xù)推進(jìn)，直接做出動態(tài)視頻一樣的順滑效果。

連 Nano Banana Pro 都做不好的難題

除了連續(xù)可控之外，PixelSmile 的另一個(gè)關(guān)鍵結(jié)果，是它更好地處理了細(xì)粒度表情里的語義混淆問題。

人臉表情并不是幾個(gè)完全割裂的按鈕。驚訝和恐懼、憤怒和厭惡，本來就很接近，所以很多通用模型一旦進(jìn)入細(xì)粒度表情編輯，就很容易出現(xiàn)兩類問題：要么目標(biāo)表情本身就混了，編輯出來不夠準(zhǔn)；要么為了把表情做明顯，連人物身份也一起帶偏了。

PixelSmile 想解決的正是這兩個(gè)問題。一方面，它希望把目標(biāo)表情做得更清楚，減少相近情緒之間的串?dāng)_；另一方面，它又盡量把人物身份保留下來，而不是靠把整張臉改掉來換取更強(qiáng)的表情變化。

和其他模型放在一起看時(shí)，這個(gè)差異會更明顯。像 Nano Banana Pro 和 GPT-Image-1.5 這樣的強(qiáng)通用模型，在細(xì)粒度表情編輯里依然會遇到同樣的問題：要么表情編輯存在混淆，要么一旦把表情拉強(qiáng)，人物身份一致性就會明顯下降。

連續(xù)可控，把單圖編輯做出了動圖效果

單圖編輯成多圖并不難，難的是讓這些圖之間真的形成一條自然、平滑、可控的變化曲線。過去很多線性編輯模型在連續(xù)表情控制上都會出現(xiàn)各種問題：要么目標(biāo)表情不夠準(zhǔn)，要么人臉越改越不像原來的人，要么控制看起來只是機(jī)械地加大一個(gè)統(tǒng)一程度。PixelSmile 的亮點(diǎn)就在于，它把連續(xù)控制、表情準(zhǔn)確性和身份保持更穩(wěn)地放在了一起。

為什么 AI 編輯做不到這種看似簡單的要求

人臉表情并不是嚴(yán)格割裂的幾個(gè)按鈕。真實(shí)的情緒變化更像一條連續(xù)曲線，很多相近情緒天然存在重疊區(qū)域。也正因?yàn)槿绱�，表情編輯并不�?ldquo;換個(gè)濾鏡”那么簡單。

如果模型沒有真正學(xué)會這些細(xì)微邊界，就很容易出現(xiàn)兩個(gè)常見問題。第一，目標(biāo)表情不夠準(zhǔn)，驚訝里混著恐懼，厭惡里混著憤怒。第二，為了把表情做明顯，模型會把臉本身也一起改掉，最后雖然表情變了，但人已經(jīng)不像原來那個(gè)人了。

所以這件事真正難的，從來不是“能不能改出一個(gè)表情”，而是能不能把表情改對、改細(xì)，還不要把人一起改掉。

除了編輯，還能組合出新表情

除了對單一目標(biāo)表情做連續(xù)控制，PixelSmile 還天然支持表情混合。

這意味著它不是單獨(dú)記住每個(gè)表情獨(dú)立的樣子，而是完全理解了構(gòu)成表情內(nèi)基本的五官特征。比如驚訝和開心疊在一起，更接近“驚喜”；厭惡和開心混在一起，也會呈現(xiàn)出一種更微妙的“禮貌的嫌棄”。這類結(jié)果更靈活，也更符合真實(shí)情緒并不總是完全單一的直覺。

首個(gè)統(tǒng)一的表情編輯評估框架

PixelSmile 不只是給出了一個(gè)模型，也把這個(gè)方向里長期缺失的數(shù)據(jù)和評測基礎(chǔ)設(shè)施一起補(bǔ)了起來。

其中，F(xiàn)FE 是首個(gè)為細(xì)粒度表情編輯提供連續(xù)表情分?jǐn)?shù)標(biāo)注的數(shù)據(jù)集，不再只用簡單的離散標(biāo)簽去描述表情，而是第一次用連續(xù)分?jǐn)?shù)去刻畫更細(xì)的情緒變化。

與之配套的 FFE-Bench，則是首個(gè)統(tǒng)一的表情編輯評估框架，不再只看結(jié)果圖“像不像”“好不好看”，而是把表情是否編輯準(zhǔn)確、控制是否穩(wěn)定、身份是否保持這些真正關(guān)鍵的問題，第一次放進(jìn)同一套標(biāo)準(zhǔn)里去衡量。

更全面的體驗(yàn)

PixelSmile 已經(jīng)公開了論文、代碼、模型、Benchmark 和 Demo，想進(jìn)一步了解方法細(xì)節(jié)、直接上手體驗(yàn)，或者看看完整效果，都可以從下面這些入口進(jìn)入。

項(xiàng)目頁：https://ammmob.github.io/PixelSmile/

論文：https://arxiv.org/abs/2603.25728

GitHub：https://github.com/Ammmob/PixelSmile

模型：https://huggingface.co/PixelSmile/PixelSmile

Benchmark：https://huggingface.co/datasets/PixelSmile/FFE-Bench

Demo：https://huggingface.co/spaces/PixelSmile/PixelSmile-Demo

結(jié)語

PixelSmile 最吸引人的地方，不只是把人臉表情編輯做得更豐富，而是把這件事真正往可控、可用的方向推了一步。12 個(gè)目標(biāo)表情的連續(xù)控制、相近情緒之間更少的混淆、盡量穩(wěn)定的身份保持，再加上動漫編輯和表情混合這些更直觀的能力，讓它不再只是“能改表情”，而是開始接近真正可調(diào)的人臉表情編輯。

更重要的是，這項(xiàng)工作還同時(shí)補(bǔ)上了連續(xù)表情分?jǐn)?shù)數(shù)據(jù)和統(tǒng)一評估框架，讓這個(gè)方向第一次有了更系統(tǒng)的數(shù)據(jù)與 Benchmark 支撐。對于關(guān)注 AIGC、人像編輯和可控生成的讀者來說，PixelSmile 是一個(gè)很值得繼續(xù)關(guān)注的工作。

參考文獻(xiàn)

[1] PixelSmile: Toward Fine-Grained Facial Expression Editing

原文標(biāo)題 : 復(fù)旦大學(xué) × 階躍星辰開源最新力作PixelSmile：AI 終于實(shí)現(xiàn)人臉表情PhotoShop