訂閱
糾錯(cuò)
加入自媒體

復(fù)旦大學(xué) × 階躍星辰開源最新力作PixelSmile:AI 終于實(shí)現(xiàn)人臉表情PhotoShop

作者:Jiabin Hua,Wei Cheng等

解讀:AI生成未來復(fù)旦大學(xué)與階躍星辰最新研究開源,聚焦人臉的細(xì)粒度表情編輯,把表情編輯真正做出了 PhotoShop 編輯的感覺!

亮點(diǎn)直擊

語義重疊的系統(tǒng)性分析。揭示并形式化了面部表情之間存在的結(jié)構(gòu)化語義重疊,證明這種結(jié)構(gòu)化語義重疊,而非單純的分類錯(cuò)誤,是導(dǎo)致識別與生成式編輯任務(wù)失敗的主要原因。

數(shù)據(jù)集與基準(zhǔn)測試。構(gòu)建了FFE數(shù)據(jù)集,一個(gè)包含12類表情類別及連續(xù)情感標(biāo)注的大規(guī)?珙I(lǐng)域數(shù)據(jù)集,并建立了FFE-Bench多維度評估體系,專門用于評估結(jié)構(gòu)混淆性、表情編輯準(zhǔn)確性、線性可控性以及表情編輯與身份保留之間的權(quán)衡關(guān)系。

PixelSmile框架。提出了一種基于擴(kuò)散模型的新型框架,通過全對稱聯(lián)合訓(xùn)練與文本隱空間插值技術(shù),有效解耦了重疊的情感表征,實(shí)現(xiàn)了非糾纏且線性可控的表情編輯。

別的 AI 圖像編輯已經(jīng)很強(qiáng)了,但一旦任務(wù)落到人臉的細(xì)粒度表情編輯上,問題還是會立刻暴露出來:要么改不動,要么改不對,要么改著改著連臉都一起崩了。最近,復(fù)旦大學(xué)與階躍星辰聯(lián)合推出 PixelSmile,把這件事往前推了一大步。它不僅能夠圍繞 12 個(gè)目標(biāo)表情做更細(xì)致的編輯,還能連續(xù)控制表情強(qiáng)度,把表情編輯真正做出了 PhotoShop 編輯的感覺。除此之外,這套能力還延伸到了動漫風(fēng)格圖像,并進(jìn)一步展示了自然的表情組合效果。

直接看效果

先直接看效果,看看 PixelSmile 到底把表情編輯做到了什么程度。

PixelSmile 不是只能“改出一個(gè)表情”,而是已經(jīng)能把表情編輯做得更細(xì)、更穩(wěn)、更豐富。無論是真人圖像還是二次元角色,它都能給出清晰的目標(biāo)表情變化;更重要的是,這種變化不是一張圖突然跳到另一張圖,而是可以沿著同一個(gè)方向連續(xù)推進(jìn),直接做出動態(tài)視頻一樣的順滑效果。

連 Nano Banana Pro 都做不好的難題

除了連續(xù)可控之外,PixelSmile 的另一個(gè)關(guān)鍵結(jié)果,是它更好地處理了細(xì)粒度表情里的語義混淆問題。

人臉表情并不是幾個(gè)完全割裂的按鈕。驚訝和恐懼、憤怒和厭惡,本來就很接近,所以很多通用模型一旦進(jìn)入細(xì)粒度表情編輯,就很容易出現(xiàn)兩類問題:要么目標(biāo)表情本身就混了,編輯出來不夠準(zhǔn);要么為了把表情做明顯,連人物身份也一起帶偏了。

PixelSmile 想解決的正是這兩個(gè)問題。一方面,它希望把目標(biāo)表情做得更清楚,減少相近情緒之間的串?dāng)_;另一方面,它又盡量把人物身份保留下來,而不是靠把整張臉改掉來換取更強(qiáng)的表情變化。

和其他模型放在一起看時(shí),這個(gè)差異會更明顯。像 Nano Banana Pro 和 GPT-Image-1.5 這樣的強(qiáng)通用模型,在細(xì)粒度表情編輯里依然會遇到同樣的問題:要么表情編輯存在混淆,要么一旦把表情拉強(qiáng),人物身份一致性就會明顯下降。

連續(xù)可控,把單圖編輯做出了動圖效果

單圖編輯成多圖并不難,難的是讓這些圖之間真的形成一條自然、平滑、可控的變化曲線。過去很多線性編輯模型在連續(xù)表情控制上都會出現(xiàn)各種問題:要么目標(biāo)表情不夠準(zhǔn),要么人臉越改越不像原來的人,要么控制看起來只是機(jī)械地加大一個(gè)統(tǒng)一程度。PixelSmile 的亮點(diǎn)就在于,它把連續(xù)控制、表情準(zhǔn)確性和身份保持更穩(wěn)地放在了一起。

為什么 AI 編輯做不到這種看似簡單的要求

人臉表情并不是嚴(yán)格割裂的幾個(gè)按鈕。真實(shí)的情緒變化更像一條連續(xù)曲線,很多相近情緒天然存在重疊區(qū)域。也正因?yàn)槿绱,表情編輯并不?ldquo;換個(gè)濾鏡”那么簡單。

如果模型沒有真正學(xué)會這些細(xì)微邊界,就很容易出現(xiàn)兩個(gè)常見問題。第一,目標(biāo)表情不夠準(zhǔn),驚訝里混著恐懼,厭惡里混著憤怒。第二,為了把表情做明顯,模型會把臉本身也一起改掉,最后雖然表情變了,但人已經(jīng)不像原來那個(gè)人了。

所以這件事真正難的,從來不是“能不能改出一個(gè)表情”,而是能不能把表情改對、改細(xì),還不要把人一起改掉。

除了編輯,還能組合出新表情

除了對單一目標(biāo)表情做連續(xù)控制,PixelSmile 還天然支持表情混合。

這意味著它不是單獨(dú)記住每個(gè)表情獨(dú)立的樣子,而是完全理解了構(gòu)成表情內(nèi)基本的五官特征。比如驚訝和開心疊在一起,更接近“驚喜”;厭惡和開心混在一起,也會呈現(xiàn)出一種更微妙的“禮貌的嫌棄”。這類結(jié)果更靈活,也更符合真實(shí)情緒并不總是完全單一的直覺。

首個(gè)統(tǒng)一的表情編輯評估框架

PixelSmile 不只是給出了一個(gè)模型,也把這個(gè)方向里長期缺失的數(shù)據(jù)和評測基礎(chǔ)設(shè)施一起補(bǔ)了起來。

其中,F(xiàn)FE 是首個(gè)為細(xì)粒度表情編輯提供連續(xù)表情分?jǐn)?shù)標(biāo)注的數(shù)據(jù)集,不再只用簡單的離散標(biāo)簽去描述表情,而是第一次用連續(xù)分?jǐn)?shù)去刻畫更細(xì)的情緒變化。

與之配套的 FFE-Bench,則是首個(gè)統(tǒng)一的表情編輯評估框架,不再只看結(jié)果圖“像不像”“好不好看”,而是把表情是否編輯準(zhǔn)確、控制是否穩(wěn)定、身份是否保持這些真正關(guān)鍵的問題,第一次放進(jìn)同一套標(biāo)準(zhǔn)里去衡量。

更全面的體驗(yàn)

PixelSmile 已經(jīng)公開了論文、代碼、模型、Benchmark 和 Demo,想進(jìn)一步了解方法細(xì)節(jié)、直接上手體驗(yàn),或者看看完整效果,都可以從下面這些入口進(jìn)入。

項(xiàng)目頁:https://ammmob.github.io/PixelSmile/

論文:https://arxiv.org/abs/2603.25728

GitHub:https://github.com/Ammmob/PixelSmile

模型:https://huggingface.co/PixelSmile/PixelSmile

Benchmark:https://huggingface.co/datasets/PixelSmile/FFE-Bench

Demo:https://huggingface.co/spaces/PixelSmile/PixelSmile-Demo

結(jié)語

PixelSmile 最吸引人的地方,不只是把人臉表情編輯做得更豐富,而是把這件事真正往可控、可用的方向推了一步。12 個(gè)目標(biāo)表情的連續(xù)控制、相近情緒之間更少的混淆、盡量穩(wěn)定的身份保持,再加上動漫編輯和表情混合這些更直觀的能力,讓它不再只是“能改表情”,而是開始接近真正可調(diào)的人臉表情編輯。

更重要的是,這項(xiàng)工作還同時(shí)補(bǔ)上了連續(xù)表情分?jǐn)?shù)數(shù)據(jù)和統(tǒng)一評估框架,讓這個(gè)方向第一次有了更系統(tǒng)的數(shù)據(jù)與 Benchmark 支撐。對于關(guān)注 AIGC、人像編輯和可控生成的讀者來說,PixelSmile 是一個(gè)很值得繼續(xù)關(guān)注的工作。

參考文獻(xiàn)

[1] PixelSmile: Toward Fine-Grained Facial Expression Editing

       原文標(biāo)題 : 復(fù)旦大學(xué) × 階躍星辰開源最新力作PixelSmile:AI 終于實(shí)現(xiàn)人臉表情PhotoShop

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號