CVPR 2020 最佳論文提名 | 神經(jīng)網(wǎng)絡(luò)能否識(shí)別鏡像翻轉(zhuǎn)
為了深入了解人臉的視覺(jué)手性現(xiàn)象,作者在人臉數(shù)據(jù)集上進(jìn)行了孤立訓(xùn)練。
作者在Flickr-Faces-HQ (FFHQ)人臉數(shù)據(jù)集上進(jìn)行了訓(xùn)練,并在測(cè)試集上取得了高達(dá)81%的精度,并利用手性特征聚類(lèi)對(duì)人臉中的視覺(jué)手性現(xiàn)象進(jìn)行了初步的探討:
1) 劉海分界處:人們一般用右手來(lái)分理劉海,這會(huì)導(dǎo)致劉海的朝向向一側(cè)偏移,并出現(xiàn)視覺(jué)手性現(xiàn)象。
2) 眼睛:人們?cè)诳聪蛭矬w時(shí)傾向于用一只主視眼進(jìn)行瞄準(zhǔn),這樣會(huì)導(dǎo)致人們的目光在進(jìn)行拍攝時(shí)出現(xiàn)偏移。多數(shù)人的主視眼為右眼,而這一現(xiàn)象可能是導(dǎo)致視覺(jué)手性現(xiàn)象的成因。
3)胡子:與頭發(fā)一樣,可能與人們習(xí)慣于用右手理胡子有關(guān)。
作者提到,文中對(duì)以上的視覺(jué)手性現(xiàn)象的討論均為初步的分析,而人臉中任有大量的視覺(jué)手性線索值得被發(fā)掘。
五、數(shù)字圖像處理
作者對(duì)數(shù)字圖像處理過(guò)程,例如去馬賽克(最常見(jiàn)為Bayer Demosaicing)和圖片壓縮(最常見(jiàn)為JPEG Compression)過(guò)程中產(chǎn)生的視覺(jué)手性現(xiàn)象進(jìn)行了分析。舉個(gè)例子,當(dāng)作者首次利用神經(jīng)網(wǎng)絡(luò)在Instagram數(shù)據(jù)集上進(jìn)行自監(jiān)督訓(xùn)練時(shí),發(fā)現(xiàn)沒(méi)有使用隨機(jī)剪裁(random cropping)的神經(jīng)網(wǎng)絡(luò)盡管精度更高(在測(cè)試集上高達(dá)92%),但在部分圖片上,類(lèi)激活映射所得到的熱圖更著重關(guān)注圖片的邊緣部分,如左下圖所示:
而在使用隨機(jī)剪裁之后,我們得到的新的熱圖則更關(guān)注來(lái)自于圖片中物體本身的線索(例如圖中的襯衫領(lǐng)子)。作者推斷這是由于Instagram的圖片均為JPEG格式,經(jīng)過(guò)了JPEG圖像壓縮這一數(shù)字圖像處理方式。JPEG壓縮的算法是在圖片上對(duì)于每16乘16的像素格進(jìn)行分別處理的,而對(duì)于不能被16整除的圖片,其邊緣會(huì)用統(tǒng)一方式進(jìn)行處(例如重復(fù)邊緣像素)。這會(huì)導(dǎo)致JPEG壓縮的圖片的邊緣失真(edge artifact),從而導(dǎo)致了視覺(jué)手性現(xiàn)象。
作者通過(guò)概率論與群論(group theory)對(duì)數(shù)字圖像處理過(guò)程產(chǎn)生的視覺(jué)手性現(xiàn)象進(jìn)行了數(shù)學(xué)論證,并通過(guò)神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)驗(yàn)證了這一現(xiàn)象在互聯(lián)網(wǎng)圖片中廣泛存在。而此類(lèi)的線索往往不能被肉眼可見(jiàn),卻在圖片中存在固定的模式,因而為圖像識(shí)偽的應(yīng)用創(chuàng)造了可能性。
由于文中的證明和實(shí)驗(yàn)過(guò)程較為復(fù)雜,此處我們先給出數(shù)學(xué)定義和最重要的幾點(diǎn)結(jié)論。
1、定義
D為數(shù)據(jù)集所來(lái)源于的圖像分布。T為一個(gè)圖像變換函數(shù),例如鏡像翻轉(zhuǎn)。需要注意的是論文中的證明不僅限于鏡像翻轉(zhuǎn),也可以被用于任何具備結(jié)合律(associativitive)和可逆性(invertible)的變換。J為一個(gè)圖像處理函數(shù)。例如去馬賽克以及JPEG圖片壓縮。
為經(jīng)過(guò)J處理后所得到的的新圖像分布。
我們沿用之前對(duì)視覺(jué)手性的定義:對(duì)于任意圖片x,如果D(x)= D(T(x)),那么D不具備視覺(jué)手性。對(duì)于任何經(jīng)過(guò)數(shù)字圖像處理的圖片y,如果
,那么
同樣不具備視覺(jué)手性。
文中最重要的結(jié)論是:
當(dāng)圖像變換函數(shù)T和圖像處理函數(shù)J具備交換律(commutative property)時(shí),如果原先的圖像分布D沒(méi)有視覺(jué)手性,經(jīng)過(guò)數(shù)字圖像處理后的分布DJ也不具備視覺(jué)手性。換句話說(shuō),我們可以通過(guò)檢查T(mén)和J的交換律,來(lái)判斷數(shù)字圖像處理能否造成視覺(jué)手性現(xiàn)象。
作者在論文中主要涉及了兩種最常見(jiàn)的圖像處理方式:
去馬賽克(Demosaicing):數(shù)字相機(jī)的感光元件一般只能在每個(gè)像素格上捕捉RGB中的其中一種顏色,而其中最常用的為貝爾濾色鏡(Bayer Color Filter Array),如下圖所示。去馬賽克則是將感光元件得到的二維圖像還原為三維全彩的這一過(guò)程。
JPEG壓縮算法(JPEG Compression):JPEG是一種有損的圖像壓縮方式,被廣泛應(yīng)用在如今大量的互聯(lián)網(wǎng)圖片上。一般以每16乘16的像素格為單位通過(guò)色彩空間變換,縮減像素采樣,離散余弦變換等步驟來(lái)進(jìn)行圖片編碼壓縮。
2、結(jié)論
去馬賽克或JPEG壓縮算法單獨(dú)使用時(shí),會(huì)在特定的圖片大小產(chǎn)生視覺(jué)手性現(xiàn)象。對(duì)于去馬賽克,由于貝爾濾色鏡為2乘2的像素格,且濾色鏡本身不對(duì)稱(chēng)(參考上圖綠紅藍(lán)綠的排序),任何能被2整除的圖片寬度均會(huì)導(dǎo)致視覺(jué)手性。對(duì)于JPEG壓縮,任何不被16整除的圖片寬度均會(huì)導(dǎo)致視覺(jué)手性。這意味著,當(dāng)去馬賽克和JPEG壓縮被共同使用時(shí),任意寬度的圖片都將產(chǎn)生視覺(jué)手性,因?yàn)橥瑫r(shí)滿(mǎn)足不被2整除和能被16整除的數(shù)字不存在。當(dāng)使用隨機(jī)剪裁(random cropping)時(shí),去馬賽克或JPEG壓縮單獨(dú)使用并不產(chǎn)生視覺(jué)手性現(xiàn)象。當(dāng)使用隨機(jī)剪裁(random cropping)時(shí),去馬賽克和JPEG壓縮同時(shí)使用將會(huì)產(chǎn)生視覺(jué)手性現(xiàn)象。這意味著互聯(lián)網(wǎng)圖片中可能存在大量有規(guī)律的,肉眼不可見(jiàn)的視覺(jué)手性線索,而人們將能夠利用這類(lèi)線索來(lái)進(jìn)行圖片識(shí)偽。
3、證明
那下面我們進(jìn)入證明部分(讀者需要對(duì)群論(Group Theory)有一定基礎(chǔ))文中最重要的證明為附加材料中的命題3:
命題3:當(dāng)原圖像分布D不具備視覺(jué)手性時(shí),如果圖像處理函數(shù)J與圖像變換函數(shù)T具備交換律,則經(jīng)J處理后的圖像分布DJ也不具備視覺(jué)手性。
證明:由于T具備可逆性和分配律,T可以將原分布中的圖片分為一個(gè)個(gè)不相交的循環(huán)群(disjoint cyclic groups)。
即為一個(gè)循環(huán)群,而這個(gè)循環(huán)群的單位元(identity element)可以選這個(gè)集合里面任意一個(gè)元素。這些循環(huán)群的群運(yùn)算(group operation)可以被定義如下:
每個(gè)循環(huán)群的階(order of group)由T以及其中的元素決定。舉個(gè)例子,如果T為鏡像翻轉(zhuǎn),那么對(duì)于一張對(duì)稱(chēng)的照片
,其所在群的階為1
。對(duì)于不對(duì)稱(chēng)的一張照片
,其所在群的階為2。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
推薦專(zhuān)題
- 1 人形機(jī)器人,正狂奔在批量交付的曠野
- 2 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 3 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 4 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 5 2025年8月人工智能投融資觀察
- 6 7 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 8 Manus跑路,大廠掉線,只能靠DeepSeek了
- 9 一家被嚴(yán)重低估的國(guó)產(chǎn)AI巨頭
- 10 地平線的野心:1000萬(wàn)套HSD上車(chē)