Holopix50k發(fā)布: 最多最豐富的雙目數(shù)據(jù)集大幅提升多個(gè)相關(guān)任務(wù)性能?
隨著配備雙目攝像頭的智能手機(jī)逐步增加,利用計(jì)算機(jī)視覺(jué)處理立體信息的需求也變得越來(lái)越重要。但現(xiàn)有的立體視覺(jué)數(shù)據(jù)集無(wú)論在數(shù)量和多樣性上都不足以支持豐富場(chǎng)景的雙目立體應(yīng)用。
為了解決這一問(wèn)題,來(lái)自Leia公司的研究人員們構(gòu)建了一個(gè)包含49368對(duì)圖像的立體視覺(jué)數(shù)據(jù)集Holopix50k,這一數(shù)據(jù)集從大小和多樣性上都超過(guò)了現(xiàn)有的公開(kāi)數(shù)據(jù)集,在立體圖像超分辨、單目深度估計(jì)等任務(wù)上都取得了非常大的性能提升。
立體視覺(jué)的及其廣泛應(yīng)用
近年來(lái)隨著硬件的發(fā)展,立體視覺(jué)已經(jīng)在智能手機(jī)中普及。通過(guò)雙目攝像頭不同視角的拍攝下能夠得到場(chǎng)景的立體信息,對(duì)于3D照片、虛擬現(xiàn)實(shí)和交互等應(yīng)用有著重要的作用。此外移動(dòng)機(jī)器人和自動(dòng)駕駛的迅速發(fā)展,也為立體視覺(jué)算法提出了更高的要求,需要在更為復(fù)雜的場(chǎng)景、多樣的真實(shí)環(huán)境中有效工作。
立體視覺(jué)的主要任務(wù)包括立體視差估計(jì)、基于自監(jiān)督或者無(wú)監(jiān)督方法對(duì)單張圖像輸入進(jìn)行單目深度估計(jì)和基于立體圖像提升分辨率的圖像超分辨等任務(wù)。這些任務(wù)都需要高質(zhì)量的大規(guī)模雙目/深度數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練。
目前人工智能領(lǐng)域的深度學(xué)習(xí)算法在多個(gè)領(lǐng)域取得重大的進(jìn)展,但大規(guī)模的、多樣性的數(shù)據(jù)需求卻成為了立體視覺(jué)領(lǐng)域開(kāi)發(fā)出優(yōu)秀算法的阻礙!大規(guī)模的立體數(shù)據(jù)集是提升算法性能的關(guān)鍵之一。
目前立體視覺(jué)領(lǐng)域的數(shù)據(jù)集主要包括像KITTI,Middlebury、NYU Indoor等較為流行的真實(shí)數(shù)據(jù)集、還包括Make3D、ETH3D、CMLA和Cityscape等針對(duì)特定領(lǐng)域的數(shù)據(jù)集,近年來(lái)還出現(xiàn)了像Flickr1024和WSVD等場(chǎng)景更為豐富的數(shù)據(jù)集,但這些數(shù)據(jù)集在數(shù)量和相關(guān)指標(biāo)上并沒(méi)有良好的結(jié)果。
此外為了克服真實(shí)世界中數(shù)據(jù)收集的困難,研究人員還提出了利用圖形學(xué)渲染的方法來(lái)渲染獲取大量的雙目數(shù)據(jù),主要包括MPI Sintel、SceneFlow、UnrealStereo和3D Ken Burns等數(shù)據(jù),但合成數(shù)據(jù)應(yīng)用于真實(shí)場(chǎng)景會(huì)受到域遷移問(wèn)題的影響,同時(shí)還需要很大的努力來(lái)構(gòu)建豐富的數(shù)字化場(chǎng)景。而Holopix50k的目的就在于綜合解決這些存在的問(wèn)題。
Holopix50k
這一數(shù)據(jù)集主要從社交媒體平臺(tái)上收集而來(lái),Holopix是目前最主流的3D攝影共享平臺(tái),包含了大量的多視角立體視覺(jué)照片并可以利用視差效應(yīng)來(lái)顯示出三維效果。這里匯集了世界上最為豐富的立體視覺(jué)社交媒體圖像,用戶只需要上傳兩個(gè)或多個(gè)視角,就可以在光場(chǎng)顯示設(shè)備上獲取多視角圖像,也可以在普通設(shè)備上獲取基于移動(dòng)的模擬立體圖像。
在Holopix平臺(tái)上RED Hydrogen One拍攝的圖像最多,作為第一款集成光場(chǎng)性能的消費(fèi)級(jí)手機(jī),它可以提供四個(gè)視角的多角度顯示。它擁有兩個(gè)水平排列的相機(jī),同時(shí)對(duì)圖像進(jìn)行了校正并收斂于立體圖像的平均視差。與Flickr1024不同的是,這種方法并沒(méi)有對(duì)圖像進(jìn)行剪切來(lái)使得圖像片收斂于無(wú)窮遠(yuǎn)處的立體視差。
在最開(kāi)始的階段,研究人員首先從Holopix上收集了約70k適合于作為數(shù)據(jù)集的立體視覺(jué)圖像對(duì),針對(duì)左右圖像分辨率不匹配的情況會(huì)將兩張圖像的分辨率統(tǒng)一為其中較小的分辨率,利用高斯平滑和雙三次插值來(lái)將分辨率較高的圖像進(jìn)行下采樣。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車研發(fā)中心重磅落地,寶馬家門口“搶人”
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
推薦專題
- 1 人形機(jī)器人,正狂奔在批量交付的曠野
- 2 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 3 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 4 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 5 2025年8月人工智能投融資觀察
- 6 7 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 8 一家被嚴(yán)重低估的國(guó)產(chǎn)AI巨頭
- 9 Manus跑路,大廠掉線,只能靠DeepSeek了
- 10 地平線的野心:1000萬(wàn)套HSD上車