訂閱
糾錯(cuò)
加入自媒體

Benchmark,具身智能研究最缺乏的基礎(chǔ)設(shè)施

圖片

作者:彭堃方

編輯:呂鑫燚

出品:具身研習(xí)社

 

具身智能模型的結(jié)構(gòu)性矛盾在于,一面是飛速迭代的模型,另一面則是滯后的基準(zhǔn)線。

換句話說(shuō),具身模型一直沒(méi)有一個(gè)科學(xué)、可靠的評(píng)測(cè)標(biāo)準(zhǔn)去讓它從發(fā)散地“野蠻生長(zhǎng)”到牟足勁兒地“向上生長(zhǎng)”。 

“木受繩以直”,具身模型也需要一個(gè)科學(xué)的 Benchmark 去精細(xì)地評(píng)估、診斷甚至是指導(dǎo)未來(lái)研究方向。但現(xiàn)狀是,由于長(zhǎng)期缺乏統(tǒng)一、高標(biāo)準(zhǔn)的真機(jī)測(cè)評(píng)體系,模型的迭代與產(chǎn)業(yè)化進(jìn)程正深受制約。

事實(shí)上,任何產(chǎn)業(yè)從技術(shù)探索走向規(guī);,都會(huì)經(jīng)歷一個(gè)從“百花齊放”到“標(biāo)準(zhǔn)收斂”的階段。

這是從多個(gè)萬(wàn)億級(jí)市場(chǎng)規(guī)模的產(chǎn)業(yè)中驗(yàn)證過(guò)的成功路徑,互聯(lián)網(wǎng)時(shí)代,協(xié)議標(biāo)準(zhǔn)讓全球網(wǎng)絡(luò)互聯(lián)互通;深度學(xué)習(xí)的爆發(fā)也離不開(kāi)評(píng)測(cè)體系。它們并不直接創(chuàng)造產(chǎn)品,卻決定了技術(shù)進(jìn)步的方向與速度。

具身智能正處在類似的早期階段。過(guò)去兩年,從 VLA(Vision-Language-Action)模型到世界模型,技術(shù)路徑層出不窮,研究范式高度分散。但行業(yè)其實(shí)并不缺模型,也不缺演示視頻,缺的是一個(gè)能夠回答模型“在真實(shí)世界中究竟能做到什么程度”的統(tǒng)一標(biāo)尺。

沒(méi)有 Benchmark,模型提升還更多停留在敘事層面。有了 Benchmark,技術(shù)進(jìn)步才具備可驗(yàn)證、可復(fù)現(xiàn)、可積累的產(chǎn)業(yè)價(jià)值。 

在這樣的背景下,CVPR 2026 官方競(jìng)賽 ManipArena 的啟動(dòng),其意義就不再是又多了一場(chǎng)比賽,而在于它試圖補(bǔ)齊具身智能領(lǐng)域最關(guān)鍵、卻長(zhǎng)期缺位的一塊基礎(chǔ)設(shè)施:面向真實(shí)世界的統(tǒng)一評(píng)測(cè)體系。 

 

圖片

更重要的是,一個(gè)可持續(xù)運(yùn)行的研發(fā)平臺(tái)能夠不斷沉淀數(shù)據(jù)、驗(yàn)證結(jié)論并反哺模型迭代,形成“評(píng)測(cè)-改進(jìn)-再評(píng)測(cè)”的正向循環(huán),從而撬動(dòng)整個(gè)領(lǐng)域從無(wú)序探索走向系統(tǒng)進(jìn)化。

圖片

從表面看,ManipArena 是一項(xiàng)機(jī)器人操作競(jìng)賽,但其設(shè)計(jì)邏輯更接近一次系統(tǒng)化能力測(cè)量。

長(zhǎng)期以來(lái),機(jī)器人評(píng)測(cè)依賴于仿真環(huán)境或精心布置、高度簡(jiǎn)化的桌面抓取任務(wù)。這類基準(zhǔn)雖然推動(dòng)了算法進(jìn)步,卻難以反映真實(shí)世界的復(fù)雜性。而真正能還原物理世界的長(zhǎng)時(shí)序決策、空間移動(dòng)、多模態(tài)感知、不可預(yù)測(cè)的物理交互,往往被排除在評(píng)測(cè)之外。這便導(dǎo)致,研發(fā)人員只能蒙眼狂奔,無(wú)法精準(zhǔn)迭代,模型也可能是在實(shí)驗(yàn)室表現(xiàn)亮眼,卻難以遷移到現(xiàn)實(shí)場(chǎng)景。

ManipArena 的核心目標(biāo)正是填補(bǔ)這一鴻溝。賽事共設(shè)置 20 個(gè)真實(shí)機(jī)器人任務(wù),并在統(tǒng)一環(huán)境下進(jìn)行真機(jī)評(píng)測(cè),覆蓋推理能力、泛化能力、長(zhǎng)時(shí)序決策以及多模態(tài)感知等關(guān)鍵維度。相比過(guò)往那些“簡(jiǎn)單的抓取”測(cè)試,這更接近對(duì)完整操作能力的系統(tǒng)審視。

 

圖片

 

ManipArena 賽事花了很多時(shí)間進(jìn)行科學(xué)設(shè)計(jì)。其中一個(gè)重要設(shè)計(jì)是“一個(gè)模型完成全部任務(wù)”(One Model for All Tasks)。參賽者不能針對(duì)不同任務(wù)分別訓(xùn)練模型,而必須依賴統(tǒng)一策略完成所有挑戰(zhàn)。這一規(guī)則本質(zhì)上是在篩選通用能力,而非單點(diǎn)技巧或任務(wù)過(guò)擬合。

另一項(xiàng)關(guān)鍵設(shè)計(jì)是分層 OOD(Out-of-Distribution)評(píng)估。每個(gè)任務(wù)通過(guò)物理屬性、空間布局和語(yǔ)義組合等多維變化,構(gòu)造不同難度等級(jí),從域內(nèi)變化到語(yǔ)義外推,系統(tǒng)測(cè)試模型在未知情況下的表現(xiàn)。這使評(píng)測(cè)不再只給出一個(gè)分?jǐn)?shù),而是呈現(xiàn)能力曲線,揭示模型究竟卡在感知、推理還是執(zhí)行環(huán)節(jié)。

此外,ManipArena 將評(píng)測(cè)范圍從桌面操作擴(kuò)展到包含導(dǎo)航與全身控制的移動(dòng)任務(wù),例如整理衣物、掛畫(huà)、收納物品等,覆蓋更接近真實(shí)生活的操作場(chǎng)景。這意味著它不再評(píng)估“機(jī)械臂技能”,而是評(píng)估“具身系統(tǒng)能力”。

換句話說(shuō),這項(xiàng)競(jìng)賽的目標(biāo)并不是展示機(jī)器人已經(jīng)能做什么,而是盡可能準(zhǔn)確地界定它們暫時(shí)還做不到什么。

這正是產(chǎn)業(yè)決策最需要的信息。所以這次賽事,帶來(lái)的不一定是榜單上的狂歡,但一定會(huì)幫助研究人員認(rèn)清技術(shù)的真實(shí)狀況。

 

圖片

ManipArena 更深遠(yuǎn)的意義,或許在于它并不只是一次競(jìng)賽,而是一個(gè)可持續(xù)運(yùn)行的研究平臺(tái),它有著“常態(tài)化評(píng)測(cè)”“持續(xù)性運(yùn)營(yíng)”“大幅降低門(mén)檻”等特色。

首先,它具備常態(tài)化評(píng)測(cè)能力。參賽者可以基于公開(kāi)數(shù)據(jù)訓(xùn)練模型,通過(guò)遠(yuǎn)程接口提交算法,由平臺(tái)完成真機(jī)測(cè)試并返回結(jié)果。這種機(jī)制不僅適用于比賽,也適用于日常研究驗(yàn)證,使其成為一個(gè)持續(xù)可用的 Benchmark,而非一次性活動(dòng)。

其次,平臺(tái)提供了高質(zhì)量真實(shí)世界數(shù)據(jù)與精細(xì)評(píng)測(cè)體系,包括 188 小時(shí)高質(zhì)量真機(jī)數(shù)據(jù),并承諾未來(lái)持續(xù)開(kāi)源數(shù)據(jù),為模型訓(xùn)練與分析提供直接支撐。在機(jī)器人領(lǐng)域,獲取真實(shí)數(shù)據(jù)的成本極高,這種集中供給本身就是重要的科研基礎(chǔ)設(shè)施。

更關(guān)鍵的是,它顯著降低了參與門(mén)檻。研究團(tuán)隊(duì)無(wú)需購(gòu)買(mǎi)昂貴機(jī)器人設(shè)備,僅依托一臺(tái) GPU 服務(wù)器即可參與全流程評(píng)測(cè)。

這是一個(gè)非常關(guān)鍵的轉(zhuǎn)折點(diǎn),具身智能研究長(zhǎng)期受制于硬件成本,只有少數(shù)實(shí)驗(yàn)室擁有設(shè)備優(yōu)勢(shì),而大多數(shù)團(tuán)隊(duì)難以開(kāi)展真實(shí)世界實(shí)驗(yàn)。遠(yuǎn)程真機(jī)評(píng)測(cè)機(jī)制使更多研究者能夠參與競(jìng)爭(zhēng),擴(kuò)大創(chuàng)新來(lái)源。

額外多說(shuō)一點(diǎn),這種統(tǒng)一硬件的方式,避免了硬件差異對(duì)結(jié)果的影響。而且,由于自變量的“量子一號(hào)”等硬件設(shè)施是 AI 原生、為模型而生,其能夠更好的發(fā)揮模型性能。倘若 ManipArena 真能夠長(zhǎng)續(xù)發(fā)展,也將有助于形成統(tǒng)一的硬件標(biāo)準(zhǔn)。

 

圖片

 

當(dāng)性能差異主要由算法而非設(shè)備決定時(shí),研究重點(diǎn)將更像模型聚焦,從而加速軟件層面的競(jìng)爭(zhēng)與收斂。

“要想富,先修路”,今天的具身智能研究,想要從粗狂的野蠻生長(zhǎng)走向規(guī)范化發(fā)展,正缺少這樣穩(wěn)定、科學(xué)的基礎(chǔ)設(shè)施建設(shè)。

 

圖片

外界可能會(huì)問(wèn),為什么是一家模型企業(yè)來(lái)推動(dòng)這項(xiàng)工作?答案恰恰在于,只有真正開(kāi)發(fā)過(guò)模型的人,才最清楚模型的能力邊界與潛在漏洞。

首先要認(rèn)識(shí)到,Benchmark 從來(lái)不是中性的。它隱含著對(duì)未來(lái)技術(shù)方向的假設(shè):

- 比方說(shuō),ManipArena 將推理、長(zhǎng)時(shí)序決策和多模態(tài)融合放在核心位置,實(shí)際上是在對(duì)具身智能的主流發(fā)展路徑做出判斷,是對(duì)過(guò)去簡(jiǎn)單任務(wù)評(píng)測(cè)的一次技術(shù)矯正; - 再者像,賽事中開(kāi)源的多維數(shù)據(jù)里所特意強(qiáng)調(diào)的電機(jī)電流和關(guān)節(jié)速度,如官方所說(shuō)“電機(jī)電流和關(guān)節(jié)速度可作為力和接觸的代理信號(hào),當(dāng)前主流模型(VLA、World Model)均未有效利用電流和關(guān)節(jié)速度信號(hào)”,ManipArena 此舉針對(duì)性開(kāi)源將有助于推動(dòng)力敏感策略研究;

 - 此外,官方在表態(tài)中多次強(qiáng)調(diào) VLA 與世界模型同臺(tái)競(jìng)技,是否各有千秋,到底孰優(yōu)孰劣在賽中見(jiàn)真章,某種程度上也昭示出技術(shù)的趨勢(shì)。

其次,做過(guò)模型的人更了解模型如何“取巧”。在許多基準(zhǔn)測(cè)試中,模型可以通過(guò)統(tǒng)計(jì)偏差、環(huán)境規(guī)律或特定技巧獲得高分,而不具備真正的通用能力。ManipArena 的設(shè)計(jì)明顯試圖規(guī)避這些問(wèn)題,例如統(tǒng)一環(huán)境、均勻分布變化、跨任務(wù)通用模型要求等,都旨在防止過(guò)擬合和投機(jī)行為。

再次,真正科學(xué)有效的 Benchmark 設(shè)計(jì)往往來(lái)自大量經(jīng)驗(yàn)的積累。只有那些從零到一全鏈路自研,趟踩過(guò)足夠多的坑,才知道模型會(huì)在哪里崩潰。從這個(gè)角度看,“做題做多了的人更會(huì)出題”并非調(diào)侃,而是一種技術(shù)現(xiàn)實(shí)。評(píng)測(cè)體系本質(zhì)上是對(duì)過(guò)去研究經(jīng)驗(yàn)的結(jié)構(gòu)化沉淀,也是對(duì)未來(lái)技術(shù)路徑的引導(dǎo)。

而作為長(zhǎng)期堅(jiān)持端到端具身大模型路線的企業(yè),自變量深度參與了從 VLA 到世界模型融合范式的演進(jìn)過(guò)程,對(duì)模型在真實(shí)物理世界中的能力邊界與失效模式有著一手認(rèn)知。

其自研的 WALL-A 模型首創(chuàng)將 VLA 與世界模型深度融合,在統(tǒng)一多模態(tài)輸入輸出架構(gòu)下引入具身多模態(tài)思維鏈,通過(guò)時(shí)空狀態(tài)預(yù)測(cè)、視覺(jué)因果推理與可學(xué)習(xí)記憶機(jī)制,使機(jī)器人能夠在非結(jié)構(gòu)化環(huán)境中實(shí)現(xiàn)更強(qiáng)的零樣本泛化能力 。同時(shí),依托大規(guī)模真機(jī)強(qiáng)化學(xué)習(xí),模型在持續(xù)與物理世界交互中積累高質(zhì)量經(jīng)驗(yàn),自主修復(fù)長(zhǎng)尾問(wèn)題,形成“基礎(chǔ)模型—真實(shí)交互—能力進(jìn)化”的技術(shù)閉環(huán) 。而在此基礎(chǔ)上開(kāi)源的 WALL-OSS 也表現(xiàn)出優(yōu)異的長(zhǎng)程操作能力、因果推理與空間理解能力。

正是這種從模型架構(gòu)、訓(xùn)練方法到真實(shí)部署的全鏈路實(shí)踐,使自變量不僅深諳模型訓(xùn)練坑坑洼洼、與模型技術(shù)發(fā)展同頻脈動(dòng),也成為具身智能能力評(píng)測(cè)體系的積極塑造者。 對(duì)于一項(xiàng)技術(shù)革命來(lái)說(shuō),其福澤社會(huì)從來(lái)不論到底是哪家企業(yè)的技術(shù)強(qiáng)弱,反而是從行業(yè)逐漸沉淀出可靠的標(biāo)尺開(kāi)始。放在具身智能領(lǐng)域,也是如此。

模型的競(jìng)賽只是見(jiàn)證技術(shù)迅猛發(fā)展一方面,如果 ManipArena 能夠持續(xù)運(yùn)行,它記錄的將不僅是排行榜,更可能是具身智能走向產(chǎn)業(yè)化的時(shí)間刻度。

       原文標(biāo)題 : Benchmark,具身智能研究最缺乏的“基礎(chǔ)設(shè)施”

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)