訂閱
糾錯(cuò)
加入自媒體

具身智能 PoC,需過真機(jī)這一關(guān)

超 30 起融資、約 200 億資金,這是具身智能在 2026 年 Q1 的融資情況,超越 2025 年全年。

行業(yè)節(jié)奏快得前所未有。各家紛紛押注具身大模型,「具身大腦」成了最熱關(guān)鍵詞。

但技術(shù)路線仍未收斂,到底誰更領(lǐng)先,根本沒法放在同一場(chǎng)景里比較。發(fā)布會(huì)一場(chǎng)接一場(chǎng),Demo 視頻越來越精彩,可沒人能說清:這個(gè)模型究竟強(qiáng)在哪、強(qiáng)多少、在什么條件下成立。

光鮮的演示背后,是統(tǒng)一評(píng)測(cè)標(biāo)準(zhǔn)的缺失,F(xiàn)在的具身智能,不缺資本追捧,不缺宏大敘事,更不缺看似聰明的大腦,唯獨(dú)缺一把能客觀衡量能力、錨定真實(shí)水平的尺子。

Demo 刷屏背后,具身智能還未跨過真機(jī)的坎

這兩年,具身智能的 Demo 刷屏不斷:四足機(jī)器人翻山越嶺,人形機(jī)器人完成精細(xì)操作,大模型加持下的機(jī)械臂看似無所不能。

但熱鬧背后,是行業(yè)普遍存在的「落地焦慮」——仿真環(huán)境里的「完美表現(xiàn)」,到了真實(shí)場(chǎng)景中往往水土不服。

在一些機(jī)器人演示案例中常?梢钥吹剑趯(shí)驗(yàn)室預(yù)設(shè)場(chǎng)景中,機(jī)械臂能精準(zhǔn)抓取、擺放物體,成功率高達(dá) 98%,但當(dāng)測(cè)試環(huán)境調(diào)整為普通家庭廚房(物體雜亂、光線不均),成功率直接跌至 30% 以下。

這種「實(shí)驗(yàn)室里能行,真實(shí)場(chǎng)景不行」的尷尬,在當(dāng)前具身模型中非常普遍。

和當(dāng)年 AI 領(lǐng)域的 ImageNet、NLP 領(lǐng)域的 GLUE 不同,具身智能需要的是一個(gè)在真實(shí)世界中的評(píng)測(cè)體系。

優(yōu)秀的真機(jī)評(píng)測(cè)對(duì)具身模型而言,早已不是可有可無的輔助,而是決定行業(yè)能否健康發(fā)展、突破瓶頸的關(guān)鍵,更是破解當(dāng)前行業(yè)混沌的唯一路徑。

這種標(biāo)準(zhǔn)各異帶來的后果,意味著研發(fā)資源在分散中內(nèi)耗:

有的團(tuán)隊(duì)專注于單一任務(wù)優(yōu)化,有的團(tuán)隊(duì)深耕仿真場(chǎng)景,但都難以突破「泛化能力」這一核心瓶頸,行業(yè)也陷入了「Demo 繁榮、落地滯后」的循環(huán)。

事實(shí)上,RoboChallenge 此前推出的 Table30 V1 版本,已通過 4 萬+次真機(jī)測(cè)試。結(jié)果發(fā)現(xiàn),即便是當(dāng)前最頂尖的具身模型,30 項(xiàng)任務(wù)的平均成功率也只有 51%。

這不是某家公司的問題,這是行業(yè)現(xiàn)狀。

Table30 V2,不堆任務(wù),只把真機(jī)評(píng)測(cè)的「尺子」校嚴(yán)

RoboChallenge Table30 V2 的出現(xiàn),全面面向模型泛化。

V2 的核心判斷是:

評(píng)測(cè)要模擬真實(shí)環(huán)境,價(jià)值不在于任務(wù)數(shù)量,而在于能否逼出模型的真實(shí)邊界。Table30 V2 完成了全面升級(jí),它沒有盲目堆加任務(wù)數(shù)量,而是精準(zhǔn)瞄準(zhǔn)當(dāng)前具身模型的短板,突出一個(gè)模型多個(gè)任務(wù),試圖把衡量模型能力的「標(biāo)尺」校得更準(zhǔn)、更嚴(yán)。

在保留 12 個(gè)經(jīng)典任務(wù)的基礎(chǔ)上,Table30 V2 新增 18 個(gè)雙臂靈巧操作任務(wù),總?cè)蝿?wù)數(shù)達(dá) 30 個(gè),每一個(gè)都直擊當(dāng)前模型的短板。

新增任務(wù)聚焦三個(gè)方向:軟體處理、工具使用和雙手同步操作。

軟體處理,考驗(yàn)的是模型對(duì)非剛性物體形變的理解,這是當(dāng)前很多模型的「軟肋」;

工具使用則檢驗(yàn)?zāi)P偷姆夯芰,看它能否靈活運(yùn)用工具完成跨物體操作;

雙手同步操作則針對(duì)雙臂協(xié)同的難點(diǎn),測(cè)試模型的時(shí)序協(xié)調(diào)與空間感知能力。

評(píng)測(cè)機(jī)制方面,V2 強(qiáng)制要求單一模型應(yīng)對(duì)所有 30 項(xiàng)任務(wù),不允許針對(duì)單個(gè)任務(wù)單獨(dú)調(diào)優(yōu)——這意味著,模型必須具備真正的多任務(wù)泛化能力,而非「應(yīng)試優(yōu)化」,從根源上杜絕了「為評(píng)測(cè)而評(píng)測(cè)」的偽突破。

同時(shí),V2 新增了零樣本評(píng)測(cè)賽道,引入域外場(chǎng)景測(cè)試。簡(jiǎn)單說,就是讓模型去應(yīng)對(duì)從未見過的環(huán)境和物體,直接檢驗(yàn)它的泛化邊界。

除此之外,還新增了完成時(shí)間評(píng)分維度,不只看「能不能完成」,更看「完成得夠不夠快」,更貼近工業(yè)生產(chǎn)、家庭服務(wù)等真實(shí)場(chǎng)景部署的效率要求。

系統(tǒng)優(yōu)化層面,V2 的系統(tǒng)吞吐量提升超 300%,大幅縮短了評(píng)測(cè)周期,讓更多模型能在短時(shí)間內(nèi)完成全量測(cè)試。

對(duì)于缺乏自有硬件的學(xué)界團(tuán)隊(duì)和中小企業(yè)來說,這也降低了參與評(píng)測(cè)的門檻,無需投入巨資搭建硬件測(cè)試環(huán)境,只需上傳模型即可參與標(biāo)準(zhǔn)化評(píng)測(cè),有助于形成開放、透明、可復(fù)現(xiàn)的行業(yè)生態(tài)。

無論是希望測(cè)試自己模型的團(tuán)隊(duì)、希望參與任務(wù)設(shè)計(jì)的研究者,還是希望接入評(píng)測(cè)數(shù)據(jù)的企業(yè),Table30 V2 都提供了入口。

具身智能破局,靠的是行業(yè)共建而非單兵作戰(zhàn)

回望 AI 每一次真正意義上的躍遷,背后幾乎都有一個(gè)共同的推手——統(tǒng)一的評(píng)測(cè)基準(zhǔn)。ImageNet 讓計(jì)算機(jī)視覺從百花齊放走向可比較、可積累;

GLUE 的出現(xiàn),讓 NLP 研究者第一次有了共同的對(duì)話語言;鶞(zhǔn)不是終點(diǎn),而是起跑線被拉齊的那一刻。

具身智能走到今天,同樣到了需要「拉齊起跑線」的時(shí)候。

但這件事的難度,遠(yuǎn)比當(dāng)年的 ImageNet 更高。因?yàn)樗恢皇菢?biāo)注一批圖片、跑一個(gè)排行榜那么簡(jiǎn)單——它需要真機(jī)、真場(chǎng)景、真操作,需要有人愿意開放數(shù)據(jù)、愿意暴露自己的短板、愿意把私有標(biāo)準(zhǔn)放進(jìn)公共框架里接受檢驗(yàn)。

這是一件反商業(yè)直覺的事,卻是整個(gè)行業(yè)必須有人去做的事。

Table30 V2 的意義正在于此。它不是要做一份行業(yè)排名,而是想成為一個(gè)共識(shí)生長(zhǎng)的地方——讓研究團(tuán)隊(duì)看清自己在泛化能力上的真實(shí)位置,讓企業(yè)在選型時(shí)有據(jù)可依,讓整條產(chǎn)業(yè)鏈的資源不再因?yàn)闃?biāo)準(zhǔn)各異而內(nèi)耗損耗。

無論是希望測(cè)試自己模型的團(tuán)隊(duì)、希望參與任務(wù)設(shè)計(jì)的研究者,還是希望接入評(píng)測(cè)數(shù)據(jù)的企業(yè),Table30 V2 都提供了入口。

它將在 CVPR 2026 GigaBrain Challenge 研討會(huì)期間正式上線,以開放的姿態(tài)邀請(qǐng)全球團(tuán)隊(duì)參與共建:校準(zhǔn)標(biāo)準(zhǔn)、補(bǔ)充場(chǎng)景、共享數(shù)據(jù)。

只有當(dāng)所有玩家都放棄私有標(biāo)準(zhǔn),用同一把尺子衡量進(jìn)步,具身智能才能迎來自己的「ChatGPT 時(shí)刻」,讓機(jī)器人真正從實(shí)驗(yàn)室走進(jìn)千行百業(yè)。

       原文標(biāo)題 : 具身智能 PoC,需過真機(jī)這一關(guān)

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)