123,123

具身智能 PoC，需過真機(jī)這一關(guān)

2026-04-03 13:59

超 30 起融資、約 200 億資金，這是具身智能在 2026 年 Q1 的融資情況，超越 2025 年全年。

行業(yè)節(jié)奏快得前所未有。各家紛紛押注具身大模型，「具身大腦」成了最熱關(guān)鍵詞。

但技術(shù)路線仍未收斂，到底誰更領(lǐng)先，根本沒法放在同一場(chǎng)景里比較。發(fā)布會(huì)一場(chǎng)接一場(chǎng)，Demo 視頻越來越精彩，可沒人能說清：這個(gè)模型究竟強(qiáng)在哪、強(qiáng)多少、在什么條件下成立。

光鮮的演示背后，是統(tǒng)一評(píng)測(cè)標(biāo)準(zhǔn)的缺失�，F(xiàn)在的具身智能，不缺資本追捧，不缺宏大敘事，更不缺看似聰明的大腦，唯獨(dú)缺一把能客觀衡量能力、錨定真實(shí)水平的尺子。

Demo 刷屏背后，具身智能還未跨過真機(jī)的坎

這兩年，具身智能的 Demo 刷屏不斷：四足機(jī)器人翻山越嶺，人形機(jī)器人完成精細(xì)操作，大模型加持下的機(jī)械臂看似無所不能。

但熱鬧背后，是行業(yè)普遍存在的「落地焦慮」——仿真環(huán)境里的「完美表現(xiàn)」，到了真實(shí)場(chǎng)景中往往水土不服。

在一些機(jī)器人演示案例中常�？梢钥吹剑趯�(shí)驗(yàn)室預(yù)設(shè)場(chǎng)景中，機(jī)械臂能精準(zhǔn)抓取、擺放物體，成功率高達(dá) 98%，但當(dāng)測(cè)試環(huán)境調(diào)整為普通家庭廚房（物體雜亂、光線不均），成功率直接跌至 30% 以下。

這種「實(shí)驗(yàn)室里能行，真實(shí)場(chǎng)景不行」的尷尬，在當(dāng)前具身模型中非常普遍。

和當(dāng)年 AI 領(lǐng)域的 ImageNet、NLP 領(lǐng)域的 GLUE 不同，具身智能需要的是一個(gè)在真實(shí)世界中的評(píng)測(cè)體系。

優(yōu)秀的真機(jī)評(píng)測(cè)對(duì)具身模型而言，早已不是可有可無的輔助，而是決定行業(yè)能否健康發(fā)展、突破瓶頸的關(guān)鍵，更是破解當(dāng)前行業(yè)混沌的唯一路徑。

這種標(biāo)準(zhǔn)各異帶來的后果，意味著研發(fā)資源在分散中內(nèi)耗：

有的團(tuán)隊(duì)專注于單一任務(wù)優(yōu)化，有的團(tuán)隊(duì)深耕仿真場(chǎng)景，但都難以突破「泛化能力」這一核心瓶頸，行業(yè)也陷入了「Demo 繁榮、落地滯后」的循環(huán)。

事實(shí)上，RoboChallenge 此前推出的 Table30 V1 版本，已通過 4 萬+次真機(jī)測(cè)試。結(jié)果發(fā)現(xiàn)，即便是當(dāng)前最頂尖的具身模型，30 項(xiàng)任務(wù)的平均成功率也只有 51%。

這不是某家公司的問題，這是行業(yè)現(xiàn)狀。

Table30 V2，不堆任務(wù)，只把真機(jī)評(píng)測(cè)的「尺子」校嚴(yán)

RoboChallenge Table30 V2 的出現(xiàn)，全面面向模型泛化。

V2 的核心判斷是：

評(píng)測(cè)要模擬真實(shí)環(huán)境，價(jià)值不在于任務(wù)數(shù)量，而在于能否逼出模型的真實(shí)邊界。Table30 V2 完成了全面升級(jí)，它沒有盲目堆加任務(wù)數(shù)量，而是精準(zhǔn)瞄準(zhǔn)當(dāng)前具身模型的短板，突出一個(gè)模型多個(gè)任務(wù)，試圖把衡量模型能力的「標(biāo)尺」校得更準(zhǔn)、更嚴(yán)。

在保留 12 個(gè)經(jīng)典任務(wù)的基礎(chǔ)上，Table30 V2 新增 18 個(gè)雙臂靈巧操作任務(wù)，總?cè)蝿?wù)數(shù)達(dá) 30 個(gè)，每一個(gè)都直擊當(dāng)前模型的短板。

新增任務(wù)聚焦三個(gè)方向：軟體處理、工具使用和雙手同步操作。

軟體處理，考驗(yàn)的是模型對(duì)非剛性物體形變的理解，這是當(dāng)前很多模型的「軟肋」；

工具使用則檢驗(yàn)?zāi)Ｐ偷姆夯芰�，看它能否靈活運(yùn)用工具完成跨物體操作；

雙手同步操作則針對(duì)雙臂協(xié)同的難點(diǎn)，測(cè)試模型的時(shí)序協(xié)調(diào)與空間感知能力。

評(píng)測(cè)機(jī)制方面，V2 強(qiáng)制要求單一模型應(yīng)對(duì)所有 30 項(xiàng)任務(wù)，不允許針對(duì)單個(gè)任務(wù)單獨(dú)調(diào)優(yōu)——這意味著，模型必須具備真正的多任務(wù)泛化能力，而非「應(yīng)試優(yōu)化」，從根源上杜絕了「為評(píng)測(cè)而評(píng)測(cè)」的偽突破。

同時(shí)，V2 新增了零樣本評(píng)測(cè)賽道，引入域外場(chǎng)景測(cè)試。簡(jiǎn)單說，就是讓模型去應(yīng)對(duì)從未見過的環(huán)境和物體，直接檢驗(yàn)它的泛化邊界。

除此之外，還新增了完成時(shí)間評(píng)分維度，不只看「能不能完成」，更看「完成得夠不夠快」，更貼近工業(yè)生產(chǎn)、家庭服務(wù)等真實(shí)場(chǎng)景部署的效率要求。

系統(tǒng)優(yōu)化層面，V2 的系統(tǒng)吞吐量提升超 300%，大幅縮短了評(píng)測(cè)周期，讓更多模型能在短時(shí)間內(nèi)完成全量測(cè)試。

對(duì)于缺乏自有硬件的學(xué)界團(tuán)隊(duì)和中小企業(yè)來說，這也降低了參與評(píng)測(cè)的門檻，無需投入巨資搭建硬件測(cè)試環(huán)境，只需上傳模型即可參與標(biāo)準(zhǔn)化評(píng)測(cè)，有助于形成開放、透明、可復(fù)現(xiàn)的行業(yè)生態(tài)。

無論是希望測(cè)試自己模型的團(tuán)隊(duì)、希望參與任務(wù)設(shè)計(jì)的研究者，還是希望接入評(píng)測(cè)數(shù)據(jù)的企業(yè)，Table30 V2 都提供了入口。

具身智能破局，靠的是行業(yè)共建而非單兵作戰(zhàn)

回望 AI 每一次真正意義上的躍遷，背后幾乎都有一個(gè)共同的推手——統(tǒng)一的評(píng)測(cè)基準(zhǔn)。ImageNet 讓計(jì)算機(jī)視覺從百花齊放走向可比較、可積累；

GLUE 的出現(xiàn)，讓 NLP 研究者第一次有了共同的對(duì)話語言�；鶞�(zhǔn)不是終點(diǎn)，而是起跑線被拉齊的那一刻。

具身智能走到今天，同樣到了需要「拉齊起跑線」的時(shí)候。

但這件事的難度，遠(yuǎn)比當(dāng)年的 ImageNet 更高。因?yàn)樗恢皇菢?biāo)注一批圖片、跑一個(gè)排行榜那么簡(jiǎn)單——它需要真機(jī)、真場(chǎng)景、真操作，需要有人愿意開放數(shù)據(jù)、愿意暴露自己的短板、愿意把私有標(biāo)準(zhǔn)放進(jìn)公共框架里接受檢驗(yàn)。

這是一件反商業(yè)直覺的事，卻是整個(gè)行業(yè)必須有人去做的事。

Table30 V2 的意義正在于此。它不是要做一份行業(yè)排名，而是想成為一個(gè)共識(shí)生長(zhǎng)的地方——讓研究團(tuán)隊(duì)看清自己在泛化能力上的真實(shí)位置，讓企業(yè)在選型時(shí)有據(jù)可依，讓整條產(chǎn)業(yè)鏈的資源不再因?yàn)闃?biāo)準(zhǔn)各異而內(nèi)耗損耗。