訂閱
糾錯(cuò)
加入自媒體

自動(dòng)駕駛的下半場(chǎng),讓機(jī)器擁有“常識(shí)”和“推演能力”的世界模型

智駕行業(yè)正在經(jīng)歷一場(chǎng)極其詭譎的“集體失速”。

表面上看,數(shù)據(jù)量在暴漲,算力卡在成倍堆疊,端到端(End-to-End)已經(jīng)成了各家PPT上的標(biāo)配。但關(guān)掉電腦,每個(gè)智駕負(fù)責(zé)人心里都有一本賬:為什么哪怕堆了幾千塊H100,系統(tǒng)在面對(duì)復(fù)雜路口的“靈性”依然像是在抽獎(jiǎng)?為什么我們解決了99%的場(chǎng)景,剩下的1%卻像幽靈一樣,永遠(yuǎn)消滅不完?

大家開(kāi)始意識(shí)到,我們可能撞上了一堵無(wú)形的墻:算法的紅利正在邊際遞減,而系統(tǒng)的“智力”水平,被鎖死在了反應(yīng)式架構(gòu)的邏輯里。

這種焦慮背后,指向的是同一個(gè)終極命題:自動(dòng)駕駛的下半場(chǎng),拼的不再是誰(shuí)的感知更準(zhǔn),而是誰(shuí)能讓機(jī)器擁有“常識(shí)”和“推演能力”。

這就是為什么“世界模型(Driving World Model)”在這個(gè)節(jié)點(diǎn)被推向神壇。它不是又一個(gè)用來(lái)融資的術(shù)語(yǔ),而是行業(yè)在撞墻之后的集體突圍方案。

讀完這篇文章,你會(huì)拿到關(guān)于世界模型的四樣?xùn)|西:

世界模型到底是什么?

世界模型在自動(dòng)駕駛里究竟在解決什么本質(zhì)問(wèn)題?

當(dāng)前世界模型應(yīng)用技術(shù)卡在哪里卡得有多真實(shí)?

對(duì)決策者、從業(yè)者、研究員而言,現(xiàn)在最值得押注的判斷是什么。

一、它不是"更好的感知",是一種不同的駕駛認(rèn)知

世界模型(Driving World Model,DWM)經(jīng)常被混同于"更強(qiáng)的感知模塊"或"更精準(zhǔn)的預(yù)測(cè)算法"。這個(gè)理解會(huì)導(dǎo)致錯(cuò)誤的資源分配。

世界模型解決的,是一個(gè)更上游的問(wèn)題:如何讓系統(tǒng)在行動(dòng)之前,先在腦子里把結(jié)果跑一遍。

傳統(tǒng)端到端模塊化架構(gòu)的信息流是單向的——感知輸出給預(yù)測(cè),預(yù)測(cè)輸出給規(guī)劃,每一步的不確定性在傳遞中不可逆地?fù)p耗。系統(tǒng)的本質(zhì)是反應(yīng)式的:它處理"現(xiàn)在發(fā)生了什么"。

世界模型把這個(gè)邏輯反轉(zhuǎn)了。它構(gòu)建的是一個(gè)內(nèi)部物理引擎,讓系統(tǒng)能夠向時(shí)間軸的未來(lái)推演:周圍這輛車接下來(lái)3秒會(huì)去哪、如果我現(xiàn)在變道它會(huì)怎么反應(yīng)、哪條決策路徑在10種可能的未來(lái)里風(fēng)險(xiǎn)最低。這是預(yù)見(jiàn)式的(anticipatory),不是反應(yīng)式的(reactive),例如我們之前文章《智駕定型之戰(zhàn):一文看透自動(dòng)駕駛“端到端”的底層邏輯與架構(gòu)演進(jìn)》分享到的典型端到端算法就是反應(yīng)式的。

這個(gè)區(qū)別在工程上的表現(xiàn)是:反應(yīng)式系統(tǒng)在遭遇訓(xùn)練數(shù)據(jù)之外的情況時(shí),傾向于失效;預(yù)見(jiàn)式系統(tǒng)因?yàn)槔斫饬宋锢硎澜绲倪\(yùn)行規(guī)律,具備更強(qiáng)的泛化能力——它能推斷沒(méi)見(jiàn)過(guò)的情況,而不只是匹配見(jiàn)過(guò)的模式,當(dāng)然我們之前文章《一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用》介紹的VLA也是增強(qiáng)算法泛化的一種方式,當(dāng)然他還附贈(zèng)了一個(gè)語(yǔ)言的人機(jī)交互。

功能上,DWM承擔(dān)四個(gè)相互耦合的角色:

對(duì)動(dòng)態(tài)元素的多步軌跡和意圖進(jìn)行聯(lián)合建模(不只預(yù)測(cè)"會(huì)去哪",還推斷"為什么這么走");

在執(zhí)行任何操作前先做反事實(shí)推演,評(píng)估多條平行路徑的風(fēng)險(xiǎn);

生成高保真的極端場(chǎng)景數(shù)據(jù),解決長(zhǎng)尾覆蓋的數(shù)據(jù)稀缺問(wèn)題;

以及融合大語(yǔ)言模型的常識(shí)推理,處理純視覺(jué)模型的結(jié)構(gòu)性盲區(qū)——比如路邊冒煙的車意味著什么,警察手勢(shì)背后的交通邏輯是什么。

二、三道真實(shí)存在的墻

坦率說(shuō):世界模型距離大規(guī)模量產(chǎn),仍有三個(gè)沒(méi)解決的系統(tǒng)性問(wèn)題。這不是悲觀,是判斷資源投入時(shí)必須正視的現(xiàn)實(shí)。

第一道墻:感知和決策還是兩張皮。

以精細(xì)場(chǎng)景預(yù)測(cè)為目標(biāo)的模型,和以行為規(guī)劃為目標(biāo)的模型,至今沒(méi)有真正融合成統(tǒng)一的駕駛認(rèn)知。前者通過(guò)像素變化隱式反映意圖,缺乏顯式的駕駛邏輯;后者專注策略,但對(duì)復(fù)雜視覺(jué)場(chǎng)景的細(xì)粒度感知嚴(yán)重不足。

端到端(End-to-End)架構(gòu)是目前最被看好的打通路徑。但它帶來(lái)了一個(gè)新的工程難題:黑盒系統(tǒng)如何通過(guò)安全驗(yàn)證?Waymo的co-CEO明確說(shuō)過(guò),純端到端"入門容易,但距離全自動(dòng)駕駛的安全標(biāo)準(zhǔn)還遠(yuǎn)"。這個(gè)判斷在行業(yè)內(nèi)仍有爭(zhēng)議——但值得每一個(gè)在押注端到端路線的團(tuán)隊(duì)認(rèn)真對(duì)待,而不是繞過(guò)去。

第二道墻:預(yù)測(cè)時(shí)間越長(zhǎng),誤差越失控。

預(yù)測(cè)未來(lái)3秒,準(zhǔn)確率尚可。預(yù)測(cè)10秒,誤差開(kāi)始指數(shù)級(jí)放大。根本原因是誤差的多步傳導(dǎo):在t時(shí)刻對(duì)某輛車速度的微小估計(jì)偏差,經(jīng)過(guò)n步推演后會(huì)釀成完全錯(cuò)誤的位置預(yù)判。

這在高速場(chǎng)景和復(fù)雜城市路口尤為致命——而這恰好是最需要提前規(guī)劃的兩類場(chǎng)景。不確定性建模(uncertainty-aware prediction)和多模態(tài)軌跡預(yù)測(cè)有所進(jìn)展,但工程可用性距量產(chǎn)標(biāo)準(zhǔn)仍有差距。這道墻目前沒(méi)有系統(tǒng)性解法。

第三道墻:仿真練出來(lái)的能力,真實(shí)路面上會(huì)打折。

Sim-to-Real Gap不是玄學(xué),是有物理原因的:路面材質(zhì)的微觀差異、雨天傳感器的噪聲模式、強(qiáng)側(cè)光對(duì)攝像頭的干擾——仿真器對(duì)這些細(xì)節(jié)的簡(jiǎn)化,是系統(tǒng)性的。Domain Randomization和數(shù)據(jù)校準(zhǔn)是當(dāng)前主流應(yīng)對(duì)手段,但效果上限明顯。

更根本的方向可能是:用世界模型本身生成更真實(shí)的仿真環(huán)境,以自舉方式逐步收窄鴻溝。這條路目前仍在早期。還需指出的是,純視覺(jué)方案在高速場(chǎng)景下對(duì)3D幾何和時(shí)序動(dòng)態(tài)的精確感知,面臨結(jié)構(gòu)性挑戰(zhàn)——這是當(dāng)前主流視覺(jué)路線必須正視的局限,不是能靠堆數(shù)據(jù)解決的問(wèn)題。

三、反直覺(jué)的真相:你的用戶正在成為你最重要的研發(fā)資產(chǎn)

這里有一件事,是整個(gè)行業(yè)還沒(méi)完全想清楚的。

大多數(shù)主機(jī)廠衡量智駕業(yè)務(wù)的核心指標(biāo),是滲透率和功能使用率。這個(gè)衡量框架已經(jīng)過(guò)時(shí)了。

真正決定世界模型能力上限的,是訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。而規(guī);渴鸬挠脩糗囮(duì),是獲取這類數(shù)據(jù)最高效、最低成本的方式。

特斯拉的"影子模式"是理解這個(gè)邏輯最好的案例。新版本算法在用戶車輛上后臺(tái)運(yùn)行,不接管方向盤,只記錄AI判斷與人類實(shí)際操作之間的差異。這套機(jī)制將500萬(wàn)輛用戶車輛,轉(zhuǎn)化成了一個(gè)持續(xù)運(yùn)行的大規(guī)模行為偏差數(shù)據(jù)集——用戶在不知情的情況下,完成了AI系統(tǒng)的全球A/B測(cè)試。每年500億英里的真實(shí)駕駛數(shù)據(jù)持續(xù)涌入,每分鐘新增10萬(wàn)英里。

Waymo的判斷更進(jìn)一步:存在一類數(shù)據(jù),是任何仿真器和任何人類駕駛數(shù)據(jù)都無(wú)法替代的——系統(tǒng)完全自主運(yùn)行、沒(méi)有人類接管時(shí)積累的經(jīng)驗(yàn)。只有當(dāng)AI在真實(shí)復(fù)雜路況中獨(dú)立應(yīng)對(duì),并將這些經(jīng)驗(yàn)回流到訓(xùn)練系統(tǒng),自動(dòng)駕駛才能真正突破人類駕駛水平的天花板,并實(shí)現(xiàn)可量化的安全證明。這是Waymo將Robotaxi運(yùn)營(yíng)與技術(shù)研發(fā)綁定的底層邏輯,不是商業(yè)包裝。

這兩個(gè)案例指向同一個(gè)結(jié)論,也是本文最想讓決策者記住的一句話:

市場(chǎng)份額正在轉(zhuǎn)化為數(shù)據(jù)資產(chǎn),數(shù)據(jù)資產(chǎn)正在轉(zhuǎn)化為模型能力,模型能力正在轉(zhuǎn)化為下一輪市場(chǎng)份額。這個(gè)飛輪,晚進(jìn)入者面對(duì)的不只是技術(shù)差距,而是數(shù)據(jù)積累量級(jí)上的結(jié)構(gòu)性差距。

對(duì)產(chǎn)品策略的直接推論有三條。

其一,搭載智駕功能的車輛,其戰(zhàn)略價(jià)值不應(yīng)只以銷量衡量,更應(yīng)以數(shù)據(jù)回流的質(zhì)量和多樣性衡量。偏遠(yuǎn)地區(qū)、極端氣候、特殊路況的駕駛數(shù)據(jù),可能比高密度城區(qū)數(shù)據(jù)更有訓(xùn)練價(jià)值——因?yàn)樗采w的是模型的長(zhǎng)尾盲區(qū)。

其二,用戶駕駛數(shù)據(jù)的權(quán)益邊界,正在成為監(jiān)管關(guān)注的新議題。如何在數(shù)據(jù)采集、隱私保護(hù)和模型訓(xùn)練之間建立可持續(xù)的授權(quán)機(jī)制,是需要前置布局的合規(guī)課題,而不是出了問(wèn)題再處理。

其三,數(shù)據(jù)飛輪邏輯對(duì)純軟件供應(yīng)商同樣成立。沒(méi)有規(guī);K端部署的智駕方案,將在迭代速度上持續(xù)落后于有車隊(duì)支撐的競(jìng)爭(zhēng)對(duì)手。這個(gè)差距會(huì)隨時(shí)間擴(kuò)大,不會(huì)自動(dòng)收窄。

四、它的邊界比你想的要寬:從汽車到物理世界的AI化

自動(dòng)駕駛之外,世界模型的技術(shù)框架正在向具身智能(Embodied AI)全面遷移。

工廠機(jī)械臂在執(zhí)行精密裝配前,在內(nèi)部模型中預(yù)演操作結(jié)果;倉(cāng)儲(chǔ)機(jī)器人在規(guī)劃路徑時(shí),預(yù)判動(dòng)態(tài)障礙物的運(yùn)動(dòng)意圖;手術(shù)輔助系統(tǒng)在介入前,評(píng)估每一步操作的后果概率。這些場(chǎng)景的底層邏輯,與自動(dòng)駕駛世界模型高度同構(gòu)——在行動(dòng)之前,先在虛擬世界里把結(jié)果跑一遍。

自動(dòng)駕駛是這個(gè)技術(shù)范式的主戰(zhàn)場(chǎng),原因是結(jié)構(gòu)性的:公路場(chǎng)景提供了規(guī)模最大、多樣性最高、物理復(fù)雜度最接近真實(shí)的訓(xùn)練環(huán)境,商業(yè)壓力迫使迭代速度遠(yuǎn)超學(xué)術(shù)節(jié)奏。在這里驗(yàn)證的能力,具備向其他物理場(chǎng)景遷移的基礎(chǔ)。

對(duì)已經(jīng)或正在考慮進(jìn)入機(jī)器人、工業(yè)自動(dòng)化領(lǐng)域的整車廠:當(dāng)前投入自動(dòng)駕駛世界模型的研發(fā)資源,其回報(bào)邊界不應(yīng)只以自動(dòng)駕駛市場(chǎng)來(lái)計(jì)算。這是一個(gè)值得納入戰(zhàn)略規(guī)劃的變量。

五、判斷框架:現(xiàn)在應(yīng)該押什么

綜合以上,給三類讀者各提煉一個(gè)最值得帶走的判斷。

決策者:數(shù)據(jù)戰(zhàn)略的優(yōu)先級(jí)已經(jīng)超越了算法本身。如果你的智駕系統(tǒng)沒(méi)有持續(xù)的真實(shí)數(shù)據(jù)回流機(jī)制,你在用一個(gè)會(huì)隨時(shí)間相對(duì)衰減的資產(chǎn)參與一場(chǎng)飛輪競(jìng)爭(zhēng)。窗口期是有限的——當(dāng)市場(chǎng)格局固化,后來(lái)者的追趕成本將以數(shù)量級(jí)計(jì)。

從業(yè)者:端到端與模塊化混合架構(gòu),在近期內(nèi)仍將并行存在。當(dāng)前最務(wù)實(shí)的路徑,是以世界模型為中間層連接感知與規(guī)劃,而非徹底替換現(xiàn)有架構(gòu)。三個(gè)最值得投入的技術(shù)方向:統(tǒng)一感知-決策建模、不確定性感知的長(zhǎng)時(shí)程預(yù)測(cè)、以及基于世界模型的自舉式仿真校準(zhǔn)。

研究員:感知與決策的建模割裂、長(zhǎng)時(shí)程預(yù)測(cè)的誤差累積、Sim-to-Real Gap——這三個(gè)方向是當(dāng)前頂會(huì)投稿最密集的區(qū)域,也是距離真正工程可用性差距最大的地方。能在這三者中任何一個(gè)上取得系統(tǒng)性突破的工作,都具備直接改變產(chǎn)業(yè)路線的潛力。

世界模型的本質(zhì),是讓機(jī)器第一次真正理解物理世界的運(yùn)行規(guī)律,而不只是記住見(jiàn)過(guò)的模式。

這個(gè)能力一旦成熟,它改變的不只是自動(dòng)駕駛——它是整個(gè)物理世界AI化的底層基礎(chǔ)設(shè)施。

汽車,只是第一個(gè)被打通的入口。而誰(shuí)先在這個(gè)入口建立起數(shù)據(jù)飛輪,當(dāng)然數(shù)據(jù)飛輪不能建錯(cuò)了,誰(shuí)就在未來(lái)那場(chǎng)更大的競(jìng)爭(zhēng)里,提前占住了位置。

參考資料以及圖片

The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey Sifan Tu1, Xin Zhou1, Dingkang Liang1, Xingyu Jiang1, Yumeng Zhang2, Xiaofan Li2, Xiang Bai1 1Huazhong University of Science and Technology, 2Baidu Inc.

文章創(chuàng)意和結(jié)構(gòu)skills 來(lái)自于MIT Patrick Winston的公開(kāi)課how to speak

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄

       原文標(biāo)題 : 自動(dòng)駕駛的下半場(chǎng),讓機(jī)器擁有“常識(shí)”和“推演能力”的世界模型

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)