123,123

自動(dòng)駕駛的下半場(chǎng)，讓機(jī)器擁有“常識(shí)”和“推演能力”的世界模型

2026-04-07 11:09

智駕行業(yè)正在經(jīng)歷一場(chǎng)極其詭譎的“集體失速”。

表面上看，數(shù)據(jù)量在暴漲，算力卡在成倍堆疊，端到端（End-to-End）已經(jīng)成了各家PPT上的標(biāo)配。但關(guān)掉電腦，每個(gè)智駕負(fù)責(zé)人心里都有一本賬：為什么哪怕堆了幾千塊H100，系統(tǒng)在面對(duì)復(fù)雜路口的“靈性”依然像是在抽獎(jiǎng)？為什么我們解決了99%的場(chǎng)景，剩下的1%卻像幽靈一樣，永遠(yuǎn)消滅不完？

大家開(kāi)始意識(shí)到，我們可能撞上了一堵無(wú)形的墻：算法的紅利正在邊際遞減，而系統(tǒng)的“智力”水平，被鎖死在了反應(yīng)式架構(gòu)的邏輯里。

這種焦慮背后，指向的是同一個(gè)終極命題：自動(dòng)駕駛的下半場(chǎng)，拼的不再是誰(shuí)的感知更準(zhǔn)，而是誰(shuí)能讓機(jī)器擁有“常識(shí)”和“推演能力”。

這就是為什么“世界模型（Driving World Model）”在這個(gè)節(jié)點(diǎn)被推向神壇。它不是又一個(gè)用來(lái)融資的術(shù)語(yǔ)，而是行業(yè)在撞墻之后的集體突圍方案。

讀完這篇文章，你會(huì)拿到關(guān)于世界模型的四樣?xùn)|西：

世界模型到底是什么？

世界模型在自動(dòng)駕駛里究竟在解決什么本質(zhì)問(wèn)題？

當(dāng)前世界模型應(yīng)用技術(shù)卡在哪里卡得有多真實(shí)？

對(duì)決策者、從業(yè)者、研究員而言，現(xiàn)在最值得押注的判斷是什么。

一、它不是"更好的感知"，是一種不同的駕駛認(rèn)知

世界模型（Driving World Model，DWM）經(jīng)常被混同于"更強(qiáng)的感知模塊"或"更精準(zhǔn)的預(yù)測(cè)算法"。這個(gè)理解會(huì)導(dǎo)致錯(cuò)誤的資源分配。

世界模型解決的，是一個(gè)更上游的問(wèn)題：如何讓系統(tǒng)在行動(dòng)之前，先在腦子里把結(jié)果跑一遍。

傳統(tǒng)端到端模塊化架構(gòu)的信息流是單向的——感知輸出給預(yù)測(cè)，預(yù)測(cè)輸出給規(guī)劃，每一步的不確定性在傳遞中不可逆地?fù)p耗。系統(tǒng)的本質(zhì)是反應(yīng)式的：它處理"現(xiàn)在發(fā)生了什么"。

世界模型把這個(gè)邏輯反轉(zhuǎn)了。它構(gòu)建的是一個(gè)內(nèi)部物理引擎，讓系統(tǒng)能夠向時(shí)間軸的未來(lái)推演：周圍這輛車接下來(lái)3秒會(huì)去哪、如果我現(xiàn)在變道它會(huì)怎么反應(yīng)、哪條決策路徑在10種可能的未來(lái)里風(fēng)險(xiǎn)最低。這是預(yù)見(jiàn)式的（anticipatory），不是反應(yīng)式的（reactive），例如我們之前文章《智駕定型之戰(zhàn)：一文看透自動(dòng)駕駛“端到端”的底層邏輯與架構(gòu)演進(jìn)》分享到的典型端到端算法就是反應(yīng)式的。

這個(gè)區(qū)別在工程上的表現(xiàn)是：反應(yīng)式系統(tǒng)在遭遇訓(xùn)練數(shù)據(jù)之外的情況時(shí)，傾向于失效；預(yù)見(jiàn)式系統(tǒng)因?yàn)槔斫饬宋锢硎澜绲倪\(yùn)行規(guī)律，具備更強(qiáng)的泛化能力——它能推斷沒(méi)見(jiàn)過(guò)的情況，而不只是匹配見(jiàn)過(guò)的模式，當(dāng)然我們之前文章《一文看懂視覺(jué)語(yǔ)言動(dòng)作模型（VLA）及其應(yīng)用》介紹的VLA也是增強(qiáng)算法泛化的一種方式，當(dāng)然他還附贈(zèng)了一個(gè)語(yǔ)言的人機(jī)交互。

功能上，DWM承擔(dān)四個(gè)相互耦合的角色：

對(duì)動(dòng)態(tài)元素的多步軌跡和意圖進(jìn)行聯(lián)合建模（不只預(yù)測(cè)"會(huì)去哪"，還推斷"為什么這么走"）；

在執(zhí)行任何操作前先做反事實(shí)推演，評(píng)估多條平行路徑的風(fēng)險(xiǎn)；

生成高保真的極端場(chǎng)景數(shù)據(jù)，解決長(zhǎng)尾覆蓋的數(shù)據(jù)稀缺問(wèn)題；

以及融合大語(yǔ)言模型的常識(shí)推理，處理純視覺(jué)模型的結(jié)構(gòu)性盲區(qū)——比如路邊冒煙的車意味著什么，警察手勢(shì)背后的交通邏輯是什么。

二、三道真實(shí)存在的墻

坦率說(shuō)：世界模型距離大規(guī)模量產(chǎn)，仍有三個(gè)沒(méi)解決的系統(tǒng)性問(wèn)題。這不是悲觀，是判斷資源投入時(shí)必須正視的現(xiàn)實(shí)。

第一道墻：感知和決策還是兩張皮。

以精細(xì)場(chǎng)景預(yù)測(cè)為目標(biāo)的模型，和以行為規(guī)劃為目標(biāo)的模型，至今沒(méi)有真正融合成統(tǒng)一的駕駛認(rèn)知。前者通過(guò)像素變化隱式反映意圖，缺乏顯式的駕駛邏輯；后者專注策略，但對(duì)復(fù)雜視覺(jué)場(chǎng)景的細(xì)粒度感知嚴(yán)重不足。

端到端（End-to-End）架構(gòu)是目前最被看好的打通路徑。但它帶來(lái)了一個(gè)新的工程難題：黑盒系統(tǒng)如何通過(guò)安全驗(yàn)證？Waymo的co-CEO明確說(shuō)過(guò)，純端到端"入門容易，但距離全自動(dòng)駕駛的安全標(biāo)準(zhǔn)還遠(yuǎn)"。這個(gè)判斷在行業(yè)內(nèi)仍有爭(zhēng)議——但值得每一個(gè)在押注端到端路線的團(tuán)隊(duì)認(rèn)真對(duì)待，而不是繞過(guò)去。

第二道墻：預(yù)測(cè)時(shí)間越長(zhǎng)，誤差越失控。

預(yù)測(cè)未來(lái)3秒，準(zhǔn)確率尚可。預(yù)測(cè)10秒，誤差開(kāi)始指數(shù)級(jí)放大。根本原因是誤差的多步傳導(dǎo)：在t時(shí)刻對(duì)某輛車速度的微小估計(jì)偏差，經(jīng)過(guò)n步推演后會(huì)釀成完全錯(cuò)誤的位置預(yù)判。

這在高速場(chǎng)景和復(fù)雜城市路口尤為致命——而這恰好是最需要提前規(guī)劃的兩類場(chǎng)景。不確定性建模（uncertainty-aware prediction）和多模態(tài)軌跡預(yù)測(cè)有所進(jìn)展，但工程可用性距量產(chǎn)標(biāo)準(zhǔn)仍有差距。這道墻目前沒(méi)有系統(tǒng)性解法。

第三道墻：仿真練出來(lái)的能力，真實(shí)路面上會(huì)打折。

Sim-to-Real Gap不是玄學(xué)，是有物理原因的：路面材質(zhì)的微觀差異、雨天傳感器的噪聲模式、強(qiáng)側(cè)光對(duì)攝像頭的干擾——仿真器對(duì)這些細(xì)節(jié)的簡(jiǎn)化，是系統(tǒng)性的。Domain Randomization和數(shù)據(jù)校準(zhǔn)是當(dāng)前主流應(yīng)對(duì)手段，但效果上限明顯。

更根本的方向可能是：用世界模型本身生成更真實(shí)的仿真環(huán)境，以自舉方式逐步收窄鴻溝。這條路目前仍在早期。還需指出的是，純視覺(jué)方案在高速場(chǎng)景下對(duì)3D幾何和時(shí)序動(dòng)態(tài)的精確感知，面臨結(jié)構(gòu)性挑戰(zhàn)——這是當(dāng)前主流視覺(jué)路線必須正視的局限，不是能靠堆數(shù)據(jù)解決的問(wèn)題。

三、反直覺(jué)的真相：你的用戶正在成為你最重要的研發(fā)資產(chǎn)

這里有一件事，是整個(gè)行業(yè)還沒(méi)完全想清楚的。

大多數(shù)主機(jī)廠衡量智駕業(yè)務(wù)的核心指標(biāo)，是滲透率和功能使用率。這個(gè)衡量框架已經(jīng)過(guò)時(shí)了。

真正決定世界模型能力上限的，是訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。而規(guī)�；渴鸬挠脩糗囮�(duì)，是獲取這類數(shù)據(jù)最高效、最低成本的方式。

特斯拉的"影子模式"是理解這個(gè)邏輯最好的案例。新版本算法在用戶車輛上后臺(tái)運(yùn)行，不接管方向盤，只記錄AI判斷與人類實(shí)際操作之間的差異。這套機(jī)制將500萬(wàn)輛用戶車輛，轉(zhuǎn)化成了一個(gè)持續(xù)運(yùn)行的大規(guī)模行為偏差數(shù)據(jù)集——用戶在不知情的情況下，完成了AI系統(tǒng)的全球A/B測(cè)試。每年500億英里的真實(shí)駕駛數(shù)據(jù)持續(xù)涌入，每分鐘新增10萬(wàn)英里。

Waymo的判斷更進(jìn)一步：存在一類數(shù)據(jù)，是任何仿真器和任何人類駕駛數(shù)據(jù)都無(wú)法替代的——系統(tǒng)完全自主運(yùn)行、沒(méi)有人類接管時(shí)積累的經(jīng)驗(yàn)。只有當(dāng)AI在真實(shí)復(fù)雜路況中獨(dú)立應(yīng)對(duì)，并將這些經(jīng)驗(yàn)回流到訓(xùn)練系統(tǒng)，自動(dòng)駕駛才能真正突破人類駕駛水平的天花板，并實(shí)現(xiàn)可量化的安全證明。這是Waymo將Robotaxi運(yùn)營(yíng)與技術(shù)研發(fā)綁定的底層邏輯，不是商業(yè)包裝。

這兩個(gè)案例指向同一個(gè)結(jié)論，也是本文最想讓決策者記住的一句話：

市場(chǎng)份額正在轉(zhuǎn)化為數(shù)據(jù)資產(chǎn)，數(shù)據(jù)資產(chǎn)正在轉(zhuǎn)化為模型能力，模型能力正在轉(zhuǎn)化為下一輪市場(chǎng)份額。這個(gè)飛輪，晚進(jìn)入者面對(duì)的不只是技術(shù)差距，而是數(shù)據(jù)積累量級(jí)上的結(jié)構(gòu)性差距。

對(duì)產(chǎn)品策略的直接推論有三條。

其一，搭載智駕功能的車輛，其戰(zhàn)略價(jià)值不應(yīng)只以銷量衡量，更應(yīng)以數(shù)據(jù)回流的質(zhì)量和多樣性衡量。偏遠(yuǎn)地區(qū)、極端氣候、特殊路況的駕駛數(shù)據(jù)，可能比高密度城區(qū)數(shù)據(jù)更有訓(xùn)練價(jià)值——因?yàn)樗采w的是模型的長(zhǎng)尾盲區(qū)。

其二，用戶駕駛數(shù)據(jù)的權(quán)益邊界，正在成為監(jiān)管關(guān)注的新議題。如何在數(shù)據(jù)采集、隱私保護(hù)和模型訓(xùn)練之間建立可持續(xù)的授權(quán)機(jī)制，是需要前置布局的合規(guī)課題，而不是出了問(wèn)題再處理。

其三，數(shù)據(jù)飛輪邏輯對(duì)純軟件供應(yīng)商同樣成立。沒(méi)有規(guī)�；K端部署的智駕方案，將在迭代速度上持續(xù)落后于有車隊(duì)支撐的競(jìng)爭(zhēng)對(duì)手。這個(gè)差距會(huì)隨時(shí)間擴(kuò)大，不會(huì)自動(dòng)收窄。

四、它的邊界比你想的要寬：從汽車到物理世界的AI化

自動(dòng)駕駛之外，世界模型的技術(shù)框架正在向具身智能（Embodied AI）全面遷移。

工廠機(jī)械臂在執(zhí)行精密裝配前，在內(nèi)部模型中預(yù)演操作結(jié)果；倉(cāng)儲(chǔ)機(jī)器人在規(guī)劃路徑時(shí)，預(yù)判動(dòng)態(tài)障礙物的運(yùn)動(dòng)意圖；手術(shù)輔助系統(tǒng)在介入前，評(píng)估每一步操作的后果概率。這些場(chǎng)景的底層邏輯，與自動(dòng)駕駛世界模型高度同構(gòu)——在行動(dòng)之前，先在虛擬世界里把結(jié)果跑一遍。

自動(dòng)駕駛是這個(gè)技術(shù)范式的主戰(zhàn)場(chǎng)，原因是結(jié)構(gòu)性的：公路場(chǎng)景提供了規(guī)模最大、多樣性最高、物理復(fù)雜度最接近真實(shí)的訓(xùn)練環(huán)境，商業(yè)壓力迫使迭代速度遠(yuǎn)超學(xué)術(shù)節(jié)奏。在這里驗(yàn)證的能力，具備向其他物理場(chǎng)景遷移的基礎(chǔ)。

對(duì)已經(jīng)或正在考慮進(jìn)入機(jī)器人、工業(yè)自動(dòng)化領(lǐng)域的整車廠：當(dāng)前投入自動(dòng)駕駛世界模型的研發(fā)資源，其回報(bào)邊界不應(yīng)只以自動(dòng)駕駛市場(chǎng)來(lái)計(jì)算。這是一個(gè)值得納入戰(zhàn)略規(guī)劃的變量。

五、判斷框架：現(xiàn)在應(yīng)該押什么

綜合以上，給三類讀者各提煉一個(gè)最值得帶走的判斷。

決策者：數(shù)據(jù)戰(zhàn)略的優(yōu)先級(jí)已經(jīng)超越了算法本身。如果你的智駕系統(tǒng)沒(méi)有持續(xù)的真實(shí)數(shù)據(jù)回流機(jī)制，你在用一個(gè)會(huì)隨時(shí)間相對(duì)衰減的資產(chǎn)參與一場(chǎng)飛輪競(jìng)爭(zhēng)。窗口期是有限的——當(dāng)市場(chǎng)格局固化，后來(lái)者的追趕成本將以數(shù)量級(jí)計(jì)。

從業(yè)者：端到端與模塊化混合架構(gòu)，在近期內(nèi)仍將并行存在。當(dāng)前最務(wù)實(shí)的路徑，是以世界模型為中間層連接感知與規(guī)劃，而非徹底替換現(xiàn)有架構(gòu)。三個(gè)最值得投入的技術(shù)方向：統(tǒng)一感知-決策建模、不確定性感知的長(zhǎng)時(shí)程預(yù)測(cè)、以及基于世界模型的自舉式仿真校準(zhǔn)。

研究員：感知與決策的建模割裂、長(zhǎng)時(shí)程預(yù)測(cè)的誤差累積、Sim-to-Real Gap——這三個(gè)方向是當(dāng)前頂會(huì)投稿最密集的區(qū)域，也是距離真正工程可用性差距最大的地方。能在這三者中任何一個(gè)上取得系統(tǒng)性突破的工作，都具備直接改變產(chǎn)業(yè)路線的潛力。

世界模型的本質(zhì)，是讓機(jī)器第一次真正理解物理世界的運(yùn)行規(guī)律，而不只是記住見(jiàn)過(guò)的模式。

這個(gè)能力一旦成熟，它改變的不只是自動(dòng)駕駛——它是整個(gè)物理世界AI化的底層基礎(chǔ)設(shè)施。

汽車，只是第一個(gè)被打通的入口。而誰(shuí)先在這個(gè)入口建立起數(shù)據(jù)飛輪，當(dāng)然數(shù)據(jù)飛輪不能建錯(cuò)了，誰(shuí)就在未來(lái)那場(chǎng)更大的競(jìng)爭(zhēng)里，提前占住了位置。

參考資料以及圖片

The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey Sifan Tu1, Xin Zhou1, Dingkang Liang1, Xingyu Jiang1, Yumeng Zhang2, Xiaofan Li2, Xiang Bai1 1Huazhong University of Science and Technology, 2Baidu Inc.

文章創(chuàng)意和結(jié)構(gòu)skills 來(lái)自于MIT Patrick Winston的公開(kāi)課how to speak

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄

原文標(biāo)題 : 自動(dòng)駕駛的下半場(chǎng)，讓機(jī)器擁有“常識(shí)”和“推演能力”的世界模型