自動(dòng)駕駛的流派紛爭(zhēng)史
自動(dòng)駕駛的商業(yè)化落地正在全球范圍內(nèi)加速推進(jìn)。
截至2025年5月,Waymo在美國(guó)舊金山、洛杉磯、鳳凰城和奧斯汀運(yùn)營(yíng)的自動(dòng)駕駛出租車達(dá)到1500輛,每周完成超過(guò)25萬(wàn)次付費(fèi)出行服務(wù);百度Apollo已在全球部署超1000輛無(wú)人駕駛汽車,累計(jì)提供超1100萬(wàn)次出行服務(wù),安全行駛里程超過(guò)1.7億公里。
大規(guī)模落地仿佛意味著技術(shù)已經(jīng)成熟,其實(shí)不然,關(guān)于自動(dòng)駕駛,還有很多尚未達(dá)成共識(shí)的流派分歧。
比如,傳感器方案,純視覺(jué)和多傳感器融合方案該如何抉擇?系統(tǒng)架構(gòu)上,采用模塊化設(shè)計(jì),還是擁抱新興的端到端架構(gòu)?更進(jìn)一步,關(guān)于如何理解世界,VLA和VLM孰優(yōu)孰劣?
這些懸而未決的爭(zhēng)議,正引領(lǐng)著自動(dòng)駕駛駛向尚未完全確定的未來(lái)。而理解這些不盡相同的技術(shù)路線,就是理解自動(dòng)駕駛從哪里來(lái)、到哪里去,如何實(shí)現(xiàn)技術(shù)的自我進(jìn)化。
眼睛之爭(zhēng):純視覺(jué)vs多傳感器融合
一切始于“看見(jiàn)”。汽車如何感知世界,是自動(dòng)駕駛的基石。在這個(gè)問(wèn)題上存在著對(duì)峙已久的兩大陣營(yíng),且雙方至今未休。
故事最早可以追溯到2004年美國(guó)莫哈韋沙漠的一場(chǎng)挑戰(zhàn)賽。
那時(shí),美國(guó)國(guó)防高級(jí)研究計(jì)劃局設(shè)立了200萬(wàn)美元的獎(jiǎng)金,吸引數(shù)十支頂尖高校和科研機(jī)構(gòu)參與,試圖解答“如何讓車輛感知周圍環(huán)境?”的問(wèn)題。
卡內(nèi)基梅隆大學(xué)和斯坦福大學(xué)等團(tuán)隊(duì)選擇的激光雷達(dá)勝出。這項(xiàng)能生成精確3D點(diǎn)云圖的技術(shù)奠定了早期自動(dòng)駕駛發(fā)展路線,被谷歌旗下的Waymo繼承和發(fā)展。
然而,這一派有個(gè)致命軟肋:成本。一套激光雷達(dá)系統(tǒng)造價(jià)高達(dá)7.5萬(wàn)美元,比車還貴,注定只能走小規(guī)模精英路線,難以大規(guī)模商業(yè)化。
十年后,特斯拉代表的視覺(jué)派走出了另一條路。
他們主張大道至簡(jiǎn):“人類靠一雙眼睛和一個(gè)大腦就能開(kāi)車,機(jī)器為何不能?”
2014年,特斯拉推出Autopilot系統(tǒng),采用Mobileye的視覺(jué)方案,選擇了以攝像頭為主的視覺(jué)方案。2016年,埃隆·馬斯克公開(kāi)表示“激光雷達(dá)是徒勞的”,正式確立了純視覺(jué)技術(shù)路線。
團(tuán)隊(duì)通過(guò)8個(gè)環(huán)繞攝像頭模擬人類視野,依靠深度學(xué)習(xí)算法從二維圖像中重建三維環(huán)境。純視覺(jué)方案成本極低,能夠大規(guī)模商業(yè)化。而通過(guò)賣出更多車,收集更多海量真實(shí)世界數(shù)據(jù),形成一個(gè)“數(shù)據(jù)飛輪”,反哺算法迭代,越用越強(qiáng)。
但攝像頭是“被動(dòng)”傳感器,嚴(yán)重依賴環(huán)境光。在逆光、眩光、黑夜、大雨、大霧等情況下,性能會(huì)顯著下降,遠(yuǎn)遠(yuǎn)比不上激光雷達(dá)。
以激光雷達(dá)為主的多傳感器融合方案認(rèn)為,機(jī)器的智能在可見(jiàn)的未來(lái)都無(wú)法完全媲美人類基于經(jīng)驗(yàn)的常識(shí)和直覺(jué),惡劣天氣下必須通過(guò)激光雷達(dá)等硬件冗余來(lái)彌補(bǔ)軟件的不足。
可以說(shuō),純視覺(jué)將所有壓力都集中在算法上,賭的是智能化的未來(lái);多傳感器融合更注重工程落地,選的是經(jīng)過(guò)驗(yàn)證的現(xiàn)實(shí)方案。
目前,主流車企(Waymo、小鵬、蔚來(lái)等)都站在多傳感器融合的陣營(yíng)。他們認(rèn)為安全是自動(dòng)駕駛不可逾越的紅線,而冗余是保障安全的唯一途徑。
值得注意的是,兩條路線并非完全涇渭分明,而是在相互學(xué)習(xí)和融合:純視覺(jué)方案也在引入更多的傳感器;多傳感器融合方案中,視覺(jué)算法的地位也越來(lái)越高,成為理解場(chǎng)景語(yǔ)義的關(guān)鍵。
觸覺(jué)之爭(zhēng):激光雷達(dá)vs 4D毫米波雷達(dá)
即使在多傳感器融合派內(nèi)部,也藏著一個(gè)選擇題:
毫米波雷達(dá)成本僅數(shù)百元,激光雷達(dá)早期要數(shù)萬(wàn)美元,為什么還要花大價(jià)錢裝激光雷達(dá)?
激光雷達(dá)(LiDAR)通過(guò)發(fā)射激光束并測(cè)量其返回時(shí)間,可以構(gòu)建出周圍環(huán)境極其精細(xì)的3D點(diǎn)云圖像,解決了當(dāng)時(shí)其他傳感器無(wú)法解決的、致命的“Corner Case”(極端案例)。
它的角分辨率極高,能夠清晰分辨行人的姿態(tài)、車輛的輪廓,甚至路面上的微小障礙物。L4/L5級(jí)別的商業(yè)自動(dòng)駕駛領(lǐng)域,沒(méi)有其他傳感器能同時(shí)滿足“高精度”和“測(cè)靜態(tài)物體”這兩個(gè)要求,為了實(shí)現(xiàn)最基本的自動(dòng)駕駛功能和安全冗余,激光雷達(dá)的成本是車企必須付出的門票。
那么激光雷達(dá)既然已經(jīng)這么強(qiáng)了,為什么還要研發(fā)其他傳感器呢?
激光雷達(dá)性能極高,但也有其局限。激光屬于紅外光,波長(zhǎng)很短。雨滴、霧滴、雪花、煙塵等顆粒的大小與激光波長(zhǎng)接近,會(huì)導(dǎo)致激光發(fā)生散射和吸收,產(chǎn)生大量“噪聲”點(diǎn)云。
而4D毫米波雷達(dá)能全天候工作,在惡劣天氣下能利用其強(qiáng)大的穿透能力,率先發(fā)現(xiàn)前方障礙物并提供距離和速度數(shù)據(jù)。不過(guò),毫米波雷達(dá)回波點(diǎn)非常稀疏,只能形成少量點(diǎn)云,無(wú)法像激光雷達(dá)那樣勾勒出物體的輪廓和形狀,還可能因?yàn)殡娮痈蓴_產(chǎn)生“幽靈識(shí)別”。低分辨率讓它注定無(wú)法成為主傳感器,只能作為輔助上車。
所以,激光雷達(dá)和毫米波雷達(dá)各有優(yōu)劣。二者不是替代關(guān)系,而是“常規(guī)場(chǎng)景靠毫米波控成本,復(fù)雜場(chǎng)景靠激光雷達(dá)保安全”的互補(bǔ)邏輯,不同的車型有不同配置。
L4 Robotaxi、豪華車通常采用“激光雷達(dá)為主,毫米波雷達(dá)為輔”的策略。不計(jì)成本地堆砌傳感器,追求極致的安全和性能上限;L2+、L3量產(chǎn)經(jīng)濟(jì)車主要依賴“攝像頭+毫米波雷達(dá)”,在車頂關(guān)鍵位置使用1~2顆激光雷達(dá),形成高性價(jià)比的方案。
車企圍繞傳感器的選擇爭(zhēng)議,本質(zhì)是一場(chǎng)關(guān)于“如何用最低成本實(shí)現(xiàn)最高安全”的技術(shù)探索和商業(yè)博弈。未來(lái),各種傳感器還將進(jìn)一步融合,形成多樣化的搭配方案。
大腦之爭(zhēng):端到端vs 模塊化
如果說(shuō)傳感器是眼睛,那么算法就是大腦。
很長(zhǎng)一段時(shí)間里,自動(dòng)駕駛系統(tǒng)都采用模塊化設(shè)計(jì),整個(gè)駕駛?cè)蝿?wù)被拆解為感知、預(yù)測(cè)、規(guī)劃、控制等獨(dú)立的子任務(wù)。每個(gè)模塊各司其職,有獨(dú)立的算法和優(yōu)化目標(biāo),像一條分工明確的流水線。
模塊化的優(yōu)點(diǎn)是可解釋強(qiáng)、開(kāi)發(fā)并行、易于調(diào)試。但局部最優(yōu)不等于全局最優(yōu),分而治之的模式也存在致命缺陷。每個(gè)模塊在處理和傳遞信息時(shí),都會(huì)進(jìn)行一定程度的簡(jiǎn)化和抽象,導(dǎo)致原始的豐富信息在層層傳遞中丟失,整體表現(xiàn)難以達(dá)到最優(yōu)。
2022—2023年,以特斯拉FSD V12為代表的“端到端”模型橫空出世,顛覆了傳統(tǒng)范式。這種方案的靈感來(lái)自人類的學(xué)習(xí)方式:新手司機(jī)不是先學(xué)習(xí)光學(xué)原理再研究交通規(guī)則,而是通過(guò)觀察教練的操作直接學(xué)習(xí)駕駛。
端到端模型不再進(jìn)行人為的模塊劃分,而是通過(guò)學(xué)習(xí)海量的人類駕駛數(shù)據(jù),構(gòu)建一個(gè)龐大的神經(jīng)網(wǎng)絡(luò),直接將傳感器輸入的原始數(shù)據(jù)映射到方向盤轉(zhuǎn)角、油門剎車等終端駕駛控制指令。
與模塊化算法不同,端到端模型全過(guò)程沒(méi)有信息損失、性能上限高,開(kāi)發(fā)流程能進(jìn)一步簡(jiǎn)化,但也存在著難以溯源問(wèn)題點(diǎn)的黑箱難題。一旦發(fā)生事故,系統(tǒng)是難以判斷哪個(gè)步驟出了錯(cuò)、后續(xù)應(yīng)該怎樣優(yōu)化?
端到端的出現(xiàn)讓自動(dòng)駕駛從規(guī)則驅(qū)動(dòng)邁向了數(shù)據(jù)驅(qū)動(dòng)。然而,它的“黑箱”特質(zhì)讓許多更重視安全的車企望而卻步,海量訓(xùn)練數(shù)據(jù)也只有擁有大規(guī)模車隊(duì)的公司才能支撐。
因此,行業(yè)內(nèi)出現(xiàn)了折中的“顯式端到端”方案,即在端到端模型中保留可行駛區(qū)域、目標(biāo)軌跡等中間輸出,試圖在性能與可解釋性之間找到平衡。
“靈魂”之爭(zhēng):VLM vs VLA
隨著AI發(fā)展,新的戰(zhàn)場(chǎng)在大模型內(nèi)部開(kāi)辟。這關(guān)乎自動(dòng)駕駛的靈魂,它應(yīng)該是輔助駕駛的思考者(VLM),還是執(zhí)行者(VLA)?
VLM視覺(jué)語(yǔ)言模型信奉協(xié)同,更追求過(guò)程可控,也被稱為增強(qiáng)派。該路線認(rèn)為AI大模型雖然強(qiáng)大,但幻覺(jué)在安全領(lǐng)域是致命的,應(yīng)該讓它做自己最擅長(zhǎng)的事(理解、解釋、推理),而把最終決策權(quán)交給經(jīng)過(guò)數(shù)十年驗(yàn)證的、可預(yù)測(cè)、可調(diào)試的傳統(tǒng)自動(dòng)駕駛模塊。
VLA視覺(jué)語(yǔ)言動(dòng)作模型信奉涌現(xiàn),追求結(jié)果最優(yōu),被稱為端到端的終極形態(tài)。該流派主張只要模型足夠大、數(shù)據(jù)足夠多,AI就能自己從零開(kāi)始學(xué)會(huì)駕駛的一切細(xì)節(jié)和規(guī)則,最終其駕駛能力會(huì)超越人類和基于規(guī)則的系統(tǒng)。
圍繞VLM與VLA的爭(zhēng)議就像模塊化和端到端方案辯論的延續(xù)。
VLA存在著難以溯源的黑箱困境。如果一輛VLA車發(fā)生了一次急剎車,工程師幾乎無(wú)法追溯原因。是因?yàn)樗殃幱罢`判為坑洞?還是它學(xué)到了某個(gè)人類司機(jī)的不良習(xí)慣?無(wú)法調(diào)試、無(wú)法驗(yàn)證,這與汽車行業(yè)嚴(yán)格的功能安全標(biāo)準(zhǔn)是根本性沖突的。
而VLM系統(tǒng)整個(gè)過(guò)程可分解、可分析、可優(yōu)化。如果遇到問(wèn)題,工程師可以清晰地看到:傳統(tǒng)感知模塊看到了一個(gè)物體、VLM將其識(shí)別為“一個(gè)被風(fēng)吹走的塑料袋”、規(guī)劃模塊因此決定“無(wú)需緊急剎車,輕微減速即可”。出了事故,責(zé)任清晰界定。
除了可解釋性上的兩極分化,訓(xùn)練成本也是車企猶疑不決的原因之一。
VLA需要海量的“視頻-控制信號(hào)”配對(duì)數(shù)據(jù),即輸入一段8攝像頭視頻,輸出同步的方向盤、油門、剎車信號(hào)。這種數(shù)據(jù)極其稀缺且制作成本高昂。
VLM本質(zhì)是多模態(tài)大模型,可以利用互聯(lián)網(wǎng)規(guī)模的、豐富的“圖像-文本”配對(duì)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,再用駕駛相關(guān)的數(shù)據(jù)微調(diào)。數(shù)據(jù)來(lái)源更廣,成本相對(duì)更低。
目前來(lái)看,VLM技術(shù)相對(duì)成熟,更容易落地,幾乎所有主流車企和自動(dòng)駕駛公司(包括Waymo、Cruise、華為、小鵬等)都走在VLM路線上。而VLA路線目前幾乎只有特斯拉在全力探索。
回顧自動(dòng)駕駛的流派之爭(zhēng),我們發(fā)現(xiàn)這些技術(shù)爭(zhēng)論從未以一方完全勝出告終,而是在碰撞中相互融合,走向更高層次的統(tǒng)一。激光雷達(dá)與視覺(jué)正在融合為多模態(tài)感知系統(tǒng);模塊化架構(gòu)開(kāi)始吸收端到端的優(yōu)勢(shì);大模型正在為所有系統(tǒng)注入認(rèn)知智能。
而那些曾讓行業(yè)困惑的謎題,看起來(lái)似乎沒(méi)有標(biāo)準(zhǔn)答案,但最終都會(huì)成為技術(shù)迭代的注腳,推動(dòng)自動(dòng)駕駛繼續(xù)向前發(fā)展。
原文標(biāo)題 : 自動(dòng)駕駛的流派紛爭(zhēng)史

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
推薦專題
- 1 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 人形機(jī)器人廠商,正在批量復(fù)刻宇樹(shù)G1
- 4 2025年8月人工智能投融資觀察
- 5 自動(dòng)駕駛誰(shuí)將笑傲江湖?如何把握無(wú)人駕駛“財(cái)富密碼”?
- 6 一家被嚴(yán)重低估的國(guó)產(chǎn)AI巨頭
- 7 華為公布昇騰芯片三年計(jì)劃,自研HBM曝光
- 8 特斯拉機(jī)器人獲得10,000臺(tái)訂單?馬斯克抄底成功
- 9 Manus跑路,大廠掉線,只能靠DeepSeek了
- 10 一文看懂|宇樹(shù)科技:年?duì)I收破10億,機(jī)器人賽道迎來(lái)關(guān)鍵檢驗(yàn)