123,123,123

自動駕駛的流派紛爭史

2025-09-29 14:15

自動駕駛的商業(yè)化落地正在全球范圍內(nèi)加速推進。

截至2025年5月，Waymo在美國舊金山、洛杉磯、鳳凰城和奧斯汀運營的自動駕駛出租車達到1500輛，每周完成超過25萬次付費出行服務(wù)；百度Apollo已在全球部署超1000輛無人駕駛汽車，累計提供超1100萬次出行服務(wù)，安全行駛里程超過1.7億公里。

大規(guī)模落地仿佛意味著技術(shù)已經(jīng)成熟，其實不然，關(guān)于自動駕駛，還有很多尚未達成共識的流派分歧。

比如，傳感器方案，純視覺和多傳感器融合方案該如何抉擇？系統(tǒng)架構(gòu)上，采用模塊化設(shè)計，還是擁抱新興的端到端架構(gòu)？更進一步，關(guān)于如何理解世界，VLA和VLM孰優(yōu)孰劣？

這些懸而未決的爭議，正引領(lǐng)著自動駕駛駛向尚未完全確定的未來。而理解這些不盡相同的技術(shù)路線，就是理解自動駕駛從哪里來、到哪里去，如何實現(xiàn)技術(shù)的自我進化。

眼睛之爭：純視覺vs多傳感器融合

一切始于“看見”。汽車如何感知世界，是自動駕駛的基石。在這個問題上存在著對峙已久的兩大陣營，且雙方至今未休。

故事最早可以追溯到2004年美國莫哈韋沙漠的一場挑戰(zhàn)賽。

那時，美國國防高級研究計劃局設(shè)立了200萬美元的獎金，吸引數(shù)十支頂尖高校和科研機構(gòu)參與，試圖解答“如何讓車輛感知周圍環(huán)境？”的問題。

卡內(nèi)基梅隆大學(xué)和斯坦福大學(xué)等團隊選擇的激光雷達勝出。這項能生成精確3D點云圖的技術(shù)奠定了早期自動駕駛發(fā)展路線，被谷歌旗下的Waymo繼承和發(fā)展。

然而，這一派有個致命軟肋：成本。一套激光雷達系統(tǒng)造價高達7.5萬美元，比車還貴，注定只能走小規(guī)模精英路線，難以大規(guī)模商業(yè)化。

十年后，特斯拉代表的視覺派走出了另一條路。

他們主張大道至簡：“人類靠一雙眼睛和一個大腦就能開車，機器為何不能？”

2014年，特斯拉推出Autopilot系統(tǒng)，采用Mobileye的視覺方案，選擇了以攝像頭為主的視覺方案。2016年，埃隆·馬斯克公開表示“激光雷達是徒勞的”，正式確立了純視覺技術(shù)路線。

團隊通過8個環(huán)繞攝像頭模擬人類視野，依靠深度學(xué)習(xí)算法從二維圖像中重建三維環(huán)境。純視覺方案成本極低，能夠大規(guī)模商業(yè)化。而通過賣出更多車，收集更多海量真實世界數(shù)據(jù)，形成一個“數(shù)據(jù)飛輪”，反哺算法迭代，越用越強。

但攝像頭是“被動”傳感器，嚴重依賴環(huán)境光。在逆光、眩光、黑夜、大雨、大霧等情況下，性能會顯著下降，遠遠比不上激光雷達。

以激光雷達為主的多傳感器融合方案認為，機器的智能在可見的未來都無法完全媲美人類基于經(jīng)驗的常識和直覺，惡劣天氣下必須通過激光雷達等硬件冗余來彌補軟件的不足。

可以說，純視覺將所有壓力都集中在算法上，賭的是智能化的未來；多傳感器融合更注重工程落地，選的是經(jīng)過驗證的現(xiàn)實方案。

目前，主流車企（Waymo、小鵬、蔚來等）都站在多傳感器融合的陣營。他們認為安全是自動駕駛不可逾越的紅線，而冗余是保障安全的唯一途徑。

值得注意的是，兩條路線并非完全涇渭分明，而是在相互學(xué)習(xí)和融合：純視覺方案也在引入更多的傳感器；多傳感器融合方案中，視覺算法的地位也越來越高，成為理解場景語義的關(guān)鍵。

觸覺之爭：激光雷達vs 4D毫米波雷達

即使在多傳感器融合派內(nèi)部，也藏著一個選擇題：

毫米波雷達成本僅數(shù)百元，激光雷達早期要數(shù)萬美元，為什么還要花大價錢裝激光雷達？

激光雷達（LiDAR）通過發(fā)射激光束并測量其返回時間，可以構(gòu)建出周圍環(huán)境極其精細的3D點云圖像，解決了當(dāng)時其他傳感器無法解決的、致命的“Corner Case”（極端案例）。

它的角分辨率極高，能夠清晰分辨行人的姿態(tài)、車輛的輪廓，甚至路面上的微小障礙物。L4/L5級別的商業(yè)自動駕駛領(lǐng)域，沒有其他傳感器能同時滿足“高精度”和“測靜態(tài)物體”這兩個要求，為了實現(xiàn)最基本的自動駕駛功能和安全冗余，激光雷達的成本是車企必須付出的門票。

那么激光雷達既然已經(jīng)這么強了，為什么還要研發(fā)其他傳感器呢？

激光雷達性能極高，但也有其局限。激光屬于紅外光，波長很短。雨滴、霧滴、雪花、煙塵等顆粒的大小與激光波長接近，會導(dǎo)致激光發(fā)生散射和吸收，產(chǎn)生大量“噪聲”點云。

而4D毫米波雷達能全天候工作，在惡劣天氣下能利用其強大的穿透能力，率先發(fā)現(xiàn)前方障礙物并提供距離和速度數(shù)據(jù)。不過，毫米波雷達回波點非常稀疏，只能形成少量點云，無法像激光雷達那樣勾勒出物體的輪廓和形狀，還可能因為電子干擾產(chǎn)生“幽靈識別”。低分辨率讓它注定無法成為主傳感器，只能作為輔助上車。

所以，激光雷達和毫米波雷達各有優(yōu)劣。二者不是替代關(guān)系，而是“常規(guī)場景靠毫米波控成本，復(fù)雜場景靠激光雷達保安全”的互補邏輯，不同的車型有不同配置。

L4 Robotaxi、豪華車通常采用“激光雷達為主，毫米波雷達為輔”的策略。不計成本地堆砌傳感器，追求極致的安全和性能上限；L2+、L3量產(chǎn)經(jīng)濟車主要依賴“攝像頭+毫米波雷達”，在車頂關(guān)鍵位置使用1～2顆激光雷達，形成高性價比的方案。

車企圍繞傳感器的選擇爭議，本質(zhì)是一場關(guān)于“如何用最低成本實現(xiàn)最高安全”的技術(shù)探索和商業(yè)博弈。未來，各種傳感器還將進一步融合，形成多樣化的搭配方案。

大腦之爭：端到端vs 模塊化

如果說傳感器是眼睛，那么算法就是大腦。

很長一段時間里，自動駕駛系統(tǒng)都采用模塊化設(shè)計，整個駕駛?cè)蝿?wù)被拆解為感知、預(yù)測、規(guī)劃、控制等獨立的子任務(wù)。每個模塊各司其職，有獨立的算法和優(yōu)化目標，像一條分工明確的流水線。

模塊化的優(yōu)點是可解釋強、開發(fā)并行、易于調(diào)試。但局部最優(yōu)不等于全局最優(yōu)，分而治之的模式也存在致命缺陷。每個模塊在處理和傳遞信息時，都會進行一定程度的簡化和抽象，導(dǎo)致原始的豐富信息在層層傳遞中丟失，整體表現(xiàn)難以達到最優(yōu)。

2022—2023年，以特斯拉FSD V12為代表的“端到端”模型橫空出世，顛覆了傳統(tǒng)范式。這種方案的靈感來自人類的學(xué)習(xí)方式：新手司機不是先學(xué)習(xí)光學(xué)原理再研究交通規(guī)則，而是通過觀察教練的操作直接學(xué)習(xí)駕駛。

端到端模型不再進行人為的模塊劃分，而是通過學(xué)習(xí)海量的人類駕駛數(shù)據(jù)，構(gòu)建一個龐大的神經(jīng)網(wǎng)絡(luò)，直接將傳感器輸入的原始數(shù)據(jù)映射到方向盤轉(zhuǎn)角、油門剎車等終端駕駛控制指令。

與模塊化算法不同，端到端模型全過程沒有信息損失、性能上限高，開發(fā)流程能進一步簡化，但也存在著難以溯源問題點的黑箱難題。一旦發(fā)生事故，系統(tǒng)是難以判斷哪個步驟出了錯、后續(xù)應(yīng)該怎樣優(yōu)化？

端到端的出現(xiàn)讓自動駕駛從規(guī)則驅(qū)動邁向了數(shù)據(jù)驅(qū)動。然而，它的“黑箱”特質(zhì)讓許多更重視安全的車企望而卻步，海量訓(xùn)練數(shù)據(jù)也只有擁有大規(guī)模車隊的公司才能支撐。

因此，行業(yè)內(nèi)出現(xiàn)了折中的“顯式端到端”方案，即在端到端模型中保留可行駛區(qū)域、目標軌跡等中間輸出，試圖在性能與可解釋性之間找到平衡。

“靈魂”之爭：VLM vs VLA

隨著AI發(fā)展，新的戰(zhàn)場在大模型內(nèi)部開辟。這關(guān)乎自動駕駛的靈魂，它應(yīng)該是輔助駕駛的思考者（VLM），還是執(zhí)行者（VLA）？

VLM視覺語言模型信奉協(xié)同，更追求過程可控，也被稱為增強派。該路線認為AI大模型雖然強大，但幻覺在安全領(lǐng)域是致命的，應(yīng)該讓它做自己最擅長的事（理解、解釋、推理），而把最終決策權(quán)交給經(jīng)過數(shù)十年驗證的、可預(yù)測、可調(diào)試的傳統(tǒng)自動駕駛模塊。

VLA視覺語言動作模型信奉涌現(xiàn)，追求結(jié)果最優(yōu)，被稱為端到端的終極形態(tài)。該流派主張只要模型足夠大、數(shù)據(jù)足夠多，AI就能自己從零開始學(xué)會駕駛的一切細節(jié)和規(guī)則，最終其駕駛能力會超越人類和基于規(guī)則的系統(tǒng)。

圍繞VLM與VLA的爭議就像模塊化和端到端方案辯論的延續(xù)。

VLA存在著難以溯源的黑箱困境。如果一輛VLA車發(fā)生了一次急剎車，工程師幾乎無法追溯原因。是因為它把陰影誤判為坑洞？還是它學(xué)到了某個人類司機的不良習(xí)慣？無法調(diào)試、無法驗證，這與汽車行業(yè)嚴格的功能安全標準是根本性沖突的。

而VLM系統(tǒng)整個過程可分解、可分析、可優(yōu)化。如果遇到問題，工程師可以清晰地看到：傳統(tǒng)感知模塊看到了一個物體、VLM將其識別為“一個被風(fēng)吹走的塑料袋”、規(guī)劃模塊因此決定“無需緊急剎車，輕微減速即可”。出了事故，責(zé)任清晰界定。

除了可解釋性上的兩極分化，訓(xùn)練成本也是車企猶疑不決的原因之一。

VLA需要海量的“視頻－控制信號”配對數(shù)據(jù)，即輸入一段8攝像頭視頻，輸出同步的方向盤、油門、剎車信號。這種數(shù)據(jù)極其稀缺且制作成本高昂。

VLM本質(zhì)是多模態(tài)大模型，可以利用互聯(lián)網(wǎng)規(guī)模的、豐富的“圖像－文本”配對數(shù)據(jù)進行預(yù)訓(xùn)練，再用駕駛相關(guān)的數(shù)據(jù)微調(diào)。數(shù)據(jù)來源更廣，成本相對更低。

目前來看，VLM技術(shù)相對成熟，更容易落地，幾乎所有主流車企和自動駕駛公司（包括Waymo、Cruise、華為、小鵬等）都走在VLM路線上。而VLA路線目前幾乎只有特斯拉在全力探索。

回顧自動駕駛的流派之爭，我們發(fā)現(xiàn)這些技術(shù)爭論從未以一方完全勝出告終，而是在碰撞中相互融合，走向更高層次的統(tǒng)一。激光雷達與視覺正在融合為多模態(tài)感知系統(tǒng)；模塊化架構(gòu)開始吸收端到端的優(yōu)勢；大模型正在為所有系統(tǒng)注入認知智能。

而那些曾讓行業(yè)困惑的謎題，看起來似乎沒有標準答案，但最終都會成為技術(shù)迭代的注腳，推動自動駕駛繼續(xù)向前發(fā)展。

原文標題 : 自動駕駛的流派紛爭史