123,123

智駕定型之戰(zhàn)：一文看透自動(dòng)駕駛“端到端”的底層邏輯與架構(gòu)演進(jìn)

2026-03-23 16:56

最近的GTC 2026不管是主機(jī)廠的理想、小米、吉利千里科技還是輔助駕駛供應(yīng)商們?cè)帧⒋蠼狂S、文遠(yuǎn)都在GTC分享了他們對(duì)于自動(dòng)駕駛算法的研究和應(yīng)用。

對(duì)于自動(dòng)駕駛算法101高階的關(guān)鍵詞無(wú)非三個(gè)“端到端（End-to-End）”、“世界模型”、“VLA”。這三個(gè)詞基本上預(yù)示自動(dòng)駕駛算法路線算是統(tǒng)一確立。

所以，Vehicle將基于本次GTC 2026 內(nèi)容整理這些算法的邏輯和架構(gòu)，幫大家看懂當(dāng)前營(yíng)銷話術(shù)拒絕忽悠，或著入門了解自動(dòng)駕駛算法。

首先是“端到端”其實(shí)中國(guó)輔助駕駛從特斯拉在2024年年初推出FSD V12時(shí)候，就開始喊“我們也端到端了”。

但發(fā)展到2026年的現(xiàn)在，不少人會(huì)發(fā)現(xiàn)過(guò)去的輔助駕駛總讓人覺(jué)得像個(gè)“新手”，動(dòng)不動(dòng)就畫龍、急剎、遇到修路就懵圈？而現(xiàn)在的系統(tǒng)卻越來(lái)越像個(gè)老司機(jī)？這背后的核心秘密，就是端到端算法的全面普及。

今天，沒(méi)有枯燥的數(shù)學(xué)公式，而是用最直白的方式，把這個(gè)智駕圈最火的“黑科技”一次性講透。

一、什么是自動(dòng)駕駛的端到端（End-to-End, E2E）算法？

自動(dòng)駕駛端到端大模型，是指基于大規(guī)模數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng)，直接從多模態(tài)傳感器輸入（如攝像頭、激光雷達(dá)等），通過(guò)統(tǒng)一模型進(jìn)行表征學(xué)習(xí)與決策推理，輸出車輛控制指令（如轉(zhuǎn)向、加速、制動(dòng)）

本質(zhì)上，它是一種將自動(dòng)駕駛?cè)蝿?wù)視為輸入到輸出的整體映射問(wèn)題的模型范式，你也可以認(rèn)為他們共享某種語(yǔ)言進(jìn)行信息傳遞。所以，談?wù)摱说蕉说臅r(shí)候常常就看到如下一個(gè)大圖，一個(gè)大模型，光子進(jìn)去動(dòng)作出來(lái)。

從架構(gòu)來(lái)說(shuō)，常見(jiàn)的端到端就是一個(gè)視覺(jué)編碼器（Vision Encoder）加動(dòng)作解碼器（Action Decoder）的架構(gòu)。端到端具備快速直覺(jué)的響應(yīng)特點(diǎn)，一般是通過(guò)模仿學(xué)習(xí)，能更好的學(xué)到這種擬人化的體驗(yàn)。

這里就給端到端接下來(lái)的發(fā)展埋個(gè)伏筆，傳統(tǒng)端到端的弊端就是必須要見(jiàn)過(guò)的東西，沒(méi)見(jiàn)過(guò)的就蒙圈，所以一直要給他喂長(zhǎng)尾數(shù)據(jù)，那何時(shí)是個(gè)頭？

所以后面就基于端到端的基礎(chǔ)上發(fā)展出VLA、世界模型等概念。發(fā)展出現(xiàn)在所謂的L2++算法可以拓展到L4的說(shuō)法，因?yàn)樗梢酝评頉](méi)見(jiàn)過(guò)的，可以自我學(xué)習(xí)。

不管如何，自動(dòng)駕駛算法端到端的這種演進(jìn)背后的行業(yè)共識(shí)可以總結(jié)為：

自動(dòng)駕駛行業(yè)徹底摒棄基于規(guī)則的規(guī)劃邏輯和人工設(shè)計(jì)的特征表達(dá)，因?yàn)槿祟愂澜缯娴奶珡?fù)雜了，即使是交通駕駛看似單一的任務(wù)都有規(guī)則寫不完的場(chǎng)景。

基于這個(gè)端到端的邏輯思維，可以創(chuàng)新算法應(yīng)用，拓展出更加類人的算法思維可以拓展更好的產(chǎn)品形態(tài)。那“端到端”喊了這么久，“端到端”到底有哪些種類？又經(jīng)歷了哪些迭代？

二、端到端算法的發(fā)展與種類

雖然我們常在宣傳上聽到端到端，但，其實(shí)自動(dòng)駕駛端到端架構(gòu)在國(guó)內(nèi)業(yè)內(nèi)經(jīng)歷了三種核心形態(tài)的演進(jìn)。

最先開始的是，兩段式端到端雖然被稱為端到端（通常指整個(gè)網(wǎng)絡(luò)可以聯(lián)合求導(dǎo)和訓(xùn)練），但它在結(jié)構(gòu)上依然保留了傳統(tǒng)的“感知-規(guī)劃”兩段式串聯(lián)邏輯。當(dāng)然沒(méi)有人說(shuō)自己的算法是兩段式端到端，但是從2025年地平線喊一段式端到端之前，基本上不管是小鵬、Momenta叫的出名的量產(chǎn)端到端基本上都可能是兩段式。

他的算法組合架構(gòu)：傳感器數(shù)據(jù) -> 感知編碼器 -> 感知解碼器 -> 輸出顯式人能看懂的結(jié)果（如障礙物 Object、車道線 Lane 等） -> 規(guī)劃模塊 -> 自車軌跡。

架構(gòu)特點(diǎn)：規(guī)劃模塊完全依賴感知網(wǎng)絡(luò)吐出的顯式物理級(jí)結(jié)果（也就是人類能看懂的目標(biāo)級(jí)信息）來(lái)進(jìn)行決策。

優(yōu)劣勢(shì)：優(yōu)勢(shì)是可解釋性強(qiáng)，出了事故或者畫龍，很容易排查是感知漏檢了還是規(guī)劃寫錯(cuò)了；劣勢(shì)是存在嚴(yán)重的信息損耗（Information Loss），三維世界被壓縮成了幾個(gè)特定的標(biāo)簽（比如只輸出框和類別），很多對(duì)駕駛有用的隱含信息（如行人的微小肢體動(dòng)作、路面濕滑程度的視覺(jué)特征）無(wú)法傳遞給規(guī)劃模塊。

有人表示，其實(shí)嚴(yán)格上來(lái)講，兩段式端到端應(yīng)該并不是端到端，只過(guò)不國(guó)內(nèi)為了追求營(yíng)銷效果硬貼上的。

帶顯式感知的一段式端到端，這是一種過(guò)渡形態(tài)，或者是目前許多追求安全與性能平衡的智駕團(tuán)隊(duì)采用的混合架構(gòu)。

他的算法組合架構(gòu)：和兩段式的算法組合一致，不過(guò)，它的規(guī)劃模塊接收兩路輸入：一路來(lái)源于感知編碼器的底層高維特征（Features），另一路來(lái)源于感知解碼器的顯式結(jié)果（Object/Lane...）。

架構(gòu)特點(diǎn)：規(guī)劃模塊不僅能“看”到傳統(tǒng)的障礙物和車道線，還能直接“看”到未經(jīng)壓縮的底層神經(jīng)網(wǎng)絡(luò)特征。

優(yōu)劣勢(shì)：既保留了顯式感知帶來(lái)的結(jié)構(gòu)化約束（作為一種安全冗余或輔助監(jiān)督），又引入了豐富的隱式特征，打破了傳統(tǒng)兩段式的信息傳遞瓶頸。

目前這種應(yīng)該是當(dāng)前國(guó)內(nèi)端到端的主流形態(tài)，一段式端到端輸出的軌跡添加結(jié)合顯式感知元素的后處理，大家唯一的區(qū)別是后處理多與少的問(wèn)題，如果一段式做的不好，后處理給多了，不擬人，給少了出事故。

終極端到端，這是最“純粹”的端到端形態(tài)，也是目前業(yè)界探索的最終極方案（類似于 Tesla FSD V12 的理念）。

他的算法組合架構(gòu)：傳感器數(shù)據(jù) -> 感知編碼器（或基礎(chǔ)模型 Foundation Model）-> 視覺(jué) Token（Visual Tokens） -> 規(guī)劃模塊 -> 自車軌跡。

架構(gòu)特點(diǎn)：完全拋棄顯式感知輸入，規(guī)劃模塊直接消化高維的“視覺(jué) Token”，跳過(guò)了人類定義的 Object/Lane 概念。此時(shí)，感知解碼器（Perception Decoder for HMI）被剝離，它僅僅是為了在車機(jī)屏幕上渲染給駕駛員看（HMI），完全不參與車輛的實(shí)際駕駛決策。

優(yōu)劣勢(shì)：優(yōu)勢(shì)是真正實(shí)現(xiàn)了“無(wú)損”的信息傳遞，理論上限極高，模型完全通過(guò)數(shù)據(jù)學(xué)習(xí)如何直接從像素映射到動(dòng)作。劣勢(shì)是典型的“黑盒（Blackbox）”，可解釋性極差，如果車做了一個(gè)奇怪的動(dòng)作，工程師很難像過(guò)去那樣通過(guò) debug 代碼來(lái)定位和修復(fù)問(wèn)題，只能靠喂更多針對(duì)性的數(shù)據(jù)來(lái)糾正。

這三種端到端的的核心差異在于規(guī)劃模塊輸入的信息維度不同，以及顯式感知在整個(gè)系統(tǒng)中所占的權(quán)重。

發(fā)展本質(zhì)上是一個(gè)從“模塊化殘留”向“純粹數(shù)據(jù)驅(qū)動(dòng)黑盒”演進(jìn)的過(guò)程，原則上的發(fā)展趨勢(shì)是從上往下?lián)p失的信息越來(lái)越少。

三、拆解端到端算法：感知的骨干網(wǎng)絡(luò)與感知解碼器

如上文講到的，端到端算法里面是由非常多不同的模塊組合而成，他們配合將傳感器捕獲的信息，盡可能保留進(jìn)行傳遞，當(dāng)然這里傳遞的東西可以統(tǒng)稱為視覺(jué)信息的Tokens，最終讓執(zhí)行端精準(zhǔn)執(zhí)行。

那么里面有些什么模塊？這些模塊都是一些什么樣的算法？

其實(shí)自動(dòng)駕駛感知系統(tǒng)處理流程通常是模塊化的接力賽，每個(gè)模塊負(fù)責(zé)不同，通過(guò)Tokens進(jìn)行傳遞。

第一棒：主干網(wǎng)絡(luò)（Backbone）——負(fù)責(zé)“打地基”車上的多個(gè)攝像頭拍下原始的 2D 畫面后，首先交由 Backbone 處理，將原始像素點(diǎn)轉(zhuǎn)化為包含物體邊緣、紋理、顏色等高層語(yǔ)義信息的 2D 特征圖（Feature Maps），這部分常被稱為“視覺(jué)分詞器”。常見(jiàn)的主干網(wǎng)絡(luò)分為兩類：

基于 CNN（卷積神經(jīng)網(wǎng)絡(luò)）的 Backbone：例如 ResNet 系列（如 ResNet-50, ResNet-101），是行業(yè)內(nèi)最經(jīng)典、最常用的打底網(wǎng)絡(luò)，算力消耗相對(duì)可控；還有 VovNet，其特征融合效率很高，是很多頭部智駕團(tuán)隊(duì)在打榜或追求極致性能時(shí)非常喜歡的 Backbone。

基于 Transformer 的 Backbone：如 ViT (Vision Transformer) 或 Swin Transformer，具備全局注意力的特性，能提取出更優(yōu)秀的全局上下文特征，是大模型時(shí)代的主流。工程師優(yōu)化 Backbone 意味著換成感受野更大的版本，以提供高質(zhì)量素材供后續(xù)進(jìn)行 3D 目標(biāo)檢測(cè)，這個(gè)當(dāng)前的主流算法。

第二棒：感知框架（Neck/Head）——負(fù)責(zé)“建高樓”像 PETR 或 Sparse4D 這樣的算法負(fù)責(zé)將基本的圖像特征轉(zhuǎn)化為具有 3D 甚至 4D（含時(shí)間）空間和語(yǔ)義理解的深度特征，從而輸入到整個(gè)網(wǎng)絡(luò)架構(gòu)中。

PETR（Position Embedding Transformation - 位置嵌入變換）：由于攝像頭拍到的是 2D 圖像，自動(dòng)駕駛需要知道物體在 3D 世界的具體位置，PETR 利用 3D 位置嵌入技術(shù)，直接將 3D 空間位置信息“融合”到 2D Backbone 輸出的圖像特征中。

Sparse 4D：這是一種基于查詢（Query-based）的稀疏感知方法，不顯式地將全圖轉(zhuǎn)為 3D，而是通過(guò)在特征空間中迭代地更新少量的“查詢點(diǎn)”（Queries）來(lái)逐漸聚焦和理解環(huán)境中的關(guān)鍵目標(biāo)，極其高效地完成 3D 檢測(cè)、追蹤和建圖。

第三棒：感知解碼器（Perception Decoder）緊接在感知編碼器之后，任務(wù)是從特征中“解碼”出最終感知結(jié)果（車在哪、前方有無(wú)障礙等）。分為兩大流派：

稀疏頭（Sparse Head / Query-based 方案）：核心邏輯是“按圖索驥”。它預(yù)先設(shè)定一組固定數(shù)量的“查詢向量”（Queries，比如 900 個(gè)虛擬探測(cè)點(diǎn)），投放到特征圖里主動(dòng)尋找目標(biāo)，匹配成功則直接輸出目標(biāo)的 3D 邊界框。代表算法有 DETR3D、PETR、Sparse4D 系列。優(yōu)點(diǎn)是極其節(jié)省算力（跳過(guò)空白區(qū)域）且擅長(zhǎng)追蹤動(dòng)態(tài)目標(biāo)（如汽車、行人），缺點(diǎn)是無(wú)法很好地描述不規(guī)則物體（如碎磚塊、異形路障、連綿花壇）。

稠密頭（Dense Head / Dense BEV 方案）：核心邏輯是“地毯式搜索”。把車輛周圍 3D 空間強(qiáng)制劃分為密密麻麻的網(wǎng)格（例如 20*20*20 cm的立方格），對(duì)每一個(gè)網(wǎng)格進(jìn)行逐一掃描和全量卷積計(jì)算。代表算法有 BEVDepth、Occupancy Network（占據(jù)網(wǎng)絡(luò)）。優(yōu)點(diǎn)是具備無(wú)死角的安全底線（只要占據(jù)空間就能掃出異形障礙物）且擅長(zhǎng)靜態(tài)環(huán)境感知（車道線、可行駛區(qū)域），缺點(diǎn)是極其消耗算力，需要在大量無(wú)效的“空氣網(wǎng)格”上花費(fèi)計(jì)算資源。

以上基本上就是當(dāng)前端到端感知算法的骨干模塊了，他和規(guī)劃模塊的信息傳遞是繼續(xù)用token還是提取出了人類熟悉物體，就決定了這個(gè)算法是一段式還是兩段式端到端。

四、拆解端到端算法：生成動(dòng)作的規(guī)劃模塊（Planning）

規(guī)劃模塊（Planning Decoder）的核心任務(wù)是根據(jù)感知特征生成車輛未來(lái)幾秒的行駛軌跡（坐標(biāo)點(diǎn)、速度和航向角）供執(zhí)行機(jī)構(gòu)執(zhí)行。

目前主流有三大算法流派：

Reg（Regression / 回歸算法）：核心思路是“一步到位”的全局預(yù)測(cè)。模型看一眼當(dāng)前環(huán)境，一次性、同時(shí)輸出未來(lái)所有的軌跡點(diǎn)坐標(biāo)（例如 $t_1, t_2, t_3$ 時(shí)刻的 $x,y$ 坐標(biāo)），就像射箭一樣軌跡瞬間決定。

優(yōu)缺點(diǎn)：優(yōu)點(diǎn)是計(jì)算速度極快，延遲極低，非常適合車端部署。缺點(diǎn)是難以處理“多解”情況（多模態(tài)問(wèn)題），例如遇到障礙物既能左繞也能右繞時(shí)，簡(jiǎn)單的回歸算法會(huì)試圖“找平均”，畫出一條筆直撞向障礙物的致命軌跡。

AR（Autoregressive / 自回歸算法）：核心思路是“走一步，看一步”的串行預(yù)測(cè)，類似大語(yǔ)言模型生成文字。模型預(yù)測(cè)出 $t_1$ 的點(diǎn)后，將其作為已知條件喂回給模型去預(yù)測(cè) $t_2$，如同“摸著石頭過(guò)河”或“詞語(yǔ)接龍”。

優(yōu)缺點(diǎn)：優(yōu)點(diǎn)是符合時(shí)間序列因果邏輯，動(dòng)作連貫，且能很好處理“多解”問(wèn)題（每一步可輸出概率分布供采樣）。缺點(diǎn)是會(huì)產(chǎn)生誤差累積（Error Accumulation），“一步錯(cuò)，步步錯(cuò)”，且由于必須串行計(jì)算，生成速度較慢。

Diffusion（擴(kuò)散模型）：核心思路是“整體打磨”的迭代去噪，是目前最前沿且備受理想、小米等追捧的方案。它在路面上生成隨機(jī)毫無(wú)邏輯的“噪音軌跡”，然后結(jié)合環(huán)境特征，在多個(gè)步驟中一點(diǎn)一點(diǎn)地修正，像雕刻一樣把粗糙的石頭削去多余部分，最后呈現(xiàn)完美的軌跡。

優(yōu)缺點(diǎn)：優(yōu)點(diǎn)是完美解決“多解”博弈（能同時(shí)雕刻出截然不同但都合理的軌跡并挑出最好的），且生成的軌跡平順、極具人類質(zhì)感，能很好滿足車輛動(dòng)力學(xué)約束等物理規(guī)律。缺點(diǎn)是計(jì)算量大，需要反復(fù)迭代，通常需要采用并行解碼（Parallel Decoding）等技術(shù)進(jìn)行加速以實(shí)現(xiàn)上車。

總結(jié)

有了這種端到端的算法模塊組合，從傳感器的輸入進(jìn)來(lái)的信息，都會(huì)被編碼成Token在各個(gè)模塊中進(jìn)行傳遞，這樣盡最大化的減少人為的信息傳遞篩選，之后被編碼成為動(dòng)作執(zhí)行。

而，訓(xùn)練過(guò)程也更加簡(jiǎn)單了，直接將數(shù)據(jù)喂給模型訓(xùn)練，模型根據(jù)數(shù)據(jù)形成所謂的模型參數(shù)量，參數(shù)量可以簡(jiǎn)單理解成“知識(shí)”量，知識(shí)量更多更細(xì)那么對(duì)應(yīng)的模型理論上就越好，要承載更大的參數(shù)量那么必須更大的算力芯片。

所以，端到端算法的構(gòu)建完成，必定會(huì)卷模型參數(shù)量，卷芯片算力，卷模型應(yīng)用創(chuàng)新度比如說(shuō)世界模型、VLA等。

最后，其實(shí)算法是自動(dòng)駕駛重要的工具，但是自動(dòng)駕駛產(chǎn)品卻是與大家應(yīng)用場(chǎng)景交互深刻的地方，有對(duì)自動(dòng)駕駛產(chǎn)品感興趣的朋友可以點(diǎn)擊Vehicle聯(lián)合機(jī)械工業(yè)出版出品的《自動(dòng)駕駛產(chǎn)品經(jīng)理》一書，詳細(xì)介紹自動(dòng)駕駛產(chǎn)品。

參考資料以及圖片

VLA World Model for Autonomous Driving pdf- 大疆卓馭Xiaozhi Chen

UnleashingtheOmni-ParadigmforNext-GenAutonomousDriving with UnifiedVLAModels pdf - 理想汽車詹錕

Redefining the Boundaries of Autonomous Driving with Foundation Model pdf - 元戎曹通易

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-

原文標(biāo)題 : 智駕定型之戰(zhàn)：一文看透自動(dòng)駕駛“端到端”的底層邏輯與架構(gòu)演進(jìn)