訂閱
糾錯(cuò)
加入自媒體

智駕定型之戰(zhàn):一文看透自動(dòng)駕駛“端到端”的底層邏輯與架構(gòu)演進(jìn)

最近的GTC 2026不管是主機(jī)廠的理想、小米、吉利千里科技還是輔助駕駛供應(yīng)商們?cè)帧⒋蠼狂S、文遠(yuǎn)都在GTC分享了他們對(duì)于自動(dòng)駕駛算法的研究和應(yīng)用。

對(duì)于自動(dòng)駕駛算法101高階的關(guān)鍵詞無(wú)非三個(gè)“端到端(End-to-End)”、“世界模型”、“VLA”。這三個(gè)詞基本上預(yù)示自動(dòng)駕駛算法路線算是統(tǒng)一確立。

所以,Vehicle將基于本次GTC 2026 內(nèi)容整理這些算法的邏輯和架構(gòu),幫大家看懂當(dāng)前營(yíng)銷話術(shù)拒絕忽悠,或著入門了解自動(dòng)駕駛算法。

首先是“端到端”其實(shí)中國(guó)輔助駕駛從特斯拉在2024年年初推出FSD V12時(shí)候,就開始喊“我們也端到端了”。

但發(fā)展到2026年的現(xiàn)在,不少人會(huì)發(fā)現(xiàn)過(guò)去的輔助駕駛總讓人覺(jué)得像個(gè)“新手”,動(dòng)不動(dòng)就畫龍、急剎、遇到修路就懵圈?而現(xiàn)在的系統(tǒng)卻越來(lái)越像個(gè)老司機(jī)?這背后的核心秘密,就是端到端算法的全面普及。

今天,沒(méi)有枯燥的數(shù)學(xué)公式,而是用最直白的方式,把這個(gè)智駕圈最火的“黑科技”一次性講透。

一、 什么是自動(dòng)駕駛的端到端(End-to-End, E2E)算法?

自動(dòng)駕駛端到端大模型,是指基于大規(guī)模數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)系統(tǒng),直接從多模態(tài)傳感器輸入(如攝像頭、激光雷達(dá)等),通過(guò)統(tǒng)一模型進(jìn)行表征學(xué)習(xí)與決策推理,輸出車輛控制指令(如轉(zhuǎn)向、加速、制動(dòng))

本質(zhì)上,它是一種將自動(dòng)駕駛?cè)蝿?wù)視為輸入到輸出的整體映射問(wèn)題的模型范式,你也可以認(rèn)為他們共享某種語(yǔ)言進(jìn)行信息傳遞。所以,談?wù)摱说蕉说臅r(shí)候常常就看到如下一個(gè)大圖,一個(gè)大模型,光子進(jìn)去動(dòng)作出來(lái)。

從架構(gòu)來(lái)說(shuō),常見(jiàn)的端到端就是一個(gè)視覺(jué)編碼器(Vision Encoder)加動(dòng)作解碼器(Action Decoder)的架構(gòu)。端到端具備快速直覺(jué)的響應(yīng)特點(diǎn),一般是通過(guò)模仿學(xué)習(xí),能更好的學(xué)到這種擬人化的體驗(yàn)。

這里就給端到端接下來(lái)的發(fā)展埋個(gè)伏筆,傳統(tǒng)端到端的弊端就是必須要見(jiàn)過(guò)的東西,沒(méi)見(jiàn)過(guò)的就蒙圈,所以一直要給他喂長(zhǎng)尾數(shù)據(jù),那何時(shí)是個(gè)頭?

所以后面就基于端到端的基礎(chǔ)上發(fā)展出VLA、世界模型等概念。發(fā)展出現(xiàn)在所謂的L2++算法可以拓展到L4的說(shuō)法,因?yàn)樗梢酝评頉](méi)見(jiàn)過(guò)的,可以自我學(xué)習(xí)。

不管如何,自動(dòng)駕駛算法端到端的這種演進(jìn)背后的行業(yè)共識(shí)可以總結(jié)為:

自動(dòng)駕駛行業(yè)徹底摒棄基于規(guī)則的規(guī)劃邏輯和人工設(shè)計(jì)的特征表達(dá),因?yàn)槿祟愂澜缯娴奶珡?fù)雜了,即使是交通駕駛看似單一的任務(wù)都有規(guī)則寫不完的場(chǎng)景。

基于這個(gè)端到端的邏輯思維,可以創(chuàng)新算法應(yīng)用,拓展出更加類人的算法思維可以拓展更好的產(chǎn)品形態(tài)。那“端到端”喊了這么久,“端到端”到底有哪些種類?又經(jīng)歷了哪些迭代?

二、 端到端算法的發(fā)展與種類

雖然我們常在宣傳上聽到端到端,但,其實(shí)自動(dòng)駕駛端到端架構(gòu)在國(guó)內(nèi)業(yè)內(nèi)經(jīng)歷了三種核心形態(tài)的演進(jìn)。

最先開始的是,兩段式端到端雖然被稱為端到端(通常指整個(gè)網(wǎng)絡(luò)可以聯(lián)合求導(dǎo)和訓(xùn)練),但它在結(jié)構(gòu)上依然保留了傳統(tǒng)的“感知-規(guī)劃”兩段式串聯(lián)邏輯。當(dāng)然沒(méi)有人說(shuō)自己的算法是兩段式端到端,但是從2025年地平線喊一段式端到端之前,基本上不管是小鵬、Momenta叫的出名的量產(chǎn)端到端基本上都可能是兩段式。

他的算法組合架構(gòu):傳感器數(shù)據(jù) -> 感知編碼器 -> 感知解碼器 -> 輸出顯式人能看懂的結(jié)果(如障礙物 Object、車道線 Lane 等) -> 規(guī)劃模塊 -> 自車軌跡。

架構(gòu)特點(diǎn):規(guī)劃模塊完全依賴感知網(wǎng)絡(luò)吐出的顯式物理級(jí)結(jié)果(也就是人類能看懂的目標(biāo)級(jí)信息)來(lái)進(jìn)行決策。

優(yōu)劣勢(shì):優(yōu)勢(shì)是可解釋性強(qiáng),出了事故或者畫龍,很容易排查是感知漏檢了還是規(guī)劃寫錯(cuò)了;劣勢(shì)是存在嚴(yán)重的信息損耗(Information Loss),三維世界被壓縮成了幾個(gè)特定的標(biāo)簽(比如只輸出框和類別),很多對(duì)駕駛有用的隱含信息(如行人的微小肢體動(dòng)作、路面濕滑程度的視覺(jué)特征)無(wú)法傳遞給規(guī)劃模塊。

有人表示,其實(shí)嚴(yán)格上來(lái)講,兩段式端到端應(yīng)該并不是端到端,只過(guò)不國(guó)內(nèi)為了追求營(yíng)銷效果硬貼上的。

帶顯式感知的一段式端到端,這是一種過(guò)渡形態(tài),或者是目前許多追求安全與性能平衡的智駕團(tuán)隊(duì)采用的混合架構(gòu)。

他的算法組合架構(gòu):和兩段式的算法組合一致,不過(guò),它的規(guī)劃模塊接收兩路輸入:一路來(lái)源于感知編碼器的底層高維特征(Features),另一路來(lái)源于感知解碼器的顯式結(jié)果(Object/Lane...)。

架構(gòu)特點(diǎn):規(guī)劃模塊不僅能“看”到傳統(tǒng)的障礙物和車道線,還能直接“看”到未經(jīng)壓縮的底層神經(jīng)網(wǎng)絡(luò)特征。

優(yōu)劣勢(shì):既保留了顯式感知帶來(lái)的結(jié)構(gòu)化約束(作為一種安全冗余或輔助監(jiān)督),又引入了豐富的隱式特征,打破了傳統(tǒng)兩段式的信息傳遞瓶頸。

目前這種應(yīng)該是當(dāng)前國(guó)內(nèi)端到端的主流形態(tài),一段式端到端輸出的軌跡添加結(jié)合顯式感知元素的后處理,大家唯一的區(qū)別是后處理多與少的問(wèn)題,如果一段式做的不好,后處理給多了,不擬人,給少了出事故。

終極端到端,這是最“純粹”的端到端形態(tài),也是目前業(yè)界探索的最終極方案(類似于 Tesla FSD V12 的理念)。

他的算法組合架構(gòu):傳感器數(shù)據(jù) -> 感知編碼器(或基礎(chǔ)模型 Foundation Model)-> 視覺(jué) Token(Visual Tokens) -> 規(guī)劃模塊 -> 自車軌跡。

架構(gòu)特點(diǎn):完全拋棄顯式感知輸入,規(guī)劃模塊直接消化高維的“視覺(jué) Token”,跳過(guò)了人類定義的 Object/Lane 概念。此時(shí),感知解碼器(Perception Decoder for HMI)被剝離,它僅僅是為了在車機(jī)屏幕上渲染給駕駛員看(HMI),完全不參與車輛的實(shí)際駕駛決策。

優(yōu)劣勢(shì):優(yōu)勢(shì)是真正實(shí)現(xiàn)了“無(wú)損”的信息傳遞,理論上限極高,模型完全通過(guò)數(shù)據(jù)學(xué)習(xí)如何直接從像素映射到動(dòng)作。劣勢(shì)是典型的“黑盒(Blackbox)”,可解釋性極差,如果車做了一個(gè)奇怪的動(dòng)作,工程師很難像過(guò)去那樣通過(guò) debug 代碼來(lái)定位和修復(fù)問(wèn)題,只能靠喂更多針對(duì)性的數(shù)據(jù)來(lái)糾正。

這三種端到端的的核心差異在于規(guī)劃模塊輸入的信息維度不同,以及顯式感知在整個(gè)系統(tǒng)中所占的權(quán)重。

發(fā)展本質(zhì)上是一個(gè)從“模塊化殘留”向“純粹數(shù)據(jù)驅(qū)動(dòng)黑盒”演進(jìn)的過(guò)程,原則上的發(fā)展趨勢(shì)是從上往下?lián)p失的信息越來(lái)越少。

三、 拆解端到端算法:感知的骨干網(wǎng)絡(luò)與感知解碼器

如上文講到的,端到端算法里面是由非常多不同的模塊組合而成,他們配合將傳感器捕獲的信息,盡可能保留進(jìn)行傳遞,當(dāng)然這里傳遞的東西可以統(tǒng)稱為視覺(jué)信息的Tokens,最終讓執(zhí)行端精準(zhǔn)執(zhí)行。

那么里面有些什么模塊?這些模塊都是一些什么樣的算法?

其實(shí)自動(dòng)駕駛感知系統(tǒng)處理流程通常是模塊化的接力賽,每個(gè)模塊負(fù)責(zé)不同,通過(guò)Tokens進(jìn)行傳遞。

第一棒:主干網(wǎng)絡(luò)(Backbone)——負(fù)責(zé)“打地基”車上的多個(gè)攝像頭拍下原始的 2D 畫面后,首先交由 Backbone 處理,將原始像素點(diǎn)轉(zhuǎn)化為包含物體邊緣、紋理、顏色等高層語(yǔ)義信息的 2D 特征圖(Feature Maps),這部分常被稱為“視覺(jué)分詞器”。常見(jiàn)的主干網(wǎng)絡(luò)分為兩類:

基于 CNN(卷積神經(jīng)網(wǎng)絡(luò))的 Backbone:例如 ResNet 系列(如 ResNet-50, ResNet-101),是行業(yè)內(nèi)最經(jīng)典、最常用的打底網(wǎng)絡(luò),算力消耗相對(duì)可控;還有 VovNet,其特征融合效率很高,是很多頭部智駕團(tuán)隊(duì)在打榜或追求極致性能時(shí)非常喜歡的 Backbone。

基于 Transformer 的 Backbone:如 ViT (Vision Transformer) 或 Swin Transformer,具備全局注意力的特性,能提取出更優(yōu)秀的全局上下文特征,是大模型時(shí)代的主流。工程師優(yōu)化 Backbone 意味著換成感受野更大的版本,以提供高質(zhì)量素材供后續(xù)進(jìn)行 3D 目標(biāo)檢測(cè),這個(gè)當(dāng)前的主流算法。

第二棒:感知框架(Neck/Head)——負(fù)責(zé)“建高樓”像 PETR 或 Sparse4D 這樣的算法負(fù)責(zé)將基本的圖像特征轉(zhuǎn)化為具有 3D 甚至 4D(含時(shí)間)空間和語(yǔ)義理解的深度特征,從而輸入到整個(gè)網(wǎng)絡(luò)架構(gòu)中。

PETR(Position Embedding Transformation - 位置嵌入變換):由于攝像頭拍到的是 2D 圖像,自動(dòng)駕駛需要知道物體在 3D 世界的具體位置,PETR 利用 3D 位置嵌入技術(shù),直接將 3D 空間位置信息“融合”到 2D Backbone 輸出的圖像特征中。

Sparse 4D:這是一種基于查詢(Query-based)的稀疏感知方法,不顯式地將全圖轉(zhuǎn)為 3D,而是通過(guò)在特征空間中迭代地更新少量的“查詢點(diǎn)”(Queries)來(lái)逐漸聚焦和理解環(huán)境中的關(guān)鍵目標(biāo),極其高效地完成 3D 檢測(cè)、追蹤和建圖。

第三棒:感知解碼器(Perception Decoder)緊接在感知編碼器之后,任務(wù)是從特征中“解碼”出最終感知結(jié)果(車在哪、前方有無(wú)障礙等)。分為兩大流派:

稀疏頭(Sparse Head / Query-based 方案):核心邏輯是“按圖索驥”。它預(yù)先設(shè)定一組固定數(shù)量的“查詢向量”(Queries,比如 900 個(gè)虛擬探測(cè)點(diǎn)),投放到特征圖里主動(dòng)尋找目標(biāo),匹配成功則直接輸出目標(biāo)的 3D 邊界框。代表算法有 DETR3D、PETR、Sparse4D 系列。優(yōu)點(diǎn)是極其節(jié)省算力(跳過(guò)空白區(qū)域)且擅長(zhǎng)追蹤動(dòng)態(tài)目標(biāo)(如汽車、行人),缺點(diǎn)是無(wú)法很好地描述不規(guī)則物體(如碎磚塊、異形路障、連綿花壇)。

稠密頭(Dense Head / Dense BEV 方案):核心邏輯是“地毯式搜索”。把車輛周圍 3D 空間強(qiáng)制劃分為密密麻麻的網(wǎng)格(例如 20*20*20 cm的立方格),對(duì)每一個(gè)網(wǎng)格進(jìn)行逐一掃描和全量卷積計(jì)算。代表算法有 BEVDepth、Occupancy Network(占據(jù)網(wǎng)絡(luò))。優(yōu)點(diǎn)是具備無(wú)死角的安全底線(只要占據(jù)空間就能掃出異形障礙物)且擅長(zhǎng)靜態(tài)環(huán)境感知(車道線、可行駛區(qū)域),缺點(diǎn)是極其消耗算力,需要在大量無(wú)效的“空氣網(wǎng)格”上花費(fèi)計(jì)算資源。

以上基本上就是當(dāng)前端到端感知算法的骨干模塊了,他和規(guī)劃模塊的信息傳遞是繼續(xù)用token還是提取出了人類熟悉物體,就決定了這個(gè)算法是一段式還是兩段式端到端。

四、 拆解端到端算法:生成動(dòng)作的規(guī)劃模塊(Planning)

規(guī)劃模塊(Planning Decoder)的核心任務(wù)是根據(jù)感知特征生成車輛未來(lái)幾秒的行駛軌跡(坐標(biāo)點(diǎn)、速度和航向角)供執(zhí)行機(jī)構(gòu)執(zhí)行。

目前主流有三大算法流派:

Reg(Regression / 回歸算法):核心思路是“一步到位”的全局預(yù)測(cè)。模型看一眼當(dāng)前環(huán)境,一次性、同時(shí)輸出未來(lái)所有的軌跡點(diǎn)坐標(biāo)(例如 $t_1, t_2, t_3$ 時(shí)刻的 $x,y$ 坐標(biāo)),就像射箭一樣軌跡瞬間決定。

優(yōu)缺點(diǎn):優(yōu)點(diǎn)是計(jì)算速度極快,延遲極低,非常適合車端部署。缺點(diǎn)是難以處理“多解”情況(多模態(tài)問(wèn)題),例如遇到障礙物既能左繞也能右繞時(shí),簡(jiǎn)單的回歸算法會(huì)試圖“找平均”,畫出一條筆直撞向障礙物的致命軌跡。

AR(Autoregressive / 自回歸算法):核心思路是“走一步,看一步”的串行預(yù)測(cè),類似大語(yǔ)言模型生成文字。模型預(yù)測(cè)出 $t_1$ 的點(diǎn)后,將其作為已知條件喂回給模型去預(yù)測(cè) $t_2$,如同“摸著石頭過(guò)河”或“詞語(yǔ)接龍”。

優(yōu)缺點(diǎn):優(yōu)點(diǎn)是符合時(shí)間序列因果邏輯,動(dòng)作連貫,且能很好處理“多解”問(wèn)題(每一步可輸出概率分布供采樣)。缺點(diǎn)是會(huì)產(chǎn)生誤差累積(Error Accumulation),“一步錯(cuò),步步錯(cuò)”,且由于必須串行計(jì)算,生成速度較慢。

Diffusion(擴(kuò)散模型):核心思路是“整體打磨”的迭代去噪,是目前最前沿且備受理想、小米等追捧的方案。它在路面上生成隨機(jī)毫無(wú)邏輯的“噪音軌跡”,然后結(jié)合環(huán)境特征,在多個(gè)步驟中一點(diǎn)一點(diǎn)地修正,像雕刻一樣把粗糙的石頭削去多余部分,最后呈現(xiàn)完美的軌跡。

優(yōu)缺點(diǎn):優(yōu)點(diǎn)是完美解決“多解”博弈(能同時(shí)雕刻出截然不同但都合理的軌跡并挑出最好的),且生成的軌跡平順、極具人類質(zhì)感,能很好滿足車輛動(dòng)力學(xué)約束等物理規(guī)律。缺點(diǎn)是計(jì)算量大,需要反復(fù)迭代,通常需要采用并行解碼(Parallel Decoding)等技術(shù)進(jìn)行加速以實(shí)現(xiàn)上車。

總結(jié)

有了這種端到端的算法模塊組合,從傳感器的輸入進(jìn)來(lái)的信息,都會(huì)被編碼成Token在各個(gè)模塊中進(jìn)行傳遞,這樣盡最大化的減少人為的信息傳遞篩選,之后被編碼成為動(dòng)作執(zhí)行。

而,訓(xùn)練過(guò)程也更加簡(jiǎn)單了,直接將數(shù)據(jù)喂給模型訓(xùn)練,模型根據(jù)數(shù)據(jù)形成所謂的模型參數(shù)量,參數(shù)量可以簡(jiǎn)單理解成“知識(shí)”量,知識(shí)量更多更細(xì)那么對(duì)應(yīng)的模型理論上就越好,要承載更大的參數(shù)量那么必須更大的算力芯片。

所以,端到端算法的構(gòu)建完成,必定會(huì)卷模型參數(shù)量,卷芯片算力,卷模型應(yīng)用創(chuàng)新度比如說(shuō)世界模型、VLA等。

最后,其實(shí)算法是自動(dòng)駕駛重要的工具,但是自動(dòng)駕駛產(chǎn)品卻是與大家應(yīng)用場(chǎng)景交互深刻的地方,有對(duì)自動(dòng)駕駛產(chǎn)品感興趣的朋友可以點(diǎn)擊Vehicle聯(lián)合機(jī)械工業(yè)出版出品的《自動(dòng)駕駛產(chǎn)品經(jīng)理》一書,詳細(xì)介紹自動(dòng)駕駛產(chǎn)品。

參考資料以及圖片

VLA World Model for Autonomous Driving pdf- 大疆卓馭Xiaozhi Chen

UnleashingtheOmni-ParadigmforNext-GenAutonomousDriving with UnifiedVLAModels pdf - 理想汽車詹錕

Redefining the Boundaries of Autonomous Driving with Foundation Model pdf - 元戎曹通易

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-

       原文標(biāo)題 : 智駕定型之戰(zhàn):一文看透自動(dòng)駕駛“端到端”的底層邏輯與架構(gòu)演進(jìn)

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)