123,123

英偉達 Alpamayo：基于推理的自動駕駛大模型設(shè)計與量產(chǎn)部署全解析

2026-03-26 11:08

GTC 2026 上英偉達對其開源的 Alpamayo VLA模型進行了進一步的闡述。其中Marco Pavone代表英偉達的研究團隊對就Alpamayo的模型設(shè)計和最新的因果鏈進行了分享，Patrick Liu曾今吳新宙在小鵬的老部下后來也來到英偉達，本次他代表量產(chǎn)端對Alpamayo落地量產(chǎn)的一些經(jīng)驗方法進行了一些分享。

本文基于兩位的演講內(nèi)容，對Alpamayo的模型設(shè)計和量產(chǎn)經(jīng)驗進行總結(jié)和分享。

我們之前文章《智駕定型之戰(zhàn)：一文看透自動駕駛“端到端”的底層邏輯與架構(gòu)演進》也分享過在自動駕駛的發(fā)展歷程中，如何讓AI不僅能“看”和“開”，還能像人類一樣“思考”和“解釋”，是經(jīng)歷了端到端算法普及之后的第二個突破點。

英偉達推出的 Alpamayo的亮點就是具有推理能力。本次演講中Marco Pavone 表示Alpamayo 是一個100億（10B）參數(shù)的端到端、基于推理的視覺語言動作模型（VLA），他是基于英偉達基礎(chǔ)模型Cosmos Reason構(gòu)建的。

第一部分：模型設(shè)計，讓 AI 學會“因果推理”與“知行合一”

和所有VLA模型類似，Alpamayo 1 接收多攝像頭圖像、用戶命令和導(dǎo)航指引，并輸出三個關(guān)鍵結(jié)果：推理軌跡、元動作和駕駛軌跡。

這個模型算法的第一大亮點是“具體推理” --產(chǎn)生類似于人類推理的軌跡，將空間理解和常識推理與物理動作聯(lián)系起來，為了構(gòu)建這種“具體推理”能力，英偉達Alpamayo的采用多階段訓練流水線：

通用推理：從 Cosmos Reason 開始，利用互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)訓練一般推理能力。這個基本上是基礎(chǔ)模型訓練的范疇。

軌跡預(yù)訓練：在海量駕駛數(shù)據(jù)上預(yù)訓練，賦予模型自動駕駛的軌跡生成能力。一般從通用基礎(chǔ)模型到專業(yè)自動駕駛模型的第一步訓練，就是專門的駕駛數(shù)據(jù)訓練。

監(jiān)督微調(diào)（SFT）：利用自動標注的駕駛相關(guān)推理軌跡進行微調(diào)，以引出顯式的推理能力。這一步主要是賦予VLA模型基于語言的顯式推理的能力。

強化學習（RL）：在 Cosmos生產(chǎn)和修改的場景的 RL 基礎(chǔ)上，改善極具挑戰(zhàn)性情況下的推理，并促進各輸出模態(tài)之間的對齊。

經(jīng)過以上步驟一個VLA大模型基本完成，我們之前文章《吳新宙帶領(lǐng)英偉達沖刺自動駕駛L4背后的VLA大模型算法》有詳細介紹。

最后模型上車采取知識蒸餾：將龐大的能力壓縮到適合車端部署的模型中。

整個訓練過程，有如下難點：

1. 如何突破純文本思維鏈（COT）自動標注的局限：因果鏈自動標注在 SFT 階段，最大的挑戰(zhàn)是如何大規(guī)模生成高質(zhì)量的推理標簽。傳統(tǒng)的文本思維鏈（COT）自動標注存在三大致命缺陷：

一是因果混淆，推理軌跡可能會泄露未來信息，比如提前說“銀色SUV將在以后切入”；

二是行為描述模糊，無法給出具體的駕駛操作；

三是膚淺推理，描述缺乏與本車行為直接因果聯(lián)系的上下文。

為了解決這些問題，英偉達采用“因果鏈自動標注流水線”的方式，來擊破這個痛點：

錨定關(guān)鍵幀：將推理生成嚴格錨定在關(guān)鍵決策時刻（如交通燈變綠瞬間），確保推理過程只包含該關(guān)鍵幀之前的因素，杜絕未來信息泄露。

封閉決策詞匯表：將決策分為縱向和橫向類型，并建立明確的詞匯表，確保使用精確術(shù)語描述行為，消除模糊性。

因果鏈模板：引導(dǎo)模型確保每個語句都符合因果鏈邏輯，阻止膚淺的推理。

英偉達的Marco Pavone表示通過從非結(jié)構(gòu)化思維鏈切換到結(jié)構(gòu)化因果鏈的方法，給顯式推理帶來了驚人的121% 的準確性提升。模型在處理捕捉復(fù)雜運動行為和分布外視覺上下文的“長尾場景”時，軌跡位移（平均ADE）減少了約12%，證明推理在復(fù)雜的邊緣場景中收益巨大。

2. 消除“具身不一致”：強化學習后訓練對齊模型會推理了，但如果“想的是向左，開的卻是向右”怎么辦？這種思維鏈推理與模型直接輸出的行動之間的潛在差異被稱為“具身不一致”（因為動作生成往往只是模仿訓練數(shù)據(jù)，并未真正理解背后原因）。

為此，團隊引入了強化學習（RL），將可驗證的安全獎勵、教師模型反饋以及人類偏好聚合到一個統(tǒng)一的獎勵模型中。經(jīng)過對齊后，模型生成的動作變得更符合相應(yīng)的推理軌跡，不忠實的行動減少了近 60%。例如，當模型推斷要減速停止后再加速時，對齊后的模型會嚴格遵循完整的因果序列，同時顯著降低了接近碰撞率。

3. 前沿探索：從文本推理走向“潛在空間推理”雖然語言文本易于解釋，但在 token 數(shù)量和推理時間上并不是最高效的表示，這里算點出了VLA中L真的很耗token，這也是真正VLA當前工程落地的問題。英偉達正在探索在連續(xù)的潛在空間（Latent Space）中進行推理。這不僅能帶來2 到 4 倍的推理加速，還能使后訓練優(yōu)化更加平滑。在復(fù)雜的局部可觀察場景（如應(yīng)對隨時可能過馬路的行人）中，模型甚至展現(xiàn)出了反事實推理和自我調(diào)節(jié)“思考率”的能力——場景越難，它就會花越多時間進行推演更新，從而實現(xiàn)更好的駕駛性能。

這個就是隱式推理的方法，或者有人叫他世界模型，理想汽車在本次GTC 2026上的演講也分享了，他們下一代MindVLA也將采用，具體可以看我們文章《理想汽車下一代基座模型 Mind VLA-o1的架構(gòu)和算法應(yīng)用解析》。

第二部分：量產(chǎn)部署——跨越交互與實時計算的物理瓶頸

現(xiàn)實中，要將這樣一個強大的研究級推理模型真正部署到實車生產(chǎn)中，需要克服系統(tǒng)交互、數(shù)據(jù)質(zhì)量以及極高實時性的三大支柱挑戰(zhàn)，因為車端的算力約束擺在前面。

量產(chǎn)中如何解決呢？英偉達的Patrick Liu就這些問題，給出了他們的答案：

1. 多任務(wù)產(chǎn)品功能與“模式專家（Mode Expert）”架構(gòu)為了實現(xiàn)L4級別既能自動駕駛，又具備互動和可解釋性的體驗，量產(chǎn)模型在自主推理之外，新增了兩種模式：

用戶問答模式：為黑盒神經(jīng)網(wǎng)絡(luò)增加了自然語言界面，用戶可以問“你在做什么”、“為什么要慢下來”，極大增強了信任度。

用戶控制模式：用戶可以直接下達“靠邊停車”、“下一條出口下高速”、“稍微快一點”等命令。

為了支撐這三種模式，系統(tǒng)層面引入了一個核心模塊——模式專家（Mode Expert）。它承擔兩大職責：

一是保護性攔截，如果用戶下達有害指令（如“撞上那個垃圾桶”），模式專家會先發(fā)制人地拒絕，根本不會傳遞給模型；

二是無縫路由，它將到底該執(zhí)行哪種模式的決策編碼為一個“極其微小的單一模態(tài) Token”強制輸入給模型。

這種MOE的設(shè)計避免了生成額外 Token 帶來的延遲，并且允許模型在必要時推翻原有的導(dǎo)航路線以服從用戶的控制指令。MOE的方法Deepseek在過去兩年中已經(jīng)證明了其同等算力下的高效性。

2. 生產(chǎn)級別的數(shù)據(jù)流水線為了產(chǎn)生高質(zhì)量、行動高度一致的“C數(shù)據(jù)集”，研發(fā)團隊花費了100多次迭代來平衡云端與車端的復(fù)雜數(shù)據(jù)混合結(jié)構(gòu)。除了依賴視覺語言模型（VLM）和經(jīng)典行為計劃堆棧進行自動標記并使用規(guī)則過濾器清理數(shù)據(jù)外，整個流水線中必須有“人機在環(huán)（Human-in-the-loop）的 QA”來嚴格審核所有標簽的準確性和真實性。

3. 實時部署：硬核的 4 倍實時加速技術(shù)這是量產(chǎn)最關(guān)鍵的一環(huán)。車端的重規(guī)劃預(yù)算是 100 毫秒（即 10 fps），而原始未優(yōu)化的模型延遲超出了預(yù)算大約 4 倍。為了在嚴苛預(yù)算內(nèi)生成所有推理和軌跡 Token，團隊采用了雙管齊下的技術(shù)突破：

語言端（推測解碼）：對大語言模型使用了推測解碼（Speculative Decoding）技術(shù)。利用一個小型的“草稿模型”快速生成可能的 Token，再交由主模型進行并行驗證。因為驗證并行 Token 遠比直接生成快，這實現(xiàn)了 2 到 4 倍的加速。

視覺端（稀疏注意力與定制預(yù)訓練）：將密集的注意力機制分解為多層稀疏注意力，從而在視覺處理上獲得了約四倍的加速。但由于這種架構(gòu)改變無法直接使用 Dinov2 等預(yù)訓練的密集模型，團隊使用了定制的預(yù)訓練流水線（如 Nvidia 的 Radio）來訓練專門適應(yīng)新架構(gòu)的快速視覺模型。

最終特征對齊：視覺端的架構(gòu)改變打破了微調(diào)階段語言和視覺原本的協(xié)同理解。因此，在多階段訓練配方中，團隊被迫增加了一個額外的對齊階段，將這些特征重新帶回，確保了在極致壓縮延遲的情況下，依然不降低推理和軌跡生成的質(zhì)量。

結(jié)合上述針對模型設(shè)計的底層重構(gòu)以及量產(chǎn)部署的極限工程優(yōu)化，英偉達成功地將 Alpamayo 1 從前沿研究帶入了真實的汽車生產(chǎn)部署中。

最后，英偉達在本次GTC 2026宣布發(fā)布新的 Alpamayo 1.5 模型

最新發(fā)布的 Alpamayo 1.5 模型在保持原有 100 億參數(shù)規(guī)模的基礎(chǔ)上，主要新增了導(dǎo)航和語言對話可以控制輔助駕駛的功能。這個算是非常難的一點。當然除了這些這個公開模型還增加了專門的虛擬仿真套件以及上文提到的CoC自動標簽、推理標簽等數(shù)據(jù)集。

這些新功能的加入，進一步提升了該模型在實際應(yīng)用中的靈活性和可控性，算是公版的L4安卓軟件了，可以幫助很多傳統(tǒng)主機廠開啟自研模式，畢竟互聯(lián)網(wǎng)公司很多也是這么開啟的。

最后，其實算法是自動駕駛重要的工具，但是自動駕駛產(chǎn)品卻是與大家應(yīng)用場景交互最深刻的地方，有對自動駕駛產(chǎn)品感興趣的朋友可以點擊Vehicle聯(lián)合機械工業(yè)出版出品的《自動駕駛產(chǎn)品經(jīng)理》一書，詳細介紹自動駕駛產(chǎn)品和運營的全流程。

參考資料以及圖片

From Research to Production: How Alpamayo Accelerates Autonomous Vehicle Development - 英偉達*未經(jīng)準許嚴禁轉(zhuǎn)載和摘錄-

原文標題 : 英偉達 Alpamayo：基于推理的自動駕駛大模型設(shè)計與量產(chǎn)部署全解析