訂閱
糾錯
加入自媒體

元戎啟行的 40B VLA 自動駕駛基座模型和方法論

2026-03-23 11:45
vehicle公眾號
關注

元戎作為中國輔助駕駛/自動駕駛算法供應商的后起之秀,在這兩年來量產車輛大幅度上升,擁有長城、吉利、甚至傳言拿下了新勢力零跑的業(yè)務。而且元戎也是比較早喊“VLA”甚至量產"VLA"的供應商。

所以,算是有量產也有前瞻的自動駕駛解決方案提供商,本次GTC 2026 元戎的CTO 曹通易做了名為《Redefining the Boundaries of Autonomous Driving with Foundation Model》的演講,分享了其基于Foundation model基模的VLA方法和理論。

本文通過演講和行業(yè)知識分享下此次演講的核心內容和亮點。

元戎啟行(DeepRoute.ai)解決自動駕駛,甚至走向 L5 級別的核心思路,是堅信“Scaling Law(擴展定律)”,通過構建統(tǒng)一的基座大模型來驅動模型尺寸和數據規(guī)模的同步爆發(fā)。

這里也看出目前行業(yè)內對當前端到端發(fā)展起來的各種技術比較自信,看到了自動駕駛的曙光,目前行業(yè)的核心重點是,優(yōu)化算法也加大模型參數、推動算力芯片上升、優(yōu)化工程落地。

以下是元戎其基座大模型架構與自動駕駛軟件方法的硬核技術亮點:

一、 基座大模型(40B VLA)的原理與架構技術亮點

元戎基于1億Gb的視頻構建了一個參數量為 40B 的原生 VLA(視覺-語言-動作)大模型, 小鵬也在去年年底表示其研發(fā)了基于2億Clips(推斷 大約10億Gb數據)訓練的72B(720億)參數超大規(guī)模模型。

元戎表示其訓練機制和端側部署上進行了以下底層創(chuàng)新:

1. 架構創(chuàng)新:“三位一體”的模型角色這個大模型打破了僅作為“駕駛員”的單一設定。它在同一個模型中集成了三種能力:駕駛員、分析師以及評論員/裁判。這種能力復用不僅讓認知和場景理解得以共享,還能有效提升駕駛任務本身的性能。解讀就是這個模型能看懂視頻等傳感器輸入數據流,推理和分析,最終給出結論好壞。

2. 預訓練(Pre-train)原理突破:從“軌跡監(jiān)督”轉向“視頻預測”傳統(tǒng)的端到端模型通常依賴駕駛軌跡進行監(jiān)督訓練,但這存在極大的數據浪費——1 PB 的駕駛視頻中,軌跡數據僅占約 10 GB,數據利用率僅為 0.001%。元戎在預訓練階段創(chuàng)新性地采用了視頻預測任務來讓模型理解世界,這意味著視頻的每一個像素都能作為監(jiān)督信號,數據利用率達到 100%,從而為超大參數模型提供了極高質量的物理世界表征。

3. 中端訓練(Mid-train)的跨模態(tài)推理融合在掌握了對世界的理解后,模型會進行三種核心任務的聯合訓練:

V+A(視覺+動作):學習常規(guī)的端到端駕駛,典型的端到端架構。

V+A -> L(行動后解釋):激活分析師和裁判角色,輸入視覺和動作序列,輸出對關鍵事件的抽象描述、行為因果解釋以及好壞評判。

V -> L+A(多模態(tài)邏輯推理):訓練帶推理能力的司機。給定視覺輸入,利用思維鏈(CoT)讓模型先輸出關鍵事件的語言描述和決策邏輯,再輸出具體的駕駛軌跡。

4. 極致的車端部署優(yōu)化與量產蒸餾,根據GTC上曹通易的表述,目前元戎的VLA在車端可能實現了 10-15 Hz 的實時閉環(huán)控制(為什么實時閉環(huán)控制重要可以點擊我們之前文章《揭秘特斯拉 FSD 核心:端到端算法的“三大難點”與“獨門解法”以及對語音控車的想法》了解)。

元戎表示其引入了 KV Cache(歷史特征免重復計算,這個理想在本次GTC也表示采用了,具體可以看我們理想GTC 2026文章)、多 Token 預測(MTP)、量化技術以及定制化的推理引擎,將包含 1000 個視覺 Token 和數十個推理 Token 的單步處理延遲嚴控在 60-85 毫秒以內。此外,基座大模型可以根據車端芯片算力進行靈活“蒸餾”:在 100 TOPS 平臺上部署純駕駛的 VA 模型,在 500 TOPS 平臺上即可部署帶有邏輯推理能力的 VLA 模型。

二、 自動駕駛軟件與數據方法亮點

在軟件和數據工程層面,元戎徹底重構了數據閉環(huán)和仿真系統(tǒng),解決了“無聊數據損害模型”和人工介入效率低下的行業(yè)痛點:

1.大模型全面接管的極速數據閉環(huán)傳統(tǒng)的數據閉環(huán)(發(fā)現問題、診斷、挖掘、標注、訓練)嚴重依賴人工或小型規(guī)則模型,一個循環(huán)往往耗時 5 天(100 小時以上)且能力無法沉淀。元戎直接利用前文提到的基座大模型(其分析師和裁判能力)接管了數據挖掘、自動診斷、思維鏈(CoT)標注以及動作評分等全流程。這不僅將閉環(huán)周期從 5 天極速縮短至 12 小時,更重要的是,閉環(huán)過程中產生的所有人工 Review 和機器標注結果,都會沉淀為大模型中端訓練的新養(yǎng)料,實現 AI 能力的飛輪遞增。

2. 突破長尾場景的數據合成技術面對現實中難以收集的罕見高危場景(Long-Tail Scenarios),元戎采用了先進的生成式與合成技術:

3D 重建與風格遷移:利用 Nvidia 的 3D GUT 進行高保真重建,并用 Cosmos 模型實現天氣和光照的風格遷移,將一個白天的素材轉化為雨天或夜間的變體。

DiPIR 插入式編輯:這是元戎自研的技術,能夠將生成的 3D 行人、騎行者或動物(如公路上突然竄出的羊)無縫插入到真實的道路視頻中,并自動匹配光照和陰影,系統(tǒng)性地批量生成“極其危險且難以捕捉”的訓練數據。

3. 仿真環(huán)境下的強化學習(RL)自我進化在仿真回測中,元戎的模型不再單純依賴人工標準答案(在極端場景下人類也很難標注出完美軌跡);竽P涂梢栽谥亟ǖ姆抡鎴鼍爸凶约骸安蓸樱≧ollout)”出多條不同的駕駛解決方案(比如遇到違規(guī)加塞時,是選擇體感不佳的急剎,還是選擇橫向避讓)。隨后,模型內部的“評論員(Critic)”會結合預設的安全和舒適度規(guī)則,對這些軌跡進行行為分析和評分。通過這種閉環(huán)強化學習(RL Policy Optimization)的持續(xù)迭代,模型能夠在極其復雜的邊緣場景中輸出更安全、更精準的決策。

以上就是元戎啟行在本次GTC 2026分享的核心內容,歡迎留言交流更多核心背后的算法信息。

參考資料以及圖片

Redefining the Boundaries of Autonomous Driving with Foundation Model -元戎啟行 曹通易*未經準許嚴禁轉載和摘錄-

       原文標題 : 元戎啟行的 40B VLA 自動駕駛基座模型和方法論

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號