輔助駕駛從VLM與VLA:2025年下半年的核心轉(zhuǎn)變
芝能科技出品
輔助駕駛技術(shù)正從基于規(guī)則和模塊化的傳統(tǒng)范式,邁向由視覺(jué)語(yǔ)言模型(VLM)和視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA)驅(qū)動(dòng)的新階段。
● VLM作為車(chē)輛的“認(rèn)知核心”,通過(guò)統(tǒng)一處理多模態(tài)感知數(shù)據(jù)和自然語(yǔ)言信息,使車(chē)輛能夠理解復(fù)雜的交通場(chǎng)景、遵守抽象的交通規(guī)則并響應(yīng)人類(lèi)指令。
● VLA則在VLM的理解基礎(chǔ)上,深度融合感知、理解與車(chē)輛控制,實(shí)現(xiàn)端到端、擬人化的駕駛行為。
01
從VLM到VLA
傳統(tǒng)的自動(dòng)駕駛依賴(lài)精確的環(huán)境建模和規(guī)則編程,難以應(yīng)對(duì)現(xiàn)實(shí)世界的復(fù)雜性與模糊性。
視覺(jué)語(yǔ)言模型(VLM)旨在解決這一問(wèn)題,構(gòu)建車(chē)輛的“認(rèn)知核心”。
VLM的關(guān)鍵在于能夠統(tǒng)一處理來(lái)自攝像頭、激光雷達(dá)等傳感器的感知數(shù)據(jù),以及交通規(guī)則文本、導(dǎo)航信息、自然語(yǔ)言指令等語(yǔ)言數(shù)據(jù)。通過(guò)強(qiáng)大的模型架構(gòu),VLM能將這些異構(gòu)信息編碼到共同的特征空間,實(shí)現(xiàn)跨模態(tài)的關(guān)聯(lián)與推理。
這使得車(chē)輛不僅僅是識(shí)別障礙物,更能理解場(chǎng)景的深層含義,例如識(shí)別特定標(biāo)志牌并結(jié)合交通法規(guī)判斷當(dāng)前行為是否合法,或理解用戶(hù)“靠邊停車(chē)”的語(yǔ)音指令并規(guī)劃執(zhí)行。
● VLM的應(yīng)用廣泛,例如:
◎ 場(chǎng)景語(yǔ)義解析: 識(shí)別并理解“潮汐車(chē)道”、“施工繞行”等復(fù)雜交通語(yǔ)境,生成符合規(guī)則的駕駛決策。
◎ 智能人車(chē)交互: 理解自然語(yǔ)言指令(如“切換駕駛模式”),或識(shí)別視覺(jué)興趣點(diǎn)(如充電樁)并與之關(guān)聯(lián)。
◎ 高階安全判斷: 分析復(fù)雜場(chǎng)景(如無(wú)保護(hù)左轉(zhuǎn))下潛在風(fēng)險(xiǎn),輔助決策。
實(shí)現(xiàn)這些能力需要強(qiáng)大的計(jì)算支持,VLM的出現(xiàn),讓自動(dòng)駕駛系統(tǒng)從“看清”邁向“看懂”,是實(shí)現(xiàn)更高層級(jí)自主性的前提。理解世界僅僅是第一步,將理解轉(zhuǎn)化為恰當(dāng)?shù)男袆?dòng)是自動(dòng)駕駛的最終目標(biāo)。
視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA)正是負(fù)責(zé)這一轉(zhuǎn)化過(guò)程,實(shí)現(xiàn)從感知、理解到車(chē)輛控制的端到端連接。VLA將來(lái)自VLM或其他感知模塊的環(huán)境理解,與車(chē)輛的轉(zhuǎn)向、加速、制動(dòng)等控制指令深度耦合,學(xué)習(xí)直接從輸入到輸出的映射。
它形成了一個(gè)端到端(End-to-End)的閉環(huán):接收感知和語(yǔ)言輸入,內(nèi)部進(jìn)行決策,直接輸出控制信號(hào)。這種模式簡(jiǎn)化了傳統(tǒng)系統(tǒng)的復(fù)雜層級(jí),有望提升系統(tǒng)整體響應(yīng)速度和魯棒性。
采用Diffusion模型生成駕駛軌跡,并結(jié)合ODE采樣器優(yōu)化規(guī)劃過(guò)程,顯著提升了軌跡生成質(zhì)量和復(fù)雜路況下的博弈能力,這代表了VLA在行為生成層面的重要進(jìn)展。
VLM和VLA并非孤立工作,而是緊密協(xié)同, VLM理解場(chǎng)景、規(guī)則和指令,為VLA提供宏觀的駕駛意圖和策略指導(dǎo)(例如:根據(jù)導(dǎo)航規(guī)劃變道、識(shí)別危險(xiǎn)需避讓?zhuān)?nbsp;
VLA根據(jù)VLM的指導(dǎo)和實(shí)時(shí)的感知信息,生成并執(zhí)行精確的車(chē)輛軌跡和控制動(dòng)作。VLA的執(zhí)行結(jié)果(成功或失。┛勺鳛榉答,反向優(yōu)化VLM對(duì)場(chǎng)景的理解和決策邏輯,形成持續(xù)學(xué)習(xí)的閉環(huán)。
02
VLA+英偉達(dá)Thor,
“空間智能體”
在導(dǎo)入VLA的狀態(tài)中,理想汽車(chē)是很快的。MindVLA(視覺(jué)-語(yǔ)言-行動(dòng)模型)開(kāi)始向融合空間智能、語(yǔ)言智能和行為智能的物理人工智能邁進(jìn)。
圍繞3D空間理解、高效模型架構(gòu)、增強(qiáng)邏輯推理、優(yōu)化軌跡生成、高精度仿真以及卓越泛化能力,讓車(chē)輛具備感知、思考和自主行動(dòng)的能力。
● 3D高斯(3D Gaussian)作為核心中間表征,這是其空間智能的基礎(chǔ)。
與傳統(tǒng)的點(diǎn)云或體素表示相比,3D高斯能同時(shí)捕捉物體的幾何形狀和外觀信息,具有更強(qiáng)的語(yǔ)義表達(dá)能力和多粒度、多尺度的幾何表達(dá)靈活性。這使得系統(tǒng)能更全面、高效地感知和理解復(fù)雜的3D環(huán)境。
結(jié)合海量數(shù)據(jù)上的自監(jiān)督學(xué)習(xí),系統(tǒng)能自動(dòng)從無(wú)標(biāo)注數(shù)據(jù)中提取有效的3D特征,大幅提升環(huán)境感知的精度和效率,為后續(xù)決策奠定堅(jiān)實(shí)基礎(chǔ)。
為了在計(jì)算資源有限的車(chē)端環(huán)境運(yùn)行大規(guī)模模型,采用了MoE(Mixture of Experts)架構(gòu)并引入稀疏注意力(Sparse Attention)。
MoE允許模型在擁有龐大參數(shù)量的同時(shí),針對(duì)特定輸入只激活部分“專(zhuān)家”網(wǎng)絡(luò),實(shí)現(xiàn)計(jì)算的稀疏化,從而在不犧牲模型規(guī)模的前提下,維持較高的端側(cè)推理效率。
● 邏輯推理能力是提升的核心,通過(guò)訓(xùn)練LLM基座模型學(xué)習(xí)人類(lèi)思考模式,并有機(jī)結(jié)合**“快思考”(實(shí)時(shí)響應(yīng))和“慢思考”(深度推理),模型能根據(jù)不同駕駛情境靈活切換決策模式,提升決策的安全性和合理性。
同時(shí),為了最大化利用NVIDIA Drive AGX算力,小詞表、投機(jī)推理和并行解碼等技術(shù),結(jié)合英偉達(dá)的推理優(yōu)化,實(shí)現(xiàn)了高達(dá)7倍的推理效率提升,確保復(fù)雜推理也能滿(mǎn)足實(shí)時(shí)性要求。
● 擴(kuò)散模型(Diffusion Model)優(yōu)化駕駛軌跡,以生成高質(zhì)量復(fù)雜數(shù)據(jù)聞名,應(yīng)用于軌跡生成有望生成更平滑、更自然、更具博弈性的駕駛路徑。通過(guò)自車(chē)行為生成與他車(chē)軌跡預(yù)測(cè)的聯(lián)合建模,系統(tǒng)能更好地預(yù)測(cè)交通參與者的行為并進(jìn)行合理應(yīng)對(duì)。
通過(guò)構(gòu)建人類(lèi)偏好數(shù)據(jù)集并引入RLHF(基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí))微調(diào),能更好地對(duì)齊人類(lèi)駕駛習(xí)慣,顯著提升復(fù)雜和極端場(chǎng)景下的安全底線(xiàn)。
NVIDIA Drive AGX平臺(tái)和生態(tài)的支撐,在世界模型、NRE、模型訓(xùn)練加速以及端側(cè)優(yōu)化部署等領(lǐng)域的技術(shù)進(jìn)展。
小結(jié)在2025年,我們看到VLA通過(guò)3D高斯表征、MoE架構(gòu)和Diffusion模型,實(shí)現(xiàn)了高效的空間理解、邏輯推理和軌跡生成,英偉達(dá)的Thor芯片、NVIDIA Cosmos世界模型和NRE引擎為VLA提供了強(qiáng)大的算力支持和仿真環(huán)境,加速了技術(shù)從實(shí)驗(yàn)室到量產(chǎn)的轉(zhuǎn)化。
原文標(biāo)題 : 輔助駕駛從VLM與VLA:2025年下半年的核心轉(zhuǎn)變
發(fā)表評(píng)論
登錄
手機(jī)
驗(yàn)證碼
立即登錄即可訪(fǎng)問(wèn)所有OFweek服務(wù)
還不是會(huì)員?免費(fèi)注冊(cè)
忘記密碼請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
技術(shù)文庫(kù)
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
精彩回顧立即查看>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
精彩回顧立即查看>> 【在線(xiàn)研討會(huì)】普源精電--激光原理應(yīng)用與測(cè)試解決方案
-
精彩回顧立即查看>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
推薦專(zhuān)題
- 1 從技術(shù)狂歡到安全合規(guī) :2025上半年自動(dòng)駕駛?cè)谫Y進(jìn)入“場(chǎng)景閉環(huán)”新周期
- 2 智駕技術(shù)戰(zhàn):特斯拉、華為、理想、小鵬和比亞迪,誰(shuí)才是未來(lái)?
- 3 最嚴(yán)輔助駕駛新規(guī),兩部門(mén)再劃監(jiān)管、宣傳紅線(xiàn)
- 4 一文看全:中國(guó)智能電動(dòng)部件企業(yè)“圍攻”慕尼黑
- 5 百度蘿卜快跑:從北大嶼山到香港島:自動(dòng)駕駛在香港的 “三級(jí)跳” 啟示錄
- 6 ADS 4推送在即,華為乾崑憑什么率先奪下L3的“橋頭堡”?
- 7 名爵翻身把歌唱?搭載半固態(tài)電池,全新MG4大定39分鐘破萬(wàn)
- 8 尚界新車(chē)16.98萬(wàn)起!鴻蒙智行“四界”齊發(fā),第二階段拼什么?
- 9 輔助駕駛出海、具身智能落地,稀缺的3D數(shù)據(jù)從哪里來(lái)?
- 10 “紅海”市場(chǎng)依然有新“花樣”,2025成都車(chē)展重磅SUV全面看