訂閱
糾錯
加入自媒體

世界模型 V-JEPA殺入輔助駕駛應(yīng)用,準(zhǔn)備顛覆物理人工智能。

最近AI 大神Yann leCun在其個人linkedin 和x上都轉(zhuǎn)發(fā)一個叫基于其世界模型V-JEPA 2理論的新產(chǎn)品BADAS-2.0,并表示JEPA世界模型將拯救生命開始在Physical AI 應(yīng)用。

所以本文就解碼分析:

BADAS-2.0是什么產(chǎn)品

他基于什么物理硬件

他能到達(dá)什么樣的性能

他是怎么利用V-JEPA2 的技術(shù)實(shí)現(xiàn)

他目前的發(fā)展和挑戰(zhàn)約束是什么

未來世界模型怎么幫助自動駕駛以及Physical AI的發(fā)展

希望給大家?guī)硪恍┬畔⒑蛦l(fā)

一、BADAS-2.0 是什么產(chǎn)品?

BADAS(Based on V-JEPA2AdvancedDriverAssistanceSystem)是 Nexar AI 推出的第二代"碰撞預(yù)判(collision anticipation)"模型家族。它通過世界模型識別碰撞風(fēng)險,然后通過VLM進(jìn)行可解釋化和交互提醒。

它的定位與傳統(tǒng) ADAS 有本質(zhì)區(qū)別:傳統(tǒng) ADAS 是"反應(yīng)式"的(物體出現(xiàn)在危險區(qū)內(nèi)→告警/制動),而BADAS 是"預(yù)測式"的——在事故發(fā)生前 0.5–3 秒就輸出"本車即將被卷入事故"的概率。

所以,這個邏輯就有點(diǎn)像我們之前文章《自動駕駛的下半場,讓機(jī)器擁有“常識”和“推演能力”的世界模型》里面講到的世界模型,他預(yù)測未來將要發(fā)生的事情,當(dāng)然這個模型沒有生成軌跡動作去執(zhí)行,類似于主動安全的FCW。

V-JEPA2 世界模型理論在這個產(chǎn)品邏輯能跑通,基本上AEB此類碰撞,甚至輔助駕駛都能做,這也就是為什么Yann leCun在其個人linkedin 和x上都轉(zhuǎn)發(fā)宣傳。

在BADAS-2.0 論文中作者把這種范式稱為ego-centric incident anticipation,和 DAD/DADA-2000/DoTA 等學(xué)術(shù)基準(zhǔn)相比,它只關(guān)心自車相關(guān)的事件,這樣可以把現(xiàn)實(shí)部署中 40–92% 的"他車事故誤報"過濾掉。

BADAS-2.0 產(chǎn)品落地沿著三條軸線推進(jìn)了 1.0 的能力:

(i) 長尾精度——新引入 10 組罕見安全關(guān)鍵場景基準(zhǔn);

(ii) 端側(cè)蒸餾——把 300M 的ViT-L(ViT一種將圖像分割成小塊(小區(qū)域)并將它們輸入到 Transformer 中進(jìn)行自然語言處理的方法。)大模型蒸餾到 86M/22M 兩檔;

(iii) 可解釋性——注意力熱圖 + 視覺語言模型(VLM)生成自然語言行動建議(BADAS-Reason)。

他的整體算法模型架構(gòu)如下:

二、物理硬件依托

BADAS-2.0 不是一個可以脫離 Nexar 基礎(chǔ)設(shè)施單獨(dú)存在的模型——它的數(shù)據(jù)源和部署目標(biāo)都是一體化設(shè)計的。

傳感端:Nexar 運(yùn)營的約 35 萬臺互聯(lián)式行車記錄儀,覆蓋美國 94% 的道路,每月新增約 1 億英里原始視頻,累計沉淀 10B+ 英里 / 45PB 視頻 / 6000 萬條"邊緣案例"視頻。

這是 BADAS-2.0 訓(xùn)練集擴(kuò)展的物理基礎(chǔ)——論文把 BADAS-1.0 作為"active oracle"部署在這個集群上持續(xù)打分,把高風(fēng)險片段篩選出來送去人工標(biāo)注,從 40k 擴(kuò)到 178,500 條(約 2M 窗口)。

再加上 Nexar Atlas 地理空間平臺的地理位置定向采集(例如針對某個事故高發(fā)路口采集),構(gòu)成數(shù)據(jù)飛輪。

部署/推理端:論文明確測試了三類平臺——

云端 GPU:NVIDIA A100(訓(xùn)練和基準(zhǔn)評測)

車載/機(jī)器人級邊緣:NVIDIA Jetson Thor / DRIVE AGX Thor(66 ms 實(shí)時預(yù)算 @ 16 Hz)

端側(cè) CPU:Flash-Lite 甚至能在純 CPU 上滿足實(shí)時

官方數(shù)據(jù)顯示 Flash-Lite 在 A100 上比旗艦快 12 倍,在 NVIDIA Thor 上快 5 倍。三檔模型全部落在 66 ms / 幀的硬實(shí)時預(yù)算之內(nèi)——這個數(shù)字對應(yīng)人類駕駛員反應(yīng)時間的中位 1.70 秒再減去 OS 和通信鏈路開銷。

總結(jié)就是,一個普通的基于聯(lián)網(wǎng)和地圖的行車記錄儀(DVR或著Dash Camera)+ 普通的CPU或著輔助駕駛的AI推理芯片,外加算力訓(xùn)練集群。

三、三檔模型與性能表現(xiàn)

BADAS-2.0 的一個關(guān)鍵設(shè)計是"同一架構(gòu),三檔部署":

關(guān)鍵性能指標(biāo)(Sec. 4):

99.4% Average Precision,

在 4 個主流基準(zhǔn)(DAD、DADA-2000、DoTA、Nexar)上全部排第一

Kaggle mAP 從 1.0 的 0.925 提升到 2.0 的 0.940,假陽性率(FPR)下降 74%

即便微調(diào)在相同數(shù)據(jù)上,BADAS-2.0 仍顯著超越 NVIDIA COSMOS-Reason2(2B 參數(shù)的基礎(chǔ)模型),差距在霧天、基礎(chǔ)設(shè)施等長尾類別最明顯

一個關(guān)鍵事實(shí):22M 的 Flash-Lite(比 COSMOS 小 91 倍)在長尾基準(zhǔn)上仍超過微調(diào)后的 COSMOS-BADAS,這是 JEPA 架構(gòu)相對于自回歸 VLM 在安全關(guān)鍵預(yù)測任務(wù)上的架構(gòu)優(yōu)勢的硬證據(jù)

下面把幾個基準(zhǔn)的 AP 橫向?qū)Ρ?img src="https://mp.ofweek.com/Upload/News/Img/member52366/202604/wx_article__bb02604857c301fb67f2479df25f2ab2.jpg" style="display: block; margin: 8px auto; max-width: 100%; width: 500px; height: auto;" />

四、如何利用 V-JEPA2 技術(shù)實(shí)現(xiàn)

這是理解 BADAS-2.0 為什么有效的核心問題。V-JEPA2(Meta FAIR 2025)的關(guān)鍵創(chuàng)新是 Yann LeCun 倡導(dǎo)的Joint-Embedding Predictive Architecture(JEPA)在視頻上的放大版——在潛空間預(yù)測被遮擋的視頻表征,而不是重建像素。

具體架構(gòu)要素:

編碼器 E_θ:ViT-L/H/g(300M–1B 參數(shù)),把視頻切成 2×16×16 的 tubelet

預(yù)測器 P_φ:一個輕量 ViT-S(約 22M)預(yù)測被 mask 部分的潛空間表征

使用 3D-RoPE 位置編碼(時間+H+W)

約 90% 的高 mask 比率,L1 損失,EMA teacher 防止表征坍塌

訓(xùn)練數(shù)據(jù) VideoMix22M = 2200 萬視頻 ≈ 100 萬小時互聯(lián)網(wǎng)視頻

在 Something-Something v2 取得 77.3% top-1(運(yùn)動理解),Epic-Kitchens-100 動作預(yù)測 39.7 R@5(SOTA)

為什么像素重建不適合碰撞預(yù)測,而潛空間預(yù)測適合?像素重建優(yōu)化的是"下一幀長什么樣"(視覺保真度),潛空間預(yù)測優(yōu)化的是"下一幀的抽象語義/物理狀態(tài)"(物理因果)。碰撞預(yù)判需要的是后者——不是"前方車輛的反光細(xì)節(jié)",而是"它的運(yùn)動趨勢會不會與本車軌跡相交"。這是 JEPA 架構(gòu)在安全關(guān)鍵場景上相對于視頻擴(kuò)散模型(COSMOS)和自回歸 VLM(Gemini)的結(jié)構(gòu)性優(yōu)勢。

BADAS-2.0 的具體集成方式:

骨干遷移:取 V-JEPA2 的 ViT-L 編碼器(300M),端到端微調(diào)到 Nexar dashcam 數(shù)據(jù)。不是凍結(jié)后掛 probe,是全參數(shù)更新——論文 1.0 的消融顯示端到端微調(diào)把 AP 從 0.707 提升到 0.928,是最大的單一貢獻(xiàn)

未來預(yù)測分支:在編碼器后增加一個分支,預(yù)測 1 秒后的潛空間表征,與當(dāng)前表征拼接后送入分類頭。這是 V-JEPA2-AC(action-conditioned)思想的簡化版——讓模型明確地"預(yù)看未來"而不是隱式推斷

注意力探針聚合:12 個可學(xué)習(xí) query token 在 2048 patch × 1024 維的表征矩陣上做 cross-attention,聚合成固定長度的場景級特征

3 層 MLP 頭:輸出 [0,1] 的碰撞概率

對 Flash / Flash-Lite 的關(guān)鍵點(diǎn):領(lǐng)域 SSL 預(yù)訓(xùn)練是蒸餾的前置條件。論文最重要的消融揭示:

隨機(jī)初始化 ViT-S 直接在 BADAS 監(jiān)督信號上訓(xùn)練 → AP 接近隨機(jī)

在 2.25M 無標(biāo)注 Nexar 視頻上做 V-JEPA 風(fēng)格的 masked feature prediction → +28.1 pp AP(達(dá)到接近生產(chǎn)質(zhì)量)

再加上從 ViT-L 教師的知識蒸餾 → 再 +1.0 pp AP,同時 FPR 從 20.6% 腰斬到 9.1%

換句話說,領(lǐng)域自監(jiān)督是 28 倍的貢獻(xiàn),蒸餾是 1 倍的貢獻(xiàn)。沒有 V-JEPA 風(fēng)格的領(lǐng)域 SSL,小模型根本學(xué)不會這個任務(wù)。

一個有意思的反直覺發(fā)現(xiàn):蒸餾后的 ViT-S/B 小模型在注意力定位上反而比 ViT-L 旗艦更精準(zhǔn)。作者的解釋是,小模型在領(lǐng)域 SSL 階段從一開始就把表征對齊到"駕駛相關(guān)區(qū)域",而 ViT-L 是從通用視頻預(yù)訓(xùn)練繼承過來,需要同時適應(yīng)表征分布和學(xué)習(xí)碰撞線索,注意力因此更彌散。這對后續(xù)的架構(gòu)取舍有啟示意義。

五、目前的挑戰(zhàn)與約束

從行業(yè)研究者角度,BADAS-2.0 的約束分布在幾個層面:

數(shù)據(jù)層:長尾類別雖然大幅改善,動物、極端天氣、罕見基礎(chǔ)設(shè)施等仍是最難類別;數(shù)據(jù)飛輪依賴已有部署規(guī)模——論文自己承認(rèn)"最大的可遷移經(jīng)驗(yàn)是:已部署的模型本身就是最便宜的標(biāo)注器",但這等于承認(rèn)沒有 1.0 的量產(chǎn)規(guī)模,2.0 的數(shù)據(jù)擴(kuò)展是不可能的,這對想復(fù)現(xiàn)這套范式的團(tuán)隊(duì)形成門檻。

架構(gòu)層:V-JEPA2 是 Meta 的外部依賴,后續(xù) license 或路線漂移有傳導(dǎo)風(fēng)險;ViT-L(300M)仍偏大,對純 IoT 攝像頭只能選 Flash-Lite 且依賴 CPU/GPU 混合,無法完全跑在低功耗 NPU 上。

方法論層:論文明確對比了自回歸 VLM 基線(Gemini-BADAS、COSMOS-BADAS)——即使在相同數(shù)據(jù)上微調(diào),仍比 BADAS-2.0 落后 5+ 個百分點(diǎn)。這既是 BADAS 的差異化優(yōu)勢,也暴露了行業(yè)問題:目前沒有便宜且容易復(fù)用的 VLM 替代范式,想入局這個賽道必須走完"大規(guī)模真實(shí)數(shù)據(jù) + JEPA 自監(jiān)督 + 端到端微調(diào) + 領(lǐng)域 SSL + 蒸餾"這整套流水線。

可解釋性層:BADAS-Reason 依賴 Qwen3-VL-4B + QLoRA 在 8,680 條人工描述上微調(diào),這部分的端側(cè)延遲和 OEM 合規(guī)性在主文實(shí)驗(yàn)中未充分呈現(xiàn);另外 FlashAttention 必須關(guān)閉(eager attention mode)才能導(dǎo)出權(quán)重做熱圖,這對推理優(yōu)化有代價。

部署層:目前測試都在 Jetson Thor 和 A100,真正的車規(guī)級功能安全認(rèn)證(ISO 26262 ASIL-D)、OEM 整車集成、與現(xiàn)有 FCW/AEB 通路的仲裁邏輯都還在產(chǎn)品化階段;66 ms 預(yù)算對 L2+ 足夠,對 L4 規(guī)劃閉環(huán)可能偏緊。

六、未來發(fā)展方向

綜合兩篇論文和 Nexar 官方 roadmap,我看到四條演進(jìn)路徑:

1. BADAS World——從預(yù)測到仿真。V-JEPA2 原論文有 V-JEPA2-AC(action-conditioned predictor)和基于 MPC 的零樣本機(jī)器人規(guī)劃分支,Nexar 已經(jīng)預(yù)告 "BADAS World" 走物理感知駕駛仿真路線,即在預(yù)測分支上嵌入 ego 動作條件,形成 JEPA 世界模型的閉環(huán)——這是 LeCun 派世界模型的主線敘事。

2. BADAS-Reason v2——推理前置化。當(dāng)前 BADAS-Reason 是事后 VLM 解釋(先有碰撞概率再生成自然語言),未來可以把推理與預(yù)測合并——V-JEPA2 原論文已經(jīng)展示了與 Llama 3.1-8B 對齊后在 PerceptionTest 取得 84.0 分的能力,把這套對齊方式移到 BADAS 上,可以生成"推理即預(yù)測"的聯(lián)合輸出。

3. Physical AI 泛化。Nexar 的官方通稿明確提到 BADAS-2.0 在分布外(out-of-distribution)的非駕駛物理碰撞場景仍能穩(wěn)定預(yù)測。這意味著 "JEPA 架構(gòu) + 大規(guī)模真實(shí)邊緣數(shù)據(jù) + 蒸餾" 這套范式可以遷移到工業(yè)安全、倉儲物流、醫(yī)療機(jī)器人等安全關(guān)鍵領(lǐng)域,而不止于自動駕駛。

4. OEM 前裝化。2.0 Flash 和 Flash-Lite 的延遲表現(xiàn)首次讓"真實(shí)碰撞語料訓(xùn)出來的感知模型"具備進(jìn)入量產(chǎn)車 ECU 的可能(之前 1.0 的 2.5 s/window 是無法接受的)。Nexar 已經(jīng)與 Waymo、Lyft、IBM、NVIDIA 等形成合作網(wǎng)絡(luò),下一步的看點(diǎn)是能否進(jìn)入 Tier-1 供應(yīng)鏈。

總結(jié)

站在行業(yè)研究者的視角做一個總結(jié):

BADAS-2.0 的真正技術(shù)意義不在于"一個更準(zhǔn)的前向碰撞告警",而在于它首次在生產(chǎn)規(guī)模上實(shí)證了一條完整范式

"JEPA 自監(jiān)督世界模型骨干 + 大規(guī)模真實(shí)世界邊緣數(shù)據(jù)飛輪 + 領(lǐng)域 SSL + 端到端微調(diào) + 蒸餾到端側(cè)"

在安全關(guān)鍵預(yù)測任務(wù)上可以同時打贏"參數(shù)更大的 VLM 基礎(chǔ)模型"和"更成熟的工業(yè) ADAS"。

這條路徑組合了 LeCun 的 JEPA 理論路線和數(shù)據(jù)網(wǎng)絡(luò)壁壘,很有可能成為未來 Physical AI 在安全關(guān)鍵系統(tǒng)(駕駛、機(jī)器人、醫(yī)療、工業(yè))上的通用技術(shù)模板。

參考資料以及圖片

Beyond the Beep: Scalable Collision Anticipation and Real-Time Explainability with BADAS-2.0.

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-

       原文標(biāo)題 : 世界模型 V-JEPA殺入輔助駕駛應(yīng)用,準(zhǔn)備顛覆物理人工智能。

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號