123,123,123

世界模型 V-JEPA殺入輔助駕駛應(yīng)用，準(zhǔn)備顛覆物理人工智能。

2026-04-20 11:55

最近AI 大神Yann leCun在其個人linkedin 和x上都轉(zhuǎn)發(fā)一個叫基于其世界模型V-JEPA 2理論的新產(chǎn)品BADAS-2.0，并表示JEPA世界模型將拯救生命開始在Physical AI 應(yīng)用。

所以本文就解碼分析:

BADAS-2.0是什么產(chǎn)品

他基于什么物理硬件

他能到達(dá)什么樣的性能

他是怎么利用V-JEPA2 的技術(shù)實(shí)現(xiàn)

他目前的發(fā)展和挑戰(zhàn)約束是什么

未來世界模型怎么幫助自動駕駛以及Physical AI的發(fā)展

希望給大家?guī)硪恍┬畔⒑蛦l(fā)

一、BADAS-2.0 是什么產(chǎn)品？

BADAS（Based on V-JEPA2AdvancedDriverAssistanceSystem）是 Nexar AI 推出的第二代"碰撞預(yù)判（collision anticipation）"模型家族。它通過世界模型識別碰撞風(fēng)險，然后通過VLM進(jìn)行可解釋化和交互提醒。

它的定位與傳統(tǒng) ADAS 有本質(zhì)區(qū)別：傳統(tǒng) ADAS 是"反應(yīng)式"的（物體出現(xiàn)在危險區(qū)內(nèi)→告警/制動），而BADAS 是"預(yù)測式"的——在事故發(fā)生前 0.5–3 秒就輸出"本車即將被卷入事故"的概率。

所以，這個邏輯就有點(diǎn)像我們之前文章《自動駕駛的下半場，讓機(jī)器擁有“常識”和“推演能力”的世界模型》里面講到的世界模型，他預(yù)測未來將要發(fā)生的事情，當(dāng)然這個模型沒有生成軌跡動作去執(zhí)行,類似于主動安全的FCW。

V-JEPA2 世界模型理論在這個產(chǎn)品邏輯能跑通，基本上AEB此類碰撞，甚至輔助駕駛都能做，這也就是為什么Yann leCun在其個人linkedin 和x上都轉(zhuǎn)發(fā)宣傳。

在BADAS-2.0 論文中作者把這種范式稱為ego-centric incident anticipation，和 DAD/DADA-2000/DoTA 等學(xué)術(shù)基準(zhǔn)相比，它只關(guān)心自車相關(guān)的事件，這樣可以把現(xiàn)實(shí)部署中 40–92% 的"他車事故誤報"過濾掉。

BADAS-2.0 產(chǎn)品落地沿著三條軸線推進(jìn)了 1.0 的能力：

(i) 長尾精度——新引入 10 組罕見安全關(guān)鍵場景基準(zhǔn)；

(ii) 端側(cè)蒸餾——把 300M 的ViT-L(ViT一種將圖像分割成小塊（小區(qū)域）并將它們輸入到 Transformer 中進(jìn)行自然語言處理的方法。)大模型蒸餾到 86M/22M 兩檔；

(iii) 可解釋性——注意力熱圖 + 視覺語言模型（VLM）生成自然語言行動建議（BADAS-Reason）。

他的整體算法模型架構(gòu)如下：

二、物理硬件依托

BADAS-2.0 不是一個可以脫離 Nexar 基礎(chǔ)設(shè)施單獨(dú)存在的模型——它的數(shù)據(jù)源和部署目標(biāo)都是一體化設(shè)計的。

傳感端：Nexar 運(yùn)營的約 35 萬臺互聯(lián)式行車記錄儀，覆蓋美國 94% 的道路，每月新增約 1 億英里原始視頻，累計沉淀 10B+ 英里 / 45PB 視頻 / 6000 萬條"邊緣案例"視頻。

這是 BADAS-2.0 訓(xùn)練集擴(kuò)展的物理基礎(chǔ)——論文把 BADAS-1.0 作為"active oracle"部署在這個集群上持續(xù)打分，把高風(fēng)險片段篩選出來送去人工標(biāo)注，從 40k 擴(kuò)到 178,500 條（約 2M 窗口）。

再加上 Nexar Atlas 地理空間平臺的地理位置定向采集（例如針對某個事故高發(fā)路口采集），構(gòu)成數(shù)據(jù)飛輪。

部署/推理端：論文明確測試了三類平臺——

云端 GPU：NVIDIA A100（訓(xùn)練和基準(zhǔn)評測）

車載/機(jī)器人級邊緣：NVIDIA Jetson Thor / DRIVE AGX Thor（66 ms 實(shí)時預(yù)算 @ 16 Hz）

端側(cè) CPU：Flash-Lite 甚至能在純 CPU 上滿足實(shí)時

官方數(shù)據(jù)顯示 Flash-Lite 在 A100 上比旗艦快 12 倍，在 NVIDIA Thor 上快 5 倍。三檔模型全部落在 66 ms / 幀的硬實(shí)時預(yù)算之內(nèi)——這個數(shù)字對應(yīng)人類駕駛員反應(yīng)時間的中位 1.70 秒再減去 OS 和通信鏈路開銷。

總結(jié)就是，一個普通的基于聯(lián)網(wǎng)和地圖的行車記錄儀（DVR或著Dash Camera）+ 普通的CPU或著輔助駕駛的AI推理芯片，外加算力訓(xùn)練集群。

三、三檔模型與性能表現(xiàn)

BADAS-2.0 的一個關(guān)鍵設(shè)計是"同一架構(gòu)，三檔部署"：

關(guān)鍵性能指標(biāo)（Sec. 4）：

99.4% Average Precision，

在 4 個主流基準(zhǔn)（DAD、DADA-2000、DoTA、Nexar）上全部排第一

Kaggle mAP 從 1.0 的 0.925 提升到 2.0 的 0.940，假陽性率（FPR）下降 74%

即便微調(diào)在相同數(shù)據(jù)上，BADAS-2.0 仍顯著超越 NVIDIA COSMOS-Reason2（2B 參數(shù)的基礎(chǔ)模型），差距在霧天、基礎(chǔ)設(shè)施等長尾類別最明顯

一個關(guān)鍵事實(shí)：22M 的 Flash-Lite（比 COSMOS 小 91 倍）在長尾基準(zhǔn)上仍超過微調(diào)后的 COSMOS-BADAS，這是 JEPA 架構(gòu)相對于自回歸 VLM 在安全關(guān)鍵預(yù)測任務(wù)上的架構(gòu)優(yōu)勢的硬證據(jù)

下面把幾個基準(zhǔn)的 AP 橫向?qū)Ρ?img src="https://mp.ofweek.com/Upload/News/Img/member52366/202604/wx_article__bb02604857c301fb67f2479df25f2ab2.jpg" style="display: block; margin: 8px auto; max-width: 100%; width: 500px; height: auto;" />

四、如何利用 V-JEPA2 技術(shù)實(shí)現(xiàn)

這是理解 BADAS-2.0 為什么有效的核心問題。V-JEPA2（Meta FAIR 2025）的關(guān)鍵創(chuàng)新是 Yann LeCun 倡導(dǎo)的Joint-Embedding Predictive Architecture（JEPA）在視頻上的放大版——在潛空間預(yù)測被遮擋的視頻表征，而不是重建像素。

具體架構(gòu)要素：

編碼器 E_θ：ViT-L/H/g（300M–1B 參數(shù)），把視頻切成 2×16×16 的 tubelet

預(yù)測器 P_φ：一個輕量 ViT-S（約 22M）預(yù)測被 mask 部分的潛空間表征

使用 3D-RoPE 位置編碼（時間+H+W）

約 90% 的高 mask 比率，L1 損失，EMA teacher 防止表征坍塌

訓(xùn)練數(shù)據(jù) VideoMix22M = 2200 萬視頻 ≈ 100 萬小時互聯(lián)網(wǎng)視頻

在 Something-Something v2 取得 77.3% top-1（運(yùn)動理解），Epic-Kitchens-100 動作預(yù)測 39.7 R@5（SOTA）

為什么像素重建不適合碰撞預(yù)測，而潛空間預(yù)測適合？像素重建優(yōu)化的是"下一幀長什么樣"（視覺保真度），潛空間預(yù)測優(yōu)化的是"下一幀的抽象語義/物理狀態(tài)"（物理因果）。碰撞預(yù)判需要的是后者——不是"前方車輛的反光細(xì)節(jié)"，而是"它的運(yùn)動趨勢會不會與本車軌跡相交"。這是 JEPA 架構(gòu)在安全關(guān)鍵場景上相對于視頻擴(kuò)散模型（COSMOS）和自回歸 VLM（Gemini）的結(jié)構(gòu)性優(yōu)勢。

BADAS-2.0 的具體集成方式：

骨干遷移：取 V-JEPA2 的 ViT-L 編碼器（300M），端到端微調(diào)到 Nexar dashcam 數(shù)據(jù)。不是凍結(jié)后掛 probe，是全參數(shù)更新——論文 1.0 的消融顯示端到端微調(diào)把 AP 從 0.707 提升到 0.928，是最大的單一貢獻(xiàn)

未來預(yù)測分支：在編碼器后增加一個分支，預(yù)測 1 秒后的潛空間表征，與當(dāng)前表征拼接后送入分類頭。這是 V-JEPA2-AC（action-conditioned）思想的簡化版——讓模型明確地"預(yù)看未來"而不是隱式推斷

注意力探針聚合：12 個可學(xué)習(xí) query token 在 2048 patch × 1024 維的表征矩陣上做 cross-attention，聚合成固定長度的場景級特征

3 層 MLP 頭：輸出 [0,1] 的碰撞概率

對 Flash / Flash-Lite 的關(guān)鍵點(diǎn)：領(lǐng)域 SSL 預(yù)訓(xùn)練是蒸餾的前置條件。論文最重要的消融揭示：

隨機(jī)初始化 ViT-S 直接在 BADAS 監(jiān)督信號上訓(xùn)練 → AP 接近隨機(jī)

在 2.25M 無標(biāo)注 Nexar 視頻上做 V-JEPA 風(fēng)格的 masked feature prediction → +28.1 pp AP（達(dá)到接近生產(chǎn)質(zhì)量）

再加上從 ViT-L 教師的知識蒸餾 → 再 +1.0 pp AP，同時 FPR 從 20.6% 腰斬到 9.1%

換句話說，領(lǐng)域自監(jiān)督是 28 倍的貢獻(xiàn)，蒸餾是 1 倍的貢獻(xiàn)。沒有 V-JEPA 風(fēng)格的領(lǐng)域 SSL，小模型根本學(xué)不會這個任務(wù)。

一個有意思的反直覺發(fā)現(xiàn)：蒸餾后的 ViT-S/B 小模型在注意力定位上反而比 ViT-L 旗艦更精準(zhǔn)。作者的解釋是，小模型在領(lǐng)域 SSL 階段從一開始就把表征對齊到"駕駛相關(guān)區(qū)域"，而 ViT-L 是從通用視頻預(yù)訓(xùn)練繼承過來，需要同時適應(yīng)表征分布和學(xué)習(xí)碰撞線索，注意力因此更彌散。這對后續(xù)的架構(gòu)取舍有啟示意義。

五、目前的挑戰(zhàn)與約束

從行業(yè)研究者角度，BADAS-2.0 的約束分布在幾個層面：

數(shù)據(jù)層：長尾類別雖然大幅改善，動物、極端天氣、罕見基礎(chǔ)設(shè)施等仍是最難類別；數(shù)據(jù)飛輪依賴已有部署規(guī)模——論文自己承認(rèn)"最大的可遷移經(jīng)驗(yàn)是：已部署的模型本身就是最便宜的標(biāo)注器"，但這等于承認(rèn)沒有 1.0 的量產(chǎn)規(guī)模，2.0 的數(shù)據(jù)擴(kuò)展是不可能的，這對想復(fù)現(xiàn)這套范式的團(tuán)隊(duì)形成門檻。

架構(gòu)層：V-JEPA2 是 Meta 的外部依賴，后續(xù) license 或路線漂移有傳導(dǎo)風(fēng)險；ViT-L（300M）仍偏大，對純 IoT 攝像頭只能選 Flash-Lite 且依賴 CPU/GPU 混合，無法完全跑在低功耗 NPU 上。

方法論層：論文明確對比了自回歸 VLM 基線（Gemini-BADAS、COSMOS-BADAS）——即使在相同數(shù)據(jù)上微調(diào)，仍比 BADAS-2.0 落后 5+ 個百分點(diǎn)。這既是 BADAS 的差異化優(yōu)勢，也暴露了行業(yè)問題：目前沒有便宜且容易復(fù)用的 VLM 替代范式，想入局這個賽道必須走完"大規(guī)模真實(shí)數(shù)據(jù) + JEPA 自監(jiān)督 + 端到端微調(diào) + 領(lǐng)域 SSL + 蒸餾"這整套流水線。

可解釋性層：BADAS-Reason 依賴 Qwen3-VL-4B + QLoRA 在 8,680 條人工描述上微調(diào)，這部分的端側(cè)延遲和 OEM 合規(guī)性在主文實(shí)驗(yàn)中未充分呈現(xiàn)；另外 FlashAttention 必須關(guān)閉（eager attention mode）才能導(dǎo)出權(quán)重做熱圖，這對推理優(yōu)化有代價。

部署層：目前測試都在 Jetson Thor 和 A100，真正的車規(guī)級功能安全認(rèn)證（ISO 26262 ASIL-D）、OEM 整車集成、與現(xiàn)有 FCW/AEB 通路的仲裁邏輯都還在產(chǎn)品化階段；66 ms 預(yù)算對 L2+ 足夠，對 L4 規(guī)劃閉環(huán)可能偏緊。

六、未來發(fā)展方向

綜合兩篇論文和 Nexar 官方 roadmap，我看到四條演進(jìn)路徑：

1. BADAS World——從預(yù)測到仿真。V-JEPA2 原論文有 V-JEPA2-AC（action-conditioned predictor）和基于 MPC 的零樣本機(jī)器人規(guī)劃分支，Nexar 已經(jīng)預(yù)告 "BADAS World" 走物理感知駕駛仿真路線，即在預(yù)測分支上嵌入 ego 動作條件，形成 JEPA 世界模型的閉環(huán)——這是 LeCun 派世界模型的主線敘事。

2. BADAS-Reason v2——推理前置化。當(dāng)前 BADAS-Reason 是事后 VLM 解釋（先有碰撞概率再生成自然語言），未來可以把推理與預(yù)測合并——V-JEPA2 原論文已經(jīng)展示了與 Llama 3.1-8B 對齊后在 PerceptionTest 取得 84.0 分的能力，把這套對齊方式移到 BADAS 上，可以生成"推理即預(yù)測"的聯(lián)合輸出。

3. Physical AI 泛化。Nexar 的官方通稿明確提到 BADAS-2.0 在分布外（out-of-distribution）的非駕駛物理碰撞場景仍能穩(wěn)定預(yù)測。這意味著 "JEPA 架構(gòu) + 大規(guī)模真實(shí)邊緣數(shù)據(jù) + 蒸餾" 這套范式可以遷移到工業(yè)安全、倉儲物流、醫(yī)療機(jī)器人等安全關(guān)鍵領(lǐng)域，而不止于自動駕駛。

4. OEM 前裝化。2.0 Flash 和 Flash-Lite 的延遲表現(xiàn)首次讓"真實(shí)碰撞語料訓(xùn)出來的感知模型"具備進(jìn)入量產(chǎn)車 ECU 的可能（之前 1.0 的 2.5 s/window 是無法接受的）。Nexar 已經(jīng)與 Waymo、Lyft、IBM、NVIDIA 等形成合作網(wǎng)絡(luò)，下一步的看點(diǎn)是能否進(jìn)入 Tier-1 供應(yīng)鏈。