訂閱
糾錯
加入自媒體

大幅超越π0.5和X-VLA!清北最新Motus:理解、生成、控制全能, 海量視頻喂出“最強大腦”

2025-12-19 15:28
AI生成未來
關注

作者:Hongzhe Bi等

解讀:AI生成未來

亮點直擊

統(tǒng)一的基礎模型:Motus,一個統(tǒng)一的具身基礎模型,首次在一個生成式框架內集成了五種主流范式(世界模型、逆動力學模型、VLAs、視頻生成模型以及 視頻-動作聯(lián)合預測模型),且未犧牲通用的多模態(tài)先驗

MoT 架構與聯(lián)合注意力:引入混合 Transformer (MoT) 架構,通過“三模態(tài)聯(lián)合注意力機制”連接預訓練的視頻生成專家、動作專家和理解專家

潛在動作:利用光流學習“潛在動作”,解決了大規(guī)模無標簽視頻數(shù)據(jù)無法用于動作預訓練的難題

可擴展的訓練配方:提出一套“三階段訓練流程”和“六層數(shù)據(jù)金字塔”,能利用異構數(shù)據(jù)(互聯(lián)網視頻、人類視頻、多機器人數(shù)據(jù)等)學習跨具身智能體的可遷移運動知識

解決的問題

能力碎片化問題:現(xiàn)有的具身智能方法通常將感知、世界建模和控制隔離開來(例如 VLA 僅做靜態(tài)策略,WM 僅做預測),缺乏一個統(tǒng)一系統(tǒng)來整合場景理解、指令遵循、未來想象和動作生成。

異構數(shù)據(jù)利用難:不同機器人的動作空間差異巨大,且海量的互聯(lián)網視頻數(shù)據(jù)缺乏動作標簽。現(xiàn)有的方法難以利用這些大規(guī)模無標簽數(shù)據(jù)來學習通用的運動和物理交互先驗,限制了模型的泛化能力。

提出的方案

統(tǒng)一架構 Motus:基于 MoT 架構,集成了預訓練的視頻生成模型(Wan 2.2 5B)和視覺語言模型(Qwen3-VL-2B)。采用類似 UniDiffuser 的調度器,通過分配不同的時間步和噪聲尺度,實現(xiàn)對邊緣分布、條件分布和聯(lián)合分布的統(tǒng)一建模,支持靈活切換推理模式。

動作密集-視頻稀疏預測:為了平衡視頻token和動作token的數(shù)量,并在動作分塊(Chunking)技術下提高效率,采用了視頻幀率低于動作幀率的采樣策略。

基于光流的潛在動作:使用深度壓縮自編碼器(DC-AE)重構光流,將其編碼為低維潛在向量,并結合少量任務無關的動作標簽進行監(jiān)督,使模型能從無標簽視頻中學習物理動態(tài)。

應用的技術

Mixture-of-Transformer (MoT) :混合專家架構。

Tri-model Joint Attention:三模態(tài)聯(lián)合注意力機制,用于跨模態(tài)知識融合。

Rectified Flow:基于整流流的生成目標,用于聯(lián)合預測視頻和動作。

Optical Flow & DC-AE:利用 DPFlow 計算光流,并使用卷積變分自編碼器進行壓縮,作為潛在動作表征。

UniDiffuser-style Scheduler:用于多模態(tài)生成的噪聲調度策略。

達到的效果

仿真環(huán)境 (RoboTwin 2.0) :在包含 50+ 任務的基準測試中,Motus 相比 X-VLA 提升了 15%,相比  提升了 45%,特別是在隨機化場景下表現(xiàn)優(yōu)異。

真實世界環(huán)境:在 AC-One 和 Agilex-Aloha-2 雙臂機器人上進行了測試,涵蓋長視距規(guī)劃和精細操作任務,成功率相比基線提升了 11%~48% 。

多模態(tài)能力:證明了模型不僅能作為策略控制機器人,還能作為高質量的視頻生成器和世界模型預測未來。

問題闡述與挑戰(zhàn)

具身策略

本工作考慮語言條件下的機器人操作任務。對于每個具身智能體,任務定義了動作 、觀測 (視覺輸入)、語言指令  以及機器人的本體感知 ,其中  分別表示動作空間、觀測空間和語言指令空間。任務通常提供一個專家數(shù)據(jù)集 ,其中包含專家在  個時間步內收集的機器人本體感知、視覺觀測和動作,以及每條軌跡對應的語言標注。本工作在  上訓練一個由  參數(shù)化的策略。在每個時間步 ,策略基于當前的觀測和本體感知預測接下來的  個動作(即動作分塊 action chunking),對分布  或  進行建模。策略  的訓練目標是最大化似然目標:

此外,基于上述符號定義,可以推導出具身智能 5 種建模類型的概率分布,這些可以集成到一個單一的模型中進行訓練:

VLA: .WM (世界模型): .IDM (逆動力學模型): .VGM (視頻生成模型): .視頻-動作聯(lián)合預測模型: .

挑戰(zhàn) 1:統(tǒng)一多模態(tài)生成能力

一個有能力的具身智能體必須作為一個統(tǒng)一的整體,整合一系列認知功能——從理解場景和指令、想象可能的未來,到預測后果和生成動作。目前的模型是碎片化的,無法在一個系統(tǒng)中捕捉所有必要的能力。這就提出了一個挑戰(zhàn):如何在一個框架內統(tǒng)一建模五個關鍵分布——VLA、世界模型、IDM、視頻生成模型和視頻-動作聯(lián)合預測模型。雖然以前的工作(如 UWMs)取得了一些進展,但仍存在一個關鍵局限:這些方法要么是從頭開始訓練的,要么是建立在較小的基礎模型之上,或者——即使結合了一些先驗——也總是缺乏全方位的知識,要么缺少來自 VLM 的視覺理解先驗,要么缺少來自 VGM 的物理交互先驗。因此,它們缺乏穩(wěn)健和可泛化的具身智能所需的全面世界知識。因此,在一個統(tǒng)一框架內聯(lián)合建模視覺、語言和動作的各種分布這一非同尋常的挑戰(zhàn)仍未得到解決,這正是本工作所填補的空白。

挑戰(zhàn) 2:異構數(shù)據(jù)的利用

具身智能的一個核心挑戰(zhàn)是如何有效利用大規(guī)模異構數(shù)據(jù)。不同具身智能體的動作空間在維度、范圍和語義上差異很大,機器人在形態(tài)、驅動和傳感方面也各不相同。結果是,控制信號無法直接復用,策略難以學習可跨具身智能體遷移的通用先驗,F(xiàn)有的方法試圖通過使用帶有具身特定信息注入的通用骨干網絡,或構建強制統(tǒng)一不同具身智能體的高維動作向量來解決這個問題。然而,它們仍然主要依賴于有標簽的機器人軌跡,無法將這些數(shù)據(jù)集與缺乏動作標注但包含豐富運動和物理交互線索的大規(guī);ヂ(lián)網視頻或以自我為中心的人類視頻整合在一起。這一局限性阻礙了動作專家的大規(guī)模預訓練,并降低了學習通用運動先驗的能力。

方法論Motus

模型架構。為了解決前面概述的統(tǒng)一多模態(tài)生成能力的挑戰(zhàn),本工作提出了 Motus,一個統(tǒng)一的潛在動作世界模型。首先,Motus 被設計為一個通用的生成模型,在異構多模態(tài)數(shù)據(jù)上進行聯(lián)合學習,從而在一個單一網絡中集成通用系統(tǒng)的多種能力(例如,建模 5 種分布)。其次,為了避免對海量對齊多模態(tài)數(shù)據(jù)的不切實際的需求,Motus 利用了現(xiàn)有基礎模型的豐富預訓練先驗。它在一個混合 Transformer (MoT) 架構中(如圖 1 所示)集成了一個預訓練的 VGM(生成專家)、一個帶有預訓練 VLM 的理解專家和一個動作專家,有效地融合了它們的互補優(yōu)勢——涵蓋場景理解、指令解釋、后果預測、未來視頻想象和動作規(guī)劃——而無需完全從頭開始訓練。

圖 1.Motus 架構。 在這里,... 是動作,...  是潛在動作,τv 和 τa 分別是視頻生成模型和動作專家的修正流時間步長。圖 1.Motus 架構。 在這里,... 是動作,...  是潛在動作,τv 和 τa 分別是視頻生成模型和動作專家的修正流時間步長。

與統(tǒng)一世界模型 (UWMs) 簡單地連接觀測token和動作token并通過單一的  個 UWM 塊(包含自注意力和前饋網絡 (FFN) 層)處理不同,本工作的方法通過采用 MoT 結構利用了預訓練的 VLM 和 VGM。在該模型中,每個專家維護一個獨立的 Transformer 模塊,而多頭自注意力層是連接的,即**三模態(tài)聯(lián)合注意力 (Tri-model Joint Attention)**。這不僅保留了專家之間獨特的功能角色而不引起任務干擾,還實現(xiàn)了有效的跨模態(tài)特征融合,鼓勵多樣化的預訓練知識相互補充。在訓練期間,Motus 使用基于整流流 (rectified flow) 的目標聯(lián)合預測視頻塊和動作塊:

其中  是條件幀, 是隨后的觀測和動作, 和  是分配的時間步, 是采樣的該高斯噪聲, 是統(tǒng)一模型預測的速度場, 分別是觀測和動作的損失。通過為視頻和動作分別分配不同的時間步和噪聲尺度,Motus 建立了一個類似 UniDiffuser 的調度器,以捕捉異構數(shù)據(jù)分布,并在推理過程中自適應地在各種具身基礎模型模式之間切換(例如,VLA、世界模型、IDM、VGM、聯(lián)合預測)。最終模型在一個統(tǒng)一的多模態(tài)架構內實現(xiàn)了理解場景、遵循指令、預測結果、想象未來和輸出動作。

動作密集-視頻稀疏預測 (Action-Dense Video-Sparse Prediction)。由于本模型建立在廣泛引用的動作分塊 (action-chunking) 技術之上,Motus 需要預測未來的視頻塊和動作序列 。這導致了幾個問題:(1) 訓練和推理效率低,(2) 冗余的視頻幀預測,以及 (3) 三模態(tài)聯(lián)合注意力機制中的不平衡——視頻token的數(shù)量顯著超過動作token。這種不平衡導致模型過度擬合視頻預測,從而削弱了其動作預測能力。為了解決這些問題,本工作提出了動作密集-視頻稀疏預測策略,如圖 2 所示。在訓練和推理過程中,本工作對視頻幀進行下采樣,使視頻token和動作token的數(shù)量保持平衡——例如,將視頻幀率設置為動作幀率的六分之一。

圖 2. 動作密集視頻稀疏預測.視頻幀和動作的采樣率不同圖 2. 動作密集視頻稀疏預測.視頻幀和動作的采樣率不同

專家細節(jié)

對于生成專家,本工作采用 Wan 2.2 5B 作為視頻基礎模型,因為它易于獲取和使用。本工作擴展了其自注意力上下文以創(chuàng)建跨模態(tài)的三模態(tài)聯(lián)合注意力機制。對于動作專家,本工作構建了一個與 Wan 深度相同的 Transformer 塊。每個塊包含用于注入整流流時間步的 AdaLN、一個前饋網絡 (FFN) 和用于跨專家交互的三模態(tài)聯(lián)合注意力。本工作選擇 Qwen3-VL-2B 作為理解專家,因為它在 3D 接地 (grounding)、空間理解和精確物體定位方面具有固有能力,這對于機器人操作至關重要。該專家的輸入取自 VLM 對應token的最后一層。理解專家本身由幾個 Transformer 塊組成,每個塊包含層歸一化、一個 FFN 和三模態(tài)聯(lián)合注意力。

潛在動作

本工作進一步解決了挑戰(zhàn) 2,通過直接從視覺動態(tài)中學習可泛化的動作模式來利用大規(guī)模異構數(shù)據(jù)。具體而言,引入了**潛在動作 (latent actions)**,它編碼了直接從像素學習到的運動。這些潛在動作允許模型從互聯(lián)網視頻、以自我為中心的人類演示和多機器人軌跡等各種來源吸收運動知識,從而增強動作專家的預訓練,即使是在沒有顯式動作標簽的數(shù)據(jù)上也是如此。

基于光流的表示

本工作采用光流作為運動的自然表示,它捕捉連續(xù)幀之間的像素級位移。具體來說,光流由 DPFlow 計算,然后轉換為 RGB 圖像。為了將這種高維表示壓縮到控制級空間,本工作采用了深度卷積變分自編碼器 (DC-AE),它在重構光流的同時將其編碼為四個 512 維的token。然后,一個輕量級編碼器將這些連接的  特征投影到一個 14 維向量中,大致匹配典型機器人動作空間的規(guī)模。整體架構如圖 3 所示。這種維度對應關系確保了潛在表示可以自然地與真實的機器人控制對齊,并充當感知和動作之間的橋梁。

圖3 Latent Action VAE圖3 Latent Action VAE

訓練與分布對齊。為了幫助將潛在空間對齊到現(xiàn)實的動作空間,遵循 AnyPos 的方法整合了任務無關數(shù)據(jù)。具體來說,任務無關數(shù)據(jù)使用 Curobo 通過以任務無關的方式隨機采樣目標機器人的動作空間來收集圖像-動作對。這些數(shù)據(jù)提供了額外的真實動作監(jiān)督,幫助 VAE 學習反映可行運動行為的嵌入,并將潛在動作錨定到真實的控制分布。

在訓練期間,本工作混合了 90% 的用于自監(jiān)督重構的無標簽數(shù)據(jù)和 10% 的用于弱動作監(jiān)督的有標簽軌跡,其中有標簽部分包括任務無關數(shù)據(jù)和標準機器人演示。維度對應和弱動作監(jiān)督共同驅動潛在動作分布與真實動作分布對齊,使得從視頻中學習到的運動先驗自然地映射到可執(zhí)行的控制。

總損失結合了重構、對齊和 KL 正則化:

其中  最小化光流重構誤差,第二項對齊潛在動作和真實動作, 正則化潛在空間; 和  是超參數(shù)。

模型訓練與數(shù)據(jù)

Motus 訓練。Motus 分三個結構化階段進行訓練(表 1),逐步將來自不同數(shù)據(jù)集的物理交互先驗整合到可遷移至目標機器人的策略中。每個階段解決一個關鍵挑戰(zhàn):

階段 1:學習視覺動態(tài)。 為了將模型錨定在現(xiàn)實的物理交互中,本工作首先使用多機器人軌跡和人類視頻調整視頻生成模型 (VGM)。這使得 VGM 能夠根據(jù)語言指令和初始圖像生成任務的合理未來視頻序列。

階段 2:潛在動作預訓練。 在此階段,本工作利用潛在動作 VAE 將光流編碼為“偽動作”標簽。這使得動作專家能夠在不需要真實動作標注的情況下,在大規(guī)模視頻數(shù)據(jù)集(包括互聯(lián)網和人類視頻)上進行預訓練。這一過程在動作專家中建立了通用的運動先驗和對物理因果關系的理解。

階段 3:具身特定動作微調。 最后,本工作在目標機器人的特定數(shù)據(jù)集上微調整個模型(包括理解、生成和動作專家)。此階段使模型適應特定具身智能體的特定運動學和動力學,將通用的運動知識轉化為精確的控制策略。

六層數(shù)據(jù)金字塔。為了支持這種漸進式學習,本工作構建了一個分層的數(shù)據(jù)金字塔,按規(guī)模和特異性組織:

Web-Scale Videos (網絡規(guī)模視頻) :提供廣泛的世界知識和多樣化的場景(例如,Ego4D, Something-Something v2)。

Human Egocentric Videos (人類以自我為中心的視頻) :提供類似機器人的第一人稱視角的豐富手-物交互(例如,Ego4D 子集)。

Simulation Data (仿真數(shù)據(jù)) :提供具有完美動作標簽的大規(guī)模、多樣化物理交互(例如,SimplerEnv, RoboTwin)。

Task-Agnostic Robotic Data (任務無關機器人數(shù)據(jù)) :橋接視覺運動和物理控制,無需特定任務語義。

Multi-Robot Trajectories (多機器人軌跡) :來自各種機器人平臺(例如,BridgeData V2, Open X-Embodiment)的演示,提供跨具身概括。

Target Robotic Data (目標機器人數(shù)據(jù)) :目標機器人的特定任務演示,用于最終微調。圖4。具身數(shù)據(jù)金字塔將數(shù)據(jù)分為六個層級,從底部的1級到頂端的6級。數(shù)據(jù)量從下而上遞減,而數(shù)據(jù)質量則在提升。3級和4級的順序有時會有所不同。圖4。具身數(shù)據(jù)金字塔將數(shù)據(jù)分為六個層級,從底部的1級到頂端的6級。數(shù)據(jù)量從下而上遞減,而數(shù)據(jù)質量則在提升。3級和4級的順序有時會有所不同。

實驗

實驗設置

模型總參數(shù)量約為 8B (Wan 2.2 5B + Qwen3-VL 2B + 輕量級 Action Expert)。

基線:對比了  (Pi-zero), X-VLA, Octo 等模型。

仿真實驗 (RoboTwin 2.0):

在包含 50+ 任務的基準中,測試了“清潔場景”和“隨機化場景”(背景、光照、干擾物隨機化)。

結果:Motus 在隨機化設置下取得了 87.02% 的平均成功率,相比  (42.98%) 提升了約 45%,相比 X-VLA (72.84%) 提升了約 15%。這證明了 Motus 在處理分布外 (OOD) 場景時的強大魯棒性。

真實世界實驗

平臺:AC-One 和 Agilex-Aloha-2 雙臂機器人。

任務:包括疊毛巾、煮咖啡、倒水、抓取物體等長視距任務。

結果:在 AC-One 上,Motus 平均成功率達到 63.22%(基線  為 14.79%);在 Aloha-2 上,Motus 達到 59.30%(基線  為 48.60%)。展示了模型在未見過的物體(OOD Cube)和復雜操作流程中的泛化能力。

消融研究

驗證了預訓練階段的重要性。無預訓練的模型效果最差,僅階段 1 預訓練(視覺動態(tài))帶來一定提升,而完整的階段 2 預訓練(潛在動作)帶來了最大的性能飛躍。

多模態(tài)能力驗證

VGM 模式:生成了高質量的未來視頻幀。

WM 模式:準確預測了基于動作的未來狀態(tài)。

IDM 模式:在逆動力學預測誤差 (MSE) 上優(yōu)于專門訓練的 ResNet/DINOv2 IDM 基線 (0.014 vs 0.044/0.122)。

結論與局限性

Motus,這是一個統(tǒng)一的潛在動作世界模型,它將具身基礎模型的主流能力集成到一個單一的生成框架中,即視覺-語言理解、視頻生成、逆動力學、世界建模和視頻-動作聯(lián)合預測。通過 MoT 連接預訓練專家,使用 UniDiffuser 風格的調度器協(xié)調多模態(tài)建模,并引入潛在動作作為像素級“Delta Action”和運動表示,Motus 有效地從大規(guī)模異構數(shù)據(jù)中學習,并繼承了通用多模態(tài)先驗和豐富的物理交互知識。在仿真和真實世界場景中的大量實驗表明,統(tǒng)一建模所有功能和先驗顯著有利于下游機器人任務。

局限性:盡管結果很有希望,但 Motus 需要大量的計算資源進行訓練和推理,這可能會限制其實時應用。此外,雖然潛在動作彌補了視覺和控制之間的差距,但在極其精細的操作任務中,其保真度可能仍不如直接的高頻本體感知控制。未來的工作將集中在優(yōu)化推理效率和探索更高保真度的潛在動作表示上。

參考文獻

[1] Motus: A Unified Latent Action World Model

       原文標題 : 大幅超越π0.5和X-VLA!清北最新Motus:理解、生成、控制全能, 海量視頻喂出“最強大腦”

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號