123,123

“世界模型”到底是個(gè)啥？OpenWorldLib一錘定音：感知+交互+記憶，這才叫理解世界的AI！

2026-04-09 15:12

作者：Bohan Zeng等

解讀：AI生成未來(lái)

亮點(diǎn)直擊

標(biāo)準(zhǔn)化定義：針對(duì)學(xué)術(shù)界對(duì)“世界模型”定義的模糊性，本文提出了一個(gè)清晰的定義：以感知為中心，具備交互和長(zhǎng)期記憶能力，用于理解和預(yù)測(cè)復(fù)雜世界的模型或框架。

統(tǒng)一推理框架：開(kāi)發(fā)了 OpenWorldLib，將交互式視頻生成、3D 生成、多模態(tài)推理和視覺(jué)-語(yǔ)言-動(dòng)作（VLA）等多種任務(wù)集成在統(tǒng)一的工程實(shí)現(xiàn)下。

能力系統(tǒng)化分類：系統(tǒng)地梳理了世界模型應(yīng)具備的核心能力，并明確劃分了哪些任務(wù)（如純文本轉(zhuǎn)視頻）不應(yīng)被歸類為真正的世界模型研究。

解決的問(wèn)題

目前世界模型研究雖然火熱，但存在兩個(gè)核心痛點(diǎn)：

定義不一：研究者對(duì)世界模型的邊界缺乏共識(shí)，導(dǎo)致許多生成任務(wù)（如 Sora）被誤認(rèn)為完整的世界模擬器。

工程分散：不同類型的世界模型任務(wù)（感知、預(yù)測(cè)、動(dòng)作）往往使用完全不同的底層架構(gòu)和推理流程，難以協(xié)同工作。

提出的方案與應(yīng)用技術(shù)

本工作提出了 OpenWorldLib 框架，其核心設(shè)計(jì)包含以下五個(gè)功能模塊及一個(gè)調(diào)度中心：

Operator（算子模塊）：負(fù)責(zé)多模態(tài)輸入的標(biāo)準(zhǔn)化預(yù)處理與校驗(yàn)。

Synthesis（合成模塊）：涵蓋視覺(jué)（視頻/圖像）、音頻以及物理信號(hào)（如 VLA 控制指令）的生成，實(shí)現(xiàn)模型的隱式表示。

Reasoning（推理模塊）：包含通用多模態(tài)推理、空間推理及音頻推理，使模型能理解復(fù)雜的物理規(guī)律。

Representation（表示模塊）：支持 3D 重建和仿真環(huán)境接口，提供顯式的物理世界結(jié)構(gòu)信息。

Memory（記憶模塊）：管理長(zhǎng)期交互歷史，支持上下文檢索、壓縮和狀態(tài)更新。

Pipeline：作為頂層調(diào)度 entry，協(xié)調(diào)各模塊完成單次或多輪流式交互任務(wù)。

達(dá)到的效果

OpenWorldLib 成功標(biāo)準(zhǔn)化的調(diào)用了包括 Cosmos、Hunyuan、VGGT 和在內(nèi)的多種前沿模型，在交互式視頻生成、3D 場(chǎng)景重建、復(fù)雜空間推理和具身智能（VLA）任務(wù)中實(shí)現(xiàn)了高效的協(xié)同推理。

背景與相關(guān)工作

世界模型通常由三個(gè)核心條件概率分布定義：

其中表示隱狀態(tài)，其本質(zhì)上整合了記憶存儲(chǔ)，用以管理復(fù)雜任務(wù)的長(zhǎng)程依賴；代表時(shí)刻的動(dòng)作，來(lái)自于已被拓寬至涵蓋多樣化操作和特定任務(wù)輸出（如生成和操縱）的動(dòng)作空間；是感知觀測(cè)（例如視覺(jué)、音頻或本體感受）；而是通過(guò)動(dòng)作與環(huán)境交互獲得的獎(jiǎng)勵(lì)。

盡管這些公式被廣泛使用，但許多任務(wù)在形式上雖然滿足此類條件概率分布，卻并未真正服務(wù)于世界模型的核心目的。這些任務(wù)往往與世界模型研究混為一談，或被籠統(tǒng)地貼上其標(biāo)簽。因此，在本節(jié)中，本工作結(jié)合前人提出的定義以及本文倡導(dǎo)的觀點(diǎn)，清晰地劃定哪些任務(wù)屬于真正的世界模型研究范疇，哪些則不然。

世界模型相關(guān)任務(wù)

交互式視頻生成。下一幀預(yù)測(cè)被世界模型研究者視為最受認(rèn)可的范式，確立了交互式視頻生成作為該領(lǐng)域研究的主要重心。早期方法主要依賴基于回歸的模型來(lái)預(yù)測(cè)后續(xù)幀。最近，該領(lǐng)域已轉(zhuǎn)向利用擴(kuò)散模型以實(shí)現(xiàn)更高質(zhì)量的交互式視頻生成，統(tǒng)一的多模態(tài)方法進(jìn)一步提升了生成的保真度和可控性。隨著擴(kuò)散模型推理速度的加快，游戲視頻生成和相機(jī)控制的視頻生成已成為一個(gè)特別引人注目的領(lǐng)域。此外，視頻預(yù)測(cè)范式已成功集成到視覺(jué)-語(yǔ)言-動(dòng)作（VLA）模型和自動(dòng)駕駛系統(tǒng)中。通過(guò)引入下一幀預(yù)測(cè)估計(jì)，這些模型在預(yù)測(cè)能力上的穩(wěn)定性和魯棒性得到了顯著增強(qiáng)。然而，雖然交互式視頻生成仍是當(dāng)前世界模型研究的基石，但值得注意的是，下一幀預(yù)測(cè)并非唯一的實(shí)現(xiàn)范式。考慮到世界模型的終極目標(biāo)是促進(jìn)在復(fù)雜環(huán)境中的長(zhǎng)期交互，探索替代或互補(bǔ)的表示范式同樣至關(guān)重要。

多模態(tài)推理。世界模型的關(guān)鍵能力在于對(duì)復(fù)雜物理世界的深刻理解；因此，多模態(tài)推理是世界模型能力的關(guān)鍵體現(xiàn)。與世界模型緊密相關(guān)的多模態(tài)推理任務(wù)不僅涵蓋空間推理和全能推理，還包括時(shí)間推理、因果推理。近期，除了傳統(tǒng)的顯式推理方法，利用隱式推理分析真實(shí)世界中的復(fù)雜動(dòng)力學(xué)已成為一個(gè)顯著的研究熱點(diǎn)。通過(guò)擺脫大語(yǔ)言模型（LLMs）傳統(tǒng)的以文本為中心的預(yù)訓(xùn)練范式，隱式推理機(jī)制使模型能夠更有效地?cái)z取和處理真實(shí)世界中固有的復(fù)雜、高維且連續(xù)的信息。

視覺(jué)-語(yǔ)言-動(dòng)作。世界模型的最終目標(biāo)是使智能體能夠與物理世界交互，而具身設(shè)備是與復(fù)雜環(huán)境交互的主要代表。因此，視覺(jué)-語(yǔ)言-動(dòng)作（VLA）已成為世界模型必須支持的一項(xiàng)關(guān)鍵能力。在機(jī)器人臂操縱領(lǐng)域，近期的研究主要遵循兩條路徑：利用多模態(tài)大語(yǔ)言模型（MLLMs）直接預(yù)測(cè)動(dòng)作，或者將動(dòng)作預(yù)測(cè)與視頻生成相結(jié)合，通過(guò)未來(lái)幀預(yù)測(cè)來(lái)輔助動(dòng)作規(guī)劃。此外，這種 VLA 范式正被廣泛應(yīng)用于更復(fù)雜的具身場(chǎng)景，包括動(dòng)力學(xué)極度復(fù)雜且難以控制的移動(dòng)機(jī)器人，以及在極其廣闊的環(huán)境中運(yùn)行的自動(dòng)駕駛系統(tǒng)，從而推進(jìn)了模型在真實(shí)世界中的閉環(huán)交互能力。

3D與模擬器在世界模型中的作用

除了直接依賴可觀測(cè)感知的任務(wù)外，世界模型的一個(gè)關(guān)鍵部分涉及處理虛擬環(huán)境。為了確保物理空間在長(zhǎng)期交互過(guò)程中保持一致，研究人員經(jīng)常使用模擬器讓模型以結(jié)構(gòu)化的方式學(xué)習(xí)。雖然交互式視頻生成創(chuàng)造了對(duì)未來(lái)的視覺(jué)猜測(cè)，但 3D 表示提供了一個(gè)可以嚴(yán)格遵循物理規(guī)則的可驗(yàn)證環(huán)境。

在此背景下，3D 生成與重建對(duì)于維持穩(wěn)定的世界狀態(tài)至關(guān)重要。近期工作如 VGGT、InfiniteVGGT 和 OmniVGGT 使用視覺(jué)幾何導(dǎo)向的 Transformer 將圖像輸入與真實(shí)的幾何結(jié)構(gòu)聯(lián)系起來(lái)。為了處理來(lái)自真實(shí)世界的連續(xù)數(shù)據(jù)，一些模型現(xiàn)在維持著持久的 3D 狀態(tài)，或利用混合記憶進(jìn)行長(zhǎng)上下文重建，確保即使在智能體移動(dòng)時(shí)環(huán)境也保持不變。此外，度量 3D 重建、深度估計(jì)和廣角視圖合成中的新方法允許世界模型從任何相機(jī)角度恢復(fù)準(zhǔn)確的物理空間。通過(guò)學(xué)習(xí)置換等變（permutation-equivariant）視覺(jué)幾何，這些模型可以在不同類型的物理設(shè)置中更好地工作。

此外，模擬器充當(dāng)了世界模型的“沙盒”，幫助它們從抽象思考轉(zhuǎn)向真實(shí)的物理動(dòng)作。為了使這些模擬器能夠?qū)崟r(shí)工作，快速的場(chǎng)景生成是必要的。例如，F(xiàn)lashWorld 和 Hunyuan 系列可以在極短的時(shí)間內(nèi)創(chuàng)建高質(zhì)量的 3D 場(chǎng)景或資產(chǎn)，為世界模型提供了一個(gè)即時(shí)測(cè)試其想法的場(chǎng)所。近期的調(diào)查還探索了在這些 3D 生成過(guò)程中進(jìn)行強(qiáng)化學(xué)習(xí)的潛力。通過(guò)使用這些顯式的 3D 表示和模擬工具，世界模型可以超越僅僅預(yù)測(cè)像素，真正理解真實(shí)世界的物理規(guī)律。

不被視為世界模型的方法

除了與世界模型相關(guān)的任務(wù)外，某些應(yīng)用雖未真正反映世界模型的能力，卻頻繁出現(xiàn)在類似的討論中�；诒疚牡墓胶蛯�(duì)世界模型的具體定義，本節(jié)明確了哪些任務(wù)不屬于這一類別。

一個(gè)突出的誤解例子是文本轉(zhuǎn)視頻生成。當(dāng) Sora 發(fā)布時(shí)，許多人將其標(biāo)記為“世界模擬器”。然而，有觀點(diǎn)認(rèn)為 Sora 并不構(gòu)成一個(gè)完整的世界模擬器。雖然下一幀預(yù)測(cè)經(jīng)常與世界模型聯(lián)系在一起，但本文的定義強(qiáng)調(diào)，關(guān)鍵不在于輸出格式，而在于模型是否利用多模態(tài)輸入來(lái)分析和識(shí)別環(huán)境。下一幀預(yù)測(cè)僅作為一種格式。真正重要的是模型是否準(zhǔn)確地理解復(fù)雜的物理規(guī)律并與世界交互。文本轉(zhuǎn)視頻生成缺乏這種復(fù)雜的感知輸入。盡管生成視頻展示了對(duì)物理的一定理解，但它仍處于世界模型核心任務(wù)之外。

類似地，一些任務(wù)如代碼生成或網(wǎng)頁(yè)搜索，借用了世界模型的長(zhǎng)期交互結(jié)構(gòu)用于其他領(lǐng)域。然而，這些任務(wù)通常缺乏多模態(tài)輸入，且不涉及理解物理世界。雖然將這種結(jié)構(gòu)應(yīng)用于新領(lǐng)域帶來(lái)了有趣的機(jī)遇，但這些任務(wù)并不符合真正的世界模型標(biāo)準(zhǔn)。

即便是一些實(shí)際上涉及多模態(tài)和長(zhǎng)期交互的應(yīng)用，如化身（avatar）視頻生成，也不一定符合定義。這些任務(wù)主要聚焦于娛樂(lè)，由于它們與探索或理解復(fù)雜的物理世界關(guān)系不大，因此不代表世界模型的主要關(guān)注點(diǎn)。

OpenWorldLib 框架設(shè)計(jì)

基于前面，世界模型需要具備以下能力：接收來(lái)自復(fù)雜物理世界的輸入、理解物理世界、在交互過(guò)程中維持長(zhǎng)期記憶，并支持多模態(tài)輸出。盡管已有研究提出過(guò)統(tǒng)一世界模型框架的設(shè)計(jì)，但其缺乏具體的工程實(shí)現(xiàn)乃至統(tǒng)一的標(biāo)準(zhǔn)。本節(jié)詳細(xì)介紹了 OpenWorldLib 框架的具體設(shè)計(jì)，如圖 2 所示。

Operator（算子模塊）

在 OpenWorldLib 框架中，Operator 模塊充當(dāng)了原始用戶輸入（或環(huán)境信號(hào)）與核心執(zhí)行模塊（合成、推理和表示）之間的關(guān)鍵橋梁。由于世界模型必須處理來(lái)自物理世界的復(fù)雜、多模態(tài)輸入——如文本提示詞、圖像、連續(xù)控制動(dòng)作和音頻信號(hào)——Operator 旨在對(duì)這些多樣的輸入流進(jìn)行標(biāo)準(zhǔn)化。

具體而言，當(dāng) Pipeline 被調(diào)用時(shí)，它會(huì)將原始輸入通過(guò) Operator 的 process() 方法進(jìn)行路由。Operator 負(fù)責(zé)兩項(xiàng)主要功能：

校驗(yàn)：確保輸入數(shù)據(jù)的格式、形狀和類型滿足下游模型的要求。

預(yù)處理：將原始信號(hào)轉(zhuǎn)換為標(biāo)準(zhǔn)化的張量表示或結(jié)構(gòu)化格式（例如，調(diào)整圖像大小、對(duì)文本進(jìn)行標(biāo)記化或?qū)?dòng)作空間進(jìn)行歸一化）。

為了方便集成新的世界模型方法，本文定義了一個(gè)統(tǒng)一的 Operator 模板。所有特定任務(wù)的算子都繼承自此基類，確保整個(gè)代碼庫(kù)擁有統(tǒng)一的 API。Operator 的定義見(jiàn)清單1。

Synthesis 模塊

如圖3中的隱式表示部分所示，世界模型的一項(xiàng)核心能力是利用內(nèi)部學(xué)習(xí)到的動(dòng)力學(xué)，通過(guò)環(huán)境反饋生成視覺(jué)、聽(tīng)覺(jué)和其他感官結(jié)果。本文將這種隱式生成過(guò)程定義為模型的隱式表示。在 OpenWorldLib 框架中，Synthesis 模塊充當(dāng)了上游流水線的標(biāo)準(zhǔn)化條件與用戶、模擬器或機(jī)器人棧實(shí)際消費(fèi)的多模態(tài)輸出（視覺(jué)、聽(tīng)覺(jué)和具身動(dòng)作）之間的生成橋梁。由于世界模型必須不僅將預(yù)測(cè)實(shí)現(xiàn)為內(nèi)部狀態(tài)，還要實(shí)現(xiàn)為可觀測(cè)的媒體和可執(zhí)行的指令，因此 Synthesis 模塊托管了異構(gòu)的生成后端，同時(shí)保持了跨模態(tài)的一致集成模式。

具體而言，當(dāng) Pipeline 運(yùn)行生成路徑時(shí)，它會(huì)將算子對(duì)齊的輸入傳遞給相應(yīng)的合成后端，后者在特定模態(tài)的控制下進(jìn)行推理，并返回結(jié)構(gòu)化的偽影以及用于導(dǎo)出、評(píng)估或記憶的簡(jiǎn)明元數(shù)據(jù)。以下子節(jié)將展開(kāi)介紹該模塊的視覺(jué)、音頻及其他物理信號(hào)合成分支。

視覺(jué)合成

視覺(jué)合成層涵蓋了 OpenWorldLib 中面向圖像和視頻的生成：它將結(jié)構(gòu)化的條件（如文本提示詞、參考圖像或場(chǎng)景級(jí)規(guī)格）轉(zhuǎn)化為光柵輸出（幀張量、解碼后的剪輯或 API 返回的資產(chǎn)），并附帶元數(shù)據(jù)。通過(guò)這種方式，框架可以提供場(chǎng)景隨時(shí)間演變的直觀預(yù)測(cè)，這對(duì)于交互式模擬、定性檢查以及一眼對(duì)比備選未來(lái)或相機(jī)路徑至關(guān)重要。

在實(shí)踐中，視覺(jué)合成層圍繞以下職責(zé)進(jìn)行組織：

生成棧組合：將文本編碼器、隱式解碼器以及基于擴(kuò)散或流匹配的核心與適合每項(xiàng)任務(wù)的調(diào)度器或求解器相結(jié)合，并暴露空間分辨率、時(shí)間范圍（幀預(yù)算）和引導(dǎo)類參數(shù)的調(diào)節(jié)旋鈕。集成界面：支持由檢查點(diǎn)驅(qū)動(dòng)的流水線（從預(yù)訓(xùn)練資源統(tǒng)一構(gòu)建和無(wú)梯度推理）以及通過(guò)端點(diǎn)和憑據(jù)進(jìn)行身份驗(yàn)證的托管服務(wù)封裝器，使得本地和遠(yuǎn)程生成器共享相同的概念調(diào)用模式。音頻合成

音頻合成層

專注于在結(jié)構(gòu)化條件下生成連續(xù)波形。其角色是提供多模態(tài)輸出的聽(tīng)覺(jué)側(cè)，使場(chǎng)景不局限于無(wú)聲視頻或僅文本的反饋，這對(duì)于感知豐富的環(huán)境以及判斷聲音與視覺(jué)之間的對(duì)齊至關(guān)重要。

具體而言，音頻合成層履行以下角色：

資源裝配：通過(guò)單一的工廠風(fēng)格入口點(diǎn)實(shí)例化神經(jīng)音頻生成器及任何輔助模塊，并具有明確的設(shè)備和可重復(fù)性設(shè)置。

條件波形合成：通過(guò)統(tǒng)一的推理入口點(diǎn)將算子準(zhǔn)備的張量和提示詞映射到音頻輸出。

其他信號(hào)合成

除了視覺(jué)和音頻模態(tài)外，與環(huán)境的全面交互還要求世界模型生成多樣的物理信號(hào)。其中，動(dòng)作控制證明是極其關(guān)鍵的。OpenWorldLib 因此在該模塊內(nèi)重點(diǎn)強(qiáng)調(diào)了視覺(jué)-語(yǔ)言-動(dòng)作（VLA）信號(hào)生成。該合成層針對(duì)具身任務(wù)量身定制，并實(shí)現(xiàn)以下功能：

策略初始化與空間對(duì)齊：從預(yù)訓(xùn)練權(quán)重加載專門(mén)的物理策略，將多樣的動(dòng)作表示映射到與目標(biāo)模擬器或機(jī)器人硬件兼容的統(tǒng)一接口。

上下文條件動(dòng)作合成：將豐富的多模態(tài)上下文（如實(shí)時(shí)視覺(jué)流、文本目標(biāo)和本體感受歷史）轉(zhuǎn)化為落地的物理指令。

Reasoning 模塊

從圖3的隱式表示部分來(lái)看，世界模型必須超越單純的感知去理解物理世界：在任何下游生成或動(dòng)作發(fā)生之前，推斷空間關(guān)系、整合多模態(tài)上下文并生成落地的語(yǔ)義解釋。為此，OpenWorldLib 引入了一個(gè)專門(mén)的 Reasoning 模塊。具體而言，Reasoning 模塊組織為三個(gè)子類：

通用推理：能夠以統(tǒng)一方式處理文本、圖像、音頻和視頻的多模態(tài)大語(yǔ)言模型（MLLMs）。

空間推理：專門(mén)從視覺(jué)觀測(cè)中進(jìn)行 3D 空間理解和物體定位的模型。

音頻推理：解釋并對(duì)聽(tīng)覺(jué)信號(hào)進(jìn)行推理的模型。

為了促進(jìn)新的面向推理的世界模型方法的集成，定義了一個(gè)統(tǒng)一的 BaseReasoning 模板。所有特定于任務(wù)的推理類都繼承自這個(gè)基類，確保整個(gè)代碼庫(kù)的 API 一致。BaseReasoning 的定義如清單 3 所示。

Representation 模塊

除了利用內(nèi)部能力理解世界的模型外，一些方法旨在構(gòu)建人為定義的模擬器，如 3D 網(wǎng)格。這些模擬器為世界模型框架提供了一個(gè)可測(cè)試的環(huán)境。由于這些結(jié)構(gòu)化表示不同于可直接從世界收集的感知數(shù)據(jù)，本文單獨(dú)設(shè)計(jì)了 Representation 模塊以處理這些顯式表示。其主要功能包括：

3D 重建：將輸入數(shù)據(jù)轉(zhuǎn)換為顯式的 3D 輸出，如點(diǎn)云、深度圖和相機(jī)位姿。

模擬支持：創(chuàng)建一個(gè)手動(dòng)環(huán)境，世界模型可以在其中測(cè)試其推理，并驗(yàn)證其預(yù)測(cè)的動(dòng)作在坐標(biāo)系中是否正確。

服務(wù)集成：支持本地推理和基于云的 API，幫助將這些顯式表示導(dǎo)出到外部物理引擎。

為了標(biāo)準(zhǔn)化這些模型的使用方式，我們提供了一個(gè)統(tǒng)一的 BaseRepresentation 模板。所有特定于任務(wù)的表示類都繼承自這個(gè)基類，以確保一致的 API。BaseRepresentation 的定義如清單 4 所示。

Memory 模塊

長(zhǎng)期上下文記憶對(duì)于交互式世界模型維持歷史觀測(cè)、推理鏈和交互狀態(tài)至關(guān)重要。OpenWorldLib 設(shè)計(jì)了一個(gè)統(tǒng)一的 Memory 模塊來(lái)管理多模態(tài)交互歷史。它履行以下功能：

歷史存儲(chǔ)：存儲(chǔ)跨交互的文本、視覺(jué)特征、動(dòng)作軌跡和場(chǎng)景狀態(tài)。

上下文檢索：選擇相關(guān)的歷史以支持一致的推理和生成。

狀態(tài)更新：在每次流水線執(zhí)行后記錄新的交互結(jié)果。

會(huì)話管理：為不同任務(wù)和會(huì)話支持獨(dú)立的記憶。

為了統(tǒng)一內(nèi)存管理，定義了一個(gè)統(tǒng)一的 BaseMemory 模板。所有特定于任務(wù)的內(nèi)存類都繼承自此基類。BaseMemory 的定義如清單 5 所示。

Pipeline

為了將上述模塊整合進(jìn)一個(gè)內(nèi)聚且可用的系統(tǒng)，OpenWorldLib 提供了一個(gè)統(tǒng)一的 Pipeline 模塊作為頂層調(diào)度和執(zhí)行入口。Pipeline 封裝了模型初始化、數(shù)據(jù)流、模塊調(diào)用、記憶交互和結(jié)果后處理，使得通過(guò)簡(jiǎn)單一致的 API 即可實(shí)現(xiàn)端到端的世界模型推理。

Pipeline 遵循標(biāo)準(zhǔn)的前向執(zhí)行流程：它接收原始輸入，路由至 Operator 進(jìn)行校驗(yàn)預(yù)處理，向 Memory 查詢歷史上下文，協(xié)調(diào) Reasoning、Synthesis 和 Representation 進(jìn)行核心計(jì)算，最后返回結(jié)構(gòu)化輸出并更新記憶。Pipeline 的核心職責(zé)包括：

統(tǒng)一模型初始化：通過(guò)單一接口加載所有子模塊。

端到端推理：為單輪世界模型任務(wù)實(shí)現(xiàn)一鍵式前向推理。

多輪交互執(zhí)行：通過(guò)帶有自動(dòng)記憶讀寫(xiě)的 stream() 方法支持有狀態(tài)的持續(xù)交互。

模塊化編排：根據(jù)任務(wù)類型動(dòng)態(tài)調(diào)用模塊，無(wú)需修改內(nèi)部邏輯。

結(jié)果結(jié)構(gòu)化：將輸出組織為標(biāo)準(zhǔn)化格式，用于可視化、評(píng)估、日志記錄或下游控制系統(tǒng)。

為了保持框架范圍內(nèi)的一致性，所有特定于任務(wù)的管道都繼承自統(tǒng)一的 BasePipeline 模板。其定義如清單 6 所示。

討論

OpenWorldLib 旨在為世界模型提供更清晰、更標(biāo)準(zhǔn)化的定義和框架。其目標(biāo)是促進(jìn)世界模型的發(fā)展，使 AI 能夠更好地在復(fù)雜環(huán)境中協(xié)助人類。在本節(jié)中，本文討論世界模型的未來(lái)發(fā)展方向。

許多當(dāng)前的世界模型架構(gòu)聚焦于下一幀預(yù)測(cè)。這種方法符合人類處理高密度感官輸入的方式，因?yàn)槿祟惐举|(zhì)上是在物理世界中進(jìn)行“預(yù)訓(xùn)練”的，而大型模型則是在海量互聯(lián)網(wǎng)文本語(yǔ)料庫(kù)上預(yù)訓(xùn)練的。然而，基于現(xiàn)有架構(gòu)，視覺(jué)語(yǔ)言模型（VLMs）可能提供一種切實(shí)的解決方案。例如，Bagel 成功地利用 Qwen 架構(gòu)實(shí)現(xiàn)了多模態(tài)推理和多模態(tài)生成。這證明了在互聯(lián)網(wǎng)數(shù)據(jù)上預(yù)訓(xùn)練的大語(yǔ)言模型（LLMs）可以具備世界模型所需的所有能力，展現(xiàn)了它們作為基礎(chǔ)底座的潛力。因此，在完全專注于世界模型的特定結(jié)構(gòu)設(shè)計(jì)之前，我們應(yīng)首先考慮如何實(shí)現(xiàn)其所有必要的功能以實(shí)現(xiàn)與復(fù)雜世界的真實(shí)且有效的交互。此外，由于 LLMs 作為世界模型的基礎(chǔ)支柱，以數(shù)據(jù)為中心的方法論——包括多模態(tài)數(shù)據(jù)合成、領(lǐng)域特定數(shù)據(jù)增強(qiáng)、動(dòng)態(tài)訓(xùn)練和訓(xùn)練數(shù)據(jù)質(zhì)量評(píng)估——將在強(qiáng)化支撐世界模型能力的底座模型中發(fā)揮日益重要的作用。

在現(xiàn)實(shí)世界的交互中，下一幀預(yù)測(cè)相較于下一標(biāo)記（next-token）預(yù)測(cè)保留了更多信息，但其效率需要顯著提升。這種效率的改進(jìn)必須從硬件層面開(kāi)始。目前的計(jì)算機(jī)字節(jié)組織天然有利于下一標(biāo)記預(yù)測(cè)。即使當(dāng)模型嘗試下一幀預(yù)測(cè)時(shí)，數(shù)據(jù)在實(shí)際計(jì)算過(guò)程中仍被處理為標(biāo)記（tokens）。為了實(shí)現(xiàn)理想的世界模型，我們需要硬件迭代、底座模型結(jié)構(gòu)的改變（基于標(biāo)記的 Transformer 可能需要演化），以及復(fù)雜物理世界交互任務(wù)的全方位實(shí)現(xiàn)。

實(shí)驗(yàn)總結(jié)

本文在 NVIDIA A800 和 H200 GPU 上進(jìn)行了廣泛測(cè)試：

交互式視頻生成：對(duì)比了 Matrix-Game-2、Hunyuan 和 Cosmos 等模型。實(shí)驗(yàn)證明 Cosmos 在物理真實(shí)感和復(fù)雜交互操作上具有顯著優(yōu)勢(shì)。

多模態(tài)推理：評(píng)估了模型在處理圖像、視頻及音頻證據(jù)并生成可靠結(jié)論的能力。

3D 生成：測(cè)試了 VGGT 等模型在不同視角下的重建效果，指出在大尺度相機(jī)移動(dòng)時(shí)保持幾何一致性仍是挑戰(zhàn)。

VLA 評(píng)價(jià)：利用 AI2-THOR 和 LIBERO 仿真環(huán)境驗(yàn)證了具身智能體的動(dòng)作規(guī)劃能力。

總結(jié)

OpenWorldLib 為世界模型提供了一個(gè)標(biāo)準(zhǔn)化的工作流和評(píng)估流水線。通過(guò)提供統(tǒng)一的接口，它成功整合了多模態(tài)感知輸入和多樣化的交互控制。本工作希望該框架能成為研究社區(qū)的實(shí)用參考，推動(dòng)世界模型領(lǐng)域的公平比較與未來(lái)探索。

參考文獻(xiàn)

[1] OpenWorldLib: A Unified Codebase and Definition of Advanced World Models.

原文標(biāo)題 : “世界模型”到底是個(gè)啥？OpenWorldLib一錘定音：感知+交互+記憶，這才叫理解世界的AI！