訂閱
糾錯(cuò)
加入自媒體

“世界模型”到底是個(gè)啥?OpenWorldLib一錘定音:感知+交互+記憶,這才叫理解世界的AI!

作者:Bohan Zeng等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

標(biāo)準(zhǔn)化定義:針對(duì)學(xué)術(shù)界對(duì)“世界模型”定義的模糊性,本文提出了一個(gè)清晰的定義:以感知為中心,具備交互和長(zhǎng)期記憶能力,用于理解和預(yù)測(cè)復(fù)雜世界的模型或框架。

統(tǒng)一推理框架:開(kāi)發(fā)了 OpenWorldLib,將交互式視頻生成、3D 生成、多模態(tài)推理和視覺(jué)-語(yǔ)言-動(dòng)作(VLA)等多種任務(wù)集成在統(tǒng)一的工程實(shí)現(xiàn)下。

能力系統(tǒng)化分類:系統(tǒng)地梳理了世界模型應(yīng)具備的核心能力,并明確劃分了哪些任務(wù)(如純文本轉(zhuǎn)視頻)不應(yīng)被歸類為真正的世界模型研究。

解決的問(wèn)題

目前世界模型研究雖然火熱,但存在兩個(gè)核心痛點(diǎn):

定義不一:研究者對(duì)世界模型的邊界缺乏共識(shí),導(dǎo)致許多生成任務(wù)(如 Sora)被誤認(rèn)為完整的世界模擬器。

工程分散:不同類型的世界模型任務(wù)(感知、預(yù)測(cè)、動(dòng)作)往往使用完全不同的底層架構(gòu)和推理流程,難以協(xié)同工作。

提出的方案與應(yīng)用技術(shù)

本工作提出了 OpenWorldLib 框架,其核心設(shè)計(jì)包含以下五個(gè)功能模塊及一個(gè)調(diào)度中心:

Operator(算子模塊):負(fù)責(zé)多模態(tài)輸入的標(biāo)準(zhǔn)化預(yù)處理與校驗(yàn)。

Synthesis(合成模塊):涵蓋視覺(jué)(視頻/圖像)、音頻以及物理信號(hào)(如 VLA 控制指令)的生成,實(shí)現(xiàn)模型的隱式表示。

Reasoning(推理模塊):包含通用多模態(tài)推理、空間推理及音頻推理,使模型能理解復(fù)雜的物理規(guī)律。

Representation(表示模塊):支持 3D 重建和仿真環(huán)境接口,提供顯式的物理世界結(jié)構(gòu)信息。

Memory(記憶模塊):管理長(zhǎng)期交互歷史,支持上下文檢索、壓縮和狀態(tài)更新。

Pipeline:作為頂層調(diào)度 entry,協(xié)調(diào)各模塊完成單次或多輪流式交互任務(wù)。

達(dá)到的效果

OpenWorldLib 成功標(biāo)準(zhǔn)化的調(diào)用了包括 Cosmos、Hunyuan、VGGT 和  在內(nèi)的多種前沿模型,在交互式視頻生成、3D 場(chǎng)景重建、復(fù)雜空間推理和具身智能(VLA)任務(wù)中實(shí)現(xiàn)了高效的協(xié)同推理。

背景與相關(guān)工作

世界模型通常由三個(gè)核心條件概率分布定義:

其中  表示隱狀態(tài),其本質(zhì)上整合了記憶存儲(chǔ),用以管理復(fù)雜任務(wù)的長(zhǎng)程依賴; 代表  時(shí)刻的動(dòng)作,來(lái)自于已被拓寬至涵蓋多樣化操作和特定任務(wù)輸出(如生成和操縱)的動(dòng)作空間; 是感知觀測(cè)(例如視覺(jué)、音頻或本體感受);而  是通過(guò)動(dòng)作與環(huán)境交互獲得的獎(jiǎng)勵(lì)。

盡管這些公式被廣泛使用,但許多任務(wù)在形式上雖然滿足此類條件概率分布,卻并未真正服務(wù)于世界模型的核心目的。這些任務(wù)往往與世界模型研究混為一談,或被籠統(tǒng)地貼上其標(biāo)簽。因此,在本節(jié)中,本工作結(jié)合前人提出的定義以及本文倡導(dǎo)的觀點(diǎn),清晰地劃定哪些任務(wù)屬于真正的世界模型研究范疇,哪些則不然。

世界模型相關(guān)任務(wù)

交互式視頻生成。下一幀預(yù)測(cè)被世界模型研究者視為最受認(rèn)可的范式,確立了交互式視頻生成作為該領(lǐng)域研究的主要重心。早期方法主要依賴基于回歸的模型來(lái)預(yù)測(cè)后續(xù)幀。最近,該領(lǐng)域已轉(zhuǎn)向利用擴(kuò)散模型以實(shí)現(xiàn)更高質(zhì)量的交互式視頻生成,統(tǒng)一的多模態(tài)方法進(jìn)一步提升了生成的保真度和可控性。隨著擴(kuò)散模型推理速度的加快,游戲視頻生成和相機(jī)控制的視頻生成已成為一個(gè)特別引人注目的領(lǐng)域。此外,視頻預(yù)測(cè)范式已成功集成到視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型和自動(dòng)駕駛系統(tǒng)中。通過(guò)引入下一幀預(yù)測(cè)估計(jì),這些模型在預(yù)測(cè)能力上的穩(wěn)定性和魯棒性得到了顯著增強(qiáng)。然而,雖然交互式視頻生成仍是當(dāng)前世界模型研究的基石,但值得注意的是,下一幀預(yù)測(cè)并非唯一的實(shí)現(xiàn)范式。考慮到世界模型的終極目標(biāo)是促進(jìn)在復(fù)雜環(huán)境中的長(zhǎng)期交互,探索替代或互補(bǔ)的表示范式同樣至關(guān)重要。

多模態(tài)推理。世界模型的關(guān)鍵能力在于對(duì)復(fù)雜物理世界的深刻理解;因此,多模態(tài)推理是世界模型能力的關(guān)鍵體現(xiàn)。與世界模型緊密相關(guān)的多模態(tài)推理任務(wù)不僅涵蓋空間推理和全能推理,還包括時(shí)間推理、因果推理。近期,除了傳統(tǒng)的顯式推理方法,利用隱式推理分析真實(shí)世界中的復(fù)雜動(dòng)力學(xué)已成為一個(gè)顯著的研究熱點(diǎn)。通過(guò)擺脫大語(yǔ)言模型(LLMs)傳統(tǒng)的以文本為中心的預(yù)訓(xùn)練范式,隱式推理機(jī)制使模型能夠更有效地?cái)z取和處理真實(shí)世界中固有的復(fù)雜、高維且連續(xù)的信息。

視覺(jué)-語(yǔ)言-動(dòng)作。世界模型的最終目標(biāo)是使智能體能夠與物理世界交互,而具身設(shè)備是與復(fù)雜環(huán)境交互的主要代表。因此,視覺(jué)-語(yǔ)言-動(dòng)作(VLA)已成為世界模型必須支持的一項(xiàng)關(guān)鍵能力。在機(jī)器人臂操縱領(lǐng)域,近期的研究主要遵循兩條路徑:利用多模態(tài)大語(yǔ)言模型(MLLMs)直接預(yù)測(cè)動(dòng)作,或者將動(dòng)作預(yù)測(cè)與視頻生成相結(jié)合,通過(guò)未來(lái)幀預(yù)測(cè)來(lái)輔助動(dòng)作規(guī)劃。此外,這種 VLA 范式正被廣泛應(yīng)用于更復(fù)雜的具身場(chǎng)景,包括動(dòng)力學(xué)極度復(fù)雜且難以控制的移動(dòng)機(jī)器人,以及在極其廣闊的環(huán)境中運(yùn)行的自動(dòng)駕駛系統(tǒng),從而推進(jìn)了模型在真實(shí)世界中的閉環(huán)交互能力。

3D與模擬器在世界模型中的作用

除了直接依賴可觀測(cè)感知的任務(wù)外,世界模型的一個(gè)關(guān)鍵部分涉及處理虛擬環(huán)境。為了確保物理空間在長(zhǎng)期交互過(guò)程中保持一致,研究人員經(jīng)常使用模擬器讓模型以結(jié)構(gòu)化的方式學(xué)習(xí)。雖然交互式視頻生成創(chuàng)造了對(duì)未來(lái)的視覺(jué)猜測(cè),但 3D 表示提供了一個(gè)可以嚴(yán)格遵循物理規(guī)則的可驗(yàn)證環(huán)境。

在此背景下,3D 生成與重建對(duì)于維持穩(wěn)定的世界狀態(tài)至關(guān)重要。近期工作如 VGGT、InfiniteVGGT 和 OmniVGGT 使用視覺(jué)幾何導(dǎo)向的 Transformer 將圖像輸入與真實(shí)的幾何結(jié)構(gòu)聯(lián)系起來(lái)。為了處理來(lái)自真實(shí)世界的連續(xù)數(shù)據(jù),一些模型現(xiàn)在維持著持久的 3D 狀態(tài),或利用混合記憶進(jìn)行長(zhǎng)上下文重建,確保即使在智能體移動(dòng)時(shí)環(huán)境也保持不變。此外,度量 3D 重建、深度估計(jì)和廣角視圖合成中的新方法允許世界模型從任何相機(jī)角度恢復(fù)準(zhǔn)確的物理空間。通過(guò)學(xué)習(xí)置換等變(permutation-equivariant)視覺(jué)幾何,這些模型可以在不同類型的物理設(shè)置中更好地工作。

此外,模擬器充當(dāng)了世界模型的“沙盒”,幫助它們從抽象思考轉(zhuǎn)向真實(shí)的物理動(dòng)作。為了使這些模擬器能夠?qū)崟r(shí)工作,快速的場(chǎng)景生成是必要的。例如,F(xiàn)lashWorld 和 Hunyuan 系列可以在極短的時(shí)間內(nèi)創(chuàng)建高質(zhì)量的 3D 場(chǎng)景或資產(chǎn),為世界模型提供了一個(gè)即時(shí)測(cè)試其想法的場(chǎng)所。近期的調(diào)查還探索了在這些 3D 生成過(guò)程中進(jìn)行強(qiáng)化學(xué)習(xí)的潛力。通過(guò)使用這些顯式的 3D 表示和模擬工具,世界模型可以超越僅僅預(yù)測(cè)像素,真正理解真實(shí)世界的物理規(guī)律。

不被視為世界模型的方法

除了與世界模型相關(guān)的任務(wù)外,某些應(yīng)用雖未真正反映世界模型的能力,卻頻繁出現(xiàn)在類似的討論中;诒疚牡墓胶蛯(duì)世界模型的具體定義,本節(jié)明確了哪些任務(wù)不屬于這一類別。

一個(gè)突出的誤解例子是文本轉(zhuǎn)視頻生成。當(dāng) Sora 發(fā)布時(shí),許多人將其標(biāo)記為“世界模擬器”。然而,有觀點(diǎn)認(rèn)為 Sora 并不構(gòu)成一個(gè)完整的世界模擬器。雖然下一幀預(yù)測(cè)經(jīng)常與世界模型聯(lián)系在一起,但本文的定義強(qiáng)調(diào),關(guān)鍵不在于輸出格式,而在于模型是否利用多模態(tài)輸入來(lái)分析和識(shí)別環(huán)境。下一幀預(yù)測(cè)僅作為一種格式。真正重要的是模型是否準(zhǔn)確地理解復(fù)雜的物理規(guī)律并與世界交互。文本轉(zhuǎn)視頻生成缺乏這種復(fù)雜的感知輸入。盡管生成視頻展示了對(duì)物理的一定理解,但它仍處于世界模型核心任務(wù)之外。

類似地,一些任務(wù)如代碼生成或網(wǎng)頁(yè)搜索,借用了世界模型的長(zhǎng)期交互結(jié)構(gòu)用于其他領(lǐng)域。然而,這些任務(wù)通常缺乏多模態(tài)輸入,且不涉及理解物理世界。雖然將這種結(jié)構(gòu)應(yīng)用于新領(lǐng)域帶來(lái)了有趣的機(jī)遇,但這些任務(wù)并不符合真正的世界模型標(biāo)準(zhǔn)。

即便是一些實(shí)際上涉及多模態(tài)和長(zhǎng)期交互的應(yīng)用,如化身(avatar)視頻生成,也不一定符合定義。這些任務(wù)主要聚焦于娛樂(lè),由于它們與探索或理解復(fù)雜的物理世界關(guān)系不大,因此不代表世界模型的主要關(guān)注點(diǎn)。

OpenWorldLib 框架設(shè)計(jì)

基于前面,世界模型需要具備以下能力:接收來(lái)自復(fù)雜物理世界的輸入、理解物理世界、在交互過(guò)程中維持長(zhǎng)期記憶,并支持多模態(tài)輸出。盡管已有研究提出過(guò)統(tǒng)一世界模型框架的設(shè)計(jì),但其缺乏具體的工程實(shí)現(xiàn)乃至統(tǒng)一的標(biāo)準(zhǔn)。本節(jié)詳細(xì)介紹了 OpenWorldLib 框架的具體設(shè)計(jì),如圖 2 所示。

Operator(算子模塊)

在 OpenWorldLib 框架中,Operator 模塊充當(dāng)了原始用戶輸入(或環(huán)境信號(hào))與核心執(zhí)行模塊(合成、推理和表示)之間的關(guān)鍵橋梁。由于世界模型必須處理來(lái)自物理世界的復(fù)雜、多模態(tài)輸入——如文本提示詞、圖像、連續(xù)控制動(dòng)作和音頻信號(hào)——Operator 旨在對(duì)這些多樣的輸入流進(jìn)行標(biāo)準(zhǔn)化。

具體而言,當(dāng) Pipeline 被調(diào)用時(shí),它會(huì)將原始輸入通過(guò) Operator 的 process() 方法進(jìn)行路由。Operator 負(fù)責(zé)兩項(xiàng)主要功能:

校驗(yàn):確保輸入數(shù)據(jù)的格式、形狀和類型滿足下游模型的要求。

預(yù)處理:將原始信號(hào)轉(zhuǎn)換為標(biāo)準(zhǔn)化的張量表示或結(jié)構(gòu)化格式(例如,調(diào)整圖像大小、對(duì)文本進(jìn)行標(biāo)記化或?qū)?dòng)作空間進(jìn)行歸一化)。

為了方便集成新的世界模型方法,本文定義了一個(gè)統(tǒng)一的 Operator 模板。所有特定任務(wù)的算子都繼承自此基類,確保整個(gè)代碼庫(kù)擁有統(tǒng)一的 API。Operator 的定義見(jiàn)清單1。

Synthesis 模塊

如圖3中的隱式表示部分所示,世界模型的一項(xiàng)核心能力是利用內(nèi)部學(xué)習(xí)到的動(dòng)力學(xué),通過(guò)環(huán)境反饋生成視覺(jué)、聽(tīng)覺(jué)和其他感官結(jié)果。本文將這種隱式生成過(guò)程定義為模型的隱式表示。在 OpenWorldLib 框架中,Synthesis 模塊充當(dāng)了上游流水線的標(biāo)準(zhǔn)化條件與用戶、模擬器或機(jī)器人棧實(shí)際消費(fèi)的多模態(tài)輸出(視覺(jué)、聽(tīng)覺(jué)和具身動(dòng)作)之間的生成橋梁。由于世界模型必須不僅將預(yù)測(cè)實(shí)現(xiàn)為內(nèi)部狀態(tài),還要實(shí)現(xiàn)為可觀測(cè)的媒體和可執(zhí)行的指令,因此 Synthesis 模塊托管了異構(gòu)的生成后端,同時(shí)保持了跨模態(tài)的一致集成模式。

具體而言,當(dāng) Pipeline 運(yùn)行生成路徑時(shí),它會(huì)將算子對(duì)齊的輸入傳遞給相應(yīng)的合成后端,后者在特定模態(tài)的控制下進(jìn)行推理,并返回結(jié)構(gòu)化的偽影以及用于導(dǎo)出、評(píng)估或記憶的簡(jiǎn)明元數(shù)據(jù)。以下子節(jié)將展開(kāi)介紹該模塊的視覺(jué)、音頻及其他物理信號(hào)合成分支。

視覺(jué)合成

視覺(jué)合成層涵蓋了 OpenWorldLib 中面向圖像和視頻的生成:它將結(jié)構(gòu)化的條件(如文本提示詞、參考圖像或場(chǎng)景級(jí)規(guī)格)轉(zhuǎn)化為光柵輸出(幀張量、解碼后的剪輯或 API 返回的資產(chǎn)),并附帶元數(shù)據(jù)。通過(guò)這種方式,框架可以提供場(chǎng)景隨時(shí)間演變的直觀預(yù)測(cè),這對(duì)于交互式模擬、定性檢查以及一眼對(duì)比備選未來(lái)或相機(jī)路徑至關(guān)重要。

在實(shí)踐中,視覺(jué)合成層圍繞以下職責(zé)進(jìn)行組織:

生成棧組合:將文本編碼器、隱式解碼器以及基于擴(kuò)散或流匹配的核心與適合每項(xiàng)任務(wù)的調(diào)度器或求解器相結(jié)合,并暴露空間分辨率、時(shí)間范圍(幀預(yù)算)和引導(dǎo)類參數(shù)的調(diào)節(jié)旋鈕。集成界面:支持由檢查點(diǎn)驅(qū)動(dòng)的流水線(從預(yù)訓(xùn)練資源統(tǒng)一構(gòu)建和無(wú)梯度推理)以及通過(guò)端點(diǎn)和憑據(jù)進(jìn)行身份驗(yàn)證的托管服務(wù)封裝器,使得本地和遠(yuǎn)程生成器共享相同的概念調(diào)用模式。音頻合成

音頻合成層

專注于在結(jié)構(gòu)化條件下生成連續(xù)波形。其角色是提供多模態(tài)輸出的聽(tīng)覺(jué)側(cè),使場(chǎng)景不局限于無(wú)聲視頻或僅文本的反饋,這對(duì)于感知豐富的環(huán)境以及判斷聲音與視覺(jué)之間的對(duì)齊至關(guān)重要。

具體而言,音頻合成層履行以下角色:

資源裝配:通過(guò)單一的工廠風(fēng)格入口點(diǎn)實(shí)例化神經(jīng)音頻生成器及任何輔助模塊,并具有明確的設(shè)備和可重復(fù)性設(shè)置。

條件波形合成:通過(guò)統(tǒng)一的推理入口點(diǎn)將算子準(zhǔn)備的張量和提示詞映射到音頻輸出。

其他信號(hào)合成

除了視覺(jué)和音頻模態(tài)外,與環(huán)境的全面交互還要求世界模型生成多樣的物理信號(hào)。其中,動(dòng)作控制證明是極其關(guān)鍵的。OpenWorldLib 因此在該模塊內(nèi)重點(diǎn)強(qiáng)調(diào)了視覺(jué)-語(yǔ)言-動(dòng)作(VLA)信號(hào)生成。該合成層針對(duì)具身任務(wù)量身定制,并實(shí)現(xiàn)以下功能:

策略初始化與空間對(duì)齊:從預(yù)訓(xùn)練權(quán)重加載專門(mén)的物理策略,將多樣的動(dòng)作表示映射到與目標(biāo)模擬器或機(jī)器人硬件兼容的統(tǒng)一接口。

上下文條件動(dòng)作合成:將豐富的多模態(tài)上下文(如實(shí)時(shí)視覺(jué)流、文本目標(biāo)和本體感受歷史)轉(zhuǎn)化為落地的物理指令。

Reasoning 模塊

從圖3的隱式表示部分來(lái)看,世界模型必須超越單純的感知去理解物理世界:在任何下游生成或動(dòng)作發(fā)生之前,推斷空間關(guān)系、整合多模態(tài)上下文并生成落地的語(yǔ)義解釋。為此,OpenWorldLib 引入了一個(gè)專門(mén)的 Reasoning 模塊。具體而言,Reasoning 模塊組織為三個(gè)子類:

通用推理:能夠以統(tǒng)一方式處理文本、圖像、音頻和視頻的多模態(tài)大語(yǔ)言模型(MLLMs)。

空間推理:專門(mén)從視覺(jué)觀測(cè)中進(jìn)行 3D 空間理解和物體定位的模型。

音頻推理:解釋并對(duì)聽(tīng)覺(jué)信號(hào)進(jìn)行推理的模型。

為了促進(jìn)新的面向推理的世界模型方法的集成,定義了一個(gè)統(tǒng)一的 BaseReasoning 模板。所有特定于任務(wù)的推理類都繼承自這個(gè)基類,確保整個(gè)代碼庫(kù)的 API 一致。BaseReasoning 的定義如清單 3 所示。

Representation 模塊

除了利用內(nèi)部能力理解世界的模型外,一些方法旨在構(gòu)建人為定義的模擬器,如 3D 網(wǎng)格。這些模擬器為世界模型框架提供了一個(gè)可測(cè)試的環(huán)境。由于這些結(jié)構(gòu)化表示不同于可直接從世界收集的感知數(shù)據(jù),本文單獨(dú)設(shè)計(jì)了 Representation 模塊以處理這些顯式表示。其主要功能包括:

3D 重建:將輸入數(shù)據(jù)轉(zhuǎn)換為顯式的 3D 輸出,如點(diǎn)云、深度圖和相機(jī)位姿。

模擬支持:創(chuàng)建一個(gè)手動(dòng)環(huán)境,世界模型可以在其中測(cè)試其推理,并驗(yàn)證其預(yù)測(cè)的動(dòng)作在坐標(biāo)系中是否正確。

服務(wù)集成:支持本地推理和基于云的 API,幫助將這些顯式表示導(dǎo)出到外部物理引擎。

為了標(biāo)準(zhǔn)化這些模型的使用方式,我們提供了一個(gè)統(tǒng)一的 BaseRepresentation 模板。所有特定于任務(wù)的表示類都繼承自這個(gè)基類,以確保一致的 API。BaseRepresentation 的定義如清單 4 所示。

Memory 模塊

長(zhǎng)期上下文記憶對(duì)于交互式世界模型維持歷史觀測(cè)、推理鏈和交互狀態(tài)至關(guān)重要。OpenWorldLib 設(shè)計(jì)了一個(gè)統(tǒng)一的 Memory 模塊來(lái)管理多模態(tài)交互歷史。它履行以下功能:

歷史存儲(chǔ):存儲(chǔ)跨交互的文本、視覺(jué)特征、動(dòng)作軌跡和場(chǎng)景狀態(tài)。

上下文檢索:選擇相關(guān)的歷史以支持一致的推理和生成。

狀態(tài)更新:在每次流水線執(zhí)行后記錄新的交互結(jié)果。

會(huì)話管理:為不同任務(wù)和會(huì)話支持獨(dú)立的記憶。

為了統(tǒng)一內(nèi)存管理,定義了一個(gè)統(tǒng)一的 BaseMemory 模板。所有特定于任務(wù)的內(nèi)存類都繼承自此基類。BaseMemory 的定義如清單 5 所示。

Pipeline

為了將上述模塊整合進(jìn)一個(gè)內(nèi)聚且可用的系統(tǒng),OpenWorldLib 提供了一個(gè)統(tǒng)一的 Pipeline 模塊作為頂層調(diào)度和執(zhí)行入口。Pipeline 封裝了模型初始化、數(shù)據(jù)流、模塊調(diào)用、記憶交互和結(jié)果后處理,使得通過(guò)簡(jiǎn)單一致的 API 即可實(shí)現(xiàn)端到端的世界模型推理。

Pipeline 遵循標(biāo)準(zhǔn)的前向執(zhí)行流程:它接收原始輸入,路由至 Operator 進(jìn)行校驗(yàn)預(yù)處理,向 Memory 查詢歷史上下文,協(xié)調(diào) Reasoning、Synthesis 和 Representation 進(jìn)行核心計(jì)算,最后返回結(jié)構(gòu)化輸出并更新記憶。Pipeline 的核心職責(zé)包括:

統(tǒng)一模型初始化:通過(guò)單一接口加載所有子模塊。

端到端推理:為單輪世界模型任務(wù)實(shí)現(xiàn)一鍵式前向推理。

多輪交互執(zhí)行:通過(guò)帶有自動(dòng)記憶讀寫(xiě)的 stream() 方法支持有狀態(tài)的持續(xù)交互。

模塊化編排:根據(jù)任務(wù)類型動(dòng)態(tài)調(diào)用模塊,無(wú)需修改內(nèi)部邏輯。

結(jié)果結(jié)構(gòu)化:將輸出組織為標(biāo)準(zhǔn)化格式,用于可視化、評(píng)估、日志記錄或下游控制系統(tǒng)。

為了保持框架范圍內(nèi)的一致性,所有特定于任務(wù)的管道都繼承自統(tǒng)一的 BasePipeline 模板。其定義如清單 6 所示。

討論

OpenWorldLib 旨在為世界模型提供更清晰、更標(biāo)準(zhǔn)化的定義和框架。其目標(biāo)是促進(jìn)世界模型的發(fā)展,使 AI 能夠更好地在復(fù)雜環(huán)境中協(xié)助人類。在本節(jié)中,本文討論世界模型的未來(lái)發(fā)展方向。

許多當(dāng)前的世界模型架構(gòu)聚焦于下一幀預(yù)測(cè)。這種方法符合人類處理高密度感官輸入的方式,因?yàn)槿祟惐举|(zhì)上是在物理世界中進(jìn)行“預(yù)訓(xùn)練”的,而大型模型則是在海量互聯(lián)網(wǎng)文本語(yǔ)料庫(kù)上預(yù)訓(xùn)練的。然而,基于現(xiàn)有架構(gòu),視覺(jué)語(yǔ)言模型(VLMs)可能提供一種切實(shí)的解決方案。例如,Bagel 成功地利用 Qwen 架構(gòu)實(shí)現(xiàn)了多模態(tài)推理和多模態(tài)生成。這證明了在互聯(lián)網(wǎng)數(shù)據(jù)上預(yù)訓(xùn)練的大語(yǔ)言模型(LLMs)可以具備世界模型所需的所有能力,展現(xiàn)了它們作為基礎(chǔ)底座的潛力。因此,在完全專注于世界模型的特定結(jié)構(gòu)設(shè)計(jì)之前,我們應(yīng)首先考慮如何實(shí)現(xiàn)其所有必要的功能以實(shí)現(xiàn)與復(fù)雜世界的真實(shí)且有效的交互。此外,由于 LLMs 作為世界模型的基礎(chǔ)支柱,以數(shù)據(jù)為中心的方法論——包括多模態(tài)數(shù)據(jù)合成、領(lǐng)域特定數(shù)據(jù)增強(qiáng)、動(dòng)態(tài)訓(xùn)練和訓(xùn)練數(shù)據(jù)質(zhì)量評(píng)估——將在強(qiáng)化支撐世界模型能力的底座模型中發(fā)揮日益重要的作用。

在現(xiàn)實(shí)世界的交互中,下一幀預(yù)測(cè)相較于下一標(biāo)記(next-token)預(yù)測(cè)保留了更多信息,但其效率需要顯著提升。這種效率的改進(jìn)必須從硬件層面開(kāi)始。目前的計(jì)算機(jī)字節(jié)組織天然有利于下一標(biāo)記預(yù)測(cè)。即使當(dāng)模型嘗試下一幀預(yù)測(cè)時(shí),數(shù)據(jù)在實(shí)際計(jì)算過(guò)程中仍被處理為標(biāo)記(tokens)。為了實(shí)現(xiàn)理想的世界模型,我們需要硬件迭代、底座模型結(jié)構(gòu)的改變(基于標(biāo)記的 Transformer 可能需要演化),以及復(fù)雜物理世界交互任務(wù)的全方位實(shí)現(xiàn)。

實(shí)驗(yàn)總結(jié)

本文在 NVIDIA A800 和 H200 GPU 上進(jìn)行了廣泛測(cè)試:

交互式視頻生成:對(duì)比了 Matrix-Game-2、Hunyuan 和 Cosmos 等模型。實(shí)驗(yàn)證明 Cosmos 在物理真實(shí)感和復(fù)雜交互操作上具有顯著優(yōu)勢(shì)。

多模態(tài)推理:評(píng)估了模型在處理圖像、視頻及音頻證據(jù)并生成可靠結(jié)論的能力。

3D 生成:測(cè)試了 VGGT 等模型在不同視角下的重建效果,指出在大尺度相機(jī)移動(dòng)時(shí)保持幾何一致性仍是挑戰(zhàn)。

VLA 評(píng)價(jià):利用 AI2-THOR 和 LIBERO 仿真環(huán)境驗(yàn)證了具身智能體的動(dòng)作規(guī)劃能力。

總結(jié)

OpenWorldLib 為世界模型提供了一個(gè)標(biāo)準(zhǔn)化的工作流和評(píng)估流水線。通過(guò)提供統(tǒng)一的接口,它成功整合了多模態(tài)感知輸入和多樣化的交互控制。本工作希望該框架能成為研究社區(qū)的實(shí)用參考,推動(dòng)世界模型領(lǐng)域的公平比較與未來(lái)探索。

參考文獻(xiàn)

[1] OpenWorldLib: A Unified Codebase and Definition of Advanced World Models.

       原文標(biāo)題 : “世界模型”到底是個(gè)啥?OpenWorldLib一錘定音:感知+交互+記憶,這才叫理解世界的AI!

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)