123,123

HY-World 2.0與HappyOyster ：一個臨界點，兩種「世界」觀

2026-04-22 18:45

2026年4月16日，騰訊和阿里在同一天各自發(fā)布了一款「世界模型」產(chǎn)品。前者是開源的混元3D世界模型2.0（HY-World 2.0），后者是主打實時交互的HappyOyster。這種巧合在科技行業(yè)并不罕見，競爭對手盯著彼此的發(fā)布節(jié)奏，誰也不想慢半拍。

過去兩年，圍繞「世界模型」的討論在學術界和產(chǎn)業(yè)界一直持續(xù)升溫，但大多停留在預言和爭論層面。真正把這個話題推向公眾視野的，是Meta前首席AI科學家楊立昆（Yann LeCun）在2025年底MIT研討會上的一番話。他說，“三到五年內，世界模型將取代LLM成為主流AI架構，沒有理智正常的人還會用我們今天這種大語言模型”。

這話在硅谷得罪了不少人，也讓「世界模型」這個詞真正進入了主流討論。

楊立昆的預言是否會成真，業(yè)界看法分歧極大。但有一件事正在發(fā)生：資本、人才和頂級實驗室的注意力，都在向這個方向集中。李飛飛的World Labs已完成新一輪10億美元融資，英偉達的Cosmos平臺下載量突破500萬次，楊立昆本人離開Meta創(chuàng)立AMI Labs，完成10.3億美元種子輪融資。

在國內，騰訊、阿里、生數(shù)科技、群核科技各自押注不同路線，中國玩家在這場競爭中的參與深度遠超大多數(shù)外界觀察者的預期。

在此背景之下，本文試圖回答三個問題：世界模型和大語言模型的本質邊界在哪里？全球的技術格局是如何分化的？以及中國玩家在這條賽道上的真實處境是什么？三個問題互相咬合，分開看都不完整。

大語言模型的盲區(qū)，以及世界模型從哪里開始

LLM的核心機制是在語言空間里找規(guī)律，給定前面的詞，然后預測下一個詞出現(xiàn)的概率。

這個機制在大規(guī)模數(shù)據(jù)上訓練之后，涌現(xiàn)出了令人驚訝的能力：寫作、推理、編程、翻譯。但這種能力的底層，始終是統(tǒng)計意義上的語言規(guī)律，而不是對物理世界的真實理解。LLM知道「玻璃杯掉到地上會碎」，是因為這個句子在訓練數(shù)據(jù)里出現(xiàn)過無數(shù)次，并不是因為它理解了彈性模量、應力傳導和沖擊能量。對它來說，「重力」是一個頻繁與特定語境共現(xiàn)的詞語，卻不是一個可以在新場景里推廣應用的物理規(guī)律。

這個區(qū)別在聊天、摘要、代碼生成這類任務里無關緊要，LLM已經(jīng)足夠好用。但當AI需要和物理世界發(fā)生真實的交互，局限就變得清晰起來。

讓機器人規(guī)劃一條從桌邊繞過障礙物取到杯子的路徑，需要理解三維空間、物體的形狀和質量、動作的力度和方向；讓自動駕駛系統(tǒng)預測前方車輛在下一秒的位置，需要理解速度、加速度和駕駛意圖；讓一個AI角色在游戲世界里做出合理的行為，需要理解場景的因果結構，而不只是像素的視覺一致性。這些任務，語言建模的框架從根本上就不適合處理。

世界模型的出發(fā)點，正是填補這個空缺。簡單說，世界模型預測的不是下一個詞，而是下一個狀態(tài)。物體在空間中的位置會怎么變化，一個動作會引發(fā)什么樣的連鎖反應，光線在不同材質表面的反射在視角移動后如何演變。它試圖構建的是一個對物理現(xiàn)實的內部表征，讓AI能夠在這個表征上進行規(guī)劃、預測和推斷，而不只是在語言空間里進行模式匹配。

打一個不那么精確但有助于理解的比方，LLM像一位讀遍了旅游導覽的圖書管理員，他能告訴你北京任何一條街道胡同的名字和歷史，但如果你把他放在那條街上，他未必知道往哪個方向走才能找到最近的地鐵站。而世界模型則試圖訓練出一個真正在城市里行走過、對空間有具身感知的向導。

這無關知識量的大小，而是知識性質的區(qū)別。

然而，「世界模型」在當下又不是一個邊界清晰的技術概念。不同團隊在做的事情，差異遠比名字所暗示的要大。有些團隊做的是基于視頻的交互式生成系統(tǒng)，核心是讓模型學會「如果用戶這樣操作，畫面接下來會怎么變」；有些團隊做的是從圖像或描述直接生成可編輯的三維幾何資產(chǎn)，重點在于輸出物的工程可用性；還有些團隊做的是為機器人和自動駕駛提供物理仿真訓練環(huán)境，重點在于數(shù)據(jù)的物理正確性。

這三條路線的交集有限，背后的商業(yè)邏輯也截然不同。理解這一點，是看懂當前格局的前提。

三條路線的技術分野與戰(zhàn)略選擇

從技術路線來看，全球世界模型競爭目前大致沿三個方向展開，每條方向都有其內在邏輯，也有其固有的局限。

第一條路線可以叫做「視頻基世界模型」。這條路線的核心假設是視頻是物理世界最豐富的記錄，只要讓模型足夠深入地學習視頻數(shù)據(jù)，它就能學會世界的運行規(guī)律。Google的Genie系列是這條路線的學術代表，Genie 3于2025年8月向部分研究人員開放實驗性預覽版本，用戶輸入文字描述，模型實時生成可交互的三維場景。

李飛飛的World Labs推出的Marble，能夠從文本或圖片生成風格多樣的可漫游虛擬世界。阿里巴巴ATH事業(yè)部的HappyOyster走的也是這條路，其差異化在于原生多模態(tài)架構與流式生成能力的結合。模型在生成過程中持續(xù)接收用戶指令并實時響應，用戶可以在已生成的場景里調整鏡頭、改寫劇情、調度角色，而不是等待一段完整的視頻渲染完成再看結果。

目前HappyOyster支持連續(xù)三分鐘以上的實時導演級交互，在體驗層面是國內這條路線目前最成熟的產(chǎn)品。但這條路線有一個內置的局限，那就是基于視頻學習的世界模型，生成的是像素意義上的一致性，而不一定是物理意義上的真實性。畫面看起來連貫，不代表背后有真實的三維結構；光影看起來合理，也不代表模型真正理解了光的傳播規(guī)律。

HappyOyster也在技術文檔里承認，漫游模式和導演模式目前尚未完全打通，長時序場景中的一致性仍有待提升。這也是整條路線當前階段共同面臨的工程挑戰(zhàn)。

第二條路線是「3D資產(chǎn)化世界模型」，騰訊混元3D世界模型HY-World 2.0是這條路線目前最有代表性的產(chǎn)品。這條路線的關鍵轉變是直接生成可編輯的三維幾何資產(chǎn)，例如Mesh、3DGS、點云，這些文件格式可以無縫導入Unity和Unreal Engine等主流游戲引擎，進行二次編輯和物理交互。

而騰訊押注這條路線，也有非常清晰的戰(zhàn)略邏輯。騰訊擁有海量的3D游戲數(shù)據(jù)和成熟的引擎工程積累，游戲3D內容的生產(chǎn)效率是最直接的商業(yè)驗證場景。傳統(tǒng)上，一張開放世界地圖的建模周期以月為單位，需要數(shù)十名美術人員參與；HY-World 2.0，生成一個可交互的3D游戲原型場景大約需要12分鐘。這個數(shù)字即便打個折扣，對游戲行業(yè)的影響也是巨大的。

不過，這條路線同樣有其局限。3D資產(chǎn)生成解決的是內容生產(chǎn)效率問題，但它本質上仍然是一個生成模型，而不是一個真正理解物理規(guī)律的仿真系統(tǒng)。它能生成視覺上合理的3D場景，卻不一定能保證物理意義上的正確性，比如碰撞檢測、材質屬性、動力學行為，這些在游戲引擎里還需要工程師介入校正。這個差距在游戲原型階段尚可接受，但如果要遷移到機器人訓練或數(shù)字孿生這類對物理精度要求極高的場景，距離就會被放大。

因此，第三條路線則更接近基礎設施層，可以叫做「空間數(shù)據(jù)與仿真平臺」。這條路線不做終端產(chǎn)品，它主要提供高質量的三維訓練數(shù)據(jù)、物理正確的仿真環(huán)境、連接虛擬和真實世界的工具鏈。

國內這條線路最值得關注的案例是群核科技。這家家裝設計軟件公司，入局邏輯與騰訊、阿里完全不同，它是從十余年家裝設計軟件的數(shù)據(jù)積累里，發(fā)現(xiàn)了一條通向空間智能的路徑。

酷家樂平臺上積累的4.8億個三維模型和5億個結構化空間場景，是物理正確的真實世界設計數(shù)據(jù)。群核科技在2025年英偉達GTC大會上開源的空間語言模型SpatialLM，僅憑一段手機拍攝的視頻就能生成帶有物理約束的三維場景布局，開源后登上HuggingFace趨勢榜第二。其空間智能平臺SpatialVerse已與智元機器人、銀河通用、穹徹智能等具身智能公司建立合作，為機器人提供虛擬訓練環(huán)境。

2026年4月17日，群核科技以「全球空間智能第一股」身份登陸港交所，上市首日股價高開171%。

從上文三條路線的橫向對比來看，中美的競爭格局呈現(xiàn)明顯結構性的差異。美國的格局是：大平臺公司（英偉達、Google）做通用基礎設施和前沿研究，學術創(chuàng)業(yè)公司（World Labs、AMI Labs）做技術探索，中間的商業(yè)化產(chǎn)品層尚未出現(xiàn)成熟玩家——Meta和OpenAI在世界模型領域的實質性投入相對謹慎，前者尚在理論層表態(tài)，后者的重心仍在大語言模型的商業(yè)化上。

中國的格局是頭部大廠更傾向于從自身最強的垂直場景切入，同時有一批垂直數(shù)據(jù)公司在上游資產(chǎn)層卡位。兩種格局的競爭邏輯不同，美國更強調技術原理的通用性，中國更強調場景落地的速度和數(shù)據(jù)資產(chǎn)的稀缺性。這種差異，在下一階段的競爭中會以什么形式顯現(xiàn)，目前還不明朗。

“造勢”已經(jīng)開始，但“造血”還不清晰

如果把視線從宏觀層面的路徑比較下沉到產(chǎn)業(yè)微觀運行時，會發(fā)現(xiàn)上述的差異正在中國本土衍生出一系列具體的、短期內難以回避的摩擦。中國玩家憑借場景與數(shù)據(jù)優(yōu)勢迅速入場，但也正因為入局太快，一些基礎性的共識與規(guī)則尚未建立，導致賽道在熱鬧的表象之下暗藏著獨特的系統(tǒng)性風險。

這些問題業(yè)界鮮少正面討論，但它們真實存在，并將影響這條賽道未來兩三年的走向。

第一個問題是定義的模糊性正在制造虛假的繁榮感。目前國內大量「世界模型」產(chǎn)品的發(fā)布，使用的是同一個詞，指的卻是差異極大的東西。有的本質是視頻生成模型做了一層交互包裝，有的是3D重建工具加了實時渲染能力，有的在做真正意義上的物理仿真。

這種定義的混亂在資本層面會造成誤判，用戶層面會積累失望，在行業(yè)層面則會模糊技術進展和市場炒作之間的邊界。如果要給「真正的世界模型」一個有操作意義的判斷標準，《新立場》認為可以下這樣一個定義：模型能否在沒有顯式標注的情況下，從原始感知數(shù)據(jù)里自主學習因果關系，并在從未見過的新場景里作出物理上可靠的預測。

如果用這個標準衡量當前的大多數(shù)產(chǎn)品，距離還相當遠。當然這不是說這些產(chǎn)品沒有價值，而是把迭代進展等同于范式躍遷，是一種需要警惕的認知偷懶。

第二個問題是數(shù)據(jù)壁壘的含金量被高估了。中國玩家確實擁有真實的數(shù)據(jù)優(yōu)勢，比如騰訊的游戲三維數(shù)據(jù)、群核的空間設計數(shù)據(jù)、各家自動駕駛公司的路測數(shù)據(jù)，這些在體量上是真實的護城河。但世界模型對數(shù)據(jù)的要求和大語言模型存在根本性的不同。LLM可以從海量但嘈雜的文本里學到有用的規(guī)律，數(shù)據(jù)的廣度比精度更重要；世界模型需要的是物理正確、時序連貫、標注精準的三維數(shù)據(jù)，質量比數(shù)量更關鍵。

現(xiàn)有的數(shù)據(jù)資產(chǎn)里能真正用于世界模型訓練的比例，遠低于對外宣稱的規(guī)模。合成數(shù)據(jù)的爭議進一步復雜化了這個問題：由于高質量真實三維數(shù)據(jù)的采集成本極高，很多團隊轉向用模擬器生成合成數(shù)據(jù)來補充訓練集。

2024年《自然》雜志報道的研究趨勢顯示，持續(xù)使用合成數(shù)據(jù)訓練模型，會導致模型性能隨迭代輪次加速退化，這種現(xiàn)象研究者將其比作「近親繁殖」。這個問題到今天還沒有被普遍接受的解決方案，也意味著中國玩家的數(shù)據(jù)優(yōu)勢，比想象中更脆弱一些。

第三個問題是老生常談的，商業(yè)化路徑是一道尚未解開的題。大語言模型在ChatGPT出現(xiàn)之后，商業(yè)模式逐漸清晰——API計費、企業(yè)訂閱、垂直行業(yè)部署，鏈路已經(jīng)跑通。

而世界模型到今天為止，沒有一家公司拿出過可復制的商業(yè)閉環(huán)。騰訊的HY-World 2.0目前主要作為開發(fā)者工具開源，群核科技2025年96.9%的營收來自軟件訂閱服務（主要為酷家樂和Coohom產(chǎn)品），而空間智能相關業(yè)務（包括SpatialVerse等）僅占3.1%，其中核心的SpatialVerse平臺僅貢獻0.6%的營收。

游戲公司愿意為AI生成的3D場景付費，前提是生成質量能夠真正替代或大幅縮減人工成本，目前看來差距尚存；影視行業(yè)的工作流整合周期比外界估計的要長得多；具身智能公司的采購規(guī)模尚未達到商業(yè)化所需的體量。世界模型目前更像是一張有巨大想象空間但兌現(xiàn)時間尚不確定的支票。

這既是當前的困境，也是未來的機會。毫無疑問，未來第一個在某個垂直場景里驗證出可復制商業(yè)單元的玩家，將會獲得遠遠超出比例的先發(fā)優(yōu)勢。

寫在最后

大語言模型的崛起，證明了當足夠大規(guī)模地預測語言，涌現(xiàn)出來的能力會遠遠超出設計者的預期。這種「規(guī)模涌現(xiàn)」的邏輯是否能夠遷移到物理世界的建模上，正是「世界模型」最核心的賭注。

這在技術層面的挑戰(zhàn)是真實的，物理世界的復雜度遠高于語言空間。語言的基本單元是離散的詞語，物理世界的狀態(tài)是連續(xù)的、高維的，依賴于遠比語法規(guī)則復雜的因果結構。數(shù)據(jù)的采集和標注成本比文本高出幾個數(shù)量級，訓練范式需要重新設計，評估方法也遠不如NLP領域成熟。這條路比語言模型走過的路更長，更難，充滿了未知的彎路。

但驅動力同樣是真實的，機器人、自動駕駛、數(shù)字孿生、沉浸式內容等領域對「真正理解物理世界的AI」有著真實的剛需，而這種需求隨著智能硬件的普及只會越來越強。

而中國在這場競爭里的優(yōu)勢和劣勢都很具體：場景數(shù)據(jù)的積累和垂直行業(yè)的落地壓力是有力的支撐，基礎研究的深度和商業(yè)驗證的路徑是真實的短板。

騰訊和阿里在同一天發(fā)布世界模型產(chǎn)品，說明在中國最頭部的科技公司內部，對AI下一個主戰(zhàn)場的判斷已經(jīng)形成了共識。至于這種共識是否正確，要等時間來驗證。

這可能比我們想象得更近，也比我們期望得更遠。

*題圖及文中配圖來源于網(wǎng)絡。

原文標題 : HY-World 2.0與HappyOyster ：一個臨界點，兩種「世界」觀