訂閱
糾錯
加入自媒體

HY-World 2.0與HappyOyster :一個臨界點,兩種「世界」觀

2026年4月16日,騰訊和阿里在同一天各自發(fā)布了一款「世界模型」產(chǎn)品。前者是開源的混元3D世界模型2.0(HY-World 2.0),后者是主打實時交互的HappyOyster。這種巧合在科技行業(yè)并不罕見,競爭對手盯著彼此的發(fā)布節(jié)奏,誰也不想慢半拍。

過去兩年,圍繞「世界模型」的討論在學術界和產(chǎn)業(yè)界一直持續(xù)升溫,但大多停留在預言和爭論層面。真正把這個話題推向公眾視野的,是Meta前首席AI科學家楊立昆(Yann LeCun)在2025年底MIT研討會上的一番話。他說,“三到五年內,世界模型將取代LLM成為主流AI架構,沒有理智正常的人還會用我們今天這種大語言模型”。

這話在硅谷得罪了不少人,也讓「世界模型」這個詞真正進入了主流討論。

楊立昆的預言是否會成真,業(yè)界看法分歧極大。但有一件事正在發(fā)生:資本、人才和頂級實驗室的注意力,都在向這個方向集中。李飛飛的World Labs已完成新一輪10億美元融資,英偉達的Cosmos平臺下載量突破500萬次,楊立昆本人離開Meta創(chuàng)立AMI Labs,完成10.3億美元種子輪融資。

在國內,騰訊、阿里、生數(shù)科技、群核科技各自押注不同路線,中國玩家在這場競爭中的參與深度遠超大多數(shù)外界觀察者的預期。

在此背景之下,本文試圖回答三個問題:世界模型和大語言模型的本質邊界在哪里?全球的技術格局是如何分化的?以及中國玩家在這條賽道上的真實處境是什么?三個問題互相咬合,分開看都不完整。

大語言模型的盲區(qū),以及世界模型從哪里開始

LLM的核心機制是在語言空間里找規(guī)律,給定前面的詞,然后預測下一個詞出現(xiàn)的概率。

這個機制在大規(guī)模數(shù)據(jù)上訓練之后,涌現(xiàn)出了令人驚訝的能力:寫作、推理、編程、翻譯。但這種能力的底層,始終是統(tǒng)計意義上的語言規(guī)律,而不是對物理世界的真實理解。LLM知道「玻璃杯掉到地上會碎」,是因為這個句子在訓練數(shù)據(jù)里出現(xiàn)過無數(shù)次,并不是因為它理解了彈性模量、應力傳導和沖擊能量。對它來說,「重力」是一個頻繁與特定語境共現(xiàn)的詞語,卻不是一個可以在新場景里推廣應用的物理規(guī)律。

這個區(qū)別在聊天、摘要、代碼生成這類任務里無關緊要,LLM已經(jīng)足夠好用。但當AI需要和物理世界發(fā)生真實的交互,局限就變得清晰起來。

讓機器人規(guī)劃一條從桌邊繞過障礙物取到杯子的路徑,需要理解三維空間、物體的形狀和質量、動作的力度和方向;讓自動駕駛系統(tǒng)預測前方車輛在下一秒的位置,需要理解速度、加速度和駕駛意圖;讓一個AI角色在游戲世界里做出合理的行為,需要理解場景的因果結構,而不只是像素的視覺一致性。這些任務,語言建模的框架從根本上就不適合處理。

世界模型的出發(fā)點,正是填補這個空缺。簡單說,世界模型預測的不是下一個詞,而是下一個狀態(tài)。物體在空間中的位置會怎么變化,一個動作會引發(fā)什么樣的連鎖反應,光線在不同材質表面的反射在視角移動后如何演變。它試圖構建的是一個對物理現(xiàn)實的內部表征,讓AI能夠在這個表征上進行規(guī)劃、預測和推斷,而不只是在語言空間里進行模式匹配。

打一個不那么精確但有助于理解的比方,LLM像一位讀遍了旅游導覽的圖書管理員,他能告訴你北京任何一條街道胡同的名字和歷史,但如果你把他放在那條街上,他未必知道往哪個方向走才能找到最近的地鐵站。而世界模型則試圖訓練出一個真正在城市里行走過、對空間有具身感知的向導。

這無關知識量的大小,而是知識性質的區(qū)別。

然而,「世界模型」在當下又不是一個邊界清晰的技術概念。不同團隊在做的事情,差異遠比名字所暗示的要大。有些團隊做的是基于視頻的交互式生成系統(tǒng),核心是讓模型學會「如果用戶這樣操作,畫面接下來會怎么變」;有些團隊做的是從圖像或描述直接生成可編輯的三維幾何資產(chǎn),重點在于輸出物的工程可用性;還有些團隊做的是為機器人和自動駕駛提供物理仿真訓練環(huán)境,重點在于數(shù)據(jù)的物理正確性。

這三條路線的交集有限,背后的商業(yè)邏輯也截然不同。理解這一點,是看懂當前格局的前提。

三條路線的技術分野與戰(zhàn)略選擇

從技術路線來看,全球世界模型競爭目前大致沿三個方向展開,每條方向都有其內在邏輯,也有其固有的局限。

第一條路線可以叫做「視頻基世界模型」。這條路線的核心假設是視頻是物理世界最豐富的記錄,只要讓模型足夠深入地學習視頻數(shù)據(jù),它就能學會世界的運行規(guī)律。Google的Genie系列是這條路線的學術代表,Genie 3于2025年8月向部分研究人員開放實驗性預覽版本,用戶輸入文字描述,模型實時生成可交互的三維場景。

李飛飛的World Labs推出的Marble,能夠從文本或圖片生成風格多樣的可漫游虛擬世界。阿里巴巴ATH事業(yè)部的HappyOyster走的也是這條路,其差異化在于原生多模態(tài)架構與流式生成能力的結合。模型在生成過程中持續(xù)接收用戶指令并實時響應,用戶可以在已生成的場景里調整鏡頭、改寫劇情、調度角色,而不是等待一段完整的視頻渲染完成再看結果。

目前HappyOyster支持連續(xù)三分鐘以上的實時導演級交互,在體驗層面是國內這條路線目前最成熟的產(chǎn)品。但這條路線有一個內置的局限,那就是基于視頻學習的世界模型,生成的是像素意義上的一致性,而不一定是物理意義上的真實性。畫面看起來連貫,不代表背后有真實的三維結構;光影看起來合理,也不代表模型真正理解了光的傳播規(guī)律。

HappyOyster也在技術文檔里承認,漫游模式和導演模式目前尚未完全打通,長時序場景中的一致性仍有待提升。這也是整條路線當前階段共同面臨的工程挑戰(zhàn)。

第二條路線是「3D資產(chǎn)化世界模型」,騰訊混元3D世界模型HY-World 2.0是這條路線目前最有代表性的產(chǎn)品。這條路線的關鍵轉變是直接生成可編輯的三維幾何資產(chǎn),例如Mesh、3DGS、點云,這些文件格式可以無縫導入Unity和Unreal Engine等主流游戲引擎,進行二次編輯和物理交互。

而騰訊押注這條路線,也有非常清晰的戰(zhàn)略邏輯。騰訊擁有海量的3D游戲數(shù)據(jù)和成熟的引擎工程積累,游戲3D內容的生產(chǎn)效率是最直接的商業(yè)驗證場景。傳統(tǒng)上,一張開放世界地圖的建模周期以月為單位,需要數(shù)十名美術人員參與;HY-World 2.0,生成一個可交互的3D游戲原型場景大約需要12分鐘。這個數(shù)字即便打個折扣,對游戲行業(yè)的影響也是巨大的。

不過,這條路線同樣有其局限。3D資產(chǎn)生成解決的是內容生產(chǎn)效率問題,但它本質上仍然是一個生成模型,而不是一個真正理解物理規(guī)律的仿真系統(tǒng)。它能生成視覺上合理的3D場景,卻不一定能保證物理意義上的正確性,比如碰撞檢測、材質屬性、動力學行為,這些在游戲引擎里還需要工程師介入校正。這個差距在游戲原型階段尚可接受,但如果要遷移到機器人訓練或數(shù)字孿生這類對物理精度要求極高的場景,距離就會被放大。

因此,第三條路線則更接近基礎設施層,可以叫做「空間數(shù)據(jù)與仿真平臺」。這條路線不做終端產(chǎn)品,它主要提供高質量的三維訓練數(shù)據(jù)、物理正確的仿真環(huán)境、連接虛擬和真實世界的工具鏈。

國內這條線路最值得關注的案例是群核科技。這家家裝設計軟件公司,入局邏輯與騰訊、阿里完全不同,它是從十余年家裝設計軟件的數(shù)據(jù)積累里,發(fā)現(xiàn)了一條通向空間智能的路徑。

酷家樂平臺上積累的4.8億個三維模型和5億個結構化空間場景,是物理正確的真實世界設計數(shù)據(jù)。群核科技在2025年英偉達GTC大會上開源的空間語言模型SpatialLM,僅憑一段手機拍攝的視頻就能生成帶有物理約束的三維場景布局,開源后登上HuggingFace趨勢榜第二。其空間智能平臺SpatialVerse已與智元機器人、銀河通用、穹徹智能等具身智能公司建立合作,為機器人提供虛擬訓練環(huán)境。

2026年4月17日,群核科技以「全球空間智能第一股」身份登陸港交所,上市首日股價高開171%。

從上文三條路線的橫向對比來看,中美的競爭格局呈現(xiàn)明顯結構性的差異。美國的格局是:大平臺公司(英偉達、Google)做通用基礎設施和前沿研究,學術創(chuàng)業(yè)公司(World Labs、AMI Labs)做技術探索,中間的商業(yè)化產(chǎn)品層尚未出現(xiàn)成熟玩家——Meta和OpenAI在世界模型領域的實質性投入相對謹慎,前者尚在理論層表態(tài),后者的重心仍在大語言模型的商業(yè)化上。

中國的格局是頭部大廠更傾向于從自身最強的垂直場景切入,同時有一批垂直數(shù)據(jù)公司在上游資產(chǎn)層卡位。兩種格局的競爭邏輯不同,美國更強調技術原理的通用性,中國更強調場景落地的速度和數(shù)據(jù)資產(chǎn)的稀缺性。這種差異,在下一階段的競爭中會以什么形式顯現(xiàn),目前還不明朗。

“造勢”已經(jīng)開始,但“造血”還不清晰

如果把視線從宏觀層面的路徑比較下沉到產(chǎn)業(yè)微觀運行時,會發(fā)現(xiàn)上述的差異正在中國本土衍生出一系列具體的、短期內難以回避的摩擦。中國玩家憑借場景與數(shù)據(jù)優(yōu)勢迅速入場,但也正因為入局太快,一些基礎性的共識與規(guī)則尚未建立,導致賽道在熱鬧的表象之下暗藏著獨特的系統(tǒng)性風險。

這些問題業(yè)界鮮少正面討論,但它們真實存在,并將影響這條賽道未來兩三年的走向。

第一個問題是定義的模糊性正在制造虛假的繁榮感。目前國內大量「世界模型」產(chǎn)品的發(fā)布,使用的是同一個詞,指的卻是差異極大的東西。有的本質是視頻生成模型做了一層交互包裝,有的是3D重建工具加了實時渲染能力,有的在做真正意義上的物理仿真。

這種定義的混亂在資本層面會造成誤判,用戶層面會積累失望,在行業(yè)層面則會模糊技術進展和市場炒作之間的邊界。如果要給「真正的世界模型」一個有操作意義的判斷標準,《新立場》認為可以下這樣一個定義:模型能否在沒有顯式標注的情況下,從原始感知數(shù)據(jù)里自主學習因果關系,并在從未見過的新場景里作出物理上可靠的預測。

如果用這個標準衡量當前的大多數(shù)產(chǎn)品,距離還相當遠。當然這不是說這些產(chǎn)品沒有價值,而是把迭代進展等同于范式躍遷,是一種需要警惕的認知偷懶。

第二個問題是數(shù)據(jù)壁壘的含金量被高估了。中國玩家確實擁有真實的數(shù)據(jù)優(yōu)勢,比如騰訊的游戲三維數(shù)據(jù)、群核的空間設計數(shù)據(jù)、各家自動駕駛公司的路測數(shù)據(jù),這些在體量上是真實的護城河。但世界模型對數(shù)據(jù)的要求和大語言模型存在根本性的不同。LLM可以從海量但嘈雜的文本里學到有用的規(guī)律,數(shù)據(jù)的廣度比精度更重要;世界模型需要的是物理正確、時序連貫、標注精準的三維數(shù)據(jù),質量比數(shù)量更關鍵。

現(xiàn)有的數(shù)據(jù)資產(chǎn)里能真正用于世界模型訓練的比例,遠低于對外宣稱的規(guī)模。合成數(shù)據(jù)的爭議進一步復雜化了這個問題:由于高質量真實三維數(shù)據(jù)的采集成本極高,很多團隊轉向用模擬器生成合成數(shù)據(jù)來補充訓練集。

2024年《自然》雜志報道的研究趨勢顯示,持續(xù)使用合成數(shù)據(jù)訓練模型,會導致模型性能隨迭代輪次加速退化,這種現(xiàn)象研究者將其比作「近親繁殖」。這個問題到今天還沒有被普遍接受的解決方案,也意味著中國玩家的數(shù)據(jù)優(yōu)勢,比想象中更脆弱一些。

第三個問題是老生常談的,商業(yè)化路徑是一道尚未解開的題。大語言模型在ChatGPT出現(xiàn)之后,商業(yè)模式逐漸清晰——API計費、企業(yè)訂閱、垂直行業(yè)部署,鏈路已經(jīng)跑通。

而世界模型到今天為止,沒有一家公司拿出過可復制的商業(yè)閉環(huán)。騰訊的HY-World 2.0目前主要作為開發(fā)者工具開源,群核科技2025年96.9%的營收來自軟件訂閱服務(主要為酷家樂和Coohom產(chǎn)品),而空間智能相關業(yè)務(包括SpatialVerse等)僅占3.1%,其中核心的SpatialVerse平臺僅貢獻0.6%的營收。

游戲公司愿意為AI生成的3D場景付費,前提是生成質量能夠真正替代或大幅縮減人工成本,目前看來差距尚存;影視行業(yè)的工作流整合周期比外界估計的要長得多;具身智能公司的采購規(guī)模尚未達到商業(yè)化所需的體量。世界模型目前更像是一張有巨大想象空間但兌現(xiàn)時間尚不確定的支票。

這既是當前的困境,也是未來的機會。毫無疑問,未來第一個在某個垂直場景里驗證出可復制商業(yè)單元的玩家,將會獲得遠遠超出比例的先發(fā)優(yōu)勢。

寫在最后

大語言模型的崛起,證明了當足夠大規(guī)模地預測語言,涌現(xiàn)出來的能力會遠遠超出設計者的預期。這種「規(guī)模涌現(xiàn)」的邏輯是否能夠遷移到物理世界的建模上,正是「世界模型」最核心的賭注。

這在技術層面的挑戰(zhàn)是真實的,物理世界的復雜度遠高于語言空間。語言的基本單元是離散的詞語,物理世界的狀態(tài)是連續(xù)的、高維的,依賴于遠比語法規(guī)則復雜的因果結構。數(shù)據(jù)的采集和標注成本比文本高出幾個數(shù)量級,訓練范式需要重新設計,評估方法也遠不如NLP領域成熟。這條路比語言模型走過的路更長,更難,充滿了未知的彎路。

但驅動力同樣是真實的,機器人、自動駕駛、數(shù)字孿生、沉浸式內容等領域對「真正理解物理世界的AI」有著真實的剛需,而這種需求隨著智能硬件的普及只會越來越強。

而中國在這場競爭里的優(yōu)勢和劣勢都很具體:場景數(shù)據(jù)的積累和垂直行業(yè)的落地壓力是有力的支撐,基礎研究的深度和商業(yè)驗證的路徑是真實的短板。

騰訊和阿里在同一天發(fā)布世界模型產(chǎn)品,說明在中國最頭部的科技公司內部,對AI下一個主戰(zhàn)場的判斷已經(jīng)形成了共識。至于這種共識是否正確,要等時間來驗證。

這可能比我們想象得更近,也比我們期望得更遠。

*題圖及文中配圖來源于網(wǎng)絡。

       原文標題 : HY-World 2.0與HappyOyster :一個臨界點,兩種「世界」觀

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號