訂閱
糾錯(cuò)
加入自媒體

從Sora到可靈,視頻AI還沒(méi)到GPT時(shí)刻

2025-12-11 10:53
智百道
關(guān)注

圖片

文 / 道哥 

來(lái)源 / 智百道 

視頻大模型的競(jìng)速還在持續(xù)。

作為國(guó)內(nèi)視頻生成大模型的代表,快手旗下的可靈AI近日宣布,其核心產(chǎn)品可靈O1正式上線“主體庫(kù)”與“對(duì)比模板”兩大重要功能,旨在提升AI創(chuàng)作的效率與作品展示效果。

但與此同時(shí),在大洋彼岸,OpenAI旗下的Sora2,卻開(kāi)始陷入新的困境。根據(jù)a16z合伙人前段時(shí)間貼出的一組對(duì)比,Sora留存率遠(yuǎn)不如TikTok,首日留存率只有10%,30天留存率只有1%。對(duì)比來(lái)看,TikTok對(duì)應(yīng)的留存率分別是50%和32%,差距明顯。

在9月底OpenAI正式發(fā)布Sora 2及獨(dú)立App時(shí),不少預(yù)言家當(dāng)時(shí)甚至集體狂歡,“Sora App將吞噬TikTok和Instagram上的網(wǎng)紅,一場(chǎng)由AI主導(dǎo)的視頻革命即將到來(lái)”。

OpenAI自己也說(shuō),我們可能迎來(lái)視頻領(lǐng)域的GPT-3.5時(shí)刻。

然而,到了2026年年末,現(xiàn)實(shí)還是比概念更骨感。

在這一輪AI泡沫論底層,實(shí)際上是資本市場(chǎng)與產(chǎn)業(yè)界開(kāi)始冷靜審視這條賽道:所謂的“視頻GPT時(shí)刻”似乎并未如期而至。相反,高昂的推理成本、難以閉環(huán)的商業(yè)模式以及尚不穩(wěn)定的技術(shù)表現(xiàn),正在構(gòu)成一道道難以逾越的“嘆息之墻”。

無(wú)論是谷歌被寄予厚望的Veo,還是曾驚艷全球的Sora,亦或是國(guó)內(nèi)卷出天際的可靈、即夢(mèng),此刻都站在了一個(gè)尷尬的十字路口:技術(shù)看起來(lái)固然很炫酷,但到底誰(shuí)能真正靠它賺到大錢?

01 模型競(jìng)速

圖片

時(shí)間需要回到2024年。

彼時(shí)隨著Sora憑借60秒長(zhǎng)視頻、多角度鏡頭切換以及驚人的物理世界模擬能力震驚世界后,當(dāng)年被科技圈定義為“視頻生成元年”。

隨后Runway推出了Gen-3 Alpha,Luma AI發(fā)布了Dream Machine,谷歌則在I/O大會(huì)上祭出了Veo;而在國(guó)內(nèi),字節(jié)跳動(dòng)的即夢(mèng)(Jimeng)、快手的可靈(Kling)、生數(shù)科技的Vidu等模型如雨后春筍般涌現(xiàn)

這一年的主旋律,無(wú)疑是中美兩大科技陣營(yíng)在視頻模型上的瘋狂競(jìng)速。這種競(jìng)速不僅體現(xiàn)在發(fā)布頻率上,更體現(xiàn)在參數(shù)規(guī)模與生成質(zhì)量的軍備競(jìng)賽中。

但很快,這種競(jìng)速呈現(xiàn)出一種明顯的“同質(zhì)化內(nèi)卷”趨勢(shì)。現(xiàn)在的視頻模型,大多采用了DiT(Diffusion Transformer)架構(gòu),這一架構(gòu)有效地結(jié)合了Transformer處理序列數(shù)據(jù)的能力與Diffusion生成高質(zhì)量圖像的能力。

因?yàn)榧夹g(shù)路徑的趨同,各家比拼的焦點(diǎn)迅速轉(zhuǎn)移到了數(shù)據(jù)質(zhì)量、上下文長(zhǎng)度以及對(duì)物理規(guī)律的理解上。

以國(guó)內(nèi)戰(zhàn)場(chǎng)為例,可靈AI的突圍極具代表性。依托快手龐大的短視頻生態(tài),可靈在視頻數(shù)據(jù)的理解上擁有天然優(yōu)勢(shì),其生成的視頻在運(yùn)動(dòng)幅度與邏輯連貫性上,一度被評(píng)測(cè)為“最接近Sora”的產(chǎn)品之一。而字節(jié)跳動(dòng)的即夢(mèng)則背靠抖音,在審美風(fēng)格與運(yùn)鏡語(yǔ)言上更懂C端用戶的偏好。

但問(wèn)題是,作為視頻模型代表的Sora,都正在陷入爭(zhēng)議之中。前文提及的留存率,其實(shí)只是結(jié)果,真正的原因是,號(hào)稱打造AI短視頻的Sora2,其用戶體驗(yàn)卻非常差。

目前的模型競(jìng)速,更像是一場(chǎng)“演示片”的戰(zhàn)爭(zhēng)。哪怕是Sora2也同樣如此。

官方放出的Demo往往是百里挑一的結(jié)果,而當(dāng)普通用戶上手時(shí),人物肢體扭曲、物體憑空消失、物理邏輯崩壞(如倒出的水往天上流)等“抽卡失敗”的現(xiàn)象比比皆是。這種“Demo與實(shí)物不符”的現(xiàn)狀,直接導(dǎo)致了用戶體驗(yàn)的斷層。

目前的模型能力,雖然已經(jīng)從“不可用”跨越到了“偶爾驚艷”,但距離ChatGPT那樣“穩(wěn)定且通用”的GPT-3.5時(shí)刻,仍有巨大的鴻溝。

大家都在卷時(shí)長(zhǎng)、卷分辨率,卻很少有人能徹底解決“可控性”這一導(dǎo)演與創(chuàng)作者最在意的核心命題。

02 算力黑洞

圖片

如果說(shuō)模型能力的不足是可以通過(guò)時(shí)間解決的“軟傷”,那么算力成本則是懸在所有視頻AI公司頭頂?shù)?ldquo;達(dá)摩克利斯之劍”。

視頻生成是目前所有AI模態(tài)中,對(duì)算力消耗最為恐怖的領(lǐng)域,沒(méi)有之一。

這不僅是因?yàn)橐曨l增加了“時(shí)間”這一維度,導(dǎo)致數(shù)據(jù)量呈幾何級(jí)數(shù)增長(zhǎng),更因?yàn)闉榱吮WC視頻的連貫性與物理邏輯,模型需要在極短時(shí)間內(nèi)進(jìn)行海量的推理計(jì)算。

我們可以算一筆賬。

在文本模態(tài)下,ChatGPT生成一段文字的成本雖然不低,但已經(jīng)可以通過(guò)訂閱費(fèi)覆蓋并實(shí)現(xiàn)盈利。然而,視頻生成的算力需求是文本的成百上千倍。生成一秒鐘的高清視頻,其所需的GPU算力,足以生成數(shù)萬(wàn)字的文本或數(shù)十張高質(zhì)量圖片。

Sora之所以采用“切片”的方式處理視頻數(shù)據(jù),正是為了在Transformer架構(gòu)下盡可能地壓縮計(jì)算量,但即便如此,其推理成本依然高得令人咋舌。

這就是“算力黑洞”。

對(duì)于谷歌、OpenAI這樣的巨頭來(lái)說(shuō),或許還能通過(guò)燒錢來(lái)維持戰(zhàn)略卡位,利用自身的云服務(wù)設(shè)施進(jìn)行內(nèi)部補(bǔ)貼。但對(duì)于Runway、Luma以及國(guó)內(nèi)眾多創(chuàng)業(yè)公司而言,每一幀視頻的生成都是在燃燒真金白銀。

更可怕的是,視頻模型似乎還沒(méi)有摸到“Scaling Law”(縮放定律)的邊界,或者說(shuō),繼續(xù)Scaling的邊際收益正在遞減,而邊際成本卻在指數(shù)級(jí)上升。

為了追求更好的物理模擬效果,模型參數(shù)量需要進(jìn)一步擴(kuò)大,訓(xùn)練所需的高質(zhì)量視頻數(shù)據(jù)(如電影級(jí)素材、高幀率實(shí)拍)卻比文本數(shù)據(jù)更加稀缺且版權(quán)復(fù)雜。

互聯(lián)網(wǎng)上雖然有海量視頻,但大部分是低質(zhì)量、高壓縮、缺乏標(biāo)注的“垃圾數(shù)據(jù)”,清洗和標(biāo)注這些數(shù)據(jù)的成本遠(yuǎn)高于文本。

用戶的使用習(xí)慣也加劇了這一困境。在ChatGPT中,用戶輸入Query,得到答案,流程是線性的。而在視頻生成中,由于結(jié)果的不可控,用戶往往需要反復(fù)生成、反復(fù)修改,就像玩“老虎機(jī)”一樣,直到搖出滿意的畫(huà)面。

這意味著,一個(gè)最終可用的視頻片段背后,可能伴隨著十幾次甚至幾十次的廢片生成。這些廢片消耗的算力,全部是沉沒(méi)成本。

目前,無(wú)論是國(guó)內(nèi)的可靈、即夢(mèng),還是國(guó)外的Sora、Veo,都在面臨同一個(gè)拷問(wèn):這把火到底能燒多久?

如果無(wú)法在算力成本與生成效果之間找到一個(gè)具備正向經(jīng)濟(jì)效益的平衡點(diǎn),那么視頻生成極有可能成為一個(gè)“叫好不叫座”的富人游戲。

在硬件架構(gòu)出現(xiàn)革命性突破之前,算力瓶頸將死死卡住視頻AI大規(guī)模普及的咽喉。

03 商業(yè)困境

圖片

其實(shí)說(shuō)到底,技術(shù)競(jìng)速與算力成本最終都要回歸到一個(gè)終極問(wèn)題:商業(yè)模式。

為什么ChatGPT能迅速成為殺手級(jí)應(yīng)用?因?yàn)樗苯咏鉀Q了信息檢索、代碼編寫(xiě)、文案撰寫(xiě)等具有明確“生產(chǎn)力屬性”的剛需,且交付結(jié)果相對(duì)確定。

反觀視頻生成,目前的定位極其模糊。

在C端市場(chǎng),視頻AI陷入了“玩具化”的陷阱。絕大多數(shù)用戶下載Sora或可靈,更多是出于獵奇心理。他們生成幾個(gè)搞怪視頻發(fā)朋友圈,獲得社交貨幣后,新鮮感便迅速消退。這解釋了為什么首日留存率尚可,但30天留存率會(huì)暴跌至1%。

對(duì)于普通人而言,制作視頻并非高頻剛需,且目前AI視頻生成的精細(xì)度遠(yuǎn)未達(dá)到替代拍攝的程度,更無(wú)法提供TikTok那種基于算法推薦的娛樂(lè)消費(fèi)體驗(yàn)。

指望AI生成工具去取代TikTok,在現(xiàn)階段無(wú)異于癡人說(shuō)夢(mèng)——一個(gè)是生產(chǎn)工具,一個(gè)是內(nèi)容消費(fèi)平臺(tái),兩者的底層邏輯截然不同。

在B端專業(yè)市場(chǎng),視頻AI其實(shí)同樣面臨著“不可控”的致命傷。對(duì)于影視制作、廣告營(yíng)銷等專業(yè)領(lǐng)域,核心訴求是“精確控制”——導(dǎo)演需要指定角色的微表情、光影的具體走向、物體運(yùn)動(dòng)的精確軌跡。

目前的視頻大模型,雖然能生成“看起來(lái)很美”的畫(huà)面,但本質(zhì)上還是基于概率的“抽卡”。好萊塢大亨泰勒·佩里雖然因?yàn)榭戳薙ora的演示而暫停了影視基地的擴(kuò)建,但這更多是一種對(duì)未來(lái)的防御性恐慌,而非當(dāng)下的實(shí)際替代。

真正的影視工作流中,由于AI生成內(nèi)容難以保持角色一致性和場(chǎng)景連續(xù)性,導(dǎo)致其目前只能充當(dāng)“動(dòng)態(tài)分鏡腳本”或“靈感參考”,很難直接輸出成品素材。

最后也是最為關(guān)鍵的,還是變現(xiàn)路徑的狹窄。

目前主流的商業(yè)模式依然是Sora、Runway采用的SaaS訂閱制,即賣點(diǎn)數(shù)、賣時(shí)長(zhǎng)。但在高昂的推理成本面前,這種訂閱費(fèi)往往只能勉強(qiáng)覆蓋成本,甚至虧本賺吆喝。如果為了覆蓋成本而提高定價(jià),又會(huì)將大量中小用戶拒之門外,限制了規(guī)模效應(yīng)的形成。

國(guó)內(nèi)市場(chǎng)的情況更為復(fù)雜。

可靈、即夢(mèng)等背靠短視頻巨頭,它們的算盤或許不是直接賣會(huì)員賺錢,而是將AI能力融入到自家的短視頻生態(tài)中,降低創(chuàng)作者門檻,從而維持內(nèi)容生態(tài)的繁榮,最終通過(guò)廣告和電商變現(xiàn)。

這是一種“羊毛出在豬身上”的策略。但問(wèn)題在于,如果AI生成的視頻內(nèi)容泛濫且質(zhì)量參差不齊,反而可能稀釋平臺(tái)的內(nèi)容質(zhì)量,導(dǎo)致用戶審美疲勞。

從這個(gè)角度來(lái)看,視頻AI目前正處于Gartner技術(shù)成熟度曲線的“期望膨脹期”頂峰滑落向“泡沫破裂谷底期”的階段。

雖然谷歌、OpenAI、快手、字節(jié)都在全力以赴,但視頻AI距離“GPT時(shí)刻”,也就是要成為一個(gè)低門檻、高可用、全行業(yè)通用的基礎(chǔ)設(shè)施,目前看,無(wú)論硅谷還是國(guó)內(nèi)大廠,都還有很長(zhǎng)的路要走。

這不僅需要算法層面的突破來(lái)解決“可控性”難題,更需要算力成本的數(shù)量級(jí)下降,以及一個(gè)能真正能夠跑通ROI的殺手級(jí)應(yīng)用場(chǎng)景。

在此之前,視頻AI注定依然是一場(chǎng)還得繼續(xù)海量燒錢的馬拉松。

*題圖由AI生成

       原文標(biāo)題 : 從Sora到可靈,視頻AI還沒(méi)到GPT時(shí)刻

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)