訂閱
糾錯(cuò)
加入自媒體

可靈VS即夢(mèng):初探“多模態(tài)”

目前國內(nèi)兩個(gè)最火的AI生成視頻平臺(tái),非可靈和即夢(mèng)莫屬。

作為影視外行人和AI愛好者,我準(zhǔn)備組建一個(gè)純AI的“影視團(tuán)隊(duì)”,看看效果如何。

在正式開始之前,還有一個(gè)問題:文生圖+圖生視頻or文生視頻?

兩個(gè)平臺(tái)都具備上述功能,那么兩條路應(yīng)該走哪條?

AI給出的答案是:使用“文生圖+圖生視頻”的方法具備更高的可控性;而“文生視頻”的方法能夠讓視頻更有“動(dòng)態(tài)感”。

考慮了一下成本和效率,我還是選擇了可控性優(yōu)先。

01第一步:AI編劇,編寫劇本

想拍一部電影出來,首先肯定得有編劇來寫劇本。

我把先前公眾號(hào)上發(fā)布過的一篇文章,以PDF形式丟給了目前公認(rèn)性能強(qiáng)大的Gemini 2.5 Pro。

不得不承認(rèn),文字方面,AI當(dāng)編劇確實(shí)是綽綽有余。

分鏡頭腳本寫得有模有樣,像我這種外行人可是完全寫不出來。

尤其是圖生視頻指令,涵蓋了場(chǎng)景、動(dòng)作、運(yùn)鏡、風(fēng)格這些專業(yè)化的東西,解決了大麻煩。

02 第二步:AI畫師,繪制“分鏡圖”

前面已經(jīng)說過,采用“文生圖+圖生視頻”的方式可以提高可控性。

劇本既然已經(jīng)有了,接下來的任務(wù)就是繪制“分鏡”。

我把AI編劇寫好的這些首幀圖片指令,統(tǒng)統(tǒng)交給了騰訊混元這個(gè)AI文生圖模型。

相比文字,AI在圖片領(lǐng)域的能力顯然有所下降。

好在混元生圖的美術(shù)功底靠得住,給出的大部分圖片質(zhì)量都不錯(cuò),基本符合預(yù)期。

當(dāng)然,也有下面這些“瑕疵品”:

例如,“一條水平的發(fā)光進(jìn)度條,位于畫面下方,滑塊在起始位置。背景是模糊的彩色光影。”

AI顯然是沒能理解指令。

7

以及,“一條高度精密的汽車生產(chǎn)線,無數(shù)機(jī)械臂在協(xié)同工作,焊接時(shí)火花四濺,充滿工業(yè)美感。”

這次則是邏輯錯(cuò)誤,一群機(jī)械臂似乎正在破壞一輛完工的汽車。

29

03第三步:AI導(dǎo)演,讓圖片“動(dòng)”起來

我把前面生成的靜態(tài)圖片和圖生視頻指令分別發(fā)給本次拍攝的導(dǎo)演——可靈和即夢(mèng)。

然而,“開機(jī)”以后不久,我就遇到了理想與現(xiàn)實(shí)的碰撞。

剛開始,看到AI生成的幾個(gè)時(shí)長5秒的視頻時(shí),我還是挺滿意的。

畢竟,這些動(dòng)態(tài)效果和光影變化在一個(gè)外行人眼里已經(jīng)非常驚艷,畫面也十分流暢。

不過,隨著生成的視頻越來越多,導(dǎo)演就開始露餡了,各自開始生成一些很奇怪的東西。

問題一:“導(dǎo)演壓根不按照劇本來”

這是最常見的問題,無法容忍的“不聽指令”。

先來看一個(gè)讓人哭笑不得的例子:

圖生視頻指令:

場(chǎng)景描述與動(dòng)作: 汽車的前大燈被激活,從一條細(xì)線開始,然后突然亮起,射出明亮而銳利的光束。一道微弱的能量光澤沿著車身的氣動(dòng)線條流動(dòng)。

運(yùn)鏡方式: 緩慢而富有戲劇性的向上搖鏡頭(Tilt Up),從前輪開始,向上移動(dòng)到擋風(fēng)玻璃,讓汽車感覺充滿力量。

畫面風(fēng)格與質(zhì)感: “英雄特寫鏡頭”。電影級(jí),精致,高級(jí)感。增加輕微的鏡頭光暈效果。

指令中寫的明明白白,汽車的前大燈被激活,但可靈生成的視頻中卻是從車身中間射出一道光線,多少有點(diǎn)莫名其妙。

相比之下,即夢(mèng)生成的視頻效果要好一點(diǎn)。

問題二:“牛頓看了都得沉默”的物理和邏輯錯(cuò)誤

讓AI做物理題,它得心應(yīng)手;但讓它生成視頻,它似乎又沒完全學(xué)會(huì)現(xiàn)實(shí)世界的物理規(guī)則。

“穿模”可以算是家常便飯了,即夢(mèng)和可靈生成的視頻都存在這個(gè)問題,比如:

圖生視頻指令:

場(chǎng)景描述與動(dòng)作: 所有機(jī)器以驚人的速度和完美的協(xié)調(diào)性協(xié)同工作,展現(xiàn)出極致的效率。機(jī)械臂抓取包裹,無人車流暢地避讓和穿行。

運(yùn)鏡方式: 在倉庫內(nèi)進(jìn)行一個(gè)長距離、平滑的移動(dòng)鏡頭(長鏡頭),一鏡到底地展示整個(gè)流程。

畫面風(fēng)格與質(zhì)感: 工業(yè)美學(xué),科技感,秩序感。畫面干凈,動(dòng)作流暢。

另外,物理運(yùn)動(dòng)的實(shí)現(xiàn)看起來也很不合理:

圖生視頻指令:

場(chǎng)景描述與動(dòng)作: 一顆閃亮的金色石子投入水中,激起一圈圈巨大而絢爛的彩色漣漪,漣漪擴(kuò)散的速度非常快,瞬間照亮整個(gè)水面。

運(yùn)鏡方式: 俯視視角,緩慢放大(Zoom In)。

畫面風(fēng)格與質(zhì)感: 詩意,愉悅。用漣漪的爆發(fā)來象征多巴胺的瞬間釋放。

即夢(mèng)生成的視頻中,金色石子并非被投入,而是直接從水中浮現(xiàn)出來:

可靈則較好地完成了指令內(nèi)容:

問題三:短時(shí)間內(nèi)的失憶癥

AI生成的視頻有一個(gè)重大的缺陷,那就是一致性實(shí)在是太差。

短短5秒之間,一個(gè)鏡頭的主角就可能發(fā)生大幅度的變化。比如:

場(chǎng)景描述與動(dòng)作: 表盤上的分針以極快的速度平滑地旋轉(zhuǎn)一圈。剛一停下,手表屏幕上就出現(xiàn)一個(gè)柔和的、發(fā)光的脈沖動(dòng)畫。

運(yùn)鏡方式: 靜態(tài)特寫。

畫面風(fēng)格與質(zhì)感: 現(xiàn)代,簡(jiǎn)潔,高效。脈沖動(dòng)畫干脆利落,代表“送達(dá)”的提醒。

即夢(mèng)生成的視頻,咱們暫且不談“極快的速度”和“脈沖動(dòng)畫”實(shí)現(xiàn)的如何,這表盤直接就換了個(gè)樣:

即夢(mèng)生成的視頻,咱們暫且不談“極快的速度”和“脈沖動(dòng)畫”實(shí)現(xiàn)的如何,這表盤直接就換了個(gè)樣。

可靈生成的視頻就沒有發(fā)生這個(gè)錯(cuò)誤:

如果在這么短的時(shí)間內(nèi)都無法保證一致性,整個(gè)視頻的觀感肯定是好不到哪去。

04 使用感受

對(duì)于圖生視頻的AI平臺(tái),它們確實(shí)是強(qiáng)大的工具,但目前還不是成為合格的導(dǎo)演。

先說可靈,它的表現(xiàn)相對(duì)更好一些。

對(duì)于物理世界的模擬和動(dòng)態(tài)真實(shí)感,它完成的不錯(cuò),基本符合現(xiàn)實(shí)世界中的物理規(guī)律。

其次,可靈對(duì)于指令中概念的理解深度和藝術(shù)詮釋能力更具優(yōu)勢(shì)。不僅是字面意義,它還能在一定程度上理解文字背后的抽象概念和用戶想要表達(dá)的情緒。

而且,可靈似乎并不是一個(gè)讓做什么就做什么的死板機(jī)器。它生成的視頻中,有些畫面并未在文字中寫明,卻能或深或淺地反映主題。

如此說來,它更傾向于一個(gè)愿意突破邊界進(jìn)行嘗試的“藝術(shù)家”。

另外,根據(jù)“影評(píng)人”Gemini 2.5 Pro的反饋,可靈具備強(qiáng)大的鏡頭語言掌握力,能夠成功完成“推拉變焦”、“向上搖鏡”等復(fù)雜運(yùn)鏡。

對(duì)于可靈生成抽象CG場(chǎng)景,影評(píng)人認(rèn)為在技術(shù)質(zhì)量和美學(xué)上都已經(jīng)達(dá)到專業(yè)水準(zhǔn)。

但是在這位“藝術(shù)家”發(fā)揮想象力的同時(shí),也帶來了一些問題:

較低的圖像保真度和頻繁的場(chǎng)景重構(gòu)。

選擇性執(zhí)行用戶指令和跑偏的創(chuàng)意。

這就是可靈“導(dǎo)演哲學(xué)”的必然代價(jià),生成的視頻可能會(huì)與預(yù)想的畫面相差甚遠(yuǎn)。

再來說說即夢(mèng),相比藝術(shù)家,它更保守一些。

即夢(mèng)生成視頻的優(yōu)勢(shì)在于極高的圖像保真度和穩(wěn)定性。

每個(gè)鏡頭的主體基本不會(huì)出現(xiàn)大幅度的扭曲和變形,畫面也比較穩(wěn)定。

這就意味著,即夢(mèng)的“圖生視頻”功能,生成視頻的質(zhì)量很大程度上取決于圖的質(zhì)量。

此外,即夢(mèng)對(duì)于復(fù)雜構(gòu)圖的指令也能夠較為精準(zhǔn)的實(shí)現(xiàn),它對(duì)于指令的理解和執(zhí)行能力更為可靠。

不過,即夢(mèng)的缺點(diǎn)在于難以實(shí)現(xiàn)物理上的真實(shí)感,而且缺乏一些動(dòng)態(tài)邏輯。

上面一些令人匪夷所思的場(chǎng)面大多出自它手。這也是對(duì)于概念理解深度不夠、缺乏敘事能力的一種體現(xiàn)。

除此之外,“影評(píng)人”也指出,即夢(mèng)的鏡頭語言理解和執(zhí)行能力較為薄弱,幾乎無法完成較為復(fù)雜的電影運(yùn)鏡,降低了視頻的表現(xiàn)力。

05 最后的一點(diǎn)想法

兩個(gè)模型生成的視頻都已經(jīng)證明,對(duì)于一般的平臺(tái)用戶而言,高難度指令往往帶來的是失敗的結(jié)果,技術(shù)的邊界尚未被突破。

技術(shù)角度來看:

AI生成視頻領(lǐng)域內(nèi),“保真”和“創(chuàng)意”這兩條核心的技術(shù)路線仍然存在博弈,不能兼顧。

此外,視頻時(shí)長也是目前存在的一大限制。

不管是國內(nèi)還是國外的AI視頻生成平臺(tái),大多將單個(gè)視頻的時(shí)長嚴(yán)格控制在5-10秒內(nèi)。

單個(gè)視頻能夠表達(dá)的內(nèi)容有限,生成長時(shí)間、情節(jié)連貫的視頻對(duì)這一領(lǐng)域仍是巨大挑戰(zhàn)。

而這對(duì)于用戶來說,為編寫提示詞增加了難度。

寫的太細(xì)致,模型無法理解,也無法在短短幾秒內(nèi)將內(nèi)容表達(dá)完全;

寫的太粗糙,模型生成的內(nèi)容往往與用戶的意圖相隔十萬八千里。

成本角度來看:

通過強(qiáng)大的設(shè)備和算力進(jìn)行本地部署,再對(duì)模型進(jìn)行微調(diào),可能才是生成高質(zhì)量視頻的可靠選擇。

但,這成本可不是一般用戶承受得起的。

即便是這兩個(gè)在線應(yīng)用平臺(tái),會(huì)員價(jià)格也并不便宜。

單買積分的話,即夢(mèng)上使用視頻3.0模型+720P+5秒視頻的最基本配置是1元1條視頻;

可靈上使用標(biāo)準(zhǔn)模式+5秒視頻則是2元1條視頻。

但根據(jù)我的使用經(jīng)歷來看,想要生成的視頻能達(dá)到一般短視頻的水平,肯定是需要升級(jí)配置并多次生成、不斷調(diào)試的。

而這個(gè)過程,開銷肯定會(huì)不斷增長。

因此,導(dǎo)演、攝像師和后期老師們大可以松一口氣。

想讓AI生成具備觀賞性的影片,我們不妨再多些耐心。

       原文標(biāo)題 : 可靈VS即夢(mèng):初探“多模態(tài)”

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)