123,123

短劇革命！港中文&快手發(fā)布ShotStream:16幀/秒實時生成電影級多鏡頭視頻，可邊拍邊改

2026-04-01 14:13

AI生成未來

關(guān)注

作者：Yawen Luo等

解讀：AI生成未來

亮點直擊

ShotStream，一種新穎的因果式多鏡頭長視頻生成架構(gòu)，實現(xiàn)了交互式敘事和實時合成。

將多鏡頭合成重新定義為“下一鏡頭生成”任務(wù)以支持交互性，允許用戶通過流式提示動態(tài)調(diào)整進行中的敘事。

設(shè)計了一種新穎的雙緩存記憶機制，結(jié)合RoPE不連續(xù)指示器，確保因果模型在鏡頭間和鏡頭內(nèi)的一致性。

提出了一種兩階段蒸餾策略，通過彌合訓(xùn)練與推理之間的差距來有效減輕誤差累積，從而實現(xiàn)穩(wěn)健的長時序多鏡頭生成。

總結(jié)速覽

解決的問題

現(xiàn)有雙向架構(gòu)的多鏡頭視頻生成方法存在兩大局限：一是缺乏交互性，需要預(yù)先提供所有提示，無法在生成過程中動態(tài)調(diào)整敘事；二是推理延遲高，難以實現(xiàn)實時生成。

提出的方案

本文提出 ShotStream，一種新穎的因果式多鏡頭生成架構(gòu)。該架構(gòu)將多鏡頭生成重構(gòu)為自回歸的“下一鏡頭”生成任務(wù)，并引入流式提示機制。同時，通過將雙向教師模型蒸餾為因果學(xué)生模型，并結(jié)合雙緩存機制和兩階段蒸餾策略來解決因果架構(gòu)帶來的挑戰(zhàn)。

應(yīng)用的技術(shù)

將文本到視頻模型微調(diào)為雙向的“下一鏡頭”預(yù)測教師模型；

通過分布匹配蒸餾（DMD）將教師模型蒸餾為高效的4步因果學(xué)生模型；

雙緩存記憶機制（全局緩存保證鏡頭間一致性，局部緩存保證鏡頭內(nèi)一致性）和RoPE不連續(xù)指示器；

兩階段蒸餾策略（鏡頭內(nèi)自強迫和鏡頭間自強迫）以緩解誤差累積。

達到的效果

ShotStream在單個GPU上實現(xiàn)了16 FPS的實時生成速度，在視覺一致性、提示遵循度和鏡頭轉(zhuǎn)換控制等定量指標(biāo)上達到或超越了較慢的雙向模型。用戶研究也表明，ShotStream在視覺一致性、提示遵循度和視覺質(zhì)量上獲得了最高的用戶偏好率。

架構(gòu)方法

這里詳述ShotStream 的架構(gòu)和訓(xùn)練方法。首先將一個文本到視頻模型微調(diào)成一個雙向的下一鏡頭模型。隨后，通過分布匹配蒸餾（Distribution Matching Distillation），將該模型蒸餾成一個高效的4步因果模型。同時，還提出了一種新穎的雙緩存記憶機制和兩階段蒸餾策略，以實現(xiàn)高效、穩(wěn)健且長時序的多鏡頭生成。

雙向下一鏡頭教師模型

下一鏡頭模型的目標(biāo)是在歷史鏡頭的條件下生成后續(xù)鏡頭。由于歷史鏡頭包含數(shù)百幀且存在高度視覺冗余，保留完整歷史信息既無必要，在有限的條件預(yù)算下也不可行。因此，本文通過一種動態(tài)采樣策略提取稀疏的上下文幀來作為條件。給定個歷史鏡頭和一個最大條件上下文預(yù)算幀，從每個歷史鏡頭中采樣幀，其中表示向下取整函數(shù)。任何剩余的預(yù)算會分配給最近的一個鏡頭以充分利用預(yù)算，在本文實驗中該預(yù)算設(shè)置為6幀。

為了將采樣的稀疏上下文幀作為條件，本文采用了時間token拼接機制，這是一種在多控制生成、編輯和相機運動克隆中被證明有效的注入技術(shù)。雖然有效，但這些方法并未區(qū)分條件幀和目標(biāo)幀的提示詞；相反，它們將目標(biāo)幀的提示詞統(tǒng)一應(yīng)用于條件幀。直接將此方法應(yīng)用于下一鏡頭生成會產(chǎn)生問題，因為先前鏡頭的提示詞包含了將過去視覺信息與文本描述綁定起來的關(guān)鍵信息。這種綁定有助于提取生成后續(xù)鏡頭所需的必要上下文。因此，本文還將每個條件上下文幀對應(yīng)的特定提示詞注入模型，即每個鏡頭的幀通過交叉注意力關(guān)注全局提示詞和對應(yīng)的局部鏡頭提示詞。如下圖3所示，本文的下一鏡頭模型復(fù)用了基礎(chǔ)模型的3D VAE 來將轉(zhuǎn)換為條件隱向量，

其中包含幀，是通道數(shù)，空間分辨率為。基于這個共享的隱空間，本文首先將條件隱向量和帶噪的目標(biāo)隱向量（包含幀）進行分塊處理：

得到的條件token 和帶噪視頻token 隨后沿著幀維度拼接，形成 DiT 塊的輸入：

符號 FrameConcat 表示條件token與噪聲token沿幀維度進行拼接。由于token序列和共享相同的批大小 b、每幀的空間token數(shù)s 和特征維度d，這種時間拼接產(chǎn)生了組合張量。在訓(xùn)練過程中，噪聲僅添加到目標(biāo)視頻token中，保持上下文token干凈。這種設(shè)計使得 DiT 原生的3D自注意力層可以直接建模條件token和噪聲token之間的交互，而無需為基礎(chǔ)模型引入新層或參數(shù)。

因果架構(gòu)與蒸餾

前面詳細(xì)描述的雙向下一鏡頭教師模型大約需要50步去噪步驟，導(dǎo)致推理延遲高。為了實現(xiàn)低延遲生成，本文將這個多步教師模型蒸餾成一個高效的4步因果生成器。然而，轉(zhuǎn)向這種因果架構(gòu)引入了兩個主要挑戰(zhàn)：1）保持鏡頭間的一致性，以及2）防止誤差累積以維持自回歸生成過程中的視覺質(zhì)量。為了解決這些問題，本文提出了兩項關(guān)鍵創(chuàng)新：一個雙緩存記憶機制和一個兩階段蒸餾策略。

雙緩存記憶機制。為了保持視覺連貫性，本文引入了一種新穎的雙緩存記憶機制（如下圖4所示）：一個全局緩存存儲稀疏的條件幀以保持鏡頭間的一致性，而一個局部緩存則保留最近生成的幀以確保鏡頭內(nèi)的一致性。然而，在本文的塊狀因果架構(gòu)中同時查詢這兩個緩存會引入時間上的模糊性，因為模型難以區(qū)分歷史上下文和當(dāng)前鏡頭上下文。為了解決這個問題，本文提出了一種不連續(xù)的RoPE策略，通過在每次鏡頭邊界引入一個離散的時間跳躍，明確地將全局和局部上下文解耦。具體來說，對于第k 個鏡頭中的第 t 個隱向量，其時間旋轉(zhuǎn)角度的公式為，其中表示基礎(chǔ)時間頻率，作為表示鏡頭邊界不連續(xù)性的相位偏移。

兩階段蒸餾策略。自回歸多鏡頭視頻生成中的一個主要挑戰(zhàn)是由訓(xùn)練-推理差距導(dǎo)致的誤差累積。為了緩解這個問題，本文提出了一種兩階段蒸餾訓(xùn)練策略。

在第一階段，鏡頭內(nèi)自強迫（如下圖4所示，步驟2.1），模型從真實歷史鏡頭中采樣全局上下文幀，而塊狀因果生成器則通過時間自回歸展開生成目標(biāo)鏡頭。具體來說，局部緩存利用當(dāng)前目標(biāo)鏡頭中先前自生成塊的數(shù)據(jù)，而非真實數(shù)據(jù)。雖然這一階段建立了基礎(chǔ)的下一鏡頭生成能力，但訓(xùn)練-推理差距仍然存在：在推理過程中，模型必須依賴自身可能不完美的歷史鏡頭作為條件，而不是真實數(shù)據(jù)。

為了彌合這一差距，本文引入了第二階段：鏡頭間自強迫（如下圖4所示，步驟2.2）。因果模型從頭開始生成第一個鏡頭并應(yīng)用DMD。對于所有后續(xù)迭代，生成器完全基于先前自生成的鏡頭來合成下一個鏡頭。在每次迭代中，模型繼續(xù)采用鏡頭內(nèi)自強迫來逐塊生成每個新鏡頭，并僅對新生成的鏡頭應(yīng)用DMD。這種自回歸展開一直持續(xù)到整個多鏡頭視頻生成完畢。通過緊密模仿推理時的展開過程，此階段使訓(xùn)練與推理對齊，有效減輕了誤差累積并提升了整體視覺質(zhì)量。

推理。 ShotStream的推理過程與其訓(xùn)練過程完全一致。ShotStream以逐個鏡頭的方式生成多鏡頭視頻。當(dāng)生成每個新鏡頭時，通過從先前合成的歷史鏡頭中采樣來更新全局上下文幀。在當(dāng)前鏡頭內(nèi)，視頻幀利用本文的因果少步生成器和KV緩存，逐塊順序生成，確保了計算效率。

實驗

實驗設(shè)置

實現(xiàn)細(xì)節(jié)：基于 Wan2.1-T2V-1.3B 構(gòu)建 ShotStream，生成的視頻片段。雙向下一鏡頭教師在包含32萬條多鏡頭視頻的內(nèi)部數(shù)據(jù)集上訓(xùn)練。對于因果適應(yīng)，學(xué)生模型通過在5千對教師采樣的ODE解上進行回歸來初始化。蒸餾分兩個階段進行：第一階段使用數(shù)據(jù)集中的真實歷史鏡頭進行鏡頭內(nèi)自強迫；第二階段使用一個5鏡頭視頻子集的提示詞進行鏡頭間自強迫。模型操作中，塊大小為3個隱向量幀，使用2個塊的全局緩存和7個塊的局部緩存。

評估集：為了全面評估多鏡頭視頻生成能力，本文遵循先前工作，利用 Gemini 2.5 Pro 生成了100個多樣化的多鏡頭視頻提示。這些測試提示涵蓋了廣泛的主題。

評估指標(biāo)：在計算指標(biāo)前，使用預(yù)訓(xùn)練的 TransNet V2 檢測每個視頻中的鏡頭邊界。本文從五個關(guān)鍵維度評估模型的多鏡頭性能：

1）鏡頭內(nèi)一致性（主體一致性和背景一致性）；

2）鏡頭間一致性（主體、背景和語義一致性）；

3）轉(zhuǎn)換控制（鏡頭剪切準(zhǔn)確度 SCA）；

4）提示遵循度（文本對齊）；

5）整體質(zhì)量（美學(xué)質(zhì)量和動態(tài)程度）。

基線模型：比較了兩種類型的開源視頻生成模型：

1）雙向多鏡頭視頻生成模型：Mask2DiT、EchoShot、CineTrans；

2）自回歸和交互式長視頻生成模型：Self Forcing、LongLive、Rolling Forcing、Infinity-RoPE。

定量結(jié)果

如下表1所示，本文模型在主要指標(biāo)上均優(yōu)于對比方法。它實現(xiàn)了最高的視覺一致性，同時保持了對鏡頭轉(zhuǎn)換的精確控制。此外，本文方法在單個鏡頭的提示對齊和整體美學(xué)質(zhì)量方面也表現(xiàn)出色。在推理效率上，與雙向模型相比，本文方法的吞吐量（FPS）提升了25倍以上。同時，它還能以相對于其他因果長視頻模型最小的速度損耗實現(xiàn)自回歸長多鏡頭視頻生成。

定性結(jié)果

如下圖5所示，本文提供了一個復(fù)雜的、敘事驅(qū)動的多鏡頭提示的定性比較。基線方法（包括 Mask2DiT、CineTrans、Self Forcing 和 Rolling Forcing）未能生成與其各自提示對齊的鏡頭。雖然 EchoShot 和 Infinity-RoPE 成功適應(yīng)了單個鏡頭指令，但它們在鏡頭間一致性方面表現(xiàn)不佳。LongLive 混淆了在序列中出現(xiàn)的兩個女性的身份。相比之下，本文的方法在忠實于多鏡頭提示的同時，實現(xiàn)了高視覺一致性和平滑的過渡。

用戶研究

由于評估多鏡頭視頻生成的主觀性，本文進行了一項用戶研究，以比較不同方法并驗證所提出的 ShotStream 的感知優(yōu)勢。用戶研究涉及54名參與者，結(jié)果如下表2所示，表明本文方法在大多數(shù)用戶中持續(xù)獲得偏好。

消融研究

本文進行了消融研究，以驗證雙向下一鏡頭教師模型和因果學(xué)生模型的關(guān)鍵設(shè)計選擇和訓(xùn)練策略。

雙向下一鏡頭教師模型設(shè)計：如下表3所示，本文驗證了在上下文幀采樣策略、條件幀提示策略、條件注入機制和訓(xùn)練策略四個關(guān)鍵方面的設(shè)計選擇。結(jié)果表明，動態(tài)采樣策略、多提示注入、幀拼接注入機制以及僅微調(diào)3D自注意力層均是有效的。

因果學(xué)生模型設(shè)計：如下表4所示，本文對因果模型的設(shè)計和蒸餾策略進行了消融。

1）雙緩存區(qū)分策略：結(jié)果表明，顯式區(qū)分全局和局部緩存至關(guān)重要（第1行 vs. 第3行），并且本文提出的免訓(xùn)練RoPE偏移方法優(yōu)于可學(xué)習(xí)嵌入方法（第2行 vs. 第3行）。

2）因果蒸餾訓(xùn)練策略：本文評估了兩階段蒸餾策略與單階段基線的效果。兩個階段都不可或缺：階段1建立了基礎(chǔ)的下一鏡頭生成能力，而階段2通過忠實模擬推理來彌合訓(xùn)練-推理差距。

此外，如下圖6中的定性結(jié)果強化了RoPE偏移和兩階段蒸餾的必要性。值得注意的是，鏡頭間自強迫蒸餾顯著改善了視頻在視覺風(fēng)格和色彩上的長期一致性（“僅階段1” vs. “本文方法”）。

總結(jié)

ShotStream，一種新穎的因果式多鏡頭視頻生成架構(gòu)，它能夠在單個GPU上實現(xiàn)16 FPS的實時生成，并支持交互式長敘事。核心貢獻包括：將下一鏡頭生成任務(wù)重新定義為流式任務(wù)，訓(xùn)練一個雙向的下一鏡頭教師模型，并通過提出的兩階段蒸餾策略將其蒸餾為因果架構(gòu)。此外，本文還引入了一種新穎的雙緩存記憶機制以確保視覺一致性。與現(xiàn)有的雙向多鏡頭模型相比，ShotStream顯著降低了生成延遲，并支持運行時的流式提示輸入。這使用戶能夠交互式地引導(dǎo)敘事，根據(jù)先前生成的內(nèi)容調(diào)整即將到來的鏡頭。此外，ShotStream通過擴展自回歸長視頻生成模型的能力，使其能夠生成連貫的多鏡頭序列，為實時、交互式的長篇敘事鋪平了道路。

局限性與未來工作。盡管 ShotStream 在自回歸多鏡頭視頻生成方面表現(xiàn)有效，但本文指出了兩個主要局限性。首先，當(dāng)場景和文本提示高度復(fù)雜時，觀察到視覺偽影和不一致性。這主要源于主干網(wǎng)絡(luò)容量有限；由于當(dāng)前模型相對較小，預(yù)計擴大基礎(chǔ)模型規(guī)模將提升在挑戰(zhàn)性場景下的性能和穩(wěn)定性。其次，雖然本文方法高效，但仍有加速空間以提供更好的交互體驗。諸如稀疏注意力和注意力匯聚（attention sink）等技術(shù)可以集成到本文的模型中，以實現(xiàn)更快的生成。這些擴展將留待未來研究。

參考文獻

[1] ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling

原文標(biāo)題 : 短劇革命！港中文&快手發(fā)布ShotStream:16幀/秒實時生成電影級多鏡頭視頻，可邊拍邊改