123,123

圖形學+深度學習：來看下神經渲染完成的神仙操作！

2020-04-14 10:16

自由視點視頻合成

自由視點視頻（Free Viewpoint Videos，也稱為 Volumetric Performance Capture）依賴于多相機條件下對于3D形狀和紋理的捕捉。但先前的方法得到的結果不夠真實，因為高頻細節(jié)的缺失或紋理的失真使任意場景中精確的重光照困難重重。此外，不精確的幾何估計使得紋理圖像變得模糊；最后，由于真實場景中構建時間連續(xù)的三維模型十分困難，對于頭發(fā)和透明物質的重建還有很多問題需要解決。

不過好在研究人員通過結合傳統(tǒng)的重光照方法和高速高精度的深度傳感器，最終克服了上述困難。下圖展示了最新的Relightable系統(tǒng)：其捕捉了人體自由視點，重建出幾何模型和反射率圖，并最終實現(xiàn)了能在任意場景中進行合成的視覺效果。

此外，神經渲染技術還可用于演員表演的LookinGood系統(tǒng)。通過實時地重渲染，該技術大幅提升了圖像采集系統(tǒng)的性能：

為了從多視角視頻數(shù)據(jù)中實現(xiàn)自動化的創(chuàng)造、渲染，模擬高質量的模擬目標模型，研究人員還提出了Neural Volumes系統(tǒng)：先把多視角的視頻序列輸入編碼器，將其解碼為半透明的RGB體和對應的透明權重；然后再基于相機穿過這一體積的視線來對模型進行渲染，累積出顏色和透明度，完成最終的輸出工作。

學習重新打光的神經渲染

在新的光照下重新渲染逼真的圖像被稱為relighting，其對于視覺應用和虛擬現(xiàn)實、增強現(xiàn)實具有重要作用。目前工業(yè)界使用的方法是基于圖像的重光照，這需要采集不同光照條件下場景的圖像，并基于這些來合成出新光照下的結果。這種方法被廣泛用于好萊塢視覺特效中，但需要耗費大量的財力、物力、人力、以及定制化的設備，不便于野外使用。

這時，神經渲染技術就派上了大用途。在該技術的驅動下，研究者利用渲染或真實采集的反射場數(shù)據(jù)對網(wǎng)絡進行訓練，讓工作人員在應用少數(shù)圖像的情況下，還能給場景重新打光。

此種方法的實現(xiàn)原理很好理解：通過神經渲染技術，研究者能讓系統(tǒng)從少數(shù)幾張圖像中學習出場景的光照方向和重光照函數(shù)。在此基礎上，人們也可利用多視角來學習場景幾何構成以實現(xiàn)更好的重光照。

事實上，該技術不僅可以應用于光照不足的場景，即使在光照條件尚可的環(huán)境下，其對于反射場的學習也可達到提升環(huán)境表現(xiàn)力的渲染效果。比如像下圖這樣：

人體重建渲染

這一部分的研究包括人臉和肢體的重現(xiàn)。針對人臉來說其主要包括生成新的表情、位姿或者語言嘴形等等。而針對人體來說主要包括行為克隆，交互控制等等，來操作目標視頻中人物的姿態(tài)、行為和動作等等。

其中一個有趣的應用是修改視頻中人說話內容的同時，將人物的口型也進行相應的修改。下圖顯示了Text－based Editing of Talking－h(huán)ead Video，視頻中說話人的文字被改變，對應的嘴形也被改變并渲染出了逼真的結果。

類似的應用還包括通過Deferred neural rendering，實現(xiàn)3D情況下的新視角合成與場景編輯：

而在人體重渲染方面，該技術可以控制目標對象的位置、渲染和身體位姿：既可以從源視頻中抽取動作信息控制目標姿態(tài)，也可利用人體關節(jié)模型來控制目標視頻中主體的行為。

雖然神經渲染技術在各個方面已經取得了巨大的突破，成為了圖形學領域和計算機視覺、機器學習領域交融共生的新興方向，但其目前還面臨著泛化性、規(guī)�；⒖删庉嬓砸约岸嗄B(tài)數(shù)據(jù)場景表達能力的限制，還有很大的發(fā)展空間。相信隨著技術的進步，會有更多通用、易用、高效穩(wěn)定的方法被提出，讓神經渲染達到與現(xiàn)代圖形學一樣的適用范圍的同時，還能激發(fā)其深度學習的強大能力。

<上一頁 1 2