自從伯克利和谷歌創(chuàng)造的NeRF誕生以來江湖上靜態(tài)圖表變圖表的魔力就開始流
自從伯克利和谷歌創(chuàng)造的NeRF誕生以來,江湖上靜態(tài)圖表變圖表的魔力就開始流行起來。
但是,如果你想依靠AI來簡化像這樣的3D動態(tài)效果的制作,計算成本可不小:
以NeRF為例,要想在14401600像素,90Hz的VR頭盔中實現(xiàn)實時渲染,需要37 petaFLOPS,目前在GPU上還無法實現(xiàn)。
如何降低點的計算復(fù)雜度。
現(xiàn)在,來自格拉茨科技大學(xué)和臉書的研究人員想出了一個竅門:引入真正的深度信息。
在這方面,推理成本最多可降低48倍,僅用一個GPU就能以每秒20幀的速度實現(xiàn)交互渲染。
畫質(zhì)沒有影響,甚至可以改善:
具體有什么訣竅讓我們繼續(xù)談下去
基于深度預(yù)測網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)
首先需要注意的是,神經(jīng)輻射場法NeRF沿著相機光線對5D坐標(biāo)進行采樣,實現(xiàn)圖像合成。
也就是說,在NeRF的渲染過程中,需要對每一條光線的網(wǎng)絡(luò)進行評估,輸出相應(yīng)的顏色,體積密度等信息。
這是實時渲染應(yīng)用中NeRF開銷過大的主要原因。
現(xiàn)在,來自格拉茨科技大學(xué)和臉書的研究人員發(fā)現(xiàn),通過引入真實的深度信息,只考慮物體表面周圍的重要樣本,在不影響圖像質(zhì)量的情況下,可以大大減少每個視圖光線所需的樣本數(shù)量。
基于此,他們提出了DONeRF。
DONeRF由兩個網(wǎng)絡(luò)組成,一個是Sampling Oracle Network,它使用分類來預(yù)測沿視圖光線的最佳采樣位置。
具體而言,該深度預(yù)測網(wǎng)絡(luò)可以通過離散化沿著射線的空間并預(yù)測沿著射線的采樣概率來預(yù)測每個射線上的多個潛在采樣對象。
如下圖所示,三個顏色通道沿著光線對三個最高采樣概率進行編碼灰度值表示可能只需要對一個表面進行采樣,而顏色值表示需要對這些樣本進行深度擴展
其次,它是一個著色網(wǎng)絡(luò),使用類似于NeRF的光線傳播累積方法來提供RGBA輸出。
為了消除輸入的模糊性,研究人員還將光線轉(zhuǎn)化為統(tǒng)一的空間,并使用非線性采樣來跟蹤接近區(qū)域。
此外,在兩個網(wǎng)絡(luò)之間,研究人員扭曲了局部樣本,從而可以將著色網(wǎng)絡(luò)的高頻預(yù)測引導(dǎo)到前景。
本文還介紹了視圖單元的概念視圖單位被定義為具有主方向和最大視角的邊界框
簡單地說,這個邊界框可以捕捉來自框內(nèi)和某個旋轉(zhuǎn)范圍內(nèi)的所有視圖光線。
通過這種方法,我們可以分割大場景,解決NeRF不能應(yīng)用于大場景的問題。
此外,較小的視圖單元減少了場景中的可見內(nèi)容,因此成像質(zhì)量可以進一步提高。
比較結(jié)果
因此,DONeRF與它的前身NeRF相比能有多快。
我們直接看對比結(jié)果。
在相似的質(zhì)量下,NeRF總共使用了256個樣本但是DONeRF只用了4個樣本,可以提升20—48倍的速度
而在成像細(xì)節(jié)方面,DONeRF的圖像邊緣更加清晰。
研究人員還指出,在16個樣本的情況下,從峰值信噪比來看,DONeRF在幾乎所有場景中都超過了NeRF。
入口
論文地址:
項目地址:
聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費建議。文章事實如有疑問,請與有關(guān)方核實,文章觀點非本網(wǎng)觀點,僅供讀者參考。