作者(外文):Chang, Shih-Hsiu
論文名稱(外文):Adapting Perspective-domain CNNs to 360 Panoramic Imagery via Cross-viewpoint Consistency Optimization
指導教授(外文):Chu, Hung-Kuo
口試委員(外文):Yao, Chih-Yuan
Hu, Min-Chun
在現今飛快發展的多媒體影音技術之下,360全景影像和影片充分展現其在進階電腦視覺或圖學的應用上擁有極大的潛力,尤其是在機器人開發,自駕車技術或著是VR與AR的發展。然而,360全景影像雖然容易取得,但標註完善的影像資料卻極其稀少,這使得仰賴大規模的標註資料的深度學習與傳統捲積網路技術在360全景影像上發展受限。相形之下,一般傳統的影像在大量資料的幫助之下,已經有相當多訓練完善的深度捲積網路可以利用。基於這點,此論文提出一個簡單且有效的方法能快速將訓練好的網路模型(訓練在傳統影像上)適配到360全景領域下。此論文提出的方法關鍵的創新點在於利用360全景中的跨視角重疊區域的一致性來進行最佳化,其中使用未標註過的360全景資料庫來進行模型訓練,以此方法將原本在傳統透視圖像領域下訓練好的網路適配到360全景圖像資料庫上。在最佳化訓練過程中,我們提出的目標函數(objective function) 由以下兩個部分組成:i) 藉由從360全景影像中以不同視角產生的多個傳統一般影像(perspective views) 產生模型的預測結果(predictions) 來計算重疊部分的數值一致性,並且為了避免單純的一致性優化所造成的數值錯誤(數值皆為單一常數),因此ii) 訓練中同時會使用最佳化前的原始預測結果來做正規化。此論文中將闡述且驗證提出的跨視角一致性最佳化方法
的有效性,其中我們實作在三種不同的室內密集預測任務上:(1) 深度估測,(2) 表面法向量估測,以及(3) 具語意的圖像分割。從論文的實驗結果中可得知提出的方法,搭配不同的全景領域適配方法都能夠提供顯著的正確性提升。
360 images and videos have shown great potential in a variety of advanced vision and graphics applications such as robotics, autonomous driving, and virtual/augmented reality.
However, the lack of large-scale, diverse annotated 360 datasets severely hinder developing general deep convolutional neural networks (CNNs), which are typically data hungry. In
contrast, there is a huge body of CNNs well-trained on massive labeled perspective images. To bridge this gap, we present a simple yet effective way to quickly adapt a model (pre-trained
on perspective images) to 360 imagery. The key technical novelty lies in a cross-viewpoint consistency optimization for re-training the source domain model merely using the unlabeled 360 images. The objective function is tailored to i) capture the consistency among the model prediction on multiple sampled views, while ii) being regularized using the original prediction to avoid numerical collapsing during the training. We demonstrate the effectiveness of our cross-viewpoint consistency framework on three dense prediction tasks: 1) depth prediction, 2) surface normal estimation and 3) semantic segmentation of indoor scenes. The results indicate that our method provides consistent accuracy improvement in five different approaches of adapting models from perspective to 360 images.
Abstract ii
1 緒論1
2 相關研究-----------------------4
360 全景感知-----------------------4
3 跨視角一致性-----------------------7
3.1 等距長方投影與透視投影-----------------------7
3.2 跨視角之一致性-----------------------9
4 最佳化-----------------------10
4.1 方法概觀-----------------------10
4.2 損失函數-----------------------12
4.3 漸進式採樣-----------------------13
5 實驗結果與討論-----------------------15
5.1 適配全景領域-----------------------15
5.2 深度資訊估測-----------------------16
5.3 表面法向量估測-----------------------22
5.4 具語意之圖像分割-----------------------23
5.5 對比實驗-----------------------27
6 結論-----------------------29
