- Deep Homography Estimation에 관한 모든 것
- [16′ arxiv] Deep Homography Estimation : Deep Image Homography Estimation 핵심 리뷰
- [17′ ICCV] Hierarchical Homography Estimation : Homography Estimation from Image Pairs with Hierarchical Convolutional Networks 핵심 리뷰
- [18′ ACCV] Perspective Field Homography Estimation : Rethinking Planar Homography Estimation Using Perspective Fields 핵심 리뷰
- [18′ ICRA] Unsupervised Deep Homography: A Fast and Robust Homography Estimation Model 핵심 리뷰
- [19′ arxiv] Deep Mesh Flow: Content Adaptive Mesh Deformation for Robust Image Registration 핵심 리뷰
- [20′ ECCV] Content Aware Deep Homography Estimation : Content-Aware Unsupervised Deep Homography Estimation 핵심 리뷰
- [20′ CVPR] Dynamic Scene Deep Homography Estimation : Deep Homography Estimation for Dynamic Scenes 핵심 리뷰
- [21′ CVPR] Perceptual Loss for Robust Unsupervised Homography Estimation 핵심 리뷰
- [22′ arxiv] Depth Aware Deep Homography Estimation : Depth-Aware Multi-Grid Deep Homography Estimation with Contextual Correlation 핵심 리뷰
내용 요약
Perspective Field Regression Network를 사용하는 Deep Homography Estimation 방법론을 설명합니다.
1. 들어가며
이번 논문은 Deep Homography Estimation 방법론에 관한 논문입니다. 기존 방법들이 H Matrix를 바로 Regression 하는 방식을 사용했던 반면에 각 픽셀의 Offset을 예측하는 방식을 사용하는 방법론을 설명합니다.
2. 제안 방법
제안 방법을 살펴보겠습니다.
2-1. Homography parameterization
Deep Homography Network, Hierarchical Homography Network 등 기존 Deep Homography Estimation에서는 CNN을 사용하여 Output으로 Homography Matrix를 Regression 하는 방식들을 많이 사용했습니다.
하지만 저자들은 이 방식에는 한계가 있다고 주장합니다. 왜냐하면 H Matrix는 Rotation, Translation, Focal Length, Skew, Optical Center Parameter 등을 Implicit 하게 Encoding 하기 때문입니다. 또한 각각의 Value Range Variance가 달라 Loss Function만으로 이들의 밸런스를 맞추기 쉽지 않다는 문제도 있습니다. 저자들은 이 문제를 해결하기 위해 Input Image에 대해 H Matrix를 Regression 하는 방식이 아닌 모든 픽셀에 대해 Motion 값을 예측하는 Perspective Field를 Output으로 내는 방식을 제안합니다.
Perspective Field Matrix는 각 픽셀 별 x, y에 대해 각각의 Offset값을 갖습니다.
이렇게 구한 Perspective Field는 DLT를 사용하여 H Matrix로 변환하는 방법을 사용합니다.
2-2. FCN architecture
다음은 Network Architecture를 살펴보겠습니다. 각 픽셀 별 Offset을 예측해야 하므로 Segmentation Network가 필요하고, 이를 위해 저자들은 FCN Architecture를 사용합니다.
Encoder는 Image Pair의 Spatial Correlation 정보를 압축하고 Decoder는 이를 받아 Perspective Field로 변환하도록 학습합니다.
2-3. Loss function
다음은 Loss Function을 살펴보겠습니다. 보통 Regression을 위해 Ground Truth와의 L2 Loss를 많이 사용합니다. 하지만 저자들은 L2 Loss를 사용하면 Outlier에 초점을 맞춰 학습하게 되는데, Homography Estimation은 Minor Outlier가 아닌, Major Inlier에 초점을 맞춰야 하기 때문에 Smooth L1 Loss를 사용할 것을 제안합니다.
3. 실험 결과
다음은 이렇게 제안한 방법의 실험 결과를 살펴보겠습니다.
3-1. Synthectic dataset generation
먼저 학습 데이터 제작 방식을 살펴보겠습니다. Perspective Field Ground Truth는 Deep Homography Network와 동일한 방식으로 제작했습니다.
3-2. Evaluation
다음은 성능 비교를 살펴보겠습니다.
Deep Homography Network, Hierarchical Homography Network 등 보다 좋은 성능을 확인할 수 있습니다.