- Deep Homography Estimation에 관한 모든 것
- [16′ arxiv] Deep Homography Estimation : Deep Image Homography Estimation 핵심 리뷰
- [17′ ICCV] Hierarchical Homography Estimation : Homography Estimation from Image Pairs with Hierarchical Convolutional Networks 핵심 리뷰
- [18′ ACCV] Perspective Field Homography Estimation : Rethinking Planar Homography Estimation Using Perspective Fields 핵심 리뷰
- [18′ ICRA] Unsupervised Deep Homography: A Fast and Robust Homography Estimation Model 핵심 리뷰
- [19′ arxiv] Deep Mesh Flow: Content Adaptive Mesh Deformation for Robust Image Registration 핵심 리뷰
- [20′ ECCV] Content Aware Deep Homography Estimation : Content-Aware Unsupervised Deep Homography Estimation 핵심 리뷰
- [20′ CVPR] Dynamic Scene Deep Homography Estimation : Deep Homography Estimation for Dynamic Scenes 핵심 리뷰
- [21′ CVPR] Perceptual Loss for Robust Unsupervised Homography Estimation 핵심 리뷰
- [22′ arxiv] Depth Aware Deep Homography Estimation : Depth-Aware Multi-Grid Deep Homography Estimation with Contextual Correlation 핵심 리뷰
내용 요약
Photometric loss로 unsupervised learning 방법으로 학습하는 deep homography estimation 방법론을 설명합니다.
1. 들어가며
이번 논문은 Homography estimation 방법론에 관한 논문입니다. Warp 된 이미지와 target 이미지와의 photometric loss로 unsupervised learning 방식으로 학습하는 방법론을 설명합니다.
2. 제안 방법
제안 방법을 살펴보겠습니다.
![[18' ICRA] Unsupervised Deep Homography: A Fast and Robust Homography Estimation Model 핵심 리뷰 1 1.제안방법](https://blog.kakaocdn.net/dn/diAJW4/btrCJUoSauK/yFRAYXpP9V174uKsJsz3u0/img.png)
기존의 feature based 방식과 비교했을 때 feature를 사용해서 homography estimation을 수행한다는 점이 공통점입니다. 차이점은 feature based 방식에서는 feature를 정의해서 사용했지만, 제안 방법은 deep learning 방식을 따라 필요한 feature를 학습한다는 점입니다. 특히 제안 방법의 가장 큰 장점은 unsupervised learning 방식으로 학습하기 때문에 homography ground truth가 필요하지 않다는 점입니다.
2-1. Model inputs
먼저 model의 input을 살펴보겠습니다. 크게 3가지의 input을 필요로 합니다.
첫 번째는 image로부터 crop 한 patch입니다. Transform 할 이미지 A와 target이 되는 이미지 B의 패치를 stack 하여 구성합니다.
두 번째는 transform 할 이미지의 4 corners입니다.
세 번째는 warp를 수행할 이미지 A의 원본입니다.
2-2. Tensor direct linear transform
다음은 tensor direct linear transform 부분을 살펴보겠습니다. 이는 기존의 DLT 알고리즘을 그대로 tensor로 구현하였습니다. 4 points H를 받아 3×3 parameterization of homography로 transform 하는 역할을 수행합니다.
2-3. Spatial transformation layer
다음은 DLT로부터 얻은 H로 이미지 A를 warp 할 차례입니다. Backpropagation으로 학습하기 위해 warp를 수행하면서도 differential 해야 합니다.
2-4. Unsupervised loss
이렇게 나온 warp 된 이미지 A는 target인 이미지 B와 alignment가 맞아야 합니다. 이를 학습하기 위해 photometric loss를 구성합니다.
![[18' ICRA] Unsupervised Deep Homography: A Fast and Robust Homography Estimation Model 핵심 리뷰 2 2.photometric-loss](https://blog.kakaocdn.net/dn/W1Gsy/btrCJuRrPuu/tRDzDwjltZsvjAwX7qp7Fk/img.png)
이는 warp 된 이미지 A와 이미지 B의 L1 loss입니다.
3. 실험 결과
다음은 이렇게 제안한 방법의 실험 결과를 살펴보겠습니다.
3-1. Synthetic data results
먼저 synthetic data에 대한 실험 결과를 살펴보겠습니다.
![[18' ICRA] Unsupervised Deep Homography: A Fast and Robust Homography Estimation Model 핵심 리뷰 3 3.synthetic-data-result](https://blog.kakaocdn.net/dn/P5KnZ/btrCJSLlysv/H2n9ck7WDLKqSgRdgdgdCk/img.png)
우선 feature based 방식보다 learning 방식들이 dataset displacement에 상관없이 일정한 성능을 보이는 모습을 볼 수 있습니다.
다음으로 supervised learning 방식인 direct ECC 모델은 illumination variation and large distplacement를 해결하지 못하지만, 제안 방법은 이를 잘 해결하는 모습을 볼 수 있습니다.
이에 대해 저자들은 세 가지 해석을 주장합니다.
첫 번째는 large receptive field가 large image displacement를 잘 잡아내기 때문입니다.
두 번째는 direct 방식은 gradient가 homography parameter를 바로 업데이트하는데 반해, 제안 방법은 learned feature를 improve 하기 위해 업데이트하기 때문입니다.
세 번째는 direct 방식은 oneline optimization 방식으로서 one pair of image의 gradient로 업데이트되는데 반해, 제안 방법은 batch of images로 업데이트하기 때문에 gradient를 average 해줘서 offline optimization 되고 따라서 noise에 강건해지기 때문입니다.
3-2. Aerial dataset results
다음은 aerial dataset 실험 결과를 살펴보겠습니다.
![[18' ICRA] Unsupervised Deep Homography: A Fast and Robust Homography Estimation Model 핵심 리뷰 4 4.aerial-dataset-results-1](https://blog.kakaocdn.net/dn/ULh30/btrCJvQn00N/PMEleNOJkLaPv8pQd4q98K/img.png)
![[18' ICRA] Unsupervised Deep Homography: A Fast and Robust Homography Estimation Model 핵심 리뷰 5 5.aerial-dataset-results-2](https://blog.kakaocdn.net/dn/borQgR/btrCMaqIDiR/ESj6LJ2zltMkRLWMoJhPLk/img.png)
Aerial dataset에는 grount truth가 없기 때문에 ECC 모델은 synthetic dataset으로 학습하고 바로 inference를 수행했습니다. 성능은 제안 방법보다 훨씬 낮은 모습입니다. 이는 supervised learning 방식의 한계를 보여주며, 반대로 제안 방법의 실용성을 보여준다고 할 수 있습니다.