2019년 5월 17일 금요일

Deep Learning for Super-Resolution: A Survey (1)

Image Super-Resolution(이하 SR)은 컴퓨터 비전 분야의 중요한 갈래 중 하나로 이미지나 비디오의 해상도를 좋게 하는 영상처리 기술을 말합니다. 영화나 미드에서 위성 사진을 바탕으로 계속 확대해보라고 하는 장면이 종종 나오는데요, 이런 클리셰를 너무 많이 써먹은 나머지 아래와 같은 짤방이 만들어질 정도로 우리에게 SR은 꽤나 친숙한 기술입니다.



짤방에서는 비현실적인 예시로 클리셰를 비꼬고 있지만 최근 Deep learning을 이용한 SR 기술들을 보면 우리가 생각하는 것 이상으로 기술이 빠르게 발전하고 있다는 것을 알 수 있습니다.
“Any advanced technology is indistinguishable from magic”.
- Arthur C. Clarke
한 때 잠시 SR을 했었고 다시 또 SR에 관심을 가지게 되면서, 최신 연구 동향을 파악하고 스스로의 공부를 위해 정리 글을 작성해보고자 합니다.

Single Image Super-Resolution 


SR에는 Single Image(SI)를 이용한 방법 외에도 Multiple Images를 이용한 방법들 역시 많이 연구되었으나 이 글에서는 SISR 에서 external-example based methods에 속하며 그 중에서도 deep learning model을 사용한 연구에 집중하여 리뷰합니다. Survey의 형식이기 때문에 세세하게 설명하기 보다는 굵직한 모델들의 컨셉을 소개하고 전체적인 흐름을 위주로 짚어가며, 각 모델들에 대한 자세한 내용은 필요한 경우에 한해서만 다룰 생각입니다 (**).

Single Image Super-Resolution(SISR)은 한 장의 저해상도 이미지(low resolution image, LR)를 가지고 고해상도의 이미지(High resolution image, HR)를 만들어 내는 대표적인 low-level vision 문제입니다. 의료 영상에서부터 감시 카메라 및 보안 영상 등에 다양하게 적용이 가능한 기술이기에 컴퓨터 비전 분야에서 전통적으로 매우 중요하게 다뤄져 왔습니다.

Problem Definition


SISR에서 LR 이미지 $y$에 대한 수학적 모델은 일반적으로 다음과 같이 정의됩니다:
$$y = (x ⊗ k)↓s + n.$$ $x$와 $k$는 각각 우리가 모르는 원본 HR 이미지와 이에 씌워지는 (convolved) degradation or blur kernel입니다. 이렇게 degradation이 일어난 $x$에 $s$만큼 downsampling ($↓s$)되고 system noise $n$가 더해져서 LR image $y$가 얻어진다고 생각할 수 있습니다.

문제는 하나의 LR 이미지 $y$에 대응될 수 있는 HR 이미지 $x$가 매우 다양할 수 있기 때문에 SISR이 대표적인 ill-posed problem라는 점입니다 (**). 전통적으로는 sparsity나 image statistics를 이용한 prior knowledge를 기반으로 문제를 푸는 optimization 방법들이 활발히 연구되어 왔지만, 최근 Deep learning을 적용되면서 분야 전체가 믿기 힘들 정도로 더욱 빠르게 발전하고 있습니다. 단순히 deep network를 적용하는 것뿐만 아니라 전반적인 모델framework부터 데이터 전,후처리 방식, upsampling 방식 등 매우 다양한 방면으로 연구 및 발전이 이루어지고 있는 것을 보실 수 있습니다.
** 전통적인 SISR 방식에 대해 궁금하다면 (이 글)을 참고하시면 됩니다.
** why? 좀 더 자세하게 알고싶다면 (이 글)을 참고하시면 됩니다.


SRCNN: The Start of Deep Learning in SISR


언제나 그렇듯 각 분야마다 deep learning을 처음으로 도입한 cornerstone이 되는 연구가 하나씩 있기 마련인데요 SISR 분야에서 최초로 CNN을 적용한 연구는 SRCNN(Dong et al.)으로 이름도 찬란한 Kaiming He가 저자 중 1인입니다. (이 양반은 안 끼는데가 없네..)

요즘 나오는 모델들에 비교한다면 deep network라는 이름도 무색할만큼 매우 적은 channel과 layer 수를 갖는 매우 작은 네트워크라는 것을 볼 수 있는데요. 그럼에도 불구하고 여전히 눈여겨 볼 점은, 당시 state-of-the-art 알고리즘들을 큰 차이로 이기고 새로운 baseline을 개척했다는 점, 제안한 3개 layer짜리 SRCNN 구조가 empirical heuristic에 근거한 것이 아닌 전통적인 sparse coding method와의 연관성을 바탕으로 고안되었다는 것입니다. (혹은 최소한 그런 링크가 있다고 매우 그럴 듯하게 주장했ㄷ...)

SRCNN

그림에서 보실 수 있듯이 CNN에서 data-driven filter를 이용한 각각의 nonlinear transformation들이 전통적인 방식에서의 patch extraction, nonlinear mapping (from LR to HR patches) 그리고 reconstruction step에 대응된다고 얘기하고 있습니다:

1. Patch extraction and representation: LR 이미지에서 patch들을 추출해서 high dimensional feature vector로 표현하는 단계; 전통적으로는 PCA나 DCT, Haar 등을 사용해서 추출된 patch들을 pixel representation이 아닌 feature로 represent합니다. 이 과정 자체가 이미지 $\mathbf{Y}$에 특정 filter들을 사용하여 convolution operation을 수행하는 것으로 생각할 수 있으므로 아래와 같이 표현이 가능할 것입니다: $$F_1(\mathbf{Y}) = max(0,W_1 * \mathbf{Y} + B_1)$$ 2. Non-linear mapping: High dimensional feature space (e.g. LR patch space)의 patch들을 또 다른 high dimensional feature space (e.g. HR patch space)로 mapping해주는 단계; 하나의 feature space에서 다른 feature space로 mapping해주는 것 역시도 change of basis로 생각하면 learned basis 혹은 filter를 이용한 convolution operation으로 나타낼 수 있겠습니다: $$F_2(\mathbf{Y}) = max(0,W_2 * F_1(\mathbf{Y}) + B_2)$$ 3. Reconstruction: mapping된 feature vector를 바탕으로 HR 이미지를 만들어내는 단계; 마지막으로 feature domain에서 HR image domain으로 averaged output 생성입니다. 마찬가지로 convolution operation으로 표현이 가능합니다: $$F(\mathbf{Y}) = W_3 * F_2(\mathbf{Y}) + B_3$$
여기서 한가지 더 주목할 부분은 이전의 방식들이 각각의 단계를 처리하는 여러 알고리즘들이 종합적으로 합쳐져서 SR 문제를 풀었다면, SRCNN은 최초의 end-to-end 방식으로써 모든 step을 하나의 통합된 framework에서 처리한다는 것입니다. 특히 매우 단순 명료한 방법으로 기존의 신호처리 관점에서 바라보던 SISR 문제를 deep learning의 관점에서 풀어내면서도 양쪽을 이어주는 가교 역할을 했다는 것에 의의가 있습니다.

Problems to solve


SRCNN은 이후 CNN을 사용한 SISR methods들에 좋은 영감을 주었는데, (아아 그는 좋은 baseline이었다) 이후 나온 Deep learning 방식들은 큰 줄기에서 보면 모두 SRCNN의 단점들을 보완하기 위한 방향으로 발전되었습니다. 각각의 단점들을 크게 정리하면 아래 세 가지로 나눌 수 있습니다:
  1. Bicubic LR
  2. Shallow (three-layer) network
  3. Naive prior in the model

1. Bicubic LR

마지막에 HR 크기로 (최소한 비슷한 **) 이미지를 맞추기 위해 SRCNN은 먼저 bicubic upsampling을 적용한 LR 이미지를 input으로 사용합니다. 논문에서는 bicubic upsampling이라는 operation 자체도 또 하나의 deterministic convolution layer라고 할 수 있다고 설명합니다만 이렇게 upsample이 적용된 LR input을 주는 것으로 여러 애로사항이 꽃 피게 됩니다;
** 사실 SRCNN에서는 padding이 없어서 convolution layer를 지날 때마다 feature map size가 줄어든다.
1) 일단, bicubic upsampling을 LR에 적용해서 준다는 점 자체가 HR 이미지에 대한 degradation model에 대한 implicit prior를 주게 됩니다. 이로 인해 estimation bias가 생깁니다. 따라서 downsampling 혹은 degradation model이 bicubic이 아닌 알지 못하는 좀 더 realistic한 setup에서 학습된 모델의 성능이 저하되는 것을 막을 수 없지요.
2) 또한 처음부터 input size를 크게 사용하기 때문에 computation cost가 늘어나고 따라서 모델이 느려질 수 밖에 없습니다.

2. Shallow network

2014년이라는 시점을 생각하면 매우 당연한 일이기는 합니다만 SRCNN은 더 많은 데이터와 깊은 모델을 사용하면 좋은 성능을 보일지도 모른다는 가능성을 얘기하면서도, 실제로 그런 모델이 잘 동작한다는 것을 보이지는 못했습니다. (오히려 깊은 네트워크에서 성능이 떨어진다는 것을 보였지요) 따라서 이후 많은 연구들이 어떻게 하면 성능 향상을 위해 깊은 네트워크를 학습시킬 수 있을지에 대해 집중하였고, 이후 소개할 VDSR(very deep SR network)를 기점으로 다양한 모델들이 제안되었습니다.

3. Naive prior

앞서 첫번째에서 얘기한 것과 비슷한 맥락으로, SRCNN의 학습 방식은 network architecture에 대한 통찰력 있는 분석에 비해서는 좀 아쉬운 점이 있습니다. 단순히 최종 output과 HR 이미지의 MSE를 줄이는 모델을 바탕으로 학습하는데, SISR이라는 문제에 적합한 prior knowledge를 모델 디자인이나 loss 함수에 이를 적절히 녹여넣어 보다 나은 성능을 얻을 수 있지 않을까라는 질문을 할 수 있겠습니다. 이에 답하기 위해, 역시 이후 많은 연구들이 multi-scale learning 등의 다양한 framework들을 제안하였습니다.

Deep models for SISR


SRCNN이 매우 초기 연구고 여러가지 단점이 있지만 최신 모델들이 갖고 있는 중요한 요소들은 모두 갖추고 있습니다.  이런 관점에서 SRCNN을 큰 부분으로 나눠보면, upsampling methods, model framework, network design, learning strategy의 조합으로 이루어졌다는 것을 알 수 있는데요. 이제부터는 위에서 소개한 문제를 해결하기 위해 각 요소가 어떤 방향으로 발전되고 있는지 하나씩 정리해보겠습니다.

1. Upsampling methods


결국 SISR이라는 문제가 LR에서 HR 이미지로 크기를 키우는 방법을 연구하는 것이므로 먼저 주목을 받은 것은 CNN에서 이미지 크기를 "어떻게 키울 것인가"  입니다.

1) Interpolation-based Upsampling
가장 먼저 고려되었던 방식은 당연하게도 전통적인 interpolation입니다. 이런 upsampling 방식은 implementation이 쉽고, interpretable하다는 장점이 있어 pre-processing으로 많이 사용되었습니다:
  • Nearest-neighbor interpolation
  • Bilinear Interpolation
  • Bicubic Interpolation
그러나 전통적인 interpolation은 external data 정보를 이용하지 못하고, 따라서 dataset이 많을 때 기대할 수 있는 이점이 없기에 deep learning에서 추구하는 바와는 잘 맞지 않았습니다. 게다가 각 방식의 특성에 따라 blurring이나 noise amplification 등이 추가되는 경우가 있어서 초기에만 사용되었습니다. 

2) Learning-based Upsampling
위와 같은 문제들을 피하기 위해 SISR에서는 점차 upsampling operation 자체를 학습하는 방향으로 연구가 진행되었는데, 대표적인 예로는 두 가지 방식이 있습니다:
  • Transposed Convolution Layer
  • Sub-pixel Layer
Transposed Convolution Layer는 흔히 Deconvolution Layer라고도 불립니다. (다만 이러한 명칭에는 전통적으로 영상신호처리 얘기하는 deconvolution과 관련성이 없고 이름이 겹치며 실제 operation을 제대로 설명하고 있지 않다는 문제점이 있기에 Transposed Convolution이라는 표기를 더 선호합니다) 

SISR 분야에서 처음으로 Transposed Convolution을 사용한 연구는 SRCNN의 1저자 Dong이 후속으로 발표한 FSRCNN(Fast SRCNN)입니다. 명확한 이해를 위해서 먼저 각 operation에 대해 설명하는 그림을 보면 아래와 같습니다 (Fig. 4):

모든 learnable 방식이 공유하는 장점이겠으나, Transposed Convolution은 downsampling kernel이 알려지지 않았을 때, 단순한 interpolation 방식(handcrafted implicit prior)을 쓰는 것보다 더 나은 성능을 보여줍니다. External data로부터 정보를 얻을 수 있을뿐더러 부정확한 estimation으로 인한 side effect도 피할 수 있다는 장점이 있었기에 지금도 많은 모델에서 사용되고 있습니다.

한편, Sub-pixel Layer는 Transposed Convolution이 expanding 단계 이후 convolution operation을 할 때, 중복하여 계산되는 pixel이 많아 계산량에서 손해를 보는 단점이 있다는 것을 지적하고 이를 개선하기 위해 제안되었습니다. 그림(Fig. 5)에서 볼 수 있듯이 1) 계산하고자 하는 pixel을 channel쪽으로 밀어넣고, 2) 마지막에 pixel들의 위치를 배치하는 방식을 사용하여 매우 단순하지만 효과적인 방식으로 중복 연산을 없앴습니다.
** 기존 Transposed Convolution의 expanding 단계에서 추가되는 pixel이 nearest neighbor가 아닌 zero padding일 때, Sub-pixel 방식이 Transposed Convolution과 같아진다는 것을 알 수 있습니다.

이렇듯 Sub-pixel 방식은 계산이 효율적이기 때문에 많은 모델에서 사용되고 있습니다. 다만 일반적으로 Sub-pixel 방식은 학습 이후 gridding artifact가 생긴다는 점이 단점으로 지적되고 있어서 다른 variations를 찾는 연구들 역시 제안되고 있습니다.
** 이쪽은 관심이 없는지라 더 깊이 살펴보지는 않았습니다만 관심있으신 분들은 "Checkerboard artifacts free convolutional neural networks"와 논문을 보시면 되겠습니다. 

2. Model framework


한편 전반적인 model framework 관점에서 upsampling module을 어디에 놓는 것이 좋을 지에 대해서도 다양한 연구가 있었습니다. 이들을 크게 네 갈래로 나누자면 아래와 같습니다:
  1. Pre-upsampling
  2. Post-upsampling
  3. Progressive upsampling
  4. Iterative up-and-down sampling
이름에서도 명확히 드러나듯이 모델마다 upsampling을 앞 혹은 뒤에 놓는 것에 따라 특징이 있는데 각 방식에 대한 장단점을 분석해보겠습니다.

Pre-upsampling: 가장 초기에 사용된 방식입니다. 처음 upsampling을 한 이후 네트워크의 input과 output 크기가 동일하게 유지되기 때문에, 계산량에서 손해를 보므로 대다수의 후기 연구들에서는 사용하지 않게 되었습니다.
** 그러나 이것이 꼭 단점만은 아닐 수도 있습니다. 계산량과는 별개로 practical implementation 관점에서 input과 output의 크기가 같다는 점이 주는 장점이 있죠. Input의 크기가 원하는 output 크기와 같기 때문에 다양한 배율(scale)에 대해서 같은 네트워크를 적용할 수 있게 됩니다. 이후 소개를 하겠으나 x2, x3, x4, x8 등의 다양한 scale dataset을 모두 사용하는 multi-scale learning을 적용할 때, 이런 형태의 model framework은 input 크기를 바꿔주는 것이 deterministic하고 따라서 네트워크에 대한 별다른 구조적 변화를 고려하지 않아도 된다는 장점이 있습니다 

Post-upsampling: 앞서 잠시 언급했던 FSRCNN이 바로 이런 형태였습니다. Transposed Convolution을 사용하여 네트워크 마지막 부분에서만 upsample을 하기 때문에 앞에 대다수의 연산이 작은 feature space에서 이루어지고, 이로 인해 학습이 빨라지고 안정될 뿐만 아니라 계산량에서 큰 이득을 보게 됩니다. 이런 장점들로 인해 이후 거의 대부분의 모델들이 Post-upsampling 방식을 사용하고 있습니다.

Progressive upsampling: Post-upsampling 방식들은 마지막에서 한 번에 HR 이미지 크기로 올린다는 특징 때문에 배율이 높은 SR(e.g. x8) 모델 학습이 어렵습니다. 각 배율마다 별개의 네트워크가 필요하기에 multi-scale SR을 하는 모델에도 적합하지 않구요. 이런 문제들을 해결하기 위해 단계적으로 (progressively) 크기를 증가시키는 모델들이 제안되었고 CVPR 2017에 발표된 Laplacian pyramid SR Network (LapSRN)과 CVPR 2018에 발표된 Progressive SR (ProSR)이 그 대표적인 예시들입니다.
LapSRN 구조

이런 모델들의 경우 단일 모델이 한 번의 feed-forward 연산으로 여러 배율(x2, x4, x8 등)의 이미지를 만들 수 있어서 다른 방식에 비해 더 경제적인 multi-scale SR이 가능합니다. 
** 개인적으로 LapSRN과 같이 전통적인 Laplacian pyramid와 Deep model을 결합한 방식의 연구를 매우 좋아하는데, 한편으로는 매우 아쉬운 것이 같은 생각을 하여 모델을 만들었었다는 점입니다. 그리고나서 이 모델을 발견하고 세상에 새로운 것이라고는 없다는 것을 다시 한 번 깨달았습니다...orz.. 

Iterative up-and-down sampling: 이 model framework은 매우 최근에 제안된 모델 때문에 생긴 갈래로, CVPR 2018에 발표된 Deep Back-Projection Network (BPDN)입니다. Super-resolution competition으로 유명한 NTIRE workshop에서 2018년 우승(classical task)을 한 모델로 Bicubic downsampling track에서 뛰어난 성능을 보여주었습니다. LR-HR 이미지 간의 관계를 좀 더 잘 학습하기 위해서 optimization 분야의 iterative method들로부터 영감을 얻어 네트워크에 적용하였습니다. LR과 HR 이미지 domain 간에 up (projection)-and-down (back-projection) mapping을 반복하면서 최종 결과가 점차 개선되기를 기대해볼 수 있습니다.
** 저는 의료 영상 분야에서 와서 그런지 back-projection이 매우 익숙한 방식인데, 점차 이와 같은 classical optimization technique들을 deep learning model에 녹여넣는 형태의 연구들이 많이 소개되는 것으로 보입니다.
** Progressive와 iterative model framework는 모두 성능에서 좋은 향상을 불러왔지만 모델 구조가 복잡하고 학습이 어려워졌다는 단점이 따라오게 됩니다만, 개인적으로 이런 방향의 연구가 다른 framework들에 비해서 앞으로 좀 더 유망하다고 생각합니다. 

3. Network Design


Network design은 SISR 모델에 대한 연구에서 단연 가장 많은 분량을 차지하고 있는 요소이며 classical deep model의 발전과 함께 다양한 구조들이 시도되었습니다:


다양한 SISR 모델 구조 도식 [3]

위 그림에서 보여드리는 네트워크들은 SISR 모델로 제안된 수많은 연구들 중 일부에 불과합니다. 그러나 다행하게도! 이들을 잘 정리해보면, 대략 아래와 같이 큰 줄기로 나누어 정리할 수 있습니다:


SISR 모델 카테고리 [2]

Residual learning
Network design을 살필 때 가장 먼저 언급이되는 논문은 자랑스럽게도 한국인이 저자인 Very Deep SR network (VDSR, CVPR 2016)입니다. 현재 SK에 상무로 계시는 김지원님이 서울대 이경무 교수님 연구실에서 학생이던 때 발표한 모델인데요. SISR 분야 연구에 대해 얘기할 때면 SRCNN과 함께 가장 먼저 나오는 모델 중 하나이며, 여기서 제안된 residual learning은 지금도 여전히 많은 모델들이 사용하고 있는 방식입니다.

VDSR은 SRCNN과 같이 SISR의 cornerstone paper 중 하나로 가장 처음으로 SISR에 학습 가능한 깊은 모델을 제안하였습니다. VGG 네트워크 구조를 차용하여 20개 layer를 쌓아 학습을 시켰고, 깊은 모델의 학습을 위해 두 가지를 제안하였는데 첫째는 global residual learning이고 둘째는 gradient clipping을 동반한 adjustable high learning rate입니다.

이 중 residual learning은 여전히 사랑받고 있는 방법으로 위 그림에서 볼 수 있듯이 학습이 LR 이미지에서 HR 이미지로 mapping하도록 하는 것이 아닌 bicubic upsampled LR 이미지와 HR 이미지의 잔차(residual) 혹은 noise를 학습하는 방식을 제안합니다. (주의할 점은 ResNet의 residual과는 약간 결이 다르다는 점입니다. 이 맥락에서 ResNet은 보다 local residual learning을 수행한다고 할 수 있겠네요.)

Residual image로 학습 대상을 바꾼 것은 full HR 이미지보다 만들어야 하는 정보가 적기에 SISR 문제를 상대적으로 쉬운 문제로 치환하는 효과를 주었습니다. 이로 인해 deep network의 학습이 안정적이고 가속되면서도 성능에 매우 큰 향상이 가능해졌고 이후 많은 모델들이 동일한 전략을 취해 비슷하게 성능 향상을 report하였습니다.
** 같은 맥락에서 제가 CVPR 2017에 발표했던 Wavelet-based SR network에서도 네트워크가 고정되어 있을 때, 학습해야하는 input-output 쌍을 위상적으로 간단한 형태로 미리 변환(wavelet representation & residual learning)하여 어려운 문제를 쉬운 문제로 바꿔주는 방법을 제안했었고 이 것이 주효하여 3등을 할 수 있었습니다.  

Recursive Learning
Recursive learning은 VDSR과 같이 CVPR 2016에 발표된 Deep Recursive CNN (DRCN)이 최초로 사용한 방식으로 이 역시도 VDSR의 저자인 김지원님이 1저자입니다. 네트워크의 receptive field를 크게 가져가면서도 (increase effective depth) 전체 네트워크의 학습 parameter 수를 줄이기 위해 하나의 모듈을 16번 반복하는 형태를 제안한 것이 특징입니다.

태생적으로 gradient vanishing이나 exploding에 취약하기 때문에 이를 막기 위해 앞서 소개한 residual learning이나 차후 소개할 multi-supervision과 같은 학습 방식과 병행되곤 합니다. 재미있는 점은 반복을 하는 중간 중간의 feature output들을 모두 모아 마지막에 weighted sum(**)을 해서 HR 이미지를 만들어주는데, 이 부분이 특히 성능 향상에 큰 역할을 한 것으로 생각됩니다.
** 여기서 몇가지 아쉬운 점은 각 intermediate feature output의 weight scalar가 학습되는 형태기 때문에 input에 dependent하지 않아서 inference time에 유연성이 좀 떨어진다는 것입니다. 그리고 각 weight가 전체 feature output을 scaling하므로 한 장의 feature map에서 pixel-wise difference가 고려되지 않는다는 점도 개선의 여지가 있겠네요. 

DRCN 이후에도 같은 방식을 차용한 여러 모델들이 제안되었으며, 몇몇 예로는 VGG 형태의 네트워크가 아닌 ResNet을 기반으로 한 Deep Recursive Residual Network (DRRN, CVPR 2017)이나 Memory block을 제안하고 이를 반복하는 MemNet (ICCV 2017) 등이 있겠습니다.

Deeper and Denser Learning
VDSR이 깊은 모델을 성공적으로 학습시켰으나 VGG network 형태는 사실 이렇게 깊은 모델에 적합하지 않다는 것은 잘 알려져 있습니다. 더 나은 성능을 위해 가장 쉽게 해볼 수 있는 방법은 (그리고 잘 알려져있는 성공 공식은) 더 깊은 모델을 사용하는 것이죠. 이런 맥락에서 기본 모델의 골격을 ResNet이나 DenseNet처럼 이미 classification에서 성능이 검증된 모델들로 바꾸는 것이 자연스러운 흐름이었습니다. DenseNet도 ResNet에서 분화한 것이라고 생각한다면, 최근 모델들은 모두 ResNet을 기반으로 하고 있다고 말할 수 있겠습니다.

가장 처음으로 ResNet을 사용한 SR model은 SRResNet (CVPR 2017)으로 같은 논문에서 발표된 SRGAN 모델로 더 유명하기도 합니다. SRResNet은 batch normalization을 사용하기에 깊은 모델을 안정적으로 학습할 수 있었고 좋은 성능을 보였습니다. 비슷한 맥락에서 DenseNet을 사용한 모델으로는 SRDenseNet (ICCV 2017)이나 (연구자들의 naming sense...) Residual DenseNet (RDN, CVPR 2018)등이 있습니다. 어떤 면에서는 앞서 소개한 Recursive learning을 이용하는 모델들은 parameter 증가 없이 effective depth가 깊게 만드는 모델들이라 할 수 있고, DRCN에서 그러하듯 intermediate feature를 뽑아 마지막 단계에서 합치는 것은 dense connection을 주는 것이라 생각할 수 있겠네요.

한편 네트워크를 단순히 깊고 넓게 쌓는 것뿐만 아니라 기존 ResNet 모델을 SISR 문제에 좀 더 적합하도록 개선한 연구가 Enhanced Deep residual learning for SISR (EDSR)입니다. EDSR은 모델의 성능만으로도 매우 뛰어난 연구(**)일뿐만 아니라, 이후 SISR 모델들에 큰 영향을 미친 여러가지 유용한 분석들을 여럿 보여주기 때문에 꼭 알고 넘어가야 할 cornerstone paper 중 하나이므로 좀 자세히 리뷰하도록 하겠습니다.
** 또다시 서울대 이경무 교수님 연구실에서 나온 연구로 CVPR NTIRE 2017년 우승 모델입니다. EDSR의 강력한 점은 모델이 이해하기 쉽고 간단한데, 2017년에 발표된 모델의 성능이 2019년 5월 기준으로도 가장 상위에 속하는 모델들과 비견할만하다는 점입니다 (Table). Set5 dataset에 대한 PSNR과 SSIM을 보더라도 CVPR NTIRE 2018 우승 모델인 DBPN과 비등한 것을 보실 수 있습니다: 
Table 각종 benchmark dataset에 대한 model 성능 비교 [3]


EDSR: EDSR 이전의 모델들은 모두 classification에서 좋은 성능을 보였던 네트워크들(e.g. VGG, ResNet, DenseNet)이 SISR 문제도 잘 풀 것이다라는 가정을 바탕으로 네트워크를 디자인하였습니다. 그러나 잘 생각해보면 high-level abstraction이 중요한 classification과 대표적인 low-level vision 문제인 SISR은 서로 특성이 다릅니다.

 
EDSR의 ResBlock (c)

EDSR은 ResBlock에 붙어있는 batch normalization의 특성상 feature의 정보가 섞이거나 제한된다는 점에 주목하였습니다. Low-level feature를 잘 보존해야한다는 SISR 문제에서는 학습만 안정적으로 가능하다면 batch normalization layer를 제거하는 것이 가장 좋은 성능을 얻을 수 있다는 분석을 제시하였습니다. Batch normalization을 없애면 GPU 메모리 측면에서도 40% 가량 줄어드는 부가적인 이득이 있기 때문에, 지금은 SISR 모델이라면 기본적으로 따르는 프로토콜이 되었을 정도로 널리 사용되고 있습니다.

여기서 한 가지 주의할 점은 "학습만 안정적으로 가능하다면"이라는 전제조건입니다. 얕고 적은 수의 channel을 사용하는 수준이라면 (e.g. ResBlock: 16개, 64ch) 생각보다 학습이 안정적이기 때문에 별다른 처리가 필요없지만, 그 이상으로 깊이 그리고 넓게 쌓을 때는 나눠져서 처리된 feature들이 addition 부분에서 더해지면서 전체 variance가 매우 커지기 때문에 추가적인 처리가 필요해집니다. EDSR에서는 이를 고려하여 깊은 모델에서는 각 block의 마지막 convolution layers 이후에 0.1을 곱해주어(**) 문제를 해결하는데요. 이렇게 heuristic하지만 매우 효과적인 기술(residual scaling)을 바탕으로, 이전까지 존재하던 모델들 중 가장 깊고 넓은 모델을 성공적으로 학습시킬 수 있었습니다.
** 이것은 변수에 scaling이 그 값의 제곱으로 영향이 가는 분산의 성질 (wiki)을 생각하면 이해가 쉽습니다.  

이 외에도 EDSR에서 제안하고 여전히 자주 쓰이는 기법으로는 x2로 학습한 모델을 다른 배율 모델의 시작점으로 사용하는 pre-training이 있습니다. 이렇게 pre-trained model을 사용하면 학습이 가속되고 최종 성능도 올라간다는 것을 보였는데, 이런 결과는 각 배율 별 이미지들이 공유하는 정보가 있다는 점을 알려줍니다. 여기서 착안하여 EDSR에서는 EDSR 구조를 기본으로 하되, multi-scale 이미지를 하나의 모델로 처리하는 것이 가능한 Multi-scale SR network (MDSR)를 추가로 제안하였습니다:

MDSR 구조

그림에서 보실 수 있듯이, 앞과 뒤에 각 배율을 담당하는 작은 모듈들을 두고 중간에 공유하는 네트워크가 있어서 학습시에는 배율에 따라 해당하는 모듈들이 독립적으로 학습되데 공유 모듈은 항상 학습이 되도록 합니다. 이렇게 학습을 하면 단일 배율 모델에 비슷한 성능을 내면서도 하나의 모델로 다양한 배율에 대응이 가능하기 때문에 모델 parameter 측면에서 이득이 생깁니다. (43M$\rightarrow$8M)

SR 결과 비교 (x4 배율)

그림에서 확인하실 수 있듯이 bicubic upsample과는 비교도 안 될 정도로 원본 HR 이미지에 근접한 SR 결과를 보여줍니다.

중간 Summary (~2017)


글이 매우 길어졌기에 여기서 한 번 끊고 넘어가는 것이 좋을 것 같군요. 여기까지가 대략 2017년까지 발전된 SISR 모델들을 모두 정리한 것으로, 개인적으로는 EDSR이 2017년까지의 SISR을 대표하는 모델이라고 생각합니다. EDSR 이후로는 깊은 모델을 학습시키는 방향보다는 다른 형태의 정보를 추가해줄 수 있는 모듈들이 고안하거나 성능을 유지하되 좀 더 가벼운 모델을 만드는 쪽으로 연구의 주안점이 옮겨가기 시작했습니다. 이번 글의 완결성을 위해 network design에서 아직 남은 줄기를 훑으면 아래와 같습니다:

Exploiting Non-local or Attention modules

이제 깊은 모델을 사용하는 것이 SISR 성능 향상에 중요한 역할을 한다는 점은 매우 명확해졌습니다. 그러나 그저 ResBlock을 여러번 쌓는 것만으로는 올릴 수 있는 성능에 한계가 있었습니다. 자연스럽게 좀 더 효과적으로 모델을 학습시킬 수 있는 방법에 관심이 집중되었고 (2019년 기준) 최근에는 LR 이미지의 non-local 정보를 잘 이용하는 연구들이 많이 발표되고 있습니다. 

이런 모델들이 지적하는 기존 모델의 문제점으로는:
  • CNN의 receptive field size가 상대적으로 작다는 점,
  • Feature들이 담고 있는 local 혹은 global 정보가 동등하게 처리된다는 점
등이 있습니다. 더 큰 receptive field size는 더 많은 context 정보를 사용할 수 있도록 도와준다고 생각할 수 있는데, 여기서 context 정보라 함은 반복되는 패턴(e.g., 빌딩의 창문 격자 구조 등)과 같이 global한 정보를 뜻합니다.

이런 context 정보를 local image patch만 사용하여 유추하기는 어렵기 때문에 global한 정보를 얻을 수 있는 방법을 모델에 추가해줄 필요가 있겠죠. 이런 생각을 바탕으로 최근 제안된 모델들은 새로운 convolution (e.g., dilated convolution)이나 (spatial or channel-wise) attention,  다양한 pooling (e.g., pyramid or wavelet) 등을 이용하여 non-local module을 사용합니다.

사실 이렇게 global context 정보를 이용하기 위해 non-local filter를 사용하는 아이디어는 매우 오래전부터 model-based optimization에서 많이 연구되었습니다. 가장 대표적인 예로는 BM3D가 있죠. 최근 Kaiming He가 저자로 참여하고 CVPR 2018에 발표되어 유명했던 Non-local Neural Networks라는 연구에서도 이런 관계를 밝히며, 꼭 SISR에서가 아니더라도 global 정보를 잘 사용하므로써 CNN이 보다 좋은 성능을 낼 수 있다는 사실을 보여주고 있습니다. 
Generative Adversarial Networks in SR

한편 최근 뜨고 있는 모델 형태 중 하나는 generative adversarial network을 사용하는 것입니다. Image Super-resolution은 전통적으로 image "hallucination"이라고 불리기도 하는데요. 이름에서도 알 수 있듯이 없는 것을 만들어낸다는 점을 함의하고 있습니다. 결국 낮은 배율의 이미지가 가진 정보에서 최대한 쥐어짜 이미지를 복원하고 나면, 그 이상으로 할 수 있는 최선은 가장 그럴 듯하게 이미지를 "만들어내는 것"이겠습니다.

이런 맥락에서 인간이 봤을 때 더 그럴듯한 이미지로 SR을 하는 것에 대한 연구들이 진행되고 있습니다. 단순히 PSNR이나 SSIM 같은 hand-crafted metric을 만족시키는 것뿐만이 아니라 perceptual metric을 제안하고 사용하기 시작한 것이죠. SR 분야에서 처음으로 이런 시도를 한 연구는 SRGAN입니다.

다만 아직까지는 perceptual loss가 추가되면 필연적으로 PSNR과 SSIM에서 손해를 보기에 전통적인 competetion에서 이런 모델들이 두각을 보이진 못하고 있습니다. 그러나 ECCV 2018에서 SR 최초로 perceptual metric을 competition에 사용하면서 앞으로는 연구 관심이 더 확대될 것으로 기대됩니다.

관련 논문들: 
"Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network" (SRGAN, CVPR 2017)
"A fully progressive approach to single-image super-resolution", (ProSR, CVPR NTIRE 2018)
"ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks" ECCV 2018
"2018 PIRM Challenge on Perceptual Image Super-resolution", (ECCV 2018)

맺음말


여기까지가 2018년부터 2019년 CVPR 전까지 발표된 SISR 연구 흐름이라 생각됩니다. 아마 곧 있을 CVPR 2019에서 더 많은 논문들이 발표되겠죠. 다음 글에서는 위에 간략히 살펴본 내용과 더불어서 CVPR 2019에서 발표된 연구들까지 포함하는 것으로 network design에 대한 내용을 마무리 짓고 learning strategy 측면의 발전과 여전히 남은 한계점들에 대한 내용을 다룰 예정입니다. 그러면 이번 글은 여기서 마무리 하겠습니다. 다음 글에서 뵙지요.

참고 자료 


[1] Deep Learning for Image Super-resolution: A Survey Wang et al. 2019
[2] Deep Learning for Single Image Super-Resolution: A Brief Review Yang et al. 2018
[3] A Deep Journey into Super-resolution: A Survey Anwar et al. 2019


다음 읽을 거리





댓글 9개:

  1. 굉장히 양질의 글 감사합니다!! 많은 도움이 되었습니다!!

    답글삭제
    답글
    1. Unknown님 안녕하세요. 도움이 되셨다니 다행입니다.

      삭제
  2. 안녕하세요. 훌륭한 글을 올려주셔서 감사합니다. 질문이 있어서 글을 남깁니다. 초해상도 알고리즘은 아래와 같은 처리 방식을 가지는데요.
    고화질 영상 입력 -> bicubic 처리하여 저화질 영상 변환 -> 알고리즘 -> 고화질 영상 출력

    아래와 같은 구조를 기대하고 실험해봤습니다.
    고화질 영상 입력 -> 알고리즘 -> 초고화질 영상 출력

    핸드폰 카메라로 촬영한 하나의 영상(high resolution)으로 super resolution을 수행하였더니, 오히려 화질이 더 안좋아지는 결과가 나오더군요.
    기존 super resolution 기술은 bicubic을 통해 화질을 저하시키고 복원하는 형태로 학습하기 때문에 화질이 저하되지 않은 원본 이미지를 대상으로 super resolution을 수행할 경우, 화질이 오히려 더 안좋아지는 결과가 나오더군요.
    여기서 소개하는 SRGAN 기술은 화질이 저하되지 않은 하나의 영상을 입력으로 넣었을 때, 화질이 개선된 의미있는 영상으로 출력될 수 있을까요? 개인적인 견해를 여쭤봅니다.

    답글삭제
    답글
    1. 안녕하세요 bj님. 제 글을 읽어주셔서 감사합니다. 지적해주신 부분은 사실 상당히 근본적인 문제에 가깝습니다. 보통 학습시 네트워크 입력으로 들어가는 픽셀 분포 정보가 저화질뿐이기에 테스트 때 고화질의 이미지를 넣으면 원하는 결과가 나오지 않는 것이라 생각합니다. 이 부분은 DL을 이용하여 SR 문제를 풀어본 사람들이 많이 겪는 문제입니다. 입력 픽셀의 분포가 다른 문제를 해결해줄 방법이 고려되어 있는 모델이 아니라면 말씀하신 문제가 쉽게 해결되기는 어렵다고 생각합니다.

      삭제
  3. 안녕하세요! SR에 관심있는 학부생인데 정말 잘 봤습니다.
    그런데 VDSR에서 residual learning이 직관적으로 잘 안와닿는데 혹시 설명해주실 수 있나요..?
    (HR - upsampling 한 LR)을 train 한다는 건가요..?

    그리고 여담이지만 다른 포스팅들도 너무 재미있는 주제가 많아서 하나하나 봐야겠습니다. 글 정말 잘쓰시네요!

    답글삭제
    답글
    1. Unknown님 안녕하세요. 재미있게 읽어주셔서 감사합니다. Residual에 대해 말씀하신바가 맞습니다. 제대로 이해하셨습니다. 다른 글도 재미있게 읽어주세요 :)

      삭제
  4. 안녕하세요 비전공자라서 글을 이해를 못했는데, 초해상화 된 이미지에 추가적인 픽셀(?) 을 어떻게 채워넣을지 결정하는 연산 자체를 기계학습하는 건가요?

    답글삭제
  5. ** 기존 Transposed Convolution의 expanding 단계에서 추가되는 pixel이 nearest neighbor가 아닌 zero padding일 때, Sub-pixel 방식이 Transposed Convolution과 같아진다는 것을 알 수 있습니다.

    부분이 이해가 힘듭니다.

    그림의 결과값에서 맨 좌측 상단의 pixel 값을 생각해보겠습니다.
    zero-padding일때 transpose conv는 8개의 0과 단 하나의 input pixel 값을 참조하여 kernel을 통과후 만들게 되었습니다. 그러나 sub-pixel을 보시면 단 5개의 0과 4개의 input pixels 값을 참조하여 빨간색 kernel을 통과후 만들게 되었습니다.

    둘은 엄연히 다른게 어떻게 같게 되는 건가요?

    답글삭제
  6. 잘 읽고 갑니다. 좋은 글 감사합니다

    답글삭제