2019년 12월 21일 토요일

Signal Processing For Communications (2)

이전 글에서 continuous-time과 discrete-time 신호에 대해 짧게 논의했었습니다. 이 장에서는 차후 사용될 기본적인 도구들을 소개하고 discrete-time 신호에 대해 좀 더 자세하게 살펴보겠습니다.

기존의 많은 신호처리 교과서들이 그렇듯이 역사적인 흐름에 따라 소개를 하자면, 먼저 continuous-time 신호를 다루고 나서 discrete-time 신호 그리고 digital 신호를 다루는 것이 순서에 맞을 것입니다. 이에 맞추어 전통적인 관점에서는 discrete-time 신호를 continuous-time 신호의 discrete version으로 생각하기 때문에 sampling을 중요하게 다뤄왔죠.

하지만 요즘 같은 디저털 시대에는 점점 더 sampling보다는 discrete-time 신호를 synthesis하는 것에 더 초점을 맞추어 중요하게 다뤄야할 필요가 있습니다. 이런 관점에서 오히려 역사적 흐름과는 반대로 discrete-time 신호를 중심으로 이야기를 풀어갈 때 훨씬 이해가 쉽다는 것을 차차 느끼실 것이라 생각합니다.

Discrete-Time Signal



앞으로 우리가 다룰 discrete-time signal은 complex-valued sequence입니다. 이는 정수 값을 갖는 인덱스 n에 대한 complex-valued 함수로 표현할 수 있으며, 예를 들어 위 그림에 대한 analytical closed-form은 다음과 같습니다: $$x[n] =((n+5)~\text{mod}~11)-5$$ 이 때, n은 dimensionless time이고 그저 sequence에서의 시간적인 순서를 표현하는 값입니다.

이런 discrete-time signal은 우리 실생활과 매우 밀접하게 연계되어 있는 한편, 우리 인간이 가지고 있는 물리적인 한계를 잘 보여줍니다. 즉, 우리가 어떤 신호를 "보고" 그 값을 아무리 빠르게 "기록"한다고 할지라도 그 사이에는 항상 "받아 적는데 걸리는 시간"이 존재하겠죠.

이와 같이 "받아 적는다"라는 행위가 바로 "sampling" 이고, 이는 아날로그 신호에서 discrete-time 신호를 만들어내는 가장 필수적인 방법입니다.  그렇다면 위와 같은 물리적 한계를 생각할 때 sampling을 하는 과정에서 불가피하게 없어지는 정보들로 인해 우리가 무슨 짓을 해도 신호의 정보를 완벽하게 기록하는 것은 불가능하다는 결론에 이릅니다.

그러면 평소에 우리가 잘만 듣고 있는 라디오나 CD에 녹음된 노래들은 어떻게 이런 한계를 극복한 것일까요? 결론부터 말하자면,
Continuous-time과 discrete-time 세계 사이를 오갈 때 이 사이의 간극으로 인한 정보 손실이 전혀 없이 넘나드는 방법이 있습니다! 

어떤 면에서는 말이 안 되는 것 같은 이 결론이, 바로 우리가 앞으로 신호 처리를 공부할 때 배우게 될 주요 테마입니다. 지금은 전혀 말도 되지 않아보이지만 이에 대한 수학적 증명은 sampling tehorem을 공부할 때 알게 될 것입니다. 그 장에 이르기까지 좀 더 도구를 갖춰야 엄밀하게 이해할 수 있겠으나 저 같이 성질이 급한 분은 저번 글을 통해 조금이나마 그 과정을 엿볼 수 있었을 것이라 생각합니다.

어찌 되었건 이 사실을 받아들이고 넘어가면, discrete-time 신호가 갖는 강력한 장점 하나를 알 수 있습니다. 어떻게든 discrete-time 세계로 신호를 넘기고 나면, 이 후부터는 "측정 간의 시간"이라는 개념 자체가 사라진다는 점입니다. 즉, 우리가 가진 신호는 그저 값들이 나열된 순서가 있는 수열일 따름이고, 그렇기 때문에 신호를 어떻게 얻었는가와 전혀 상관이 없어진다는 것입니다. 이 부분이 바로 매번 시스템과 신호의 물리적인 성질을 고려해야 하는 아날로그 세계와는 크게 다른 discrete 세계의 장점이 되겠습니다. (같은 얘기에 대한 좀 더 자세한 예시는 이전 글을 참고해주세요.)

Elementary Operators


Sampling 된 신호를 가지고 여러가지 계산을 수행할 수 있을텐데, 여기서는 몇몇 기본적인 계산에 대해 소개하겠습니다. 매우 지루한 부분이지만 나중에 사용된 필터 부분의 기본적인 배경이 되기 때문에 꼭 알아야 할 중요한 개념이기도 합니다.

Shift. 


수열 $x[n]$를 정수 k만큼 shift하는 것은 간단히 $$y[n]=x[n-k]$$라고 표현할 수 있습니다. 여기서 k가 양수이면 오른쪽으로 음수이면 왼쪽으로 신호가 shift되는 것을 알 수 있고, 따라서 delay operator는 $$\cal{D}_k\{x[n]\}= x[n-k]$$라고 표현할 수 있습니다.

Scaling.


수열 $x[n]$를 factor $a\in\mathbb{C}$만큼 scaling하는 것은 $$y[n]=ax[n]$$이라 표현됩니다. 여기서 a가 실수이면 신호의 amplification($a>1$) 혹은 attenuation($a<1$)을 각각 표현할 수 있고 만약 a가 복소수이면 amplification과 attenuation에 더해 phase shift가 추가되었다는 것을 알면 되겠습니다. 


Sum. & Product.


수열 $x[n]$와 수열 $w[n]$을 더하거나 곱하는 것은 elementwise로 수행합니다: $$y[n]=x[n]+w[n], \quad y[n]=x[n]w[n]$$

Integration.


Discrete-time에서의 integration은 다음과 같이 합으로 정의됩니다: $$y[n]=\sum_{k=-\infty}^{n}x[k]$$

Differentiation. 


Discrete-time 신호에 대한 미분은 어떻게 하면 될까요? 미분의 기초적인 정의를 생각해보면 차분의 비율이죠. 하지만 이미 sampling 간격이 정수로 정해져 있는 discrete-time signal에서 continuous-time의 differentiation을 적용하는 것은 맞지 않아보입니다. 따라서 discrete-time에서는 differentiation을 dfference로 근사하여 사용하는데 가장 간단한 *1st order approximation은 다음과 같이 나타낼 수 있습니다:  $$y[n]=x[n] - x[n-1]$$ 예를 들어 Unit step은 discrete-time impulse를 integration operator에 통과시키면 만들 수 있고 반대로 unit step을 differentiation operator에 통과시키면 impluse를 얻을 수 있겠습니다.
* 차후에 "정확한" 근사는 $H(e^{j\omega})=j\omega$라는 filter로 나타내진다는 사실을 배울 것입니다. 하지만 보통 1st order difference만으로도 적용하는 것에는 문제가 없습니다.

The Reproducing Formula


위와 같은 기본적인 operations들에 더하여 앞으로 자주 보게 될 수식을 하나 더 소개하겠습니다. $$x[n]=\sum_{k=-\infty}^\infty x[k]\delta[n-k]$$
즉, 임의의 discrete-time 신호는 shifted impulse들의 선형 결합으로 표현이 가능하다는 것. 이렇게 매우 자명한 식을 굳이 한 번 더 강조하는 까닭은 앞으로 나올 discrete-time signal의 특징들을 얘기할 때 거듭해서 이 식이 자주 보일 것이기 때문입니다. 

Energy and Power


Discrete-time signal의 energy는 다음과 같이 정의됩니다: $$E_x=||x||^2_2=\sum_{n=-\infty}^\infty \left|x[n]\right|^2$$ 이 식에서 바로 알 수 있듯이 에너지는 위 식의 sum이 수렴할 때만 finite하죠. 다른 말로 하자면 $x[n]$이 square-summable 해야지만 에너지가 유한합니다. 이런 성질을 갖는 신호를 finite energy signal이라고 하고 가장 간단한 예시로 주기 함수는 모든 값이 0이 아닌한 square summable하지 않습니다. 이렇듯 신호의 summability는 무한한 길이의 신호를 다룰 때 중요한 성질인데, 여기서 absolute summability는 좀 더 강한 조건이고,  square summability (finite energy)는 그에 비해 좀 더 약한 조건이라고 할 수 있습니다.

이제 energy가 정의되었으니 시간에 대한 energy의 비율로 power를 정의할 수 있습니다: $$P_x=\lim_{N\rightarrow \infty}\frac{1}{2N}\sum^{N-1}_{-N}\left|x[n]\right|^2$$ 유한한 energy를 갖는 신호는 total power가 0이라는 것을 알 수 있습니다. Decay하지 않는 exponential 수열들의 경우는 infinite power를 갖는 것을 알 수 있지만, 주의할 점은 infinite energy를 갖는 모든 신호들이 그러하진 않다는 점입니다. 예를 들어 사인파와 같은 주기 신호의 경우 finite power를 갖는데 이 경우 위 식에서 limit가 잘 정의되지 않으므로 주기가 있는 신호에서는 average energy over a period로 power를 나타냅니다: $$P_x=\frac{1}{N}\sum^{N-1}_{n=0}\left|s[n]\right|^2.$$

Discrete-time 신호의 종류 네 가지


Finite-length signals

앞서도 보았지만 길이 N의 신호를 나타낼 때, 이를 벡터 형태로 표현할 수도 있고: $$x=[x_0, x_1, \cdots, x_{N-1}]^T$$ 다음과 같이 수열로 표현할 수도 있겠습니다: $$x[n], \quad n=0,\cdots,N-1$$ * 벡터로 표현하는 법은 몇몇 신호처리 operation들의 기하적인 성질을 이해할 때 유용할 수 있고, 수열로 표현하는 방법은 대수적인 성질을 표현할 때 유용하게 사용되므로 앞으로도 이 둘을 왔다갔다 하면서 사용하겠습니다. 신호를 벡터로 다루면서 얻을 수 있는 기하학적인 직관은 때로는 훨씬 간단하면서도 쉽게 신호 처리를 배울 수 있도록 도와주기 때문에, 이에 관한 기초적인 도구들은 다음 장에서 더 자세히 다룰 것이고 뒷 장에서도 계속 이 도구들을 이용할 것입니다.

여기서 한 가지 finite-length signal을 다룰 때 염두에 둘 점이 있습니다. $x[n]$이라는 신호가 support 바깥($n<0$ or $n>N-1$)에서는 정의되지 않는다는 것. 이런 경우 "앞서 배웠던 shift 같은 것을 finite length signal에서는 어떻게 정의해야할 것인가?"와 같은 문제가 생깁니다. 따라서 보통은 이런 "border effects"와 같은 문제를 없애기 위해 우리가 얻은 유한한 신호를 적절한 수열에 embedding하여 사용하게 됩니다.

* 대표적으로는 circular shift를 사용하여 finite-length signal을 N-periodic signal로 바꾼다거나 이 대신 support 바깥에 zero padding을 하여 finite-support signal로 바꾸는 방법 등이 있겠습니다. 각각의 방법은 특징이 있는데 그로 인해 생기는 현상도 서로 다릅니다. 예를 들어 circular shift를 사용하는 경우는 shifted sequence와 original signal 간의 equivalence가 존재하지만 zero padding의 경우는 그렇지 않죠. 특히 circular shift의 경우 discrete-time signal의 frequency domain 표현에 대해 배울 때 자연스럽게 등장할 것입니다.

Infinite-length signals: Aperiodic

대부분의 일반적인 discrete-time 신호는 finite할 수밖에 없기 때문에 무한정 긴 심지어 주기가 없는 이런 형태의 신호가 어떤 의미가 있는가 싶을 수 있죠. 하지만 가장 일반화된 형태인만큼 이론적으로 분석하기에는 매우 기본적인 바탕이 됩니다. 

Infinite-length signals: Periodic

주기 N을 갖는 주기 수열은 다음과 같이 표현될 수 있습니다. 
$$\tilde{x}[n] = \tilde{x}[n+kN], \quad k\in \mathbb{Z}.$$
앞으로 주기 수열을 표현할 때는 항상 물결 표시를 쓰도록 하겠습니다. Periodic 수열은 길이는 무한하지만 정보가 유한한 수의 샘플들 안에 모두 포함되어 있다는 점에서 유한 길이의 신호와 무한 길이의 신호 간의 가장 기본적인 다리 역할을 한다고 생각할 수 있습니다. 

그저 길이만 무한한 신호(aperiodic)는 함수와 같이 표현이 가능하므로 수학적인 일반화 혹은 추상화에 도움이 될 수는 있겠지만, 이를 처음부터 다루는 것은 실질적이지도 않고 우리가 저장하거나 다루기가 어렵기 때문에 일반적인 교과 과정에서 주기 함수를 중요하게 다루고 먼저 배우는 것이라고도 생각됩니다.

* Periodic extensions:  주기 수열은 무한한 길이를 갖지만 정보량 자체는 유한하죠. 이런 점을 이용하여 finite-length 신호 $x[n]$을 periodic sequence로 embedding하여 표현할 수 있습니다: 
$$\tilde{x}[n] = x[n~mod~N], \quad n\in \mathbb{Z}.$$
이를 finite-length 신호의 "periodic extension"이라고 부르는데, 주기적인 성질 덕분에 아래 수식에서 볼 수 있듯이 shifted sequence와 original signal 간의 equivalence가 존재합니다. 이를 circular shift라고 합니다. 

Infinite-length signals: Finite-support

무한한 길이를 갖는 또 다른 형태의 신호로는 일정 범위 안에서만 값을 갖고 (finite-support ) 그 밖에서는 모두 값이 0인 신호가 있겠습니다.
$$\exists N,M\in \mathbb{Z},\quad \bar{x}[n] = 0 \quad \text{for } n<M~\text{and } N>M+N-1.$$
쉽게 눈치챌 수 있지만, 이 역시도 finite-length 신호를 무한한 길이를 갖는 신호로 embedding을 할 수 있는 또다른 방법으로써, 앞서와 다른 점은 더이상 shift된 신호가 본 신호와의 equivalence가 없다는 점입니다. 

지금까지 간단하게 우리가 다룰 신호들의 종류와 성질 그리고 각 종류별 신호들 간의 관계들에 대해 알아보았습니다. 이렇게 각각의 신호를 다루는 방식에 대한 자세한 내용은 앞으로 차차 다루게 될 것이므로 여기서는 이런 것들이 있다고만 언급하고 넘어가겠습니다.

그럼 다음 글에서 뵙죠.

To be continued ... (planned)





2019년 7월 15일 월요일

How sensitive is my system?: Condition number (조건수)

How sensitive is my system?


우리가 공학 수업시간에 배우는 많은 방법들은 대부분 analytically solvable한 경우를 다룹니다. 다만 이를 실제 환경에 적용하려다 보면, 수학 문제에서는 가능했던 아름다운 가정들이 다 사라지고 numerical methods에 기대어 근사값을 구해야하는 경우가 많죠. (현실은 시궁...)

문제는 이렇게 numerical methods를 이용해서 해를 구한 경우, 해당 알고리즘이(혹은 시스템이) 내 입력(혹은 시스템 파라미터)에 어쩔 수 없이 들어가는 노이즈에 대해 얼마나 믿을만한지 확인할 필요가 있습니다. 내가 사용한 방법이 그 계산 과정에 들어가는 다양한 perturbation (예를 들면 floating point error)에 의해 크게 민감해서 기껏 구한 값이 노이즈와 다를 바 없다면 의미가 없을테니까요. 

일반적으로 입력값에 대한 작은 변화가 출력값에 큰 변화를 일으킨다면 결과가 믿을만하지 않다고 하겠죠. 이를 조금 더 어려운 용어를 사용해서 표현하자면 어떤 문제가 민감한지 아닌지 그리고 numerical solution이 믿을만한지는 그 문제가 "well-behaved"인 지 "ill-behaved"인 지에 달려있습니다:
  • If a small change in the input causes a small change in the output, the system is well-conditioned or well-behaved.
  • If a small change in the input can cause a large change in the output, the system is ill-conditioned or ill-behaved.

Condition number


이렇게 시스템이 민감한 정도를 정량적으로 보여주는 값이 바로 absolute 혹은 relative conidtion number입니다:
$$\hat{\kappa}\geq\frac{||\text{change in output}||}{||\text{change in input}||}, \quad ||\text{change in output}||=\hat{\kappa}||\text{change in input}||\\
\kappa\geq\frac{||\text{change in output}||/||\text{output}||}{||\text{change in input}||/||\text{input}||}, \quad \frac{||\text{change in output}||}{||\text{output}||}=\kappa\frac{||\text{change in input}||}{||\text{input}||}$$
Absolute condition과 달리 relative condition number는 입력과 출력값에 대한 normalized change를 비교하기 때문에 특정 unit에 대해 변화하지 않는다는 특징이 있습니다.

여기서 $||x||$는 어떤 변수 $x$에 대한 norm("size")이며 $x$는 scalar, vector, matrix, function 등 다양한 변수일 수 있는데요. 보시다시피 condition number는 어떤 값들의 크기를 norm으로 비교하기 때문에 사용하는 norm의 종류에 따라 조금씩 값이 바뀔 수 있습니다. 앞으로는 편의상 vector에 대해서는 $p=2$ norm을 사용하고 matrix에 대해서는 spectral norm을 사용하겠습니다.

Condition number가 작을수록 내 문제에 대한 solution이 data에 포함된 error, noise, approximation 등으로 인한 perturbation에 대해 덜 민감하고 condition number가 클수록 문제가 ill-conditioned라고 할 수 있겠죠. 이제부턴 몇 가지 다른 시스템들에 대해 condition number(조건수)가 어떻게 정의되는지 좀 더 구체적으로 살펴보겠습니다.

System with single input and output variables


어떤 system이 단일입력 $x$와 단일출력 $y$를 갖는다고 해봅시다: $y=f(x)$. 임의의 점 $x$에 대하여 함수 $f$의 condition number는 입력값과 출력값의 worst case (greatest) 변화 비율로 정의됩니다:
$$\hat{\kappa}=\lim_{\epsilon\rightarrow0}\sup_{|\delta x|\leq \epsilon}\frac{|\delta f(x)|}{|\delta x|}, \quad \kappa=\lim_{\epsilon\rightarrow0}\sup_{|\delta x|\leq \epsilon}\frac{|\delta f(x)|/|f(x)|}{|\delta x|/|x|}.$$
주의할 점은 condition number가 일반적으로 $x$에 대한 함수라는 점입니다.

Perturbation $\delta x$가 작은 경우 함수 $f$를 Taylor expansion으로 근사할 수 있을 것이고 $$f(x+\delta x) = f(x) + f'(x)\delta x + f''(x)\frac{\delta x^2}{2} + \cdots \approx f(x) + f'(x)\delta x,$$
이는 곧, $$\delta y = f(x+\delta x)-f(x) \approx f'(x)\delta x $$
이므로, 양 변에 절대값을 씌우면 다음과 같습니다: $$|\delta y|=|f(x+ \delta x)-f(x)|\approx |f'(x)\delta x|=|f'(x)||\delta x|=\hat{\kappa}|\delta x|.$$
여기서 $\hat{\kappa}=\frac{|\delta y|}{|\delta x|}=|f'(x)|$는 absolute condition number입니다. 다시 양 변을 $|y|=|f(x)|$로 나누면,
$$\frac{|\delta y|}{|y|}=\frac{|f(x+\delta x)-f(x)|}{|f(x)|}\approx\frac{|f'(x)||\delta x|}{|f(x)|}=\frac{|x||f'(x)|}{|f(x)|}\frac{|\delta x|}{|x|}=\kappa\frac{|\delta x|}{|x|}$$를 얻을 수 있습니다. 여기서 $\kappa$는 relative condition number로
$$\kappa = \frac{|\delta y|/|y|}{|\delta x|/|x|}=\frac{|x||f'(x)|}{|f(x)|}=\frac{|f'(x)|}{|f(x)|/|x|}.$$
지금까지는 시스템의 출력 $y=f(x)$에 대해 입력 $x$에 대한 반응을 분석한 것인데요. 만약 반대로 $f(x)=0$가 주어지고 이에 대한 $x$를 찾는 문제를 생각해보겠습니다. 이 경우 앞서와는 다르게 $x$를 마치 출력처럼 생각하고 $y=f(x)=0$를 입력처럼 생각하면 됩니다. 즉, $y=0$일 때 $x=g(y)=f^{-1}(y)$인 inverse problem을 푸는 것으로 표현할 수 있습니다. 여기서 $g(y)$에 대한 absolute condition number는 다음과 같겠죠:
$$\hat{\kappa}=|g'(y)|=\left|\frac{d}{dy}[f^{-1}(y)]\right|=\frac{1}{|f'(x)|}.$$
즉, $|f'(x)|$에 대한 역수가 되므로 $|f'(x)|$가 클수록 $|g'(y)|$가 작으며 문제가 well-conditioned 된다는 것을 확인할 수 있습니다.


예를 들자면 위 그림과 같이 $|f_1'(x)|>|f_2'(x)|$인 경우 $f(x)=0$ 문제를 풀 때 $f_1(x)$가 $f_2(x)$보다 well-conditioned 시스템이며 반대로 $y=f(x)$의 경우 $f_1(x)$가 $f_2(x)$보다 ill-conditioned 시스템이 된다는 것을 알 수 있습니다.

Condition number가 $x$에 대한 함수인 이유를 좀 더 이해하기 쉽도록 하기 위해 예제를 하나 풀어보겠습니다: $$y=f(x)=\frac{x}{1-x},\quad f'(x)=\frac{1}{(1-x)^2}$$
이 함수는 $x=-0.99$일 때는 $$\kappa = \frac{f'(x)|}{|f(x)|/|x|}=\frac{1}{|1-x|}=\frac{1}{1.99}\approx 0.5$$이므로 $y=f(x)$ 문제를 푸는 것이 well-conditioned 문제이지만, $x=0.99$에서는 $$\kappa = \frac{f'(x)|}{|f(x)|/|x|}=\frac{1}{|1-x|}=\frac{1}{0.01}= 100$$으로 매우 ill-conditioned 문제임을 알 수 있습니다. 즉, $x=0.98$에서 $x=0.99$로 $|\delta x|=0.01$만큼 바뀌었을 떄, $|\delta y|=|99-49|=50$으로 매우 크게 바뀌는 것을 볼 수 있습니다.

System with multiple input and output variables


이제부터는 위에서 살펴본 단일 변수 시스템에 대한 결과를 다변수 시스템에 대해 일반화해보겠습니다. 이제 $\mathbf{x}=[x_1,\cdots,x_N]^T$와 $\mathbf{y}=[y_1,\cdots,y_M]^T$는 vector이며 둘의 관계는 $\mathbf{y}=\mathbf{f}(\mathbf{x})$으로 표현할 수 있습니다. 이 때, $\delta \mathbf{x}$에 대해 출력값의 변화량은 다음과 같습니다:
$$\delta \mathbf{y}=\mathbf{f}(\mathbf{x}+\delta \mathbf{x})-\mathbf{f}(\mathbf{x}).$$ 앞서와 마찬가지로  $\delta \mathbf{x}$가 작을 때 첫 항을 Taylor series expansion으로 근사하면:
$$\mathbf{f}(\mathbf{x}+\delta\mathbf{x})\approx \mathbf{f}(\mathbf{x})+\mathbf{J}_f(\mathbf{x})\delta\mathbf{x}$$이므로,
$$||\delta \mathbf{y}||=||\mathbf{f}(\mathbf{x}+\delta \mathbf{x})-\mathbf{f}(\mathbf{x})||\approx||\mathbf{J}_f(\mathbf{x})\delta\mathbf{x}||\leq||\mathbf{J}_f(\mathbf{x})||~||\delta\mathbf{x}||=\hat{\kappa}||\delta \mathbf{x}||$$
로 absolute condition number를 얻을 수 있습니다: $$\hat{\kappa}=\frac{||\delta \mathbf{y}||}{||\delta \mathbf{x}||}=||\mathbf{J}_f(\mathbf{x})||.$$
양변을 $||\mathbf{y}||=||\mathbf{f}(\mathbf{x})||$로 각각 나누어주면, $$\frac{||\delta\mathbf{y}||}{||\mathbf{y}||}\approx\frac{||\mathbf{J}_f(\mathbf{x})\delta \mathbf{x}||}{||\mathbf{f}(\mathbf{x})||}\leq \frac{||\mathbf{x}||~||\mathbf{J}_f(\mathbf{x})||}{||\mathbf{f}(\mathbf{x})||}\frac{||\delta \mathbf{x}||}{||\mathbf{x}||}=\kappa \frac{||\delta \mathbf{x}||}{||\mathbf{x}||}$$이므로, relative condition number $\kappa$는 $$\kappa=\frac{||\delta \mathbf{y}||/||\mathbf{y}||}{||\delta \mathbf{x}||/||\mathbf{x}||}=\frac{||\mathbf{x}||~\mathbf{J}_f(\mathbf{x})}{||\mathbf{f}(\mathbf{x})||}=\frac{\mathbf{J}_f(\mathbf{x})}{||\mathbf{f}(\mathbf{x})||/||\mathbf{x}||}.$$
이해하기 쉬운 linear system을 예시로 들자면, $N$-dim 입력 $\mathbf{x}=[x_1,\cdots,x_N]^T$와 $M$-dim 출력 $\mathbf{y}=[y_1,\cdots,y_M]^T$에 대해 둘의 관계는 $$\mathbf{y}=\mathbf{f}(\mathbf{x})=\mathbf{A}_{M\times N}\mathbf{x}$$로 표현됩니다.

이 때, forward problem에 대해서 absolute condition number는 정의에 의해 $\hat{\kappa}(\mathbf{A})=||\mathbf{J}_f(\mathbf{x})||=||\mathbf{A}||$이고 relative condition number는 $$\kappa(\mathbf{A})=\frac{||\mathbf{x}||~||\mathbf{J}_f(\mathbf{x})||}{||\mathbf{f}(\mathbf{x})||}=||\mathbf{A}||\frac{||\mathbf{x}||}{||\mathbf{Ax}||}$$입니다. 여기서 $$||\mathbf{x}||=||\mathbf{A^{-1}Ax}||\leq||\mathbf{A^{-1}}||~||\mathbf{Ax}||, \quad i.e.,~||\mathbf{Ax}||\geq\frac{||\mathbf{x}||}{||\mathbf{A^{-1}}||}$$이므로 이를 위 식에 대체해서 넣으면, relative condition number의 upper bound가 $||\mathbf{A}||~||\mathbf{A^{-1}}||$임을 알 수 있습니다: $$||\mathbf{A}||\frac{||\mathbf{x}||}{||\mathbf{Ax}||}\leq||\mathbf{A}||~||\mathbf{A^{-1}}||\frac{||\mathbf{x}||}{||\mathbf{x}||}=||\mathbf{A}||~||\mathbf{A^{-1}}||=\kappa(\mathbf{A}).$$ 한편, $\kappa$의 lower bound는 1로써 아래와 같이 매우 간단히 얻을 수 있습니다: $$\kappa(\mathbf{A})=||\mathbf{A}||~||\mathbf{A^{-1}}||\geq||\mathbf{A}\mathbf{A^{-1}}||=||\mathbf{I}||=1.$$ $\kappa=1$이라는 뜻은 최소한 내 시스템이 data가 가진 error를 그 이상의 단위(order)로 증폭시키지는 않는다는 것으로 해석할 수 있겠습니다.

Another representation


여기서 $\mathbf{A}$의 singular value들을 $\{\sigma_1\geq\cdots\geq\sigma_n\}$이라 하면 $\mathbf{A^{-1}}$의 singular value도 $\{1/\sigma_n\geq\cdots\geq1/\sigma_1\}$과 같이 정리할 수 있고 이 때, $||\mathbf{A}||=\sigma_{max}=\sigma_1$, $||\mathbf{A^{-1}}||=1/\sigma_{min}=1/\sigma_n$임을 알 수 있습니다. 따라서 $$\kappa(\mathbf{A}) = ||\mathbf{A}||~||\mathbf{A^{-1}}||=\frac{\sigma_{max}}{\sigma_{min}}$$로 깔끔하게 정리가 됩니다.

즉, $\mathbf{A}$의 최대 최소 singular value 간의 간극이 클수록 condition number가 크다는 것을 알 수 있습니다. 이는 다르게 해석하면 $\kappa(\mathbf{A})$가 $\mathbf{A}$의 singularity를 측정하는 방법이라고 생각할 수도 있습니다. 만약 $\mathbf{A}$가 singular하면 적어도 하나의 singular value가 0이고 이는 $\kappa(\mathbf{A})=\infty$를 뜻하기 때문입니다.

위에서 구한 식을 이용하여 $\mathbf{y}=\mathbf{Ax}$와 $\mathbf{x}=\mathbf{Ay}$ 각각의 linear system 문제에 대해 worst case scenario sensitivity를 살펴보겠습니다.

먼저 $\mathbf{A}$의 singular value decomposition을 해서 $\mathbf{A}=\mathbf{U\Sigma V^*}$ $\mathbf{\Sigma}$의 diagonal elements인 singular value들을 descending order로 sort해줍니다:  $\{\sigma_1\geq\cdots\geq\sigma_n\}$. 그러면 자연스럽게 $\mathbf{A^{-1}}=\mathbf{V\Sigma^{-1} U^*}$도 구할 수 있죠.

그럼 각각의 경우에 대해 문제를 살펴보겠습니다:

1) Worst case for $\mathbf{y}=\mathbf{Ax}$

$\mathbf{x}=\mathbf{v_n}$을 가장 작은 singular value $\sigma_{min}=\sigma_n$에 대응하는 right singular vector라고 하면, \begin{align*}\mathbf{y} &=\mathbf{Ax}=(\mathbf{U\Sigma V^*})\mathbf{v_n}\\
&=\sigma_n\mathbf{u_n}\end{align*}이므로 $$\mathbf{y}+\delta\mathbf{y}=\mathbf{A}(\mathbf{x}+\delta\mathbf{x})=\sigma_n\mathbf{u_n} + \mathbf{A}\delta \mathbf{x}$$입니다.

그럼 $||\delta \mathbf{x}||$가 작으면 absolute error $||\delta \mathbf{y}||=||\mathbf{A}\delta \mathbf{x}||$는 작을 수 있겠으나, $\sigma_{min}=\sigma_n$이 매우 작은 경우 $||\mathbf{y}||=|\sigma_n|~||\mathbf{u}||$도 매우 작을 수 있으므로 relative error $\frac{||\delta\mathbf{y}||}{||\mathbf{y}||}$는 absolute error와 달리 매우 클 수 있습니다.

2) Worst case for $\mathbf{x}=\mathbf{Ay}$

$\mathbf{x}=\mathbf{u_1}$을 가장 큰 singular value $\sigma_{max}=\sigma_1$에 대응하는 left singular vector라고 하면, \begin{align*}\mathbf{y} &=\mathbf{A^{-1}x}=(\mathbf{V\Sigma^{-1} U^*})\mathbf{u_1}\\

&=\frac{1}{\sigma_1}\mathbf{v_1}\end{align*}이므로 $$\mathbf{y}+\delta\mathbf{y}=\mathbf{A^{-1}}(\mathbf{x}+\delta\mathbf{x})=\frac{1}{\sigma_1}\mathbf{v_1} + \mathbf{A^{-1}}\delta \mathbf{x}$$입니다.

그럼 $||\delta \mathbf{x}||$가 작으면 absolute error $||\delta \mathbf{y}||=||\mathbf{A^{-1}}\delta \mathbf{x}||$는 작을 수 있겠으나, $\sigma_{max}=\sigma_1$이 매우 큰 경우 $||\mathbf{y}||=||\mathbf{u}||/|\sigma_1|$도 매우 작을 수 있으므로 relative error $\frac{||\delta\mathbf{y}||}{||\mathbf{y}||}$는 absolute error와 달리 매우 클 수 있습니다.

Approximate solution


지금까지 확인한 것을 바탕으로 어떤 시스템의 근사해를 구할 때 주의해야할 점을 알 수 있습니다. 어떤 문제를 풀 때 우리는 보통 어떤 loss function $\mathbf{f}$로 정의되는 $$||\mathbf{f}(\mathbf{\hat{x}})||\approx 0$$라는 criteria로 함수 값에서의 small residual 을 갖는 $\mathbf{\hat{x}}$을 구하게 되죠. 그런데 이렇게 구한 해가$$||\mathbf{\hat{x}}-\mathbf{x^*}||\approx 0, \quad \mathbf{}$$라는 criteria에서 볼 때 true solution (보통 모르지만) $\mathbf{x^*}$에 대해 가까운 $\mathbf{\hat{x}}$을 찾는 것과 합치하려면 우리가 만든 문제 자체가 "well-conditioned"여야만 한다는 것을 이해할 수 있습니다. 

지금까지 어떤 시스템의 sensitivity를 정량적으로 분석하는 방법 중 하나를 살펴보았습니다. 이만큼 공부하고 썼다고 주말이 사라졌네요. 오늘은 그럼 이 정도로 마무리 해야겠습니다. 예제들도 만드려면 만들 수 있는데, 차후 여유가 된다면 추가하는 것으로ㅎㅎ

그럼 다음 글들에서 뵙지요.


다음 읽을 거리





2019년 5월 20일 월요일

[PR12-Video] 87. Spectral Normalization for Generative Adversarial Networks


TensorFlowKR facebook comunity에서 모인 12명의 paper readers (PR12)가 읽어주는 deep learning papers

#87.Spectral Normalization for Generative Adversarial Networks


이 리뷰에서는 ICLR 2018에 발표된 SNGAN 논문을 리뷰하겠습니다. 즐겁게 들어주시면 감사하겠습니다.




(paper) Spectral Normalization for Generative Adversarial Networks

Paper:  https://openreview.net/forum?id=B1QRgziT-
슬라이드: https://www.slideshare.net/thinkingfactory/pr12-spectral-normalization-for-generative-adversarial-networks

이 발표가 제가 PR12에서 마지막으로 발표한 논문이었네요. 처음 시작할 때는 언제 100회가 끝날까 싶었는데, 새삼 시간이 참 빠르게 흐른다는 생각을 해봅니다. 끝까지 열심히 했는데 다음에도 여유가 된다면 다시 참여하고 싶네요. 지금도 새로운 멤버로 계속되고 있는 것으로 알고 있으니 다른 분들의 발표도 보고 싶다면: PR12 딥러닝 논문읽기 모임 에서 확인하시면 되겠습니다 :)

다음 읽을거리






2019년 5월 17일 금요일

Deep Learning for Super-Resolution: A Survey (1)

Image Super-Resolution(이하 SR)은 컴퓨터 비전 분야의 중요한 갈래 중 하나로 이미지나 비디오의 해상도를 좋게 하는 영상처리 기술을 말합니다. 영화나 미드에서 위성 사진을 바탕으로 계속 확대해보라고 하는 장면이 종종 나오는데요, 이런 클리셰를 너무 많이 써먹은 나머지 아래와 같은 짤방이 만들어질 정도로 우리에게 SR은 꽤나 친숙한 기술입니다.



짤방에서는 비현실적인 예시로 클리셰를 비꼬고 있지만 최근 Deep learning을 이용한 SR 기술들을 보면 우리가 생각하는 것 이상으로 기술이 빠르게 발전하고 있다는 것을 알 수 있습니다.
“Any advanced technology is indistinguishable from magic”.
- Arthur C. Clarke
한 때 잠시 SR을 했었고 다시 또 SR에 관심을 가지게 되면서, 최신 연구 동향을 파악하고 스스로의 공부를 위해 정리 글을 작성해보고자 합니다.

Single Image Super-Resolution 


SR에는 Single Image(SI)를 이용한 방법 외에도 Multiple Images를 이용한 방법들 역시 많이 연구되었으나 이 글에서는 SISR 에서 external-example based methods에 속하며 그 중에서도 deep learning model을 사용한 연구에 집중하여 리뷰합니다. Survey의 형식이기 때문에 세세하게 설명하기 보다는 굵직한 모델들의 컨셉을 소개하고 전체적인 흐름을 위주로 짚어가며, 각 모델들에 대한 자세한 내용은 필요한 경우에 한해서만 다룰 생각입니다 (**).

Single Image Super-Resolution(SISR)은 한 장의 저해상도 이미지(low resolution image, LR)를 가지고 고해상도의 이미지(High resolution image, HR)를 만들어 내는 대표적인 low-level vision 문제입니다. 의료 영상에서부터 감시 카메라 및 보안 영상 등에 다양하게 적용이 가능한 기술이기에 컴퓨터 비전 분야에서 전통적으로 매우 중요하게 다뤄져 왔습니다.

Problem Definition


SISR에서 LR 이미지 $y$에 대한 수학적 모델은 일반적으로 다음과 같이 정의됩니다:
$$y = (x ⊗ k)↓s + n.$$ $x$와 $k$는 각각 우리가 모르는 원본 HR 이미지와 이에 씌워지는 (convolved) degradation or blur kernel입니다. 이렇게 degradation이 일어난 $x$에 $s$만큼 downsampling ($↓s$)되고 system noise $n$가 더해져서 LR image $y$가 얻어진다고 생각할 수 있습니다.

문제는 하나의 LR 이미지 $y$에 대응될 수 있는 HR 이미지 $x$가 매우 다양할 수 있기 때문에 SISR이 대표적인 ill-posed problem라는 점입니다 (**). 전통적으로는 sparsity나 image statistics를 이용한 prior knowledge를 기반으로 문제를 푸는 optimization 방법들이 활발히 연구되어 왔지만, 최근 Deep learning을 적용되면서 분야 전체가 믿기 힘들 정도로 더욱 빠르게 발전하고 있습니다. 단순히 deep network를 적용하는 것뿐만 아니라 전반적인 모델framework부터 데이터 전,후처리 방식, upsampling 방식 등 매우 다양한 방면으로 연구 및 발전이 이루어지고 있는 것을 보실 수 있습니다.
** 전통적인 SISR 방식에 대해 궁금하다면 (이 글)을 참고하시면 됩니다.
** why? 좀 더 자세하게 알고싶다면 (이 글)을 참고하시면 됩니다.


SRCNN: The Start of Deep Learning in SISR


언제나 그렇듯 각 분야마다 deep learning을 처음으로 도입한 cornerstone이 되는 연구가 하나씩 있기 마련인데요 SISR 분야에서 최초로 CNN을 적용한 연구는 SRCNN(Dong et al.)으로 이름도 찬란한 Kaiming He가 저자 중 1인입니다. (이 양반은 안 끼는데가 없네..)

요즘 나오는 모델들에 비교한다면 deep network라는 이름도 무색할만큼 매우 적은 channel과 layer 수를 갖는 매우 작은 네트워크라는 것을 볼 수 있는데요. 그럼에도 불구하고 여전히 눈여겨 볼 점은, 당시 state-of-the-art 알고리즘들을 큰 차이로 이기고 새로운 baseline을 개척했다는 점, 제안한 3개 layer짜리 SRCNN 구조가 empirical heuristic에 근거한 것이 아닌 전통적인 sparse coding method와의 연관성을 바탕으로 고안되었다는 것입니다. (혹은 최소한 그런 링크가 있다고 매우 그럴 듯하게 주장했ㄷ...)

SRCNN

그림에서 보실 수 있듯이 CNN에서 data-driven filter를 이용한 각각의 nonlinear transformation들이 전통적인 방식에서의 patch extraction, nonlinear mapping (from LR to HR patches) 그리고 reconstruction step에 대응된다고 얘기하고 있습니다:

1. Patch extraction and representation: LR 이미지에서 patch들을 추출해서 high dimensional feature vector로 표현하는 단계; 전통적으로는 PCA나 DCT, Haar 등을 사용해서 추출된 patch들을 pixel representation이 아닌 feature로 represent합니다. 이 과정 자체가 이미지 $\mathbf{Y}$에 특정 filter들을 사용하여 convolution operation을 수행하는 것으로 생각할 수 있으므로 아래와 같이 표현이 가능할 것입니다: $$F_1(\mathbf{Y}) = max(0,W_1 * \mathbf{Y} + B_1)$$ 2. Non-linear mapping: High dimensional feature space (e.g. LR patch space)의 patch들을 또 다른 high dimensional feature space (e.g. HR patch space)로 mapping해주는 단계; 하나의 feature space에서 다른 feature space로 mapping해주는 것 역시도 change of basis로 생각하면 learned basis 혹은 filter를 이용한 convolution operation으로 나타낼 수 있겠습니다: $$F_2(\mathbf{Y}) = max(0,W_2 * F_1(\mathbf{Y}) + B_2)$$ 3. Reconstruction: mapping된 feature vector를 바탕으로 HR 이미지를 만들어내는 단계; 마지막으로 feature domain에서 HR image domain으로 averaged output 생성입니다. 마찬가지로 convolution operation으로 표현이 가능합니다: $$F(\mathbf{Y}) = W_3 * F_2(\mathbf{Y}) + B_3$$
여기서 한가지 더 주목할 부분은 이전의 방식들이 각각의 단계를 처리하는 여러 알고리즘들이 종합적으로 합쳐져서 SR 문제를 풀었다면, SRCNN은 최초의 end-to-end 방식으로써 모든 step을 하나의 통합된 framework에서 처리한다는 것입니다. 특히 매우 단순 명료한 방법으로 기존의 신호처리 관점에서 바라보던 SISR 문제를 deep learning의 관점에서 풀어내면서도 양쪽을 이어주는 가교 역할을 했다는 것에 의의가 있습니다.

Problems to solve


SRCNN은 이후 CNN을 사용한 SISR methods들에 좋은 영감을 주었는데, (아아 그는 좋은 baseline이었다) 이후 나온 Deep learning 방식들은 큰 줄기에서 보면 모두 SRCNN의 단점들을 보완하기 위한 방향으로 발전되었습니다. 각각의 단점들을 크게 정리하면 아래 세 가지로 나눌 수 있습니다:
  1. Bicubic LR
  2. Shallow (three-layer) network
  3. Naive prior in the model

1. Bicubic LR

마지막에 HR 크기로 (최소한 비슷한 **) 이미지를 맞추기 위해 SRCNN은 먼저 bicubic upsampling을 적용한 LR 이미지를 input으로 사용합니다. 논문에서는 bicubic upsampling이라는 operation 자체도 또 하나의 deterministic convolution layer라고 할 수 있다고 설명합니다만 이렇게 upsample이 적용된 LR input을 주는 것으로 여러 애로사항이 꽃 피게 됩니다;
** 사실 SRCNN에서는 padding이 없어서 convolution layer를 지날 때마다 feature map size가 줄어든다.
1) 일단, bicubic upsampling을 LR에 적용해서 준다는 점 자체가 HR 이미지에 대한 degradation model에 대한 implicit prior를 주게 됩니다. 이로 인해 estimation bias가 생깁니다. 따라서 downsampling 혹은 degradation model이 bicubic이 아닌 알지 못하는 좀 더 realistic한 setup에서 학습된 모델의 성능이 저하되는 것을 막을 수 없지요.
2) 또한 처음부터 input size를 크게 사용하기 때문에 computation cost가 늘어나고 따라서 모델이 느려질 수 밖에 없습니다.

2. Shallow network

2014년이라는 시점을 생각하면 매우 당연한 일이기는 합니다만 SRCNN은 더 많은 데이터와 깊은 모델을 사용하면 좋은 성능을 보일지도 모른다는 가능성을 얘기하면서도, 실제로 그런 모델이 잘 동작한다는 것을 보이지는 못했습니다. (오히려 깊은 네트워크에서 성능이 떨어진다는 것을 보였지요) 따라서 이후 많은 연구들이 어떻게 하면 성능 향상을 위해 깊은 네트워크를 학습시킬 수 있을지에 대해 집중하였고, 이후 소개할 VDSR(very deep SR network)를 기점으로 다양한 모델들이 제안되었습니다.

3. Naive prior

앞서 첫번째에서 얘기한 것과 비슷한 맥락으로, SRCNN의 학습 방식은 network architecture에 대한 통찰력 있는 분석에 비해서는 좀 아쉬운 점이 있습니다. 단순히 최종 output과 HR 이미지의 MSE를 줄이는 모델을 바탕으로 학습하는데, SISR이라는 문제에 적합한 prior knowledge를 모델 디자인이나 loss 함수에 이를 적절히 녹여넣어 보다 나은 성능을 얻을 수 있지 않을까라는 질문을 할 수 있겠습니다. 이에 답하기 위해, 역시 이후 많은 연구들이 multi-scale learning 등의 다양한 framework들을 제안하였습니다.

Deep models for SISR


SRCNN이 매우 초기 연구고 여러가지 단점이 있지만 최신 모델들이 갖고 있는 중요한 요소들은 모두 갖추고 있습니다.  이런 관점에서 SRCNN을 큰 부분으로 나눠보면, upsampling methods, model framework, network design, learning strategy의 조합으로 이루어졌다는 것을 알 수 있는데요. 이제부터는 위에서 소개한 문제를 해결하기 위해 각 요소가 어떤 방향으로 발전되고 있는지 하나씩 정리해보겠습니다.

1. Upsampling methods


결국 SISR이라는 문제가 LR에서 HR 이미지로 크기를 키우는 방법을 연구하는 것이므로 먼저 주목을 받은 것은 CNN에서 이미지 크기를 "어떻게 키울 것인가"  입니다.

1) Interpolation-based Upsampling
가장 먼저 고려되었던 방식은 당연하게도 전통적인 interpolation입니다. 이런 upsampling 방식은 implementation이 쉽고, interpretable하다는 장점이 있어 pre-processing으로 많이 사용되었습니다:
  • Nearest-neighbor interpolation
  • Bilinear Interpolation
  • Bicubic Interpolation
그러나 전통적인 interpolation은 external data 정보를 이용하지 못하고, 따라서 dataset이 많을 때 기대할 수 있는 이점이 없기에 deep learning에서 추구하는 바와는 잘 맞지 않았습니다. 게다가 각 방식의 특성에 따라 blurring이나 noise amplification 등이 추가되는 경우가 있어서 초기에만 사용되었습니다. 

2) Learning-based Upsampling
위와 같은 문제들을 피하기 위해 SISR에서는 점차 upsampling operation 자체를 학습하는 방향으로 연구가 진행되었는데, 대표적인 예로는 두 가지 방식이 있습니다:
  • Transposed Convolution Layer
  • Sub-pixel Layer
Transposed Convolution Layer는 흔히 Deconvolution Layer라고도 불립니다. (다만 이러한 명칭에는 전통적으로 영상신호처리 얘기하는 deconvolution과 관련성이 없고 이름이 겹치며 실제 operation을 제대로 설명하고 있지 않다는 문제점이 있기에 Transposed Convolution이라는 표기를 더 선호합니다) 

SISR 분야에서 처음으로 Transposed Convolution을 사용한 연구는 SRCNN의 1저자 Dong이 후속으로 발표한 FSRCNN(Fast SRCNN)입니다. 명확한 이해를 위해서 먼저 각 operation에 대해 설명하는 그림을 보면 아래와 같습니다 (Fig. 4):

모든 learnable 방식이 공유하는 장점이겠으나, Transposed Convolution은 downsampling kernel이 알려지지 않았을 때, 단순한 interpolation 방식(handcrafted implicit prior)을 쓰는 것보다 더 나은 성능을 보여줍니다. External data로부터 정보를 얻을 수 있을뿐더러 부정확한 estimation으로 인한 side effect도 피할 수 있다는 장점이 있었기에 지금도 많은 모델에서 사용되고 있습니다.

한편, Sub-pixel Layer는 Transposed Convolution이 expanding 단계 이후 convolution operation을 할 때, 중복하여 계산되는 pixel이 많아 계산량에서 손해를 보는 단점이 있다는 것을 지적하고 이를 개선하기 위해 제안되었습니다. 그림(Fig. 5)에서 볼 수 있듯이 1) 계산하고자 하는 pixel을 channel쪽으로 밀어넣고, 2) 마지막에 pixel들의 위치를 배치하는 방식을 사용하여 매우 단순하지만 효과적인 방식으로 중복 연산을 없앴습니다.
** 기존 Transposed Convolution의 expanding 단계에서 추가되는 pixel이 nearest neighbor가 아닌 zero padding일 때, Sub-pixel 방식이 Transposed Convolution과 같아진다는 것을 알 수 있습니다.

이렇듯 Sub-pixel 방식은 계산이 효율적이기 때문에 많은 모델에서 사용되고 있습니다. 다만 일반적으로 Sub-pixel 방식은 학습 이후 gridding artifact가 생긴다는 점이 단점으로 지적되고 있어서 다른 variations를 찾는 연구들 역시 제안되고 있습니다.
** 이쪽은 관심이 없는지라 더 깊이 살펴보지는 않았습니다만 관심있으신 분들은 "Checkerboard artifacts free convolutional neural networks"와 논문을 보시면 되겠습니다. 

2. Model framework


한편 전반적인 model framework 관점에서 upsampling module을 어디에 놓는 것이 좋을 지에 대해서도 다양한 연구가 있었습니다. 이들을 크게 네 갈래로 나누자면 아래와 같습니다:
  1. Pre-upsampling
  2. Post-upsampling
  3. Progressive upsampling
  4. Iterative up-and-down sampling
이름에서도 명확히 드러나듯이 모델마다 upsampling을 앞 혹은 뒤에 놓는 것에 따라 특징이 있는데 각 방식에 대한 장단점을 분석해보겠습니다.

Pre-upsampling: 가장 초기에 사용된 방식입니다. 처음 upsampling을 한 이후 네트워크의 input과 output 크기가 동일하게 유지되기 때문에, 계산량에서 손해를 보므로 대다수의 후기 연구들에서는 사용하지 않게 되었습니다.
** 그러나 이것이 꼭 단점만은 아닐 수도 있습니다. 계산량과는 별개로 practical implementation 관점에서 input과 output의 크기가 같다는 점이 주는 장점이 있죠. Input의 크기가 원하는 output 크기와 같기 때문에 다양한 배율(scale)에 대해서 같은 네트워크를 적용할 수 있게 됩니다. 이후 소개를 하겠으나 x2, x3, x4, x8 등의 다양한 scale dataset을 모두 사용하는 multi-scale learning을 적용할 때, 이런 형태의 model framework은 input 크기를 바꿔주는 것이 deterministic하고 따라서 네트워크에 대한 별다른 구조적 변화를 고려하지 않아도 된다는 장점이 있습니다 

Post-upsampling: 앞서 잠시 언급했던 FSRCNN이 바로 이런 형태였습니다. Transposed Convolution을 사용하여 네트워크 마지막 부분에서만 upsample을 하기 때문에 앞에 대다수의 연산이 작은 feature space에서 이루어지고, 이로 인해 학습이 빨라지고 안정될 뿐만 아니라 계산량에서 큰 이득을 보게 됩니다. 이런 장점들로 인해 이후 거의 대부분의 모델들이 Post-upsampling 방식을 사용하고 있습니다.

Progressive upsampling: Post-upsampling 방식들은 마지막에서 한 번에 HR 이미지 크기로 올린다는 특징 때문에 배율이 높은 SR(e.g. x8) 모델 학습이 어렵습니다. 각 배율마다 별개의 네트워크가 필요하기에 multi-scale SR을 하는 모델에도 적합하지 않구요. 이런 문제들을 해결하기 위해 단계적으로 (progressively) 크기를 증가시키는 모델들이 제안되었고 CVPR 2017에 발표된 Laplacian pyramid SR Network (LapSRN)과 CVPR 2018에 발표된 Progressive SR (ProSR)이 그 대표적인 예시들입니다.
LapSRN 구조

이런 모델들의 경우 단일 모델이 한 번의 feed-forward 연산으로 여러 배율(x2, x4, x8 등)의 이미지를 만들 수 있어서 다른 방식에 비해 더 경제적인 multi-scale SR이 가능합니다. 
** 개인적으로 LapSRN과 같이 전통적인 Laplacian pyramid와 Deep model을 결합한 방식의 연구를 매우 좋아하는데, 한편으로는 매우 아쉬운 것이 같은 생각을 하여 모델을 만들었었다는 점입니다. 그리고나서 이 모델을 발견하고 세상에 새로운 것이라고는 없다는 것을 다시 한 번 깨달았습니다...orz.. 

Iterative up-and-down sampling: 이 model framework은 매우 최근에 제안된 모델 때문에 생긴 갈래로, CVPR 2018에 발표된 Deep Back-Projection Network (BPDN)입니다. Super-resolution competition으로 유명한 NTIRE workshop에서 2018년 우승(classical task)을 한 모델로 Bicubic downsampling track에서 뛰어난 성능을 보여주었습니다. LR-HR 이미지 간의 관계를 좀 더 잘 학습하기 위해서 optimization 분야의 iterative method들로부터 영감을 얻어 네트워크에 적용하였습니다. LR과 HR 이미지 domain 간에 up (projection)-and-down (back-projection) mapping을 반복하면서 최종 결과가 점차 개선되기를 기대해볼 수 있습니다.
** 저는 의료 영상 분야에서 와서 그런지 back-projection이 매우 익숙한 방식인데, 점차 이와 같은 classical optimization technique들을 deep learning model에 녹여넣는 형태의 연구들이 많이 소개되는 것으로 보입니다.
** Progressive와 iterative model framework는 모두 성능에서 좋은 향상을 불러왔지만 모델 구조가 복잡하고 학습이 어려워졌다는 단점이 따라오게 됩니다만, 개인적으로 이런 방향의 연구가 다른 framework들에 비해서 앞으로 좀 더 유망하다고 생각합니다. 

3. Network Design


Network design은 SISR 모델에 대한 연구에서 단연 가장 많은 분량을 차지하고 있는 요소이며 classical deep model의 발전과 함께 다양한 구조들이 시도되었습니다:


다양한 SISR 모델 구조 도식 [3]

위 그림에서 보여드리는 네트워크들은 SISR 모델로 제안된 수많은 연구들 중 일부에 불과합니다. 그러나 다행하게도! 이들을 잘 정리해보면, 대략 아래와 같이 큰 줄기로 나누어 정리할 수 있습니다:


SISR 모델 카테고리 [2]

Residual learning
Network design을 살필 때 가장 먼저 언급이되는 논문은 자랑스럽게도 한국인이 저자인 Very Deep SR network (VDSR, CVPR 2016)입니다. 현재 SK에 상무로 계시는 김지원님이 서울대 이경무 교수님 연구실에서 학생이던 때 발표한 모델인데요. SISR 분야 연구에 대해 얘기할 때면 SRCNN과 함께 가장 먼저 나오는 모델 중 하나이며, 여기서 제안된 residual learning은 지금도 여전히 많은 모델들이 사용하고 있는 방식입니다.

VDSR은 SRCNN과 같이 SISR의 cornerstone paper 중 하나로 가장 처음으로 SISR에 학습 가능한 깊은 모델을 제안하였습니다. VGG 네트워크 구조를 차용하여 20개 layer를 쌓아 학습을 시켰고, 깊은 모델의 학습을 위해 두 가지를 제안하였는데 첫째는 global residual learning이고 둘째는 gradient clipping을 동반한 adjustable high learning rate입니다.

이 중 residual learning은 여전히 사랑받고 있는 방법으로 위 그림에서 볼 수 있듯이 학습이 LR 이미지에서 HR 이미지로 mapping하도록 하는 것이 아닌 bicubic upsampled LR 이미지와 HR 이미지의 잔차(residual) 혹은 noise를 학습하는 방식을 제안합니다. (주의할 점은 ResNet의 residual과는 약간 결이 다르다는 점입니다. 이 맥락에서 ResNet은 보다 local residual learning을 수행한다고 할 수 있겠네요.)

Residual image로 학습 대상을 바꾼 것은 full HR 이미지보다 만들어야 하는 정보가 적기에 SISR 문제를 상대적으로 쉬운 문제로 치환하는 효과를 주었습니다. 이로 인해 deep network의 학습이 안정적이고 가속되면서도 성능에 매우 큰 향상이 가능해졌고 이후 많은 모델들이 동일한 전략을 취해 비슷하게 성능 향상을 report하였습니다.
** 같은 맥락에서 제가 CVPR 2017에 발표했던 Wavelet-based SR network에서도 네트워크가 고정되어 있을 때, 학습해야하는 input-output 쌍을 위상적으로 간단한 형태로 미리 변환(wavelet representation & residual learning)하여 어려운 문제를 쉬운 문제로 바꿔주는 방법을 제안했었고 이 것이 주효하여 3등을 할 수 있었습니다.  

Recursive Learning
Recursive learning은 VDSR과 같이 CVPR 2016에 발표된 Deep Recursive CNN (DRCN)이 최초로 사용한 방식으로 이 역시도 VDSR의 저자인 김지원님이 1저자입니다. 네트워크의 receptive field를 크게 가져가면서도 (increase effective depth) 전체 네트워크의 학습 parameter 수를 줄이기 위해 하나의 모듈을 16번 반복하는 형태를 제안한 것이 특징입니다.

태생적으로 gradient vanishing이나 exploding에 취약하기 때문에 이를 막기 위해 앞서 소개한 residual learning이나 차후 소개할 multi-supervision과 같은 학습 방식과 병행되곤 합니다. 재미있는 점은 반복을 하는 중간 중간의 feature output들을 모두 모아 마지막에 weighted sum(**)을 해서 HR 이미지를 만들어주는데, 이 부분이 특히 성능 향상에 큰 역할을 한 것으로 생각됩니다.
** 여기서 몇가지 아쉬운 점은 각 intermediate feature output의 weight scalar가 학습되는 형태기 때문에 input에 dependent하지 않아서 inference time에 유연성이 좀 떨어진다는 것입니다. 그리고 각 weight가 전체 feature output을 scaling하므로 한 장의 feature map에서 pixel-wise difference가 고려되지 않는다는 점도 개선의 여지가 있겠네요. 

DRCN 이후에도 같은 방식을 차용한 여러 모델들이 제안되었으며, 몇몇 예로는 VGG 형태의 네트워크가 아닌 ResNet을 기반으로 한 Deep Recursive Residual Network (DRRN, CVPR 2017)이나 Memory block을 제안하고 이를 반복하는 MemNet (ICCV 2017) 등이 있겠습니다.

Deeper and Denser Learning
VDSR이 깊은 모델을 성공적으로 학습시켰으나 VGG network 형태는 사실 이렇게 깊은 모델에 적합하지 않다는 것은 잘 알려져 있습니다. 더 나은 성능을 위해 가장 쉽게 해볼 수 있는 방법은 (그리고 잘 알려져있는 성공 공식은) 더 깊은 모델을 사용하는 것이죠. 이런 맥락에서 기본 모델의 골격을 ResNet이나 DenseNet처럼 이미 classification에서 성능이 검증된 모델들로 바꾸는 것이 자연스러운 흐름이었습니다. DenseNet도 ResNet에서 분화한 것이라고 생각한다면, 최근 모델들은 모두 ResNet을 기반으로 하고 있다고 말할 수 있겠습니다.

가장 처음으로 ResNet을 사용한 SR model은 SRResNet (CVPR 2017)으로 같은 논문에서 발표된 SRGAN 모델로 더 유명하기도 합니다. SRResNet은 batch normalization을 사용하기에 깊은 모델을 안정적으로 학습할 수 있었고 좋은 성능을 보였습니다. 비슷한 맥락에서 DenseNet을 사용한 모델으로는 SRDenseNet (ICCV 2017)이나 (연구자들의 naming sense...) Residual DenseNet (RDN, CVPR 2018)등이 있습니다. 어떤 면에서는 앞서 소개한 Recursive learning을 이용하는 모델들은 parameter 증가 없이 effective depth가 깊게 만드는 모델들이라 할 수 있고, DRCN에서 그러하듯 intermediate feature를 뽑아 마지막 단계에서 합치는 것은 dense connection을 주는 것이라 생각할 수 있겠네요.

한편 네트워크를 단순히 깊고 넓게 쌓는 것뿐만 아니라 기존 ResNet 모델을 SISR 문제에 좀 더 적합하도록 개선한 연구가 Enhanced Deep residual learning for SISR (EDSR)입니다. EDSR은 모델의 성능만으로도 매우 뛰어난 연구(**)일뿐만 아니라, 이후 SISR 모델들에 큰 영향을 미친 여러가지 유용한 분석들을 여럿 보여주기 때문에 꼭 알고 넘어가야 할 cornerstone paper 중 하나이므로 좀 자세히 리뷰하도록 하겠습니다.
** 또다시 서울대 이경무 교수님 연구실에서 나온 연구로 CVPR NTIRE 2017년 우승 모델입니다. EDSR의 강력한 점은 모델이 이해하기 쉽고 간단한데, 2017년에 발표된 모델의 성능이 2019년 5월 기준으로도 가장 상위에 속하는 모델들과 비견할만하다는 점입니다 (Table). Set5 dataset에 대한 PSNR과 SSIM을 보더라도 CVPR NTIRE 2018 우승 모델인 DBPN과 비등한 것을 보실 수 있습니다: 
Table 각종 benchmark dataset에 대한 model 성능 비교 [3]


EDSR: EDSR 이전의 모델들은 모두 classification에서 좋은 성능을 보였던 네트워크들(e.g. VGG, ResNet, DenseNet)이 SISR 문제도 잘 풀 것이다라는 가정을 바탕으로 네트워크를 디자인하였습니다. 그러나 잘 생각해보면 high-level abstraction이 중요한 classification과 대표적인 low-level vision 문제인 SISR은 서로 특성이 다릅니다.

 
EDSR의 ResBlock (c)

EDSR은 ResBlock에 붙어있는 batch normalization의 특성상 feature의 정보가 섞이거나 제한된다는 점에 주목하였습니다. Low-level feature를 잘 보존해야한다는 SISR 문제에서는 학습만 안정적으로 가능하다면 batch normalization layer를 제거하는 것이 가장 좋은 성능을 얻을 수 있다는 분석을 제시하였습니다. Batch normalization을 없애면 GPU 메모리 측면에서도 40% 가량 줄어드는 부가적인 이득이 있기 때문에, 지금은 SISR 모델이라면 기본적으로 따르는 프로토콜이 되었을 정도로 널리 사용되고 있습니다.

여기서 한 가지 주의할 점은 "학습만 안정적으로 가능하다면"이라는 전제조건입니다. 얕고 적은 수의 channel을 사용하는 수준이라면 (e.g. ResBlock: 16개, 64ch) 생각보다 학습이 안정적이기 때문에 별다른 처리가 필요없지만, 그 이상으로 깊이 그리고 넓게 쌓을 때는 나눠져서 처리된 feature들이 addition 부분에서 더해지면서 전체 variance가 매우 커지기 때문에 추가적인 처리가 필요해집니다. EDSR에서는 이를 고려하여 깊은 모델에서는 각 block의 마지막 convolution layers 이후에 0.1을 곱해주어(**) 문제를 해결하는데요. 이렇게 heuristic하지만 매우 효과적인 기술(residual scaling)을 바탕으로, 이전까지 존재하던 모델들 중 가장 깊고 넓은 모델을 성공적으로 학습시킬 수 있었습니다.
** 이것은 변수에 scaling이 그 값의 제곱으로 영향이 가는 분산의 성질 (wiki)을 생각하면 이해가 쉽습니다.  

이 외에도 EDSR에서 제안하고 여전히 자주 쓰이는 기법으로는 x2로 학습한 모델을 다른 배율 모델의 시작점으로 사용하는 pre-training이 있습니다. 이렇게 pre-trained model을 사용하면 학습이 가속되고 최종 성능도 올라간다는 것을 보였는데, 이런 결과는 각 배율 별 이미지들이 공유하는 정보가 있다는 점을 알려줍니다. 여기서 착안하여 EDSR에서는 EDSR 구조를 기본으로 하되, multi-scale 이미지를 하나의 모델로 처리하는 것이 가능한 Multi-scale SR network (MDSR)를 추가로 제안하였습니다:

MDSR 구조

그림에서 보실 수 있듯이, 앞과 뒤에 각 배율을 담당하는 작은 모듈들을 두고 중간에 공유하는 네트워크가 있어서 학습시에는 배율에 따라 해당하는 모듈들이 독립적으로 학습되데 공유 모듈은 항상 학습이 되도록 합니다. 이렇게 학습을 하면 단일 배율 모델에 비슷한 성능을 내면서도 하나의 모델로 다양한 배율에 대응이 가능하기 때문에 모델 parameter 측면에서 이득이 생깁니다. (43M$\rightarrow$8M)

SR 결과 비교 (x4 배율)

그림에서 확인하실 수 있듯이 bicubic upsample과는 비교도 안 될 정도로 원본 HR 이미지에 근접한 SR 결과를 보여줍니다.

중간 Summary (~2017)


글이 매우 길어졌기에 여기서 한 번 끊고 넘어가는 것이 좋을 것 같군요. 여기까지가 대략 2017년까지 발전된 SISR 모델들을 모두 정리한 것으로, 개인적으로는 EDSR이 2017년까지의 SISR을 대표하는 모델이라고 생각합니다. EDSR 이후로는 깊은 모델을 학습시키는 방향보다는 다른 형태의 정보를 추가해줄 수 있는 모듈들이 고안하거나 성능을 유지하되 좀 더 가벼운 모델을 만드는 쪽으로 연구의 주안점이 옮겨가기 시작했습니다. 이번 글의 완결성을 위해 network design에서 아직 남은 줄기를 훑으면 아래와 같습니다:

Exploiting Non-local or Attention modules

이제 깊은 모델을 사용하는 것이 SISR 성능 향상에 중요한 역할을 한다는 점은 매우 명확해졌습니다. 그러나 그저 ResBlock을 여러번 쌓는 것만으로는 올릴 수 있는 성능에 한계가 있었습니다. 자연스럽게 좀 더 효과적으로 모델을 학습시킬 수 있는 방법에 관심이 집중되었고 (2019년 기준) 최근에는 LR 이미지의 non-local 정보를 잘 이용하는 연구들이 많이 발표되고 있습니다. 

이런 모델들이 지적하는 기존 모델의 문제점으로는:
  • CNN의 receptive field size가 상대적으로 작다는 점,
  • Feature들이 담고 있는 local 혹은 global 정보가 동등하게 처리된다는 점
등이 있습니다. 더 큰 receptive field size는 더 많은 context 정보를 사용할 수 있도록 도와준다고 생각할 수 있는데, 여기서 context 정보라 함은 반복되는 패턴(e.g., 빌딩의 창문 격자 구조 등)과 같이 global한 정보를 뜻합니다.

이런 context 정보를 local image patch만 사용하여 유추하기는 어렵기 때문에 global한 정보를 얻을 수 있는 방법을 모델에 추가해줄 필요가 있겠죠. 이런 생각을 바탕으로 최근 제안된 모델들은 새로운 convolution (e.g., dilated convolution)이나 (spatial or channel-wise) attention,  다양한 pooling (e.g., pyramid or wavelet) 등을 이용하여 non-local module을 사용합니다.

사실 이렇게 global context 정보를 이용하기 위해 non-local filter를 사용하는 아이디어는 매우 오래전부터 model-based optimization에서 많이 연구되었습니다. 가장 대표적인 예로는 BM3D가 있죠. 최근 Kaiming He가 저자로 참여하고 CVPR 2018에 발표되어 유명했던 Non-local Neural Networks라는 연구에서도 이런 관계를 밝히며, 꼭 SISR에서가 아니더라도 global 정보를 잘 사용하므로써 CNN이 보다 좋은 성능을 낼 수 있다는 사실을 보여주고 있습니다. 
Generative Adversarial Networks in SR

한편 최근 뜨고 있는 모델 형태 중 하나는 generative adversarial network을 사용하는 것입니다. Image Super-resolution은 전통적으로 image "hallucination"이라고 불리기도 하는데요. 이름에서도 알 수 있듯이 없는 것을 만들어낸다는 점을 함의하고 있습니다. 결국 낮은 배율의 이미지가 가진 정보에서 최대한 쥐어짜 이미지를 복원하고 나면, 그 이상으로 할 수 있는 최선은 가장 그럴 듯하게 이미지를 "만들어내는 것"이겠습니다.

이런 맥락에서 인간이 봤을 때 더 그럴듯한 이미지로 SR을 하는 것에 대한 연구들이 진행되고 있습니다. 단순히 PSNR이나 SSIM 같은 hand-crafted metric을 만족시키는 것뿐만이 아니라 perceptual metric을 제안하고 사용하기 시작한 것이죠. SR 분야에서 처음으로 이런 시도를 한 연구는 SRGAN입니다.

다만 아직까지는 perceptual loss가 추가되면 필연적으로 PSNR과 SSIM에서 손해를 보기에 전통적인 competetion에서 이런 모델들이 두각을 보이진 못하고 있습니다. 그러나 ECCV 2018에서 SR 최초로 perceptual metric을 competition에 사용하면서 앞으로는 연구 관심이 더 확대될 것으로 기대됩니다.

관련 논문들: 
"Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network" (SRGAN, CVPR 2017)
"A fully progressive approach to single-image super-resolution", (ProSR, CVPR NTIRE 2018)
"ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks" ECCV 2018
"2018 PIRM Challenge on Perceptual Image Super-resolution", (ECCV 2018)

맺음말


여기까지가 2018년부터 2019년 CVPR 전까지 발표된 SISR 연구 흐름이라 생각됩니다. 아마 곧 있을 CVPR 2019에서 더 많은 논문들이 발표되겠죠. 다음 글에서는 위에 간략히 살펴본 내용과 더불어서 CVPR 2019에서 발표된 연구들까지 포함하는 것으로 network design에 대한 내용을 마무리 짓고 learning strategy 측면의 발전과 여전히 남은 한계점들에 대한 내용을 다룰 예정입니다. 그러면 이번 글은 여기서 마무리 하겠습니다. 다음 글에서 뵙지요.

참고 자료 


[1] Deep Learning for Image Super-resolution: A Survey Wang et al. 2019
[2] Deep Learning for Single Image Super-Resolution: A Brief Review Yang et al. 2018
[3] A Deep Journey into Super-resolution: A Survey Anwar et al. 2019


다음 읽을 거리





2019년 5월 14일 화요일

Image Restoration (IR): inverse problem point of view (2)

이전 글에서 전통적인 model-based optimization 방식에 대해 알아보았다면, 이번 글에서는 deep learning이 이런 관점에서 어떻게 해석될 수 있는지 알아보고자 합니다.

Model-based vs. Deep Learning-based


Bayesian 관점에서 보면 Image Restoration (IR)에서 풀고자 하는 문제를 아래와 같이 Maximum A Posteriori (MAP) 형태로 표현할 수 있다고 말씀드렸었습니다: $$\begin{align} \hat{x} &=\arg\min_x\{-\log P(y|x)-\log P(x)\} \notag\\ &= \arg\min_x\{\frac{1}{2\sigma^2}||y-Hx||^2_2+\lambda\rho(x)\}\end{align}$$ 이 문제를 푸는 방식은 model-based optimization과 discriminative learning 이렇게 두 가지로 방식으로 나눌 수 있다고 말씀드렸었죠. 지난 글에서 소개했던 model-based optimization은 image degradation($H$)을 정하고, 특정 image prior(e.g., sparsity, low-rank, etc.)를 고안하여 그렇게 만들어진 모델(objective function)의 최적해를 구하는 것으로 IR 문제를 해결하고자 합니다.

한편, discriminative learning에 속하는 방식들은 여러 장의 손상된 이미지와 원본 이미지 쌍으로 이루어진 학습 데이터로부터 일종의 mapping function을 학습하고자 합니다. Discriminative learning에서의 IR 모델은 일반적으로 $$\min_\theta l(\hat{x},x),~\text{s.t}~\hat{x}=\mathcal{F}(y,H;\theta)$$와 같으며, 여기서 $\mathcal{F}(\cdot)$은 parameter set $\theta$로 표현되는 mapping function, $l(\hat{x},x)$는 resolve된 이미지와 원본 이미지 간의 유사도를 측정하는 loss function입니다. Deep learning에서는 보통 CNN이 inference (mapping) function 역할을 하게 됩니다.

Deep learning for IR


IR 분야에 deep learning을 적용한 가장 초기의 연구는 single-image super-resolution (SISR) 문제를 푼 SRCNN으로, 두 개 layer로 이루어져 있는 초보적인 형태를 갖고 있습니다. 그럼에도 불구하고 기존의 방식들 대비 매우 강력한 성능을 보여주었으며, 단순히 CNN을 사용하여 성능 개선을 꾀한 것뿐만 아니라 CNN 모델의 sparse coding과의 연관성에 대한 분석으로 서로 다른 두 영역의 가교 역할을 해준 중요한 연구였습니다.

이후 진정 deep learning이라고 할 수 있는 깊은 구조를 사용한 모델들은 서울대 이경무 교수님 연구실에서 나온 VDSR이 시초이며, 지금은 매우 많은 연구들이 폭발적으로 진행되고 있습니다 (**). 다만 CNN을 사용한 image restoration 연구들은 이 짧은 글 하나로 담기에는 너무 방대하고 이 글의 목적인 개괄적인 소개와는 거리가 있기에 다른 글로 소개하겠습니다 (**).
** 그 중에는 제 논문도 있지요!ㅎㅎ CVPRW NTIRE 2017 3rd winning model (paper)
** IR 중에서 super-resoltion에 국한한 연구들을 모아 따로 Survey 글을 작성 했으며 이로써 갈음하고자 합니다. 

각 방식의 장단점을 따져보면, model-based optimization은 여러가지 degradation에 대해 사용자가 유연하게 forward 모델을 만들어 사용될 수 있습니다. 즉, image prior가 주어지면 $H$만 바꿔가며 같은 알고리즘으로 여러 IR 문제들을 풀 수 있습니다. 단점은 각 instance마다 새로운 optimization 문제를 풀어줘야하기 때문에 느리겠죠.

반면에 CNN을 이용한 discriminative learning-based 방식은 그 특성상 parametric mapping function $\mathcal{F}_\theta(\cdot)$이 학습 데이터와 매우 강하게 엮여 있습니다. 때문에 Image prior 자체를 데이터로부터 배우면서 좀 더 강력한 representation이 가능하므로 더 좋은 성능을 보이며, optimization에 드는 cost를 training phase로 넘길 수 있고 test phase에서의 inference가 빠릅니다. 그러나 데이터에 의존적인 면이 있으며 하나의 degradation에 대해서만 적용이 가능하고 따라서 모델의 유연성이 떨어진다는 단점이 있습니다.

이를 정리하면 아래 표와 같습니다:

Model-based optimization methodsDeep CNN-based methods
ProsGeneral to handle different IR problems
Clear physical meanings
Data-driven end-to-end learning
Efficient inference during test-phase
ConsHand-crafted priors (weak representations)
Optimization task is time-consuming
Generality of model is limited
Interpretability of model is limited

Deep image prior


Deep learning도 결국에 일종의 learnable image prior 혹은 image model $P(x)$를 배운다는 점에서 model-based optimization 방식들과 연관이 있다고 생각할 수 있습니다. 그러나 결국에 문제를 푸는 방식에 있어 서로가 매우 다른 전략을 취하기에 그 이상으로 연관짓기란 쉽지 않죠.

그런 면에서 deep image prior (CVPR 2018)는 서로 매우 달라보이는 두 방향의 연구(model-based optimization vs. deep learning)들을 이어주는 멋진 연구입니다. 제가 개인적으로 매우 좋아하는 논문이기도 합니다.

DIP가 멋진 이유는 기존의 inverse problem의 regularization 방식을 다루는 새로운 시각을 보여줬기 때문입니다. 대다수의 deep supervised learning 방식들과 달리 "네트워크 구조 그 자체"를 inverse problem의 regularizer로 사용하는 신선한 방법을 제안하는 데요.

좀 더 구체적으로 표현하자면, CNN의 구조 자체가 매우 강력한 (내재적인) prior라서 CNN이 표현 가능한 parametric function space가 일반적이지 않다는 가정에서 출발합니다. 이를 바탕으로 DIP는 우리가 모르는 latent image $x$를 CNN output으로 놓되 $z$라는 고정된 random vector에 대해서 아래와 같은 objective function에 대한 optimization 문제를 풉니다: $$\min_\theta ||H\mathcal{F}_\theta(z)-y||_2^2,\qquad \text{where }x=\mathcal{F}_\theta(z)$$ 예를 들면, 어떤 noise가 더해진 이미지를 주고 CNN을 사용하여 이런 이미지를 아무리 fitting (regression or generation)하려 해도 (GAN에서 generator를 생각하시면 편합니다), 해당 CNN으로 대표되는 parametic function space의 함수들로는 성질(property)이 좋지 않은 noise를 표현할 수가 없기에 natural image만을 fitting하여 깨끗한 결과를 내보낸다는 것이죠.

재미있는 점은 이제 CNN이 이미지 한 장 한 장에 대해 optimization 문제를 풀어 $\theta$를 구한다는 것입니다. 마치 model-based optimization 방식들 같죠? 따라서 다른 model-based optimization이 그러하듯 DIP도 unsupervised 방식으로 IR 문제를 풀 수 있게 됩니다.

DIP는 이를 super-resolution 뿐만 아니라 denoising, JPEG deblocking, inpainting 등 여러 IR 문제에 적용(model-based optimization의 유연성) 가능한 framework을 제안하면서도 기존의 optimization 방식들보다 월등한 성능(deep learning의 성능)을 보여주었습니다.


Inpainting과 denoising task


Blind restoration of a JPEG-compressed image


4x image super-resolution

Deep Plug-and-Play Priors 


앞서 소개한 DIP는 학습되지 않은 네트워크를 사용해서 멋진 결과들을 보여주었는데, 혹시 그러면 기존에 이미 IR에 대해 학습이 잘 된 deep model들을 가져와서 plug-and-play 방식으로 사용하여 좀 더 강력한 IR 모델을 만들 수는 없을까요?

이런 방향의 연구 역시 매우 흥미로운 주제이고, 최근 들어 다양한 방향으로 개발이 되고 있습니다. 이 부분은 제가 알고 있는 최신 연구들만 해도 네다섯 개가 넘는 논문들이 있기 때문에, 이에 대한 리뷰는 아무래도 기회가 된다면 다른 글에서 소개해야 할 것 같습니다.

맺음말


이로써 Image restoration 문제를 푸는 두 가지 대표적인 방식에 대해 살펴보았고, 전통적으로 IR 문제를 풀던 model-based optimization의 관점에서 새로 떠오르고 있는 deep learning-based 방법들이 어떻게 해석될 수 있는지까지 확인해보았습니다. 

이 글에 나오는 해석은 제가 개인적으로 공부하며 제 생각과 함께 정리한 것이기 때문에 꼭 절대적으로 맞는 방향이라고 할 수는 없으나, 전체적으로는 다른 유수의 연구자들이 공감하는 방향일 것이라 생각합니다. 

"기존의 모델들과 deep learning 방식의 모델 사이의 관계를 밝히고, 이로부터 얻은 insight를 바탕으로 새로운 아이디어를 제안하는 연구"가 제가 생각하는 이상적인 연구인데요. 아직은 내공이 부족하여 쉽지는 않겠지만 거북이처럼 천천히 가더라도 끝까지 계속 공부하는 연구자가 되고싶습니다. 

다음 읽을 거리





2019년 5월 13일 월요일

Signal Processing For Communications (9-1)

모든 textbook들은 보통 재미있는 부분이 가장 뒷 chapter에 몰려있고, 여기서 할 얘기를 위해 필요한 도구들을 소개하느라 공부하는 사람의 진을 다 빼곤합니다. 학문적 측면에서 그리고 완결된 설명을 위해서는 이런 방식의 presentation이 맞는 것이겠으나 개인적으로는 앞 부분에서 지루한 내용들만 쭉 이어지는 형태가 불만이었습니다.

도대체 무엇을 위해 이런 지루한 내용들을 배워야하는지도 알려주지 않은 채로 학습 과정을 따라가야 하는 경우, 지친 나머지 정작 중요한 내용에 갈 때쯤엔 (심지어는 학기 중 진도가 느려져서 가지도 못하고!) 힘이 다 빠져서 아무래도 좋을 상태가 되곤 했는데요.

그래서 이번에는 제 마음대로 가장 뒤에 챕터에서 우리가 어떤 것을 알기 위해 이 모든 지루한 얘기들을 배우는 것인지를 먼저 확인한 후, 그 내용을 더 제대로 이해하기 위해 필요한 도구들을 살피러 앞으로 돌아오는 순서로 소개를 해볼까 합니다.

이 방식이 싫으시다면, 목차 자체는 일반적인 학습 순서대로 되어있으니 이 글타래가 완성된 이후, 순서대로 읽으시면 되겠습니다.

Interpolation and Sampling


이전 글에서 continuous-time과 discrete-time 신호 간의 간극에 대한 논의를 짧게 한 바 있습니다. 간단히 말해 interpolation과 sampling은 정보 손실 없이 continuous-time과 discrete-time, 이 두 세계 사이를 오가는 방법에 대한 이야기입니다.

Interpolation은 discrete-time 신호를 continuous-time 신호로 바꿀 때 사용하는데요. Interpolation이 중요한 이유는 아날로그 시스템인 우리 인간이 인지할 수 있는 신호의 형태가 결국 아날로그이기 때문입니다. 또한 전자기기에 사용되는 아날로그 회로를 가장 잘 모델링 하는 방법이 real variable에 대한 함수, 즉 continuous-time 함수로 표현하는 것이기 때문이기도 합니다.

Sampling은 반대로 continuous-time 신호를 discrete-time 신호로 바꿀 때 사용하는 방법이죠. 가장 간단한 sampling 방식은 일정 주기로 반복하여 기록을 하는 것이 되겠습니다. Sampling 방법은 random부터 radial 등 여러가지가 있지만, 가장 간단한 방식이 uniform한 주기 $T_s$로 샘플을 얻는 uniform sampling이며 여기서는 이를 기준으로 설명을 하겠습니다. 중요한 것은 어떤 sampling 방식이든 관계없이 continuous-time의 임의의 값과 해당하는 discrete-time 수열의 점(points) 사이에는 언제나 어떤 대응(correspondence) 혹은 관계가 만들어진다는 것입니다.

그러므로 interpolation과 sampling 둘은 결국 동전의 양면과 같이 떼어낼 수 없는 사이라는 점을 알아야겠지요. 앞으로 다룰 내용을 간략히 소개하자면,

  • Interpolation: "이 행위(interpolation)로 인하여 기존 함수와 interpolated 함수 사이의 spectral 성질이 어떻게 달라지는가?"에 대한 것이며, 
  • Sampling: "이 행위(sampling)로 인해 정보 손실이 생기는가?" 그리고 "손실이 있다면 얼마나 생기며 이를 피할 수 있는가?"가 되겠습니다. 

여기서 만약 sampling의 첫번째 질문에 대한 답이 (최소한 특정 신호에 대해) "없다"라면, 이는 우리가 discrete-time domain에서 개발한 모든 신호 처리 도구들을 고스란히 continuous-time 신호에도 적용할 수 있다는 것을 뜻합니다. 이는 직관적으로는 잘 와닿지 않는 매우 흥미로운 점이지요.

당연하지만 interpolation 함수의 가장 필수충족 요소는 샘플 주기 $T_s$에 대해 아래가 성립해야한다는 것입니다:
$$x(t)\bigg\rvert_{t=nT_s}=x[n]$$ 이렇게 각 instants에서의 값이 같다는 것을 제외하고 나면 남은 문제는 이 "값들 사이사이를 어떻게 채울 것인가?"가 되겠습니다.

Local Interpolation


임의의 discrete-time sequence $x[n]$에 대한 continuous-time 함수 $x(t)$를 만드는 가장 간단한 방법은 $t=nT_s$에 대해 $x(t)$의 값이 $x[n]$과 같도록 한 후 그 사이를 이웃하는 sequence 값들에 대한  임의의 선형 조합으로 나타내는 것입니다.

일반적으로 local interpolation 방식은 다음과 같이 표현할 수 있습니다: $$\begin{align}x(t)=\sum^\infty_{n=-\infty} x[n]I\left (\frac{t-nT_s}{T_s}\right) \end{align}$$ 여기서 $I(t)$는 interpolation 함수를 뜻하며 $I_N(t)$와 같이 표현된 경우 $N$은 $x(t)$을 보간할 때, 현재 instants에 대응하는 샘플 외에 N개의 discrete-time 샘플을 사용하였다는 것을 말합니다.
** 여기서 식 (1)을 잘 살펴보면 신호 $x(t)$가 하나의 interpolation 함수 $I(t)$의 shifted version들의 선형 조합으로 나타내진다고 이해할 수 있다. 이런 해석은 차후 유용하게 사용될 수 있는 관점이므로 염두에 두고 넘어갈 필요가 있다. 
** 또 한 편으로 이 식이 재미있는 이유는 두 신호를 convolution 하는 것으로 생각하되, 하나는 discrete-time signal $x[n]$이고 다른 하나는 continuous-time "impulse response" $I(t)$인 "mixed-domain" convolution으로 생각할 수 있다는 점이다. 

$I(t)$에 어떤 함수를 사용하느냐에 따라 신호 $x(t)$에 대한 interpolation 성격이 정해지는데 어떤 $I(t)$이든 interpolation 함수라면 다음과 같은 성질을 만족해야 합니다:
$$\begin{align}\begin{cases} I(0)=1 \\  I(k)=0 \quad \text{for} \quad k\in\mathbb{Z}\setminus\{0\} \\ \end{cases} \end{align}$$ 두 번째 조건이 뜻하는 것은 $I(t)$가 몇 개의 support를 갖는지와는 상관없이 절대로 다른 interpolation instants에 영향을 주어서는 안 된다는 것이죠.

아래 그림은 기본적으로 사용되는 $I(t)$입니다. 하나씩 하나씩 살펴보겠습니다.

Zero-order $I(t)$ and First-order $I(t)$

Zero-Order Hold


가장 쉽게 생각할 수 있는 interpolation 방식은 piecewise-constant interpolation입니다. 즉, 샘플값 사이를 상수로 interpolation 하는 것이죠: $$x(t) = x[n], \quad \text{for} \quad\left(n-\frac{1}{2}\right)T_s\leq t \leq \left(n+\frac{1}{2}\right)T_s$$
Zero-order hold

Interpolation 함수가 불연속 함수기 때문에, 당연하지만 결과가 절대 부드럽지는 않습니다: $$I_0(t)=\text{rect}(t)$$
아래 첨자 0에서 알 수 있듯, $x(t)$ 값이 현재 discrete-time 샘플 값에만 영향을 받습니다. 

First-Order Hold


그 다음으로 생각해볼 수 있는 interpolation은 선형 interpolator가 되겠습니다. 두 샘플들 간에 일직선을 그어 보간을 하는 것으로 아래 그림과 같이 조금은 더 부드러운 모습을 볼 수 있죠. 
$$ I_1(t)=\begin{cases} 1-|t| \quad \text{if}~|t|<1 \\  0 \quad\qquad \text{otherwise} \\ \end{cases} $$
First-order hold

Higher-Order Interpolators


$I_0(t)$와 $I_1(t)$는 각각 zero-order와 first-order B-spline 함수라고 불리는데요. 이를 $N$-th-order로 확장한 것이 $t$에 대한 $N$-th-order polynomial $I_N(t)$이며 앞선 예시에서 유추할 수 있듯이 order가 커질수록 더 부드러운 보간이 가능해집니다.

이러한 local interpolation의 장점은 실제 적용이 간단하다는 점이지만, N번째 미분부터는 불연속 함수가 되기 때문에 그 이상의 부드러운 보간이 불가능하다는 단점이 존재합니다. 이를 spectral 관점에서 얘기하자면, 불연속성이 곧 high frequency에 대응하고 이는 보통 원치않는 결과를 부르기 때문에 여러가지 의미에서 좋지 않습니다.

Polynomial Interpolation


Local interpolation에서 문제가 되는 lack of smoothness는 우리가 유한한 길이의 discrete-time 샘플들을 보간해야한다면 쉽게 우회할 수 있습니다. 이렇게 신호의 범주를 유한한 길이로 제한을 두는 순간, 이 문제는 전통적인 polynomial을 이용한 보간 문제로 치환이 가능해지고 우리는 이에 대한 optimal solution을 알고 있습니다: Lagrange interpolation.

Polynomial interpolation이 좋은 점은 유한한 갯수의 점에 대한 polynomial interpolation은 모든 미분에 대해 언제나 연속을 보장한다는 것이죠. 즉, interpolated 함수가 maximally smooth한 함수가 된다는 강력한 장점을 갖고 있다는 것! (polynomials are infinitely many times differentiable.)

$2N+1$ 길이의 discrete-time signal $x[n],~(n=-N\cdots,N)$을 생각해보겠습니다. 모든 $2N+1$ 점 $(t_n,x[n])$을 지나는 $2N$-차 polynomial $P(t)$는 유일(unique)하고, 이는 Lagrange interpolator라는 것은 잘 알려져 있습니다.
** $P(t)$의 existence는 construction 자체로 자명하고 uniqueness 증명은 contradiction으로 쉽게 알 수 있다.

이런 polynomial의 coefficients는 다음과 같은 $2N+1$개의 방정식을 풀면 구할 수 있으며: $$\{P(t_n)=x[n]\}_{n=-N,\cdots,N}$$ 이보다 더 쉬운 방법은 $P(t)$를 $2N+1$ 개의 Lagrange polynomials (of degree $2N$)로 나타내는 것입니다: $$\begin{align*}L^{(N)}_n(t) &=\prod_{\substack{k=-N\\k\neq n}}^N \frac{t-t_k}{(t_n-t_k)} \\
&=\prod_{\substack{k=-N\\k\neq n}}^N \frac{t/T_s-k}{(n-k)}, \quad n=-N, \cdots, N\end{align*}$$ 이런 polynomial이 글 서두에 소개한 식 (2)의 interpolation의 성질을 만족하는 것은 자명합니다. 예를 들어 점 4개를 보간할 때 $L^{(N)}_n(t)$를 보면 아래 그림과 같습니다 (wikipedia의 그림이 좋아 그대로 빌려왔기에 notation이 안 맞을 수 있습니다.) :

$P(x)$ (dashed, black), which is the sum of the scaled basis polynomials $y_0ℓ_0(x), x_1 ℓ_1(x), y_2ℓ_2(x),~and~~y_3 ℓ_3(x)$. The interpolation polynomial passes through all four control points, and each scaled basis polynomial passes through its respective control point and is 0 where x corresponds to the other three control points. 

따라서 "global" Lagrange interpolator는 Lagrange polynomial들의 선형 조합으로 표현되며: $$P(t)=\sum_{n=-N}^Nx[n]L^{(N)}_n(t)$$ 여기서 global은 $x(t)=P(t)$는 interpolation을 할 때 언제나 모든 샘플들을 고려한다는 뜻입니다. 즉, 유한한 길이를 가진 discrete-time 신호 $x[n]$에 대해 Lagrange polynomials는 global interpolating 함수이며 이렇게 보간된 함수 $x(t)$는 maximally smooth합니다 ($x(t)\in C^\infty$).

Sinc Interpolation


본격적으로 Sinc interpolation에 대해 알아보기에 앞서, 지금까지 살펴본 local & global interpolation에 대해 장단점을 비교해보겠습니다.

Local interpolation 방식의 멋진 점은 interpolated 함수가 interpolation 함수 $I(t)$의 shifted version들 간의 선형 조합으로 표현할 수 있다는 것이죠: "An interpolated function is simply a linear combination of shifted versions of the same prototype $I(t)$." (식 (1)을 보라) 다만 smoothness에 한계가 있다는 단점이 있겠습니다.

반면에 polynomial interpolation은 완벽하게 부드러운 보간이 가능하지만 finite-length 신호에 대해서만 적용이 가능하며 다른 길이를 갖는 신호에 대해 서로 다른 interpolation 함수가 필요하다는 단점이 있습니다.

이 두 가지 방식의 장점만 쏙쏙 빼면 참 좋을텐데...에 대한 답이 바로 Sinc Interpolation입니다! 이제 지금까지 설명한 내용들을 바탕으로 infinite discrete-time 신호에 대해 maximally smooth한 interpolation 방법을 소개할 준비가 되었습니다.

앞서 살펴본 Lagrange polynomial of degree N에 대해 N을 무한대로 보내면: $$\begin{align*} \lim_{N\rightarrow\infty}L_n^{(N)}(t) &= \prod_{\substack{k=-\infty\\k\neq n}}^\infty \frac{t/T_s-k}{n-k} = \prod_{\substack{m=-\infty\\m\neq0}}^\infty \frac{t/T_s-n+m}{m}\\
&=\prod_{\substack{m=-\infty\\m\neq0}}^\infty \left(1+\frac{t/T_s-n}{m}\right)\\
&=\prod_{m=1}^\infty \left(1-\left(\frac{t/T_s-n}{m}\right)^2\right)\\
\end{align*}
$$
두번째 등호는 $m=n-k$를 사용하여 변수를 치환한 것입니다. 이후 전개는 아래와 같은 sine 함수에 대한 오일러의 infinite product expansion을 사용할 것인데: $$sin(\pi\tau) = (\pi\tau) \prod_{k=1}^\infty\left(1-\frac{\tau^2}{k^2}\right)$$ 이를 정리하면 최종적으로 아래 식을 얻을 수 있습니다: $$\lim_{N\rightarrow\infty}L_n^{(N)}(t) = \text{sinc}\left(\frac{t-nT_s}{T_s}\right) $$
포인트는 차수가 증가할 수록 Lagrange polynomial $L_0^{(N)}(t)$는 점차 sinc 함수로 수렴한다는 것인데요. 즉, 점의 갯수가 무한이 되면서 모든 Lagrange polynomial은 각각 sinc 함수에 대한 shifted version으로 수렴하게 된다는 점입니다. 따라서 식 (1)과 같이 $I(t)=sinc(t)$를 사용하여 무한수열 x[n]에 대해 $$x(t)=\sum_{n=-\infty}^\infty x[n] sinc\left(\frac{t-nT_s}{T_s}\right)$$로 표현하는 것이 가능해집니다.

Spectral Properties of the Sinc Interpolation


Interpolation을 할 때 주안점을 둘 부분이 바로 spectral 영역에서 interpolated 신호가 어떤 식으로 달라지는지 확인하는 것이라고 말한 바 있습니다. 이제 이게 어떤 의미인지 얘기할 준비물이 대략 갖춰졌습니다.

지금까지 interpolation 방법들 여럿을 살펴보았으나 일반화하면서 결국 마지막에 다다른 것은 Sinc interpolation입니다. 이렇게 얻은 Sinc interpolation은 spectral 영역에서 보면 재미있는 분석이 가능해지는데, 간단히 말하면 시간 영역의 Sinc 함수에 대응하는 주파수 영역의 형태는 ideal low-pass filter로써 0을 기준으로 한 사각형 박스처럼 생겼습니다.

그러므로 discrete-time sequence에 대한 Sinc interpolation은 continuous-time 신호가 band-limited low-pass filtering이 된 것과 정확히 일치합니다 (수식적으로도 그러하다). 즉, DTFT $X(e^{j\omega})$가 존재하면 interpolated function $X(j\Omega)$의 spectrum은 다음과 같이 얻을 수 있습니다: $$\begin{align*}X(j\Omega)
&= \int^\infty_{-\infty} \sum_{n=-\infty}^\infty x[n] sinc \left(\frac{t-nT_s}{T_s}\right) e^{-j\Omega t} dt\\
&= \sum^\infty_{n=-\infty} x[n] \int_{-\infty}^\infty sinc \left(\frac{t-nT_s}{T_s}\right) e^{-j\Omega t} dt \\
\end{align*}$$
Sinc 함수에 대한 Fourier Transform을 해주고 여기에 $T_s = \pi/\Omega_N$를 대체하면,
$$\begin{align*}X(j\Omega)
&= \left(\frac{\pi}{\Omega_N}\right)\text{rect}\left(\frac{\Omega}{2\Omega_N}\right)\sum_{n=-\infty}^\infty x[n]e^{-j\pi(\Omega/\Omega_N)} \\
&= \begin{cases} \frac{\pi}{\Omega_N}X(e^{-j\pi\Omega/\Omega_N}) \quad \text{for}~|\Omega|\leq\Omega_N \\ 0 \qquad \qquad\qquad\quad \text{otherwise}\end{cases}\end{align*}$$이를 다르게 말하면, 임의의 continuous-time 신호가 애초부터 bandlimited 신호인 경우 이 신호에 대한 적절한 sampling을 하므로써 어떠한 정보 손실도 전혀 없이 discrete-time 신호를 얻는 것이 가능하다는 뜻입니다.

이런 사실은 이후에 Fourier transform을 살펴본 다음에 자명하게 수식적으로 보일 수 있겠지만, 이렇게 미리 살짝 엿보는 것까지는 굳이 복잡한 Fourier transform 내용을 배우지 않고도 가능합니다.

이제 신호처리 초반에 왜 여러가지 복잡한 내용을 공부하는지 그리고 어째서 Sinc 함수와 같이 이상하게 생긴 것을 굳이 배워야하는지 조금은 감이 생기셨으리라 생각합니다.

여기에 대한 더 자세한 설명 및 Sampling Theorem 그리고 Aliasing 현상에 관한 내용은 Fourier transform 등의 수학적 도구를 더 든든히 갖춘 다음에 돌아와 살펴보겠습니다.

To be continued ... (planned)



참고 문헌


  • https://math.stackexchange.com/questions/1343904/are-polynomials-infinitely-many-times-differentiable
  • https://www.youtube.com/watch?v=ygcQJqcHdOM
  • http://home.iitk.ac.in/~pranab/ESO208/rajesh/03-04/interpolation.pdf



카카오 리포트 (Part II)

지난 글에서 GAN의 기본 원리와 배경 이론에 대해 살펴보았다면, 이번 글에서는 GAN에 대한 기본적인 이해를 바탕으로 GAN의 특징과 장단점에 대해 조금 더 심화된 내용을 다루고자 한다. 

DCGAN


초창기 GAN에 대해 얘기하려고 하면 빼놓을 수 없는 연구가 바로 DCGAN이다. GAN이 지금은 매우 뛰어난 결과들을 보여주고 있지만, 초기 결과는 아이디어의 참신성에 비해 그리 인상적이지 않았다. GAN 구조가 학습시키기 매우 어려웠다는 것도 여러 이유 중 하나였는데 Deep Convolutional GAN (DCGAN)이 나온 이후, GAN으로 만드는 결과들이 매우 급격하게 발전하기 시작했다. 크게 이 논문이 기여한 바를 정리해보면,

  • 대부분의 상황에서 언제나 안정적으로 학습이 되는 구조를 제안하였다는 점
  • 마치 word2vec과 같이 DCGAN으로 학습된 생성기가 벡터 산술 연산이 가능한 성질을 갖고 이것으로 의미론적(semantic)으로 신규 샘플을 생성할 수 있다는 것을 보여주었다는 점

등이 있겠다. 

DCGAN 논문은 GAN이 잘 학습되는 구조를 매우 세세한 가이드라인으로 제시한 연구이다. 이 논문 이후에 나온 대부분의 GAN 연구들은 어떤 형태로든 DCGAN 구조를 바탕으로 하고 있다고 할 정도로 매우 잘 확립된 구조이다. 일단 DCGAN에서 제시한 가이드 라인대로 GAN 구조를 짜면 상당히 안정적으로 학습이 된다. 이런 구조를 발견하기 위해서 얼마나 대학원생들이 힘들었을지 논문의 한 구절에서 언뜻 느껴볼 수 있다. 

“However, after extensive model exploration, we identified a family of architectures that resulted in stable training across a range of datasets and allowed for higher resolution and deeper generative models.”

DCGAN은 이름에서 알 수 있듯이 convolution 구조를 GAN에 잘 결합한 것이다. Convolutional neural network (CNN)이 지도학습(supervised learning)에서 매우 큰 성공을 거둔 것에 비해 비지도 학습(unsupervised learning)에서는 상대적으로 잘 사용되지 못하였다. 그런 면에서 DCGAN 논문은 지도학습에서 CNN의 성공적인 모습과 비지도 학습에서의 격차를 줄이는 데에 큰 역할을 하였다고도 평가된다. 그러나 이렇게 추상적인 영향력을 굳이 말할 필요가 없을 정도로 생성한 이미지의 질부터 매우 인상적인 것을 볼 수 있다. 

DCGAN 결과에서 가장 재미있는 부분은 아래와 같이 생성기의 입력으로 들어가는 $z$ 은닉 공간(latent space)에서 벡터 산술 연산이 가능하다는 점이다. 가장 흔한 예시로 word2vec 연구가 있다. 다음 수식을 계산하고 답을 추정해보자: $$KING~(왕) - MAN~(남자) + WOMAN~(여자)$$
사람은 생각보다 쉽게 
$$QUEEN~(여왕)$$
이라는 단어를 연상할 수 있지만 컴퓨터에게 이런 연산은 사실 

  1. 단어의 의미를 이해하고,
  2. 그에 맞는 새로운 단어를 찾는 등의

매우 고차원의 처리가 필요한 어려운 문제이다. 기존의 word2vec 연구에서는 뉴럴넷을 사용하여 말뭉치에서 실제로 단어 간의 관계를 학습하는 것을 보여주었고, DCGAN은 이런 문제를 말뭉치가 아닌 이미지에서 하는 것이 가능하다는 것을 보여주었다. 아래 그림이 바로 그 결과이다.



실제로 모두 DCGAN으로 생성된 결과들이다. 상당히 진짜 같은 결과만으로도 놀라운데, 이미지가 갖는 의미를 바탕으로 직관적인 벡터 산술이 된다는 것을 알 수 있다. 안경을 쓴 남자와 그냥 남자 그리고 일반 여자를 생성하게 하는 입력값들이 은닉 공간에 각각 벡터로 존재하고 있을텐데, 각각의 벡터를 서로 빼고 더해주면 최종적으로는 안경을 쓴 여자를 생성하는 입력 벡터를 찾을 수 있다는 것이다. 

물론 생성기의 입력인 $z$ 벡터 하나만으로는 깔끔한 결과가 나오지 않기에 세 개 정도를 평균한 $\bar{z}$ 벡터를 사용해서 결과를 만든 것이기는 하지만 신기한 것은 매한가지다. 어떻게 보면 네트워크가 영상의 의미를 이해했다고 생각할 수 있다. 

이 외에도 아래와 같이 침실을 생성한 결과 그림들을 보면 작은 그림이긴 하지만 꽤나 그럴듯한 결과를 만들어 냈다는 것을 확인할 수 있다. 

다섯 번 epoch을 돌려 학습한 후 생성된 침실 사진

뿐만 아니라 논문에서 "공간을 걷는다"라고 표현하였듯이 은닉 공간에서 천천히 벡터의 값을 바꿔가면, 생성기가 내보내는 이미지가 하나의 침실에서 다른 침실로 위화감 없이 부드럽게 변화하는 것을 볼 수 있다. 특히 벽이었던 부분이 자연스럽게 하나의 창으로 변화해가는 것을 보면 매우 놀랍다. 

"은닉 공간에서 돌아다니기"

만약 생성기가 단순하게 영상을 외워서 보여줄 뿐이라면 주어진 특정 입력에 대해 특정 이미지를 내보내는 일대일 대응 함수를 학습한 것으로 생각할 수 있다. 이럴 경우 은닉 공간에서 굳이 부드러운 변화가 있을 이유가 없다. 바로 옆의 $z$ 벡터가 전혀 다른 샘플과 일대일로 연동될 수 있기 때문이다. 이렇듯 은닉 공간에서 벡터 연산이 가능하다는 것과 입력에 변화를 줬을 때 생성되는 결과가 부드럽게 변하는 것을 보는 등의 분석이 중요한 이유는 우리가 학습시킨 GAN의 생성기가 일대일 대응 함수와 같이 매우 단순한 의미없는 함수(mapping)를 학습한 것이 아니란 것을 시사하기 때문이다. 

이렇게 수많은 이미지를 표현할 수 있는 정보들을 포괄할 수 있으면서도 부드러운 변화에 대응할 수 있는 함수를 학습할 수 있게 하기 위해서 은닉 공간을 잘 정하는 것도 매우 중요한 일이다. GAN에서는 보통 $z$ 은닉 공간은 고차원의 가우시안 분포를 많이 사용한다. 적절한 가정 하에서 충분히 복잡한 함수를 사용하여 대응시킬 수만 있다면 임의의 $d$ 차원 분포는 정규 분포를 따르는 $d$개의 변수로 나타낼 수 있다는 것이 알려져 있기 때문이다. 

기존 생성 모델과 GAN의 차이점


그러면 GAN은 기존의 생성 모델들과 어떤 면이 다르기에 이렇게 비교적 또렷한 이미지를 만들 수 있는 것일까? GAN의 특징이자 가장 큰 차이점은 바로 GAN이 사실 샘플러(sampler)라는 것이다.  즉, 직접적으로 데이터의 분포를 학습하는 형태가 아니라 하나의 입력이 들어갔을 때 하나의 출력을 주는 형태의 독특한 특징을 지닌다.

조금 더 자세히 이해하기 위해 "확률 모델을 학습한다"는 것에 대해 생각해보면,


모델을 추정한다는 것은 일반적으로 우리가 알고 싶은 $\cal{P}$라는 진짜 데이터의 분포가 어딘가에 있을 때, 이로부터 얻은 샘플들이 i.i.d.하게 관측되었다고 가정한 후 $\cal{Q}$라는 모수 모델 클래스(parametric model class)를 만들어 그 안에서 $\cal{P}$와 가장 "가까운" 모델의 모수를 찾아내는 것을 말한다. 가장 간단한 예시로 데이터의 분포가 정규 분포를 따를 것이라 가정하여 가우시안 모델을 세우고 현재 내가 갖고 있는 데이터를 가장 잘 설명할 수 있는 평균과 분산 값을 찾는 과정을 생각해볼 수 있다.

이를 위해서는 $\cal{P}$와 $\cal{Q}$의 "차이" 혹은 "거리"를 계산할 수 있어야 한다. 그러면 구한 두 분포 사이의 거리를 줄여나가는 방향으로 모델의 모수들을 조정할 수 있고, 이 과정을 적합(fitting)이라고 한다. GAN도 Jensen-Shannon divergence라는 측도를 사용하여 분포 간의 거리를 계산하고 이를 최소화하는 방향으로 생성기를 학습한다고 분석할 수 있다. 

보통 기존의 방식에서는 아래와 같은 $\cal{Q}$에 대한 가정들을 사용하는데:
  • tractable sampling
  • tractable parameter gradient with respect to sample
  • tractable likelihood function

이 중 가장 강력한 가정이 바로 우도 함수(likelihood function)가 계산 가능하다(tractable)는 것이다. 많은 경우 현실의 모델은 계산이 불가능한 형태의 수식으로 나타나는 것을 상기한다면 기존의 모델들이 얼마나 강력한 가정을 사용하고 있는지 알 수 있다. 

한편 GAN 형태의 모델들은 임의의 확률 변수 입력 값을 사용하여 비선형 변환 함수를 통과시키면 출력으로 샘플이 하나 튀어나오는 구조이다. 마치 버튼을 누르면 샘플이 튀어나오는 자판기처럼 생각할 수 있다. GAN 모델들의 독특한 점은 바로 이 부분에서 나온다. GAN 모델들은 다른 확률 모델들과는 달리 우도 함수를 근사하려하지 않고 샘플을 뽑아주는 함수를 학습했을뿐이기 때문에 우도 함수 모델링이 필요없는(likelihood-free) 모델이라고 할 수 있기 때문이다. 

물론 이 부분은 GAN의 특징일뿐 장점일 수도 있고 단점이라 할 수도 있다. 데이터 분포에 대한 모델을 특정하지 않고 하나의 샘플을 뽑아서 보여주기 때문에 고정된 모델에 한계에 제약을 받지 않고 또렷한 이미지를 보여줄 수 있기도 하지만, 다른 한편으로는 정작 이미지를 잘 뽑더라도 데이터의 분포에 대한 정보를 직접적으로 얻기는 어렵기 때문에 분포를 알았을 때 시도해볼 수 있는 많은 분석들을 시도할 수가 없다는 아쉬움이 있다. 이 부분에 대해서는 Ian Goodfellow의 NIPS 2016 tutorial 논문[ref]이나 같은 워크샵에서 발표된 Sebastian Nowozin의 f-GAN [ref] 논문을 참고한다면 조금 더 심화된 내용을 확인할 수 있다.

이외에도 이후 연구된 WGAN에서는 기존의 GAN이 divergence를 측도로 사용하기 때문에 생기는 여러가지 문제를 지적하며 다른 방식의 측도를 제안하는 등, 점차 수식적인 분석과 함께 GAN의 가치 함수 자체를 근본적으로 수정하는 방향으로 연구가 발전되었다. 이를 바탕으로 보다 안정적인 학습과 결과를 보여주었는데 EBGAN LSGAN BEGAN 등 이후 나온 많은 GAN들이 WGAN의 카테고리로 분류할 수 있다.

이렇게 보면 모든 연구가 끝나서 더이상 할 것이 없는 것처럼 보이고 점차 이론적인 문제로 깊게 들어가면서 수학이 많이 들어가고 공학자들이 개입할 수 있는 여지가 없는 것 같지만 아직은 직관이 필요한 부분들이 많이 남아있으며 풀어야할 문제들도 많이 남아있다. 

학습이 예전에 비해 수월해졌다는 것이지 정말 쉬워졌다는 것을 의미하진 않고 네트워크의 안정적으로 학습이 이미지의 질을 보장하지 않는 경우가 많으며 수렴은 여전히 어렵고 이어 소개할 mode collapse나 모델 평가 등 역시 아직도 풀어야 할 문제가 산적해 있다. 그런 의미에서 GAN 학습이 어려운 이유를 하나씩 소개하겠다. 

GAN 학습이 어려운 이유 I: Convergence


지난 글에서 소개하였듯이 원 논문에서 GAN에 대한 이론적 근거를 증명해주었지만 아쉽게도 실제 구현은 이론적 배경이 되는 가정과 거리가 있다. 때문에 GAN 가치 함수를 뉴럴넷을 이용하여 풀었을 때 이상적인 전역해로 수렴한다는 보장이 되지 않는다. 게다가 풀어야하는 문제의 형태부터 이미 쉽게 문제를 풀 수 있는 볼록 함수 형태가 아닌 변수 두 개가 서로 엮여있는 안장점 문제(saddle point problem)를 고려해야하기 때문에 GAN은 학습이 매우 어렵기로 유명하다. 

이 때문에 많은 사람들이 생각보다 간단한 예제에서도 문제를 풀기가 어려울 수 있는데 더 복잡한 문제에서 GAN 형태가 잘 풀릴 것인지에 대해 의문을 제기한 바 있다. 이 문제를 약간 더 직접적으로 느끼기 위해서 실제로 간단한 예제인 $V(x,y) = xy$가 어떻게 생겼는지 그려보면 다음과 같다. 
f(x,y) = xy

이 문제는 $x=0, y=0$에서 안장점을 갖는 매우 대표적인 예시다. 그리고 $x$와 $y$에 대해 최소최대 문제를 풀면 이 안장점이 평형점이라는 것도 쉽게 알 수 있다. 사실 안장점이 모두 평형점이 되는 것은 아니지만 이 경우 하나의 변수에 대한 작은 변화가 다른 변수에 대해 가치 값을 줄일 수 없기 때문에 평형점이 되는 것이다. 만약 이 문제를 구배 감소법(gradient descent)으로 풀면 결과가 평형점 주변에서 수렴하지 못하고 최초 시작점에 따라서 반지름이 정해지는 궤도(orbit)를 영원히 움직이는 것을 확인할 수 있다. 심지어 학습율(learning rate)이 크면, 바깥 방향으로 발산하는 경우도 생길 수 있다. 

이를 수식과 함께 확인해보면 좀 더 명확해진다. 학습율 $\gamma$를 고정하고 $n\in\mathbb{N}$일 때, 각 변수에 대해 구배 감소를 번갈아 계산하는 것은
$$\begin{align*} &x_{n+1} = x_n-\gamma y_n \\&y_{n+1}= y_n+\gamma x_n\end{align*}$$
와 같이 나타낼 수 있다. 이 때,
$$\left[ {\begin{array}{c}
x_{n+1} \\
y_{n+1} \\
\end{array} }\right] = \left[ {\begin{array}{cc}

1 & -\gamma \\

\gamma & 1 \\

\end{array} }\right] \left[{\begin{array}{c}

x_n \\

y_n \\

\end{array} }\right]$$
이므로 여기서 $$\left[{\begin{array}{cc}
1 & -\gamma \\
\gamma & 1 \\
\end{array} }\right] = \frac{1}{\alpha}\left[ {\begin{array}{cc}
\alpha & -\alpha\gamma \\
\alpha\gamma & \alpha \\
\end{array} }\right] = \frac{1}{\alpha}\left[{\begin{array}{cc}
\cos\theta & -\sin\theta \\
\sin\theta & \cos\theta \\
\end{array} }\right] $$
로 바꾸고 $\alpha = \sqrt{\frac{1}{1+\gamma^2}}\in(0,1), \theta = \cos^{-1}\alpha\in\left(0,\frac{\pi}{2}\right)$이라 해보겠다. 고등학교에서 회전 행렬에 대해 배운 사람이라면 위의 행렬식이 매우 익숙할 것이다.  $\gamma\approx0$일 때, 즉 학습율이 충분히 작아서 $\alpha\approx 1$이면 구배 감소의 결과가 언제나 안정한 궤도(stable orbit)으로 빠지고, $\alpha<1$인 경우 $(x_n,y_n)$이 나선형으로 발산하게 된다. 

GAN 학습이 어려운 이유 II: Mode Collapse


앞서 소개한 문제도 그렇지만 GAN 학습이 어려운 이유는 대부분 그 가치 함수의 형태에서 기인한다. 두 번째로 소개할 mode collapse 문제 역시도 GAN의 독특한 가치 함수와 그 문제 풀이 방식 때문에 생기는 것으로 해석할 수 있다. 
Mode Collpase 예시 [ref]

위 그림이 전형적인 mode collapse 문제의 예시다. 맨 오른쪽의 목표 분포를 보시면 가우시안 혼합 모델로 총 여덟 개의 최빈값(mode)이 있는 것을 볼 수 있다. 아래 줄의 그림이 이 목표 분포를 근사하기 위해 GAN으로 여러번 반복하여 학습을 한 결과들을 보여준다. 

GAN이 뽑은 샘플들을 보면 각각의 최빈값들을 각 단계마다 돌아가며 방문하는 것을 볼 수 있다. 즉, 원래라면 윗 줄과 같이 전체 최빈값들을 보고 목표 분포가 여덟 개의 최빈값을 갖는 분포라는 것을 찾아내야하지만, GAN은 그렇게 하지 못하는 모습을 보여준다. 좀 더 직접적인 예를 들자면 숫자가 1부터 8까지 섞여 있는 이미지들로 데이터 분포가 있을 때, 우리는 GAN이 1부터 8까지 모든 숫자들을 만들어낼 수 있기를 바라는데 실제로는 1과 같이 가장 쉬운 한 가지 숫자만 만드는 모델을 학습한다는 것이다. 이런 현상을 하나의 최빈값에만 함몰되는 모델이나 함수를 학습한다고 하여 mode collapse 문제라고 부른다. 

사실 우리가 매 단계마다 최적의 구별자 $D^*$를 계산할 수 있다면야 이런 문제가 생기지 않겠지만 뉴럴넷으로 모델을 만들 경우 수렴이 될 때까지 계산을 매우 여러 번 해야하고 여러 가정이 깨지면서 수렴이 보장되지도 않는다. 따라서 현실적으로는 가치 함수를 각각의 변수에 대해 일정 횟수만큼 번갈아 푸는 방식을 택하는데 이런 방식 때문에 문제가 생기게 된다. 

원래 풀고자하는 GAN의 가치 문제는 다음과 같은 최소최대 문제이다:
$$G^* = \min_G \max_D V(G,D).$$
그렇지만 실제 학습을 할 때는 $G$와 $D$에 대해 번갈아가며 풀어주기 때문에 뉴럴넷의 입장에서는 이러한 최소최대 문제와 아래 같은 최대최소 문제가 구별되지 않는다:
$$G^* = \max_D \min_G V(G,D).$$
문제는 최대최소 문제에서 생긴다. 수식의 안 쪽부터 살펴보면 $G$에 대한 최소 문제가 먼저 있기 때문에 생성자의 입장에서는 현재 고정되어있는 (비최적, non-optimal) 구별자가 가장 헷갈려 할 수 있는 샘플 하나만 학습하면 된다. 즉, 가치 함수를 가장 최소화할 수 있는 최빈값 하나만 내보내면 된다. 이렇듯 GAN의 가치 함수 자체와 엮여 있는 문제이기 때문에 mode collapse 문제는 아직도 GAN에서 완전히 해결되지 않고 있다. 

GAN 학습이 어려운 이유 III: Evaluation


이에 더해 모든 생성 모델이 갖는 고질적인 문제가 파로 평가의 객관성이다. 생성을 한 이미지의 질을 평가할 수 있는 객관적인 기준을 정하는 것이 매우 어렵기 때문에 새로운 모델이 예전의 모델에 비해 발전한 것인지 평가하는 것이 쉽지 않고 연구의 방향을 잡기도 어렵다.

현재 사용되는 방식을 몇 가지 살펴보자면 대표적인 것이 아마존 매카니컬 터크(Amazon Mechanical Turk)를 사용하여 사람이 직접 평가하도록 하는 방식이다. 그러나 이런 방법은 매우 주관적이고, 일관된 평가가 어려우며, 위에서 설명한 mode collapse가 일어난 경우 전혀 모델의 문제점을 파악할 수 없다는 단점이 있다. Mode collapse가 일어난 모델의 경우 생성하는 이미지의 다양성이 부족할 뿐이지 단일 이미지의 자체는 상당히 질이 좋을 수 있기 때문이다.

두번째로는 Inception score라고 하여 구글의 인셉션 이미지 분류 모델에 생성된 이미지를 넣어 나오는 값을 바탕으로 평가를 하는 방식이 있다. 이 방법은 값이 일관되고 어느 정도 객관성을 보장할 수 있다는 장점이 있어 꽤 자주 사용되고 있다. 하지만 굳이 인셉션 모델을 사용해야하는 이유도 없고 어떤 모델의 경우 인셉션 모델에 특화(overfitting)되어 실제 이미지의 질과는 무관하게 점수가 좋게 나올 수도 있다는 문제를 안고 있다.

이렇게 앞서 소개한 문제들 외에도 다양한 연구거리가 남아있겠지만 세 가지로 크게 정리해보았다. GAN 연구가 활발하고 매일 하루가 멀다하고 쏟아지는만큼 더이상 연구할 것이 없고 너무 늦었다고 생각할 수 있으나 알고보면 아직 가야할 길이 멀다.

창GAN기-믿거나 말거나


마지막으로 GAN에 대한 탄생비화 [ref]를 소개해드리면서 글을 마무리하겠다. Ian Goodfellow가 최초로 만든 GAN은 multi-layer perceptron (MLP)을 이용한 매우 단순한 형태의 GAN이었다고 한다. 거짓말 같지만 단 한 번의 시도만에 바로 성공했다는데... 물론 매우 간단한 문제에 대해 적용해봤을 것으로 추측되지만 GAN이 수렴시키기 어렵기로 악명 높다는 것을 생각해보면 솔직히 믿기지 않는 일화이다 (마치 박혁거세 설화를 보는 느낌이랄까...). 

Ian Goodfellow가 GAN에 대한 아이디어를 처음 떠올린 순간은 몬트리올의 ``The 3 Brewers''라는 펍에서 친구들과 얘기를 하던 중이었다고 한다. 박사를 마치고 연구실을 떠나는 친구를 송별하는 자리였는데, 그렇게 모인 친구들 중 한 명이 모든 사진의 통계적 정보를 넣어서 스스로 사진을 만들어 낼 수 있는 기계에 대해 얘기를 꺼냈고, 어떻게 하면 그런 기계를 현실적으로 만들 수 있을 지에 대해 논쟁이 벌어졌다. 

존재하는 모든 사진에 대한 통계적인 정보를 얻는 것부터 일단 말이 되지 않으니 불가능한 프로젝트라고 생각하다가 순간 뉴럴넷을 사용해서 기계를 가르치면 더 진짜 같은 사진을 만들 수 있지 않을까 하는 생각이 들었다고 한다. 하지만 친구들은 그 아이디어에 대해 부정적이였고, 살짝 열이 받은 Ian은 새벽에 술자리에서 돌아오자마자 앉은 자리에서 노트북으로 GAN을 코딩했다고 한다. 그리고 거짓말 같이 단 번에 성공했다는데, 이후 인터뷰에서도 ``매우 매우 운이 좋았다. 만약 GAN이 한 번에 성공하지 않았다면, 그냥 포기했을 것이다'' 라며 스스로도 운이 좋았다고 하였다. 

이 인터뷰 내용이 사실이라면 여기서 우리는 여러가지 교훈을 얻을 수 있다 (옛날 이야기에는 언제나 교훈이 있는 법). 문제를 설정하고 풀 때 직관력이 매우 중요하다는 것과 그 직관으로 얻은 아이디어를 바로 실험해보는 실행력이 중요하다는 것, 술자리에서 연구 얘기만 주구장창 하여도 진지하고 재미있게 들어줄 사람들이 있는 집단에 들어가야 한다는 것 그리고 마지막으로 되는 놈은 뭘 해도 된다고 운도 조금은 좋아야 한다는 것이다. 희망적인 것은 어떤 문제에 대한 직관력은 그 분야와 연관된 깊은 수학적 지식에서 나올 수도 있지만 수많은 시행착오(a.k.a. 삽질)을 바탕으로 한 경험으로 길러질 수도 있다는 점이다. 그리고 매우 다양하게 많은 시도를 하다보면 통계적으로 되는 방법을 찾을 확률이 높으니 운이라는 것도 어느 정도 통계에 기대볼 수 있을 것 같다. 이렇게 열정적으로 문제를 풀다보면 비슷한 사람들이 모여있는 집단(카카오..?)에 갈 수 있는 기회가 생기고, 더 재미있게 잘 연구를 할 수 있는 선순환이 이루어지지 않을까? 

엄밀한 수학 지식을 바탕으로 차근차근 쌓아 올렸을 것 같은 매우 복잡한 이론들도 순간적인 직관에서 시작하는 경우가 매우 많은 것 같다. 그러니 수학이 어려운 공학자들이여 우리 모두 힘을 내자! 수학을 잘하는 수학자들과 실험을 바탕으로 감이 살아있는 공학자들이 각자가 잘하는 영역에서 연구를 하며 협업을 통해 문제를 발전시켜 나간다면 언젠가는 정말로 이미지뿐만 아니라 사람의 생각을 모사하는 궁극의 생성 모델을 만들 수 있지 않을까 기대해본다.

다음 읽을 거리