<aside> 💡 아래 포스트는 네이버 Boostcamp AI-Tech 과정 중 고려대학교 인공지능학과 최성준 교수님의 DL Basic 수업 및 자료를 바탕으로 재구성한 것입니다.
</aside>
Neuron vs. Perceptron (source: https://inteligenciafutura.mx/english-version-blog/blog-06-english-version)
Artificial neural networks (ANNs), usually simply called neural networks (NNs), are computing systems inspired by the biological neural networks that constitute animal brains.[1]
Neural networks are funciton approximators that stack affine transformations followed by nonlinear transformations.
비선형 변환 없이 아파인 변환만을 중첩(stacking) 혹은 합성(composition)한다면, 사실 이는 단 하나의 선형 함수로도 표현할 수 있게 됩니다. 즉, 행렬곱에 의해 아무리 많은 함수를 쌓더라도 이는 단일의 선형함수에 불과합니다.
$$ \mathbf{W}_n(\cdots (\mathbf{W}_2(\mathbf{W}_1\mathbf{x}))) = \mathbf{W} \mathbf{x} \text{, where } \mathbf{W} = \mathbf{W}n \mathbf{W}{n-1} \cdots \mathbf{W}_1 $$
따라서, 오늘날의 딥러닝을 가능하게 해주는 것은 바로 비선형성(nonlinearity)입니다.
"Multilayer Feedforward Networks are Universal Approximators"[2]
Sums of the form
$$ \sum_{j=1}^{N} \alpha_j \sigma(y_j^\top x + \theta_j) $$
where $y_j \in \mathbb{R}^n$ and $\alpha_j, \theta_j \in \mathbb{R}$, are dense in the space of continuous functions on the unit cube if $\sigma$ is any continuous sigmoidal function.