4주차 학습 정리

1) 강의 복습 내용

Domain Understanding

AI 모델을 만드는 목적은 어떤 문제를 해결하기 위한 것입니다. 따라서 그 문제가 어떠한 **영역(domain)**에 있고, 그것의 특성이 무엇인지 알 필요가 있습니다.
특히, 머신러닝 및 딥러닝에서 접하는 데이터는 그 특성이 매우 복잡하며, 겉보기에 그 의미를 파악하기 힘든 것이 현실입니다.
따라서 **도메인 지식(domain knowledge)**을 활용하여 문제를 정의(problem definition)하고 어떻게 풀 지를 결정하는 것은 중요합니다.

EDA

**탐색적 자료분석(Exploratory Data Analysis)**은 존 튜키(John Tukey)가 발명한 자료분석 기법으로, 데이터를 분석하는 데에 있어서 데이터 자체의 탐색 및 이해가 중요하다는 방법론입니다.
서적이나 학교의 수업에서 주어지는 데이터는 매우 정제된 데이터로, 데이터만을 보더라도 어떻게 문제를 해결할 수 있을지가 보이는 경우도 많습니다. 하지만 실제 상황의 문제를 해결하는 데 있어서는 "문제 자체가 무엇인지"를 정의하는 것조차도 힘들 때가 많습니다.
데이터에 대한 잘못된 이해와 해석은 잘못된 가정과 모형 구축으로 이어지고, 결론적으로 올바르지 않은 결론을 만들게 됩니다.

Generalization

Bias-Variance Tradeoff

$$ \begin{align*} \mathbb{E}\mathcal{D} \left[ (g^{(\mathcal{D})}(\mathbf{x}) - f(\mathbf{x}))^2 \right] &= \mathbb{E}\mathcal{D} \left[ (g^{(\mathcal{D})}(\mathbf{x}) - \bar g(\mathbf x) + \bar g(\mathbf x) - f(\mathbf{x}))^2 \right] \\ &= \mathbb{E}\mathcal{D}\left[ (g^{(\mathcal{D})}(\mathbf{x}) - \bar g(\mathbf x))^2 + (\bar g(\mathbf x) - f(\mathbf{x}))^2 \right. \\ & \left. \space \space \space \space \space \space \space \space \space \space \space + 2(g^{(\mathcal{D})}(\mathbf{x}) - \bar g(\mathbf x))(\bar g(\mathbf x) - f(\mathbf{x})) \right] \\ &= \mathbb{E}\mathcal{D} \left[ (g^{(\mathcal{D})}(\mathbf{x}) - \bar g(\mathbf x))^2 \right] + (\bar g(\mathbf x) - f(\mathbf{x}))^2 \end{align*} $$

수식적으로는 특정 데이터 분포 $\mathcal{D}$가 주어졌을 때, $g^{(\mathcal{D})}$는 해당 데이터를 모델링한 것이고 $\bar{g}$는 이들의 평균입니다. $f$는 실제 분포를 의미합니다.
- Bias (편향): Bias는 데이터에 대해 잘못된 가정으로 인해 모델 자체가 갖고 있는 편향을 의미합니다. 직관적인 의미로는 데이터에 내재된 구조를 모델이 담아내지 못하는 **underfitting(과소적합)**을 의미합니다.
- Variance (분산): Variance는 데이터에 대해 모델 자체가 갖고 있는 분산이라는 의미입니다. 즉, 모델 자체의 변동성이 데이터의 내제된 구조에 비해 큰 상황인 **overfitting(과대적합)**을 의미합니다. 쉽게 말해, 훈련 데이터가 갖는 조금의 변동이나 에러로 인해서도 피팅된 모형이 크게 변동하는 것을 의미합니다.
Data Augmentation
- 머신러닝 및 딥러닝 모델을 학습시키는 것은 단순히 주어진 훈련 데이터에 적합된 모델을 찾는 것이 그 목적이 아니라, 보지 않았던 새로운 데이터에 대해서 잘 예측하는 것이 그 목적이라고 할 수 있습니다.
- 따라서, 주어진 데이터 이외의 경우나 상황에서도 잘 적용될 수 있는 모형을 찾기 위해 data augmentation 기법을 사용합니다.
- PyTorch에서는 torchvision.transforms 내에 존재하는 여러 클래스들을 이용해서 이를 쉽게 구현할 수 있습니다.

Pre-trained Model

딥러닝 모델을 훈련시키는 데에는 매우 많은 양의 데이터를 필요로 합니다. 따라서 처음부터 모델을 새로 구축하여 학습시키는 것은 비효율적이기도 하고, 실제로 훈련이 잘 되지 않을 가능성이 높습니다. 모든 파라미터들이 특정 수준까지 적합되기에는 데이터가 매우 부족한 것이 그 원인입니다.
따라서 다른 사람들이 미리 훈련시켜놓은 모델을 조금만 바꿔서 목적에 맞게 재이용하는 방법론이 딥러닝에서는 자주 사용됩니다. 미리 훈련된 모델을 pre-trained model이라고 하고, 이를 미세하게 조정하여 목적에 맞게 재가공하는 것을 fine tuning이라고 합니다.
가장 쉽게 이를 달성하는 방법은 기존 모델의 마지막 nn.Linear 레이어를 제거하고, 원하는 클래스 수에 맞는 새로운 nn.Linear 레이어를 붙인 채로 다시 훈련을 시키는 것입니다.
- 이때, 기존 pre-trained model에 사용된 훈련 데이터와 새로운 훈련 데이터가 유사한 도메인에 있다면, 마지막 레이어만 적당히 수정하면 가능합니다.
- 그러나 만약 둘이 서로 유사성이 크지 않거나 서로 다른 도메인에 있다면, 모델 전반에 걸쳐서 training을 시키는 것이 필요할 수도 있습니다.
- 이는 heuristic하게 진행되어야 하는 부분이며 원칙은 존재하지 않습니다. 그러나 일반적으로 CNN의 경우 레이어가 앞에 위치할수록 low-level features를 추출(extract)하고, 뒷단으로 갈수록 high-level features를 추출하는 경향이 존재합니다. 따라서 경험적으로 판단하는 것이 필요합니다.

2) 과제 수행 과정 및 결과물

과제 수행 과정에서 진행했던 결과물을 공유합니다.