기초팀
Q&A
- 왜 Adam을 주로 사용하는가?
: Adam이 RMSProp(보폭을 조절하는 역할) + Momentum(이전의 학습 결과의 관성을 남겨놓는 역할)을 모두 고려하는 방식이라 명확하게 어떤 옵티마이저가 좋은지 잘 판단이 아니되면 adam을 쓴다고 알고 있습니다!
심화팀
Numerical Gradient vs. Analytical Gradient
⇒ Gradient Check 필요! (numerical gradient이 analytical gradient와 일치하는 지를 보기!)
Back-propagation
- 실제로 Gradient는 Jacobian Matrix로 표현됨
- Gradient의 shape는 언제나 input의 shape와 동일해야 하므로, 이를 체크해야 함!
CNN
Why CNN?
- FCN의 전결합층으로 인한 computation cost를 낮추기 위함
Convolutional Layer
- Filter
- Activation map: conv layer의 output
- 생물학적 idea를 모티브 → Filter에도 hierarchy가 존재!
Closer look at spatial dimensions
- "Stride"에 따라 activation map의 사이즈가 달라짐
- Padding: 연산 시 누락되는 정보가 없게 하기 위해 사용
Pooling Layer