Overview
Classical ML Theory
- Modeling = statistics + Optimization
- Statistics : Loss design, “global min of the training loss has small test error”를 만족하도록 하는 설계
- Optimization : optimizer는 그 global min of the loss 를 찾는다는 것
- 기존의 optimization 이론들은 convexity를 가정했기 때문에 unique한 global min은 존재해왔던 문제를 풀었던 것이다.
Optimization in Deep Learning
- Non convex한 문제를 풀기 위해서 확장된 문제 범위에서 이를 해결하려는 방법들이 존재.
- 확장된 문제 범위: 특정 조건들을 가지는 데이터 셋들(ex. all local minima are global)
- 해결하려는 방법 : residual connection, normalization layer and etc.)
- 어느정도 확장된 문제만 다뤘던 이유
- 극단적인 non convex한 경우는 잘 없었다는 경험.
- 특히 제안된 방식들만으로 nice한 landscape을 가지게 된 경험
- Reference paper
NTK Approach
- parameter space에서 loss가 convex한 영역에 초점을 맞추어 보았을 때 global minimum이 존재한다는 것.
- 즉 특정한 ball을 보게 될 경우 convexity를 확인한다는 것. 즉 풀 수 있는 문제를 찾아보는 것
- 특히 gradient 기반의 알고리즘을 쓰고 있는 환경에서 kernel method를 적용해보자는 것이 Neural Tangent Kernel(NTK)라는 것
- 다만 test error가 크다는 점이 한계라고 할 수 있다.
- Reference paper
Deep Learning Theory