pretraining이 downstream task에서 좋은 이유를 설명 못함.
그리고 기존 이론적인 해석은 다음의 가정을 가짐
그래서 최근엔 pre-training task의 diversity를 그 원인으로 보고 있다. 즉 multi-task pre-training을 바라보는 것. 다만 embedding dimension보다 더 많은 task를 해야한다고 말하는데 실제로 하고 있는 task는 수개에 불과하다.
그래서 MaskedLM(MLM)이 가지는 효과에 주목해서 진행하기로 한다. 왜냐하면 마스킹을 하고 예측을 하게 되는 과정이 결과적으로 multi-class classification problem이 되는 것이고 vocab에 따라 다르겠지만 byte-pair encdoing을 했다면 30K개의 class를 가지는 것가 같은 효과가 된다. 이것은 주로 embedding dimension보다 충분히 많기도 하다.
이러한 것들에 대해서 statistical analysis를 하고자 하고 결과적으로 diversity of class가 diversity of task와 같은 효과를 낸다고 본다.
the least singular value of the last linear layer in pre-training!