title만 보았을 때 페이퍼에 대한 예상
Masking을 통해 학습하는 것에 대한 효과를 정리할 것.
Abstract
실제로 예상과 내용이 어떻게 달랐는가?
실제로 분석하고자 하는 것은 1) feature learning과정과 2)왜 그것이 downstream task에 도움이 되는지 였다.
특히 pre-train dataset에서 downstream dataset에 필요한 feature를 다 커버하고 있어서 결과적으로 masking을 통한 학습이 downstream task에 유용하다는 것을 알 수 있었다.
Introduction
Self-supervised learning(SSL)에서는 인위적으로 문제를 만들고 이를 풀면서 학습하는 과정으로 이루어진다. 특히 SSL 기반의 모델들이 out-of-distribution 데이터에 대해 generalization이 뛰어난 것으로 밝혀지면서 더욱 각광을 받은 것이다.
다만 이러한 방법들의 원리를 파악하는 것은 contrastive learning 중심으로 진행되었으며, masking기반의 task인 Mask-Reconstruction-Pretraining(MRP)은 분석하고 있지 못했어서 본 페이퍼에서 다루기로 한다.
Contribution
- MRP의 semantic feature learning process를 분석
- Feature learning 과정 분석
- pre-trained encoder는 pretraining dataset의 discriminative feature를 다 학습하여 표현할 수 있음을 밝힘
- 특히 encoder의 kernel은 at most one feature만 학습을 하고 그 외의 feature와는 correlation이 적음을 확인
- Downstream task에서 좋은 이유 분석
- pretraining dataset이 downstream task의 feature를 커버한다는 점에서 downstream task에서 성능이 좋은 것을 설명하고자 함.
- 게다가 kernel별로 학습한 feature가 fuse되지 않기 때문에 downstream task에서는 이러한 kernel에서 표현하는 feature와 downstream task에 필요한 semantic class와 relation을 파악하는 문제로 되기 때문에 성능이 좋은 것으로 판단
- generalization이 좋은 이유
- pretraining dataset과 downstream dataset이 동일한 분포를 공유한다고 가정하면 fine tuning이후로 unseen sample에 대해서도 성능을 유지할 수 있다고 주장.
Related work
Contrastive learning에 대한 분석