title만 보았을 때 페이퍼에 대한 예상

Masking을 통해 학습하는 것에 대한 효과를 정리할 것.

Abstract

실제로 예상과 내용이 어떻게 달랐는가?

실제로 분석하고자 하는 것은 1) feature learning과정과 2)왜 그것이 downstream task에 도움이 되는지 였다. 특히 pre-train dataset에서 downstream dataset에 필요한 feature를 다 커버하고 있어서 결과적으로 masking을 통한 학습이 downstream task에 유용하다는 것을 알 수 있었다.

Introduction

Self-supervised learning(SSL)에서는 인위적으로 문제를 만들고 이를 풀면서 학습하는 과정으로 이루어진다. 특히 SSL 기반의 모델들이 out-of-distribution 데이터에 대해 generalization이 뛰어난 것으로 밝혀지면서 더욱 각광을 받은 것이다.

다만 이러한 방법들의 원리를 파악하는 것은 contrastive learning 중심으로 진행되었으며, masking기반의 task인 Mask-Reconstruction-Pretraining(MRP)은 분석하고 있지 못했어서 본 페이퍼에서 다루기로 한다.

Contribution

Related work

Contrastive learning에 대한 분석