title만 보았을 때 페이퍼에 대한 예상

Encoder Decoder 구조인 것은 알 것이고, Masking이 어떻게 될 것인지가 중요하며, 동시에 scalability가 어디서 오는지 알아야 할 것

Abstract

실제로 예상과 내용이 어떻게 달랐는가?

masking은 image patch에서 오는 것으로 보임. 특히 Mask token을 사용하지 않는다는 점에서 특이 게다가 masking 확률을 75%까지 해도 괜찮은 이유가 필요하다. Enc-Dec 구조가 asymmetric하다는 것에서 Transformer 지향적이라기보다 AE 지향적인 구조 여기서 강점으로 얘기하는 것은 성능을 보존하면서 학습 속도를 3배 이상 유지했다는 것. 그래서 scalability를 주장하는 것 같다.

Introduction

BERT와 같이 masked autuencoding을 denoising autoencoder 구조로 바라본다. 다만 BERT와 차이점은 몇가지 존재한다.

Contribution