title만 보았을 때 페이퍼에 대한 예상

Encoder Decoder 구조인 것은 알 것이고, Masking이 어떻게 될 것인지가 중요하며, 동시에 scalability가 어디서 오는지 알아야 할 것

Abstract

실제로 예상과 내용이 어떻게 달랐는가?

masking은 image patch에서 오는 것으로 보임. 특히 Mask token을 사용하지 않는다는 점에서 특이 게다가 masking 확률을 75%까지 해도 괜찮은 이유가 필요하다. Enc-Dec 구조가 asymmetric하다는 것에서 Transformer 지향적이라기보다 AE 지향적인 구조 여기서 강점으로 얘기하는 것은 성능을 보존하면서 학습 속도를 3배 이상 유지했다는 것. 그래서 scalability를 주장하는 것 같다.

Introduction

BERT와 같이 masked autuencoding을 denoising autoencoder 구조로 바라본다. 다만 BERT와 차이점은 몇가지 존재한다.

사용하는 데이터가 vision data라는 점이다.
mask token, positional encoding처럼 indicator를 convolution layer에 integration하기 힘들다.
데이터 자체의 차이점 존재
- 언어 데이터는 보다 semantic, information-dense한 데이터라고 분석. 그렇기에 일부 단어를 복원하는 것만으로도 좋은 understanding performance를 얻을 수 있던 것.
- 반면 비전 데이터는 little high-level 정보를 가진다고 보고, masking rate을 크게 올려도 되는 것이다.
decoder의 역할도 NLP와 차이가 존재하며 learned latent repre의 semantic level에 따라서 design이 달라져야 한다고 본다.
- pixel 복원의 경우 lower semantic level을 필요하다
- 그 결과 계산 및 학습 시간도 개선이 되어 scalable하다고 주장

Contribution

assymetric design
- 앞서 decoder의 역할과 복원 대상인 데이터 자체의 의미를 고려했을 때 masked token을 쓰지 않는 enc를 사용해서 assymetric 구조를 제안
efficient
- assymetric 구조를 쓰면서 구조를 reduce했기에 그 결과 시간 개선, 즉 scalable하게 쓸 수 있다(더 써도 시간이 효율적이니)
- 특히 학습 데이터를 많이 쓸 필요도 없다고 본다.