Introduction

MLM은 인간관점에서 그럴듯한 결과를 예측하는 것이다. 즉 인간이 알아들을 수 있는 단어들 자체를 예측하는 explicit한 형태로하는 것.

이런 학습 방식 말고 다른 제안되었던 방식들

non zero probability를 여러 token이 가지도록

Key point

Methodology

Determining semantic information

  1. 어떻게 implicit하게 할까?

Knowledge distilation 방식 사용

  1. 어떻게 sparse coding 생성?