Key word

Introduction

joint distribution을 계산하자

기존 MLM은 explicit joint distribution을 다루지 않는다. 이게 repre. learning 관점에서는 문제가 없고 한 sequence에서 병렬로 loss 계산이 가능하다는 점에서 장점으로 볼 수 있지만 generalization 관점에서 explicit joint distribution을 다루고 싶어한다.

MLM은 Maksed toekn들 간 독립 가정이 존재한다.

실제 계산에 있어서 확률 계산을 하는 것은 마스킹된 token의 확률을 말하게 되고, 이 때 “병렬”로 계산을 한다는 것은 결과적으로 마스킹되지 않은 token이 주어졌을 때 마스킹 된 token들은 conditionally independent하다고 가정한 것이다.

여기서 이러한 가정을 하게 된 이유는 결국 병렬로 동시에 계산하기 때문에 된 것으로, 이것을 막기위해서 입력으로 하나의 token만을 사용하는 unary conditionals을 사용하여 fully connected Markov Random Field(MRF)를 구성할 수 있다면 independence assumption을 사용하지 않을 수 있다고 한다.

어떻게 독립가정 없이 joint distribution을 계산할까

비슷한 관점으로 MLM을 depenency network의 unary conditional로 해석한 방법도 있었다. 여기서 아이디어는 dependency network로 나타내었을 때 Hammersley-Clifford-Besag theorem에 의해서 그에 상응하는 MRF를 찾고 joint distribution을 찾을 수 있게 된다. (이것을 compatible이라고 한다.)

다만 이게 불가능한 경우 근사적으로, near-compatible을 유도해서 사용한다고 한다(이것이 AG construction이라고 불린다). 직접적으로 계산하기보다 unary conditional이 유사하다는 성질을 가지도록 계산하는 방식을 말한다.

실제 sequence로는 계산이 불가능한 상황인데 어떻게 우회할까