Motivation
Sampling Convention
Desirable property
w.r.t quality of inference
sampled sentences should be diverse by some metric
Diversity : 다양하게 sampling한다는 것이 특정한 형태(prefix)가 너무 많이도, 너무 적게도 나오지 않아야 한다는 것을 보이는 것
Arithmetic sampling does not sample any prefix “too much” (Proposition 5)
Arithmetic sampling does not sample any prefix “too little” (Proposition 6)
w.r.t statistics(a.k.a faithful)
if a sequence gets high probability under the language model then we should see it
Unbiased
efficient(variance reduction)
퍼포먼스 측면에서 variance가 줄어든다고 한다.
w.r.t. Engineering
No more complex than normal decoding.
“Efficient” sampling
기존의 방식(e.g. beam search 등)으로 하던 것과 비슷한 결과가 나온다는 것.(기존의 방식이 efficient한 방식을 추구하니)
Parallel sampling
다만 sample point를 찾는 과정이 code space에서 sampling을 하는 것이기 때문에 Parallel하게 구현할 수 있다는 점에서 Paralle하게 된다는 것
Arithmetic sampling
Reinterpret ancestral sampling as lazily constructing an arithmetic codebook
기존에 decoding하는 방식을 codebook을 따라 하나씩 찾아가는 방식으로 해석
ex. A - > C : AC
pick codes that are spread out in code space
inference 결과를 찾아가는 것을 code “space” 상에서 sample “point”를 지정하는 것으로 해석
즉 위의 이미지에서 Sample 1, …, Sample 9까지 사이의 간격이 일정한 것이 spread out