기존 text generation 모형들은 long-term discrepancy를 반영하고자 했고, architecture나 optimization 등의 관점으로 해결하고자 해왔다. 다만 이런 모형들이 평가되는 방식은 one-step prediction 즉 이전시점까지의 context를 주어졌을 때 다음 단어의 prediction으로 평가하는 metric(e.g. perplexity)를 사용했다.
하지만 이런 모델들은 sequence가 길어질수록 entropy rate이 급격히 증가하는 것을 확인할 수 있었다. 이 때 사용한 entropy rate은 long-term property를 평가하기에 perplexity보다 적절한 것으로 생각된다. 특히 이러한 현상은 기존 모델들이 좋은 “accuracy”를 가진다고 하지만 이러한 optimzation이 결과적으로 longterm property에 대한 control이 없다는 증거가 된다고 본다.
게다가 기존에 사용하던 loss인 cross entropy와 연결하여 분석하기에도 도움이 된다. 다음의 것들이 기존 regime과 연결되는 부분들이다.
특히 이러한 접근 방법덕분에 기존의 모델들의 desirable property인 small cross entropy, perplexity를 유지, 혹은 개선하면서 entropy rate amplication을 줄이는 방법이 될 수 있다고 한다. 실제로 entropy rate amplication을 조정하는 calibration을 거치는 것이 perplexity도 개선하는 결과를 보인다고 한다.
이와 더불어 memorization이라는 것은 이전의 subsequence가 최근의 subsequence과 얼마나 연관되어 있는지 알려주는 것을 지표화한 것으로, text generation 시 recent subsequence에 더 많이 주목하고 있는 것으로 보인다.
long term dependency를 반영하기 위한 기존의 시도
이와 달리 본 연구에서는 explicit하게 measure한다는 점에서 차이