Abstract

larger language models memorize training data faster across all settings. … memorize before over-fitting and forget less throughout the training process.. memorize nouns and numbers first

Introduction

memorization은 generalization과 연관지어서 고민되었던 분야로, over fitting 등 부정적인 인식을 가지고 있다가, large model에서 training data를 기억한다는 것이 반대로 generalization을 개선하는 효과로 인식되었고, 최근에는 training 과정에서 언어 모형의 memorization의 dynamics를 이해하려고 한다.

Contribution

Background and Related work

Memorization in Language Models

Language Model Training Dynamics