Abstract

실제로 예상과 내용이 어떻게 달랐는가?

여기에서는 무관하다는 맥락에서 사용된 것이긴 한데, subpopulation의 개념을 생각해보면 사실 long tail distribution을 가지는 실제 데이터의 환경에서 드물게 등장하는 데이터에 대한 memorization을 말하는 목적으로 생각.

그 결과 여기서 말하는 irrelevant data마저 학습한다는 것은 우리가 원치 않던 데이터까지 학습하게 된 것.

즉 모델 학습에 있어서 우리는 일반적인 추론 능력을 이해하고 대화가 가능하길 바랐다만 실제로 모델이 학습을 하는 방식은 그렇지 않다는 것이 된다.

개인적으로 이러한 환경에 놓이게 된 것은, 우리가 주어진 정보를 주고 복구하는 과정에서 모델이 loss를 줄이기 위해서 사실 쉬운 선택지는 그러한 minior한 점들에 대한 fitting이 해당한다. 왜냐하면 일반적인 추론 능력이라는 것은 사실 선택하기가 어렵다는 것이고, 선택하기 어렵다는 것은 주로 perplexity가 높다는 것을 의미하게 된다. 그러한 환경에서 모델이 학습을 잘 하게 되는 것은 그러한 일반적인 추론 능력을 학습하는 방향이라기 보다 entropy가 낮은 데이터를 먼저 더 학습하게 된다는 맥락으로 생각.

이게 큰 문제가 될 수 있는 점은 우리가 기대하는 방향대로 학습하지 않는다는 점이 문제가 되는데, 가령 우리는 평균과 분산을 안다면 정규분포를 서술할 수 있게 된다고 생각하는데, 모델이 정규분포를 학습하는 것은 그렇지 않고 잘 분포하지 않는 곳부터 학습하는 방식을 선택한다고 생각. 이러한 관점은 pruning에서 큰 대리석을 두고 깎아 나가면서 학습한다는 비유로도 생각을 해볼 수 있을 것.

이전의 경험을 비추어 보았을 때 모델이 loss를 줄이는 과정에서 dominant한 것을 우선적으로 줄이는 것이 자연스러운데, 모델은 그게 dominant해서 그렇게 최적화를 하는, 즉 인지하고 학습한다기 보단 동일하게 update를 하지만 데이터의 분포에 따라 학습이 어떤 방향을 가지게 된다고 생각.

Introduction

Problem Definition

여기에서는 next-symbol prediction이나 multi class classification problem을 고려하고 있다.

쉬운 문제 설정을 위해 class distribution을 $\{0,1\}^d$의 hypercube를 선택함.

label memorization & Interpolation

원래 memorization이라는 것을 이전에는 label memorization이라고 해서 training data를 완벽하게 학습할 경우에 새로운 데이터가 들어왔을 때 마치 interpolation을 해서 예측하는 것 같은 현상을 다루고 있었다고 한다. 이러한 interpolation을 통해서 학습하고 있는 상황에서는 memorization이 매우 중요한 역할을 하고 있었다고 하는 것이 이전의 결과

Notation

Problem instance(learning task) $P$ from metadta distribution $q$, $p\sim q$
- 일종의 data의 priori가 되는 것이 $q$
input data $\mathcal{Z}$
label $\mathcal{Y}$