abstract

task specific fine-tuning dataset을 가져야 한다는 requirement때문에 이를 해결하고자 함.

여기서 제시한 방식은 few-shot 성능을 어떻게 하면 올릴 것인지에 대한 방식으로, gradient update 없이 단지 text interaction만으로 구현하게 되었고, 이러한 방식은 on the fly로 문제를 풀어야 하는 상황에서 성능향을 보이며 일부 article에서는 사람이 작성한 것인지 구분하기 힘든 수준까지 도달하게 되었다고 한다.

다만 아직 문제가 되는 것은 large web corpora에서 학습하는 과정에 대한 것이 있다.

Introduction

Motivation

기술적으로 large labeled dataset으로 학습하는 것은 모델의 적용성을 제한하게 되는데, laborious하다는 것.

모델의 표현 능력에 있어서 학습 데이터에 좁혀져 있어 제한적이란것으로 pre-training시 일반 적인 데이터를 사용하지만 fine tuning을 하게 되면서 일부 데이터에 의존하는 그러한 correlation이 생기게 되어 결과적으로 fine-tune한 task는 잘할 지 몰라도 실제 성능은 그렇게 향상되지 않는다는 것.

마지막으로 인간은 그러한 학습 방식을 선택하지 않는다는 것.

Figure 1.1 Language model meta-learning

Figure 1.1 Language model meta-learning

in context learning이란 표현을 사용하게 되고, 이게 meta learning이랑 연결되는 부분인데 핵심은 sequence 안에서 학습의 흐름을 가지고 있다는 것으로 하나의 forward pass에서 문제와 정답이 연결된다는 것.

Figure 1.2 Larger models make increasingly efficient use of in-context information

Figure 1.2 Larger models make increasingly efficient use of in-context information

in-context learning을 하게 될 경우 sequence안에 예시들이 존재하게 되는 prompt와 그렇지 않은 경우에 비해 급격히 성능이 향상된 것.

Contribution

결과적으로 이 papaer에서 다루고자 하는 것은 다음과 같다.