Abstract

실제로 예상과 내용이 어떻게 달랐는가?

artificial general intelligence(AGI) system의 early version으로 평가. 한계를 밝히면서 next-word prediction 이상의 paradigm을 추구할 필요가 있다고 평가

Introduction

우선 지적 능력이라고 하는 것은 일반화할 수 있는 추론 능력(generalizable mechanisms for reasoning)과 상식과 같은 정보들을 알고 있는 것(construction of knowledge bases containing large corpora of commensense knowledge)로 보고 있다.

다만 기존의 연구들은 체스나 바둑과 같은 잘 정의된 task와 challenge에 대해서 집중하고 있었던 상황에서, LLM의 등장은 큰 전환점을 가지기에 충분했다. LLM은 web-text data를 이용해서 self-supervised objective를 사용해서 next word prediction을 학습하는 시스템이다.

평가 대상

본 페이퍼에서는 early eversion of GPT-4로 테스트를 했으며, 자연어 쿼리(prompt)를 이용해서 성능을 확인해보고자 했다. 성능 향상을 비교하기 위해서 ChatGPT나 GPT-3의 fine-tuning 모형과 비교하고 있다.

일련의 테스트를 통해 본 페이퍼에서 말하고자 하는 것은 GPT4가 완벽하다거나, 사람이 하는 것을 할 수 있게 되고 있다는 것이 아니다. 실제로 여전히 Halluciantion과 같은 문제를 겪고 있으며, 단순한 산수문제도 존재하고 있다. 다만 동시에 비언어적인 능력을 보이고 있다고 본다. 하지만 전반적으로 인간과 같은 지적 패턴을 보인다고 말하긴 어렵지만, 그러한 AGI system으로 다가가고 있는 것을 확인해볼 수 있을 것이다.

평가 방식

이러한 “시스템”을 평가하기 위해선 benchmark를 사용하게 되는데, 이 때 정말 학습하고 있는지, 혹은 단순히 기억(memorization)만을 하고 있는지 구분하고자 한다. 특히 training data에 대한 세부사항을 모르고 있기 때문에 이미 기존의 benchmark들은 이미 학습했다고 생각한다. (이후에 언제까지 pretraining이 되었는지, 그러한 시기도 고려하게 된다.) 그렇지만 여기서 방점을 두고 있는 것은 기존의 AI system에서 보이던 것을 넘어 일반적인 지적 능력을 GPT-4가 보이고 있다는 것이다.