Abstract
- Next token prediction(NTP)에 기반한 Chain-of-Thought(CoT)의 이론적인 framework 제시
- length comlexity라는 complexity measure 제시
- 실험상으론 AR이 성능에서 큰 부분을 차지한다고 주장
Introduction
기존 방식에서 성능을 올리기 위한 시도
- CoT, scratchpad와 같이 reasoning 과정을 보다 더 쉽게 설계
- 단 이러한 방식이 결국 AR 기반의 모델이기 때문이라는 것에 초점을 맞추어 이를 분석하기 위한 이론적인 framework를 제시
CoT
- supervising intermediate logical steps
- 이 방식을 통해서 원래 Transformer가 잘 풀지 못한 arithmetic problem에 도움됨.
- 다른 방식은 algorithmic pipeline을 설계해서 사용하던 것도 있었다.
- 특히 AR 방식에선 I/O가 모두 우리가 가진 데이터이기 때문에 intermediate한 과정을 다룰 수 있게 된다.
Beyond Transformers(Trf)
- complex한 attention operation을 대체하려는 시도는 존재