Abstract

실제로 예상과 내용이 어떻게 달랐는가?

CoT와 차이점은 sequential하다는것은linear한 reasoning으로 보고, 인간의 reasoning은 nonlinear하다고 지적하며 novelty를 주장. 특히 성능 향상과 더불어 baseline으로 사용된 Multimodal CoT_large는700M param에 비해250M으로 성능을 내서 effective하다고 주장. 단 CoT와 비교해서 latency 문제는 없는 것인지, FLOPs는 많아졌을텐데 effective하다고 할 수 있는 것인지

Introduction

여기서 기본 가정은 인간의 reasoning은 non-sequential이며 graph fashion.

Untitled

여기서 제시한 GoT는 2단계로 구성

rationales generation
- 이 과정은 human reasoning에서 deduction을 모방한 것.
- model → hypothesis로 전이했다고 볼 수 있을까
즉 GoT는 hypothesis를 구축하는 것이고 RLHF는 confirmation을 하기 때문인건가?
answer generation

앞서 만든 rationale들로 답을 다시 뽑아내는 과정

즉 deduction 과정 중 observation을 만드는 과정.

Contribution

이 페이퍼에서 multimodal CoT를 baseline으로 잡았기에 2가지 task로 비교
- text-only GSM8K
  - ChatGPT 대비 25.08% 개선
- multimodal ScienceQA
  - (baseline) Multimodal-CoT 대비 6.63% 개선
  - parameter 수 감소

Graph of Thought

Untitled