Language Models are Unsupervised Multi-Task Learne_231010_142356.pdf
1. Introduction
기존의 supervised learning의 방식에선
- test its performance on independent and identically distributed (IID) held-out examples
- single domain datasets is a major contributor to the lack of generalization observed in current systems.
즉 학습을 할 땐 그 domain의 데이터만 사용한다는 단점과, 이상적인 환경에서 평가를 한다는 것
그렇기 때문에 in the context of dialog에서 바로 학습이 가능한 방식이 필요하다는 것.
Meta learning 관점에선
- (dataset, objective) pair is a single training example sampled from the distribution of datasets and objectives.
- need just as many effective training pairs ⇒ difficult to scale
McCann, B., Keskar, N. S., Xiong, C., & Socher, R. (2018). The natural language decathlon: Multitask learning as question answering. arXiv preprint arXiv:1806.08730.
최근 연구에선
- Transformer처럼 encoding을 통해 context representation을 가지고 attn 기반 여러 task를 수행할 수 있는 architecture가 제시
- 다만 supervised fine tuning이 필요