Introduction
pre-trained 모델을 사용하는 방법은 2가지가 있다.
- fixed feature extractor
- fine-tuning :
- 이게 괜찮은 이뉴는 linguistic information을 방해하지 않으며 high-layer에서만 그 update가 유효하게 작용했었다.
Key points
- fine-tuing과 performance 관계
- training set과 test set(unseen data)에 대한 divergence가 존재
- 다만 이런 divergence가 성능을 낮추는 경우는 예외적으로 한번 존재
- fine-tuing이 represetation을 변형시키는 방법
- pre train 결과 linearly separable한 경우
- pre train 시 label와 동일한 개수의 cluster를 만드는 경우
- 서로 다른 label을 가진 cluster에 대해서 더 멀어지도록 한다.
- pre train 결과 linearly separable하지 않은 경우
- pre train 시 label보다 더 많은 cluster를 만드는 경우
- cluster가 더 많으니 grouping 효과로 cluster 개수를 감소
- fine-tuing 중 layer의 geometry
- higher layer에서는 임의로 업데이트하는 것이 아니다.
Preliminares: Probing Methods
fixed feature extractor를 사용하는 경우 classifier만 재 학습하여 성능을 비교함을 통해 contextualized representation이 linguistic property를 잘 잡고 있는지 판단.
다만 위의 경우 black box 모델이라서 성능만 보기에 더 이상 해석가능한 부분이 없기에 DIRECTPROBE라는 방식으로 embedding의 geometry를 보도록 한다.
- distance between clusters
- 철학: 직접적으로 거리를 바탕으로 internal structure 파악하자.
- 구현: SVM을 이용해서 max margin으로 계산
- Spatial Similairty
- 철학 : 두 repre이 두 클러스터에 대해 거리 관계가 비슷하다면 서로 비슷한 것!
- 구현: 각 repre 별로 distance vector를 계산 후 두 distance vector 간 Pearson Corr 계산
Experimental Setup
pre-train은 Devlin 2019 BERT 사용