power-law with model size, dataset, amount of compute used for training
dependecy of overfitting on model/dataset size and the dependency of training speed on model size
Larger models are significantly more sample-efficient, … training very alrge models on a relatively modest amount of data
[TBD] Performance depends strongly on scale, weakly on model shape
Performancec는 크게 3가지 factor에 영향을 받는다.
the number of model non-embedding parameter $N$
the size of the dataset $D$
여기서엔 dataset에 포함된 token들의 개수를 사용
the amount of compute $C$
여기에선 주로 PF-days라고 하루에 몇 petaFLOPs를 처리하는지 사용
반대로 width나 depth와 같은 shape에는 덜 영향
Smooth power laws
앞서 말한 3가지 요소에 따라서 performance(test loss)의 변화가 smooth하다.
단 하나의 요소를 바꾸는 과정에서는 다른 요소가 영향을 주지 않는다.
(eq1.1) $L(N) = (N_c/N)^{\alpha_N}$
$\alpha_N\sim 0.076$
$N_c \sim 8.8 *10^{13} \text{(non-embedding parameters)}$
$L(D) = (D_c/D)^{\alpha_D}$
$\alpha_D\sim 0.095$
$D_c \sim 5.4 * 10^{13} \text{(tokens})$
$L(C) = (C_c / C_{\min})^{\alpha_c}$
$\alpha_c \sim 0.050$
$C_{\min} \sim 3.1 * 10^{8} \text{(PF-days)}$