Contranstive loss에서 positive pair과 negative pair를 선택하는 것이 문제다.
이것을 고르는 것이 quadratic하니 minibatch 안에 있는 sample만 고려해서 constant complexity를 맞추려고 한다. 이렇게 하면 이게 optimal한지도, 다른 방법이 더 좋은지도 모르는 상태
What is the most effective and principled approach to optimizing the contrastive loss when utilizing mini-batches?
Proove that
mini-batch and full batch training are equivalent under some mild conditions
all ${N \choose B} = \mathcal{O}(N^B)$ mini-batches must be considered.
improoved selection algorithm to choose $\mathcal{O}(N)$ mini-batches while training
They are equivalent if and only if all ${N\choose B}$ mini batches are selected.
Proposed algorithm
Proposed results