Transformer - Multihead Attention의 'attention score'을 root(d_k)로 나눠주는 이유는? <수학적 접근>
·
AI
해결하고자 하는 문제 Transformer에서 Attention weight를 계산하는데 있어서 root{d_k} 로 나눠주는 이유에 대해 주어진 expectation & variance property 와query key vector의 component q, k의 mean, variance를 이용해 설명하세요. 이 때, E(Q) = 0, VAR(Q) = 1, E(V) = 0, VAR(V) = 1 로 정규화되어있다 가정한다. (일단). 사용되는 hyperparameter 정리 (그래도 상관없음!) Q : 쿼리 묶음 (d_k x S) = (d_model/head수 x Seq_length)* q : 쿼리묶음중 하나의 쿼리벡터 (d_k x 1) K : key (d_k x S) 1. (d_model/head수 ..