'AI' 카테고리의 글 목록 (2 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록AI (11)

Embedded World

Transformer - Multihead Attention의 'attention score'을 root(d_k)로 나눠주는 이유는? <수학적 접근>

해결하고자 하는 문제 Transformer에서 Attention weight를 계산하는데 있어서 root{d_k} 로 나눠주는 이유에 대해 주어진 expectation & variance property 와query key vector의 component q, k의 mean, variance를 이용해 설명하세요. 이 때, E(Q) = 0, VAR(Q) = 1, E(V) = 0, VAR(V) = 1 로 정규화되어있다 가정한다. (일단). 사용되는 hyperparameter 정리 (그래도 상관없음!) Q : 쿼리 묶음 (d_k x S) = (d_model/head수 x Seq_length)* q : 쿼리묶음중 하나의 쿼리벡터 (d_k x 1) K : key (d_k x S) 1. (d_model/head수 ..

AI 2021. 10. 16. 18:07

이전 Prev 1 2 Next 다음

목록AI (11)

Embedded World

티스토리툴바