Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
Tags
- Ai
- torch
- 공부
- Machine Learning
- Tensor
- stm32f 시리즈를 이용한 arm cortex-m3/m4 구조와 응용
- 리눅스
- 머신러닝
- essential deep learning paper reading
- conda: command not found
- conda오류
- 텐서
- 일귀
- anaconda오류
- conda
- 리눅스 오류
- pytorch tensor
- pyTorch
- ML
Archives
- Today
- Total
목록AI (11)
Embedded World
Transformer - Multihead Attention의 'attention score'을 root(d_k)로 나눠주는 이유는? <수학적 접근>
해결하고자 하는 문제 Transformer에서 Attention weight를 계산하는데 있어서 root{d_k} 로 나눠주는 이유에 대해 주어진 expectation & variance property 와query key vector의 component q, k의 mean, variance를 이용해 설명하세요. 이 때, E(Q) = 0, VAR(Q) = 1, E(V) = 0, VAR(V) = 1 로 정규화되어있다 가정한다. (일단). 사용되는 hyperparameter 정리 (그래도 상관없음!) Q : 쿼리 묶음 (d_k x S) = (d_model/head수 x Seq_length)* q : 쿼리묶음중 하나의 쿼리벡터 (d_k x 1) K : key (d_k x S) 1. (d_model/head수 ..
AI
2021. 10. 16. 18:07