재미로 보는 딥러닝 발전 히스토리!
·
Insights
AI대학원 입시준비를 하며 딥러닝 기본 개념들을 자세히 보게 되었는데, 알고리즘들의 발전 순서를 이렇게 나열해보니 재미있어서 글로 작성해보았다. 오래된 순으로 정리해보았다! 출처는 인하대학교 도서관 여러 책들로부터다ㅋㅋ 아이디어가 처음 제시된 년도, 논문이 출판된 년도를 딱히 구분하진 않았으니, 세부적 년도에 오류가 있을 수 있으나, 흐름을 캐치하는데는 문제가 없을거다! Binary Neural Network (McCulloch & Pitts) 1943 - 인간 신경망에서 영감을 받아 범용 계산장치의 구조로 모델링한, 돌이켜보면 첫 인공신경망이라 불리는 모델. - 저 시대에 아무도 실용성을 논하지 않았을 것 같은데, 개인적으로 탐구정신이 너무 멋있다. Perceptron (Frank Rosenblatt)..
LayerNorm 과 BatchNorm 의 차이
·
AI/Deep Learning
표본추출된 mini-batch내부 각 feature 값들의 mean, std를 구해 정규화를 진행해준다. https://docon.tistory.com/37: 더 자세한 분석입니다! Batch에 어떤 크기의 데이터들이 있든 관계없이, 샘플단위로 normalization을 시켜준다. 요점은, 내가 가져온 데이터 혹은 모델 내부에서의 latent vector가 어떤 연산을 하게되는지에 따라 적절한 Normalization 방식을 채택하면 좋을 것 같다. 예를들어, 데이터의 feature중, 특정 feature의 분포가 너무 큰 경우는 Gradient Exploading 등 학습 중 장애가 우려되기에, batch normal..
Langcon 2023 후기, 인사이트!
·
Insights/Seminar !
NLP 오픈톡방에서 어떤 분이 공유해주시면서 이런 행사가 있다는 것을 알게되었고, 연사분들 중 평소에 유튜브 토스채널에서 뵀던 Toss ML팀에서 근무하시는 대단하신 분, 공모전에서도 우리팀이 활용했던 모델을 직접 만들어주신 대단하신 분, 등 여러 대단하신 분들이 계신걸 확인했다. 바로 결제 후 지난 2월 18일 세미나를 들으러 갔다! 이 강연들 중 인상깊었던 부분들과 (bias와 noise가 많을)나의 생각을 간단히 정리해본다. Open-domain QA, Dialouge State Tracking, Chatbot 에 관심이 많으신 Jongwon님을 시작으로 강연이 시작되었다. 1) Jongwon 님 "ChatGPT" 주어진 computing 자원 안에서 최적의 성능을 내기위해선, 당연하게도 더 많은 ..
"torch.repeat()" 와 "torch.expand()" 의 차이점
·
소프트웨어/프로그래밍
https://seducinghyeok.tistory.com/9 torch.repeat(*sizes) 로 특정 텐서의 차원을 지시한 횟수만큼 반복할 수 있다. torch.expand(*sizes) 로는, 직관적으로 어떤 텐서자체를 하나의 point처럼 반복해 새로운 텐서를 만들 수 있다. 위 블로그의 예시코드로 자세히 이해할 수 있다. 결론은, LSTM에서 한 input vector에 대해 4번의 GATE계산을 병렬적으로 해야할 때 repeat나 expand를 통해 벡터를 복사해주고, 한번에 여러 weights와 계산을 수행하게 한다면 효율적일 것 같다. 이처럼, 모델의 중간에서 특정 feature vector가 반복되어 계산되어야할 때 유용하게 사용할 수 있는 메소드같다.
git에서 특정 브랜치만 clone 하는 방법
·
소프트웨어/프로그래밍
https://www.slipp.net/questions/577 git clone -b {브랜치 이름} --single-branch {URL} 특정 브랜치만 클론 가능!