#3 Update the Parameter
3) Computation Graph and Backpropagation (이어서)
- 위에서 function은 activation function뿐만아니라 multiplication과 add들의 다른 함수들도 들어갈 수 있다.
- 또한, 미분을 해야하므로 function 및 model은 'differential' 해야한다.
- 여기서 우리는 순간순간의 function에만 집중하면 된다.
(Back-up) 벡터 미분
참고) p.38까지 자코비안 행렬의 차수 관련해서 강의노트가 오타로 추정되어 위와같이 변경 (기존 : nxm차원 → mxn차원)
- Local Gradients : Jacobian 행렬
- Upstream/Downstream Gradients : 스칼라(L)를 벡터로 미분한 vector to scalar 미분으로, 그래디언트 벡터
- Matix의 각각의 element 계산이 서로 영향을 주지 않으므로 병렬처리가 가능하다.
#4 Derivative of Neural Network
1) 예제 : 1-Layer Neural Net with MSE Regression Loss
- 위와 같은 1-Layer Neural Net이 있다고 가정하자. 각 요소별 차원 및 함수식 등은 아래와 같음.
한편, Linear Projection의 벡터식이 아래와 같을 때,
벡터 Z에 대한 편미분 값은 아래와 같다.
더불어 sigmoid function의 편미분과 관련된 사항은 아래와 같다.
위에서 나온 편미분값들을 아래의 Chain Rule의 각 term들에 활용할것이다.
2) 퀴즈 (HW #3 ★): 2-Layer Neural Net with MSE Regression Loss
<문제>
<정답>
p1 벡터의 전치행렬 부분 상술(빨간색 동그라미)
이므로
# Reference
- Deep Learning by I.Goodfellow et al.
- Dive into Deep Learning by A.Zhang et al.
- Korea Univ. AAI107, 'Machine Learning' Lecture
-
4.4 행렬의 미분 — 데이터 사이언스 스쿨
.ipynb .pdf to have style consistency -->
datascienceschool.net
-
'기계학습 > ML,DL Backgroud 이론 - [대학원] 전공 수업' 카테고리의 다른 글
[기계학습 11~12] 5. Convolutional Neural Networks (CNNs) - 작성 중 (1) | 2024.06.08 |
---|---|
[기계학습 7] 4. Neural Network and Backpropagation (1) (0) | 2024.05.04 |
[기계학습 4] Classification(Logistic Regression) - 작성중 (0) | 2024.04.13 |
[기계학습 3] Optimization, Multivariate Linear Regression(다변량 선형 회귀) (2) | 2024.04.13 |
[기계학습 1~2] AI/ML/DL 및 Linear Regression 개요, Cost Function (0) | 2024.03.16 |