본문 바로가기

기계학습/ML,DL Backgroud 이론 - [대학원] 전공 수업

[기계학습 8~10] 4. Neural Network and Backpropagation (2) - 작성 중

 

#3 Update the Parameter

 

3) Computation Graph and Backpropagation (이어서)

 

- 위에서 function은 activation function뿐만아니라 multiplication과 add들의 다른 함수들도 들어갈 수 있다.

- 또한, 미분을 해야하므로 function 및 model은 'differential' 해야한다.

- 여기서 우리는 순간순간의 function에만 집중하면 된다.

 

(Back-up) 벡터 미분

 

참고) p.38까지 자코비안 행렬의 차수 관련해서 강의노트가 오타로 추정되어 위와같이 변경 (기존 : nxm차원 → mxn차원) 

 

 

- Local Gradients : Jacobian 행렬

- Upstream/Downstream Gradients : 스칼라(L)를 벡터로 미분한 vector to scalar 미분으로, 그래디언트 벡터

 

- Matix의 각각의 element 계산이 서로 영향을 주지 않으므로 병렬처리가 가능하다.

 

#4 Derivative of Neural Network

1) 예제 : 1-Layer Neural Net with MSE Regression Loss

 

- 위와 같은 1-Layer Neural Net이 있다고 가정하자. 각 요소별 차원 및 함수식 등은 아래와 같음.

 

 

한편, Linear Projection의 벡터식이 아래와 같을 때,   

 

벡터 Z에 대한 편미분 값은 아래와 같다.

 

 

더불어 sigmoid function의 편미분과 관련된 사항은 아래와 같다.

 

 

위에서 나온 편미분값들을 아래의 Chain Rule의 각 term들에 활용할것이다.

 

 

2) 퀴즈 (HW #3 ★): 2-Layer Neural Net with MSE Regression Loss

<문제>

 

 

<정답>

 

 

p1 벡터의 전치행렬 부분 상술(빨간색 동그라미)

이므로

 

 

 

 

 

 

 

 

 

 

 

 

 


# Reference

- Deep Learning by I.Goodfellow et al.

- Dive into Deep Learning by A.Zhang et al.

- Korea Univ. AAI107, 'Machine Learning' Lecture

https://datascienceschool.net/02%20mathematics/04.04%20%ED%96%89%EB%A0%AC%EC%9D%98%20%EB%AF%B8%EB%B6%84.html

 

4.4 행렬의 미분 — 데이터 사이언스 스쿨

.ipynb .pdf to have style consistency -->

datascienceschool.net

https://velog.io/@opcho/%ED%95%9C-%EB%AC%B8%EC%9E%A5%EC%9C%BC%EB%A1%9C-%EC%A0%95%EB%A6%AC%ED%95%98%EB%8A%94-computer-vision-5