-
2 Neural Network BasicsAI/Machine Learning 2023. 2. 6. 16:05
๐ง๐ปโ๏ธ ์ฐธ๊ณ ์๋ฃ ๋งํฌ
- Back propagation
- Gradient Descent * Learning Rate
๋๊ตฌ๋ ์ดํดํ ์ ์๋ ๋ฅ๋ฌ๋ - cs231n 4๊ฐ(Backpropagation and Neural Networks)
[๋จธ์ ๋ฌ๋] ๊ฒฝ์ฌ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ(Gradient Descent Algorithm)์ด๋
[๋จธ์ ๋ฌ๋] ๊ฒฝ์ฌ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ(Gradient Descent Algorithm)์ด๋
์์ํ๋ฉฐ ์ด๋ฒ ํฌ์คํ ์์ ๋น์ฉ ํจ์(Cost Function)์ ๋น์ฉ๊ฐ์ ์ต์ํ ํ๋ ํ๋ผ๋ฏธํฐ θ๋ฅผ ์ฐพ๋ ๊ฒฝ์ฌ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ(Gradient Descent Algorithm) ์ ๋ํด ๊ณต๋ถํด๋ณด๊ฒ ์ต๋๋ค. ๊ฒฝ์ฌ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ(Gradient Desc
box-world.tistory.com
Neural Network์์ ๊ฐ์ฅ ์ค์ํ ์์์ด๋ผ ํ ์ ์๊ฒ ๋ค. Neural NetWorks
- Neraul networks๋ Mappings ์ ํ๋ ์ํ ๋ชจ๋ธ์ด๋ค.
- Vector : ๊ธธ์ด ๊ณ ์
- Sequence : ๊ธธ์ด๊ฐ ๊ณ ์ ๋์ด ์์ง ์์ ex) ์์ฐ์ด
- Mapping ์์
- ์์ ๊ฐ์ด Mappings์ ์ํ๋ ๋ชจ๋ธ ์ธ์๋ ํ๋ฅ ๋ถํฌ๋ฅผ ์ ํ์ตํ๋ ๋คํธ์ํฌ๋ ์๋ค.
- Sample generation
- ex ) ๋น์ทํ ์ฌ๋ ์ผ๊ตด์ ๋ง๋ค์ด ๋ด๊ธฐ
- Sample generation
- Restoration
- ๊ฐ ๋๊ฐ์ ์์ค๋ ์ ๋ณด๋ฅผ ๊ฐ๊ณ ์๊ธฐ
- Transformation
- ํ๋ฐฑ ์์์ผ๋ก Color ์์ ๋ง๋ค๊ธฐ (๋ง์ ํจํด์ ํ์ตํ๊ฒ ํ์ฌ ์ด์ ์ ๊ฐํ๋ ๊ฒฐ๊ณ ๋ผ๋ฅผ ์ถ๋ ฅํ๊ฒ ํ๋ ๊ฒ)
Perceptron Neuron
- Activation Func, Why?..
Linear ํ์ํ๋ก ๊ฐ์ ์ถ์ ์ํค๋ฉด ์๋ฌด๋ฆฌ Layer๊ฐ ๋ง์ ์ง๋ค ํ๋๋ผ๋ Linear ํ๊ฒ ๋ํ๋๋ค → ์ฆ, ๊ฐ๋จํ ๊ฐ ๋ฐ์ ์ถ๋ ฅ ๋ชปํจ .. weight ๊ตฌํ๋ ์, 2์ฐจ์ ๋ฐฐ์ด ํํ์ incoming Weight์์ weight๋ฅผ ๋ถ๋ฌ์ค๊ณ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋งํ๊ณ ์๋ค. Percentron ์์
- ์์ ์ ์ง๋๋ ์ง์ ์ ๋ฐฉ์ ์์ด ๋์จ๋ค. (bias : 0)
- ๋ ธ๋ ๊ฐ์ == ์ง์ ๊ฐ์
- ํ์ต → ์ต์ ์ weight ๊ตฌํ๊ธฐ
Training of Single Layer Perceptron
- Mappings์ ์ต์ ํ๋ weights ์์ฑ ๋ฐฉ๋ฒ
- ๋๋ค ๊ฐ์ผ๋ก ์ด๊ธฐํ
Gradient descent(๊ฒฝ์ฌํ๊ฐ๋ฒ)
- o : ์ค์ ์ถ๋ ฅ
- d : Label ๊ฐ
- 2๋ก ๋๋๋ ์ด์ , ๋ฏธ๋ถ์ ํ ๋ ๋์ค๋ ์ ๊ณฑ๊ทผ 2์ ๊ฐ์ ์์๊ธฐ ์ํ ํธ๋ฆญ
https://box-world.tistory.com/7
[๋จธ์ ๋ฌ๋] ๊ฒฝ์ฌ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ(Gradient Descent Algorithm)์ด๋
์์ํ๋ฉฐ ์ด๋ฒ ํฌ์คํ ์์ ๋น์ฉ ํจ์(Cost Function)์ ๋น์ฉ๊ฐ์ ์ต์ํ ํ๋ ํ๋ผ๋ฏธํฐ θ๋ฅผ ์ฐพ๋ ๊ฒฝ์ฌ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ(Gradient Descent Algorithm) ์ ๋ํด ๊ณต๋ถํด๋ณด๊ฒ ์ต๋๋ค. ๊ฒฝ์ฌ ํ๊ฐ ์๊ณ ๋ฆฌ์ฆ(Gradient Desc
box-world.tistory.com
Error Minimization Technique
- ์ญ์ ํ ๊ณผ์ ์ ํตํด ์๋ฌ๋ฅผ ์ค์ธ๋ค.
Error์ Desecent์ ์๊ด ๊ด๊ณ ์ ์ - Error์ Desecent์ ์๊ด ๊ด๊ณ ์ ์
Gradient Descent
์๋ฌ ๊ทธ๋ํ์ ์ ์ , ์ฆ ์๋ฌ๊ฐ ๊ฐ์ฅ ์์ ๋ถ์ ์ฐพ๊ธฐ ์ํ ๋ฐฉ๋ฒ ์๋ฌ์ weight์ ๊ด๊ณ๋ฅผ ์ ๋ฆฌํ๊ธฐ ์ํ์ฌ chain rule์ ์ฌ์ฉํ์ฌ ์์์ ๊ตฌํ๋ค. ๋์จ ๊ฒฐ๊ณผ ๊ฐ์ ๊ฐ๊ณ ์์ ์ ๋ฐ์ดํธ ํ๋ค. Learning Rate
ํ์ต ๋ณดํญ(์๋)์ผ๋ก ์ดํดํ๋ฉด ํธํ๋ค. - Learning Rate ๊ฐ ์ง๋์น๊ฒ ์์๋
- ์ฐ์ฐํ์ ์ฆ๊ฐ
- Learning Rate ๊ฐ ์ง๋์น๊ฒ ํด ๋
- ์ํ๋ ๊ฐ์ ์ง๋์น๋ค.
- [๋ณดํต 0.001, 0.01 ์ฌ์ฉ]
- ๋ฌธ์ ๊ฐ ๋จ์ ํค์ฐ๊ธฐ
- ๋ฌธ์ ๋ณต์ก ์๊ฒ
- [๋ณดํต 0.001, 0.01 ์ฌ์ฉ]
- ์ ๋นํ Learning Rate ์ฌ์ฉ
- ๊ฐ์ด ์๋ ดํ์ง ์์ ์ ๋ ์๋ค.
- ์ํ๋ ๊ฐ์ ์ง๋์น๋ค.
Training Algorithm(์๊ณ ๋ฆฌ์ฆ ํ์ต)
์์ผ๋ก ๋ง์ด ๋ฑ์ฅํ ํ๋ผ๋ฏธํฐ๋ค. ๋งจ์์์ ๊ฐ์กฐํ๋ ์, ์๋ฌ๋ฅผ ๊ตฌํ๋ ์, ์์์ chain Rule ์ ์ด์ฉํ์ฌ ๊ตฌํ๋ ์๋ค์ด๋ค. Multi-layer Perceptron
XOR ์ฐ์ฐ์ด ์๋๋ SLP์ ํ๊ณ๋ฅผ ๋ณด์ํ ๊ฒ ํ์ฑํจ์๋?
weighted Sum ํ ๊ฒ์ ํ๋ฒ ๋ ์ฒ๋ฆฌ ํด์ฃผ๋ ๊ฒ Example of Activation Functions
SoftMax
- Net Values๋ ํ๋ฅ ์ ๋ํ๋ด๋ ๊ฐ์ด ์๋๋ค
- ๋ฐ๋ผ์ SoftMax ํจ์๋ฅผ ์ด์ฉํ์ฌ ๋ํ๋ธ๋ค.
๊ฐ๊ฐ ์ํฉ์ ๋ง๊ฒ ํ์ฑ ํจ์๋ฅผ ์ฌ์ฉํด์ผ ํ๋ค.
- Recurrent Network์์๋ Relu ์ฌ์ฉ์ฃผ์ํด์ผํ๋ค.
Loss Funciton
๋ฐ์ ๋ธ๋ก๊ทธ์์ ์บก์ณํ ๋ด์ฉ์ด๋ค. Cross-entropy ์ ์ดํด: ์ ๋ณด์ด๋ก ๊ณผ์ ๊ด๊ณ
Cross-entropy ์ ์ดํด: ์ ๋ณด์ด๋ก ๊ณผ์ ๊ด๊ณ
Cross-entropy ์ ์ดํด: ์ ๋ณด์ด๋ก ๊ณผ์ ๊ด๊ณ 1. ์์คํจ์๋ก์์ Cross-entropy ๋ฅ๋ฌ๋์์ ๋ถ๋ฅ ๋ชจ๋ธ์ ๋ํ ์์ค ํจ์๋ก cross-entropy ํน์ binary entropy ๋ log loss ๋ผ๋ ๊ฒ์ ์ฌ์ฉํ๊ฒ ๋๋ค. ์์คํจ์๋ก์์ cr
3months.tistory.com
++ ์ถ๊ฐ์ ์ธ ๋ด์ฉ
- ์ค์นผ๋ผ๋ฅผ ๋ฒกํฐ๋ก ๋ฏธ๋ถ → Gradient
- ๋ฒกํฐ๋ฅผ ๋ฒกํฐ๋ก ๋ฏธ๋ถ → Jacobian law
'AI > Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Clustering (0) 2025.02.17 Density Estimation (0) 2025.02.17 Machine Learning math background part 2 (0) 2025.02.13 Machine Learning math background (0) 2025.02.13 Introduction to Machine Learning (0) 2023.02.06