์ด๋ฒ ์ธ์ ์์๋ ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ๋ํด ํ์ตํ์ต๋๋ค.
โ

๋จธ์ ๋ฌ๋์ด๋ ๋ฅ๋ฌ๋์์ ๋ชจ๋ธ์ ์ค๊ณํ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ธฐ ์ํด์๋ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ฅผ ์ต์ ํ ์์ผ์ผ ํฉ๋๋ค. ์ด๋ ์กฐ์ ํ๋ ํ๋ผ๋ฏธํฐ๋ ์ํฌํฌ, ๋ด๋ถ ๋ ธ๋ ๋ฑ ์ฌ๋ฌ ํ๋ผ๋ฏธํฐ๊ฐ ์์ง๋ง ๊ทธ ์ค์ ๊ฐ์ฅ ๋๋ผ๋งํฑํ๊ฒ ์ฑ๋ฅ์ ๋ฐ๊ฟ์ฃผ๋ ํ๋ผ๋ฏธํฐ๋ฅผ optimizer๋ผ๊ณ ํฉ๋๋ค.
โ
optimizer๋ train ๋ฐ์ดํฐ์ ์ ์ด์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ตํ ๋ ๋ฐ์ดํฐ์ ์ค์ ๊ฒฐ๊ณผ์ ๋ชจ๋ธ์ด ์์ธกํ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ค์ผ ์ ์๊ฒ ๋ง๋ค์ด์ฃผ๋ ์ญํ ์ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด ๋ค๋น๊ฒ์ด์ ์์ ์ต์ ์ ๊ฒฝ๋ก๋ฅผ ๊ณ ๋ฅด๋ ๋ฐฉ์ ์ค ํฐ ๊ธธ ์์ฃผ์ ๊ฒฝ๋ก, ์ต๋จ๊ฑฐ๋ฆฌ, ๋ฌด๋ฃ ๊ธธ ๋ฑ ์ฌ๋ฌ ์๊ณ ๋ฆฌ์ฆ์ด optimizer ์ข ๋ฅ์ ๋น์ทํ ์ญํ ์ ํ๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
โ
optimizer์ ์ข ๋ฅ๋ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent), ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Stochastic Gradient Descent, SGD), Momentum, Nesterov Accelerated Gradient (NAG), Adam, AdaGrad, RMSProp, AdaMax, Nadam ๋ฑ
์ฌ๋ฌ ์ข ๋ฅ๊ฐ ์์ผ๋ ์ด๋ฒ ์ธ์ ์์๋ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ค์ ์ ์ผ๋ก
์์๋ณด์์ต๋๋ค.
โ
์ขํํ๊ฐ๋ฒ(Coordinate descent)๋ i๋ฒ์งธ ์์๋ง์ ๋ณ์๋ก ๋ณด๊ณ ๋๋จธ์ง ๋ณ์๋ ๊ณ ์ ๊ฐ์ผ๋ก ๋ณธ ๋ค f(x)๋ฅผ ์ต์ํํ๋ xi๋ฅผ ์ฐพ๋ ๋ฐฉ์์ ๋๋ค.
โ
๊ฒฝ์ฌํ๊ฐ๋ฒ (Gradient descent)์ด ์ด๋ค ํจ์์ ์ต์๊ฐ์ ํฅํ ๋ฐฉํฅ์ ๊ณ์ฐํ๋๋ฐ 1์ฐจ ๋ฏธ๋ถ์ ์ฌ์ฉํ๋ ๋ฐ๋ฉด ๋ดํด ๋ฐฉ๋ฒ (Nexton's method)์ 2์ฐจ ๋ฏธ๋ถ์ ์ฌ์ฉํฉ๋๋ค. ๋ฐ๋ผ์ ๋ดํด ๋ฐฉ๋ฒ์ด ๊ฒฝ์ฌํ๊ฐ๋ฒ ๋ณด๋ค๋ ์ฑ๋ฅ์ด ํจ์ฌ ์ข์ต๋๋ค.
๋ดํด ๋ฐฉ๋ฒ์ ์ต์ ํ ๋ณ์์ ์์๊ฐ x์์ ๋ชฉ์ ํจ์ f(x)๋ฅผ ํ ์ผ๋ฌ ์๋ฆฌ์ฆ๋ก ์ ๊ฐ ํ 2์ฐจ ํจ์๋ก ๊ทผ์ฌํํ๊ณ , ์ด ๊ทผ์ฌํจ์์ ์ต์๊ฐ์ ๊ตฌํ๊ธฐ ์ํด ๋ฏธ๋ถํด์ฃผ๋ ๋ฐฉ์์ผ๋ก ์งํ๋ฉ๋๋ค.

ํด๋น ์ ์์ ์ ํ๋ 2์ฐจ ํจ์์ ์ต์ ํ์์ผ๋ก ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๋ ๋ดํด ๋ฐฉ๋ฒ

๊ฒฝ์ฌํ๊ฐ๋ฒ (Gradient descent)์ ์ ์ ์ ๊ธฐ์ธ๊ธฐ์ธ ๋ฏธ๋ถ๊ฐ์ ์ด์ฉํ์ฌ ๊ทน์๊ฐ์ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.

ํจ์์ ์ต์๊ฐ ์์น๋ฅผ ์ฐพ๊ธฐ ์ํด ์ ์ํ step size๋งํผ ์์ง์ด๋ฉฐ ์ต์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ์ ๋๊น์ง ๋ฐ์ ์์ ๋ฐ๋ณตํฉ๋๋ค.


๊ฒฝ์ฌํ๊ฐ๋ฒ์์ learning rate๋ ํ์ต๋ฅ ๋ก, ํ๊ฐํ๋ ๋ณดํญ์ ๊ฒฐ์ ํ๋
ํ์ดํผ ํ๋ผ๋ฏธํฐ ์ ๋๋ค. (์ ์์์ a)
ํ์ต๋ฅ ์ด ๋๋ฌด ์์ผ๋ฉด ์๋ ดํ๋๋ฐ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฌ๊ณ ,
๋๋ฌด ํฌ๋ฉด ๊ทน์ ์ ๊ฑด๋๋ฐ์ด ์๋ ดํ์ง ๋ชปํ ์ ์์ต๋๋ค.
๋ณดํต 0.01๋ก ์ค์ ํ ํ์ตํด๋ณด๊ณ ํ์ต ๊ฒฐ๊ณผ๊ฐ ๋ฐ์ฐํ๋ฉด ๊ฐ์ ์ค์ด๊ณ ,
ํ์ต ์๊ฐ์ด ๋๋ฌด ์ค๋ ๊ฑธ๋ฆฌ๋ฉด ํฐ ๊ฐ์ผ๋ก ์ค์ ํฉ๋๋ค.


Learning Rate Scheduling ์ด๋ ๋ฏธ๋ฆฌ ์ ์๋ Schedule ๋ฐฉ์์ ๋ฐ๋ผ ํ์ต ์ค์ learning rate๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ผ๋ก Constant Learning Rate, Time-Based Decay, Step Decay, Exponential Decay, Adaptive Learning Rate Methods ๋ฑ์ด ์์ต๋๋ค.

์์์ ์ด ์ด๋ ์๋๋์ ๋ฐ๋ผ ์ ์ญ ์ต์๊ฐ์ ์๋ ดํ๋ ๊ฒ์ด ์๋ ์ง์ญ ์ต์๊ฐ์ด๋ ์์ฅ์ ์ ๊ฐํ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๋๋ฐ, ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ๊ธฐ์ธ๊ธฐ์ ๊ด์ฑ์ ๋ถ์ฌํ์ฌ ์์ ๊ธฐ์ธ๊ธฐ๋ ์ฝ๊ฒ ๋์ด๊ฐ ์ ์๊ฒ ํด์ฃผ๋ Momentum ๊ฐ๋ ์ ์ด์ฉํ ๋ฐฉ์์ด ์ ์๋์์ต๋๋ค.
โ
์ฒซ ์์น๋ฅผ ์ ์ ํด์ ์ข์ ํ์ต์ ํ๊ธฐ ์ํด ์์ ์ง์ ์ ๊ฐ์ค์น๋ฅผ ์ ์ ํด์ฃผ๋ ค๋ฉด ์ํฉ์ ๋ง๋ ๊ฐ์ค์น ์ด๊ธฐํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค. ๊ฐ์ค์น๋ฅผ ์ด๊ธฐํํ๋ ๋ฐฉ์์๋ ์ฒซ์งธ๋ก ๋ชจ๋ ํ๋ผ๋ฏธํฐ ๊ฐ์ 0์ผ๋ก ๋๊ณ ์์ํ๋ Zero initialization์ด ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ ๊ฒฝ๋ง์ ํ๋ผ๋งํฐ ๊ฐ์ด ๋ชจ๋ ๊ฐ๋ค๋ฉด ๊ฐฑ์ ์ ํ๋๋ผ๋ ๋ชจ๋ ๊ฐ์ ๊ฐ์ผ๋ก ๋ณํ๊ฒ ๋๋ฏ๋ก ์ฌ๋ฌ๊ฐ์ ๋ ธ๋๋ก ์ ๊ฒฝ๋ง์ ๊ตฌ์ฑํ๋ ์๋ฏธ๊ฐ ์ฌ๋ผ์ง๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ด๊ธฐ๊ฐ์ ๋ฌด์์๋ก ์ค์ ํด์ผ ํฉ๋๋ค.
์ด๋ ๊ฒ ๋ฌด์์๋ก ์ค์ ํด์ฃผ๋ ๋ฐฉ๋ฒ์ Random initialization์ด๋ผ๊ณ ํฉ๋๋ค.
๊ทธ๋ฌ๋ ์ด ๊ฒฝ์ฐ์๋ ๋ชจ๋ ๋ ธ๋์ ํ์ฑํ ํจ์์ ์ถ๋ ฅ๊ฐ์ด ๋น์ทํ๋ฉด ๋ ธ๋๋ฅผ ์ฌ๋ฌ ๊ฐ๋ก ๊ตฌ์ฑํ๋ ์๋ฏธ๊ฐ ์ฌ๋ผ์ง๊ฒ ๋ฉ๋๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ณ ์๋ ์ด๊ธฐํ ๋ฐฉ์์ด Xavier initialization์ ๋๋ค.
์ฌ๋น์๋ฅด ์ด๊ธฐํ์์๋ ๊ณ ์ ๋ ํ์คํธ์ฐจ๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , ์ด์ ์๋์ธต์ ๋ ธ๋ ์์ ๋ง์ถ์ด ๋ณํ์ํต๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด ์ธต๋ง๋ค ๋ ธ๋ ๊ฐ์๋ฅผ ๋ค๋ฅด๊ฒ ์ค์ ํ๋๋ผ๋ ์ด์ ๋ง๊ฒ ๊ฐ์ค์น๊ฐ ์ด๊ธฐํ๋๊ธฐ ๋๋ฌธ์ ๊ณ ์ ๋ ํ์คํธ์ฐจ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ๋ ๊ฐ๊ฑดํฉ๋๋ค.
He initialization์ด๋ ReLu ํจ์๋ฅผ ํ์ฑํ ํจ์๋ก ์ฌ์ฉํ ๋ ์ถ์ฒ๋๋ ์ด๊ธฐํ ๋ฐฉ๋ฒ์ผ๋ก, ํ์ฑํ ํจ์์ ๋ฐ๋ผ ์ ์ ํ ์ด๊ธฐํ ๋ฐฉ๋ฒ์ด ๋ฌ๋ผ์ง๋๋ค.

์ํฌํฌ๋ ํ๋ จ ๋ฐ์ดํฐ์ ์ ํฌํจ๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ค์ด ํ๋ฒ์ฉ ๋ชจ๋ธ์ ํต๊ณผํ ํ์๋ก, ์ ์ฒด ํ์ต ๋ฐ์ดํฐ์ ์ ํ์ตํ๋ ํ์์ ๋๋ค.
์ํฌํฌ๋ฅผ ๋์ผ์๋ก ์์ค๊ฐ์ด ๊ฐ์ํ์ฌ ์ ์ ํ ํ์ต๋ฅ ์์ ์ ํฉํ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ์ ํ๋ฅ ์ด ์ฌ๋ผ๊ฐ๋๋ค. ๊ทธ๋ฌ๋ ์ํฌํฌ๋ฅผ ์ง๋์น๊ฒ ๋์ด๊ฒ ๋๋ฉด ํ๋ จ ๋ฐ์ดํฐ์ ์ ๊ณผ์ ํฉ๋๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ฏ๋ก ์ด ๊ฒฝ์ฐ์๋ ์ต์ ์ ์ ์ํฌํฌ๋ก ๋ค์ ํ๋ จํ๊ฑฐ๋ ํ์ต ์งํ์ ๋ฐ๋ผ ์กฐ๊ธฐ ์ข ๋ฃํ๋ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค.

๋จธ์ ๋ฌ๋์ ์ํ ๋ฐ์ดํฐ์ ์ ์ ์ ํ ๋, ํน์ฑ๋ณ๋ก ๋ฐ์ดํฐ์ ์ค์ผ์ผ์ด ๋ค๋ฅธ ๊ฒฝ์ฐ ๋จธ์ ๋ฌ๋ ๊ณผ์ ์์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๊ธฐ ๋๋ฌธ์ ์ค์ผ์ผ๋ง ์์ ์ ํตํด ๋ชจ๋ ํน์ฑ์ ๋ฒ์ ๋๋ ๋ถํฌ๋ฅผ ๊ฐ๊ฒ ๋ง๋ค์ด ์ฃผ์ด์ผ ํฉ๋๋ค.

๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ ์ฒด ๋ฐ์ดํฐ์ ์ ๋ชจ๋ ์ฌ์ฉํ์ฌ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๊ฐ ํฐ ๊ฒฝ์ฐ ํ์ต ์๊ฐ์ด ์ค๋ ๊ฑธ๋ ค ๋งค์ฐ ๋นํจ์จ์ ์ ๋๋ค.
์ด ๋ฐฉ์์ Batch Gradient Descent๋ผ๊ณ ํ๋๋ฐ, ๋ฐ์ดํฐ๊ฐ ๋ง์ ๊ฒฝ์ฐ ๊ณ์ฐ ๋น์ฉ์ด ๊ณผ๋คํด์ง๋๋ค. ๊ทธ๋์ ์ฌ์ฉํ๋ ๋ฐฉ์์ ๋ชจ๋ ๋ฐ์ดํฐ์ ์ด ์๋ ํ๊ฐ์ ๋ฌด์์ ๋ฐ์ดํฐ์ ์ ์ด์ฉํ์ฌ ๊ฒฝ์ฌํ๊ฐ์ ์งํํ๋ Stochastic Gradient Descent๋ก, Batch ๋ฐฉ์์์ ๋ฐ์ํ๋ ๊ณ์ฐ ๋น์ฉ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ข์ต๋๋ค.


์์ ์๋์ฝ๋์ ๋์์๋ฏ ๋ชจ๋ ์ํ์ด theta์ ์ต์ ํ์ ์ํฅ์ ๋ฏธ์น๋ ๊ฒ์ด Batch Gradient Descent ๋ฐฉ๋ฒ์ด๋ฉฐ, ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๋งค iteration๋ง๋ค ์ต์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ์๊ฐ๋ฉฐ global minimum์ ํฅํฉ๋๋ค.
๊ทธ์ ๋ฐํด ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ํ๋์ ๋ฐ์ดํฐ์ ์ ๋ํ Cost๋ฅผ ๊ณ์ฐํ ํ ๊ฒฝ์ฌํ๊ฐ์ ์งํํฉ๋๋ค.

์ด ๊ฒฝ์ฐ ์๋์ ๊ฐ์ดNoise๊ฐ ๋ฐ์ํ์ง๋ง ์ต์ ์ ํ๋ผ๋ฏธํฐ์ ๋งค์ฐ ๊ทผ์ ํ๊ฒ ๋ฉ๋๋ค.

ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ฐ์ ์๊ฐ์ด ๋น๊ต์ ๋นจ๋ผ ์๋ ด์๋๊ฐ ๋น ๋ฅด๊ณ ๊ณ์ฐ ์ ๋ฉ๋ชจ๋ฆฌ ๋น์ฉ์ด ์ ์ฝ๋๋ค๋ ์ฅ์ ์ด ์์ผ๋, ์ํ์ ์ ํ์ด ํ๋ฅ ์ ์ด๋ฉฐ ์ฌํ Noise ๋๋ฌธ์ global minimum์ ์ฐพ์ง ๋ชปํ ๊ฐ๋ฅ์ฑ์ด ์กด์ฌํฉ๋๋ค.

์ด ๊ฒฝ์ฐ ์ฌ์ฉํ๋ ๋ฐฉ์์ด b๊ฐ์ ๋ฐ์ดํฐ์ ์ ๋ํ Cost๋ฅผ ๊ณ์ฐํ๋ Mini-batch ๋ฐฉ์์ ๋๋ค. b๊ฐ 10์ด๋ผ๋ฉด, i~i+9๋ฒ์งธ example์ ๋ํ ๋ฏธ๋ถํญ์ ๊ณ์ฐ ํ ๋ชจ๋ m์ ๋ํด Parameter๋ฅผ ์ต์ ํํฉ๋๋ค.
์ผ๋ฐ์ ์ผ๋ก b = 10์ด๋, 2~100์ฌ์ด์์ ์ ํ ๊ฐ๋ฅํ๋ฉฐ Stochastic๋ณด๋ค ๋ณ๋ ฌ์ฒ๋ฆฌ์ ์ ๋ฆฌํ๊ธฐ ๋๋ฌธ์ ์ฑ๋ฅ ํฅ์์ ๊ธฐ๋ํ ์ ์์ต๋๋ค.


์ธ ๋ฐฉ์์ ๋น๊ตํด๋ณด๋ฉด ๋ชจ๋ minimum ๊ฐ ๊ทผ์ฒ์ ๋๋ฌํ์ผ๋ฉฐ, batch ๋ฐฉ์์ ์ ํํ ๋๋ฌํ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. Stochastic๊ณผ mini-batch๋ ์ต์๊ฐ ๊ทผ์ฒ์์ ๋งด๋๋, ์ ์ ํ ํ์ต ์ค์ผ์ฅด์ ์ฌ์ฉํ๋ฉด ์ต์๊ฐ์ ๋๋ฌํฉ๋๋ค.

์ด์์ผ๋ก 9๊ธฐ 7์ฃผ์ฐจ ์ ๊ท์ธ์ ์ ๋ณต์ตํด๋ณด์์ต๋๋ค!
โ
๋ค์ ์๊ฐ์๋ Decision Tree, ๊ต์ฐจ๊ฒ์ฆ, ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ ๋ํด ๊ณต๋ถํ ์์ ์ ๋๋ค๐ฅฐ
'BITAmin 9๊ธฐ๐' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[BITAmin] 9์ฃผ์ฐจ - ํธ๋ฆฌ (0) | 2022.12.18 |
---|---|
[BITAmin] 6์ฃผ์ฐจ - ๋ก์ง์คํฑ ํ๊ท (0) | 2022.10.02 |
[BITAmin] 5์ฃผ์ฐจ - ํ๊ท ์๊ณ ๋ฆฌ์ฆ ๋ณต์ต ๋ฐ ์ฌํ, ๊ด๋ จ ์ค์ต (0) | 2022.08.06 |
[BITAmin] 4์ฃผ์ฐจ - ํน์ฑ๊ณตํ๊ณผ ๊ท์ (0) | 2022.08.05 |
[BITAmin] 3์ฃผ์ฐจ K-์ต๊ทผ์ ์ด์ ํ๊ท, ์ ํ ํ๊ท (0) | 2022.06.27 |