์ด๋ฒˆ ์„ธ์…˜์—์„œ๋Š” ํ™•๋ฅ ์  ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์— ๋Œ€ํ•ด ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.

โ€‹


๋จธ์‹ ๋Ÿฌ๋‹์ด๋‚˜ ๋”ฅ๋Ÿฌ๋‹์—์„œ ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•  ๋•Œ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ธฐ ์œ„ํ•ด์„œ๋Š” ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ตœ์ ํ™” ์‹œ์ผœ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ์กฐ์ •ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์—ํฌํฌ, ๋‚ด๋ถ€ ๋…ธ๋“œ ๋“ฑ ์—ฌ๋Ÿฌ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์žˆ์ง€๋งŒ ๊ทธ ์ค‘์— ๊ฐ€์žฅ ๋“œ๋ผ๋งˆํ‹ฑํ•˜๊ฒŒ ์„ฑ๋Šฅ์„ ๋ฐ”๊ฟ”์ฃผ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ optimizer๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

โ€‹

optimizer๋Š” train ๋ฐ์ดํ„ฐ์…‹์„ ์ด์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ํ•™์Šตํ•  ๋•Œ ๋ฐ์ดํ„ฐ์˜ ์‹ค์ œ ๊ฒฐ๊ณผ์™€ ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ž˜ ์ค„์ผ ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ค์–ด์ฃผ๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋„ค๋น„๊ฒŒ์ด์…˜์—์„œ ์ตœ์ ์˜ ๊ฒฝ๋กœ๋ฅผ ๊ณ ๋ฅด๋Š” ๋ฐฉ์‹ ์ค‘ ํฐ ๊ธธ ์œ„์ฃผ์˜ ๊ฒฝ๋กœ, ์ตœ๋‹จ๊ฑฐ๋ฆฌ, ๋ฌด๋ฃŒ ๊ธธ ๋“ฑ ์—ฌ๋Ÿฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด optimizer ์ข…๋ฅ˜์™€ ๋น„์Šทํ•œ ์—ญํ• ์„ ํ•œ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€‹

optimizer์˜ ์ข…๋ฅ˜๋Š” ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent), ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Stochastic Gradient Descent, SGD), Momentum, Nesterov Accelerated Gradient (NAG), Adam, AdaGrad, RMSProp, AdaMax, Nadam ๋“ฑ

์—ฌ๋Ÿฌ ์ข…๋ฅ˜๊ฐ€ ์žˆ์œผ๋‚˜ ์ด๋ฒˆ ์„ธ์…˜์—์„œ๋Š” ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์„ ์ค‘์ ์ ์œผ๋กœ

์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค.

โ€‹

์ขŒํ‘œํ•˜๊ฐ•๋ฒ•(Coordinate descent)๋ž€ i๋ฒˆ์งธ ์›์†Œ๋งŒ์„ ๋ณ€์ˆ˜๋กœ ๋ณด๊ณ  ๋‚˜๋จธ์ง€ ๋ณ€์ˆ˜๋Š” ๊ณ ์ •๊ฐ’์œผ๋กœ ๋ณธ ๋’ค f(x)๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” xi๋ฅผ ์ฐพ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

โ€‹

๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ• (Gradient descent)์ด ์–ด๋–ค ํ•จ์ˆ˜์˜ ์ตœ์†Ÿ๊ฐ’์„ ํ–ฅํ•œ ๋ฐฉํ–ฅ์„ ๊ณ„์‚ฐํ•˜๋Š”๋ฐ 1์ฐจ ๋ฏธ๋ถ„์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ˜๋ฉด ๋‰ดํ„ด ๋ฐฉ๋ฒ• (Nexton's method)์€ 2์ฐจ ๋ฏธ๋ถ„์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋‰ดํ„ด ๋ฐฉ๋ฒ•์ด ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ• ๋ณด๋‹ค๋Š” ์„ฑ๋Šฅ์ด ํ›จ์”ฌ ์ข‹์Šต๋‹ˆ๋‹ค.

๋‰ดํ„ด ๋ฐฉ๋ฒ•์€ ์ตœ์ ํ™” ๋ณ€์ˆ˜์˜ ์‹œ์ž‘๊ฐ’ x์—์„œ ๋ชฉ์  ํ•จ์ˆ˜ f(x)๋ฅผ ํ…Œ์ผ๋Ÿฌ ์‹œ๋ฆฌ์ฆˆ๋กœ ์ „๊ฐœ ํ›„ 2์ฐจ ํ•จ์ˆ˜๋กœ ๊ทผ์‚ฌํ™”ํ•˜๊ณ , ์ด ๊ทผ์‚ฌํ•จ์ˆ˜์˜ ์ตœ์†Ÿ๊ฐ’์„ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ๋ฏธ๋ถ„ํ•ด์ฃผ๋Š” ๋ฐฉ์‹์œผ๋กœ ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค.

ํ•ด๋‹น ์ ์—์„œ ์ ‘ํ•˜๋Š” 2์ฐจ ํ•จ์ˆ˜์˜ ์ตœ์†Œ ํ™”์›์œผ๋กœ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋‰ดํ„ด ๋ฐฉ๋ฒ•

๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ• (Gradient descent)์€ ์ ‘์„ ์˜ ๊ธฐ์šธ๊ธฐ์ธ ๋ฏธ๋ถ„๊ฐ’์„ ์ด์šฉํ•˜์—ฌ ๊ทน์†Œ๊ฐ’์„ ๊ตฌํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

ํ•จ์ˆ˜์˜ ์ตœ์†Ÿ๊ฐ’ ์œ„์น˜๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด ์ •์˜ํ•œ step size๋งŒํผ ์›€์ง์ด๋ฉฐ ์ตœ์ ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ์„ ๋•Œ๊นŒ์ง€ ๋ฐ‘์˜ ์‹์„ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค.

๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์—์„œ learning rate๋ž€ ํ•™์Šต๋ฅ ๋กœ, ํ•˜๊ฐ•ํ•˜๋Š” ๋ณดํญ์„ ๊ฒฐ์ •ํ•˜๋Š”

ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ ์ž…๋‹ˆ๋‹ค. (์œ„ ์‹์—์„œ a)

ํ•™์Šต๋ฅ ์ด ๋„ˆ๋ฌด ์ž‘์œผ๋ฉด ์ˆ˜๋ ดํ•˜๋Š”๋ฐ ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆฌ๊ณ ,

๋„ˆ๋ฌด ํฌ๋ฉด ๊ทน์ ์„ ๊ฑด๋„ˆ๋›ฐ์–ด ์ˆ˜๋ ดํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ณดํ†ต 0.01๋กœ ์„ค์ • ํ›„ ํ•™์Šตํ•ด๋ณด๊ณ  ํ•™์Šต ๊ฒฐ๊ณผ๊ฐ€ ๋ฐœ์‚ฐํ•˜๋ฉด ๊ฐ’์„ ์ค„์ด๊ณ ,

ํ•™์Šต ์‹œ๊ฐ„์ด ๋„ˆ๋ฌด ์˜ค๋ž˜ ๊ฑธ๋ฆฌ๋ฉด ํฐ ๊ฐ’์œผ๋กœ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.

 

Learning Rate Scheduling ์ด๋ž€ ๋ฏธ๋ฆฌ ์ •์˜๋œ Schedule ๋ฐฉ์‹์— ๋”ฐ๋ผ ํ•™์Šต ์ค‘์— learning rate๋ฅผ ์กฐ์ ˆํ•˜๋Š” ๊ฒƒ์œผ๋กœ Constant Learning Rate, Time-Based Decay, Step Decay, Exponential Decay, Adaptive Learning Rate Methods ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

์‹œ์ž‘์ ์ด ์–ด๋”” ์žˆ๋А๋ƒ์— ๋”ฐ๋ผ ์ „์—ญ ์ตœ์†Ÿ๊ฐ’์— ์ˆ˜๋ ดํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹Œ ์ง€์—ญ ์ตœ์†Ÿ๊ฐ’์ด๋‚˜ ์•ˆ์žฅ์ ์— ๊ฐ‡ํžˆ๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๊ธฐ์šธ๊ธฐ์— ๊ด€์„ฑ์„ ๋ถ€์—ฌํ•˜์—ฌ ์ž‘์€ ๊ธฐ์šธ๊ธฐ๋Š” ์‰ฝ๊ฒŒ ๋„˜์–ด๊ฐˆ ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ๋Š” Momentum ๊ฐœ๋…์„ ์ด์šฉํ•œ ๋ฐฉ์‹์ด ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

โ€‹

์ฒซ ์œ„์น˜๋ฅผ ์ž˜ ์ •ํ•ด์„œ ์ข‹์€ ํ•™์Šต์„ ํ•˜๊ธฐ ์œ„ํ•ด ์‹œ์ž‘ ์ง€์ ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ž˜ ์ •ํ•ด์ฃผ๋ ค๋ฉด ์ƒํ™ฉ์— ๋งž๋Š” ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ฐ€์ค‘์น˜๋ฅผ ์ดˆ๊ธฐํ™”ํ•˜๋Š” ๋ฐฉ์‹œ์—๋Š” ์ฒซ์งธ๋กœ ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐ’์„ 0์œผ๋กœ ๋†“๊ณ  ์‹œ์ž‘ํ•˜๋Š” Zero initialization์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์‹ ๊ฒฝ๋ง์˜ ํŒŒ๋ผ๋งˆํ„ฐ ๊ฐ’์ด ๋ชจ๋‘ ๊ฐ™๋‹ค๋ฉด ๊ฐฑ์‹ ์„ ํ•˜๋”๋ผ๋„ ๋ชจ๋‘ ๊ฐ™์€ ๊ฐ’์œผ๋กœ ๋ณ€ํ•˜๊ฒŒ ๋˜๋ฏ€๋กœ ์—ฌ๋Ÿฌ๊ฐœ์˜ ๋…ธ๋“œ๋กœ ์‹ ๊ฒฝ๋ง์„ ๊ตฌ์„ฑํ•˜๋Š” ์˜๋ฏธ๊ฐ€ ์‚ฌ๋ผ์ง‘๋‹ˆ๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ์ดˆ๊ธฐ๊ฐ’์€ ๋ฌด์ž‘์œ„๋กœ ์„ค์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ ๋ฌด์ž‘์œ„๋กœ ์„ค์ •ํ•ด์ฃผ๋Š” ๋ฐฉ๋ฒ•์„ Random initialization์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ด ๊ฒฝ์šฐ์—๋„ ๋ชจ๋“  ๋…ธ๋“œ์˜ ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ์ถœ๋ ฅ๊ฐ’์ด ๋น„์Šทํ•˜๋ฉด ๋…ธ๋“œ๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ๋กœ ๊ตฌ์„ฑํ•˜๋Š” ์˜๋ฏธ๊ฐ€ ์‚ฌ๋ผ์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ์•ˆ๋œ ์ดˆ๊ธฐํ™” ๋ฐฉ์‹์ด Xavier initialization์ž…๋‹ˆ๋‹ค.

์‚ฌ๋น„์—๋ฅด ์ดˆ๊ธฐํ™”์—์„œ๋Š” ๊ณ ์ •๋œ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ , ์ด์ „ ์€๋‹‰์ธต์˜ ๋…ธ๋“œ ์ˆ˜์— ๋งž์ถ”์–ด ๋ณ€ํ™”์‹œํ‚ต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋ฉด ์ธต๋งˆ๋‹ค ๋…ธ๋“œ ๊ฐœ์ˆ˜๋ฅผ ๋‹ค๋ฅด๊ฒŒ ์„ค์ •ํ•˜๋”๋ผ๋„ ์ด์— ๋งž๊ฒŒ ๊ฐ€์ค‘์น˜๊ฐ€ ์ดˆ๊ธฐํ™”๋˜๊ธฐ ๋•Œ๋ฌธ์— ๊ณ ์ •๋œ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ›จ์”ฌ ๋” ๊ฐ•๊ฑดํ•ฉ๋‹ˆ๋‹ค.

He initialization์ด๋ž€ ReLu ํ•จ์ˆ˜๋ฅผ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉํ•  ๋•Œ ์ถ”์ฒœ๋˜๋Š” ์ดˆ๊ธฐํ™” ๋ฐฉ๋ฒ•์œผ๋กœ, ํ™œ์„ฑํ™” ํ•จ์ˆ˜์— ๋”ฐ๋ผ ์ ์ ˆํ•œ ์ดˆ๊ธฐํ™” ๋ฐฉ๋ฒ•์ด ๋‹ฌ๋ผ์ง‘๋‹ˆ๋‹ค.

์—ํฌํฌ๋ž€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์— ํฌํ•จ๋œ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋“ค์ด ํ•œ๋ฒˆ์”ฉ ๋ชจ๋ธ์„ ํ†ต๊ณผํ•œ ํšŸ์ˆ˜๋กœ, ์ „์ฒด ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ํ•™์Šตํ•˜๋Š” ํšŸ์ˆ˜์ž…๋‹ˆ๋‹ค.

์—ํฌํฌ๋ฅผ ๋†’์ผ์ˆ˜๋ก ์†์‹ค๊ฐ’์ด ๊ฐ์†Œํ•˜์—ฌ ์ ์ ˆํ•œ ํ•™์Šต๋ฅ ์—์„œ ์ ํ•ฉํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ์„ ํ™•๋ฅ ์ด ์˜ฌ๋ผ๊ฐ‘๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์—ํฌํฌ๋ฅผ ์ง€๋‚˜์น˜๊ฒŒ ๋†’์ด๊ฒŒ ๋˜๋ฉด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์— ๊ณผ์ ํ•ฉ๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•˜๋ฏ€๋กœ ์ด ๊ฒฝ์šฐ์—๋Š” ์ตœ์ ์ ์˜ ์—ํฌํฌ๋กœ ๋‹ค์‹œ ํ›ˆ๋ จํ•˜๊ฑฐ๋‚˜ ํ•™์Šต ์ง„ํ–‰์— ๋”ฐ๋ผ ์กฐ๊ธฐ ์ข…๋ฃŒํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

๋จธ์‹ ๋Ÿฌ๋‹์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ์ •์ œํ•  ๋•Œ, ํŠน์„ฑ๋ณ„๋กœ ๋ฐ์ดํ„ฐ์˜ ์Šค์ผ€์ผ์ด ๋‹ค๋ฅธ ๊ฒฝ์šฐ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ณผ์ •์—์„œ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์Šค์ผ€์ผ๋ง ์ž‘์—…์„ ํ†ตํ•ด ๋ชจ๋“  ํŠน์„ฑ์˜ ๋ฒ”์œ„ ๋˜๋Š” ๋ถ„ํฌ๋ฅผ ๊ฐ™๊ฒŒ ๋งŒ๋“ค์–ด ์ฃผ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์€ ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์„ ๋ชจ๋‘ ์‚ฌ์šฉํ•˜์—ฌ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ์…‹์˜ ํฌ๊ธฐ๊ฐ€ ํฐ ๊ฒฝ์šฐ ํ•™์Šต ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ ค ๋งค์šฐ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

์ด ๋ฐฉ์‹์„ Batch Gradient Descent๋ผ๊ณ  ํ•˜๋Š”๋ฐ, ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์„ ๊ฒฝ์šฐ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๊ณผ๋‹คํ•ด์ง‘๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์€ ๋ชจ๋“  ๋ฐ์ดํ„ฐ์…‹์ด ์•„๋‹Œ ํ•œ๊ฐœ์˜ ๋ฌด์ž‘์œ„ ๋ฐ์ดํ„ฐ์…‹์„ ์ด์šฉํ•˜์—ฌ ๊ฒฝ์‚ฌํ•˜๊ฐ•์„ ์ง„ํ–‰ํ•˜๋Š” Stochastic Gradient Descent๋กœ, Batch ๋ฐฉ์‹์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๊ณ„์‚ฐ ๋น„์šฉ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์ข‹์Šต๋‹ˆ๋‹ค.

์œ„์˜ ์ˆ˜๋„์ฝ”๋“œ์— ๋‚˜์™€์žˆ๋“ฏ ๋ชจ๋“  ์ƒ˜ํ”Œ์ด theta์˜ ์ตœ์ ํ™”์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ๊ฒƒ์ด Batch Gradient Descent ๋ฐฉ๋ฒ•์ด๋ฉฐ, ์œ„ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ๋งค iteration๋งˆ๋‹ค ์ตœ์ ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ์•„๊ฐ€๋ฉฐ global minimum์„ ํ–ฅํ•ฉ๋‹ˆ๋‹ค.

๊ทธ์— ๋ฐ˜ํ•ด ํ™•๋ฅ ์  ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์€ ํ•˜๋‚˜์˜ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ Cost๋ฅผ ๊ณ„์‚ฐํ•œ ํ›„ ๊ฒฝ์‚ฌํ•˜๊ฐ•์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

์ด ๊ฒฝ์šฐ ์•„๋ž˜์™€ ๊ฐ™์ดNoise๊ฐ€ ๋ฐœ์ƒํ•˜์ง€๋งŒ ์ตœ์ ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋งค์šฐ ๊ทผ์ ‘ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

ํ™•๋ฅ ์  ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์€ ์—ฐ์‹ ์‹œ๊ฐ„์ด ๋น„๊ต์  ๋นจ๋ผ ์ˆ˜๋ ด์†๋„๊ฐ€ ๋น ๋ฅด๊ณ  ๊ณ„์‚ฐ ์‹œ ๋ฉ”๋ชจ๋ฆฌ ๋น„์šฉ์ด ์ ˆ์•ฝ๋œ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์œผ๋‚˜, ์ƒ˜ํ”Œ์˜ ์„ ํƒ์ด ํ™•๋ฅ ์ ์ด๋ฉฐ ์‹ฌํ•œ Noise ๋•Œ๋ฌธ์— global minimum์„ ์ฐพ์ง€ ๋ชปํ•  ๊ฐ€๋Šฅ์„ฑ์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.

์ด ๊ฒฝ์šฐ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์ด b๊ฐœ์˜ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ Cost๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” Mini-batch ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. b๊ฐ€ 10์ด๋ผ๋ฉด, i~i+9๋ฒˆ์งธ example์— ๋Œ€ํ•œ ๋ฏธ๋ถ„ํ•ญ์„ ๊ณ„์‚ฐ ํ›„ ๋ชจ๋“  m์— ๋Œ€ํ•ด Parameter๋ฅผ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค.

์ผ๋ฐ˜์ ์œผ๋กœ b = 10์ด๋‚˜, 2~100์‚ฌ์ด์—์„œ ์„ ํƒ ๊ฐ€๋Šฅํ•˜๋ฉฐ Stochastic๋ณด๋‹ค ๋ณ‘๋ ฌ์ฒ˜๋ฆฌ์— ์œ ๋ฆฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์„ธ ๋ฐฉ์‹์„ ๋น„๊ตํ•ด๋ณด๋ฉด ๋ชจ๋‘ minimum ๊ฐ’ ๊ทผ์ฒ˜์— ๋„๋‹ฌํ–ˆ์œผ๋ฉฐ, batch ๋ฐฉ์‹์€ ์ •ํ™•ํžˆ ๋„๋‹ฌํ•œ ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Stochastic๊ณผ mini-batch๋Š” ์ตœ์†Ÿ๊ฐ’ ๊ทผ์ฒ˜์—์„œ ๋งด๋„๋‚˜, ์ ์ ˆํ•œ ํ•™์Šต ์Šค์ผ€์ฅด์„ ์‚ฌ์šฉํ•˜๋ฉด ์ตœ์†Ÿ๊ฐ’์— ๋„๋‹ฌํ•ฉ๋‹ˆ๋‹ค.


์ด์ƒ์œผ๋กœ 9๊ธฐ 7์ฃผ์ฐจ ์ •๊ทœ์„ธ์…˜์„ ๋ณต์Šตํ•ด๋ณด์•˜์Šต๋‹ˆ๋‹ค!

โ€‹

๋‹ค์Œ ์‹œ๊ฐ„์—๋Š” Decision Tree, ๊ต์ฐจ๊ฒ€์ฆ, ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ•  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค๐Ÿฅฐ

 

+ Recent posts