๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋กdeep learning (3)

DATA101

[๋”ฅ๋Ÿฌ๋‹] ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent) ์ข…๋ฅ˜

๐Ÿ“š ๋ชฉ์ฐจ 1. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• ๊ฐœ๋… 2. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• ์ข…๋ฅ˜ 2.1. ๋ฐฐ์น˜ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• 2.2. ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• 2.3. ๋ฏธ๋‹ˆ ๋ฐฐ์น˜ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• 1. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• ๊ฐœ๋… ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent)์ด๋ž€ ๋”ฅ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ•™์Šต ์‹œ ์‚ฌ์šฉ๋˜๋Š” ์ตœ์ ํ™” ๋ฐฉ๋ฒ•(Optimizer) ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ๋”ฅ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ•™์Šต ์‹œ ๋ชฉํ‘œ๋Š” ์˜ˆ์ธก๊ฐ’๊ณผ ์ •๋‹ต๊ฐ’ ๊ฐ„์˜ ์ฐจ์ด์ธ ์†์‹ค ํ•จ์ˆ˜์˜ ํฌ๊ธฐ๋ฅผ ์ตœ์†Œํ™”์‹œํ‚ค๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ•™์Šต ๋ฐ์ดํ„ฐ ์ž…๋ ฅ์„ ๋ณ€๊ฒฝํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์—, ์†์‹ค ํ•จ์ˆ˜ ๊ฐ’์˜ ๋ณ€ํ™”์— ๋”ฐ๋ผ ๊ฐ€์ค‘์น˜(weight) ํ˜น์€ ํŽธํ–ฅ(bias)์„ ์—…๋ฐ์ดํŠธํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ ์–ด๋–ป๊ฒŒ ์ตœ์ ์˜ ๊ฐ€์ค‘์น˜๋‚˜ ํŽธํ–ฅ์„ ์ฐพ์„ ์ˆ˜ ์žˆ์„๊นŒ์š”? ์ตœ์ ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์ตœ์ ์˜ ํŽธํ–ฅ์„ ์ฐพ๋Š” ๊ณผ์ • ์—ญ์‹œ ์ ˆ์ฐจ๋Š” ๋™์ผํ•ฉ๋‹ˆ๋‹ค. ์•„๋ž˜์˜ ๊ทธ..

[Deep Learning] ์ตœ์ ํ™”(Optimizer): (1) Momentum

๋ณธ ํฌ์ŠคํŒ…์—์„œ๋Š” ๋”ฅ๋Ÿฌ๋‹ ์ตœ์ ํ™”(optimizer) ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜์ธ Momentum์˜ ๊ฐœ๋…์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค. ๋จผ์ €, Momentum ๊ธฐ๋ฒ•์ด ์ œ์•ˆ๋œ ๋ฐฐ๊ฒฝ์ธ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent)์˜ ํ•œ๊ณ„์ ์— ๋Œ€ํ•ด ๋‹ค๋ฃจ๊ณ  ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.๐Ÿ“š ๋ชฉ์ฐจ1. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์˜ ํ•œ๊ณ„ 1.1. Local Minimum ๋ฌธ์ œ 1.2. Saddle Point ๋ฌธ์ œ2. Momentum 2.1. ๊ฐœ๋… 2.2. ์ˆ˜์‹1. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์˜ ํ•œ๊ณ„๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent)์€ ํฌ๊ฒŒ 2๊ฐ€์ง€ ํ•œ๊ณ„์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ฒซ์งธ, Local Minimum์— ๋น ์ง€๊ธฐ ์‰ฝ๋‹ค๋Š” ์ . ๋‘˜์งธ, ์•ˆ์žฅ์ (Saddle point)๋ฅผ ๋ฒ—์–ด๋‚˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ์ . ๊ฐ๊ฐ์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค.1.1. Local Minimum..

[Deep Learning] ์†์‹คํ•จ์ˆ˜(Loss Function) ๊ฐœ๋…

๐Ÿ’ก ๋ชฉํ‘œ ์†์‹ค ํ•จ์ˆ˜์˜ ๊ฐœ๋…๊ณผ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ•™์Šต์˜ ์ˆ˜ํ•™์  ์˜๋ฏธ์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค. 1. ์†์‹ค ํ•จ์ˆ˜์˜ ๊ฐœ๋… ์†์‹ค ํ•จ์ˆ˜(Loss Function)๋Š” ์ง€๋„ํ•™์Šต(Supervised Learning) ์‹œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์˜ˆ์ธกํ•œ ๊ฐ’๊ณผ ์‹ค์ œ ์ •๋‹ต์˜ ์ฐจ์ด๋ฅผ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•œ ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ์ฆ‰, 'ํ•™์Šต ์ค‘์— ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์–ผ๋งˆ๋‚˜ ์ž˜๋ชป ์˜ˆ์ธกํ•˜๋Š” ์ •๋„'๋ฅผ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•œ ํ•จ์ˆ˜๋กœ์จ ์ตœ์ ํ™”(Optimization)๋ฅผ ์œ„ํ•ด ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ธ ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ๋ชฉ์  ํ•จ์ˆ˜(Objective Function)๋ผ๊ณ ๋„ ๋ถ€๋ฆ…๋‹ˆ๋‹ค. ์ด์™ธ์—๋„ ์†์‹ค ํ•จ์ˆ˜๋Š” ๋ถ„์•ผ์— ๋”ฐ๋ผ ๋น„์šฉ ํ•จ์ˆ˜(Cost Function), ์—๋„ˆ์ง€ ํ•จ์ˆ˜(Energy Function) ๋“ฑ์œผ๋กœ ๋‹ค์–‘ํ•˜๊ฒŒ ๋ถ€๋ฅด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ์†์‹ค ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ ํ•™์Šต ์ค‘์— ์†์‹ค(loss)์ด ์ปค์งˆ์ˆ˜๋ก ํ•™..