๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋ก๋”ฅ๋Ÿฌ๋‹ (17)

DATA101

[Deep Learning] ์ตœ์ ํ™”(Optimizer): (2) AdaGrad

๐Ÿ“š ๋ชฉ์ฐจ 1. ๊ฐœ๋… 2. ์žฅ์  3. ๋‹จ์  1. ๊ฐœ๋… AdaGrad๋Š” ๋”ฅ๋Ÿฌ๋‹ ์ตœ์ ํ™” ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ์จ Adaptive Gradient์˜ ์•ฝ์ž์ด๊ณ , ์ ์‘์  ๊ธฐ์šธ๊ธฐ๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค. Feature๋งˆ๋‹ค ์ค‘์š”๋„, ํฌ๊ธฐ ๋“ฑ์ด ์ œ๊ฐ๊ฐ์ด๊ธฐ ๋•Œ๋ฌธ์— ๋ชจ๋“  Feature๋งˆ๋‹ค ๋™์ผํ•œ ํ•™์Šต๋ฅ ์„ ์ ์šฉํ•˜๋Š” ๊ฒƒ์€ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ด€์ ์—์„œ AdaGrad ๊ธฐ๋ฒ•์ด ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. AdaGrad๋Š” Feature๋ณ„๋กœ ํ•™์Šต๋ฅ (Learning rate)์„ Adaptiveํ•˜๊ฒŒ, ์ฆ‰ ๋‹ค๋ฅด๊ฒŒ ์กฐ์ ˆํ•˜๋Š” ๊ฒƒ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค. AdaGrad๋ฅผ ์ˆ˜์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. $$ g_{t} = g_{t-1} + (\nabla f(x_{t-1}))^{2} $$ $$ x_{t} = x_{t-1} - \frac{\eta}{\sqrt{g_{t} + \epsi..

[Deep Learning] ์ตœ์ ํ™”(Optimizer): (1) Momentum

๋ณธ ํฌ์ŠคํŒ…์—์„œ๋Š” ๋”ฅ๋Ÿฌ๋‹ ์ตœ์ ํ™”(optimizer) ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜์ธ Momentum์˜ ๊ฐœ๋…์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค. ๋จผ์ €, Momentum ๊ธฐ๋ฒ•์ด ์ œ์•ˆ๋œ ๋ฐฐ๊ฒฝ์ธ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent)์˜ ํ•œ๊ณ„์ ์— ๋Œ€ํ•ด ๋‹ค๋ฃจ๊ณ  ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.๐Ÿ“š ๋ชฉ์ฐจ1. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์˜ ํ•œ๊ณ„ 1.1. Local Minimum ๋ฌธ์ œ 1.2. Saddle Point ๋ฌธ์ œ2. Momentum 2.1. ๊ฐœ๋… 2.2. ์ˆ˜์‹1. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์˜ ํ•œ๊ณ„๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent)์€ ํฌ๊ฒŒ 2๊ฐ€์ง€ ํ•œ๊ณ„์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ฒซ์งธ, Local Minimum์— ๋น ์ง€๊ธฐ ์‰ฝ๋‹ค๋Š” ์ . ๋‘˜์งธ, ์•ˆ์žฅ์ (Saddle point)๋ฅผ ๋ฒ—์–ด๋‚˜์ง€ ๋ชปํ•œ๋‹ค๋Š” ์ . ๊ฐ๊ฐ์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค.1.1. Local Minimum..

[Deep Learning] ์ตœ์ ํ™” ๊ฐœ๋…๊ณผ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent)

๐Ÿ“š ๋ชฉ์ฐจ1. ์ตœ์ ํ™” ๊ฐœ๋… 2. ๊ธฐ์šธ๊ธฐ ๊ฐœ๋… 3. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• ๊ฐœ๋… 4. ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์˜ ํ•œ๊ณ„1. ์ตœ์ ํ™” ๊ฐœ๋…๋”ฅ๋Ÿฌ๋‹ ๋ถ„์•ผ์—์„œ ์ตœ์ ํ™”(Optimization)๋ž€ ์†์‹ค ํ•จ์ˆ˜(Loss Function) ๊ฐ’์„ ์ตœ์†Œํ™”ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ตฌํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค(์•„๋ž˜ ๊ทธ๋ฆผ 1 ์ฐธ๊ณ ). ๋”ฅ๋Ÿฌ๋‹์—์„œ๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ž…๋ ฅํ•˜์—ฌ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋ฅผ ๊ฑฐ์ณ ์˜ˆ์ธก๊ฐ’(\(\hat{y}\))์„ ์–ป์Šต๋‹ˆ๋‹ค. ์ด ์˜ˆ์ธก๊ฐ’๊ณผ ์‹ค์ œ ์ •๋‹ต(\(y\))๊ณผ์˜ ์ฐจ์ด๋ฅผ ๋น„๊ตํ•˜๋Š” ํ•จ์ˆ˜๊ฐ€ ์†์‹ค ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๊ฐ’๊ณผ ์‹ค์ ฏ๊ฐ’์˜ ์ฐจ์ด๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ(a.k.a., Feature)๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์ด ์ตœ์ ํ™”์ž…๋‹ˆ๋‹ค. ์ตœ์ ํ™” ๊ธฐ๋ฒ•์—๋Š” ์—ฌ๋Ÿฌ ๊ฐ€์ง€๊ฐ€ ์žˆ์œผ๋ฉฐ, ๋ณธ ํฌ์ŠคํŒ…์—์„œ๋Š” ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Gradient Descent)์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค.2. ๊ธฐ์šธ๊ธฐ ๊ฐœ๋…..

[Deep Learning] ํ‰๊ท ์ ˆ๋Œ€์˜ค์ฐจ(MAE) ๊ฐœ๋… ๋ฐ ํŠน์ง•

๐Ÿ’ก ๋ชฉํ‘œ ํ‰๊ท ์ ˆ๋Œ€์˜ค์ฐจ(MAE)์˜ ๊ฐœ๋… ๋ฐ ํŠน์ง•์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค. 1. MAE ๊ฐœ๋… ํ‰๊ท ์ ˆ๋Œ€์˜ค์ฐจ(Mean Absolute Error, MAE)๋Š” ๋ชจ๋“  ์ ˆ๋Œ€ ์˜ค์ฐจ(Error)์˜ ํ‰๊ท ์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์˜ค์ฐจ๋ž€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์˜ˆ์ธกํ•œ ๊ฐ’๊ณผ ์‹ค์ œ ์ •๋‹ต๊ณผ์˜ ์ฐจ์ด๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์ •๋‹ต์„ ์ž˜ ๋งžํž์ˆ˜๋ก MSE ๊ฐ’์€ ์ž‘์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ, MAE๊ฐ€ ์ž‘์„์ˆ˜๋ก ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. MAE์˜ ์ˆ˜์‹์„ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. $$ E = \sum_{i}|y_{i} -\tilde{y_{i}}| $$ \(E\): ์†์‹ค ํ•จ์ˆ˜ \(y_i\): \(i\)๋ฒˆ์งธ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ์ •๋‹ต \(\tilde{y_i}\): \(i\)๋ฒˆ์งธ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ์˜ˆ์ธกํ•œ ๊ฐ’ 2. MAE ํŠน์ง• 2.1. ์˜ค์ฐจ์™€ ๋น„๋ก€ํ•˜๋Š” ์†์‹ค ํ•จ์ˆ˜ MAE๋Š” ์†์‹ค ํ•จ์ˆ˜๊ฐ€ ..

[Deep Learning] ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ(MSE) ๊ฐœ๋… ๋ฐ ํŠน์ง•

๐Ÿ’ก ๋ชฉํ‘œํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ(MSE)์˜ ๊ฐœ๋…๊ณผ ํŠน์ง•์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค.1. MSE ๊ฐœ๋…ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ(Mean Squared Error, MSE)๋Š” ์ด๋ฆ„์—์„œ ์•Œ ์ˆ˜ ์žˆ๋“ฏ์ด ์˜ค์ฐจ(error)๋ฅผ ์ œ๊ณฑํ•œ ๊ฐ’์˜ ํ‰๊ท ์ž…๋‹ˆ๋‹ค. ์˜ค์ฐจ๋ž€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์˜ˆ์ธกํ•œ ๊ฐ’๊ณผ ์‹ค์ œ ์ •๋‹ต๊ณผ์˜ ์ฐจ์ด๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์ •๋‹ต์„ ์ž˜ ๋งž์ถœ์ˆ˜๋ก MSE ๊ฐ’์€ ์ž‘๊ฒ ์ฃ . ์ฆ‰, MSE ๊ฐ’์€ ์ž‘์„์ˆ˜๋ก ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ˆ˜์‹์„ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.$$ E = \frac{1}{n}\sum_{i=1}^{n}(y_{i} - \tilde{y_i})^2 $$\(y_i\): \(i\)๋ฒˆ์งธ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ์ •๋‹ต\(\tilde{y_i}\): \(i\)๋ฒˆ์งธ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ์˜ˆ์ธกํ•œ ๊ฐ’2. ํŠน์ง•2.1. ์˜ค์ฐจ ๋Œ€๋น„ ํฐ ์†์‹ค ํ•จ์ˆ˜์˜ ์ฆ๊ฐ€ํญMSE๋Š” ์˜ค์ฐจ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก..

[Deep Learning] ์†์‹คํ•จ์ˆ˜(Loss Function) ๊ฐœ๋…

๐Ÿ’ก ๋ชฉํ‘œ ์†์‹ค ํ•จ์ˆ˜์˜ ๊ฐœ๋…๊ณผ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ•™์Šต์˜ ์ˆ˜ํ•™์  ์˜๋ฏธ์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค. 1. ์†์‹ค ํ•จ์ˆ˜์˜ ๊ฐœ๋… ์†์‹ค ํ•จ์ˆ˜(Loss Function)๋Š” ์ง€๋„ํ•™์Šต(Supervised Learning) ์‹œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์˜ˆ์ธกํ•œ ๊ฐ’๊ณผ ์‹ค์ œ ์ •๋‹ต์˜ ์ฐจ์ด๋ฅผ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•œ ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ์ฆ‰, 'ํ•™์Šต ์ค‘์— ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์–ผ๋งˆ๋‚˜ ์ž˜๋ชป ์˜ˆ์ธกํ•˜๋Š” ์ •๋„'๋ฅผ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•œ ํ•จ์ˆ˜๋กœ์จ ์ตœ์ ํ™”(Optimization)๋ฅผ ์œ„ํ•ด ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ธ ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ๋ชฉ์  ํ•จ์ˆ˜(Objective Function)๋ผ๊ณ ๋„ ๋ถ€๋ฆ…๋‹ˆ๋‹ค. ์ด์™ธ์—๋„ ์†์‹ค ํ•จ์ˆ˜๋Š” ๋ถ„์•ผ์— ๋”ฐ๋ผ ๋น„์šฉ ํ•จ์ˆ˜(Cost Function), ์—๋„ˆ์ง€ ํ•จ์ˆ˜(Energy Function) ๋“ฑ์œผ๋กœ ๋‹ค์–‘ํ•˜๊ฒŒ ๋ถ€๋ฅด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ์†์‹ค ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ ํ•™์Šต ์ค‘์— ์†์‹ค(loss)์ด ์ปค์งˆ์ˆ˜๋ก ํ•™..

[Deep Learning] Activation Function ๊ฐœ๋… ๋ฐ ์ข…๋ฅ˜: sign, tanh, sigmoid, softmax, ReLU, Leaky ReLU

๐Ÿ“š ๋ชฉ์ฐจ 1. ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ๊ฐœ๋… 2. ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ์ข…๋ฅ˜ 2.1. Sign ํ•จ์ˆ˜ 2.2. Sigmoid ํ•จ์ˆ˜ 2.3. Tanh ํ•จ์ˆ˜ 2.4. Softmax ํ•จ์ˆ˜ 2.5. ReLU ํ•จ์ˆ˜ 2.6. Leaky ReLU ํ•จ์ˆ˜ 1. ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ๊ฐœ๋… ํ™œ์„ฑํ™” ํ•จ์ˆ˜(Activation Function)๋ž€ ํผ์…‰ํŠธ๋ก (Perceptron)์˜ ์ถœ๋ ฅ๊ฐ’์„ ๊ฒฐ์ •ํ•˜๋Š” ๋น„์„ ํ˜•(non-linear) ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ์ฆ‰, ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋Š” ํผ์…‰ํŠธ๋ก ์—์„œ ์ž…๋ ฅ๊ฐ’์˜ ์ดํ•ฉ์„ ์ถœ๋ ฅํ• ์ง€ ๋ง์ง€ ๊ฒฐ์ •ํ•˜๊ณ , ์ถœ๋ ฅํ•œ๋‹ค๋ฉด ์–ด๋–ค ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์ถœ๋ ฅํ• ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ํผ์…‰ํŠธ๋ก ์— ๋Œ€ํ•œ ์ž์„ธํ•œ ๋‚ด์šฉ์€ ์ด๊ณณ์„ ์ฐธ๊ณ ํ•ด ์ฃผ์„ธ์š”. ์•„๋ž˜ ๊ทธ๋ฆผ 1์— ๋…ธ๋ž€์ƒ‰์œผ๋กœ ์ƒ‰์น ํ•œ ๋ถ€๋ถ„์ด ํผ์…‰ํŠธ๋ก ์˜ ํ™œ์„ฑํ™” ํ•จ์ˆ˜ ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค. 2. ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ์ข…๋ฅ˜ 2.1. Sign ํ•จ์ˆ˜ ์œ„์˜ ํผ์…‰..

[Deep Learning] ํผ์…‰ํŠธ๋ก (Perceptron) ํ•™์Šต๋ฐฉ๋ฒ• ๋ฐ ์ ˆ์ฐจ

๋ณธ ํฌ์ŠคํŒ…์—์„œ๋Š” ํผ์…‰ํŠธ๋ก (Perceptron) ํ•™์Šต(train)์˜ ์˜๋ฏธ์™€ ์ ˆ์ฐจ์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค. ๐Ÿ“š ๋ชฉ์ฐจ 1. ํผ์…‰ํŠธ๋ก ์˜ ๊ฐœ๋… 2. ํผ์…‰ํŠธ๋ก  ํ•™์Šต์˜ ์˜๋ฏธ 3. ํผ์…‰ํŠธ๋ก  ํ•™์Šต ๋ฐฉ๋ฒ• 4. ํผ์…‰ํŠธ๋ก  ํ•™์Šต ์ ˆ์ฐจ 1. ํผ์…‰ํŠธ๋ก ์˜ ๊ฐœ๋… ํผ์…‰ํŠธ๋ก ์˜ ํ•™์Šต ์ ˆ์ฐจ๋ฅผ ์•Œ์•„๋ณด๊ธฐ ์ „์— ํผ์…‰ํŠธ๋ก  ๊ฐœ๋…์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค. ํผ์…‰ํŠธ๋ก ์€ ์ด์ง„ ๋ถ„๋ฅ˜(Binary Classification) ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•œ ์ง€๋„ํ•™์Šต(Supervised Learning) ๊ธฐ๋ฐ˜์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ์ด์ง„๋ถ„๋ฅ˜๋ž€ ์˜ˆ๋ฅผ ๋“ค์–ด ์ธ๊ณต์ง€๋Šฅ(AI)์—๊ฒŒ ๋ฌด์ž‘์œ„๋กœ ๋™๋ฌผ ์‚ฌ์ง„์„ ๋ณด์—ฌ์ฃผ์—ˆ์„ ๋•Œ ๊ณ ์–‘์ด ์‚ฌ์ง„์ธ์ง€, ๊ฐ•์•„์ง€ ์‚ฌ์ง„์ธ์ง€ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๊ณ ์–‘์ด, ๊ฐ•์•„์ง€์™€ ๊ฐ™์€ ์„ ํƒ์ง€๋ฅผ ํด๋ž˜์Šค(Class)๋ผ๊ณ  ๋ถ€๋ฅด๊ณ  ์„ ํƒ์ง€๊ฐ€ 2๊ฐœ์ธ ๊ฒฝ์šฐ๋ฅผ ์ด์ง„ ๋ถ„๋ฅ˜๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜ํ•™์ ์ธ ์ธก..