- Today
- Total
๋ชฉ๋ก์ต์ ํ (6)
DATA101
๐จ๐ป ๋ค์ด๊ฐ๋ฉฐ ๋ณธ ํฌ์คํ ์์๋ ๋ฅ๋ฌ๋ ๋ถ์ผ์์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ ๋ฐฉ๋ฒ 3๊ฐ์ง์ธ Grid Search, Random Search, Bayesian Optimization์ ๋ํด ์์๋ด ๋๋ค. ๐ ๋ชฉ์ฐจ 1. Grid Search 2. Random Search 3. Bayesian Optimization 1. Grid Search ๊ทธ๋ฆฌ๋ ์์น(Grid Search)๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ผ์ ํ ๊ฐ๊ฒฉ์ผ๋ก ๋ณ๊ฒฝํ๋ฉฐ ์ต์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ์๊ฐ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์๋์ ๊ทธ๋ฆผ 1์ฒ๋ผ ๊ฐ๋ก์ถ์ด ํ์ดํผํ๋ผ๋ฏธํฐ์ด๊ณ ์ธ๋ก์ถ์ด ๋ชฉํํจ์์ผ ๋, ๋ชฉํํจ์ ๊ฐ์ด ์ต๋๊ฐ ๋๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๋ฌธ์ ๋ฅผ ํ์ด์ผ ํ๋ค๊ณ ๊ฐ์ ํด ๋ณด๊ฒ ์ต๋๋ค. ๊ทธ๋ฆฌ๋ ์์น๋ ํน์ ๋ฒ์ ๋ด์์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ผ์ ๊ฐ๋งํผ ์ผ์ผ์ด ๋ณ๊ฒฝํ๋ฉฐ ์ถ๋ ฅ๊ฐ์ ๋น๊ตํ๋ ๋ฐฉ์์ผ๋ก..
1. ๊ฐ๋ Adaptive Moment Estimation(Adam)์ ๋ฅ๋ฌ๋ ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋๋ก์จ Momentum๊ณผ RMSProp์ ์ฅ์ ์ ๊ฒฐํฉํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ์ฆ, ํ์ต์ ๋ฐฉํฅ๊ณผ ํฌ๊ธฐ(=Learning rate)๋ฅผ ๋ชจ๋ ๊ฐ์ ํ ๊ธฐ๋ฒ์ผ๋ก ๋ฅ๋ฌ๋์์ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋์ด "์ค๋" ์ต์ ํ ๊ธฐ๋ฒ์ผ๋ก ์๋ ค์ ธ ์์ต๋๋ค. ์ต๊ทผ์๋ RAdam, AdamW๊ณผ ๊ฐ์ด ๋์ฑ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ ์ต์ ํ ๊ธฐ๋ฒ์ด ์ ์๋์์ง๋ง, ๋ณธ ํฌ์คํ ์์๋ ๋ฅ๋ฌ๋ ๋ถ์ผ ์ ๋ฐ์ ๊ณต๋ถํ๋ ๋ง์๊ฐ์ง์ผ๋ก Adam์ ๋ํด ์์๋ด ๋๋ค.2. ์์์์๊ณผ ํจ๊ป Adam์ ๋ํด ์์ธํ ์์๋ณด๊ฒ ์ต๋๋ค. $$ m_{t} = \beta_{1} m_{t-1} + (1 - \beta_{1}) \nabla f(x_{t-1}) $$$$ g_{t} = \beta_{..
1. ๊ฐ๋ RMSProp๋ ๋ฅ๋ฌ๋ ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋๋ก์จ Root Mean Sqaure Propagation์ ์ฝ์๋ก, ์์ ์์คํ๋กญ(R.M.S.Prop)์ด๋ผ๊ณ ์ฝ์ต๋๋ค.โ๋ฑ์ฅ๋ฐฐ๊ฒฝ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋์ธ AdaGrad๋ ํ์ต์ด ์งํ๋ ๋ ํ์ต๋ฅ (Learning rate)์ด ๊พธ์คํ ๊ฐ์ํ๋ค ๋์ค์๋ \(0\)์ผ๋ก ์๋ ดํ์ฌ ํ์ต์ด ๋ ์ด์ ์งํ๋์ง ์๋๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค. RMSProp์ ์ด๋ฌํ ํ๊ณ์ ์ ๋ณด์ํ ์ต์ ํ ๊ธฐ๋ฒ์ผ๋ก์จ ์ ํ๋ฆฌ ํํผ ๊ต์๊ฐ Coursea ๊ฐ์ ์ค์ ๋ฐํํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.๐ ์๋ฆฌRMSProp์ AdaGrad์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ณ์(feature)๋ณ๋ก ํ์ต๋ฅ ์ ์กฐ์ ํ๋ ๊ธฐ์ธ๊ธฐ ์ ๋ฐ์ดํธ ๋ฐฉ์์์ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ์ด์ time step์์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋จ์ํ ๊ฐ์ ๋น์จ๋ก ๋์ ํ์ง ์๊ณ ์ง์์ด๋..
๐ ๋ชฉ์ฐจ 1. ๊ฐ๋ 2. ์ฅ์ 3. ๋จ์ 1. ๊ฐ๋ AdaGrad๋ ๋ฅ๋ฌ๋ ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋๋ก์จ Adaptive Gradient์ ์ฝ์์ด๊ณ , ์ ์์ ๊ธฐ์ธ๊ธฐ๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. Feature๋ง๋ค ์ค์๋, ํฌ๊ธฐ ๋ฑ์ด ์ ๊ฐ๊ฐ์ด๊ธฐ ๋๋ฌธ์ ๋ชจ๋ Feature๋ง๋ค ๋์ผํ ํ์ต๋ฅ ์ ์ ์ฉํ๋ ๊ฒ์ ๋นํจ์จ์ ์ ๋๋ค. ์ด๋ฌํ ๊ด์ ์์ AdaGrad ๊ธฐ๋ฒ์ด ์ ์๋์์ต๋๋ค. AdaGrad๋ Feature๋ณ๋ก ํ์ต๋ฅ (Learning rate)์ Adaptiveํ๊ฒ, ์ฆ ๋ค๋ฅด๊ฒ ์กฐ์ ํ๋ ๊ฒ์ด ํน์ง์ ๋๋ค. AdaGrad๋ฅผ ์์์ผ๋ก ๋ํ๋ด๋ฉด ์๋์ ๊ฐ์ต๋๋ค. $$ g_{t} = g_{t-1} + (\nabla f(x_{t-1}))^{2} $$ $$ x_{t} = x_{t-1} - \frac{\eta}{\sqrt{g_{t} + \epsi..
๋ณธ ํฌ์คํ ์์๋ ๋ฅ๋ฌ๋ ์ต์ ํ(optimizer) ๊ธฐ๋ฒ ์ค ํ๋์ธ Momentum์ ๊ฐ๋ ์ ๋ํด ์์๋ด ๋๋ค. ๋จผ์ , Momentum ๊ธฐ๋ฒ์ด ์ ์๋ ๋ฐฐ๊ฒฝ์ธ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ ํ๊ณ์ ์ ๋ํด ๋ค๋ฃจ๊ณ ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.๐ ๋ชฉ์ฐจ1. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํ๊ณ 1.1. Local Minimum ๋ฌธ์ 1.2. Saddle Point ๋ฌธ์ 2. Momentum 2.1. ๊ฐ๋ 2.2. ์์1. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํ๊ณ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ ํฌ๊ฒ 2๊ฐ์ง ํ๊ณ์ ์ด ์์ต๋๋ค. ์ฒซ์งธ, Local Minimum์ ๋น ์ง๊ธฐ ์ฝ๋ค๋ ์ . ๋์งธ, ์์ฅ์ (Saddle point)๋ฅผ ๋ฒ์ด๋์ง ๋ชปํ๋ค๋ ์ . ๊ฐ๊ฐ์ ๋ํด ์์๋ด ๋๋ค.1.1. Local Minimum..
๐ ๋ชฉ์ฐจ1. ์ต์ ํ ๊ฐ๋ 2. ๊ธฐ์ธ๊ธฐ ๊ฐ๋ 3. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ๊ฐ๋ 4. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํ๊ณ1. ์ต์ ํ ๊ฐ๋ ๋ฅ๋ฌ๋ ๋ถ์ผ์์ ์ต์ ํ(Optimization)๋ ์์ค ํจ์(Loss Function) ๊ฐ์ ์ต์ํํ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ตฌํ๋ ๊ณผ์ ์ ๋๋ค(์๋ ๊ทธ๋ฆผ 1 ์ฐธ๊ณ ). ๋ฅ๋ฌ๋์์๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅํ์ฌ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ๊ฑฐ์ณ ์์ธก๊ฐ(\(\hat{y}\))์ ์ป์ต๋๋ค. ์ด ์์ธก๊ฐ๊ณผ ์ค์ ์ ๋ต(\(y\))๊ณผ์ ์ฐจ์ด๋ฅผ ๋น๊ตํ๋ ํจ์๊ฐ ์์ค ํจ์์ ๋๋ค. ์ฆ, ๋ชจ๋ธ์ด ์์ธกํ ๊ฐ๊ณผ ์ค์ ฏ๊ฐ์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋ ๋คํธ์ํฌ ๊ตฌ์กฐ์ ํ๋ผ๋ฏธํฐ(a.k.a., Feature)๋ฅผ ์ฐพ๋ ๊ณผ์ ์ด ์ต์ ํ์ ๋๋ค. ์ต์ ํ ๊ธฐ๋ฒ์๋ ์ฌ๋ฌ ๊ฐ์ง๊ฐ ์์ผ๋ฉฐ, ๋ณธ ํฌ์คํ ์์๋ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ ๋ํด ์์๋ด ๋๋ค.2. ๊ธฐ์ธ๊ธฐ ๊ฐ๋ ..