- Today
- Total
๋ชฉ๋กAdaGrad (2)
DATA101
1. ๊ฐ๋ RMSProp๋ ๋ฅ๋ฌ๋ ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋๋ก์จ Root Mean Sqaure Propagation์ ์ฝ์๋ก, ์์ ์์คํ๋กญ(R.M.S.Prop)์ด๋ผ๊ณ ์ฝ์ต๋๋ค.โ๋ฑ์ฅ๋ฐฐ๊ฒฝ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋์ธ AdaGrad๋ ํ์ต์ด ์งํ๋ ๋ ํ์ต๋ฅ (Learning rate)์ด ๊พธ์คํ ๊ฐ์ํ๋ค ๋์ค์๋ \(0\)์ผ๋ก ์๋ ดํ์ฌ ํ์ต์ด ๋ ์ด์ ์งํ๋์ง ์๋๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค. RMSProp์ ์ด๋ฌํ ํ๊ณ์ ์ ๋ณด์ํ ์ต์ ํ ๊ธฐ๋ฒ์ผ๋ก์จ ์ ํ๋ฆฌ ํํผ ๊ต์๊ฐ Coursea ๊ฐ์ ์ค์ ๋ฐํํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.๐ ์๋ฆฌRMSProp์ AdaGrad์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ณ์(feature)๋ณ๋ก ํ์ต๋ฅ ์ ์กฐ์ ํ๋ ๊ธฐ์ธ๊ธฐ ์ ๋ฐ์ดํธ ๋ฐฉ์์์ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ์ด์ time step์์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋จ์ํ ๊ฐ์ ๋น์จ๋ก ๋์ ํ์ง ์๊ณ ์ง์์ด๋..
๐ ๋ชฉ์ฐจ 1. ๊ฐ๋ 2. ์ฅ์ 3. ๋จ์ 1. ๊ฐ๋ AdaGrad๋ ๋ฅ๋ฌ๋ ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋๋ก์จ Adaptive Gradient์ ์ฝ์์ด๊ณ , ์ ์์ ๊ธฐ์ธ๊ธฐ๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. Feature๋ง๋ค ์ค์๋, ํฌ๊ธฐ ๋ฑ์ด ์ ๊ฐ๊ฐ์ด๊ธฐ ๋๋ฌธ์ ๋ชจ๋ Feature๋ง๋ค ๋์ผํ ํ์ต๋ฅ ์ ์ ์ฉํ๋ ๊ฒ์ ๋นํจ์จ์ ์ ๋๋ค. ์ด๋ฌํ ๊ด์ ์์ AdaGrad ๊ธฐ๋ฒ์ด ์ ์๋์์ต๋๋ค. AdaGrad๋ Feature๋ณ๋ก ํ์ต๋ฅ (Learning rate)์ Adaptiveํ๊ฒ, ์ฆ ๋ค๋ฅด๊ฒ ์กฐ์ ํ๋ ๊ฒ์ด ํน์ง์ ๋๋ค. AdaGrad๋ฅผ ์์์ผ๋ก ๋ํ๋ด๋ฉด ์๋์ ๊ฐ์ต๋๋ค. $$ g_{t} = g_{t-1} + (\nabla f(x_{t-1}))^{2} $$ $$ x_{t} = x_{t-1} - \frac{\eta}{\sqrt{g_{t} + \epsi..
