๋ฐ์ํ
250x250
Notice
Recent Posts
- Today
- Total
๋ชฉ๋ก๋ฅ๋ฌ๋ optimizer (1)
DATA101
1. ๊ฐ๋ Adaptive Moment Estimation(Adam)์ ๋ฅ๋ฌ๋ ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋๋ก์จ Momentum๊ณผ RMSProp์ ์ฅ์ ์ ๊ฒฐํฉํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ์ฆ, ํ์ต์ ๋ฐฉํฅ๊ณผ ํฌ๊ธฐ(=Learning rate)๋ฅผ ๋ชจ๋ ๊ฐ์ ํ ๊ธฐ๋ฒ์ผ๋ก ๋ฅ๋ฌ๋์์ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋์ด "์ค๋" ์ต์ ํ ๊ธฐ๋ฒ์ผ๋ก ์๋ ค์ ธ ์์ต๋๋ค. ์ต๊ทผ์๋ RAdam, AdamW๊ณผ ๊ฐ์ด ๋์ฑ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ ์ต์ ํ ๊ธฐ๋ฒ์ด ์ ์๋์์ง๋ง, ๋ณธ ํฌ์คํ ์์๋ ๋ฅ๋ฌ๋ ๋ถ์ผ ์ ๋ฐ์ ๊ณต๋ถํ๋ ๋ง์๊ฐ์ง์ผ๋ก Adam์ ๋ํด ์์๋ด ๋๋ค.2. ์์์์๊ณผ ํจ๊ป Adam์ ๋ํด ์์ธํ ์์๋ณด๊ฒ ์ต๋๋ค. $$ m_{t} = \beta_{1} m_{t-1} + (1 - \beta_{1}) \nabla f(x_{t-1}) $$$$ g_{t} = \beta_{..
AI & ๋น
๋ฐ์ดํฐ/๋จธ์ ๋ฌ๋·๋ฅ๋ฌ๋
2022. 5. 21. 10:36