- Today
- Total
๋ชฉ๋กlocal minimum (2)
DATA101
 [Deep Learning] ์ต์ ํ(Optimizer): (1) Momentum
      
      
        [Deep Learning] ์ต์ ํ(Optimizer): (1) Momentum
        ๋ณธ ํฌ์คํ ์์๋ ๋ฅ๋ฌ๋ ์ต์ ํ(optimizer) ๊ธฐ๋ฒ ์ค ํ๋์ธ Momentum์ ๊ฐ๋ ์ ๋ํด ์์๋ด ๋๋ค. ๋จผ์ , Momentum ๊ธฐ๋ฒ์ด ์ ์๋ ๋ฐฐ๊ฒฝ์ธ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ ํ๊ณ์ ์ ๋ํด ๋ค๋ฃจ๊ณ ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.๐ ๋ชฉ์ฐจ1. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํ๊ณ 1.1. Local Minimum ๋ฌธ์  1.2. Saddle Point ๋ฌธ์ 2. Momentum 2.1. ๊ฐ๋  2.2. ์์1. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํ๊ณ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ ํฌ๊ฒ 2๊ฐ์ง ํ๊ณ์ ์ด ์์ต๋๋ค. ์ฒซ์งธ, Local Minimum์ ๋น ์ง๊ธฐ ์ฝ๋ค๋ ์ . ๋์งธ, ์์ฅ์ (Saddle point)๋ฅผ ๋ฒ์ด๋์ง ๋ชปํ๋ค๋ ์ . ๊ฐ๊ฐ์ ๋ํด ์์๋ด ๋๋ค.1.1. Local Minimum..
 [Deep Learning] ์ต์ ํ ๊ฐ๋
๊ณผ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)
      
      
        [Deep Learning] ์ต์ ํ ๊ฐ๋
๊ณผ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)
        ๐ ๋ชฉ์ฐจ1. ์ต์ ํ ๊ฐ๋  2. ๊ธฐ์ธ๊ธฐ ๊ฐ๋  3. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ๊ฐ๋  4. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํ๊ณ1. ์ต์ ํ ๊ฐ๋ ๋ฅ๋ฌ๋ ๋ถ์ผ์์ ์ต์ ํ(Optimization)๋ ์์ค ํจ์(Loss Function) ๊ฐ์ ์ต์ํํ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ตฌํ๋ ๊ณผ์ ์ ๋๋ค(์๋ ๊ทธ๋ฆผ 1 ์ฐธ๊ณ ). ๋ฅ๋ฌ๋์์๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅํ์ฌ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ๊ฑฐ์ณ ์์ธก๊ฐ(\(\hat{y}\))์ ์ป์ต๋๋ค. ์ด ์์ธก๊ฐ๊ณผ ์ค์  ์ ๋ต(\(y\))๊ณผ์ ์ฐจ์ด๋ฅผ ๋น๊ตํ๋ ํจ์๊ฐ ์์ค ํจ์์ ๋๋ค. ์ฆ, ๋ชจ๋ธ์ด ์์ธกํ ๊ฐ๊ณผ ์ค์ ฏ๊ฐ์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋ ๋คํธ์ํฌ ๊ตฌ์กฐ์ ํ๋ผ๋ฏธํฐ(a.k.a., Feature)๋ฅผ ์ฐพ๋ ๊ณผ์ ์ด ์ต์ ํ์ ๋๋ค. ์ต์ ํ ๊ธฐ๋ฒ์๋ ์ฌ๋ฌ ๊ฐ์ง๊ฐ ์์ผ๋ฉฐ, ๋ณธ ํฌ์คํ ์์๋ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ ๋ํด ์์๋ด ๋๋ค.2. ๊ธฐ์ธ๊ธฐ ๊ฐ๋ ..