- Today
- Total
๋ชฉ๋กdeep learning (3)
DATA101
๐ ๋ชฉ์ฐจ 1. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ๊ฐ๋ 2. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ์ข ๋ฅ 2.1. ๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ 2.2. ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ 2.3. ๋ฏธ๋ ๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ 1. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ๊ฐ๋ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ด๋ ๋ฅ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ ํ์ต ์ ์ฌ์ฉ๋๋ ์ต์ ํ ๋ฐฉ๋ฒ(Optimizer) ์ค ํ๋์ ๋๋ค. ๋ฅ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ ํ์ต ์ ๋ชฉํ๋ ์์ธก๊ฐ๊ณผ ์ ๋ต๊ฐ ๊ฐ์ ์ฐจ์ด์ธ ์์ค ํจ์์ ํฌ๊ธฐ๋ฅผ ์ต์ํ์ํค๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๊ฒ์ ๋๋ค. ํ์ต ๋ฐ์ดํฐ ์ ๋ ฅ์ ๋ณ๊ฒฝํ ์ ์๊ธฐ ๋๋ฌธ์, ์์ค ํจ์ ๊ฐ์ ๋ณํ์ ๋ฐ๋ผ ๊ฐ์ค์น(weight) ํน์ ํธํฅ(bias)์ ์ ๋ฐ์ดํธํด์ผ ํฉ๋๋ค. ๊ทธ๋ผ ์ด๋ป๊ฒ ์ต์ ์ ๊ฐ์ค์น๋ ํธํฅ์ ์ฐพ์ ์ ์์๊น์? ์ต์ ์ ๊ฐ์ค์น๋ฅผ ์ฐพ๋ ๊ณผ์ ์ ์๊ฐํฉ๋๋ค. ์ต์ ์ ํธํฅ์ ์ฐพ๋ ๊ณผ์ ์ญ์ ์ ์ฐจ๋ ๋์ผํฉ๋๋ค. ์๋์ ๊ทธ..
๋ณธ ํฌ์คํ ์์๋ ๋ฅ๋ฌ๋ ์ต์ ํ(optimizer) ๊ธฐ๋ฒ ์ค ํ๋์ธ Momentum์ ๊ฐ๋ ์ ๋ํด ์์๋ด ๋๋ค. ๋จผ์ , Momentum ๊ธฐ๋ฒ์ด ์ ์๋ ๋ฐฐ๊ฒฝ์ธ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ ํ๊ณ์ ์ ๋ํด ๋ค๋ฃจ๊ณ ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.๐ ๋ชฉ์ฐจ1. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํ๊ณ 1.1. Local Minimum ๋ฌธ์ 1.2. Saddle Point ๋ฌธ์ 2. Momentum 2.1. ๊ฐ๋ 2.2. ์์1. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํ๊ณ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ ํฌ๊ฒ 2๊ฐ์ง ํ๊ณ์ ์ด ์์ต๋๋ค. ์ฒซ์งธ, Local Minimum์ ๋น ์ง๊ธฐ ์ฝ๋ค๋ ์ . ๋์งธ, ์์ฅ์ (Saddle point)๋ฅผ ๋ฒ์ด๋์ง ๋ชปํ๋ค๋ ์ . ๊ฐ๊ฐ์ ๋ํด ์์๋ด ๋๋ค.1.1. Local Minimum..
๐ก ๋ชฉํ ์์ค ํจ์์ ๊ฐ๋ ๊ณผ ์๊ณ ๋ฆฌ์ฆ ํ์ต์ ์ํ์ ์๋ฏธ์ ๋ํด ์์๋ด ๋๋ค. 1. ์์ค ํจ์์ ๊ฐ๋ ์์ค ํจ์(Loss Function)๋ ์ง๋ํ์ต(Supervised Learning) ์ ์๊ณ ๋ฆฌ์ฆ์ด ์์ธกํ ๊ฐ๊ณผ ์ค์ ์ ๋ต์ ์ฐจ์ด๋ฅผ ๋น๊ตํ๊ธฐ ์ํ ํจ์์ ๋๋ค. ์ฆ, 'ํ์ต ์ค์ ์๊ณ ๋ฆฌ์ฆ์ด ์ผ๋ง๋ ์๋ชป ์์ธกํ๋ ์ ๋'๋ฅผ ํ์ธํ๊ธฐ ์ํ ํจ์๋ก์จ ์ต์ ํ(Optimization)๋ฅผ ์ํด ์ต์ํํ๋ ๊ฒ์ด ๋ชฉ์ ์ธ ํจ์์ ๋๋ค. ๊ทธ๋์ ์์ค ํจ์๋ฅผ ๋ชฉ์ ํจ์(Objective Function)๋ผ๊ณ ๋ ๋ถ๋ฆ ๋๋ค. ์ด์ธ์๋ ์์ค ํจ์๋ ๋ถ์ผ์ ๋ฐ๋ผ ๋น์ฉ ํจ์(Cost Function), ์๋์ง ํจ์(Energy Function) ๋ฑ์ผ๋ก ๋ค์ํ๊ฒ ๋ถ๋ฅด๊ธฐ๋ ํฉ๋๋ค. ์์ค ํจ์๋ฅผ ํตํด ๋ชจ๋ธ ํ์ต ์ค์ ์์ค(loss)์ด ์ปค์ง์๋ก ํ..