- Today
- Total
๋ชฉ๋ก๋ฅ๋ฌ๋ (17)
DATA101

๐ ๋ชฉ์ฐจ 1. RNN ๊ฐ๋ 2. RNN ์์ 3. RNN ์ฉ๋ 1. RNN ๊ฐ๋ Recurrent Neural Network(RNN)์ ์์ฐ์ด ๋ฌธ์ฅ๊ณผ ๊ฐ์ด ๋จ์ด์ ์์์ ๋ฐ๋ผ ์๋ฏธ๊ฐ ๋ฌ๋ผ์ง๋ ์์ฐจ ๋ฐ์ดํฐ(Sequential Data)๋ฅผ ๋ค๋ฃฐ ๋ ์ฃผ๋ก ์ฌ์ฉ๋๋ ์ ๊ฒฝ๋ง์ ๋๋ค. ๋ฐ๋ผ์ RNN์ ๋จ์ด์ ์ด์์ ๋ฐ๋ผ ๋ฌธ์ฅ์ ์๋ฏธ๊ฐ ๋ฌ๋ผ์ง๊ณ ์์ ์ด๋ค ๋จ์ด๊ฐ ์ฐ์๋์ง ๊ธฐ์ตํด์ผ ๋ค์ ์ค๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฑ์ ๋ฌธ์ ๋ฅผ ํ ๋ ์ฃผ๋ก ํ์ฉ๋ฉ๋๋ค. RNN์ Hidden Layer์ ๋ ธ๋์์ ํ์ฑํ ํจ์(Activation Function)๋ฅผ ๊ฑฐ์ณ ๋์จ ๊ฒฐ๊ด๊ฐ์ Output Layer๋ก ๋ณด๋ด๋ฉด์ ๋ค์ ๋ค์ Hidden Layer ๋ ธ๋ ๊ณ์ฐ์ ์ ๋ ฅ๊ฐ์ผ๋ก ๋ณด๋ด๋ ์ ๊ฒฝ๋ง์ ๋๋ค. ์ด์ฒ๋ผ, ๊ฒฐ๊ด๊ฐ์ด ๋ค์ Hidden Layer ๋ ธ๋์..

๐ ๋ค์ด๊ฐ๋ฉฐ ๋ณธ ํฌ์คํ ์์๋ ๋ฅ๋ฌ๋ Generalization ๊ธฐ๋ฒ ์ค ํ๋์ธ ๋ฐฐ์น ์ ๊ทํ(Batch Normalization)์ ๋ํด ์์๋ด ๋๋ค. ๋จผ์ , ๋ฐ์ดํฐ ์ ๊ทํ์ ํ์์ฑ์ ๋ํด ์์๋ณด๊ณ , Batch Normalization์ ๋ฑ์ฅ ๋ฐฐ๊ฒฝ์ธInternal Covariate Shift ํ์์ ๋ํด ์๊ฐํฉ๋๋ค. ์ดํ Batch Normalization์ ๊ฐ๋ ๊ณผ ํน์ง์ ๋ํด ์์๋ณด๊ฒ ์ต๋๋ค. ๐ ๋ชฉ์ฐจ 1. ๋ฐ์ดํฐ ์ ๊ทํ 1.1. ๊ฐ๋ 1.2. ํ์์ฑ 2. Internal Covariate Shift ํ์ 2.1. ๊ฐ๋ 2.2. ๋ฌธ์ ์ 3. Batch Normalization 3.1. ๊ฐ๋ 3.2. ์ฅ์ 3.3. ๋จ๊ณ๋ณ Batch Normalization 1. ๋ฐ์ดํฐ ์ ๊ทํ 1.1. ๊ฐ๋ ๋ฐ์ดํฐ ์ ๊ทํ(No..

๐จ๐ป ๋ค์ด๊ฐ๋ฉฐ ๋ณธ ํฌ์คํ ์์๋ ๋ฅ๋ฌ๋ ๋ถ์ผ์์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ ๋ฐฉ๋ฒ 3๊ฐ์ง์ธ Grid Search, Random Search, Bayesian Optimization์ ๋ํด ์์๋ด ๋๋ค. ๐ ๋ชฉ์ฐจ 1. Grid Search 2. Random Search 3. Bayesian Optimization 1. Grid Search ๊ทธ๋ฆฌ๋ ์์น(Grid Search)๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ผ์ ํ ๊ฐ๊ฒฉ์ผ๋ก ๋ณ๊ฒฝํ๋ฉฐ ์ต์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ์๊ฐ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์๋์ ๊ทธ๋ฆผ 1์ฒ๋ผ ๊ฐ๋ก์ถ์ด ํ์ดํผํ๋ผ๋ฏธํฐ์ด๊ณ ์ธ๋ก์ถ์ด ๋ชฉํํจ์์ผ ๋, ๋ชฉํํจ์ ๊ฐ์ด ์ต๋๊ฐ ๋๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๋ฌธ์ ๋ฅผ ํ์ด์ผ ํ๋ค๊ณ ๊ฐ์ ํด ๋ณด๊ฒ ์ต๋๋ค. ๊ทธ๋ฆฌ๋ ์์น๋ ํน์ ๋ฒ์ ๋ด์์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ผ์ ๊ฐ๋งํผ ์ผ์ผ์ด ๋ณ๊ฒฝํ๋ฉฐ ์ถ๋ ฅ๊ฐ์ ๋น๊ตํ๋ ๋ฐฉ์์ผ๋ก..

๐ ๋ชฉ์ฐจ1. ๊ธฐ์ธ๊ธฐ ์์ค์ ์๋ฏธ2. ๊ธฐ์ธ๊ธฐ ์์ค์ ์์ธ3. ๊ธฐ์ธ๊ธฐ ์์ค์ ํด๊ฒฐ๋ฐฉ๋ฒ1. ๊ธฐ์ธ๊ธฐ ์์ค์ ์๋ฏธ๋ฅ๋ฌ๋ ๋ถ์ผ์์ Layer๋ฅผ ๋ง์ด ์์์๋ก ๋ฐ์ดํฐ ํํ๋ ฅ์ด ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์ ํ์ต์ด ์ ๋ ๊ฒ ๊ฐ์ง๋ง, ์ค์ ๋ก๋ Layer๊ฐ ๋ง์์ง์๋ก ํ์ต์ด ์ ๋์ง ์์ต๋๋ค. ๋ฐ๋ก ๊ธฐ์ธ๊ธฐ ์์ค(Vanishing Gradient) ํ์๋๋ฌธ์ ๋๋ค. ๊ธฐ์ธ๊ธฐ ์์ค์ด๋ ์ญ์ ํ(Backpropagation) ๊ณผ์ ์์ ์ถ๋ ฅ์ธต์์ ๋ฉ์ด์ง์๋ก Gradient ๊ฐ์ด ๋งค์ฐ ์์์ง๋ ํ์์ ๋งํฉ๋๋ค(๊ทธ๋ฆผ 1 ์ฐธ๊ณ ). ๊ทธ๋ ๋ค๋ฉด ์ ์ด๋ฐ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๊ฐ ๋ฐ์ํ ๊น์? ์ด์ด์ง๋ ์น์ ์์ ์์ธํ ์์๋ด ๋๋ค. 2. ๊ธฐ์ธ๊ธฐ ์์ค์ ์์ธ๊ธฐ์ธ๊ธฐ ์์ค์ ๋ฐ์ ์์ธ์ ํ์ฑํ ํจ์(Activation Function)์ ๊ธฐ์ธ๊ธฐ์ ๊ด๋ จ์ด ๊น์ต๋๋ค..

๐ ๋ชฉ์ฐจ 1. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ๊ฐ๋ 2. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ์ข ๋ฅ 2.1. ๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ 2.2. ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ 2.3. ๋ฏธ๋ ๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ 1. ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ๊ฐ๋ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Gradient Descent)์ด๋ ๋ฅ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ ํ์ต ์ ์ฌ์ฉ๋๋ ์ต์ ํ ๋ฐฉ๋ฒ(Optimizer) ์ค ํ๋์ ๋๋ค. ๋ฅ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ ํ์ต ์ ๋ชฉํ๋ ์์ธก๊ฐ๊ณผ ์ ๋ต๊ฐ ๊ฐ์ ์ฐจ์ด์ธ ์์ค ํจ์์ ํฌ๊ธฐ๋ฅผ ์ต์ํ์ํค๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๊ฒ์ ๋๋ค. ํ์ต ๋ฐ์ดํฐ ์ ๋ ฅ์ ๋ณ๊ฒฝํ ์ ์๊ธฐ ๋๋ฌธ์, ์์ค ํจ์ ๊ฐ์ ๋ณํ์ ๋ฐ๋ผ ๊ฐ์ค์น(weight) ํน์ ํธํฅ(bias)์ ์ ๋ฐ์ดํธํด์ผ ํฉ๋๋ค. ๊ทธ๋ผ ์ด๋ป๊ฒ ์ต์ ์ ๊ฐ์ค์น๋ ํธํฅ์ ์ฐพ์ ์ ์์๊น์? ์ต์ ์ ๊ฐ์ค์น๋ฅผ ์ฐพ๋ ๊ณผ์ ์ ์๊ฐํฉ๋๋ค. ์ต์ ์ ํธํฅ์ ์ฐพ๋ ๊ณผ์ ์ญ์ ์ ์ฐจ๋ ๋์ผํฉ๋๋ค. ์๋์ ๊ทธ..

๐ ๋ชฉ์ฐจ 1. Batch Size 2. Iteration 3. Epoch 1. Batch Size Batch ํฌ๊ธฐ๋ ๋ชจ๋ธ ํ์ต ์ค parameter๋ฅผ ์ ๋ฐ์ดํธํ ๋ ์ฌ์ฉํ ๋ฐ์ดํฐ ๊ฐ์๋ฅผ ์๋ฏธํฉ๋๋ค. ์ฌ๋์ด ๋ฌธ์ ํ์ด๋ฅผ ํตํด ํ์ตํด ๋๊ฐ๋ ๊ณผ์ ์ ์๋ก ๋ค์ด๋ณด๊ฒ ์ต๋๋ค. Batch ํฌ๊ธฐ๋ ๋ช ๊ฐ์ ๋ฌธ์ ๋ฅผ ํ ๋ฒ์ ์ญ ํ๊ณ ์ฑ์ ํ ์ง๋ฅผ ๊ฒฐ์ ํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ด 100๊ฐ์ ๋ฌธ์ ๊ฐ ์์ ๋, 20๊ฐ์ฉ ํ๊ณ ์ฑ์ ํ๋ค๋ฉด Batch ํฌ๊ธฐ๋ 20์ ๋๋ค. ์ฌ๋์ ๋ฌธ์ ๋ฅผ ํ๊ณ ์ฑ์ ์ ํ๋ฉด์ ๋ฌธ์ ๋ฅผ ํ๋ฆฐ ์ด์ ๋ ๋ง์ถ ์๋ฆฌ๋ฅผ ํ์ตํ์ฃ . ๋ฅ๋ฌ๋ ๋ชจ๋ธ ์ญ์ ๋ง์ฐฌ๊ฐ์ง์ ๋๋ค. Batch ํฌ๊ธฐ๋งํผ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ๋ชจ๋ธ์ด ์์ธกํ ๊ฐ๊ณผ ์ค์ ์ ๋ต ๊ฐ์ ์ค์ฐจ(conf. ์์คํจ์)๋ฅผ ๊ณ์ฐํ์ฌ Optimizer๊ฐ parameter๋ฅผ..

1. ๊ฐ๋ Adaptive Moment Estimation(Adam)์ ๋ฅ๋ฌ๋ ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋๋ก์จ Momentum๊ณผ RMSProp์ ์ฅ์ ์ ๊ฒฐํฉํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ์ฆ, ํ์ต์ ๋ฐฉํฅ๊ณผ ํฌ๊ธฐ(=Learning rate)๋ฅผ ๋ชจ๋ ๊ฐ์ ํ ๊ธฐ๋ฒ์ผ๋ก ๋ฅ๋ฌ๋์์ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋์ด "์ค๋" ์ต์ ํ ๊ธฐ๋ฒ์ผ๋ก ์๋ ค์ ธ ์์ต๋๋ค. ์ต๊ทผ์๋ RAdam, AdamW๊ณผ ๊ฐ์ด ๋์ฑ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ ์ต์ ํ ๊ธฐ๋ฒ์ด ์ ์๋์์ง๋ง, ๋ณธ ํฌ์คํ ์์๋ ๋ฅ๋ฌ๋ ๋ถ์ผ ์ ๋ฐ์ ๊ณต๋ถํ๋ ๋ง์๊ฐ์ง์ผ๋ก Adam์ ๋ํด ์์๋ด ๋๋ค.2. ์์์์๊ณผ ํจ๊ป Adam์ ๋ํด ์์ธํ ์์๋ณด๊ฒ ์ต๋๋ค. $$ m_{t} = \beta_{1} m_{t-1} + (1 - \beta_{1}) \nabla f(x_{t-1}) $$$$ g_{t} = \beta_{..

1. ๊ฐ๋ RMSProp๋ ๋ฅ๋ฌ๋ ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋๋ก์จ Root Mean Sqaure Propagation์ ์ฝ์๋ก, ์์ ์์คํ๋กญ(R.M.S.Prop)์ด๋ผ๊ณ ์ฝ์ต๋๋ค.โ๋ฑ์ฅ๋ฐฐ๊ฒฝ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋์ธ AdaGrad๋ ํ์ต์ด ์งํ๋ ๋ ํ์ต๋ฅ (Learning rate)์ด ๊พธ์คํ ๊ฐ์ํ๋ค ๋์ค์๋ \(0\)์ผ๋ก ์๋ ดํ์ฌ ํ์ต์ด ๋ ์ด์ ์งํ๋์ง ์๋๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค. RMSProp์ ์ด๋ฌํ ํ๊ณ์ ์ ๋ณด์ํ ์ต์ ํ ๊ธฐ๋ฒ์ผ๋ก์จ ์ ํ๋ฆฌ ํํผ ๊ต์๊ฐ Coursea ๊ฐ์ ์ค์ ๋ฐํํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.๐ ์๋ฆฌRMSProp์ AdaGrad์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ณ์(feature)๋ณ๋ก ํ์ต๋ฅ ์ ์กฐ์ ํ๋ ๊ธฐ์ธ๊ธฐ ์ ๋ฐ์ดํธ ๋ฐฉ์์์ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ์ด์ time step์์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋จ์ํ ๊ฐ์ ๋น์จ๋ก ๋์ ํ์ง ์๊ณ ์ง์์ด๋..