- Today
- Total
๋ชฉ๋ก์ธ๊ณต์ง๋ฅ (14)
DATA101
๐ ๋ชฉ์ฐจ 1. Batch Size 2. Iteration 3. Epoch 1. Batch Size Batch ํฌ๊ธฐ๋ ๋ชจ๋ธ ํ์ต ์ค parameter๋ฅผ ์ ๋ฐ์ดํธํ ๋ ์ฌ์ฉํ ๋ฐ์ดํฐ ๊ฐ์๋ฅผ ์๋ฏธํฉ๋๋ค. ์ฌ๋์ด ๋ฌธ์ ํ์ด๋ฅผ ํตํด ํ์ตํด ๋๊ฐ๋ ๊ณผ์ ์ ์๋ก ๋ค์ด๋ณด๊ฒ ์ต๋๋ค. Batch ํฌ๊ธฐ๋ ๋ช ๊ฐ์ ๋ฌธ์ ๋ฅผ ํ ๋ฒ์ ์ญ ํ๊ณ ์ฑ์ ํ ์ง๋ฅผ ๊ฒฐ์ ํ๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ด 100๊ฐ์ ๋ฌธ์ ๊ฐ ์์ ๋, 20๊ฐ์ฉ ํ๊ณ ์ฑ์ ํ๋ค๋ฉด Batch ํฌ๊ธฐ๋ 20์ ๋๋ค. ์ฌ๋์ ๋ฌธ์ ๋ฅผ ํ๊ณ ์ฑ์ ์ ํ๋ฉด์ ๋ฌธ์ ๋ฅผ ํ๋ฆฐ ์ด์ ๋ ๋ง์ถ ์๋ฆฌ๋ฅผ ํ์ตํ์ฃ . ๋ฅ๋ฌ๋ ๋ชจ๋ธ ์ญ์ ๋ง์ฐฌ๊ฐ์ง์ ๋๋ค. Batch ํฌ๊ธฐ๋งํผ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ๋ชจ๋ธ์ด ์์ธกํ ๊ฐ๊ณผ ์ค์ ์ ๋ต ๊ฐ์ ์ค์ฐจ(conf. ์์คํจ์)๋ฅผ ๊ณ์ฐํ์ฌ Optimizer๊ฐ parameter๋ฅผ..
1. ๊ฐ๋ RMSProp๋ ๋ฅ๋ฌ๋ ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋๋ก์จ Root Mean Sqaure Propagation์ ์ฝ์๋ก, ์์ ์์คํ๋กญ(R.M.S.Prop)์ด๋ผ๊ณ ์ฝ์ต๋๋ค.โ๋ฑ์ฅ๋ฐฐ๊ฒฝ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋์ธ AdaGrad๋ ํ์ต์ด ์งํ๋ ๋ ํ์ต๋ฅ (Learning rate)์ด ๊พธ์คํ ๊ฐ์ํ๋ค ๋์ค์๋ \(0\)์ผ๋ก ์๋ ดํ์ฌ ํ์ต์ด ๋ ์ด์ ์งํ๋์ง ์๋๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค. RMSProp์ ์ด๋ฌํ ํ๊ณ์ ์ ๋ณด์ํ ์ต์ ํ ๊ธฐ๋ฒ์ผ๋ก์จ ์ ํ๋ฆฌ ํํผ ๊ต์๊ฐ Coursea ๊ฐ์ ์ค์ ๋ฐํํ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.๐ ์๋ฆฌRMSProp์ AdaGrad์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ณ์(feature)๋ณ๋ก ํ์ต๋ฅ ์ ์กฐ์ ํ๋ ๊ธฐ์ธ๊ธฐ ์ ๋ฐ์ดํธ ๋ฐฉ์์์ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ์ด์ time step์์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋จ์ํ ๊ฐ์ ๋น์จ๋ก ๋์ ํ์ง ์๊ณ ์ง์์ด๋..
๐ ๋ชฉ์ฐจ 1. ๊ฐ๋ 2. ์ฅ์ 3. ๋จ์ 1. ๊ฐ๋ AdaGrad๋ ๋ฅ๋ฌ๋ ์ต์ ํ ๊ธฐ๋ฒ ์ค ํ๋๋ก์จ Adaptive Gradient์ ์ฝ์์ด๊ณ , ์ ์์ ๊ธฐ์ธ๊ธฐ๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. Feature๋ง๋ค ์ค์๋, ํฌ๊ธฐ ๋ฑ์ด ์ ๊ฐ๊ฐ์ด๊ธฐ ๋๋ฌธ์ ๋ชจ๋ Feature๋ง๋ค ๋์ผํ ํ์ต๋ฅ ์ ์ ์ฉํ๋ ๊ฒ์ ๋นํจ์จ์ ์ ๋๋ค. ์ด๋ฌํ ๊ด์ ์์ AdaGrad ๊ธฐ๋ฒ์ด ์ ์๋์์ต๋๋ค. AdaGrad๋ Feature๋ณ๋ก ํ์ต๋ฅ (Learning rate)์ Adaptiveํ๊ฒ, ์ฆ ๋ค๋ฅด๊ฒ ์กฐ์ ํ๋ ๊ฒ์ด ํน์ง์ ๋๋ค. AdaGrad๋ฅผ ์์์ผ๋ก ๋ํ๋ด๋ฉด ์๋์ ๊ฐ์ต๋๋ค. $$ g_{t} = g_{t-1} + (\nabla f(x_{t-1}))^{2} $$ $$ x_{t} = x_{t-1} - \frac{\eta}{\sqrt{g_{t} + \epsi..
๐ก ๋ชฉํ ํ๊ท ์ ๋์ค์ฐจ(MAE)์ ๊ฐ๋ ๋ฐ ํน์ง์ ๋ํด ์์๋ด ๋๋ค. 1. MAE ๊ฐ๋ ํ๊ท ์ ๋์ค์ฐจ(Mean Absolute Error, MAE)๋ ๋ชจ๋ ์ ๋ ์ค์ฐจ(Error)์ ํ๊ท ์ ๋๋ค. ์ฌ๊ธฐ์ ์ค์ฐจ๋ ์๊ณ ๋ฆฌ์ฆ์ด ์์ธกํ ๊ฐ๊ณผ ์ค์ ์ ๋ต๊ณผ์ ์ฐจ์ด๋ฅผ ์๋ฏธํฉ๋๋ค. ์ฆ, ์๊ณ ๋ฆฌ์ฆ์ด ์ ๋ต์ ์ ๋งํ์๋ก MSE ๊ฐ์ ์์ต๋๋ค. ๋ฐ๋ผ์, MAE๊ฐ ์์์๋ก ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๋ฅ์ด ์ข๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค. MAE์ ์์์ ์ดํด๋ณด๊ฒ ์ต๋๋ค. $$ E = \sum_{i}|y_{i} -\tilde{y_{i}}| $$ \(E\): ์์ค ํจ์ \(y_i\): \(i\)๋ฒ์งธ ํ์ต ๋ฐ์ดํฐ์ ์ ๋ต \(\tilde{y_i}\): \(i\)๋ฒ์งธ ํ์ต ๋ฐ์ดํฐ๋ก ์์ธกํ ๊ฐ 2. MAE ํน์ง 2.1. ์ค์ฐจ์ ๋น๋กํ๋ ์์ค ํจ์ MAE๋ ์์ค ํจ์๊ฐ ..
๋ณธ ํฌ์คํ ์์๋ ํต๊ณํ์ ์ธ์ด ๋ชจ๋ธ์ ๊ฐ๋ ๋ฐ ํน์ง์ ๋ํด ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. ๊ฐ๋ 2. ํ๋ฅ ์ ํํ 3. ์ ์ฉ๋ถ์ผ1. ๊ฐ๋ 1.1. ๊ฐ์์ธ์ด ๋ชจ๋ธ(Language Model)์ ๋ฌธ์ฅ์ด ์ผ๋ง๋ ์์ฐ์ค๋ฌ์ด์ง ํ๋ฅ ์ ์ผ๋ก ๊ณ์ฐํจ์ผ๋ก์จ ๋ฌธ์ฅ ๋ด ํน์ ์์น์ ์ถํํ๊ธฐ ์ ํฉํ ๋จ์ด๋ฅผ ํ๋ฅ ์ ์ผ๋ก ์์ธกํ๋ ๋ชจ๋ธ์ ๋๋ค. ๋์ฑ ์ฝ๊ฒ ์ค๋ช ํ์๋ฉด, ์ธ์ด ๋ชจ๋ธ์ ๋ฌธ์ฅ ๋ด ์์ ๋ฑ์ฅํ ๋จ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ์ด๋ค ๋จ์ด๊ฐ ๋ฑ์ฅํด์ผ ๋ฌธ์ฅ์ด ์์ฐ์ค๋ฌ์ด์ง ํ๋จํ๋ ๋๊ตฌ์ ๋๋ค.์ธ์ด ๋ชจ๋ธ์ ํฌ๊ฒ ํต๊ณํ์ ์ธ์ด ๋ชจ๋ธ๊ณผ ์ธ๊ณต์ ๊ฒฝ๋ง ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ด ์์ต๋๋ค. ์ต๊ทผ์๋ BERT, GPT-3์ ๊ฐ์ ์ธ๊ณต์ ๊ฒฝ๋ง ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๋๋ถ๋ถ์ ์์ฐ์ด์ฒ๋ฆฌ ๋ฌธ์ ์์๋ ์ธ๊ณต์ ๊ฒฝ๋ง ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. ๋ณธ ํฌ์คํ ์์๋ ํต๊ณํ ..
๋ณธ ํฌ์คํ ์์๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ด๊ธฐ ํํ์ด์ ๊ตฌ์ฑ ์์์ธ ํผ์ ํธ๋ก (Perceptron)์ ๊ฐ๋ ์ ๋ํด ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. ํผ์ ํธ๋ก ๊ฐ์ 2. ์๋ฌผํ ๋ด๋ฐ์ ์ญํ ๊ณผ ๋์๊ณผ์ 3. ํผ์ ํธ๋ก ์ ์ญํ ๊ณผ ๋์๊ณผ์ 4. ํผ์ ํธ๋ก ์ ์ข ๋ฅ 4.1. ๋จ์ธต ํผ์ ํธ๋ก 4.2. ๋ค์ธต ํผ์ ํธ๋ก 1. ํผ์ ํธ๋ก (Perceptron) ๊ฐ์ํผ์ ํธ๋ก (Perceptron)์ ์ธ๊ณต ์ ๊ฒฝ๋ง(Aritificial Neural Network, ANN)์ ๊ตฌ์ฑ ์์(unit)๋ก์ ๋ค์์ ๊ฐ์ ์ ๋ ฅ๋ฐ์ ํ๋์ ๊ฐ์ผ๋ก ์ถ๋ ฅํ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. Perceptron์ perception๊ณผ neuron์ ํฉ์ฑ์ด์ด๋ฉฐ ์ธ๊ณต ๋ด๋ฐ์ด๋ผ๊ณ ๋ ๋ถ๋ฆ ๋๋ค. ์ฆ, ํผ์ ํธ๋ก ์ ์๋ฌผํ์ ์ธ ์ ๊ฒฝ๊ณ(Neual Network)์ ๊ธฐ๋ณธ ๋จ์์ธ ์ ๊ฒฝ์ธํฌ(=๋ด๋ฐ)์ ๋์..
