- Today
- Total
๋ชฉ๋กWord2Vec (4)
DATA101
๐๋ชฉ์ฐจ1. ๋ฑ์ฅ๋ฐฐ๊ฒฝ2. ๊ฐ๋ 3. Sample ์ ์ 4. Word2Vec ์ฑ๋ฅ1. ๋ฑ์ฅ ๋ฐฐ๊ฒฝNegative Sampling ๋ฐฉ๋ฒ์ Word2Vec์ CBOW์ Skip-gram ๋ชจ๋ ๋จ์ด ๊ฐ์๊ฐ ๋ง์์ง์๋ก ๊ณ์ฐ ๋ณต์ก๋๊ฐ ์ฆ๊ฐํ์ฌ ์ฐ์ฐ ์๋๊ฐ ์ ํ๋๋ค๋ ํ๊ณ์ ์ ๋ณด์ํ๊ธฐ ์ํด ์ ์๋์์ต๋๋ค. CBOW์ Skip-gram์ ๋ชฉ์ ํจ์๋ ์๋์ ๊ฐ์ต๋๋ค. $$ \mathcal{L}_{CBOW} = -\sum_{j=1}^{|V|}y_{j}log(\hat{y}) $$ $$ \mathcal{L}_{Skip-gram} = -\sum_{j=0, j\ne{m}}^{2m}\sum_{k=1}^{|V|}y_{k}^{(c-j)}\log\hat{y_{k}}^{(c-j)} $$ ์์์์ ์ ์ ์๋ฏ์ด, CBOW์ Skip-..
๐๋ชฉ์ฐจ1. ํ์ต ๋ฐ์ดํฐ์ ์์ฑ 2. ์ธ๊ณต์ ๊ฒฝ๋ง ๋ชจํ 3. ํ์ต ๊ณผ์ 4. CBOW vs Skip-gram5. ํ๊ณ์ ๋ค์ด๊ฐ๋ฉฐWord2Vec๋ ํ์ต๋ฐฉ์์ ๋ฐ๋ผ ํฌ๊ฒ \(2\)๊ฐ์ง๋ก ๋๋ ์ ์์ต๋๋ค: Continuous Bag of Words(CBOW)์ Skip-gram. CBOW๋ ์ฃผ๋ณ ๋จ์ด(Context Word)๋ก ์ค๊ฐ์ ์๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ฌ๊ธฐ์ ์ค๊ฐ์ ์๋ ๋จ์ด๋ฅผ ์ค์ฌ ๋จ์ด(Center Word) ๋๋ ํ๊ฒ ๋จ์ด(Target Word)๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ๋ฐ๋๋ก, Skip-gram์ ์ค์ฌ ๋จ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ฃผ๋ณ ๋จ์ด๋ค์ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ ํ์ฐ๊ตฌ๋ค์ ๋ฐ๋ฅด๋ฉด, ๋์ฒด๋ก Skip-gram์ด CBOW๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํ๋ค๊ณ ์๋ ค์ ธ ์๋๋ฐ, ์ด์ ๋ํ ์์ธํ ๋ด์ฉ์ ๋ณธ ํฌ์คํ ์ 'Chapter 4..
๐๋ชฉ์ฐจ1. ํ์ต ๋ฐ์ดํฐ์ ์์ฑ 2. ์ธ๊ณต์ ๊ฒฝ๋ง ๋ชจํ 3. ํ์ต ์ ์ฐจ4. CBOW vs Skip-gram5. ํ๊ณ์ ๋ค์ด๊ฐ๋ฉฐWord2Vec๋ ํ์ต๋ฐฉ์์ ๋ฐ๋ผ ํฌ๊ฒ \(2\)๊ฐ์ง๋ก ๋๋ ์ ์์ต๋๋ค: Continuous Bag of Words(CBOW)์ Skip-gram. CBOW๋ ์ฃผ๋ณ ๋จ์ด(Context Word)๋ก ์ค๊ฐ์ ์๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ฌ๊ธฐ์ ์ค๊ฐ์ ์๋ ๋จ์ด๋ฅผ ์ค์ฌ ๋จ์ด(Center Word) ๋๋ ํ๊ฒ ๋จ์ด(Target Word)๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ๋ฐ๋๋ก, Skip-gram์ ์ค์ฌ ๋จ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ฃผ๋ณ ๋จ์ด๋ค์ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๋ณธ ํฌ์คํ ์์๋ CBOW์ ๋ํด ๋ค๋ฃจ๊ณ , ๋ค์ ํฌ์คํ ์์ Skip-gram์ ๋ํด ์์ธํ ๋ค๋ฃน๋๋ค.1. ํ์ต ๋ฐ์ดํฐ์ ์์ฑCBOW์์ ํ์ต ๋ฐ์ดํฐ์ ์ ..
๐ ๋ชฉ์ฐจ1. Word2Vec ๊ฐ๋ 2. ํฌ์ํํ๊ณผ์ ์ฐจ์ด์ 3. ์ธ์ด๋ชจ๋ธ๊ณผ์ ์ฐจ์ด์ 1. Word2Vec ๊ฐ๋ Word2Vec๋ Word to Vector๋ผ๋ ์ด๋ฆ์์ ์ ์ ์๋ฏ์ด ๋จ์ด(Word)๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋๋ก ์์นํ๋ ๋ฒกํฐ(Vector)๋ก ํํํ๋ ๊ธฐ๋ฒ ์ค ํ๋์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ๋ถ์ฐํํ(Distributed Representation) ๊ธฐ๋ฐ์ ์๋์๋ฒ ๋ฉ(Word Embedding) ๊ธฐ๋ฒ ์ค ํ๋์ ๋๋ค. ๋ถ์ฐํํ์ด๋ ๋ถํฌ๊ฐ์ค(Distibutional Hypothesis) ๊ฐ์ ํ์ ์ ์ฐจ์์ ๋จ์ด ์๋ฏธ๋ฅผ ๋ถ์ฐํ์ฌ ํํํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๋ถํฌ๊ฐ์ค์ "์ ์ฌํ ๋ฌธ๋งฅ์ ๋ฑ์ฅํ ๋จ์ด๋ ์ ์ฌํ ์๋ฏธ๋ฅผ ๊ฐ๋๋ค"๋ผ๋ ๊ฐ์ ์ ๋๋ค. ์ฌ๊ธฐ์ ๋จ์ด๋ฅผ ๋ฒกํฐํํ๋ ์์ ์ ์๋์๋ฒ ๋ฉ(Word Embedding)์ด๋ผ๊ณ ..
