- Today
- Total
๋ชฉ๋กํ ์คํธ๋ถ์ (15)
DATA101
๐ ๋ชฉ์ฐจ1. ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ 2. ์์นด๋ ์ ์ฌ๊ณ ์ค์ต1. ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ ์์นด๋ ์ ์ฌ๋(Jaccard Similarity)๋ \(2\)๊ฐ์ ์งํฉ \(A\), \(B\)๊ฐ ์์ ๋ ๋ ์งํฉ์ ํฉ์งํฉ ์ค ๊ต์งํฉ์ ๋น์จ์ ๋๋ค. ์ฆ, ๋ ์งํฉ์ด ์์ ํ ๊ฐ์ ๋๋ ์์นด๋ ์ ์ฌ๋๊ฐ \(1\)์ด๋ฉฐ, ๋ ์งํฉ์ ๊ต์งํฉ์ด ์๋ ๊ฒฝ์ฐ๋ \(0\)์ ๋๋ค. ์์นด๋ ์ ์ฌ๋๋ฅผ \(J\)๋ผ๊ณ ํ ๋ ๋ ์งํฉ ๊ฐ์ ์์นด๋ ์ ์ฌ๋ ์์์ ์๋์ ๊ฐ์ต๋๋ค. $$ J(A, B) = \frac{|A \cap B|}{|A \cup B|} = \frac{|A \cap B|}{|A| + |B| - |A \cap B|} $$ ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ ์ ์์ฐ์ด์ฒ๋ฆฌ ๋ถ์ผ๋ก ๊ทธ๋๋ก ๊ฐ์ ธ์ค๋ฉด, ํ๋์ ์งํฉ์ด ๊ณง ํ๋์ ๋ฌธ์๊ฐ ํด๋นํ๋ ๊ฒ์ ๋๋ค. ..
๐ ๋ชฉ์ฐจ1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ 2. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ์ค์ต1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ ์ํ์ ๊ด์ ์ ๊ทผ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ(Euclidean Distance)๋ ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๋ ์ \(p\)์ \(q\)๊ฐ ๊ฐ๊ฐ \((p_1, p_2, ..., p_n)\), \((q_1, q_2, ..., q_n)\) ์ขํ๋ฅผ ๊ฐ์ง ๋, ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ณต์์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค. $$ \sqrt{(q_1 - p_1)^2 + (q_2 - p_2)^2 + ... + (q_n - p_n)^2} = \sqrt{\displaystyle\sum_{i=1}^{n}(q_i - p_i)^2}$$ ๋ค์ฐจ์์ด ์๋ 2์ฐจ์ ๊ณต๊ฐ์์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ฅผ ์ฝ๊ฒ ์์๋ณด๊ฒ ์ต๋๋ค(๊ทธ๋ฆผ 1 ์ฐธ๊ณ ). ๋ ์ \..
๐๋ชฉ์ฐจ1. ๋ฑ์ฅ๋ฐฐ๊ฒฝ2. ๊ฐ๋ 3. Sample ์ ์ 4. Word2Vec ์ฑ๋ฅ1. ๋ฑ์ฅ ๋ฐฐ๊ฒฝNegative Sampling ๋ฐฉ๋ฒ์ Word2Vec์ CBOW์ Skip-gram ๋ชจ๋ ๋จ์ด ๊ฐ์๊ฐ ๋ง์์ง์๋ก ๊ณ์ฐ ๋ณต์ก๋๊ฐ ์ฆ๊ฐํ์ฌ ์ฐ์ฐ ์๋๊ฐ ์ ํ๋๋ค๋ ํ๊ณ์ ์ ๋ณด์ํ๊ธฐ ์ํด ์ ์๋์์ต๋๋ค. CBOW์ Skip-gram์ ๋ชฉ์ ํจ์๋ ์๋์ ๊ฐ์ต๋๋ค. $$ \mathcal{L}_{CBOW} = -\sum_{j=1}^{|V|}y_{j}log(\hat{y}) $$ $$ \mathcal{L}_{Skip-gram} = -\sum_{j=0, j\ne{m}}^{2m}\sum_{k=1}^{|V|}y_{k}^{(c-j)}\log\hat{y_{k}}^{(c-j)} $$ ์์์์ ์ ์ ์๋ฏ์ด, CBOW์ Skip-..
๐๋ชฉ์ฐจ1. ํ์ต ๋ฐ์ดํฐ์ ์์ฑ 2. ์ธ๊ณต์ ๊ฒฝ๋ง ๋ชจํ 3. ํ์ต ๊ณผ์ 4. CBOW vs Skip-gram5. ํ๊ณ์ ๋ค์ด๊ฐ๋ฉฐWord2Vec๋ ํ์ต๋ฐฉ์์ ๋ฐ๋ผ ํฌ๊ฒ \(2\)๊ฐ์ง๋ก ๋๋ ์ ์์ต๋๋ค: Continuous Bag of Words(CBOW)์ Skip-gram. CBOW๋ ์ฃผ๋ณ ๋จ์ด(Context Word)๋ก ์ค๊ฐ์ ์๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ฌ๊ธฐ์ ์ค๊ฐ์ ์๋ ๋จ์ด๋ฅผ ์ค์ฌ ๋จ์ด(Center Word) ๋๋ ํ๊ฒ ๋จ์ด(Target Word)๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ๋ฐ๋๋ก, Skip-gram์ ์ค์ฌ ๋จ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ฃผ๋ณ ๋จ์ด๋ค์ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ ํ์ฐ๊ตฌ๋ค์ ๋ฐ๋ฅด๋ฉด, ๋์ฒด๋ก Skip-gram์ด CBOW๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํ๋ค๊ณ ์๋ ค์ ธ ์๋๋ฐ, ์ด์ ๋ํ ์์ธํ ๋ด์ฉ์ ๋ณธ ํฌ์คํ ์ 'Chapter 4..
๐ ๋ชฉ์ฐจ1. Word2Vec ๊ฐ๋ 2. ํฌ์ํํ๊ณผ์ ์ฐจ์ด์ 3. ์ธ์ด๋ชจ๋ธ๊ณผ์ ์ฐจ์ด์ 1. Word2Vec ๊ฐ๋ Word2Vec๋ Word to Vector๋ผ๋ ์ด๋ฆ์์ ์ ์ ์๋ฏ์ด ๋จ์ด(Word)๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋๋ก ์์นํ๋ ๋ฒกํฐ(Vector)๋ก ํํํ๋ ๊ธฐ๋ฒ ์ค ํ๋์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ๋ถ์ฐํํ(Distributed Representation) ๊ธฐ๋ฐ์ ์๋์๋ฒ ๋ฉ(Word Embedding) ๊ธฐ๋ฒ ์ค ํ๋์ ๋๋ค. ๋ถ์ฐํํ์ด๋ ๋ถํฌ๊ฐ์ค(Distibutional Hypothesis) ๊ฐ์ ํ์ ์ ์ฐจ์์ ๋จ์ด ์๋ฏธ๋ฅผ ๋ถ์ฐํ์ฌ ํํํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๋ถํฌ๊ฐ์ค์ "์ ์ฌํ ๋ฌธ๋งฅ์ ๋ฑ์ฅํ ๋จ์ด๋ ์ ์ฌํ ์๋ฏธ๋ฅผ ๊ฐ๋๋ค"๋ผ๋ ๊ฐ์ ์ ๋๋ค. ์ฌ๊ธฐ์ ๋จ์ด๋ฅผ ๋ฒกํฐํํ๋ ์์ ์ ์๋์๋ฒ ๋ฉ(Word Embedding)์ด๋ผ๊ณ ..
๐ ๋ชฉ์ฐจ1. ํฌ์ํํ(Sparse Representation) 2. ๋ฐ์งํํ(Dense Representation) 3. ์๋์๋ฒ ๋ฉ(Word Embedding)๋ค์ด๊ฐ๋ฉฐ์๋ ์๋ฒ ๋ฉ(Word Embedding)์ ๋จ์ด(Word)๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋๋ก ๋ฒกํฐ๋ก ํํํ๋ ๊ธฐ๋ฒ ์ค ํ๋์ธ๋ฐ, ํนํ ๋ฐ์งํํ(Dense Representation) ๋ฐฉ์์ ํตํด ํํํ๋ ๊ธฐ๋ฒ์ ๋งํฉ๋๋ค. ๋ฐ์งํํ๊ณผ ๋ฐ๋๋๋ ๊ฐ๋ ์ด ํฌ์ํํ(Sparse Representation)์ ๋๋ค. ์๋ ์๋ฒ ๋ฉ์ ์ดํดํ๊ธฐ์ ์์ ํฌ์ํํ๊ณผ ๋ฐ์งํํ์ ๋ํด ์์๋ด ๋๋ค.1. ํฌ์ํํ(Sparse Representation)ํฌ์ํํ์ ๋ฐ์ดํฐ๋ฅผ ๋ฒกํฐ ๋๋ ํ๋ ฌ์ ๊ธฐ๋ฐ์ผ๋ก ์์นํํ์ฌ ํํํ ๋ ๊ทนํ ์ผ๋ถ์ ์ธ๋ฑ์ค๋ง ํน์ ๊ฐ์ผ๋ก ํํํ๊ณ , ๋๋ถ๋ถ์ ..
๋ณธ ํฌ์คํ ์์๋ ์นด์ดํธ ๊ธฐ๋ฐ์ ๋จ์ด ํํ๋ฐฉ๋ฒ ์ค ํ๋์ธ ๋ฌธ์ ๋จ์ด ํ๋ ฌ(DTM)์ ๊ฐ๋ ์ ๋ํด ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. DTM ๊ฐ๋ 2. DTM ์์ 3. DTM ํ๊ณ์ 1. DTM ๊ฐ๋ ๋ฌธ์ ๋จ์ด ํ๋ ฌ(Document-Term Maxtrix, DTM)์ ๋ค์์ ๋ฌธ์ ๋ฐ์ดํฐ(=Corpus)์์ ๋ฑ์ฅํ ๋ชจ๋ ๋จ์ด์ ์ถํ ๋น๋์(frequency)๋ฅผ ํ๋ ฌ๋ก ํํํ ๊ฒ์ ๋๋ค. ์ฆ, DTM์ ๋ค์์ ๋ฌธ์ ๋ฐ์ดํฐ์ ๋ํ Bag of Words(BoW)๋ฅผ ํ๋ ฌ๋ก ํํํ ๊ฒ์ ๋๋ค. DTM์ ๊ตญ์ ํํ(Local Representation) ๋๋ ์ด์ฐ ํํ(Discrete Representation)์ ์ผ์ข ์ผ๋ก ์นด์ดํธ ๊ธฐ๋ฐ์ ๋จ์ด ํํ๋ฐฉ๋ฒ์ ๋๋ค.2. DTM ์์DTM ์์๋ฅผ ๋ค์ด๋ณด๊ฒ ์ต๋๋ค. ์๋์ ๊ฐ์ด 4๊ฐ์ ๋ฌธ์๊ฐ ์๋ค..