- Today
- Total
๋ชฉ๋ก์ ์ฒด ๊ธ (355)
DATA101
๐ ๋ชฉ์ฐจ1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ 2. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ์ค์ต1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ ์ํ์ ๊ด์ ์ ๊ทผ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ(Euclidean Distance)๋ ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๋ ์ \(p\)์ \(q\)๊ฐ ๊ฐ๊ฐ \((p_1, p_2, ..., p_n)\), \((q_1, q_2, ..., q_n)\) ์ขํ๋ฅผ ๊ฐ์ง ๋, ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ณต์์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค. $$ \sqrt{(q_1 - p_1)^2 + (q_2 - p_2)^2 + ... + (q_n - p_n)^2} = \sqrt{\displaystyle\sum_{i=1}^{n}(q_i - p_i)^2}$$ ๋ค์ฐจ์์ด ์๋ 2์ฐจ์ ๊ณต๊ฐ์์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ฅผ ์ฝ๊ฒ ์์๋ณด๊ฒ ์ต๋๋ค(๊ทธ๋ฆผ 1 ์ฐธ๊ณ ). ๋ ์ \..
๐ ๋ชฉ์ฐจ1. ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ฐ๋ 2. ์ฝ์ฌ์ธ ์ ์ฌ๋ ์ค์ต1. ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ฐ๋ ์ฝ์ฌ์ธ ์ ์ฌ๋(Cosine Similarity)๋ ๋ ๋ฒกํฐ ์ฌ์ด์ ๊ฐ๋๋ฅผ ๊ณ์ฐํ์ฌ ๋ ๋ฒกํฐ๊ฐ ์ผ๋ง๋ ์ ์ฌํ์ง ์ธก์ ํ๋ ์ฒ๋์ ๋๋ค. ์ฆ, DTM, TF-IDF, Word2Vec ๋ฑ๊ณผ ๊ฐ์ด ๋จ์ด๋ฅผ ์์นํํ์ฌ ํํํ ์ ์๋ค๋ฉด ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ํ์ฉํ์ฌ ๋ฌธ์ ๊ฐ ์ ์ฌ๋๋ฅผ ๋น๊ตํ๋ ๊ฒ ๊ฐ๋ฅํฉ๋๋ค. ์ฝ์ฌ์ธ ์ ์ฌ๋๋ \(1\)์ ๊ฐ๊น์ธ์๋ก ๋ ๋ฒกํฐ๊ฐ ์ ์ฌํ๋ค๊ณ ํด์ํ๋ฉฐ, ๋ฌธ์์ ๊ธธ์ด๊ฐ ๋ค๋ฅธ ๊ฒฝ์ฐ์๋ ๋น๊ต์ ๊ณต์ ํ๊ฒ ๋น๊ตํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ์๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด ๋ ๋ฒกํฐ๊ฐ ๊ฐ์ ๋ฐฉํฅ์ ๊ฐ๋ฆฌํค๋, ์ฆ ๋ ๋ฒกํฐ ์ฌ์ด์ ๊ฐ๋๊ฐ \(0^\circ\)์ผ ๋ ์ฝ์ฌ์ธ ์ ์ฌ๋๊ฐ ์ต๋๊ฐ์ธ 1์ ๊ฐ์ต๋๋ค. \(A\), \(B\)๋ผ๋ ๋ ๋ฒกํฐ๊ฐ..
๐ ๋ค์ด๊ฐ๋ฉฐ๋ณธ ํฌ์คํ ์์๋ Boxplot๋ฅผ ํด์ํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ด ๋๋ค.์๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด ์ธ๋ก์ถ์ ํน์ ๊ฐ์ ๋ฒ์๋ฅผ ๋ํ๋ด๊ณ , ์ด ๋ฒ์ ๋ด์์ ๋ฐ์ดํฐ๋ ์ฃผ๋ก ํ๋์ ๋ฐ์ค ์์ ๋ถํฌํฉ๋๋ค. ํ๋์ ๋ฐ์ค ๊ฐ์ด๋ฐ ๋ ธ๋์ ์ง์ ์ผ๋ก ํ์ํ ๋ถ๋ถ์ด ๋ฐ์ดํฐ์ ์ค์๊ฐ(Median)์ด ๋ฉ๋๋ค.๋ฐ์ค ์ต์๋จ์ ์ 3 ์ฌ๋ถ์์(Q3, 75th percentile), ์ตํ๋จ์ ์ 1 ์ฌ๋ถ์์(Q1, 25th percentile)์ ๋๋ค. ์ฌ๋ถ์์(Quantile)๋ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ค๋ฆ์ฐจ์ ์ ๋ ฌํ ๋ค์ 25%์ฉ ๋์ผํ ๋น์จ๋ก ๋ฐ์ดํฐ๋ฅผ ๋๋ ๊ฒ์ ๋๋ค. ์ฆ, ์ 1 ์ฌ๋ถ์์(Q1)๋ ๊ฐ์ฅ ์์ ๋ฐ์ดํฐ๋ถํฐ ์ ์ฒด ์ค 25% ๋น์จ๋งํผ์ ๋ฐ์ดํฐ๋ฅผ(25%) ์๋ฏธํ๊ณ , ์ 3 ์ฌ๋ถ์์(Q3)๋ ์ค์๊ฐ(50%)์์๋ถํฐ 25% ๋น์จ๋งํผ์ ๋ฐ์ดํฐ๋ฅผ..
๐๋ชฉ์ฐจ1. ๋ฑ์ฅ๋ฐฐ๊ฒฝ2. ๊ฐ๋ 3. Sample ์ ์ 4. Word2Vec ์ฑ๋ฅ1. ๋ฑ์ฅ ๋ฐฐ๊ฒฝNegative Sampling ๋ฐฉ๋ฒ์ Word2Vec์ CBOW์ Skip-gram ๋ชจ๋ ๋จ์ด ๊ฐ์๊ฐ ๋ง์์ง์๋ก ๊ณ์ฐ ๋ณต์ก๋๊ฐ ์ฆ๊ฐํ์ฌ ์ฐ์ฐ ์๋๊ฐ ์ ํ๋๋ค๋ ํ๊ณ์ ์ ๋ณด์ํ๊ธฐ ์ํด ์ ์๋์์ต๋๋ค. CBOW์ Skip-gram์ ๋ชฉ์ ํจ์๋ ์๋์ ๊ฐ์ต๋๋ค. $$ \mathcal{L}_{CBOW} = -\sum_{j=1}^{|V|}y_{j}log(\hat{y}) $$ $$ \mathcal{L}_{Skip-gram} = -\sum_{j=0, j\ne{m}}^{2m}\sum_{k=1}^{|V|}y_{k}^{(c-j)}\log\hat{y_{k}}^{(c-j)} $$ ์์์์ ์ ์ ์๋ฏ์ด, CBOW์ Skip-..
๐๋ชฉ์ฐจ1. ํ์ต ๋ฐ์ดํฐ์ ์์ฑ 2. ์ธ๊ณต์ ๊ฒฝ๋ง ๋ชจํ 3. ํ์ต ๊ณผ์ 4. CBOW vs Skip-gram5. ํ๊ณ์ ๋ค์ด๊ฐ๋ฉฐWord2Vec๋ ํ์ต๋ฐฉ์์ ๋ฐ๋ผ ํฌ๊ฒ \(2\)๊ฐ์ง๋ก ๋๋ ์ ์์ต๋๋ค: Continuous Bag of Words(CBOW)์ Skip-gram. CBOW๋ ์ฃผ๋ณ ๋จ์ด(Context Word)๋ก ์ค๊ฐ์ ์๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ฌ๊ธฐ์ ์ค๊ฐ์ ์๋ ๋จ์ด๋ฅผ ์ค์ฌ ๋จ์ด(Center Word) ๋๋ ํ๊ฒ ๋จ์ด(Target Word)๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ๋ฐ๋๋ก, Skip-gram์ ์ค์ฌ ๋จ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ฃผ๋ณ ๋จ์ด๋ค์ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ ํ์ฐ๊ตฌ๋ค์ ๋ฐ๋ฅด๋ฉด, ๋์ฒด๋ก Skip-gram์ด CBOW๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํ๋ค๊ณ ์๋ ค์ ธ ์๋๋ฐ, ์ด์ ๋ํ ์์ธํ ๋ด์ฉ์ ๋ณธ ํฌ์คํ ์ 'Chapter 4..
๐๋ชฉ์ฐจ1. ํ์ต ๋ฐ์ดํฐ์ ์์ฑ 2. ์ธ๊ณต์ ๊ฒฝ๋ง ๋ชจํ 3. ํ์ต ์ ์ฐจ4. CBOW vs Skip-gram5. ํ๊ณ์ ๋ค์ด๊ฐ๋ฉฐWord2Vec๋ ํ์ต๋ฐฉ์์ ๋ฐ๋ผ ํฌ๊ฒ \(2\)๊ฐ์ง๋ก ๋๋ ์ ์์ต๋๋ค: Continuous Bag of Words(CBOW)์ Skip-gram. CBOW๋ ์ฃผ๋ณ ๋จ์ด(Context Word)๋ก ์ค๊ฐ์ ์๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ฌ๊ธฐ์ ์ค๊ฐ์ ์๋ ๋จ์ด๋ฅผ ์ค์ฌ ๋จ์ด(Center Word) ๋๋ ํ๊ฒ ๋จ์ด(Target Word)๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ๋ฐ๋๋ก, Skip-gram์ ์ค์ฌ ๋จ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ฃผ๋ณ ๋จ์ด๋ค์ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๋ณธ ํฌ์คํ ์์๋ CBOW์ ๋ํด ๋ค๋ฃจ๊ณ , ๋ค์ ํฌ์คํ ์์ Skip-gram์ ๋ํด ์์ธํ ๋ค๋ฃน๋๋ค.1. ํ์ต ๋ฐ์ดํฐ์ ์์ฑCBOW์์ ํ์ต ๋ฐ์ดํฐ์ ์ ..
๐ ๋ชฉ์ฐจ1. Word2Vec ๊ฐ๋ 2. ํฌ์ํํ๊ณผ์ ์ฐจ์ด์ 3. ์ธ์ด๋ชจ๋ธ๊ณผ์ ์ฐจ์ด์ 1. Word2Vec ๊ฐ๋ Word2Vec๋ Word to Vector๋ผ๋ ์ด๋ฆ์์ ์ ์ ์๋ฏ์ด ๋จ์ด(Word)๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋๋ก ์์นํ๋ ๋ฒกํฐ(Vector)๋ก ํํํ๋ ๊ธฐ๋ฒ ์ค ํ๋์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ๋ถ์ฐํํ(Distributed Representation) ๊ธฐ๋ฐ์ ์๋์๋ฒ ๋ฉ(Word Embedding) ๊ธฐ๋ฒ ์ค ํ๋์ ๋๋ค. ๋ถ์ฐํํ์ด๋ ๋ถํฌ๊ฐ์ค(Distibutional Hypothesis) ๊ฐ์ ํ์ ์ ์ฐจ์์ ๋จ์ด ์๋ฏธ๋ฅผ ๋ถ์ฐํ์ฌ ํํํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๋ถํฌ๊ฐ์ค์ "์ ์ฌํ ๋ฌธ๋งฅ์ ๋ฑ์ฅํ ๋จ์ด๋ ์ ์ฌํ ์๋ฏธ๋ฅผ ๊ฐ๋๋ค"๋ผ๋ ๊ฐ์ ์ ๋๋ค. ์ฌ๊ธฐ์ ๋จ์ด๋ฅผ ๋ฒกํฐํํ๋ ์์ ์ ์๋์๋ฒ ๋ฉ(Word Embedding)์ด๋ผ๊ณ ..
๐ ๋ชฉ์ฐจ1. ํฌ์ํํ(Sparse Representation) 2. ๋ฐ์งํํ(Dense Representation) 3. ์๋์๋ฒ ๋ฉ(Word Embedding)๋ค์ด๊ฐ๋ฉฐ์๋ ์๋ฒ ๋ฉ(Word Embedding)์ ๋จ์ด(Word)๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋๋ก ๋ฒกํฐ๋ก ํํํ๋ ๊ธฐ๋ฒ ์ค ํ๋์ธ๋ฐ, ํนํ ๋ฐ์งํํ(Dense Representation) ๋ฐฉ์์ ํตํด ํํํ๋ ๊ธฐ๋ฒ์ ๋งํฉ๋๋ค. ๋ฐ์งํํ๊ณผ ๋ฐ๋๋๋ ๊ฐ๋ ์ด ํฌ์ํํ(Sparse Representation)์ ๋๋ค. ์๋ ์๋ฒ ๋ฉ์ ์ดํดํ๊ธฐ์ ์์ ํฌ์ํํ๊ณผ ๋ฐ์งํํ์ ๋ํด ์์๋ด ๋๋ค.1. ํฌ์ํํ(Sparse Representation)ํฌ์ํํ์ ๋ฐ์ดํฐ๋ฅผ ๋ฒกํฐ ๋๋ ํ๋ ฌ์ ๊ธฐ๋ฐ์ผ๋ก ์์นํํ์ฌ ํํํ ๋ ๊ทนํ ์ผ๋ถ์ ์ธ๋ฑ์ค๋ง ํน์ ๊ฐ์ผ๋ก ํํํ๊ณ , ๋๋ถ๋ถ์ ..