- Today
- Total
๋ชฉ๋ก์ ์ฒด ๊ธ (350)
DATA101

๐๋ชฉ์ฐจ1. ํ์ต ๋ฐ์ดํฐ์ ์์ฑ 2. ์ธ๊ณต์ ๊ฒฝ๋ง ๋ชจํ 3. ํ์ต ์ ์ฐจ4. CBOW vs Skip-gram5. ํ๊ณ์ ๋ค์ด๊ฐ๋ฉฐWord2Vec๋ ํ์ต๋ฐฉ์์ ๋ฐ๋ผ ํฌ๊ฒ \(2\)๊ฐ์ง๋ก ๋๋ ์ ์์ต๋๋ค: Continuous Bag of Words(CBOW)์ Skip-gram. CBOW๋ ์ฃผ๋ณ ๋จ์ด(Context Word)๋ก ์ค๊ฐ์ ์๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ์ฌ๊ธฐ์ ์ค๊ฐ์ ์๋ ๋จ์ด๋ฅผ ์ค์ฌ ๋จ์ด(Center Word) ๋๋ ํ๊ฒ ๋จ์ด(Target Word)๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ๋ฐ๋๋ก, Skip-gram์ ์ค์ฌ ๋จ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ฃผ๋ณ ๋จ์ด๋ค์ ์์ธกํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๋ณธ ํฌ์คํ ์์๋ CBOW์ ๋ํด ๋ค๋ฃจ๊ณ , ๋ค์ ํฌ์คํ ์์ Skip-gram์ ๋ํด ์์ธํ ๋ค๋ฃน๋๋ค.1. ํ์ต ๋ฐ์ดํฐ์ ์์ฑCBOW์์ ํ์ต ๋ฐ์ดํฐ์ ์ ..

๐ ๋ชฉ์ฐจ1. Word2Vec ๊ฐ๋ 2. ํฌ์ํํ๊ณผ์ ์ฐจ์ด์ 3. ์ธ์ด๋ชจ๋ธ๊ณผ์ ์ฐจ์ด์ 1. Word2Vec ๊ฐ๋ Word2Vec๋ Word to Vector๋ผ๋ ์ด๋ฆ์์ ์ ์ ์๋ฏ์ด ๋จ์ด(Word)๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋๋ก ์์นํ๋ ๋ฒกํฐ(Vector)๋ก ํํํ๋ ๊ธฐ๋ฒ ์ค ํ๋์ ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ๋ถ์ฐํํ(Distributed Representation) ๊ธฐ๋ฐ์ ์๋์๋ฒ ๋ฉ(Word Embedding) ๊ธฐ๋ฒ ์ค ํ๋์ ๋๋ค. ๋ถ์ฐํํ์ด๋ ๋ถํฌ๊ฐ์ค(Distibutional Hypothesis) ๊ฐ์ ํ์ ์ ์ฐจ์์ ๋จ์ด ์๋ฏธ๋ฅผ ๋ถ์ฐํ์ฌ ํํํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๋ถํฌ๊ฐ์ค์ "์ ์ฌํ ๋ฌธ๋งฅ์ ๋ฑ์ฅํ ๋จ์ด๋ ์ ์ฌํ ์๋ฏธ๋ฅผ ๊ฐ๋๋ค"๋ผ๋ ๊ฐ์ ์ ๋๋ค. ์ฌ๊ธฐ์ ๋จ์ด๋ฅผ ๋ฒกํฐํํ๋ ์์ ์ ์๋์๋ฒ ๋ฉ(Word Embedding)์ด๋ผ๊ณ ..

๐ ๋ชฉ์ฐจ1. ํฌ์ํํ(Sparse Representation) 2. ๋ฐ์งํํ(Dense Representation) 3. ์๋์๋ฒ ๋ฉ(Word Embedding)๋ค์ด๊ฐ๋ฉฐ์๋ ์๋ฒ ๋ฉ(Word Embedding)์ ๋จ์ด(Word)๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋๋ก ๋ฒกํฐ๋ก ํํํ๋ ๊ธฐ๋ฒ ์ค ํ๋์ธ๋ฐ, ํนํ ๋ฐ์งํํ(Dense Representation) ๋ฐฉ์์ ํตํด ํํํ๋ ๊ธฐ๋ฒ์ ๋งํฉ๋๋ค. ๋ฐ์งํํ๊ณผ ๋ฐ๋๋๋ ๊ฐ๋ ์ด ํฌ์ํํ(Sparse Representation)์ ๋๋ค. ์๋ ์๋ฒ ๋ฉ์ ์ดํดํ๊ธฐ์ ์์ ํฌ์ํํ๊ณผ ๋ฐ์งํํ์ ๋ํด ์์๋ด ๋๋ค.1. ํฌ์ํํ(Sparse Representation)ํฌ์ํํ์ ๋ฐ์ดํฐ๋ฅผ ๋ฒกํฐ ๋๋ ํ๋ ฌ์ ๊ธฐ๋ฐ์ผ๋ก ์์นํํ์ฌ ํํํ ๋ ๊ทนํ ์ผ๋ถ์ ์ธ๋ฑ์ค๋ง ํน์ ๊ฐ์ผ๋ก ํํํ๊ณ , ๋๋ถ๋ถ์ ..

๐ ๋ชฉ์ฐจ1. Perplexity ๊ฐ๋ 2. Perplexity ๊ฐ์ ์๋ฏธ3. Perplexity ๊ณ์ฐ๋ฐฉ๋ฒ1. Perplexity ๊ฐ๋ 1.1. ๊ฐ์Perplexity(PPL)๋ ํ ์คํธ ์์ฑ(Text Generation) ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ์งํ ์ค ํ๋์ ๋๋ค. Perplexity๋ 'ํํ๋ ์ํฐ'๋ผ๊ณ ์ฝ์ผ๋ฉฐ, '(๋ฌด์ธ๊ฐ๋ฅผ ์ดํดํ ์ ์์ด) ๋นํน์ค๋ฌ์ด ์ ๋' ๋๋ 'ํท๊ฐ๋ฆฌ๋ ์ ๋'๋ก ์ดํดํ์๋ฉด ๋ฉ๋๋ค(cf., ๋ค์ด๋ฒ ์์ด์ฌ์ ). ์ผ๋ฐ์ ์ผ๋ก ํ ์คํธ ๋ฐ์ดํฐ์ ์ด ์ถฉ๋ถํ ์ ๋ขฐํ ๋งํ ๋ Perplexity ๊ฐ์ด ๋ฎ์์๋ก ์ธ์ด ๋ชจ๋ธ์ด ์ฐ์ํ๋ค๊ณ ํ๊ฐํฉ๋๋ค. ์ด์ ๋ํ ๋ด์ฉ์ ์ด์ด์ง๋ '2. Perplexity ๊ฐ์ ์๋ฏธ' ์น์ ์์ ๋์ฑ ์์ธํ ๋ค๋ฃน๋๋ค.1.2. ๋ถ๊ธฐ๊ณ์Perplexity๋ ๊ณง ์ธ์ด ๋ชจ๋ธ์ ..

๐ ๋ชฉ์ฐจ1. N-gram ๊ฐ๋ 2. N-gram ๋ฑ์ฅ ๋ฐฐ๊ฒฝ3. N-gram ์ข ๋ฅ 4. N-gram ๊ธฐ๋ฐ ๋จ์ด ์์ธก 5. N-gram์ ํ๊ณ์ 1. N-gram ๊ฐ๋ ์ธ์ด ๋ชจ๋ธ(Language Model)์ ๋ฌธ์ฅ ๋ด ์์ ๋ฑ์ฅํ ๋จ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด์ด์ ๋ฑ์ฅํ ์ ์ ํ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ ๋๋ค. ์ธ์ด ๋ชจ๋ธ์ ํฌ๊ฒ ํต๊ณํ ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ(Statistical Language Model, SLM)๊ณผ ์ธ๊ณต์ ๊ฒฝ๋ง(Artificial Neural Network, ANN) ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ด ์์ต๋๋ค. N-gram์ ํต๊ณํ ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ ์ค ํ๋์ ๋๋ค. N-gram ์ธ์ด ๋ชจ๋ธ์ ์ด์ฒ๋ผ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ ๋ ๋ฌธ์ฅ ๋ด ๋ชจ๋ ๋จ์ด๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ ํน์ ๋จ์ด์ ๊ฐ์(\(N\))๋ง ๊ณ ๋ คํฉ๋๋ค. ์ฆ, N-gram์ \(N\)..

๋ณธ ํฌ์คํ ์์๋ ํต๊ณํ์ ์ธ์ด ๋ชจ๋ธ์ ๊ฐ๋ ๋ฐ ํน์ง์ ๋ํด ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. ๊ฐ๋ 2. ํ๋ฅ ์ ํํ 3. ์ ์ฉ๋ถ์ผ1. ๊ฐ๋ 1.1. ๊ฐ์์ธ์ด ๋ชจ๋ธ(Language Model)์ ๋ฌธ์ฅ์ด ์ผ๋ง๋ ์์ฐ์ค๋ฌ์ด์ง ํ๋ฅ ์ ์ผ๋ก ๊ณ์ฐํจ์ผ๋ก์จ ๋ฌธ์ฅ ๋ด ํน์ ์์น์ ์ถํํ๊ธฐ ์ ํฉํ ๋จ์ด๋ฅผ ํ๋ฅ ์ ์ผ๋ก ์์ธกํ๋ ๋ชจ๋ธ์ ๋๋ค. ๋์ฑ ์ฝ๊ฒ ์ค๋ช ํ์๋ฉด, ์ธ์ด ๋ชจ๋ธ์ ๋ฌธ์ฅ ๋ด ์์ ๋ฑ์ฅํ ๋จ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ์ด๋ค ๋จ์ด๊ฐ ๋ฑ์ฅํด์ผ ๋ฌธ์ฅ์ด ์์ฐ์ค๋ฌ์ด์ง ํ๋จํ๋ ๋๊ตฌ์ ๋๋ค.์ธ์ด ๋ชจ๋ธ์ ํฌ๊ฒ ํต๊ณํ์ ์ธ์ด ๋ชจ๋ธ๊ณผ ์ธ๊ณต์ ๊ฒฝ๋ง ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ด ์์ต๋๋ค. ์ต๊ทผ์๋ BERT, GPT-3์ ๊ฐ์ ์ธ๊ณต์ ๊ฒฝ๋ง ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๋๋ถ๋ถ์ ์์ฐ์ด์ฒ๋ฆฌ ๋ฌธ์ ์์๋ ์ธ๊ณต์ ๊ฒฝ๋ง ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. ๋ณธ ํฌ์คํ ์์๋ ํต๊ณํ ..

๋ณธ ํฌ์คํ ์์๋ Subroutine์ ๊ฐ๋ ๊ณผ Perform ๊ตฌ๋ฌธ์ ๋ํด ์์๋ด ๋๋ค. 1. Subroutine ๊ฐ๋ Subroutine์ FORM์ผ๋ก ์์ํ์ฌ END FORM์ผ๋ก ์ข ๋ฃ๋๋ ๊ตฌ๋ฌธ์ ์๋ฏธํ๋ฉฐ, ์ฝ๋์ ๋ชจ๋ํ(modularization), ๊ตฌ์กฐํ, ์ฌ์ฌ์ฉ์ด ์ฃผ๋ชฉ์ ์ ๋๋ค. ์ฆ, Subroutine๋ ์๋ฏธ ์๋ ๊ธฐ๋ฅ๋ณ๋ก ํ๋ก๊ทธ๋จ์ ๊ตฌ์กฐํํจ์ผ๋ก์จ ์ ์ฒด์ ์ธ ์ฝ๋ ํ๋ฆ์ ํ์ ํ๋ ๋ฐ ๋์์ด ๋๋ฉฐ ์์คํ ์ ์ง๋ณด์์ ํธ์์ฑ์ ์ฆ์งํ๋ ์ฅ์ ์ด ์์ต๋๋ค. PERFORM ๊ตฌ๋ฌธ๊ณผ ๋ณ์, ์ธํฐ๋ ํ ์ด๋ธ ๋ฑ์ ํ๋ผ๋ฏธํฐ ๊ฐ์ ์ฃผ๊ณ ๋ฐ๋ Function Module์ด Subroutine์ ํด๋นํฉ๋๋ค. 2. PERFORM ๊ตฌ๋ฌธ ํ๋ก๊ทธ๋จ์ ์์ฑํ๊ณ PERFORM ๊ตฌ๋ฌธ์ ํตํด Subroutine์ ํธ์ถํ๋ฉด FORM ๊ตฌ๋ฌธ์ด ์คํ๋ฉ..

๋ณธ ํฌ์คํ ์์๋ TF-IDF ๊ฐ๋ ๋ฐ ๊ณ์ฐ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. TF-IDF ๊ฐ๋ 2. TF-IDF ๊ณ์ฐ๋ฐฉ๋ฒ 2.1. TF(Term Frequency) 2.2. DF(Document Frequency) 2.3. IDF(Inverse Document Frequency) 1. TF-IDF ๊ฐ๋ TF-IDF(Term Frequency-Inverse Document Frequency)๋ Document Term Matrix(DTM) ๋ด ๋จ์ด๋ง๋ค ์ค์๋๋ฅผ ๊ณ ๋ คํ์ฌ ๊ฐ์ค์น๋ฅผ ์ฃผ๋ ํต๊ณ์ ์ธ ๋จ์ด ํํ๋ฐฉ๋ฒ์ ๋๋ค. DTM์ ๋ํ ์์ธํ ์ค๋ช ์ ์ด๊ณณ์ ์ฐธ๊ณ ํด ์ฃผ์ธ์.TF-IDF๋ ๋จ์ด์ ์ค์๋๋ฅผ ๊ณ ๋ คํ๊ธฐ ๋๋ฌธ์, ์ผ๋ฐ์ ์ผ๋ก ๋จ์ํ ๋ฌธ์ ๋ด ๋จ์ด์ ์ถํ๋น๋๋ง ๊ณ ๋ คํ๋ DTM๋ณด๋ค ๋ฌธ์..