- Today
- Total
๋ชฉ๋ก์์ฐ์ด์ฒ๋ฆฌ (16)
DATA101
๐ ๋ชฉ์ฐจ1. ํฌ์ํํ(Sparse Representation) 2. ๋ฐ์งํํ(Dense Representation) 3. ์๋์๋ฒ ๋ฉ(Word Embedding)๋ค์ด๊ฐ๋ฉฐ์๋ ์๋ฒ ๋ฉ(Word Embedding)์ ๋จ์ด(Word)๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋๋ก ๋ฒกํฐ๋ก ํํํ๋ ๊ธฐ๋ฒ ์ค ํ๋์ธ๋ฐ, ํนํ ๋ฐ์งํํ(Dense Representation) ๋ฐฉ์์ ํตํด ํํํ๋ ๊ธฐ๋ฒ์ ๋งํฉ๋๋ค. ๋ฐ์งํํ๊ณผ ๋ฐ๋๋๋ ๊ฐ๋ ์ด ํฌ์ํํ(Sparse Representation)์ ๋๋ค. ์๋ ์๋ฒ ๋ฉ์ ์ดํดํ๊ธฐ์ ์์ ํฌ์ํํ๊ณผ ๋ฐ์งํํ์ ๋ํด ์์๋ด ๋๋ค.1. ํฌ์ํํ(Sparse Representation)ํฌ์ํํ์ ๋ฐ์ดํฐ๋ฅผ ๋ฒกํฐ ๋๋ ํ๋ ฌ์ ๊ธฐ๋ฐ์ผ๋ก ์์นํํ์ฌ ํํํ ๋ ๊ทนํ ์ผ๋ถ์ ์ธ๋ฑ์ค๋ง ํน์ ๊ฐ์ผ๋ก ํํํ๊ณ , ๋๋ถ๋ถ์ ..
๐ ๋ชฉ์ฐจ1. Perplexity ๊ฐ๋ 2. Perplexity ๊ฐ์ ์๋ฏธ3. Perplexity ๊ณ์ฐ๋ฐฉ๋ฒ1. Perplexity ๊ฐ๋ 1.1. ๊ฐ์Perplexity(PPL)๋ ํ ์คํธ ์์ฑ(Text Generation) ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ์งํ ์ค ํ๋์ ๋๋ค. Perplexity๋ 'ํํ๋ ์ํฐ'๋ผ๊ณ ์ฝ์ผ๋ฉฐ, '(๋ฌด์ธ๊ฐ๋ฅผ ์ดํดํ ์ ์์ด) ๋นํน์ค๋ฌ์ด ์ ๋' ๋๋ 'ํท๊ฐ๋ฆฌ๋ ์ ๋'๋ก ์ดํดํ์๋ฉด ๋ฉ๋๋ค(cf., ๋ค์ด๋ฒ ์์ด์ฌ์ ). ์ผ๋ฐ์ ์ผ๋ก ํ ์คํธ ๋ฐ์ดํฐ์ ์ด ์ถฉ๋ถํ ์ ๋ขฐํ ๋งํ ๋ Perplexity ๊ฐ์ด ๋ฎ์์๋ก ์ธ์ด ๋ชจ๋ธ์ด ์ฐ์ํ๋ค๊ณ ํ๊ฐํฉ๋๋ค. ์ด์ ๋ํ ๋ด์ฉ์ ์ด์ด์ง๋ '2. Perplexity ๊ฐ์ ์๋ฏธ' ์น์ ์์ ๋์ฑ ์์ธํ ๋ค๋ฃน๋๋ค.1.2. ๋ถ๊ธฐ๊ณ์Perplexity๋ ๊ณง ์ธ์ด ๋ชจ๋ธ์ ..
๐ ๋ชฉ์ฐจ1. N-gram ๊ฐ๋ 2. N-gram ๋ฑ์ฅ ๋ฐฐ๊ฒฝ3. N-gram ์ข ๋ฅ 4. N-gram ๊ธฐ๋ฐ ๋จ์ด ์์ธก 5. N-gram์ ํ๊ณ์ 1. N-gram ๊ฐ๋ ์ธ์ด ๋ชจ๋ธ(Language Model)์ ๋ฌธ์ฅ ๋ด ์์ ๋ฑ์ฅํ ๋จ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด์ด์ ๋ฑ์ฅํ ์ ์ ํ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ ๋๋ค. ์ธ์ด ๋ชจ๋ธ์ ํฌ๊ฒ ํต๊ณํ ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ(Statistical Language Model, SLM)๊ณผ ์ธ๊ณต์ ๊ฒฝ๋ง(Artificial Neural Network, ANN) ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ด ์์ต๋๋ค. N-gram์ ํต๊ณํ ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ ์ค ํ๋์ ๋๋ค. N-gram ์ธ์ด ๋ชจ๋ธ์ ์ด์ฒ๋ผ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ ๋ ๋ฌธ์ฅ ๋ด ๋ชจ๋ ๋จ์ด๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ ํน์ ๋จ์ด์ ๊ฐ์(\(N\))๋ง ๊ณ ๋ คํฉ๋๋ค. ์ฆ, N-gram์ \(N\)..
๋ณธ ํฌ์คํ ์์๋ ํต๊ณํ์ ์ธ์ด ๋ชจ๋ธ์ ๊ฐ๋ ๋ฐ ํน์ง์ ๋ํด ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. ๊ฐ๋ 2. ํ๋ฅ ์ ํํ 3. ์ ์ฉ๋ถ์ผ1. ๊ฐ๋ 1.1. ๊ฐ์์ธ์ด ๋ชจ๋ธ(Language Model)์ ๋ฌธ์ฅ์ด ์ผ๋ง๋ ์์ฐ์ค๋ฌ์ด์ง ํ๋ฅ ์ ์ผ๋ก ๊ณ์ฐํจ์ผ๋ก์จ ๋ฌธ์ฅ ๋ด ํน์ ์์น์ ์ถํํ๊ธฐ ์ ํฉํ ๋จ์ด๋ฅผ ํ๋ฅ ์ ์ผ๋ก ์์ธกํ๋ ๋ชจ๋ธ์ ๋๋ค. ๋์ฑ ์ฝ๊ฒ ์ค๋ช ํ์๋ฉด, ์ธ์ด ๋ชจ๋ธ์ ๋ฌธ์ฅ ๋ด ์์ ๋ฑ์ฅํ ๋จ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ์ด๋ค ๋จ์ด๊ฐ ๋ฑ์ฅํด์ผ ๋ฌธ์ฅ์ด ์์ฐ์ค๋ฌ์ด์ง ํ๋จํ๋ ๋๊ตฌ์ ๋๋ค.์ธ์ด ๋ชจ๋ธ์ ํฌ๊ฒ ํต๊ณํ์ ์ธ์ด ๋ชจ๋ธ๊ณผ ์ธ๊ณต์ ๊ฒฝ๋ง ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ด ์์ต๋๋ค. ์ต๊ทผ์๋ BERT, GPT-3์ ๊ฐ์ ์ธ๊ณต์ ๊ฒฝ๋ง ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๋๋ถ๋ถ์ ์์ฐ์ด์ฒ๋ฆฌ ๋ฌธ์ ์์๋ ์ธ๊ณต์ ๊ฒฝ๋ง ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. ๋ณธ ํฌ์คํ ์์๋ ํต๊ณํ ..
๋ณธ ํฌ์คํ ์์๋ TF-IDF ๊ฐ๋ ๋ฐ ๊ณ์ฐ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. TF-IDF ๊ฐ๋ 2. TF-IDF ๊ณ์ฐ๋ฐฉ๋ฒ 2.1. TF(Term Frequency) 2.2. DF(Document Frequency) 2.3. IDF(Inverse Document Frequency) 1. TF-IDF ๊ฐ๋ TF-IDF(Term Frequency-Inverse Document Frequency)๋ Document Term Matrix(DTM) ๋ด ๋จ์ด๋ง๋ค ์ค์๋๋ฅผ ๊ณ ๋ คํ์ฌ ๊ฐ์ค์น๋ฅผ ์ฃผ๋ ํต๊ณ์ ์ธ ๋จ์ด ํํ๋ฐฉ๋ฒ์ ๋๋ค. DTM์ ๋ํ ์์ธํ ์ค๋ช ์ ์ด๊ณณ์ ์ฐธ๊ณ ํด ์ฃผ์ธ์.TF-IDF๋ ๋จ์ด์ ์ค์๋๋ฅผ ๊ณ ๋ คํ๊ธฐ ๋๋ฌธ์, ์ผ๋ฐ์ ์ผ๋ก ๋จ์ํ ๋ฌธ์ ๋ด ๋จ์ด์ ์ถํ๋น๋๋ง ๊ณ ๋ คํ๋ DTM๋ณด๋ค ๋ฌธ์..
๋ณธ ํฌ์คํ ์์๋ ์นด์ดํธ ๊ธฐ๋ฐ์ ๋จ์ด ํํ๋ฐฉ๋ฒ ์ค ํ๋์ธ ๋ฌธ์ ๋จ์ด ํ๋ ฌ(DTM)์ ๊ฐ๋ ์ ๋ํด ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. DTM ๊ฐ๋ 2. DTM ์์ 3. DTM ํ๊ณ์ 1. DTM ๊ฐ๋ ๋ฌธ์ ๋จ์ด ํ๋ ฌ(Document-Term Maxtrix, DTM)์ ๋ค์์ ๋ฌธ์ ๋ฐ์ดํฐ(=Corpus)์์ ๋ฑ์ฅํ ๋ชจ๋ ๋จ์ด์ ์ถํ ๋น๋์(frequency)๋ฅผ ํ๋ ฌ๋ก ํํํ ๊ฒ์ ๋๋ค. ์ฆ, DTM์ ๋ค์์ ๋ฌธ์ ๋ฐ์ดํฐ์ ๋ํ Bag of Words(BoW)๋ฅผ ํ๋ ฌ๋ก ํํํ ๊ฒ์ ๋๋ค. DTM์ ๊ตญ์ ํํ(Local Representation) ๋๋ ์ด์ฐ ํํ(Discrete Representation)์ ์ผ์ข ์ผ๋ก ์นด์ดํธ ๊ธฐ๋ฐ์ ๋จ์ด ํํ๋ฐฉ๋ฒ์ ๋๋ค.2. DTM ์์DTM ์์๋ฅผ ๋ค์ด๋ณด๊ฒ ์ต๋๋ค. ์๋์ ๊ฐ์ด 4๊ฐ์ ๋ฌธ์๊ฐ ์๋ค..
๋ณธ ํฌ์คํ ์์๋ ์นด์ดํธ ๊ธฐ๋ฐ์ ๋จ์ด ํํ ๋ฐฉ๋ฒ์ธ Bag of Words(BoW) ๊ฐ๋ ๊ณผ ์์ฑ ๋ฐฉ๋ฒ์ ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. BoW ๊ฐ๋ 2. BoW ํน์ง3. BoW ์์ฑ ์ ์ฐจ4. BoW ์์ฑ ์ค์ต1. BoW ๊ฐ๋ Bag of Words(BoW)๋ ๋จ์ด๋ฅผ ์์นํํ๋ ๋ฐฉ๋ฒ ์ค ํ๋๋ก, ๋ฌธ์ ๋ด ๋จ์ด์ ์์์ ์๋ฏธ๋ ๊ณ ๋ คํ์ง ์๊ณ ์ค์ง ์ถํ ๋น๋(frequency)๋ง ๊ณ ๋ คํ์ฌ ๋จ์ด๋ฅผ ํํํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. BoW๋ ๊ตญ์ ํํ๋ฐฉ๋ฒ(Local Representation) ๋๋ ์ด์ฐ ํํ๋ฐฉ๋ฒ(Discrete Representation)์ ์ผ์ข ์ผ๋ก ์นด์ดํธ ๊ธฐ๋ฐ์ ๋จ์ด ํํ๋ฐฉ๋ฒ(Count-based Word Representation)์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค(๊ทธ๋ฆผ 1 ์ฐธ๊ณ ).2. BoW ํน์งBoW๋ ์ด๋ค ๋จ์ด๋ค์ด ๋ช ํ..
๐ ๋ชฉ์ฐจ1. KoNLPy setup 1.1. KoNLPy ์ค์น 1.2. KoNLPy import 1.3. ํํ์ ๋ถ์๊ธฐ ๋น๊ต 2. ํํ์๋ณ ํ ํฐํ(tokenization)ํ๊ธฐ 2.1. ํ ํฐํ without ํ์ฌ ํ๊น 2.2. ํ ํฐํ with ํ์ฌ ํ๊น 2.3. ๋ช ์ฌ๋ง ์ถ์ถํ๊ธฐ1. KoNLPy setup1.1. KoNLPy ์ค์นKoNLPy ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์ค์น๋์ด ์์ง ์๋ ๋ถ๋ค์ ์๋ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํ์ ์ ์ค์นํด ์ฃผ์๊ธธ ๋ฐ๋๋๋ค.heytech.tistory.com/3 [Python/NLP] MacOS์์ KoNLPy ์ค์นํ๊ธฐ์ค๋์ ํ๊ตญ์ด ์์ฐ์ด์ฒ๋ฆฌ(NLP)๋ฅผ ์ํ ํ์ด์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ KoNLPy๋ฅผ MacOS์์ ์ค์นํ๋ ๋ฐฉ๋ฒ์ ๊ณต์ ํฉ๋๋ค. 1. ์ฌ์ ์ค์นํญ๋ชฉ 1.1. ..
