- Today
- Total
๋ชฉ๋กํ ์คํธ ๋ถ์ (6)
DATA101
๐ ๋ชฉ์ฐจ1. ๊ฐ์ 2. ๋ฐ์ดํฐ์ 3. LDA ํ ํฝ ๋ชจ๋ธ๋ง ๊ฐ๋ 4. LDA ํ ํฝ ๋ชจ๋ธ๋ง ์๊ฐํ 5. ์ ์ฒด ์ฝ๋ 6. ์ฝ๋ ์ค๋ช 7. ๊ฒฐ๊ณผ ํด์๋ฐฉ๋ฒ 8. ์ธ์ฌ์ดํธ ๋์ถ1. ๊ฐ์๋ณธ ํ๋ก์ ํธ์์๋ ๊ฑด๊ฐ๊ด๋ฆฌ ์ฑ ๋ฆฌ๋ทฐ ํ ์คํธ๋ง์ด๋์ ํตํด ๊ณ ๊ฐ์ ๋์ฆ๋ฅผ ๋ถ์ํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ๊ฑด๊ฐ๊ด๋ฆฌ ์ฑ์ ๋์์ธ ์ ๋ต์ ์ ์ํฉ๋๋ค. ๊ตญ๋ด ๊ตฌ๊ธ ํ๋ ์ด ์คํ ์ด์์ ๊ฑด๊ฐ๊ด๋ฆฌ ์ฑ 424๊ฐ์์ ๋ฆฌ๋ทฐ 54๋ง ๊ฑด์ ์์งํ์์ผ๋ฉฐ, LDA ํ ํฝ ๋ชจ๋ธ๋ง์ ํตํด ์ฌ์ธต์ ์ผ๋ก ๊ณ ๊ฐ์ ๋์ฆ๋ฅผ ๋ถ์ํ์์ต๋๋ค. ์ ์ฒด ์ฝ๋ ๋ฐ ๋ฐ์ดํฐ์ ์ Github์ ์ ๋ก๋ํด ๋์์ต๋๋ค.2. ๋ฐ์ดํฐ์ 2.1. ์ฌ์ฉ์ ๋ฆฌ๋ทฐํ๊ตญ ๊ตฌ๊ธ ํ๋ ์ด ์คํ ์ด ๋ด ๊ฑด๊ฐ๊ด๋ฆฌ ์ฑ 424๊ฐ์์ ๋ฆฌ๋ทฐ 54๋ง ๊ฑด ์์ง(์๋ณธ: Github)๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ: ๊ตฌ๊ธ ํ๋ ์ด ์คํ ์ด ๋ฆฌ๋ทฐ ์์ง ํฌ๋กค๋ฌ ์์ฒด..
๐จ๐ป ๋ค์ด๊ฐ๋ฉฐKoNLPy์ Mecab ํจํค์ง๋ ๊ธฐ๋ณธ์ ์ผ๋ก ์ค์น๋์ด ์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค. ํน์๋ ์ค์น๋์ด ์์ง ์๋ค๋ฉด ์๋ ํฌ์คํ ์ ์ฐธ๊ณ ํด ์ฃผ์ธ์.https://heytech.tistory.com/3 [Python/NLP] KoNLPy ์ค์นํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณด์!์ค๋์ ํ๊ตญ์ด ์์ฐ์ด์ฒ๋ฆฌ(NLP)๋ฅผ ์ํ ํ์ด์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ KoNLPy๋ฅผ ์ค์นํ๋ ๋ฐฉ๋ฒ์ ๊ณต์ ํฉ๋๋ค. 1. ํฐ๋ฏธ๋/์ปค๋งจ๋๋ผ์ธ ์คํ ๊ฐ์ฅ ๋จผ์ , ํฐ๋ฏธ๋/์ปค๋งจ๋๋ผ์ธ์ ์ด์ด์ค๋๋ค. 2. KoNLPy ํจํค์ง ์ค์น pip iheytech.tistory.comMecab ์ค์น๋ฐฉ๋ฒbash ๋ณธ๊ฒฉ์ ์ผ๋ก ์๋ฌ ํด๊ฒฐ๋ฐฉ๋ฒ์ ๋ค๋ฃน๋๋ค.๐ค ์๋ฌ ์ํฉfrom konlpy.tag import MecabMecab().nouns("ํค์ด ํ ํฌ ๋ธ๋ก๊ทธ์ ๋๋ค.")Mecab ํํ..
๐ ๋ชฉ์ฐจ1. ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ฐ๋ 2. ์ฝ์ฌ์ธ ์ ์ฌ๋ ์ค์ต1. ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ฐ๋ ์ฝ์ฌ์ธ ์ ์ฌ๋(Cosine Similarity)๋ ๋ ๋ฒกํฐ ์ฌ์ด์ ๊ฐ๋๋ฅผ ๊ณ์ฐํ์ฌ ๋ ๋ฒกํฐ๊ฐ ์ผ๋ง๋ ์ ์ฌํ์ง ์ธก์ ํ๋ ์ฒ๋์ ๋๋ค. ์ฆ, DTM, TF-IDF, Word2Vec ๋ฑ๊ณผ ๊ฐ์ด ๋จ์ด๋ฅผ ์์นํํ์ฌ ํํํ ์ ์๋ค๋ฉด ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ํ์ฉํ์ฌ ๋ฌธ์ ๊ฐ ์ ์ฌ๋๋ฅผ ๋น๊ตํ๋ ๊ฒ ๊ฐ๋ฅํฉ๋๋ค. ์ฝ์ฌ์ธ ์ ์ฌ๋๋ \(1\)์ ๊ฐ๊น์ธ์๋ก ๋ ๋ฒกํฐ๊ฐ ์ ์ฌํ๋ค๊ณ ํด์ํ๋ฉฐ, ๋ฌธ์์ ๊ธธ์ด๊ฐ ๋ค๋ฅธ ๊ฒฝ์ฐ์๋ ๋น๊ต์ ๊ณต์ ํ๊ฒ ๋น๊ตํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ์๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด ๋ ๋ฒกํฐ๊ฐ ๊ฐ์ ๋ฐฉํฅ์ ๊ฐ๋ฆฌํค๋, ์ฆ ๋ ๋ฒกํฐ ์ฌ์ด์ ๊ฐ๋๊ฐ \(0^\circ\)์ผ ๋ ์ฝ์ฌ์ธ ์ ์ฌ๋๊ฐ ์ต๋๊ฐ์ธ 1์ ๊ฐ์ต๋๋ค. \(A\), \(B\)๋ผ๋ ๋ ๋ฒกํฐ๊ฐ..
๐ ๋ชฉ์ฐจ1. N-gram ๊ฐ๋ 2. N-gram ๋ฑ์ฅ ๋ฐฐ๊ฒฝ3. N-gram ์ข ๋ฅ 4. N-gram ๊ธฐ๋ฐ ๋จ์ด ์์ธก 5. N-gram์ ํ๊ณ์ 1. N-gram ๊ฐ๋ ์ธ์ด ๋ชจ๋ธ(Language Model)์ ๋ฌธ์ฅ ๋ด ์์ ๋ฑ์ฅํ ๋จ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด์ด์ ๋ฑ์ฅํ ์ ์ ํ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ ๋๋ค. ์ธ์ด ๋ชจ๋ธ์ ํฌ๊ฒ ํต๊ณํ ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ(Statistical Language Model, SLM)๊ณผ ์ธ๊ณต์ ๊ฒฝ๋ง(Artificial Neural Network, ANN) ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ด ์์ต๋๋ค. N-gram์ ํต๊ณํ ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ ์ค ํ๋์ ๋๋ค. N-gram ์ธ์ด ๋ชจ๋ธ์ ์ด์ฒ๋ผ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ ๋ ๋ฌธ์ฅ ๋ด ๋ชจ๋ ๋จ์ด๋ฅผ ๊ณ ๋ คํ์ง ์๊ณ ํน์ ๋จ์ด์ ๊ฐ์(\(N\))๋ง ๊ณ ๋ คํฉ๋๋ค. ์ฆ, N-gram์ \(N\)..
๋ณธ ํฌ์คํ ์์๋ ํต๊ณํ์ ์ธ์ด ๋ชจ๋ธ์ ๊ฐ๋ ๋ฐ ํน์ง์ ๋ํด ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. ๊ฐ๋ 2. ํ๋ฅ ์ ํํ 3. ์ ์ฉ๋ถ์ผ1. ๊ฐ๋ 1.1. ๊ฐ์์ธ์ด ๋ชจ๋ธ(Language Model)์ ๋ฌธ์ฅ์ด ์ผ๋ง๋ ์์ฐ์ค๋ฌ์ด์ง ํ๋ฅ ์ ์ผ๋ก ๊ณ์ฐํจ์ผ๋ก์จ ๋ฌธ์ฅ ๋ด ํน์ ์์น์ ์ถํํ๊ธฐ ์ ํฉํ ๋จ์ด๋ฅผ ํ๋ฅ ์ ์ผ๋ก ์์ธกํ๋ ๋ชจ๋ธ์ ๋๋ค. ๋์ฑ ์ฝ๊ฒ ์ค๋ช ํ์๋ฉด, ์ธ์ด ๋ชจ๋ธ์ ๋ฌธ์ฅ ๋ด ์์ ๋ฑ์ฅํ ๋จ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ์ด๋ค ๋จ์ด๊ฐ ๋ฑ์ฅํด์ผ ๋ฌธ์ฅ์ด ์์ฐ์ค๋ฌ์ด์ง ํ๋จํ๋ ๋๊ตฌ์ ๋๋ค.์ธ์ด ๋ชจ๋ธ์ ํฌ๊ฒ ํต๊ณํ์ ์ธ์ด ๋ชจ๋ธ๊ณผ ์ธ๊ณต์ ๊ฒฝ๋ง ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ด ์์ต๋๋ค. ์ต๊ทผ์๋ BERT, GPT-3์ ๊ฐ์ ์ธ๊ณต์ ๊ฒฝ๋ง ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๋๋ถ๋ถ์ ์์ฐ์ด์ฒ๋ฆฌ ๋ฌธ์ ์์๋ ์ธ๊ณต์ ๊ฒฝ๋ง ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. ๋ณธ ํฌ์คํ ์์๋ ํต๊ณํ ..
๐จ๐ป ๋ค์ด๊ฐ๋ฉฐ๋ณธ ํฌ์คํ ์์๋ LDA ํ ํฝ ๋ชจ๋ธ๋ง์ ๊ฐ๋ , ๊ฐ์ , ์๊ณ ๋ฆฌ์ฆ ํ๋ก์ธ์ค์ ๋ํด ์์๋ด ๋๋ค. ํนํ, ์ํ์ ์ธ ์์ ์์ด LDA ํ ํฝ ๋ชจ๋ธ๋ง์ ๋ฉ์ปค๋์ฆ์ ์ฌ์ด ์์์ ํจ๊ป ๋น ๋ฅด๊ฒ ์ดํดํ๋ ๋ฐ ์ด์ ์ ๋ก๋๋ค. LDA ํ ํฝ ๋ชจ๋ธ๋ง ๊ด๋ จ ์ค์ต์ ์๋ ํฌ์คํ ์ ์ฐธ๊ณ ํด ์ฃผ์๊ธธ ๋ฐ๋๋๋ค.https://heytech.tistory.com/401 [NLP] LDA ํ ํฝ ๋ชจ๋ธ๋ง์ ํ์ฉํ ์ฑ ๋ฆฌ๋ทฐ ๋ถ์ ํ๋ก์ ํธ๐ ๋ชฉ์ฐจ 1. ๊ฐ์ 2. ๋ฐ์ดํฐ์ 3. LDA ํ ํฝ ๋ชจ๋ธ๋ง ๊ฐ๋ 4. LDA ํ ํฝ ๋ชจ๋ธ๋ง ์๊ฐํ 5. ์ ์ฒด ์ฝ๋ 6. ์ฝ๋ ์ค๋ช 7. ๊ฒฐ๊ณผ ํด์๋ฐฉ๋ฒ 8. ์ธ์ฌ์ดํธ ๋์ถ 1. ๊ฐ์ ๋ณธ ํ๋ก์ ํธ๋ ๊ฑด๊ฐ๊ด๋ฆฌ ์ฑ ๋ฆฌ๋ทฐ ํ ์คํธ๋ง์ด๋heytech.tistory.com๐ ๋ชฉ์ฐจ 1. LDA ํ ํฝ ๋ชจ๋ธ๋ง์ ๊ฐ๋ 2...