๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋กํ…์ŠคํŠธ ๋ถ„์„ (6)

DATA101

[NLP] LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง์„ ํ™œ์šฉํ•œ ์•ฑ ๋ฆฌ๋ทฐ ๋ถ„์„ ํ”„๋กœ์ ํŠธ

๐Ÿ“š ๋ชฉ์ฐจ1. ๊ฐœ์š” 2. ๋ฐ์ดํ„ฐ์…‹ 3. LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง ๊ฐœ๋… 4. LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง ์‹œ๊ฐํ™” 5. ์ „์ฒด ์ฝ”๋“œ 6. ์ฝ”๋“œ ์„ค๋ช… 7. ๊ฒฐ๊ณผ ํ•ด์„๋ฐฉ๋ฒ• 8. ์ธ์‚ฌ์ดํŠธ ๋„์ถœ1. ๊ฐœ์š”๋ณธ ํ”„๋กœ์ ํŠธ์—์„œ๋Š” ๊ฑด๊ฐ•๊ด€๋ฆฌ ์•ฑ ๋ฆฌ๋ทฐ ํ…์ŠคํŠธ๋งˆ์ด๋‹์„ ํ†ตํ•ด ๊ณ ๊ฐ์˜ ๋‹ˆ์ฆˆ๋ฅผ ๋ถ„์„ํ•˜๊ณ , ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ฑด๊ฐ•๊ด€๋ฆฌ ์•ฑ์˜ ๋””์ž์ธ ์ „๋žต์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ตญ๋‚ด ๊ตฌ๊ธ€ ํ”Œ๋ ˆ์ด ์Šคํ† ์–ด์—์„œ ๊ฑด๊ฐ•๊ด€๋ฆฌ ์•ฑ 424๊ฐœ์—์„œ ๋ฆฌ๋ทฐ 54๋งŒ ๊ฑด์„ ์ˆ˜์ง‘ํ•˜์˜€์œผ๋ฉฐ, LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง์„ ํ†ตํ•ด ์‹ฌ์ธต์ ์œผ๋กœ ๊ณ ๊ฐ์˜ ๋‹ˆ์ฆˆ๋ฅผ ๋ถ„์„ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ „์ฒด ์ฝ”๋“œ ๋ฐ ๋ฐ์ดํ„ฐ์…‹์€ Github์— ์—…๋กœ๋“œํ•ด ๋‘์—ˆ์Šต๋‹ˆ๋‹ค.2. ๋ฐ์ดํ„ฐ์…‹2.1. ์‚ฌ์šฉ์ž ๋ฆฌ๋ทฐํ•œ๊ตญ ๊ตฌ๊ธ€ ํ”Œ๋ ˆ์ด ์Šคํ† ์–ด ๋‚ด ๊ฑด๊ฐ•๊ด€๋ฆฌ ์•ฑ 424๊ฐœ์—์„œ ๋ฆฌ๋ทฐ 54๋งŒ ๊ฑด ์ˆ˜์ง‘(์›๋ณธ: Github)๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•: ๊ตฌ๊ธ€ ํ”Œ๋ ˆ์ด ์Šคํ† ์–ด ๋ฆฌ๋ทฐ ์ˆ˜์ง‘ ํฌ๋กค๋Ÿฌ ์ž์ฒด..

Mecab ์„ค์น˜ ์—๋Ÿฌ ํ•ด๊ฒฐํ•˜๊ธฐ: "Exception: Install MeCab in order to use it: http://konlpy.org/en/latest/install/"

๐Ÿ‘จ‍๐Ÿ’ป ๋“ค์–ด๊ฐ€๋ฉฐKoNLPy์™€ Mecab ํŒจํ‚ค์ง€๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ์„ค์น˜๋˜์–ด ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค. ํ˜น์‹œ๋‚˜ ์„ค์น˜๋˜์–ด ์žˆ์ง€ ์•Š๋‹ค๋ฉด ์•„๋ž˜ ํฌ์ŠคํŒ…์„ ์ฐธ๊ณ ํ•ด ์ฃผ์„ธ์š”.https://heytech.tistory.com/3 [Python/NLP] KoNLPy ์„ค์น˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž!์˜ค๋Š˜์€ ํ•œ๊ตญ์–ด ์ž์—ฐ์–ด์ฒ˜๋ฆฌ(NLP)๋ฅผ ์œ„ํ•œ ํŒŒ์ด์ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ KoNLPy๋ฅผ ์„ค์น˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค. 1. ํ„ฐ๋ฏธ๋„/์ปค๋งจ๋“œ๋ผ์ธ ์˜คํ”ˆ ๊ฐ€์žฅ ๋จผ์ €, ํ„ฐ๋ฏธ๋„/์ปค๋งจ๋“œ๋ผ์ธ์„ ์—ด์–ด์ค๋‹ˆ๋‹ค. 2. KoNLPy ํŒจํ‚ค์ง€ ์„ค์น˜ pip iheytech.tistory.comMecab ์„ค์น˜๋ฐฉ๋ฒ•bash ๋ณธ๊ฒฉ์ ์œผ๋กœ ์—๋Ÿฌ ํ•ด๊ฒฐ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.๐Ÿค– ์—๋Ÿฌ ์ƒํ™ฉfrom konlpy.tag import MecabMecab().nouns("ํ—ค์ด ํ…Œํฌ ๋ธ”๋กœ๊ทธ์ž…๋‹ˆ๋‹ค.")Mecab ํ˜•ํƒœ..

[NLP] ๋ฌธ์„œ ์œ ์‚ฌ๋„ ๋ถ„์„: (1) ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„(Cosine Similarity)

๐Ÿ“š ๋ชฉ์ฐจ1. ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ๊ฐœ๋…2. ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ์‹ค์Šต1. ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ๊ฐœ๋…์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„(Cosine Similarity)๋ž€ ๋‘ ๋ฒกํ„ฐ ์‚ฌ์ด์˜ ๊ฐ๋„๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๋‘ ๋ฒกํ„ฐ๊ฐ€ ์–ผ๋งˆ๋‚˜ ์œ ์‚ฌํ•œ์ง€ ์ธก์ •ํ•˜๋Š” ์ฒ™๋„์ž…๋‹ˆ๋‹ค. ์ฆ‰, DTM, TF-IDF, Word2Vec ๋“ฑ๊ณผ ๊ฐ™์ด ๋‹จ์–ด๋ฅผ ์ˆ˜์น˜ํ™”ํ•˜์—ฌ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ฌธ์„œ ๊ฐ„ ์œ ์‚ฌ๋„๋ฅผ ๋น„๊ตํ•˜๋Š” ๊ฒŒ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๋Š” \(1\)์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ๋‘ ๋ฒกํ„ฐ๊ฐ€ ์œ ์‚ฌํ•˜๋‹ค๊ณ  ํ•ด์„ํ•˜๋ฉฐ, ๋ฌธ์„œ์˜ ๊ธธ์ด๊ฐ€ ๋‹ค๋ฅธ ๊ฒฝ์šฐ์—๋„ ๋น„๊ต์  ๊ณต์ •ํ•˜๊ฒŒ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ™์ด ๋‘ ๋ฒกํ„ฐ๊ฐ€ ๊ฐ™์€ ๋ฐฉํ–ฅ์„ ๊ฐ€๋ฆฌํ‚ค๋Š”, ์ฆ‰ ๋‘ ๋ฒกํ„ฐ ์‚ฌ์ด์˜ ๊ฐ๋„๊ฐ€ \(0^\circ\)์ผ ๋•Œ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๊ฐ€ ์ตœ๋Œ“๊ฐ’์ธ 1์„ ๊ฐ–์Šต๋‹ˆ๋‹ค. \(A\), \(B\)๋ผ๋Š” ๋‘ ๋ฒกํ„ฐ๊ฐ€..

[NLP] N-gram ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ฐœ๋…, ์ข…๋ฅ˜, ํ•œ๊ณ„์ 

๐Ÿ“š ๋ชฉ์ฐจ1. N-gram ๊ฐœ๋…2. N-gram ๋“ฑ์žฅ ๋ฐฐ๊ฒฝ3. N-gram ์ข…๋ฅ˜ 4. N-gram ๊ธฐ๋ฐ˜ ๋‹จ์–ด ์˜ˆ์ธก 5. N-gram์˜ ํ•œ๊ณ„์ 1. N-gram ๊ฐœ๋…์–ธ์–ด ๋ชจ๋ธ(Language Model)์€ ๋ฌธ์žฅ ๋‚ด ์•ž์„œ ๋“ฑ์žฅํ•œ ๋‹จ์–ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ด์–ด์„œ ๋“ฑ์žฅํ•  ์ ์ ˆํ•œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์–ธ์–ด ๋ชจ๋ธ์€ ํฌ๊ฒŒ ํ†ต๊ณ„ํ•™ ๊ธฐ๋ฐ˜์˜ ์–ธ์–ด ๋ชจ๋ธ(Statistical Language Model, SLM)๊ณผ ์ธ๊ณต์‹ ๊ฒฝ๋ง(Artificial Neural Network, ANN) ๊ธฐ๋ฐ˜์˜ ์–ธ์–ด ๋ชจ๋ธ์ด ์žˆ์Šต๋‹ˆ๋‹ค. N-gram์€ ํ†ต๊ณ„ํ•™ ๊ธฐ๋ฐ˜์˜ ์–ธ์–ด ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. N-gram ์–ธ์–ด ๋ชจ๋ธ์€ ์ด์ฒ˜๋Ÿผ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•  ๋•Œ ๋ฌธ์žฅ ๋‚ด ๋ชจ๋“  ๋‹จ์–ด๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š๊ณ  ํŠน์ • ๋‹จ์–ด์˜ ๊ฐœ์ˆ˜(\(N\))๋งŒ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, N-gram์€ \(N\)..

[NLP] ์–ธ์–ด๋ชจ๋ธ(Language Model)์˜ ๊ฐœ๋… ๋ฐ ํŠน์ง•

๋ณธ ํฌ์ŠคํŒ…์—์„œ๋Š” ํ†ต๊ณ„ํ•™์  ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ฐœ๋… ๋ฐ ํŠน์ง•์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค.๐Ÿ“š ๋ชฉ์ฐจ1. ๊ฐœ๋… 2. ํ™•๋ฅ ์  ํ‘œํ˜„ 3. ์ ์šฉ๋ถ„์•ผ1. ๊ฐœ๋…1.1. ๊ฐœ์š”์–ธ์–ด ๋ชจ๋ธ(Language Model)์€ ๋ฌธ์žฅ์ด ์–ผ๋งˆ๋‚˜ ์ž์—ฐ์Šค๋Ÿฌ์šด์ง€ ํ™•๋ฅ ์ ์œผ๋กœ ๊ณ„์‚ฐํ•จ์œผ๋กœ์จ ๋ฌธ์žฅ ๋‚ด ํŠน์ • ์œ„์น˜์— ์ถœํ˜„ํ•˜๊ธฐ ์ ํ•ฉํ•œ ๋‹จ์–ด๋ฅผ ํ™•๋ฅ ์ ์œผ๋กœ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ๋”์šฑ ์‰ฝ๊ฒŒ ์„ค๋ช…ํ•˜์ž๋ฉด, ์–ธ์–ด ๋ชจ๋ธ์€ ๋ฌธ์žฅ ๋‚ด ์•ž์„œ ๋“ฑ์žฅํ•œ ๋‹จ์–ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋’ค์— ์–ด๋–ค ๋‹จ์–ด๊ฐ€ ๋“ฑ์žฅํ•ด์•ผ ๋ฌธ์žฅ์ด ์ž์—ฐ์Šค๋Ÿฌ์šด์ง€ ํŒ๋‹จํ•˜๋Š” ๋„๊ตฌ์ž…๋‹ˆ๋‹ค.์–ธ์–ด ๋ชจ๋ธ์€ ํฌ๊ฒŒ ํ†ต๊ณ„ํ•™์  ์–ธ์–ด ๋ชจ๋ธ๊ณผ ์ธ๊ณต์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜์˜ ์–ธ์–ด ๋ชจ๋ธ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ตœ๊ทผ์—๋Š” BERT, GPT-3์™€ ๊ฐ™์€ ์ธ๊ณต์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜์˜ ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚˜ ๋Œ€๋ถ€๋ถ„์˜ ์ž์—ฐ์–ด์ฒ˜๋ฆฌ ๋ฌธ์ œ์—์„œ๋Š” ์ธ๊ณต์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜์˜ ์–ธ์–ด ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ํฌ์ŠคํŒ…์—์„œ๋Š” ํ†ต๊ณ„ํ•™ ..

LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง ๊ฐœ๋… ์„ค๋ช…

๐Ÿ‘จ‍๐Ÿ’ป ๋“ค์–ด๊ฐ€๋ฉฐ๋ณธ ํฌ์ŠคํŒ…์—์„œ๋Š” LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง์˜ ๊ฐœ๋…, ๊ฐ€์ •, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ”„๋กœ์„ธ์Šค์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค. ํŠนํžˆ, ์ˆ˜ํ•™์ ์ธ ์ˆ˜์‹ ์—†์ด LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‰ฌ์šด ์˜ˆ์‹œ์™€ ํ•จ๊ป˜ ๋น ๋ฅด๊ฒŒ ์ดํ•ดํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋‘ก๋‹ˆ๋‹ค. LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง ๊ด€๋ จ ์‹ค์Šต์€ ์•„๋ž˜ ํฌ์ŠคํŒ…์„ ์ฐธ๊ณ ํ•ด ์ฃผ์‹œ๊ธธ ๋ฐ”๋ž๋‹ˆ๋‹ค.https://heytech.tistory.com/401 [NLP] LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง์„ ํ™œ์šฉํ•œ ์•ฑ ๋ฆฌ๋ทฐ ๋ถ„์„ ํ”„๋กœ์ ํŠธ๐Ÿ“š ๋ชฉ์ฐจ 1. ๊ฐœ์š” 2. ๋ฐ์ดํ„ฐ์…‹ 3. LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง ๊ฐœ๋… 4. LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง ์‹œ๊ฐํ™” 5. ์ „์ฒด ์ฝ”๋“œ 6. ์ฝ”๋“œ ์„ค๋ช… 7. ๊ฒฐ๊ณผ ํ•ด์„๋ฐฉ๋ฒ• 8. ์ธ์‚ฌ์ดํŠธ ๋„์ถœ 1. ๊ฐœ์š” ๋ณธ ํ”„๋กœ์ ํŠธ๋Š” ๊ฑด๊ฐ•๊ด€๋ฆฌ ์•ฑ ๋ฆฌ๋ทฐ ํ…์ŠคํŠธ๋งˆ์ด๋‹heytech.tistory.com๐Ÿ“ ๋ชฉ์ฐจ 1. LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง์˜ ๊ฐœ๋… 2...