๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋กnlp (20)

DATA101

๐Ÿ† ๋ฐ์ดํ„ฐ์›Œ๋„ˆ์›, ํ”„๋ฆฌ๋žœ์„œ ๋งˆ์ผ“ ์ƒ์œ„ 2% ์ „๋ฌธ๊ฐ€ 'ํฌ๋ชฝ prime ์„œ๋น„์Šค' ์„ ์ •!

๐Ÿ‘ ์ง€๋‚œ 2์›”, ๋ฐ์ดํ„ฐ์›Œ๋„ˆ์› ํŒ€์˜ AI/๋น…๋ฐ์ดํ„ฐ๋ถ„์„ ์†”๋ฃจ์…˜์ด No.1 ํ”„๋ฆฌ๋žœ์„œ ๋งˆ์ผ“ ํฌ๋ชฝ์—์„œ ์—„์„ ํ•œ ์ƒ์œ„ 2% ์ „๋ฌธ๊ฐ€ ์„œ๋น„์Šค์ธ prime์— ์„ ์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค.  ๐Ÿ† prime์€ 100๋งŒ ๊ฑด ์ด์ƒ์˜ ํฌ๋ชฝ ๊ฑฐ๋ž˜ Data๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์„œ๋น„์Šค ๋งŒ์กฑ๋„ 99% ์ด์ƒ์ธ ์ „๋ฌธ๊ฐ€ ์ธํ„ฐ๋ทฐ ๋ฐ ๋ ˆํผ๋Ÿฐ์Šค ์ฒดํฌ๋ฅผ ํ†ตํ•ด ์—„์„ ๋œ 300์—ฌ ๋ช…์˜ ์†Œ์ˆ˜ ์ „๋ฌธ๊ฐ€์—๊ฒŒ๋งŒ ์ฃผ์–ด์ง€๋Š” ์„œ๋น„์Šค์ž…๋‹ˆ๋‹ค.   ๐Ÿค ์ฃผ๋กœ Prime ์ „๋ฌธ๊ฐ€๋Š” ๋Œ€๊ธฐ์—…๋ถ€ํ„ฐ ์Šคํƒ€ํŠธ์—…, ์ •๋ถ€๊ธฐ๊ด€๊นŒ์ง€ B2B ๊ณ ๊ฐ์„ ์ฃผ ํƒ€๊ฒŸ์œผ๋กœ ๊ฑฐ๋ž˜ํ•˜๋Š” ํ’ˆ์งˆ๋ณด์žฅ ์—…์ฒด๋“ค๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.  ๐Ÿ‘จ‍๐Ÿ’ป ํ˜„์žฌ ์ €ํฌ ๋ฐ์ดํ„ฐ์›Œ๋„ˆ์› ํŒ€์€ AI๋ฅผ ํ™œ์šฉํ•œ ๋น…๋ฐ์ดํ„ฐ๋ถ„์„ ์†”๋ฃจ์…˜ ๊ตฌ์ถ•๋ถ€ํ„ฐ ๋‹ค์–‘ํ•œ ์‚ฐ์—…๊ตฐ์˜ ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ณผ์ œ ์ˆ˜ํ–‰์„ ์ง€์›ํ•ด ๋“œ๋ฆฌ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.  ๐Ÿ™ AI ๊ธฐ์ˆ ์„ ํ™œ์šฉํ•œ SW ์ธํ”„๋ผ ๊ตฌ์ถ•์ด๋‚˜ ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„..

[Deep Learning] RNN ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋… ์ดํ•ด

๐Ÿ“š ๋ชฉ์ฐจ 1. RNN ๊ฐœ๋… 2. RNN ์ˆ˜์‹ 3. RNN ์šฉ๋„ 1. RNN ๊ฐœ๋… Recurrent Neural Network(RNN)์€ ์ž์—ฐ์–ด ๋ฌธ์žฅ๊ณผ ๊ฐ™์ด ๋‹จ์–ด์˜ ์ˆœ์„œ์— ๋”ฐ๋ผ ์˜๋ฏธ๊ฐ€ ๋‹ฌ๋ผ์ง€๋Š” ์ˆœ์ฐจ ๋ฐ์ดํ„ฐ(Sequential Data)๋ฅผ ๋‹ค๋ฃฐ ๋•Œ ์ฃผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์‹ ๊ฒฝ๋ง์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ RNN์€ ๋‹จ์–ด์˜ ์–ด์ˆœ์— ๋”ฐ๋ผ ๋ฌธ์žฅ์˜ ์˜๋ฏธ๊ฐ€ ๋‹ฌ๋ผ์ง€๊ณ  ์•ž์— ์–ด๋–ค ๋‹จ์–ด๊ฐ€ ์“ฐ์˜€๋Š”์ง€ ๊ธฐ์–ตํ•ด์•ผ ๋’ค์— ์˜ค๋Š” ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋“ฑ์˜ ๋ฌธ์ œ๋ฅผ ํ’€ ๋•Œ ์ฃผ๋กœ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. RNN์€ Hidden Layer์˜ ๋…ธ๋“œ์—์„œ ํ™œ์„ฑํ™” ํ•จ์ˆ˜(Activation Function)๋ฅผ ๊ฑฐ์ณ ๋‚˜์˜จ ๊ฒฐ๊ด๊ฐ’์„ Output Layer๋กœ ๋ณด๋‚ด๋ฉด์„œ ๋‹ค์‹œ ๋‹ค์Œ Hidden Layer ๋…ธ๋“œ ๊ณ„์‚ฐ์˜ ์ž…๋ ฅ๊ฐ’์œผ๋กœ ๋ณด๋‚ด๋Š” ์‹ ๊ฒฝ๋ง์ž…๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ, ๊ฒฐ๊ด๊ฐ’์ด ๋‹ค์Œ Hidden Layer ๋…ธ๋“œ์˜..

[NLP] LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง์„ ํ™œ์šฉํ•œ ์•ฑ ๋ฆฌ๋ทฐ ๋ถ„์„ ํ”„๋กœ์ ํŠธ

๐Ÿ“š ๋ชฉ์ฐจ1. ๊ฐœ์š” 2. ๋ฐ์ดํ„ฐ์…‹ 3. LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง ๊ฐœ๋… 4. LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง ์‹œ๊ฐํ™” 5. ์ „์ฒด ์ฝ”๋“œ 6. ์ฝ”๋“œ ์„ค๋ช… 7. ๊ฒฐ๊ณผ ํ•ด์„๋ฐฉ๋ฒ• 8. ์ธ์‚ฌ์ดํŠธ ๋„์ถœ1. ๊ฐœ์š”๋ณธ ํ”„๋กœ์ ํŠธ์—์„œ๋Š” ๊ฑด๊ฐ•๊ด€๋ฆฌ ์•ฑ ๋ฆฌ๋ทฐ ํ…์ŠคํŠธ๋งˆ์ด๋‹์„ ํ†ตํ•ด ๊ณ ๊ฐ์˜ ๋‹ˆ์ฆˆ๋ฅผ ๋ถ„์„ํ•˜๊ณ , ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ฑด๊ฐ•๊ด€๋ฆฌ ์•ฑ์˜ ๋””์ž์ธ ์ „๋žต์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๊ตญ๋‚ด ๊ตฌ๊ธ€ ํ”Œ๋ ˆ์ด ์Šคํ† ์–ด์—์„œ ๊ฑด๊ฐ•๊ด€๋ฆฌ ์•ฑ 424๊ฐœ์—์„œ ๋ฆฌ๋ทฐ 54๋งŒ ๊ฑด์„ ์ˆ˜์ง‘ํ•˜์˜€์œผ๋ฉฐ, LDA ํ† ํ”ฝ ๋ชจ๋ธ๋ง์„ ํ†ตํ•ด ์‹ฌ์ธต์ ์œผ๋กœ ๊ณ ๊ฐ์˜ ๋‹ˆ์ฆˆ๋ฅผ ๋ถ„์„ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ „์ฒด ์ฝ”๋“œ ๋ฐ ๋ฐ์ดํ„ฐ์…‹์€ Github์— ์—…๋กœ๋“œํ•ด ๋‘์—ˆ์Šต๋‹ˆ๋‹ค.2. ๋ฐ์ดํ„ฐ์…‹2.1. ์‚ฌ์šฉ์ž ๋ฆฌ๋ทฐํ•œ๊ตญ ๊ตฌ๊ธ€ ํ”Œ๋ ˆ์ด ์Šคํ† ์–ด ๋‚ด ๊ฑด๊ฐ•๊ด€๋ฆฌ ์•ฑ 424๊ฐœ์—์„œ ๋ฆฌ๋ทฐ 54๋งŒ ๊ฑด ์ˆ˜์ง‘(์›๋ณธ: Github)๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐฉ๋ฒ•: ๊ตฌ๊ธ€ ํ”Œ๋ ˆ์ด ์Šคํ† ์–ด ๋ฆฌ๋ทฐ ์ˆ˜์ง‘ ํฌ๋กค๋Ÿฌ ์ž์ฒด..

Mecab ์„ค์น˜ ์—๋Ÿฌ ํ•ด๊ฒฐํ•˜๊ธฐ: "Exception: Install MeCab in order to use it: http://konlpy.org/en/latest/install/"

๐Ÿ‘จ‍๐Ÿ’ป ๋“ค์–ด๊ฐ€๋ฉฐKoNLPy์™€ Mecab ํŒจํ‚ค์ง€๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ์„ค์น˜๋˜์–ด ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค. ํ˜น์‹œ๋‚˜ ์„ค์น˜๋˜์–ด ์žˆ์ง€ ์•Š๋‹ค๋ฉด ์•„๋ž˜ ํฌ์ŠคํŒ…์„ ์ฐธ๊ณ ํ•ด ์ฃผ์„ธ์š”.https://heytech.tistory.com/3 [Python/NLP] KoNLPy ์„ค์น˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž!์˜ค๋Š˜์€ ํ•œ๊ตญ์–ด ์ž์—ฐ์–ด์ฒ˜๋ฆฌ(NLP)๋ฅผ ์œ„ํ•œ ํŒŒ์ด์ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ KoNLPy๋ฅผ ์„ค์น˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค. 1. ํ„ฐ๋ฏธ๋„/์ปค๋งจ๋“œ๋ผ์ธ ์˜คํ”ˆ ๊ฐ€์žฅ ๋จผ์ €, ํ„ฐ๋ฏธ๋„/์ปค๋งจ๋“œ๋ผ์ธ์„ ์—ด์–ด์ค๋‹ˆ๋‹ค. 2. KoNLPy ํŒจํ‚ค์ง€ ์„ค์น˜ pip iheytech.tistory.comMecab ์„ค์น˜๋ฐฉ๋ฒ•bash ๋ณธ๊ฒฉ์ ์œผ๋กœ ์—๋Ÿฌ ํ•ด๊ฒฐ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.๐Ÿค– ์—๋Ÿฌ ์ƒํ™ฉfrom konlpy.tag import MecabMecab().nouns("ํ—ค์ด ํ…Œํฌ ๋ธ”๋กœ๊ทธ์ž…๋‹ˆ๋‹ค.")Mecab ํ˜•ํƒœ..

[NLP] Pretrained ์–ธ์–ด๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํ•œ๊ตญ์–ด ๊ฒฝ์ œ ๋‰ด์Šค ๊ธฐ์‚ฌ ๊ฐ์ • ๋ถ„๋ฅ˜

๐Ÿ“š ๋ชฉ์ฐจ1. ํ”„๋กœ์ ํŠธ ๊ฐœ์š” 2. ๊ฐœ๋ฐœํ™˜๊ฒฝ 3. Pretrained ์–ธ์–ด ๋ชจ๋ธ 4. ๊ฒฝ์ œ ๋‰ด์Šค ๊ธฐ์‚ฌ ๊ฐ์ • ๋ฐ์ดํ„ฐ์…‹ 5. ์ „์ฒด ์†Œ์Šค์ฝ”๋“œ 6. ์ฝ”๋“œ ์„ค๋ช…1. ํ”„๋กœ์ ํŠธ ๊ฐœ์š”Pretrained ์–ธ์–ด ๋ชจ๋ธ์ธ KLUE BERT-base ์œ„์— ๊ฒฝ์ œ ๋‰ด์Šค ๊ธฐ์‚ฌ์˜ ๊ฐ์ •์ด ๋ผ๋ฒจ๋ง ๋œ ๋ฐ์ดํ„ฐ์…‹ ํ•œ๊ตญ์–ด ๋ฒ„์ „์˜ Finance Phrase Bank์„ ํ™œ์šฉํ•˜์—ฌ ํŒŒ์ธํŠœ๋‹ํ•œ ๊ฐ์ • ๋ถ„๋ฅ˜ ํ”„๋กœ์ ํŠธ2. ๊ฐœ๋ฐœํ™˜๊ฒฝGoogle Colab Pro / GPU3. Pretrained ์–ธ์–ด ๋ชจ๋ธKLUE(Korean Language Understanding Evaluation) BERT baseํ•™์Šตํ•œ ๋ฐ์ดํ„ฐ์…‹์—ฐํ•ฉ๋‰ด์Šค์˜ ๋‰ด์Šค ํ—ค๋“œ๋ผ์ธ์šฐํ‚คํ”ผ๋””์•„์œ„ํ‚ค๋‰ด์Šค์œ„ํ‚คํŠธ๋ฆฌ์ •์น˜๋‰ด์ŠคParaKQC(Parallel dataset of Korean Questions and Com..

[NLP] ๋ฌธ์„œ ์œ ์‚ฌ๋„ ๋ถ„์„: (3) ์ž์นด๋“œ ์œ ์‚ฌ๋„(Jaccard Similarity)

๐Ÿ“š ๋ชฉ์ฐจ1. ์ž์นด๋“œ ์œ ์‚ฌ๋„ ๊ฐœ๋…2. ์ž์นด๋“œ ์œ ์‚ฌ๊ณ  ์‹ค์Šต1. ์ž์นด๋“œ ์œ ์‚ฌ๋„ ๊ฐœ๋…์ž์นด๋“œ ์œ ์‚ฌ๋„(Jaccard Similarity)๋Š” \(2\)๊ฐœ์˜ ์ง‘ํ•ฉ \(A\), \(B\)๊ฐ€ ์žˆ์„ ๋•Œ ๋‘ ์ง‘ํ•ฉ์˜ ํ•ฉ์ง‘ํ•ฉ ์ค‘ ๊ต์ง‘ํ•ฉ์˜ ๋น„์œจ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ๋‘ ์ง‘ํ•ฉ์ด ์™„์ „ํžˆ ๊ฐ™์„ ๋•Œ๋Š” ์ž์นด๋“œ ์œ ์‚ฌ๋„๊ฐ€ \(1\)์ด๋ฉฐ, ๋‘ ์ง‘ํ•ฉ์— ๊ต์ง‘ํ•ฉ์ด ์—†๋Š” ๊ฒฝ์šฐ๋Š” \(0\)์ž…๋‹ˆ๋‹ค. ์ž์นด๋“œ ์œ ์‚ฌ๋„๋ฅผ \(J\)๋ผ๊ณ  ํ•  ๋•Œ ๋‘ ์ง‘ํ•ฉ ๊ฐ„์˜ ์ž์นด๋“œ ์œ ์‚ฌ๋„ ์ˆ˜์‹์€ ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. $$ J(A, B) = \frac{|A \cap B|}{|A \cup B|} = \frac{|A \cap B|}{|A| + |B| - |A \cap B|} $$ ์ž์นด๋“œ ์œ ์‚ฌ๋„ ๊ฐœ๋…์„ ์ž์—ฐ์–ด์ฒ˜๋ฆฌ ๋ถ„์•ผ๋กœ ๊ทธ๋Œ€๋กœ ๊ฐ€์ ธ์˜ค๋ฉด, ํ•˜๋‚˜์˜ ์ง‘ํ•ฉ์ด ๊ณง ํ•˜๋‚˜์˜ ๋ฌธ์„œ๊ฐ€ ํ•ด๋‹นํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ..

[NLP] ๋ฌธ์„œ ์œ ์‚ฌ๋„ ๋ถ„์„: (2) ์œ ํด๋ฆฌ๋””์•ˆ ๊ฑฐ๋ฆฌ(Euclidean Distance)

๐Ÿ“š ๋ชฉ์ฐจ1. ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ ๊ฐœ๋…2. ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ ์‹ค์Šต1. ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ ๊ฐœ๋…์ˆ˜ํ•™์  ๊ด€์  ์ ‘๊ทผ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ(Euclidean Distance)๋Š” ๋‘ ์  ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ๋‘ ์  \(p\)์™€ \(q\)๊ฐ€ ๊ฐ๊ฐ \((p_1, p_2, ..., p_n)\), \((q_1, q_2, ..., q_n)\) ์ขŒํ‘œ๋ฅผ ๊ฐ€์งˆ ๋•Œ, ๋‘ ์  ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ ๊ณต์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. $$ \sqrt{(q_1 - p_1)^2 + (q_2 - p_2)^2 + ... + (q_n - p_n)^2} = \sqrt{\displaystyle\sum_{i=1}^{n}(q_i - p_i)^2}$$ ๋‹ค์ฐจ์›์ด ์•„๋‹Œ 2์ฐจ์› ๊ณต๊ฐ„์—์„œ ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ๋ฅผ ์‰ฝ๊ฒŒ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค(๊ทธ๋ฆผ 1 ์ฐธ๊ณ ). ๋‘ ์  \..

[NLP] ๋ฌธ์„œ ์œ ์‚ฌ๋„ ๋ถ„์„: (1) ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„(Cosine Similarity)

๐Ÿ“š ๋ชฉ์ฐจ1. ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ๊ฐœ๋…2. ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ์‹ค์Šต1. ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ๊ฐœ๋…์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„(Cosine Similarity)๋ž€ ๋‘ ๋ฒกํ„ฐ ์‚ฌ์ด์˜ ๊ฐ๋„๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๋‘ ๋ฒกํ„ฐ๊ฐ€ ์–ผ๋งˆ๋‚˜ ์œ ์‚ฌํ•œ์ง€ ์ธก์ •ํ•˜๋Š” ์ฒ™๋„์ž…๋‹ˆ๋‹ค. ์ฆ‰, DTM, TF-IDF, Word2Vec ๋“ฑ๊ณผ ๊ฐ™์ด ๋‹จ์–ด๋ฅผ ์ˆ˜์น˜ํ™”ํ•˜์—ฌ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ฌธ์„œ ๊ฐ„ ์œ ์‚ฌ๋„๋ฅผ ๋น„๊ตํ•˜๋Š” ๊ฒŒ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๋Š” \(1\)์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ๋‘ ๋ฒกํ„ฐ๊ฐ€ ์œ ์‚ฌํ•˜๋‹ค๊ณ  ํ•ด์„ํ•˜๋ฉฐ, ๋ฌธ์„œ์˜ ๊ธธ์ด๊ฐ€ ๋‹ค๋ฅธ ๊ฒฝ์šฐ์—๋„ ๋น„๊ต์  ๊ณต์ •ํ•˜๊ฒŒ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ™์ด ๋‘ ๋ฒกํ„ฐ๊ฐ€ ๊ฐ™์€ ๋ฐฉํ–ฅ์„ ๊ฐ€๋ฆฌํ‚ค๋Š”, ์ฆ‰ ๋‘ ๋ฒกํ„ฐ ์‚ฌ์ด์˜ ๊ฐ๋„๊ฐ€ \(0^\circ\)์ผ ๋•Œ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๊ฐ€ ์ตœ๋Œ“๊ฐ’์ธ 1์„ ๊ฐ–์Šต๋‹ˆ๋‹ค. \(A\), \(B\)๋ผ๋Š” ๋‘ ๋ฒกํ„ฐ๊ฐ€..