- Today
- Total
๋ชฉ๋กnlp (20)
DATA101

๐ ์ง๋ 2์, ๋ฐ์ดํฐ์๋์ ํ์ AI/๋น ๋ฐ์ดํฐ๋ถ์ ์๋ฃจ์ ์ด No.1 ํ๋ฆฌ๋์ ๋ง์ผ ํฌ๋ชฝ์์ ์์ ํ ์์ 2% ์ ๋ฌธ๊ฐ ์๋น์ค์ธ prime์ ์ ์ ๋์์ต๋๋ค. ๐ prime์ 100๋ง ๊ฑด ์ด์์ ํฌ๋ชฝ ๊ฑฐ๋ Data๋ฅผ ๋ถ์ํ๊ณ ์๋น์ค ๋ง์กฑ๋ 99% ์ด์์ธ ์ ๋ฌธ๊ฐ ์ธํฐ๋ทฐ ๋ฐ ๋ ํผ๋ฐ์ค ์ฒดํฌ๋ฅผ ํตํด ์์ ๋ 300์ฌ ๋ช ์ ์์ ์ ๋ฌธ๊ฐ์๊ฒ๋ง ์ฃผ์ด์ง๋ ์๋น์ค์ ๋๋ค. ๐ค ์ฃผ๋ก Prime ์ ๋ฌธ๊ฐ๋ ๋๊ธฐ์ ๋ถํฐ ์คํํธ์ , ์ ๋ถ๊ธฐ๊ด๊น์ง B2B ๊ณ ๊ฐ์ ์ฃผ ํ๊ฒ์ผ๋ก ๊ฑฐ๋ํ๋ ํ์ง๋ณด์ฅ ์ ์ฒด๋ค๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๐จ๐ป ํ์ฌ ์ ํฌ ๋ฐ์ดํฐ์๋์ ํ์ AI๋ฅผ ํ์ฉํ ๋น ๋ฐ์ดํฐ๋ถ์ ์๋ฃจ์ ๊ตฌ์ถ๋ถํฐ ๋ค์ํ ์ฐ์ ๊ตฐ์ ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ณผ์ ์ํ์ ์ง์ํด ๋๋ฆฌ๊ณ ์์ต๋๋ค. ๐ AI ๊ธฐ์ ์ ํ์ฉํ SW ์ธํ๋ผ ๊ตฌ์ถ์ด๋ ๋น ๋ฐ์ดํฐ ๋ถ์..

๐ ๋ชฉ์ฐจ 1. RNN ๊ฐ๋ 2. RNN ์์ 3. RNN ์ฉ๋ 1. RNN ๊ฐ๋ Recurrent Neural Network(RNN)์ ์์ฐ์ด ๋ฌธ์ฅ๊ณผ ๊ฐ์ด ๋จ์ด์ ์์์ ๋ฐ๋ผ ์๋ฏธ๊ฐ ๋ฌ๋ผ์ง๋ ์์ฐจ ๋ฐ์ดํฐ(Sequential Data)๋ฅผ ๋ค๋ฃฐ ๋ ์ฃผ๋ก ์ฌ์ฉ๋๋ ์ ๊ฒฝ๋ง์ ๋๋ค. ๋ฐ๋ผ์ RNN์ ๋จ์ด์ ์ด์์ ๋ฐ๋ผ ๋ฌธ์ฅ์ ์๋ฏธ๊ฐ ๋ฌ๋ผ์ง๊ณ ์์ ์ด๋ค ๋จ์ด๊ฐ ์ฐ์๋์ง ๊ธฐ์ตํด์ผ ๋ค์ ์ค๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฑ์ ๋ฌธ์ ๋ฅผ ํ ๋ ์ฃผ๋ก ํ์ฉ๋ฉ๋๋ค. RNN์ Hidden Layer์ ๋ ธ๋์์ ํ์ฑํ ํจ์(Activation Function)๋ฅผ ๊ฑฐ์ณ ๋์จ ๊ฒฐ๊ด๊ฐ์ Output Layer๋ก ๋ณด๋ด๋ฉด์ ๋ค์ ๋ค์ Hidden Layer ๋ ธ๋ ๊ณ์ฐ์ ์ ๋ ฅ๊ฐ์ผ๋ก ๋ณด๋ด๋ ์ ๊ฒฝ๋ง์ ๋๋ค. ์ด์ฒ๋ผ, ๊ฒฐ๊ด๊ฐ์ด ๋ค์ Hidden Layer ๋ ธ๋์..

๐ ๋ชฉ์ฐจ1. ๊ฐ์ 2. ๋ฐ์ดํฐ์ 3. LDA ํ ํฝ ๋ชจ๋ธ๋ง ๊ฐ๋ 4. LDA ํ ํฝ ๋ชจ๋ธ๋ง ์๊ฐํ 5. ์ ์ฒด ์ฝ๋ 6. ์ฝ๋ ์ค๋ช 7. ๊ฒฐ๊ณผ ํด์๋ฐฉ๋ฒ 8. ์ธ์ฌ์ดํธ ๋์ถ1. ๊ฐ์๋ณธ ํ๋ก์ ํธ์์๋ ๊ฑด๊ฐ๊ด๋ฆฌ ์ฑ ๋ฆฌ๋ทฐ ํ ์คํธ๋ง์ด๋์ ํตํด ๊ณ ๊ฐ์ ๋์ฆ๋ฅผ ๋ถ์ํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ๊ฑด๊ฐ๊ด๋ฆฌ ์ฑ์ ๋์์ธ ์ ๋ต์ ์ ์ํฉ๋๋ค. ๊ตญ๋ด ๊ตฌ๊ธ ํ๋ ์ด ์คํ ์ด์์ ๊ฑด๊ฐ๊ด๋ฆฌ ์ฑ 424๊ฐ์์ ๋ฆฌ๋ทฐ 54๋ง ๊ฑด์ ์์งํ์์ผ๋ฉฐ, LDA ํ ํฝ ๋ชจ๋ธ๋ง์ ํตํด ์ฌ์ธต์ ์ผ๋ก ๊ณ ๊ฐ์ ๋์ฆ๋ฅผ ๋ถ์ํ์์ต๋๋ค. ์ ์ฒด ์ฝ๋ ๋ฐ ๋ฐ์ดํฐ์ ์ Github์ ์ ๋ก๋ํด ๋์์ต๋๋ค.2. ๋ฐ์ดํฐ์ 2.1. ์ฌ์ฉ์ ๋ฆฌ๋ทฐํ๊ตญ ๊ตฌ๊ธ ํ๋ ์ด ์คํ ์ด ๋ด ๊ฑด๊ฐ๊ด๋ฆฌ ์ฑ 424๊ฐ์์ ๋ฆฌ๋ทฐ 54๋ง ๊ฑด ์์ง(์๋ณธ: Github)๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ: ๊ตฌ๊ธ ํ๋ ์ด ์คํ ์ด ๋ฆฌ๋ทฐ ์์ง ํฌ๋กค๋ฌ ์์ฒด..

๐จ๐ป ๋ค์ด๊ฐ๋ฉฐKoNLPy์ Mecab ํจํค์ง๋ ๊ธฐ๋ณธ์ ์ผ๋ก ์ค์น๋์ด ์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค. ํน์๋ ์ค์น๋์ด ์์ง ์๋ค๋ฉด ์๋ ํฌ์คํ ์ ์ฐธ๊ณ ํด ์ฃผ์ธ์.https://heytech.tistory.com/3 [Python/NLP] KoNLPy ์ค์นํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณด์!์ค๋์ ํ๊ตญ์ด ์์ฐ์ด์ฒ๋ฆฌ(NLP)๋ฅผ ์ํ ํ์ด์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ KoNLPy๋ฅผ ์ค์นํ๋ ๋ฐฉ๋ฒ์ ๊ณต์ ํฉ๋๋ค. 1. ํฐ๋ฏธ๋/์ปค๋งจ๋๋ผ์ธ ์คํ ๊ฐ์ฅ ๋จผ์ , ํฐ๋ฏธ๋/์ปค๋งจ๋๋ผ์ธ์ ์ด์ด์ค๋๋ค. 2. KoNLPy ํจํค์ง ์ค์น pip iheytech.tistory.comMecab ์ค์น๋ฐฉ๋ฒbash ๋ณธ๊ฒฉ์ ์ผ๋ก ์๋ฌ ํด๊ฒฐ๋ฐฉ๋ฒ์ ๋ค๋ฃน๋๋ค.๐ค ์๋ฌ ์ํฉfrom konlpy.tag import MecabMecab().nouns("ํค์ด ํ ํฌ ๋ธ๋ก๊ทธ์ ๋๋ค.")Mecab ํํ..

๐ ๋ชฉ์ฐจ1. ํ๋ก์ ํธ ๊ฐ์ 2. ๊ฐ๋ฐํ๊ฒฝ 3. Pretrained ์ธ์ด ๋ชจ๋ธ 4. ๊ฒฝ์ ๋ด์ค ๊ธฐ์ฌ ๊ฐ์ ๋ฐ์ดํฐ์ 5. ์ ์ฒด ์์ค์ฝ๋ 6. ์ฝ๋ ์ค๋ช 1. ํ๋ก์ ํธ ๊ฐ์Pretrained ์ธ์ด ๋ชจ๋ธ์ธ KLUE BERT-base ์์ ๊ฒฝ์ ๋ด์ค ๊ธฐ์ฌ์ ๊ฐ์ ์ด ๋ผ๋ฒจ๋ง ๋ ๋ฐ์ดํฐ์ ํ๊ตญ์ด ๋ฒ์ ์ Finance Phrase Bank์ ํ์ฉํ์ฌ ํ์ธํ๋ํ ๊ฐ์ ๋ถ๋ฅ ํ๋ก์ ํธ2. ๊ฐ๋ฐํ๊ฒฝGoogle Colab Pro / GPU3. Pretrained ์ธ์ด ๋ชจ๋ธKLUE(Korean Language Understanding Evaluation) BERT baseํ์ตํ ๋ฐ์ดํฐ์ ์ฐํฉ๋ด์ค์ ๋ด์ค ํค๋๋ผ์ธ์ฐํคํผ๋์์ํค๋ด์ค์ํคํธ๋ฆฌ์ ์น๋ด์คParaKQC(Parallel dataset of Korean Questions and Com..

๐ ๋ชฉ์ฐจ1. ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ 2. ์์นด๋ ์ ์ฌ๊ณ ์ค์ต1. ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ ์์นด๋ ์ ์ฌ๋(Jaccard Similarity)๋ \(2\)๊ฐ์ ์งํฉ \(A\), \(B\)๊ฐ ์์ ๋ ๋ ์งํฉ์ ํฉ์งํฉ ์ค ๊ต์งํฉ์ ๋น์จ์ ๋๋ค. ์ฆ, ๋ ์งํฉ์ด ์์ ํ ๊ฐ์ ๋๋ ์์นด๋ ์ ์ฌ๋๊ฐ \(1\)์ด๋ฉฐ, ๋ ์งํฉ์ ๊ต์งํฉ์ด ์๋ ๊ฒฝ์ฐ๋ \(0\)์ ๋๋ค. ์์นด๋ ์ ์ฌ๋๋ฅผ \(J\)๋ผ๊ณ ํ ๋ ๋ ์งํฉ ๊ฐ์ ์์นด๋ ์ ์ฌ๋ ์์์ ์๋์ ๊ฐ์ต๋๋ค. $$ J(A, B) = \frac{|A \cap B|}{|A \cup B|} = \frac{|A \cap B|}{|A| + |B| - |A \cap B|} $$ ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ ์ ์์ฐ์ด์ฒ๋ฆฌ ๋ถ์ผ๋ก ๊ทธ๋๋ก ๊ฐ์ ธ์ค๋ฉด, ํ๋์ ์งํฉ์ด ๊ณง ํ๋์ ๋ฌธ์๊ฐ ํด๋นํ๋ ๊ฒ์ ๋๋ค. ..

๐ ๋ชฉ์ฐจ1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ 2. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ์ค์ต1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ ์ํ์ ๊ด์ ์ ๊ทผ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ(Euclidean Distance)๋ ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๋ ์ \(p\)์ \(q\)๊ฐ ๊ฐ๊ฐ \((p_1, p_2, ..., p_n)\), \((q_1, q_2, ..., q_n)\) ์ขํ๋ฅผ ๊ฐ์ง ๋, ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ณต์์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค. $$ \sqrt{(q_1 - p_1)^2 + (q_2 - p_2)^2 + ... + (q_n - p_n)^2} = \sqrt{\displaystyle\sum_{i=1}^{n}(q_i - p_i)^2}$$ ๋ค์ฐจ์์ด ์๋ 2์ฐจ์ ๊ณต๊ฐ์์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ฅผ ์ฝ๊ฒ ์์๋ณด๊ฒ ์ต๋๋ค(๊ทธ๋ฆผ 1 ์ฐธ๊ณ ). ๋ ์ \..

๐ ๋ชฉ์ฐจ1. ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ฐ๋ 2. ์ฝ์ฌ์ธ ์ ์ฌ๋ ์ค์ต1. ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ฐ๋ ์ฝ์ฌ์ธ ์ ์ฌ๋(Cosine Similarity)๋ ๋ ๋ฒกํฐ ์ฌ์ด์ ๊ฐ๋๋ฅผ ๊ณ์ฐํ์ฌ ๋ ๋ฒกํฐ๊ฐ ์ผ๋ง๋ ์ ์ฌํ์ง ์ธก์ ํ๋ ์ฒ๋์ ๋๋ค. ์ฆ, DTM, TF-IDF, Word2Vec ๋ฑ๊ณผ ๊ฐ์ด ๋จ์ด๋ฅผ ์์นํํ์ฌ ํํํ ์ ์๋ค๋ฉด ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ํ์ฉํ์ฌ ๋ฌธ์ ๊ฐ ์ ์ฌ๋๋ฅผ ๋น๊ตํ๋ ๊ฒ ๊ฐ๋ฅํฉ๋๋ค. ์ฝ์ฌ์ธ ์ ์ฌ๋๋ \(1\)์ ๊ฐ๊น์ธ์๋ก ๋ ๋ฒกํฐ๊ฐ ์ ์ฌํ๋ค๊ณ ํด์ํ๋ฉฐ, ๋ฌธ์์ ๊ธธ์ด๊ฐ ๋ค๋ฅธ ๊ฒฝ์ฐ์๋ ๋น๊ต์ ๊ณต์ ํ๊ฒ ๋น๊ตํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ์๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด ๋ ๋ฒกํฐ๊ฐ ๊ฐ์ ๋ฐฉํฅ์ ๊ฐ๋ฆฌํค๋, ์ฆ ๋ ๋ฒกํฐ ์ฌ์ด์ ๊ฐ๋๊ฐ \(0^\circ\)์ผ ๋ ์ฝ์ฌ์ธ ์ ์ฌ๋๊ฐ ์ต๋๊ฐ์ธ 1์ ๊ฐ์ต๋๋ค. \(A\), \(B\)๋ผ๋ ๋ ๋ฒกํฐ๊ฐ..