- Today
- Total
๋ชฉ๋ก๋ฌธ์ ์ ์ฌ๋ (2)
DATA101
๐ ๋ชฉ์ฐจ1. ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ 2. ์์นด๋ ์ ์ฌ๊ณ ์ค์ต1. ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ ์์นด๋ ์ ์ฌ๋(Jaccard Similarity)๋ \(2\)๊ฐ์ ์งํฉ \(A\), \(B\)๊ฐ ์์ ๋ ๋ ์งํฉ์ ํฉ์งํฉ ์ค ๊ต์งํฉ์ ๋น์จ์ ๋๋ค. ์ฆ, ๋ ์งํฉ์ด ์์ ํ ๊ฐ์ ๋๋ ์์นด๋ ์ ์ฌ๋๊ฐ \(1\)์ด๋ฉฐ, ๋ ์งํฉ์ ๊ต์งํฉ์ด ์๋ ๊ฒฝ์ฐ๋ \(0\)์ ๋๋ค. ์์นด๋ ์ ์ฌ๋๋ฅผ \(J\)๋ผ๊ณ ํ ๋ ๋ ์งํฉ ๊ฐ์ ์์นด๋ ์ ์ฌ๋ ์์์ ์๋์ ๊ฐ์ต๋๋ค. $$ J(A, B) = \frac{|A \cap B|}{|A \cup B|} = \frac{|A \cap B|}{|A| + |B| - |A \cap B|} $$ ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ ์ ์์ฐ์ด์ฒ๋ฆฌ ๋ถ์ผ๋ก ๊ทธ๋๋ก ๊ฐ์ ธ์ค๋ฉด, ํ๋์ ์งํฉ์ด ๊ณง ํ๋์ ๋ฌธ์๊ฐ ํด๋นํ๋ ๊ฒ์ ๋๋ค. ..
๐ ๋ชฉ์ฐจ1. ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ฐ๋ 2. ์ฝ์ฌ์ธ ์ ์ฌ๋ ์ค์ต1. ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ฐ๋ ์ฝ์ฌ์ธ ์ ์ฌ๋(Cosine Similarity)๋ ๋ ๋ฒกํฐ ์ฌ์ด์ ๊ฐ๋๋ฅผ ๊ณ์ฐํ์ฌ ๋ ๋ฒกํฐ๊ฐ ์ผ๋ง๋ ์ ์ฌํ์ง ์ธก์ ํ๋ ์ฒ๋์ ๋๋ค. ์ฆ, DTM, TF-IDF, Word2Vec ๋ฑ๊ณผ ๊ฐ์ด ๋จ์ด๋ฅผ ์์นํํ์ฌ ํํํ ์ ์๋ค๋ฉด ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ํ์ฉํ์ฌ ๋ฌธ์ ๊ฐ ์ ์ฌ๋๋ฅผ ๋น๊ตํ๋ ๊ฒ ๊ฐ๋ฅํฉ๋๋ค. ์ฝ์ฌ์ธ ์ ์ฌ๋๋ \(1\)์ ๊ฐ๊น์ธ์๋ก ๋ ๋ฒกํฐ๊ฐ ์ ์ฌํ๋ค๊ณ ํด์ํ๋ฉฐ, ๋ฌธ์์ ๊ธธ์ด๊ฐ ๋ค๋ฅธ ๊ฒฝ์ฐ์๋ ๋น๊ต์ ๊ณต์ ํ๊ฒ ๋น๊ตํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ์๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด ๋ ๋ฒกํฐ๊ฐ ๊ฐ์ ๋ฐฉํฅ์ ๊ฐ๋ฆฌํค๋, ์ฆ ๋ ๋ฒกํฐ ์ฌ์ด์ ๊ฐ๋๊ฐ \(0^\circ\)์ผ ๋ ์ฝ์ฌ์ธ ์ ์ฌ๋๊ฐ ์ต๋๊ฐ์ธ 1์ ๊ฐ์ต๋๋ค. \(A\), \(B\)๋ผ๋ ๋ ๋ฒกํฐ๊ฐ..