- Today
- Total
๋ชฉ๋กํ ์คํธ ์ ์ฌ๋ (3)
DATA101
๐ ๋ชฉ์ฐจ1. ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ 2. ์์นด๋ ์ ์ฌ๊ณ ์ค์ต1. ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ ์์นด๋ ์ ์ฌ๋(Jaccard Similarity)๋ \(2\)๊ฐ์ ์งํฉ \(A\), \(B\)๊ฐ ์์ ๋ ๋ ์งํฉ์ ํฉ์งํฉ ์ค ๊ต์งํฉ์ ๋น์จ์ ๋๋ค. ์ฆ, ๋ ์งํฉ์ด ์์ ํ ๊ฐ์ ๋๋ ์์นด๋ ์ ์ฌ๋๊ฐ \(1\)์ด๋ฉฐ, ๋ ์งํฉ์ ๊ต์งํฉ์ด ์๋ ๊ฒฝ์ฐ๋ \(0\)์ ๋๋ค. ์์นด๋ ์ ์ฌ๋๋ฅผ \(J\)๋ผ๊ณ ํ ๋ ๋ ์งํฉ ๊ฐ์ ์์นด๋ ์ ์ฌ๋ ์์์ ์๋์ ๊ฐ์ต๋๋ค. $$ J(A, B) = \frac{|A \cap B|}{|A \cup B|} = \frac{|A \cap B|}{|A| + |B| - |A \cap B|} $$ ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ ์ ์์ฐ์ด์ฒ๋ฆฌ ๋ถ์ผ๋ก ๊ทธ๋๋ก ๊ฐ์ ธ์ค๋ฉด, ํ๋์ ์งํฉ์ด ๊ณง ํ๋์ ๋ฌธ์๊ฐ ํด๋นํ๋ ๊ฒ์ ๋๋ค. ..
๐ ๋ชฉ์ฐจ1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ 2. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ์ค์ต1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ ์ํ์ ๊ด์ ์ ๊ทผ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ(Euclidean Distance)๋ ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๋ ์ \(p\)์ \(q\)๊ฐ ๊ฐ๊ฐ \((p_1, p_2, ..., p_n)\), \((q_1, q_2, ..., q_n)\) ์ขํ๋ฅผ ๊ฐ์ง ๋, ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ณต์์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค. $$ \sqrt{(q_1 - p_1)^2 + (q_2 - p_2)^2 + ... + (q_n - p_n)^2} = \sqrt{\displaystyle\sum_{i=1}^{n}(q_i - p_i)^2}$$ ๋ค์ฐจ์์ด ์๋ 2์ฐจ์ ๊ณต๊ฐ์์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ฅผ ์ฝ๊ฒ ์์๋ณด๊ฒ ์ต๋๋ค(๊ทธ๋ฆผ 1 ์ฐธ๊ณ ). ๋ ์ \..
๐ ๋ชฉ์ฐจ1. ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ฐ๋ 2. ์ฝ์ฌ์ธ ์ ์ฌ๋ ์ค์ต1. ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ฐ๋ ์ฝ์ฌ์ธ ์ ์ฌ๋(Cosine Similarity)๋ ๋ ๋ฒกํฐ ์ฌ์ด์ ๊ฐ๋๋ฅผ ๊ณ์ฐํ์ฌ ๋ ๋ฒกํฐ๊ฐ ์ผ๋ง๋ ์ ์ฌํ์ง ์ธก์ ํ๋ ์ฒ๋์ ๋๋ค. ์ฆ, DTM, TF-IDF, Word2Vec ๋ฑ๊ณผ ๊ฐ์ด ๋จ์ด๋ฅผ ์์นํํ์ฌ ํํํ ์ ์๋ค๋ฉด ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ํ์ฉํ์ฌ ๋ฌธ์ ๊ฐ ์ ์ฌ๋๋ฅผ ๋น๊ตํ๋ ๊ฒ ๊ฐ๋ฅํฉ๋๋ค. ์ฝ์ฌ์ธ ์ ์ฌ๋๋ \(1\)์ ๊ฐ๊น์ธ์๋ก ๋ ๋ฒกํฐ๊ฐ ์ ์ฌํ๋ค๊ณ ํด์ํ๋ฉฐ, ๋ฌธ์์ ๊ธธ์ด๊ฐ ๋ค๋ฅธ ๊ฒฝ์ฐ์๋ ๋น๊ต์ ๊ณต์ ํ๊ฒ ๋น๊ตํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ์๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด ๋ ๋ฒกํฐ๊ฐ ๊ฐ์ ๋ฐฉํฅ์ ๊ฐ๋ฆฌํค๋, ์ฆ ๋ ๋ฒกํฐ ์ฌ์ด์ ๊ฐ๋๊ฐ \(0^\circ\)์ผ ๋ ์ฝ์ฌ์ธ ์ ์ฌ๋๊ฐ ์ต๋๊ฐ์ธ 1์ ๊ฐ์ต๋๋ค. \(A\), \(B\)๋ผ๋ ๋ ๋ฒกํฐ๊ฐ..