- Today
- Total
๋ชฉ๋ก๋ฌธ์ฅ ์ ์ฌ๋ (2)
DATA101
๐ ๋ชฉ์ฐจ1. ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ 2. ์์นด๋ ์ ์ฌ๊ณ ์ค์ต1. ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ ์์นด๋ ์ ์ฌ๋(Jaccard Similarity)๋ \(2\)๊ฐ์ ์งํฉ \(A\), \(B\)๊ฐ ์์ ๋ ๋ ์งํฉ์ ํฉ์งํฉ ์ค ๊ต์งํฉ์ ๋น์จ์ ๋๋ค. ์ฆ, ๋ ์งํฉ์ด ์์ ํ ๊ฐ์ ๋๋ ์์นด๋ ์ ์ฌ๋๊ฐ \(1\)์ด๋ฉฐ, ๋ ์งํฉ์ ๊ต์งํฉ์ด ์๋ ๊ฒฝ์ฐ๋ \(0\)์ ๋๋ค. ์์นด๋ ์ ์ฌ๋๋ฅผ \(J\)๋ผ๊ณ ํ ๋ ๋ ์งํฉ ๊ฐ์ ์์นด๋ ์ ์ฌ๋ ์์์ ์๋์ ๊ฐ์ต๋๋ค. $$ J(A, B) = \frac{|A \cap B|}{|A \cup B|} = \frac{|A \cap B|}{|A| + |B| - |A \cap B|} $$ ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ ์ ์์ฐ์ด์ฒ๋ฆฌ ๋ถ์ผ๋ก ๊ทธ๋๋ก ๊ฐ์ ธ์ค๋ฉด, ํ๋์ ์งํฉ์ด ๊ณง ํ๋์ ๋ฌธ์๊ฐ ํด๋นํ๋ ๊ฒ์ ๋๋ค. ..
๐ ๋ชฉ์ฐจ1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ 2. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ์ค์ต1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ ์ํ์ ๊ด์ ์ ๊ทผ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ(Euclidean Distance)๋ ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๋ ์ \(p\)์ \(q\)๊ฐ ๊ฐ๊ฐ \((p_1, p_2, ..., p_n)\), \((q_1, q_2, ..., q_n)\) ์ขํ๋ฅผ ๊ฐ์ง ๋, ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ณต์์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค. $$ \sqrt{(q_1 - p_1)^2 + (q_2 - p_2)^2 + ... + (q_n - p_n)^2} = \sqrt{\displaystyle\sum_{i=1}^{n}(q_i - p_i)^2}$$ ๋ค์ฐจ์์ด ์๋ 2์ฐจ์ ๊ณต๊ฐ์์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ฅผ ์ฝ๊ฒ ์์๋ณด๊ฒ ์ต๋๋ค(๊ทธ๋ฆผ 1 ์ฐธ๊ณ ). ๋ ์ \..