- Today
- Total
๋ชฉ๋ก๋ฐ์ดํฐ๋ถ์ (17)
DATA101
๐ ์ง๋ 2์, ๋ฐ์ดํฐ์๋์ ํ์ AI/๋น ๋ฐ์ดํฐ๋ถ์ ์๋ฃจ์ ์ด No.1 ํ๋ฆฌ๋์ ๋ง์ผ ํฌ๋ชฝ์์ ์์ ํ ์์ 2% ์ ๋ฌธ๊ฐ ์๋น์ค์ธ prime์ ์ ์ ๋์์ต๋๋ค. ๐ prime์ 100๋ง ๊ฑด ์ด์์ ํฌ๋ชฝ ๊ฑฐ๋ Data๋ฅผ ๋ถ์ํ๊ณ ์๋น์ค ๋ง์กฑ๋ 99% ์ด์์ธ ์ ๋ฌธ๊ฐ ์ธํฐ๋ทฐ ๋ฐ ๋ ํผ๋ฐ์ค ์ฒดํฌ๋ฅผ ํตํด ์์ ๋ 300์ฌ ๋ช ์ ์์ ์ ๋ฌธ๊ฐ์๊ฒ๋ง ์ฃผ์ด์ง๋ ์๋น์ค์ ๋๋ค. ๐ค ์ฃผ๋ก Prime ์ ๋ฌธ๊ฐ๋ ๋๊ธฐ์ ๋ถํฐ ์คํํธ์ , ์ ๋ถ๊ธฐ๊ด๊น์ง B2B ๊ณ ๊ฐ์ ์ฃผ ํ๊ฒ์ผ๋ก ๊ฑฐ๋ํ๋ ํ์ง๋ณด์ฅ ์ ์ฒด๋ค๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๐จ๐ป ํ์ฌ ์ ํฌ ๋ฐ์ดํฐ์๋์ ํ์ AI๋ฅผ ํ์ฉํ ๋น ๋ฐ์ดํฐ๋ถ์ ์๋ฃจ์ ๊ตฌ์ถ๋ถํฐ ๋ค์ํ ์ฐ์ ๊ตฐ์ ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ณผ์ ์ํ์ ์ง์ํด ๋๋ฆฌ๊ณ ์์ต๋๋ค. ๐ AI ๊ธฐ์ ์ ํ์ฉํ SW ์ธํ๋ผ ๊ตฌ์ถ์ด๋ ๋น ๋ฐ์ดํฐ ๋ถ์..
๐ ๋ค์ด๊ฐ๋ฉฐ๋ณธ ํฌ์คํ ์์๋ ํ์ด์ฌ pandas ์ฌ์ฉ ์ ๋ฐ์ดํฐํ๋ ์ ์ ์ฒด ํ๊ณผ ์ด ์กฐํ ๋ฐฉ๋ฒ์ ์๊ฐํฉ๋๋ค.๐ก์ํฉํ๋ค์ค ํตํด ์์ ํ์ผ ์กฐํ ์ ๊ธฐ๋ณธ๊ฐ์ผ๋ก๋ ์ผ๋ถ ํ๊ณผ ์ด์ด ์จ๊น์ฒ๋ฆฌ ๋๋ ํ์์ด ๋ฐ์ํฉ๋๋ค(๊ทธ๋ฆผ 1).# ๋ฏธ์ค์น ์ pip install pandasimport pandas as pddf = pd.read_excel(filepath+filename, sheet_name = 'Sheet2')df.head()โ ํด๊ฒฐ๋ฐฉ๋ฒํด๊ฒฐ๋ฐฉ๋ฒ์ ๊ฐ๋จํฉ๋๋ค. ์๋์ ๊ฐ์ด ํ๋ค์ค ์ต์ ์ ๋ณ๊ฒฝํด ์ฃผ๋ฉด ๋ฉ๋๋ค.1) ๋ชจ๋ ์ด ์ถ๋ ฅ์๋์ ๋ช ๋ น์ด๋ง ์คํํด ์ฃผ๋ฉด ๋ชจ๋ ์ด์ ์กฐํํ ์ ์์ต๋๋ค(๊ทธ๋ฆผ 2).pd.set_option('display.max_columns', None)2) ๋ชจ๋ ํ ์ถ๋ ฅ์ ์ฌํ๊ฒ ๋ชจ๋ ํ ์ถ๋ ฅํ๋ ๋ช ..
๐ก ๋ค์ด๊ฐ๋ฉฐ Numpy ํจํค์ง์ where ํจ์๋ฅผ ์ฌ์ฉํ๋ฉด ๋ฐ์ดํฐํ๋ ์์์ ํน์ ์กฐ๊ฑด์ ๋ง๋ ์ธ๋ฑ์ค๋ฅผ ์ฐพ๊ฑฐ๋, ํด๋น ์ธ๋ฑ์ค์ ๊ฐ์ ์ฝ๊ฒ ๋ฐ๊ฟ ์ ์์ต๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก numpy ํจํค์ง ์ค์น ๋ฐ import๋ ํ์์ ๋๋ค. !pip install numpy import numpy as np 1. ์กฐ๊ฑด์ ๋ง๋ ์ธ๋ฑ์ค ๋ฐํ ์๋์ ๊ฐ์ด ์กฐ๊ฑด๋ฌธ์ ์ ๋ ฅํ๋ฉด, ์กฐ๊ฑด์ ํด๋น๋๋ ์ธ๋ฑ์ค๋ฅผ ๋ฐํํฉ๋๋ค. np.where(์กฐ๊ฑด๋ฌธ) ์๋์ ๊ฐ์ ๋ฐ์ดํฐ์ ์ด ์์ ๋, THK ์นผ๋ผ ๋ด ๊ฐ์ด 30๋ณด๋ค ํฐ ๊ฐ์ ์ธ๋ฑ์ค๋ฅผ ์กฐํํด ๋ณด๋ฉด ์๋์ ๊ฐ์ต๋๋ค. np.where(30 < DATASET_RAW['THK']) 2. ์กฐ๊ฑด์ ๋ฐ๋ผ ๋ฐ์ดํฐ ์ธ์ฝ๋ฉ ์๋์ ๊ฐ์ด, ์กฐ๊ฑด๋ฌธ๊ณผ ํจ๊ป ์กฐ๊ฑด๋ฌธ์ด ์ฐธ ํน์ ๊ฑฐ์ง์ผ ๊ฒฝ์ฐ ๊ฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ณํํ ๊ฐ์ ์ ๋ ฅํด ..
๐ก ๋ค์ด๊ฐ๋ฉฐ๋ฐ์ดํฐํ๋ ์ ๋ด ๋ฌธ์์ด ํ ๊ธ์๊น์ง ์๋ฒฝํ๊ฒ ์ผ์นํ๋ ์์๋ฅผ ์ฐพ๋์ง ํน์ ์ผ๋ถ ๊ธ์๋ผ๋ ์ผ์นํ๋ ์์๋ฅผ ์ฐพ์์ง์ ๋ฐ๋ผ ์ฌ์ฉํด์ผ ํ ํจ์๊ฐ ๋๋ฉ๋๋ค(์๋ ํ ์ฐธ๊ณ ).No.ํจ์ํ์ฉ๋ฐฉ์1replace()์๋ฒฝํ๊ฒ ์ผ์นํ๋ ๋จ์ด๋ฅผ ์ฐพ์ ๋ฐ๊พธ๋ ๊ฒฝ์ฐ2str.replace()์ผ๋ถ ๋จ์ด๋ผ๋ ์ผ์นํ๋ ๋จ์ด๋ฅผ ์ฐพ์ ๋ฐ๊พธ๋ ๊ฒฝ์ฐํจ์๋ณ๋ก ๊ฐ๊ฐ ์์ธํ ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. replace ํจ์ 1) ๊ธฐ๋ณธ ์ฌ์ฉ๋ฐฉ๋ฒ 2) ์ฌ๋ฌ ๋ฌธ์์ด ๋์ ๋ณ๊ฒฝ 3) ํน์ ์นผ๋ผ ๋ฐ์ดํฐ ๋ณ๊ฒฝ 4) ์๋ณธ ๋ฐ์ดํฐ ๋ณ๊ฒฝ์ต์ (inplace)2. str.replace ํจ์1) ๊ธฐ๋ณธ ์ฌ์ฉ๋ฐฉ๋ฒ๋ด์ฅ ํจ์ replace๋ ๋ฐ์ดํฐํ๋ ์ ๋ด ํน์ ๋ฌธ์์ด๊ณผ ์๋ฒฝํ๊ฒ ์ผ์นํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ์ฐพ์ ๋ณ๊ฒฝํฉ๋๋ค.df.replace('ํ์ฌ ..
๐ ๋ชฉ์ฐจ1. ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ 2. ์์นด๋ ์ ์ฌ๊ณ ์ค์ต1. ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ ์์นด๋ ์ ์ฌ๋(Jaccard Similarity)๋ \(2\)๊ฐ์ ์งํฉ \(A\), \(B\)๊ฐ ์์ ๋ ๋ ์งํฉ์ ํฉ์งํฉ ์ค ๊ต์งํฉ์ ๋น์จ์ ๋๋ค. ์ฆ, ๋ ์งํฉ์ด ์์ ํ ๊ฐ์ ๋๋ ์์นด๋ ์ ์ฌ๋๊ฐ \(1\)์ด๋ฉฐ, ๋ ์งํฉ์ ๊ต์งํฉ์ด ์๋ ๊ฒฝ์ฐ๋ \(0\)์ ๋๋ค. ์์นด๋ ์ ์ฌ๋๋ฅผ \(J\)๋ผ๊ณ ํ ๋ ๋ ์งํฉ ๊ฐ์ ์์นด๋ ์ ์ฌ๋ ์์์ ์๋์ ๊ฐ์ต๋๋ค. $$ J(A, B) = \frac{|A \cap B|}{|A \cup B|} = \frac{|A \cap B|}{|A| + |B| - |A \cap B|} $$ ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ ์ ์์ฐ์ด์ฒ๋ฆฌ ๋ถ์ผ๋ก ๊ทธ๋๋ก ๊ฐ์ ธ์ค๋ฉด, ํ๋์ ์งํฉ์ด ๊ณง ํ๋์ ๋ฌธ์๊ฐ ํด๋นํ๋ ๊ฒ์ ๋๋ค. ..
๐ ๋ชฉ์ฐจ1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ 2. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ์ค์ต1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ ์ํ์ ๊ด์ ์ ๊ทผ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ(Euclidean Distance)๋ ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๋ ์ \(p\)์ \(q\)๊ฐ ๊ฐ๊ฐ \((p_1, p_2, ..., p_n)\), \((q_1, q_2, ..., q_n)\) ์ขํ๋ฅผ ๊ฐ์ง ๋, ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ณต์์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค. $$ \sqrt{(q_1 - p_1)^2 + (q_2 - p_2)^2 + ... + (q_n - p_n)^2} = \sqrt{\displaystyle\sum_{i=1}^{n}(q_i - p_i)^2}$$ ๋ค์ฐจ์์ด ์๋ 2์ฐจ์ ๊ณต๊ฐ์์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ฅผ ์ฝ๊ฒ ์์๋ณด๊ฒ ์ต๋๋ค(๊ทธ๋ฆผ 1 ์ฐธ๊ณ ). ๋ ์ \..
๐ ๋ชฉ์ฐจ1. ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ฐ๋ 2. ์ฝ์ฌ์ธ ์ ์ฌ๋ ์ค์ต1. ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ฐ๋ ์ฝ์ฌ์ธ ์ ์ฌ๋(Cosine Similarity)๋ ๋ ๋ฒกํฐ ์ฌ์ด์ ๊ฐ๋๋ฅผ ๊ณ์ฐํ์ฌ ๋ ๋ฒกํฐ๊ฐ ์ผ๋ง๋ ์ ์ฌํ์ง ์ธก์ ํ๋ ์ฒ๋์ ๋๋ค. ์ฆ, DTM, TF-IDF, Word2Vec ๋ฑ๊ณผ ๊ฐ์ด ๋จ์ด๋ฅผ ์์นํํ์ฌ ํํํ ์ ์๋ค๋ฉด ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ํ์ฉํ์ฌ ๋ฌธ์ ๊ฐ ์ ์ฌ๋๋ฅผ ๋น๊ตํ๋ ๊ฒ ๊ฐ๋ฅํฉ๋๋ค. ์ฝ์ฌ์ธ ์ ์ฌ๋๋ \(1\)์ ๊ฐ๊น์ธ์๋ก ๋ ๋ฒกํฐ๊ฐ ์ ์ฌํ๋ค๊ณ ํด์ํ๋ฉฐ, ๋ฌธ์์ ๊ธธ์ด๊ฐ ๋ค๋ฅธ ๊ฒฝ์ฐ์๋ ๋น๊ต์ ๊ณต์ ํ๊ฒ ๋น๊ตํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ์๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด ๋ ๋ฒกํฐ๊ฐ ๊ฐ์ ๋ฐฉํฅ์ ๊ฐ๋ฆฌํค๋, ์ฆ ๋ ๋ฒกํฐ ์ฌ์ด์ ๊ฐ๋๊ฐ \(0^\circ\)์ผ ๋ ์ฝ์ฌ์ธ ์ ์ฌ๋๊ฐ ์ต๋๊ฐ์ธ 1์ ๊ฐ์ต๋๋ค. \(A\), \(B\)๋ผ๋ ๋ ๋ฒกํฐ๊ฐ..
๐ ๋ค์ด๊ฐ๋ฉฐ๋ณธ ํฌ์คํ ์์๋ Boxplot๋ฅผ ํด์ํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ด ๋๋ค.์๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด ์ธ๋ก์ถ์ ํน์ ๊ฐ์ ๋ฒ์๋ฅผ ๋ํ๋ด๊ณ , ์ด ๋ฒ์ ๋ด์์ ๋ฐ์ดํฐ๋ ์ฃผ๋ก ํ๋์ ๋ฐ์ค ์์ ๋ถํฌํฉ๋๋ค. ํ๋์ ๋ฐ์ค ๊ฐ์ด๋ฐ ๋ ธ๋์ ์ง์ ์ผ๋ก ํ์ํ ๋ถ๋ถ์ด ๋ฐ์ดํฐ์ ์ค์๊ฐ(Median)์ด ๋ฉ๋๋ค.๋ฐ์ค ์ต์๋จ์ ์ 3 ์ฌ๋ถ์์(Q3, 75th percentile), ์ตํ๋จ์ ์ 1 ์ฌ๋ถ์์(Q1, 25th percentile)์ ๋๋ค. ์ฌ๋ถ์์(Quantile)๋ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ค๋ฆ์ฐจ์ ์ ๋ ฌํ ๋ค์ 25%์ฉ ๋์ผํ ๋น์จ๋ก ๋ฐ์ดํฐ๋ฅผ ๋๋ ๊ฒ์ ๋๋ค. ์ฆ, ์ 1 ์ฌ๋ถ์์(Q1)๋ ๊ฐ์ฅ ์์ ๋ฐ์ดํฐ๋ถํฐ ์ ์ฒด ์ค 25% ๋น์จ๋งํผ์ ๋ฐ์ดํฐ๋ฅผ(25%) ์๋ฏธํ๊ณ , ์ 3 ์ฌ๋ถ์์(Q3)๋ ์ค์๊ฐ(50%)์์๋ถํฐ 25% ๋น์จ๋งํผ์ ๋ฐ์ดํฐ๋ฅผ..
