- Today
- Total
๋ชฉ๋ก๋ฐ์ดํฐ๋ถ์ (11)
DATA101

์๋ ํ์ธ์, AI/๋น ๋ฐ์ดํฐ๋ถ์ ์ฐ๊ตฌ๊ฐ๋ฐ ์ ๋ฌธ๋ฒ์ธ DATA101 ํ์ ๋๋ค๐ ๐ DATA101 ํ์์ ์์ธ ์งํ์ฒ ๋ฌด์์น์ฐจ Data๋ฅผ ํตํด ์๋ฏผ์ฐธ์ฌ, ์ด๋, ์ํ ํจํด์ ๋ถ์ํ ์ธ์ฌ์ดํธ๋ฅผ ํ์ธํด ๋ณด์ธ์! ๐ ์๋ฏผ์ฐธ์ฌ – ์งํ์ ๋ชจ์์ด ์ด๋ฆฌ๋ ๋ , ์งํ์ฒ Data๋ ๋ชฉ์๋ฆฌ๊ฐ ๋ชจ์ด๋ ํ์ ๋ณด์ฌ์ค๋๋ค.๐ถ ์ด๋ – ๋ ธ๋ ์ธต์ ์ผ์์ ๋ฐ๊ฑธ์์ ์์ฅ๊ณผ ๊ณจ๋ชฉ์ ์๊ณ , ๋์์ ๋ฐ๋ปํ ์ํ์์ ๊ธฐ๋กํฉ๋๋ค.๐ค ์ํ ํจํด – ์ซ์ ์์๋ ๋จ์ํ ์ด๋์ด ์๋๋ผ ์ถ์ ํ์ ๊ณผ ์ฐ๊ฒฐ์ด ๋ด๊ฒจ ์์ต๋๋ค. Data๋ ๋์์ ๋ฏผ๋ฏ์ ๋น์ถ๋ ๊ฑฐ์ธ์ด์, ๋ฏธ๋๋ฅผ ์ฝ๋ ์ธ์ฌ์ดํธ๊ฐ ๋ฉ๋๋ค.๋ค์์ ๋ ์ด๋ค ์์ง์์ ๋ด์๋ผ๊น์? ํ์ Data ๋ถ์์ ํตํด ์ฌ๋ฌ๋ถ์ด ์์๋ณด๊ณ ์ถ์๋ ์ด์๊ฐ ์๋ค๋ฉด ๋๊ธ๋ก ๋จ๊ฒจ์ฃผ์ธ์๐DATA101 ํ์ด ํฅ๋ฏธ๋ก์ด ์ฃผ..

๐ ์ง๋ 2์, ๋ฐ์ดํฐ์๋์ ํ์ AI/๋น ๋ฐ์ดํฐ๋ถ์ ์๋ฃจ์ ์ด No.1 ํ๋ฆฌ๋์ ๋ง์ผ ํฌ๋ชฝ์์ ์์ ํ ์์ 2% ์ ๋ฌธ๊ฐ ์๋น์ค์ธ prime์ ์ ์ ๋์์ต๋๋ค. ๐ prime์ 100๋ง ๊ฑด ์ด์์ ํฌ๋ชฝ ๊ฑฐ๋ Data๋ฅผ ๋ถ์ํ๊ณ ์๋น์ค ๋ง์กฑ๋ 99% ์ด์์ธ ์ ๋ฌธ๊ฐ ์ธํฐ๋ทฐ ๋ฐ ๋ ํผ๋ฐ์ค ์ฒดํฌ๋ฅผ ํตํด ์์ ๋ 300์ฌ ๋ช ์ ์์ ์ ๋ฌธ๊ฐ์๊ฒ๋ง ์ฃผ์ด์ง๋ ์๋น์ค์ ๋๋ค. ๐ค ์ฃผ๋ก Prime ์ ๋ฌธ๊ฐ๋ ๋๊ธฐ์ ๋ถํฐ ์คํํธ์ , ์ ๋ถ๊ธฐ๊ด๊น์ง B2B ๊ณ ๊ฐ์ ์ฃผ ํ๊ฒ์ผ๋ก ๊ฑฐ๋ํ๋ ํ์ง๋ณด์ฅ ์ ์ฒด๋ค๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๐จ๐ป ํ์ฌ ์ ํฌ ๋ฐ์ดํฐ์๋์ ํ์ AI๋ฅผ ํ์ฉํ ๋น ๋ฐ์ดํฐ๋ถ์ ์๋ฃจ์ ๊ตฌ์ถ๋ถํฐ ๋ค์ํ ์ฐ์ ๊ตฐ์ ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ณผ์ ์ํ์ ์ง์ํด ๋๋ฆฌ๊ณ ์์ต๋๋ค. ๐ AI ๊ธฐ์ ์ ํ์ฉํ SW ์ธํ๋ผ ๊ตฌ์ถ์ด๋ ๋น ๋ฐ์ดํฐ ๋ถ์..

๐ ๋ค์ด๊ฐ๋ฉฐ ํ๋ ์ฌํ์์ ๋ฐ๋ ค๋๋ฌผ์ ๋จ์ํ ์ ์๋๋ฌผ์ ๋์ด ๊ฐ์กฑ์ ์ผ์์ผ๋ก ์๋ฆฌ ์ก๊ณ ์์ต๋๋ค.ํ์ฌ ๋ฐ๋ ค๋๋ฌผ์ ์์กํ๊ณ ์๋ ์ธ๊ตฌ๋ ์ฝ 1,500๋ง ๋ช ์ผ๋ก, ์ด๋ ์ ์ฒด ์ธ๊ตฌ์ 28.2%์ด๋ ์ฐจ์งํ๊ณ ์์ฃ .์ด์ฒ๋ผ ๋ฐ๋ ค๋๋ฌผ์ ์ธ์์ด ํ์ฐ๋จ์ ๋ฐ๋ผ ๊ฑด๊ฐ ๊ด๋ฆฌ์ ๋ํ ๊ด์ฌ๊ณผ ํ์์ฑ๋ ์ ์ฐจ ์ฆ๊ฐํ๊ณ ์์ต๋๋ค. ๋ฐ๋ ค๋๋ฌผ์ ์์กํ๋๋ฐ ๋๋ ์ํ๊ท ๋น์ฉ์ ์ฝ 15๋ง ์์ ๋ฌํ๋ฉฐ ์ด ์ค ์๋น ๋ถ๋ถ์ ๊ฑด๊ฐ ์ ์ง์ ๊ด๋ จ๋ ์ง์ถ๋ก ๋ํ๋ฉ๋๋ค.์ด๋ ๋ณดํธ์๋ค์ด ๋ฐ๋ ค๋๋ฌผ์ ๊ฑด๊ฐ์ ๊ฐ์กฑ์ ๊ฑด๊ฐ๋งํผ์ด๋ ์ค์ํ๊ฒ ์ฌ๊ธด๋ค๋ ์ ์ ์์ฌํฉ๋๋ค.(๋ฐ๋ ค๋๋ฌผ ์๋ฃ๋ณดํ์ด ํ์ํ ์ด์ ) ์ด์ ๋ณธ ๋ ํฌํธ๋ AI Hub์์ ์ ๊ณตํ๋ ๋ฐ๋ ค๋๋ฌผ ๊ฑด๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ์ฌ ์ฃผ์ ๊ฑด๊ฐ ๋ฌธ์ ์ ๊ด๋ฆฌ ๋ํฅ์ ํ์ ํ๊ณ ,๋ณดํธ์๋ค์๊ฒ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ฌ ๋ฐ๋ ค..

๐ ๋ค์ด๊ฐ๋ฉฐ๋ณธ ํฌ์คํ ์์๋ ํ์ด์ฌ pandas ์ฌ์ฉ ์ ๋ฐ์ดํฐํ๋ ์ ์ ์ฒด ํ๊ณผ ์ด ์กฐํ ๋ฐฉ๋ฒ์ ์๊ฐํฉ๋๋ค.๐ก์ํฉํ๋ค์ค ํตํด ์์ ํ์ผ ์กฐํ ์ ๊ธฐ๋ณธ๊ฐ์ผ๋ก๋ ์ผ๋ถ ํ๊ณผ ์ด์ด ์จ๊น์ฒ๋ฆฌ ๋๋ ํ์์ด ๋ฐ์ํฉ๋๋ค(๊ทธ๋ฆผ 1).# ๋ฏธ์ค์น ์ pip install pandasimport pandas as pddf = pd.read_excel(filepath+filename, sheet_name = 'Sheet2')df.head()โ ํด๊ฒฐ๋ฐฉ๋ฒํด๊ฒฐ๋ฐฉ๋ฒ์ ๊ฐ๋จํฉ๋๋ค. ์๋์ ๊ฐ์ด ํ๋ค์ค ์ต์ ์ ๋ณ๊ฒฝํด ์ฃผ๋ฉด ๋ฉ๋๋ค.1) ๋ชจ๋ ์ด ์ถ๋ ฅ์๋์ ๋ช ๋ น์ด๋ง ์คํํด ์ฃผ๋ฉด ๋ชจ๋ ์ด์ ์กฐํํ ์ ์์ต๋๋ค(๊ทธ๋ฆผ 2).pd.set_option('display.max_columns', None)2) ๋ชจ๋ ํ ์ถ๋ ฅ์ ์ฌํ๊ฒ ๋ชจ๋ ํ ์ถ๋ ฅํ๋ ๋ช ..

๐ก ๋ค์ด๊ฐ๋ฉฐ Numpy ํจํค์ง์ where ํจ์๋ฅผ ์ฌ์ฉํ๋ฉด ๋ฐ์ดํฐํ๋ ์์์ ํน์ ์กฐ๊ฑด์ ๋ง๋ ์ธ๋ฑ์ค๋ฅผ ์ฐพ๊ฑฐ๋, ํด๋น ์ธ๋ฑ์ค์ ๊ฐ์ ์ฝ๊ฒ ๋ฐ๊ฟ ์ ์์ต๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก numpy ํจํค์ง ์ค์น ๋ฐ import๋ ํ์์ ๋๋ค. !pip install numpy import numpy as np 1. ์กฐ๊ฑด์ ๋ง๋ ์ธ๋ฑ์ค ๋ฐํ ์๋์ ๊ฐ์ด ์กฐ๊ฑด๋ฌธ์ ์ ๋ ฅํ๋ฉด, ์กฐ๊ฑด์ ํด๋น๋๋ ์ธ๋ฑ์ค๋ฅผ ๋ฐํํฉ๋๋ค. np.where(์กฐ๊ฑด๋ฌธ) ์๋์ ๊ฐ์ ๋ฐ์ดํฐ์ ์ด ์์ ๋, THK ์นผ๋ผ ๋ด ๊ฐ์ด 30๋ณด๋ค ํฐ ๊ฐ์ ์ธ๋ฑ์ค๋ฅผ ์กฐํํด ๋ณด๋ฉด ์๋์ ๊ฐ์ต๋๋ค. np.where(30 < DATASET_RAW['THK']) 2. ์กฐ๊ฑด์ ๋ฐ๋ผ ๋ฐ์ดํฐ ์ธ์ฝ๋ฉ ์๋์ ๊ฐ์ด, ์กฐ๊ฑด๋ฌธ๊ณผ ํจ๊ป ์กฐ๊ฑด๋ฌธ์ด ์ฐธ ํน์ ๊ฑฐ์ง์ผ ๊ฒฝ์ฐ ๊ฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ณํํ ๊ฐ์ ์ ๋ ฅํด ..

๐ก ๋ค์ด๊ฐ๋ฉฐ๋ฐ์ดํฐํ๋ ์ ๋ด ๋ฌธ์์ด ํ ๊ธ์๊น์ง ์๋ฒฝํ๊ฒ ์ผ์นํ๋ ์์๋ฅผ ์ฐพ๋์ง ํน์ ์ผ๋ถ ๊ธ์๋ผ๋ ์ผ์นํ๋ ์์๋ฅผ ์ฐพ์์ง์ ๋ฐ๋ผ ์ฌ์ฉํด์ผ ํ ํจ์๊ฐ ๋๋ฉ๋๋ค(์๋ ํ ์ฐธ๊ณ ).No.ํจ์ํ์ฉ๋ฐฉ์1replace()์๋ฒฝํ๊ฒ ์ผ์นํ๋ ๋จ์ด๋ฅผ ์ฐพ์ ๋ฐ๊พธ๋ ๊ฒฝ์ฐ2str.replace()์ผ๋ถ ๋จ์ด๋ผ๋ ์ผ์นํ๋ ๋จ์ด๋ฅผ ์ฐพ์ ๋ฐ๊พธ๋ ๊ฒฝ์ฐํจ์๋ณ๋ก ๊ฐ๊ฐ ์์ธํ ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. replace ํจ์ 1) ๊ธฐ๋ณธ ์ฌ์ฉ๋ฐฉ๋ฒ 2) ์ฌ๋ฌ ๋ฌธ์์ด ๋์ ๋ณ๊ฒฝ 3) ํน์ ์นผ๋ผ ๋ฐ์ดํฐ ๋ณ๊ฒฝ 4) ์๋ณธ ๋ฐ์ดํฐ ๋ณ๊ฒฝ์ต์ (inplace)2. str.replace ํจ์1) ๊ธฐ๋ณธ ์ฌ์ฉ๋ฐฉ๋ฒ๋ด์ฅ ํจ์ replace๋ ๋ฐ์ดํฐํ๋ ์ ๋ด ํน์ ๋ฌธ์์ด๊ณผ ์๋ฒฝํ๊ฒ ์ผ์นํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ์ฐพ์ ๋ณ๊ฒฝํฉ๋๋ค.df.replace('ํ์ฌ ..

๐ ๋ชฉ์ฐจ1. ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ 2. ์์นด๋ ์ ์ฌ๊ณ ์ค์ต1. ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ ์์นด๋ ์ ์ฌ๋(Jaccard Similarity)๋ \(2\)๊ฐ์ ์งํฉ \(A\), \(B\)๊ฐ ์์ ๋ ๋ ์งํฉ์ ํฉ์งํฉ ์ค ๊ต์งํฉ์ ๋น์จ์ ๋๋ค. ์ฆ, ๋ ์งํฉ์ด ์์ ํ ๊ฐ์ ๋๋ ์์นด๋ ์ ์ฌ๋๊ฐ \(1\)์ด๋ฉฐ, ๋ ์งํฉ์ ๊ต์งํฉ์ด ์๋ ๊ฒฝ์ฐ๋ \(0\)์ ๋๋ค. ์์นด๋ ์ ์ฌ๋๋ฅผ \(J\)๋ผ๊ณ ํ ๋ ๋ ์งํฉ ๊ฐ์ ์์นด๋ ์ ์ฌ๋ ์์์ ์๋์ ๊ฐ์ต๋๋ค. $$ J(A, B) = \frac{|A \cap B|}{|A \cup B|} = \frac{|A \cap B|}{|A| + |B| - |A \cap B|} $$ ์์นด๋ ์ ์ฌ๋ ๊ฐ๋ ์ ์์ฐ์ด์ฒ๋ฆฌ ๋ถ์ผ๋ก ๊ทธ๋๋ก ๊ฐ์ ธ์ค๋ฉด, ํ๋์ ์งํฉ์ด ๊ณง ํ๋์ ๋ฌธ์๊ฐ ํด๋นํ๋ ๊ฒ์ ๋๋ค. ..

๐ ๋ชฉ์ฐจ1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ 2. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ์ค์ต1. ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ ์ํ์ ๊ด์ ์ ๊ทผ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ(Euclidean Distance)๋ ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ๋ ์ \(p\)์ \(q\)๊ฐ ๊ฐ๊ฐ \((p_1, p_2, ..., p_n)\), \((q_1, q_2, ..., q_n)\) ์ขํ๋ฅผ ๊ฐ์ง ๋, ๋ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ ๊ณต์์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค. $$ \sqrt{(q_1 - p_1)^2 + (q_2 - p_2)^2 + ... + (q_n - p_n)^2} = \sqrt{\displaystyle\sum_{i=1}^{n}(q_i - p_i)^2}$$ ๋ค์ฐจ์์ด ์๋ 2์ฐจ์ ๊ณต๊ฐ์์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ฅผ ์ฝ๊ฒ ์์๋ณด๊ฒ ์ต๋๋ค(๊ทธ๋ฆผ 1 ์ฐธ๊ณ ). ๋ ์ \..