- Today
- Total
๋ชฉ๋ก๋น ๋ฐ์ดํฐ (10)
DATA101

์๋ ํ์ธ์, AI/๋น ๋ฐ์ดํฐ๋ถ์ ์ฐ๊ตฌ๊ฐ๋ฐ ์ ๋ฌธ๋ฒ์ธ DATA101 ํ์ ๋๋ค๐ ๐ DATA101 ํ์์ ์์ธ ์งํ์ฒ ๋ฌด์์น์ฐจ Data๋ฅผ ํตํด ์๋ฏผ์ฐธ์ฌ, ์ด๋, ์ํ ํจํด์ ๋ถ์ํ ์ธ์ฌ์ดํธ๋ฅผ ํ์ธํด ๋ณด์ธ์! ๐ ์๋ฏผ์ฐธ์ฌ – ์งํ์ ๋ชจ์์ด ์ด๋ฆฌ๋ ๋ , ์งํ์ฒ Data๋ ๋ชฉ์๋ฆฌ๊ฐ ๋ชจ์ด๋ ํ์ ๋ณด์ฌ์ค๋๋ค.๐ถ ์ด๋ – ๋ ธ๋ ์ธต์ ์ผ์์ ๋ฐ๊ฑธ์์ ์์ฅ๊ณผ ๊ณจ๋ชฉ์ ์๊ณ , ๋์์ ๋ฐ๋ปํ ์ํ์์ ๊ธฐ๋กํฉ๋๋ค.๐ค ์ํ ํจํด – ์ซ์ ์์๋ ๋จ์ํ ์ด๋์ด ์๋๋ผ ์ถ์ ํ์ ๊ณผ ์ฐ๊ฒฐ์ด ๋ด๊ฒจ ์์ต๋๋ค. Data๋ ๋์์ ๋ฏผ๋ฏ์ ๋น์ถ๋ ๊ฑฐ์ธ์ด์, ๋ฏธ๋๋ฅผ ์ฝ๋ ์ธ์ฌ์ดํธ๊ฐ ๋ฉ๋๋ค.๋ค์์ ๋ ์ด๋ค ์์ง์์ ๋ด์๋ผ๊น์? ํ์ Data ๋ถ์์ ํตํด ์ฌ๋ฌ๋ถ์ด ์์๋ณด๊ณ ์ถ์๋ ์ด์๊ฐ ์๋ค๋ฉด ๋๊ธ๋ก ๋จ๊ฒจ์ฃผ์ธ์๐DATA101 ํ์ด ํฅ๋ฏธ๋ก์ด ์ฃผ..

์๋ ํ์ธ์, AI/๋น ๋ฐ์ดํฐ๋ถ์ ์ฐ๊ตฌ๊ฐ๋ฐ ์ ๋ฌธ๋ฒ์ธ DATA101 ํ์ ๋๋ค๐ ์ค๋์ ์ ํฌ DATA101์์ ๋ํ๋ฏผ๊ตญ No.1 ์๋์ฐจ Youtube '๊นํ์ฉ์ MOCAR' ์ฑ๋์ ์ฌ์ธต ๋ถ์ํ ์ฌ๋ก๋ฅผ ์๊ฐํด ๋๋ฆฝ๋๋ค๐จ๐ป์ด๋ฒ ์ฌ๋กzip ์ญ์ ์ ํฌ DATA101 ์ค๋ฌด์ง์ด ์ง์ ๋ฐ์ดํฐ ์์ง๋ถํฐ ๊ฐ๊ณต, ์๊ฐํ, ๋ฆฌํฌํธ ์์ฑ๊น์ง ์งํํ ํ๋ก์ ํธ์ ๋๋ค. ๋ณธ ํ๋ก์ ํธ์ ํ์ฉํ ๋ฐ์ดํฐ๋ 2024๋ 1๊ฐ๋ ์น๋ฅผ ์ง์ ์์งํ์ฌ ๋ถ์ํ ์ ์ฐธ๊ณ ํด ์ฃผ์๊ธธ ๋ฐ๋๋๋ค๐ํน์ ๋ธ๋๋, ํน์ ์ฃผ์ ์ ๋์ฑ ์ฌ์ธต์ ์ธ ๋ถ์ ์๋ฃ๊ฐ ํ์ํ์ ๋ถ๋ค๊ป์๋ ๋๊ธ / ์ด๋ฉ์ผ / ์นดํก ์ค ํธํ ๋ฐฉ๋ฒ์ผ๋ก ๋ฌธ์ํด ์ฃผ์ธ์๐ [ Contact Point ]๐ฌ ๋ฉ์ผ) contact@uf5.io๐ก ์นดํก) DATA101 (ํ๋ฌ์ค์น๊ตฌ)๐ด ์ ํ๋ธ) DAT..

๐ ๋ค์ด๊ฐ๋ฉฐ ํ๋ ์ฌํ์์ ๋ฐ๋ ค๋๋ฌผ์ ๋จ์ํ ์ ์๋๋ฌผ์ ๋์ด ๊ฐ์กฑ์ ์ผ์์ผ๋ก ์๋ฆฌ ์ก๊ณ ์์ต๋๋ค.ํ์ฌ ๋ฐ๋ ค๋๋ฌผ์ ์์กํ๊ณ ์๋ ์ธ๊ตฌ๋ ์ฝ 1,500๋ง ๋ช ์ผ๋ก, ์ด๋ ์ ์ฒด ์ธ๊ตฌ์ 28.2%์ด๋ ์ฐจ์งํ๊ณ ์์ฃ .์ด์ฒ๋ผ ๋ฐ๋ ค๋๋ฌผ์ ์ธ์์ด ํ์ฐ๋จ์ ๋ฐ๋ผ ๊ฑด๊ฐ ๊ด๋ฆฌ์ ๋ํ ๊ด์ฌ๊ณผ ํ์์ฑ๋ ์ ์ฐจ ์ฆ๊ฐํ๊ณ ์์ต๋๋ค. ๋ฐ๋ ค๋๋ฌผ์ ์์กํ๋๋ฐ ๋๋ ์ํ๊ท ๋น์ฉ์ ์ฝ 15๋ง ์์ ๋ฌํ๋ฉฐ ์ด ์ค ์๋น ๋ถ๋ถ์ ๊ฑด๊ฐ ์ ์ง์ ๊ด๋ จ๋ ์ง์ถ๋ก ๋ํ๋ฉ๋๋ค.์ด๋ ๋ณดํธ์๋ค์ด ๋ฐ๋ ค๋๋ฌผ์ ๊ฑด๊ฐ์ ๊ฐ์กฑ์ ๊ฑด๊ฐ๋งํผ์ด๋ ์ค์ํ๊ฒ ์ฌ๊ธด๋ค๋ ์ ์ ์์ฌํฉ๋๋ค.(๋ฐ๋ ค๋๋ฌผ ์๋ฃ๋ณดํ์ด ํ์ํ ์ด์ ) ์ด์ ๋ณธ ๋ ํฌํธ๋ AI Hub์์ ์ ๊ณตํ๋ ๋ฐ๋ ค๋๋ฌผ ๊ฑด๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ์ฌ ์ฃผ์ ๊ฑด๊ฐ ๋ฌธ์ ์ ๊ด๋ฆฌ ๋ํฅ์ ํ์ ํ๊ณ ,๋ณดํธ์๋ค์๊ฒ ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ฌ ๋ฐ๋ ค..

๐จ๐ป 1. ๊ฐ์๋ณธ ํฌ์คํ ์์๋ ํ์ด์ฌ matplotlib.pyplot ํจํค์ง๋ฅผ ํ์ฉํ ์๊ฐํ ์๋ฃ ์ ์ฅ ์ ์๋ฃ ๋ด ๋ถํ์ํ ์ฌ๋ฐฑ์ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ค๋ฃน๋๋ค.๐ค 2. ๋ฌธ์ ์ ์๋ (๊ทธ๋ฆผ 1)๊ณผ ๊ฐ์ด, matplotlib ์ต์ ์ค์ ์์ด ์๊ฐํ ์๋ฃ๋ฅผ ์ ์ฅํ๊ฒ ๋๋ฉด ๊ทธ๋ํ ์ฃผ๋ณ ์ฌ๋ฐฉ์ผ๋ก ๋ถํ์ํ ์ฌ๋ฐฑ์ด ๋ง์ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ์ด๋ ๋ณด๊ณ ์๋ ๋์๋ณด๋ ๋ฑ์ ํ์ฉ ์ ๋ค๋ฅธ ์ฐจํธ๋ค๊ณผ์ ์ฌ๋ฏธ์ฑ ์๋ ์กฐํ๋ฅผ ๋ฐฉํดํ๋ ์์๊ฐ ๋๊ธฐ๋ ํฉ๋๋ค. [์์ ์ฝ๋ - savefig ๋ฉ์๋ ์ต์ ๋ฏธ์ค์ ]# ํจํค์ง ์ค์น ํ์ : pip install matplotlibimport matplotlib.pyplot as plt# ๊ทธ๋ํ ์์ฑplt.plot([1, 2, 3, 4])plt.ylabel('some nu..

๐ก ๋ค์ด๊ฐ๋ฉฐ ๋ณธ ํฌ์คํ ์์๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋จ์๋ก ์นด์ดํ ํ๊ณ ์ด๋ฅผ ์๊ฐํํ๋ ๋ฐฉ๋ฒ์ ์๊ฐํฉ๋๋ค. 1. ํจํค์ง import import pandas as pd import numpy as np import matplotlib.pyplot as plt 2. ๋ฐ์ดํฐ์ ๋ถ๋ฌ์ค๊ธฐ ํฌ์คํ ์์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ์ ์ ๊ณต์ ๊ฐ ๋ถ๊ฐํ์ค๋ ํ์ต ๋ชฉ์ ์ผ๋ก๋ง ๋ด์ฃผ์๊ธธ ๋ฐ๋๋๋ค. DATASET = pd.read_csv('./dataset_app_review.csv') DATASET.head() 3. ๋ฐ์ดํฐ ํ์ ํ์ธ DATASET.dtypes ์๋์ ๊ฐ์ด, ๋ ์ง ์ ๋ณด(date)๋ ํ์ฌ ์ ์ํ(int)์ ๋๋ค. ํธ๋ฆฌํ๊ฒ ๋ ์งํ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํ์ฌ ์ด๋ฅผ datetime ํ์ ์ผ๋ก ๋ฐ๊ฟ์ค ํ์๊ฐ ์์ต๋๋ค. 4. ๋ฐ์ดํฐ ํ์ ๋ณ๊ฒฝ "์ฐ-..

๐ก ๋ค์ด๊ฐ๋ฉฐ Numpy ํจํค์ง์ where ํจ์๋ฅผ ์ฌ์ฉํ๋ฉด ๋ฐ์ดํฐํ๋ ์์์ ํน์ ์กฐ๊ฑด์ ๋ง๋ ์ธ๋ฑ์ค๋ฅผ ์ฐพ๊ฑฐ๋, ํด๋น ์ธ๋ฑ์ค์ ๊ฐ์ ์ฝ๊ฒ ๋ฐ๊ฟ ์ ์์ต๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก numpy ํจํค์ง ์ค์น ๋ฐ import๋ ํ์์ ๋๋ค. !pip install numpy import numpy as np 1. ์กฐ๊ฑด์ ๋ง๋ ์ธ๋ฑ์ค ๋ฐํ ์๋์ ๊ฐ์ด ์กฐ๊ฑด๋ฌธ์ ์ ๋ ฅํ๋ฉด, ์กฐ๊ฑด์ ํด๋น๋๋ ์ธ๋ฑ์ค๋ฅผ ๋ฐํํฉ๋๋ค. np.where(์กฐ๊ฑด๋ฌธ) ์๋์ ๊ฐ์ ๋ฐ์ดํฐ์ ์ด ์์ ๋, THK ์นผ๋ผ ๋ด ๊ฐ์ด 30๋ณด๋ค ํฐ ๊ฐ์ ์ธ๋ฑ์ค๋ฅผ ์กฐํํด ๋ณด๋ฉด ์๋์ ๊ฐ์ต๋๋ค. np.where(30 < DATASET_RAW['THK']) 2. ์กฐ๊ฑด์ ๋ฐ๋ผ ๋ฐ์ดํฐ ์ธ์ฝ๋ฉ ์๋์ ๊ฐ์ด, ์กฐ๊ฑด๋ฌธ๊ณผ ํจ๊ป ์กฐ๊ฑด๋ฌธ์ด ์ฐธ ํน์ ๊ฑฐ์ง์ผ ๊ฒฝ์ฐ ๊ฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ณํํ ๊ฐ์ ์ ๋ ฅํด ..

๐ก ๋ค์ด๊ฐ๋ฉฐ๋ฐ์ดํฐํ๋ ์ ๋ด ๋ฌธ์์ด ํ ๊ธ์๊น์ง ์๋ฒฝํ๊ฒ ์ผ์นํ๋ ์์๋ฅผ ์ฐพ๋์ง ํน์ ์ผ๋ถ ๊ธ์๋ผ๋ ์ผ์นํ๋ ์์๋ฅผ ์ฐพ์์ง์ ๋ฐ๋ผ ์ฌ์ฉํด์ผ ํ ํจ์๊ฐ ๋๋ฉ๋๋ค(์๋ ํ ์ฐธ๊ณ ).No.ํจ์ํ์ฉ๋ฐฉ์1replace()์๋ฒฝํ๊ฒ ์ผ์นํ๋ ๋จ์ด๋ฅผ ์ฐพ์ ๋ฐ๊พธ๋ ๊ฒฝ์ฐ2str.replace()์ผ๋ถ ๋จ์ด๋ผ๋ ์ผ์นํ๋ ๋จ์ด๋ฅผ ์ฐพ์ ๋ฐ๊พธ๋ ๊ฒฝ์ฐํจ์๋ณ๋ก ๊ฐ๊ฐ ์์ธํ ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. replace ํจ์ 1) ๊ธฐ๋ณธ ์ฌ์ฉ๋ฐฉ๋ฒ 2) ์ฌ๋ฌ ๋ฌธ์์ด ๋์ ๋ณ๊ฒฝ 3) ํน์ ์นผ๋ผ ๋ฐ์ดํฐ ๋ณ๊ฒฝ 4) ์๋ณธ ๋ฐ์ดํฐ ๋ณ๊ฒฝ์ต์ (inplace)2. str.replace ํจ์1) ๊ธฐ๋ณธ ์ฌ์ฉ๋ฐฉ๋ฒ๋ด์ฅ ํจ์ replace๋ ๋ฐ์ดํฐํ๋ ์ ๋ด ํน์ ๋ฌธ์์ด๊ณผ ์๋ฒฝํ๊ฒ ์ผ์นํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ์ฐพ์ ๋ณ๊ฒฝํฉ๋๋ค.df.replace('ํ์ฌ ..

๐ ๋ค์ด๊ฐ๋ฉฐ ๋ณธ ํฌ์คํ ์์๋ Boxplot๋ฅผ ํด์ํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ด ๋๋ค. ์๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด ์ธ๋ก์ถ์ ํน์ ๊ฐ์ ๋ฒ์๋ฅผ ๋ํ๋ด๊ณ , ์ด ๋ฒ์ ๋ด์์ ๋ฐ์ดํฐ๋ ์ฃผ๋ก ํ๋์ ๋ฐ์ค ์์ ๋ถํฌํฉ๋๋ค. ํ๋์ ๋ฐ์ค ๊ฐ์ด๋ฐ ๋ ธ๋์ ์ง์ ์ผ๋ก ํ์ํ ๋ถ๋ถ์ด ๋ฐ์ดํฐ์ ์ค์๊ฐ(Median)์ด ๋ฉ๋๋ค. ๋ฐ์ค ์ต์๋จ์ ์ 3 ์ฌ๋ถ์์(Q3, 75th percentile), ์ตํ๋จ์ ์ 1 ์ฌ๋ถ์์(Q1, 25th percentile)์ ๋๋ค. ์ฌ๋ถ์์(Quantile)๋ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ค๋ฆ์ฐจ์ ์ ๋ ฌํ ๋ค์ 25%์ฉ ๋์ผํ ๋น์จ๋ก ๋ฐ์ดํฐ๋ฅผ ๋๋ ๊ฒ์ ๋๋ค. ์ฆ, ์ 1 ์ฌ๋ถ์์(Q1)๋ ๊ฐ์ฅ ์์ ๋ฐ์ดํฐ๋ถํฐ ์ ์ฒด ์ค 25% ๋น์จ๋งํผ์ ๋ฐ์ดํฐ๋ฅผ(25%) ์๋ฏธํ๊ณ , ์ 3 ์ฌ๋ถ์์(Q3)๋ ์ค์๊ฐ(50%)์์๋ถํฐ 25% ๋น์จ๋งํผ์ ๋ฐ์ด..