- Today
- Total
๋ชฉ๋ก๋น ๋ฐ์ดํฐ (9)
DATA101
“์์ฒญ์๋ค์ ์ด ์ฐจ๋ฅผ ์ด๋ป๊ฒ ๋๊ผ์๊น?” DATA101์ ์์ด์ค๋6 ํ์ด์ค๋ฆฌํํธ ๊ด๋ จ ์ ํ๋ธ ์์น·๋ฆฌ๋ทฐ ์์ ๋๊ธ์ ์์งํดAI ๊ธฐ๋ฐ ํ ์คํธ ๋ถ์์ผ๋ก ์ ์ฌ ๊ณ ๊ฐ ๋ฐ์์ ์ ๋ํํ๋ ๋์๋ณด๋๋ฅผ ์ง์ ๊ตฌ์ถํ์ต๋๋ค. ์ด๋ฒ ํ๋ก์ ํธ๋ ๋จ์ ๋๊ธ ์ง๊ณ๊ฐ ์๋, โ ๋๊ธ ์ ํ ์๋ ๋ถ๋ฅโ ๊ธ·๋ถ์ ๊ฐ์ ๋ถ์โ ํต์ฌ ํค์๋ ์ถ์ถโ ์ฃผ์ ์๊ฒฌ ๊ตฌ์กฐํ ๋ฅผ ํตํด ‘๋ณด์ด์ง ์๋ ๊ณ ๊ฐ ์ธ์’์ ๋ฐ์ดํฐ๋ก ๋๋ฌ๋ด๋ ๊ฒ์ด ๋ชฉํ์์ต๋๋ค.๐ ๋ถ์ ํฌ์ธํธ๐ Youtube ์์ ์กฐํ์ ์์ ๋ด ๋๊ธ ์๋ ์์ง๐ LLM ๊ธฐ๋ฐ ๋๊ธ ์ ํ ๋ถ๋ฅ (๋์์ธ / ์น์ฐจ๊ฐ / ๊ฐ๊ฒฉ / ๊ฒฝ์์ฐจ ๋น๊ต ๋ฑ)๐ ๊ธ์ ·๋ถ์ ·์ค๋ฆฝ ๋ฐ์ ์๋ ํ๊น ๐ ๋๊ธ ์ ํ × ๊ฐ์ ๋ฐ์ ๊ต์ฐจ ๋ถ์๐ ํต์ฌ ํค์๋ Top100 + ์ฃผ์ ๋๊ธ ์๋ ์ ๋ฆฌ ์ด๋ฅผ Tableau ..
์๋ ํ์ธ์, AI/๋น ๋ฐ์ดํฐ๋ถ์ ์ฐ๊ตฌ๊ฐ๋ฐ ์ ๋ฌธ๋ฒ์ธ DATA101 ํ์ ๋๋ค๐ ๐ DATA101 ํ์์ ์์ธ ์งํ์ฒ ๋ฌด์์น์ฐจ Data๋ฅผ ํตํด ์๋ฏผ์ฐธ์ฌ, ์ด๋, ์ํ ํจํด์ ๋ถ์ํ ์ธ์ฌ์ดํธ๋ฅผ ํ์ธํด ๋ณด์ธ์! ๐ ์๋ฏผ์ฐธ์ฌ – ์งํ์ ๋ชจ์์ด ์ด๋ฆฌ๋ ๋ , ์งํ์ฒ Data๋ ๋ชฉ์๋ฆฌ๊ฐ ๋ชจ์ด๋ ํ์ ๋ณด์ฌ์ค๋๋ค.๐ถ ์ด๋ – ๋ ธ๋ ์ธต์ ์ผ์์ ๋ฐ๊ฑธ์์ ์์ฅ๊ณผ ๊ณจ๋ชฉ์ ์๊ณ , ๋์์ ๋ฐ๋ปํ ์ํ์์ ๊ธฐ๋กํฉ๋๋ค.๐ค ์ํ ํจํด – ์ซ์ ์์๋ ๋จ์ํ ์ด๋์ด ์๋๋ผ ์ถ์ ํ์ ๊ณผ ์ฐ๊ฒฐ์ด ๋ด๊ฒจ ์์ต๋๋ค. Data๋ ๋์์ ๋ฏผ๋ฏ์ ๋น์ถ๋ ๊ฑฐ์ธ์ด์, ๋ฏธ๋๋ฅผ ์ฝ๋ ์ธ์ฌ์ดํธ๊ฐ ๋ฉ๋๋ค.๋ค์์ ๋ ์ด๋ค ์์ง์์ ๋ด์๋ผ๊น์? ํ์ Data ๋ถ์์ ํตํด ์ฌ๋ฌ๋ถ์ด ์์๋ณด๊ณ ์ถ์๋ ์ด์๊ฐ ์๋ค๋ฉด ๋๊ธ๋ก ๋จ๊ฒจ์ฃผ์ธ์๐DATA101 ํ์ด ํฅ๋ฏธ๋ก์ด ์ฃผ..
๐จ๐ป 1. ๊ฐ์๋ณธ ํฌ์คํ ์์๋ ํ์ด์ฌ matplotlib.pyplot ํจํค์ง๋ฅผ ํ์ฉํ ์๊ฐํ ์๋ฃ ์ ์ฅ ์ ์๋ฃ ๋ด ๋ถํ์ํ ์ฌ๋ฐฑ์ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ค๋ฃน๋๋ค.๐ค 2. ๋ฌธ์ ์ ์๋ (๊ทธ๋ฆผ 1)๊ณผ ๊ฐ์ด, matplotlib ์ต์ ์ค์ ์์ด ์๊ฐํ ์๋ฃ๋ฅผ ์ ์ฅํ๊ฒ ๋๋ฉด ๊ทธ๋ํ ์ฃผ๋ณ ์ฌ๋ฐฉ์ผ๋ก ๋ถํ์ํ ์ฌ๋ฐฑ์ด ๋ง์ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ์ด๋ ๋ณด๊ณ ์๋ ๋์๋ณด๋ ๋ฑ์ ํ์ฉ ์ ๋ค๋ฅธ ์ฐจํธ๋ค๊ณผ์ ์ฌ๋ฏธ์ฑ ์๋ ์กฐํ๋ฅผ ๋ฐฉํดํ๋ ์์๊ฐ ๋๊ธฐ๋ ํฉ๋๋ค. [์์ ์ฝ๋ - savefig ๋ฉ์๋ ์ต์ ๋ฏธ์ค์ ]# ํจํค์ง ์ค์น ํ์ : pip install matplotlibimport matplotlib.pyplot as plt# ๊ทธ๋ํ ์์ฑplt.plot([1, 2, 3, 4])plt.ylabel('some nu..
๐ก ๋ค์ด๊ฐ๋ฉฐ ๋ณธ ํฌ์คํ ์์๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋จ์๋ก ์นด์ดํ ํ๊ณ ์ด๋ฅผ ์๊ฐํํ๋ ๋ฐฉ๋ฒ์ ์๊ฐํฉ๋๋ค. 1. ํจํค์ง import import pandas as pd import numpy as np import matplotlib.pyplot as plt 2. ๋ฐ์ดํฐ์ ๋ถ๋ฌ์ค๊ธฐ ํฌ์คํ ์์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ์ ์ ๊ณต์ ๊ฐ ๋ถ๊ฐํ์ค๋ ํ์ต ๋ชฉ์ ์ผ๋ก๋ง ๋ด์ฃผ์๊ธธ ๋ฐ๋๋๋ค. DATASET = pd.read_csv('./dataset_app_review.csv') DATASET.head() 3. ๋ฐ์ดํฐ ํ์ ํ์ธ DATASET.dtypes ์๋์ ๊ฐ์ด, ๋ ์ง ์ ๋ณด(date)๋ ํ์ฌ ์ ์ํ(int)์ ๋๋ค. ํธ๋ฆฌํ๊ฒ ๋ ์งํ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํ์ฌ ์ด๋ฅผ datetime ํ์ ์ผ๋ก ๋ฐ๊ฟ์ค ํ์๊ฐ ์์ต๋๋ค. 4. ๋ฐ์ดํฐ ํ์ ๋ณ๊ฒฝ "์ฐ-..
๐ก ๋ค์ด๊ฐ๋ฉฐ Numpy ํจํค์ง์ where ํจ์๋ฅผ ์ฌ์ฉํ๋ฉด ๋ฐ์ดํฐํ๋ ์์์ ํน์ ์กฐ๊ฑด์ ๋ง๋ ์ธ๋ฑ์ค๋ฅผ ์ฐพ๊ฑฐ๋, ํด๋น ์ธ๋ฑ์ค์ ๊ฐ์ ์ฝ๊ฒ ๋ฐ๊ฟ ์ ์์ต๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก numpy ํจํค์ง ์ค์น ๋ฐ import๋ ํ์์ ๋๋ค. !pip install numpy import numpy as np 1. ์กฐ๊ฑด์ ๋ง๋ ์ธ๋ฑ์ค ๋ฐํ ์๋์ ๊ฐ์ด ์กฐ๊ฑด๋ฌธ์ ์ ๋ ฅํ๋ฉด, ์กฐ๊ฑด์ ํด๋น๋๋ ์ธ๋ฑ์ค๋ฅผ ๋ฐํํฉ๋๋ค. np.where(์กฐ๊ฑด๋ฌธ) ์๋์ ๊ฐ์ ๋ฐ์ดํฐ์ ์ด ์์ ๋, THK ์นผ๋ผ ๋ด ๊ฐ์ด 30๋ณด๋ค ํฐ ๊ฐ์ ์ธ๋ฑ์ค๋ฅผ ์กฐํํด ๋ณด๋ฉด ์๋์ ๊ฐ์ต๋๋ค. np.where(30 < DATASET_RAW['THK']) 2. ์กฐ๊ฑด์ ๋ฐ๋ผ ๋ฐ์ดํฐ ์ธ์ฝ๋ฉ ์๋์ ๊ฐ์ด, ์กฐ๊ฑด๋ฌธ๊ณผ ํจ๊ป ์กฐ๊ฑด๋ฌธ์ด ์ฐธ ํน์ ๊ฑฐ์ง์ผ ๊ฒฝ์ฐ ๊ฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ณํํ ๊ฐ์ ์ ๋ ฅํด ..
๐ก ๋ค์ด๊ฐ๋ฉฐ๋ฐ์ดํฐํ๋ ์ ๋ด ๋ฌธ์์ด ํ ๊ธ์๊น์ง ์๋ฒฝํ๊ฒ ์ผ์นํ๋ ์์๋ฅผ ์ฐพ๋์ง ํน์ ์ผ๋ถ ๊ธ์๋ผ๋ ์ผ์นํ๋ ์์๋ฅผ ์ฐพ์์ง์ ๋ฐ๋ผ ์ฌ์ฉํด์ผ ํ ํจ์๊ฐ ๋๋ฉ๋๋ค(์๋ ํ ์ฐธ๊ณ ).No.ํจ์ํ์ฉ๋ฐฉ์1replace()์๋ฒฝํ๊ฒ ์ผ์นํ๋ ๋จ์ด๋ฅผ ์ฐพ์ ๋ฐ๊พธ๋ ๊ฒฝ์ฐ2str.replace()์ผ๋ถ ๋จ์ด๋ผ๋ ์ผ์นํ๋ ๋จ์ด๋ฅผ ์ฐพ์ ๋ฐ๊พธ๋ ๊ฒฝ์ฐํจ์๋ณ๋ก ๊ฐ๊ฐ ์์ธํ ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. replace ํจ์ 1) ๊ธฐ๋ณธ ์ฌ์ฉ๋ฐฉ๋ฒ 2) ์ฌ๋ฌ ๋ฌธ์์ด ๋์ ๋ณ๊ฒฝ 3) ํน์ ์นผ๋ผ ๋ฐ์ดํฐ ๋ณ๊ฒฝ 4) ์๋ณธ ๋ฐ์ดํฐ ๋ณ๊ฒฝ์ต์ (inplace)2. str.replace ํจ์1) ๊ธฐ๋ณธ ์ฌ์ฉ๋ฐฉ๋ฒ๋ด์ฅ ํจ์ replace๋ ๋ฐ์ดํฐํ๋ ์ ๋ด ํน์ ๋ฌธ์์ด๊ณผ ์๋ฒฝํ๊ฒ ์ผ์นํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ์ฐพ์ ๋ณ๊ฒฝํฉ๋๋ค.df.replace('ํ์ฌ ..
๐ ๋ค์ด๊ฐ๋ฉฐ ๋ณธ ํฌ์คํ ์์๋ Boxplot๋ฅผ ํด์ํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ด ๋๋ค. ์๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด ์ธ๋ก์ถ์ ํน์ ๊ฐ์ ๋ฒ์๋ฅผ ๋ํ๋ด๊ณ , ์ด ๋ฒ์ ๋ด์์ ๋ฐ์ดํฐ๋ ์ฃผ๋ก ํ๋์ ๋ฐ์ค ์์ ๋ถํฌํฉ๋๋ค. ํ๋์ ๋ฐ์ค ๊ฐ์ด๋ฐ ๋ ธ๋์ ์ง์ ์ผ๋ก ํ์ํ ๋ถ๋ถ์ด ๋ฐ์ดํฐ์ ์ค์๊ฐ(Median)์ด ๋ฉ๋๋ค. ๋ฐ์ค ์ต์๋จ์ ์ 3 ์ฌ๋ถ์์(Q3, 75th percentile), ์ตํ๋จ์ ์ 1 ์ฌ๋ถ์์(Q1, 25th percentile)์ ๋๋ค. ์ฌ๋ถ์์(Quantile)๋ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ค๋ฆ์ฐจ์ ์ ๋ ฌํ ๋ค์ 25%์ฉ ๋์ผํ ๋น์จ๋ก ๋ฐ์ดํฐ๋ฅผ ๋๋ ๊ฒ์ ๋๋ค. ์ฆ, ์ 1 ์ฌ๋ถ์์(Q1)๋ ๊ฐ์ฅ ์์ ๋ฐ์ดํฐ๋ถํฐ ์ ์ฒด ์ค 25% ๋น์จ๋งํผ์ ๋ฐ์ดํฐ๋ฅผ(25%) ์๋ฏธํ๊ณ , ์ 3 ์ฌ๋ถ์์(Q3)๋ ์ค์๊ฐ(50%)์์๋ถํฐ 25% ๋น์จ๋งํผ์ ๋ฐ์ด..
๐ ๋ชฉ์ฐจ Update Log 1. ์ฃผ์ ๊ธฐ๋ฅ 2. ํฌ๋กฌ ์ค์น 3. ์ ์ฒด ์ฝ๋ 4. ํจํค์ง ์ค์น 5. ์ฝ๋ ์ค๋ช ๐ Update Log ๐ Version 1.0.1 @ 2022-10-11 (1) ์ฝํ ์ธ ์กฐํ์ ๋ฐ ์ ๋ก๋์ผ ์ถ์ถ ๋ก์ง ์ถ๊ฐ Heo Jin ๋ ์์ฒญ์ฌํญ์ผ๋ก ์ถ๊ฐ ๋ฐ ํ ์คํธ ์๋ฃํ์์ต๋๋ค. 1. ์ฃผ์ ๊ธฐ๋ฅ ๋ณธ ํฌ์คํ ์์๋ ์ ํ๋ธ ๊ฒ์ ๊ฒฐ๊ณผ ์ฝํ ์ธ ์ ์ ๋ณด๋ฅผ ์์งํ๋ Scraper๋ฅผ ๊ฐ๋ฐํฉ๋๋ค. โป Scrap์ด๋?('๋๋ณด๊ธฐ' ํด๋ฆญ) ๋๋ณด๊ธฐ Scrap[์คํฌ๋ฉ]์ ์น ํ์ด์ง์์ ํน์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ค๋ ํ๋์ ๋งํฉ๋๋ค. ์ด์ฒ๋ผ Data Scraping์ ํ๋ ํ๋ก๊ทธ๋จ์ Data Scraper ๋๋ Web Scraper๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. (1) ์์ง ๋ฐ์ดํฐ ์ข ๋ฅ - ์ฝํ ์ธ ์ ๋ชฉ - ์ฝํ ์ธ ๋งํฌ - ์กฐํ์ - ์ ..
