๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋ก2022/08 (6)

DATA101

[Python] ์ฃผ ๋‹จ์œ„ ๋ฐ์ดํ„ฐ ๊ทธ๋ฃนํ™” ๋ฐ ์‹œ๊ฐํ™”ํ•˜๊ธฐ

๐Ÿ’ก ๋“ค์–ด๊ฐ€๋ฉฐ ๋ณธ ํฌ์ŠคํŒ…์—์„œ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ฃผ ๋‹จ์œ„๋กœ ์นด์šดํŒ…ํ•˜๊ณ  ์ด๋ฅผ ์‹œ๊ฐํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. 1. ํŒจํ‚ค์ง€ import import pandas as pd import numpy as np import matplotlib.pyplot as plt 2. ๋ฐ์ดํ„ฐ์…‹ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ ํฌ์ŠคํŒ…์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ์…‹์€ ๊ณต์œ ๊ฐ€ ๋ถˆ๊ฐ€ํ•˜์˜ค๋‹ˆ ํ•™์Šต ๋ชฉ์ ์œผ๋กœ๋งŒ ๋ด์ฃผ์‹œ๊ธธ ๋ฐ”๋ž๋‹ˆ๋‹ค. DATASET = pd.read_csv('./dataset_app_review.csv') DATASET.head() 3. ๋ฐ์ดํ„ฐ ํƒ€์ž… ํ™•์ธ DATASET.dtypes ์•„๋ž˜์™€ ๊ฐ™์ด, ๋‚ ์งœ ์ •๋ณด(date)๋Š” ํ˜„์žฌ ์ •์ˆ˜ํ˜•(int)์ž…๋‹ˆ๋‹ค. ํŽธ๋ฆฌํ•˜๊ฒŒ ๋‚ ์งœํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•˜์—ฌ ์ด๋ฅผ datetime ํƒ€์ž…์œผ๋กœ ๋ฐ”๊ฟ”์ค„ ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. 4. ๋ฐ์ดํ„ฐ ํƒ€์ž… ๋ณ€๊ฒฝ "์—ฐ-..

[Python] ์›” ๋‹จ์œ„ ๋ฐ์ดํ„ฐ ๊ทธ๋ฃนํ™” ๋ฐ ์‹œ๊ฐํ™”ํ•˜๊ธฐ

๐Ÿ’ก ๋“ค์–ด๊ฐ€๋ฉฐ ๋ณธ ํฌ์ŠคํŒ…์—์„œ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์›” ๋‹จ์œ„๋กœ ์นด์šดํŒ…ํ•˜๊ณ  ์ด๋ฅผ ์‹œ๊ฐํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. 1. ํŒจํ‚ค์ง€ import import pandas as pd import numpy as np import matplotlib.pyplot as plt 2. ๋ฐ์ดํ„ฐ์…‹ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ ํฌ์ŠคํŒ…์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ์…‹์€ ๊ณต์œ ๊ฐ€ ๋ถˆ๊ฐ€ํ•˜์˜ค๋‹ˆ ํ•™์Šต ๋ชฉ์ ์œผ๋กœ๋งŒ ๋ด์ฃผ์‹œ๊ธธ ๋ฐ”๋ž๋‹ˆ๋‹ค. DATASET = pd.read_csv('./dataset_app_review.csv') DATASET.head() 3. ๋ฐ์ดํ„ฐ ํƒ€์ž… ํ™•์ธ DATASET.dtypes ์•„๋ž˜์™€ ๊ฐ™์ด, ๋‚ ์งœ ์ •๋ณด(date)๋Š” ํ˜„์žฌ ์ •์ˆ˜ํ˜•(int)์ž…๋‹ˆ๋‹ค. ํŽธ๋ฆฌํ•˜๊ฒŒ ๋‚ ์งœํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•˜์—ฌ ์ด๋ฅผ datetime ํƒ€์ž…์œผ๋กœ ๋ฐ”๊ฟ”์ค„ ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. 4. ๋ฐ์ดํ„ฐ ํƒ€์ž… ๋ณ€๊ฒฝ "์—ฐ-..

[Python] ์›” ์ •๋ณด, ์š”์ผ ์ •๋ณด, ์‹œ๊ฐ„ ์ •๋ณด, ํŠน์ • ๊ธฐ๊ฐ„ ๋ฐ์ดํ„ฐ ์ถ”์ถœํ•˜๊ธฐ

๐Ÿ“š ๋ชฉ์ฐจ 1. ์‚ฌ์ „ ์ค€๋น„ 2. ์›” ๋ฐ์ดํ„ฐ ์ถ”์ถœ 3. ์š”์ผ ๋ฐ์ดํ„ฐ ์ถ”์ถœ 4. ํŠน์ • ๊ธฐ๊ฐ„ ๋ฐ์ดํ„ฐ ์ถ”์ถœ ๐Ÿ“Œ 1. ์‚ฌ์ „ ์ค€๋น„ ์•„๋ž˜์˜ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ™์ด, ๋ฐ์ดํ„ฐ์…‹์— ๋‚ ์งœ ๋ฐ์ดํ„ฐ๋Š” datetime ํƒ€์ž…์„ ๊ฐ€์ง€๋„๋ก ์‚ฌ์ „์— ์ค€๋น„ํ•ด ์ฃผ์…”์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋งŒ์ผ, ๋‚ ์งœ ๋ฐ์ดํ„ฐ๊ฐ€ '20220101'๊ณผ ๊ฐ™์ด ๋ฌธ์ž์—ด์ด๋‚˜ ์ •์ˆ˜ํ˜•์ด๋ผ๋ฉด ์•„๋ž˜์˜ ํฌ์ŠคํŒ…์„ ์ฐธ๊ณ ํ•˜์…”์„œ ๋ฐ์ดํ„ฐ ํƒ€์ž…์„ datetime์œผ๋กœ ๋ณ€๊ฒฝํ•˜์‹œ๊ธธ ๋ฐ”๋ž๋‹ˆ๋‹ค. https://heytech.tistory.com/443?category=453614#recentComments [Python] ์ˆซ์žํ˜•/๋ฌธ์ž์—ด ๋ฐ์ดํ„ฐ๋ฅผ ๋‚ ์งœํ˜•์œผ๋กœ ๋ฐ”๊พธ๊ธฐ(pd.to_datetime) ๐Ÿ“Œ ๋ชฉํ‘œ ์ˆซ์žํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ๋‚ ์งœ ํ˜•ํƒœ๋กœ(i.e., datetime) ๋ณ€ํ™˜ํ•˜๊ธฐ ์˜ˆ์‹œ: 20220816 (int) ๐Ÿ‘‰ 2022-08-1..

[Python] ์ˆซ์žํ˜•/๋ฌธ์ž์—ด ๋ฐ์ดํ„ฐ๋ฅผ ๋‚ ์งœํ˜•์œผ๋กœ ๋ฐ”๊พธ๊ธฐ(pd.to_datetime)

๐Ÿ“Œ ๋ชฉํ‘œ ์ˆซ์žํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ๋‚ ์งœ ํ˜•ํƒœ๋กœ(i.e., datetime) ๋ณ€ํ™˜ํ•˜๊ธฐ ์˜ˆ์‹œ: 20220816 (int) ๐Ÿ‘‰ 2022-08-16 (datetime object) ๐Ÿ—‚ ๋ชฉ์ฐจ 1. ๋ฐ์ดํ„ฐ์…‹ ์˜ˆ์‹œ 2. ๋ฐ์ดํ„ฐ ํƒ€์ž… ๋ณ€๊ฒฝ 3. ์ฝ”๋“œ ๋œฏ์–ด๋ณด๊ธฐ ๐Ÿ“ ๋ฐ์ดํ„ฐ์…‹ ์˜ˆ์‹œ ํŒŒ์ด์ฌ์˜ pandas ํŒจํ‚ค์ง€๋ฅผ ํ™œ์šฉํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. import pandas as pd ์•„๋ž˜์˜ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ™์ด, ๊ณ ๊ฐ ID, ๋ฆฌ๋ทฐ ๋“ฑ๋ก์ผ, ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๊ฐ€ ๋‹ด๊ธด ๋ฐ์ดํ„ฐ์…‹์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์นผ๋Ÿผ๋ณ„ ๋ฐ์ดํ„ฐ ํƒ€์ž…์„ ํ™•์ธํ•ด ๋ด…๋‹ˆ๋‹ค. ์œ„์˜ ๊ทธ๋ฆผ 2์™€ ๊ฐ™์ด, date ์นผ๋Ÿผ์ด ์ •์ˆ˜ํ˜•์ธ ๊ฒƒ์„ ํ™•์ธํ•˜์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๐Ÿ’ก ๋ฐ์ดํ„ฐ ํƒ€์ž… ๋ณ€๊ฒฝ ์ด์ œ date ์นผ๋Ÿผ์„ datetime ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๐Ÿ›  ์ฝ”๋“œ DATASET['datetime'] = DATASET['date'].ap..

[Python] Numpy ๊ธฐ๋ฐ˜ ํŠน์ • ์กฐ๊ฑด์˜ ๋ฐ์ดํ„ฐ ์ฐพ๊ธฐ/๋ฐ”๊พธ๊ธฐ(One-hot Encoding)

๐Ÿ’ก ๋“ค์–ด๊ฐ€๋ฉฐ Numpy ํŒจํ‚ค์ง€์˜ where ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์—์„œ ํŠน์ • ์กฐ๊ฑด์— ๋งž๋Š” ์ธ๋ฑ์Šค๋ฅผ ์ฐพ๊ฑฐ๋‚˜, ํ•ด๋‹น ์ธ๋ฑ์Šค์˜ ๊ฐ’์„ ์‰ฝ๊ฒŒ ๋ฐ”๊ฟ€ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ numpy ํŒจํ‚ค์ง€ ์„ค์น˜ ๋ฐ import๋Š” ํ•„์ˆ˜์ž…๋‹ˆ๋‹ค. !pip install numpy import numpy as np 1. ์กฐ๊ฑด์— ๋งž๋Š” ์ธ๋ฑ์Šค ๋ฐ˜ํ™˜ ์•„๋ž˜์™€ ๊ฐ™์ด ์กฐ๊ฑด๋ฌธ์„ ์ž…๋ ฅํ•˜๋ฉด, ์กฐ๊ฑด์— ํ•ด๋‹น๋˜๋Š” ์ธ๋ฑ์Šค๋ฅผ ๋ฐ˜ํ™˜ํ•ฉ๋‹ˆ๋‹ค. np.where(์กฐ๊ฑด๋ฌธ) ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฐ์ดํ„ฐ์…‹์ด ์žˆ์„ ๋•Œ, THK ์นผ๋Ÿผ ๋‚ด ๊ฐ’์ด 30๋ณด๋‹ค ํฐ ๊ฐ’์˜ ์ธ๋ฑ์Šค๋ฅผ ์กฐํšŒํ•ด ๋ณด๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. np.where(30 < DATASET_RAW['THK']) 2. ์กฐ๊ฑด์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ ์ธ์ฝ”๋”ฉ ์•„๋ž˜์™€ ๊ฐ™์ด, ์กฐ๊ฑด๋ฌธ๊ณผ ํ•จ๊ป˜ ์กฐ๊ฑด๋ฌธ์ด ์ฐธ ํ˜น์€ ๊ฑฐ์ง“์ผ ๊ฒฝ์šฐ ๊ฐ๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ€ํ™˜ํ•  ๊ฐ’์„ ์ž…๋ ฅํ•ด ..

[Python] pandas ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„ ๋ฌธ์ž์—ด ๋ฐ”๊พธ๊ธฐ(replace, str.replace ํ•จ์ˆ˜)

๐Ÿ“Œ Text ๋น…๋ฐ์ดํ„ฐ๋ถ„์„ ํ”Œ๋žซํผ ๋ฒ ํƒ€ํ…Œ์ŠคํŠธ ์ฐธ๊ฐ€์ž ๋ชจ์ง‘ ์ค‘!(๋„ค์ด๋ฒ„ํŽ˜์ด 4๋งŒ ์› ์ „์› ์ง€๊ธ‰) ๐Ÿ‘‹ ์•ˆ๋…•ํ•˜์„ธ์š”, ์ฝ”๋”ฉ์ด ํ•„์š” ์—†๋Š” AI/๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ All in One ํ”Œ๋žซํผ  ๊ฐœ๋ฐœํŒ€์ž…๋‹ˆ๋‹ค.๐Ÿ˜Š ์ €ํฌ ์„œ๋น„์Šค๋ฅผ ์‚ฌ์šฉํ•ด ๋ณด์‹œ๊ณ  ๊ฒฝํ—˜๋‹ด์„ ๋“ค๋ ค์ฃผ์„ธ์š” :)๐Ÿ’ธ ์ฐธ์—ฌํ•ด ์ฃผ์‹  "๋ชจ๋“ " ๋ถ„๋“ค๊ป˜ ๋„ค์ด๋ฒ„ํŽ˜์ด 4๋งŒ ์› ์ฟ ํฐ์„ ์ง€๊ธ‰ํ•ด ๋“œ๋ฆฝ๋‹ˆ๋‹ค.๐Ÿ‘จ‍๐Ÿ’ป ์ฐธ์—ฌ ํฌ๋ง ์‹œ ์นดํ†กํ”Œ๋Ÿฌ์Šค์นœ๊ตฌ 1:1 ์ฑ„ํŒ… or ์ธ์Šคํƒ€๊ทธ๋žจ DM ๋ถ€ํƒ๋“œ๋ฆฝ๋‹ˆ๋‹ค :)๐Ÿ“† ์ฐธ์—ฌ๊ธฐ๊ฐ„ : 11/25(์›”)~11/29(๊ธˆ) 11:00~21:00 ์ค‘ ํƒ1 (1์‹œ๊ฐ„ 1ํƒ€์ž„)๐Ÿ‘‰ ์ฐธ์—ฌ์žฅ์†Œ : ๊ฐ•๋‚จ์—ญ ์ธ๊ทผ ์Šคํ„ฐ๋””์นดํŽ˜ ๋ฏธํŒ…Room๐Ÿ“ ์†Œ์š”์‹œ๊ฐ„ : ์ด 40๋ถ„ ๋‚ด์™ธ(์„œ๋น„์Šค ์ฒดํ—˜ ๋ฐ ์ธํ„ฐ๋ทฐ ํฌํ•จ)โœ… ์ฐธ๊ฐ€์กฐ๊ฑด : Text ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ์—…๋ฌด ๊ฒฝํ—˜์ž๐Ÿ‘‰ ์ฐธ๊ฐ€ ๊ฐ€๋Šฅ์ผ์ • ์กฐํšŒํ•˜๊ธฐ : ht..