์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- sap
- ๋ฐฑ์ค
- ์ธ๊ณต์ง๋ฅ
- abap
- ๋ฅ๋ฌ๋
- ๊นํ๋ธ
- ์์ฐ์ด์ฒ๋ฆฌ
- ์ฝ๋ฉํ ์คํธ
- ํ๋ธ๋ฃจ
- Git
- ํ ์คํธ๋ถ์
- ์๋ง์กด์น์๋น์ค
- ํ๋ธ๋ก
- nlp
- tableau
- ๋ฐ์ดํฐ ๋ถ์
- github
- AI
- ๋ฆฌ์กํธ
- AWS
- ๋ฐ์ดํฐ๋ถ์
- DFS
- ํ ์คํธ๋ง์ด๋
- react
- erp
- ์๋ฐ์คํฌ๋ฆฝํธ
- ๋น ๋ฐ์ดํฐ
- ์ฝํ
- ์๊ณ ๋ฆฌ์ฆ
- ํ์ด์ฌ
- Today
- Total
๋ชฉ๋ก์ ์ฒด ๊ธ (352)
DATA101

๋ค์ด๊ฐ๋ฉฐ PySpark, ๋ฐ์ดํฐ ๋ถ์/์์ง๋์ด๋ง ํน์ ์ธ๊ณต์ง๋ฅ ๋ถ์ผ์ ๊ด์ฌ ์์ผ์ ๋ถ๋ค์ ํ ๋ฒ์ฏค ๋ค์ด๋ณด์ จ์ ๊ธฐ์ ์คํ์ด์ฃ . ์ด๋ฒ ํฌ์คํ ์์๋ PySaprk์ ๊ฐ๋ ๊ณผ ์ฃผ์ ๊ธฐ๋ฅ์ ์ดํดํ ์ ์๋๋ก ์ ๋ฆฌํ๊ณ ์ ํฉ๋๋ค. 1. PySpark ๊ฐ๋ PySpark๋ Python ํ๊ฒฝ์์ Apache Spark๋ฅผ ์ฌ์ฉํ ์ ์๋ ์ธํฐํ์ด์ค์ ๋๋ค. ์ฆ, PySpark๋ Spark์ฉ API์ด๊ธฐ ๋๋ฌธ์ PySpark ๊ฐ๋ ์ ์ดํดํ๋ ค๋ฉด Spark์ ๋ํด ์ดํดํด์ผ ํฉ๋๋ค. Apache Spark ๊ฐ๋ Apache Spark๋ ๋์ฉ๋์ ๋ฐ์ดํฐ๋ฅผ ๊ณ ์์ผ๋ก, ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๋น ๋ฐ์ดํฐ ๋ถ์ฐ์ฒ๋ฆฌ ํ๋ซํผ(Distributed Computing Platform)์ ๋๋ค. Apache Spark๋ ๋ฐ์ดํฐ๋ฅผ ํ๋๋์คํฌ๊ฐ ์๋ ๋ฉ๋ชจ๋ฆฌ์ ์บ..

โ๏ธ ์๋ฌ ์ํฉ ์ฃผํผํฐ ๋ ธํธ๋ถ ์ ์ฌ์ฉํ๋ ์ค ์ฃผํผํฐ ๋ ธํธ๋ถ ์ฐฝ ์ฐ์ธก ์๋จ์ forbidden์ด๋ผ๋ ๋ฌธ๊ตฌ๊ฐ ๋์ค๋ฉฐ ์ ์ฅ์ด ์ ๋๋ก ๋์ง ์์์ต๋๋ค. ํฐ๋ฏธ๋์์ ํ์ธํด ๋ณด๋ ์ ์ฅํ ๋๋ง๋ค ์๋์ ๊ฐ์ ์๋ฌ ๋ฉ์์ง๊ฐ ๋์ค๊ณ ์์์ต๋๋ค. ๐ ์๋ฌ ๋ฉ์์ง ๐จ๐ป ์์ธ ์ ๊ฐ์ ๊ฒฝ์ฐ์๋ ํฌ๋กฌ ์ฟ ํค๋ฅผ ์ญ์ ํ ๊ฒ์ด ์์ธ์ด์์ต๋๋ค. ์ด ๋ฌธ์์์๋ ์ ์ ๊ฐ์ ์ํฉ์์ ์๋ฌ๊ฐ ๋ฐ์ํ๋ค๋ ์ฌ์ฉ์๊ฐ ์๋ค์. ์์ธ์ ์ฌ๋ฌ ๊ฐ์ง ์ค ํ๋๋ก, ๋ชจ๋ ์ ์ ๊ฐ์ ์์ธ์ ์๋ ์ ์๋ค๋ ์ ์์์ฃผ์ธ์ :) ๐ก ํด๊ฒฐ๋ฐฉ๋ฒ ํด๊ฒฐ ๋ฐฉ๋ฒ์ ๋งค์ฐ ๊ฐ๋จํด์. ํฌ๊ฒ 2๊ฐ์ง ์ ์ฐจ๋ฉด ๋ฉ๋๋ค. [Step 1] ์๋ฌ ๋ ์ฃผํผํฐ ๋ ธํธ๋ถ์ ๋ธ๋ผ์ฐ์ ์๋ก์ด ํญ์ ๋์๋๋ค. ์๋์ ๊ฐ์ ํ๋ฉด์ด ์ถ๋ ฅ๋ ๊ฒ์ ๋๋ค. [Step 2] ํฐ๋ฏธ๋์ ์๋ ๋ช ๋ น์ด๋ฅผ ์ ๋ ฅํ์ฌ ๋ฌธ์ ๊ฐ..

โ๏ธ ์๋ฌ ์ํฉ ์๋์ ๊ฐ์ด ๋ฐ์ดํฐํ๋ ์์์ 2๊ฐ์ง ์กฐ๊ฑด์ ๋ง์กฑํ๋ ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํ๋๋ ์ฝ๋๋ ์ ๋์๊ฐ๋๋ฐ ์๋ฌ ๋ฉ์์ง๊ฐ ์ถ๋ ฅ๋์์ต๋๋ค. 2018

๋ณ๊ฒฝ ์ ํ์ด์ฌ pandas ํจํค์ง๋ก ์์ ํ์ผ์ ๋ถ๋ฌ์ค๋ฉด ์๋์ ๊ฐ์ด ํ์ผ์๋ ์๋ ์นผ๋ผ์ด ์๋์ผ๋ก ์ถ๊ฐ๋๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ์ผ๋จ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์จ ํ์ ํด๋น ์นผ๋ผ์ ์ญ์ ํ๋ ๋ฐฉ๋ฒ๋ ์์ง๋ง, ๋ฒ๊ฑฐ๋ก์ด ์์ ์ 2๋ฒ์ ํ ํ์๋ ์๊ฒ ์ฃ . ๊ทธ๋์ ์ด๋ฒ ํฌ์คํ ์์๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ฌ ๋๋ถํฐ ํด๋น ์นผ๋ผ์ด ์๋์ผ๋ก ์์ฑ๋๋ ๊ฒ์ ๋ฐฉ์งํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ด ๋๋ค. ๋ณ๊ฒฝ ํ "Unnamed: 0" ์นผ๋ผ ์์ด ํ์ผ์ ๋ถ๋ฌ์ค๋ ๋ฐฉ๋ฒ์ ๊ฐ๋จํฉ๋๋ค. read ๋ฉ์๋ ์คํ ์ index_col ์ต์ ๊ฐ์ 0์ผ๋ก ์ค์ ํ๋ ๊ฒ์ ๋๋ค. dataset = pd.read_csv("๋ฐ์ดํฐ์ ๊ฒฝ๋ก", index_col = 0) dataset.head() ์์ ๊ฐ์ด ์ต์ ์ ์ค์ ํ๋ฉด ์ด์ ํด๋น ์นผ๋ผ("Unnamed: 0") ์์ด ๋ฐ์ดํฐ๊ฐ..

๋ณ๊ฒฝ ๋ฐฉ๋ฒ ๋ณ๊ฒฝํ๊ณ ์ ํ๋ ์นผ๋ผ๋ค์ ์์๋๋ก ์๋์ ๊ฐ์ด ๋์ดํ์ฌ ์์ฑํด ์ฃผ๋ฉด ๋ฉ๋๋ค. ๋ฐ์ดํฐํ๋ ์ = ๋ฐ์ดํฐํ๋ ์[['์นผ๋ผ1', '์นผ๋ผ2', ...]] ๋ณ๊ฒฝ ์ ์๋ ์์ ๋ฐ์ดํฐ์ ์์๋ appName, review_raw, date_full, date_year ์นผ๋ผ ์์์ ๋๋ค. dataset.head() ๋ง์ฝ date_full, date_year ์นผ๋ผ์ review_raw ์์ผ๋ก ์ด๋ํ๊ณ ์ถ๋ค๋ฉด ์ด๋ป๊ฒ ํ๋ฉด ๋ ๊น์? ๋ณ๊ฒฝ ํ date_full, date_year ์นผ๋ผ์ review_raw ์นผ๋ผ๋ณด๋ค ์์ ์ ๋ ฅํ์์ต๋๋ค. dataset = dataset[['appName', 'date_full', 'date_year', 'review_raw']] dataset.head() ์์ ๊ฐ์ด ์ ์์ ์ผ๋ก ์นผ๋ผ ์์๊ฐ..

๐ฅ ๋ชฉํ ์ค๋์ ํ์ด์ฌ map ํจ์์ lambda ํจ์๋ฅผ ํ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ํธ๋ค๋งํ๋ ๋ฐฉ๋ฒ๊ณผ ์ด์ ์ ๋ํด ์์๋ด ๋๋ค. ๐จ๐ป ๋ฌธ์ ์ํฉ ์์ ๋ฐ์ดํฐํ๋ ์ ๋ด ํน์ ์นผ๋ผ์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ์ด๋ ํ ์ฐ์ฐ์ ๊ฑฐ์ณ ์๋ก์ด ๊ฐ๋ค๋ก ์ด๋ฃจ์ด์ง ์นผ๋ผ์ ์๋กญ๊ฒ ์์ฑํ๊ณ ์ถ๋ค๋ฉด ์ด๋ป๊ฒ ํด์ผ ํ ๊น์? ๊ตฌ์ฒด์ ์ธ ์์์ ํจ๊ป ์์๋ณด๊ฒ ์ต๋๋ค. ์๋์ ๊ฐ์ด dataset์ด๋ผ๋ ๋ฐ์ดํฐํ๋ ์์ yyyymmdd ํ์์ date ์ ๋ณด๊ฐ ๋ด๊ธด date_full ์นผ๋ผ์ด ์๋ค๊ณ ๊ฐ์ ํด ๋ณด๊ฒ ์ต๋๋ค. ๋ง์ฝ, ์๋์ ๊ฐ์ด ์ฐ๋ ์ ๋ณด๋ง ์ถ์ถํ์ฌ date_year๋ผ๋ ์นผ๋ผ์ ์๋กญ๊ฒ ์ ์ฅํ๊ณ ์ถ๋ค๋ฉด ์ด๋ป๊ฒ ์ฝ๋๋ฅผ ์์ฑํด์ผ ํ ๊น์? ๐ก ํด๊ฒฐ๋ฐฉ๋ฒ 1: ๋ฐ๋ณต๋ฌธ ํ์ฉ(Bad Case โ) ๋ฐ๋ณต๋ฌธ์ ํ์ฉํ์ฌ date_full ์นผ๋ผ ๋ด ๋ฐ์ดํฐ๋ฅผ ํ ๊ฐ์ฉ ์ ๊ทผํ์ฌ ..

๋ณธ ํฌ์คํ ์์๋ venv๋ฅผ ํ์ฉํ์ฌ Python ๊ฐ์ํ๊ฒฝ ๋ด ํจํค์ง ์ค์น ๋ฐ ๊ด๋ฆฌ ๋ฐฉ๋ฒ์ ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. ๊ฐ์ํ๊ฒฝ ํ์์ฑ 2. venv ํ์ฑํ 3. ํจํค์ง ์ค์น 4. ์ค์น๋ ํจํค์ง ๋ฆฌ์คํธ ์ ์ฅ 5. ํจํค์ง ์ผ๊ด ์ค์น1. ๊ฐ์ํ๊ฒฝ ํ์์ฑ๊ฐ์ ํ๊ฒฝ์ ํ๋ก์ ํธ๋ง๋ค ๊ฒฉ๋ฆฌ๋ ํ๊ฒฝ(์ฆ, ๊ฐ์ ํ๊ฒฝ)์ ์์ฑํจ์ผ๋ก์จ ํ๋ก์ ํธ๋ณ๋ก ํจํค์ง๋ฅผ ๊ด๋ฆฌํ๊ธฐ ์ํจ์ ๋๋ค. ํ์ด์ฌ์ ์ ๋ฌธํ๊ธฐ๋ก ๋ง์ ๋จน์ผ์ จ๋ค๋ฉด ์ง๊ธ๋ถํฐ๋ผ๋ ๊ฐ์ ํ๊ฒฝ ์ฌ์ฉ์ ๊ถ์ฅํด ๋๋ฆฝ๋๋ค. ๊ฐ์ ํ๊ฒฝ์ ํ์์ฑ์ ๋ํ ์์ธํ ์ค๋ช ์ ์ด ํฌ์คํ ์ ์ฐธ๊ณ ํด ์ฃผ์ธ์.2. venv ํ์ฑํ๋จผ์ ์์ฑํด ๋์๋ venv๋ฅผ ํ์ฑํํด์ผ ํฉ๋๋ค. venv ๊ฐ์ํ๊ฒฝ ์์ฑ ๋ฐ ํ์ฑํ ๋ฐฉ๋ฒ์ ์ด๊ณณ์ ์ฐธ๊ณ ํด ์ฃผ์ธ์. ์ฐธ๊ณ ๋ก, Python 3.5 ์ดํ๋ถํฐ๋ venv๊ฐ ํ์ด์ฌ ํ์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ..

๐ Text ๋น ๋ฐ์ดํฐ๋ถ์ ํ๋ซํผ ๋ฒ ํํ ์คํธ ์ฐธ๊ฐ์ ๋ชจ์ง ์ค!(๋ค์ด๋ฒํ์ด 4๋ง ์ ์ ์ ์ง๊ธ) ๐ ์๋ ํ์ธ์, ์ฝ๋ฉ์ด ํ์ ์๋ AI/๋น ๋ฐ์ดํฐ ๋ถ์ All in One ํ๋ซํผ ๊ฐ๋ฐํ์ ๋๋ค.๐ ์ ํฌ ์๋น์ค๋ฅผ ์ฌ์ฉํด ๋ณด์๊ณ ๊ฒฝํ๋ด์ ๋ค๋ ค์ฃผ์ธ์ :)๐ธ ์ฐธ์ฌํด ์ฃผ์ "๋ชจ๋ " ๋ถ๋ค๊ป ๋ค์ด๋ฒํ์ด 4๋ง ์ ์ฟ ํฐ์ ์ง๊ธํด ๋๋ฆฝ๋๋ค.๐จ๐ป ์ฐธ์ฌ ํฌ๋ง ์ ์นดํกํ๋ฌ์ค์น๊ตฌ 1:1 ์ฑํ or ์ธ์คํ๊ทธ๋จ DM ๋ถํ๋๋ฆฝ๋๋ค :)๐ ์ฐธ์ฌ๊ธฐ๊ฐ : 11/25(์)~11/29(๊ธ) 11:00~21:00 ์ค ํ1 (1์๊ฐ 1ํ์)๐ ์ฐธ์ฌ์ฅ์ : ๊ฐ๋จ์ญ ์ธ๊ทผ ์คํฐ๋์นดํ ๋ฏธํ Room๐ ์์์๊ฐ : ์ด 40๋ถ ๋ด์ธ(์๋น์ค ์ฒดํ ๋ฐ ์ธํฐ๋ทฐ ํฌํจ)โ ์ฐธ๊ฐ์กฐ๊ฑด : Text ๋น ๋ฐ์ดํฐ ๋ถ์ ์ ๋ฌด ๊ฒฝํ์๐ ์ฐธ๊ฐ ๊ฐ๋ฅ์ผ์ ์กฐํํ๊ธฐ : ht..