์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- sap
- react
- ํ ์คํธ๋ง์ด๋
- ์๋ง์กด์น์๋น์ค
- ์์ฐ์ด์ฒ๋ฆฌ
- AWS
- ํ๋ธ๋ก
- ๋ฅ๋ฌ๋
- ๋ฐ์ดํฐ ๋ถ์
- abap
- ๋ฐฑ์ค
- tableau
- Git
- DFS
- ํ์ด์ฌ
- ์๋ฐ์คํฌ๋ฆฝํธ
- ์ฝํ
- ๋ฆฌ์กํธ
- ๋ฐ์ดํฐ๋ถ์
- ๋น ๋ฐ์ดํฐ
- AI
- erp
- ์๊ณ ๋ฆฌ์ฆ
- ๊นํ๋ธ
- ํ๋ธ๋ฃจ
- ์ธ๊ณต์ง๋ฅ
- github
- nlp
- ์ฝ๋ฉํ ์คํธ
- ํ ์คํธ๋ถ์
- Today
- Total
๋ชฉ๋ก๋ฐ์ดํฐ๋ถ์ (11)
DATA101

๐ Text ๋น ๋ฐ์ดํฐ๋ถ์ ํ๋ซํผ ๋ฒ ํํ ์คํธ ์ฐธ๊ฐ์ ๋ชจ์ง ์ค!(๋ค์ด๋ฒํ์ด 4๋ง ์ ์ ์ ์ง๊ธ) ๐ ์๋ ํ์ธ์, ์ฝ๋ฉ์ด ํ์ ์๋ AI/๋น ๋ฐ์ดํฐ ๋ถ์ All in One ํ๋ซํผ ๊ฐ๋ฐํ์ ๋๋ค.๐ ์ ํฌ ์๋น์ค๋ฅผ ์ฌ์ฉํด ๋ณด์๊ณ ๊ฒฝํ๋ด์ ๋ค๋ ค์ฃผ์ธ์ :)๐ธ ์ฐธ์ฌํด ์ฃผ์ "๋ชจ๋ " ๋ถ๋ค๊ป ๋ค์ด๋ฒํ์ด 4๋ง ์ ์ฟ ํฐ์ ์ง๊ธํด ๋๋ฆฝ๋๋ค.๐จ๐ป ์ฐธ์ฌ ํฌ๋ง ์ ์นดํกํ๋ฌ์ค์น๊ตฌ 1:1 ์ฑํ or ์ธ์คํ๊ทธ๋จ DM ๋ถํ๋๋ฆฝ๋๋ค :)๐ ์ฐธ์ฌ๊ธฐ๊ฐ : 11/25(์)~11/29(๊ธ) 11:00~21:00 ์ค ํ1 (1์๊ฐ 1ํ์)๐ ์ฐธ์ฌ์ฅ์ : ๊ฐ๋จ์ญ ์ธ๊ทผ ์คํฐ๋์นดํ ๋ฏธํ Room๐ ์์์๊ฐ : ์ด 40๋ถ ๋ด์ธ(์๋น์ค ์ฒดํ ๋ฐ ์ธํฐ๋ทฐ ํฌํจ)โ ์ฐธ๊ฐ์กฐ๊ฑด : Text ๋น ๋ฐ์ดํฐ ๋ถ์ ์ ๋ฌด ๊ฒฝํ์๐ ์ฐธ๊ฐ ๊ฐ๋ฅ์ผ์ ์กฐํํ๊ธฐ : ht..

๐ ๋ค์ด๊ฐ๋ฉฐ ๋ณธ ํฌ์คํ ์์๋ Boxplot๋ฅผ ํด์ํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ด ๋๋ค. ์๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด ์ธ๋ก์ถ์ ํน์ ๊ฐ์ ๋ฒ์๋ฅผ ๋ํ๋ด๊ณ , ์ด ๋ฒ์ ๋ด์์ ๋ฐ์ดํฐ๋ ์ฃผ๋ก ํ๋์ ๋ฐ์ค ์์ ๋ถํฌํฉ๋๋ค. ํ๋์ ๋ฐ์ค ๊ฐ์ด๋ฐ ๋ ธ๋์ ์ง์ ์ผ๋ก ํ์ํ ๋ถ๋ถ์ด ๋ฐ์ดํฐ์ ์ค์๊ฐ(Median)์ด ๋ฉ๋๋ค. ๋ฐ์ค ์ต์๋จ์ ์ 3 ์ฌ๋ถ์์(Q3, 75th percentile), ์ตํ๋จ์ ์ 1 ์ฌ๋ถ์์(Q1, 25th percentile)์ ๋๋ค. ์ฌ๋ถ์์(Quantile)๋ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ค๋ฆ์ฐจ์ ์ ๋ ฌํ ๋ค์ 25%์ฉ ๋์ผํ ๋น์จ๋ก ๋ฐ์ดํฐ๋ฅผ ๋๋ ๊ฒ์ ๋๋ค. ์ฆ, ์ 1 ์ฌ๋ถ์์(Q1)๋ ๊ฐ์ฅ ์์ ๋ฐ์ดํฐ๋ถํฐ ์ ์ฒด ์ค 25% ๋น์จ๋งํผ์ ๋ฐ์ดํฐ๋ฅผ(25%) ์๋ฏธํ๊ณ , ์ 3 ์ฌ๋ถ์์(Q3)๋ ์ค์๊ฐ(50%)์์๋ถํฐ 25% ๋น์จ๋งํผ์ ๋ฐ์ด..

๋ค์ด๊ฐ๋ฉฐ PySpark, ๋ฐ์ดํฐ ๋ถ์/์์ง๋์ด๋ง ํน์ ์ธ๊ณต์ง๋ฅ ๋ถ์ผ์ ๊ด์ฌ ์์ผ์ ๋ถ๋ค์ ํ ๋ฒ์ฏค ๋ค์ด๋ณด์ จ์ ๊ธฐ์ ์คํ์ด์ฃ . ์ด๋ฒ ํฌ์คํ ์์๋ PySaprk์ ๊ฐ๋ ๊ณผ ์ฃผ์ ๊ธฐ๋ฅ์ ์ดํดํ ์ ์๋๋ก ์ ๋ฆฌํ๊ณ ์ ํฉ๋๋ค. 1. PySpark ๊ฐ๋ PySpark๋ Python ํ๊ฒฝ์์ Apache Spark๋ฅผ ์ฌ์ฉํ ์ ์๋ ์ธํฐํ์ด์ค์ ๋๋ค. ์ฆ, PySpark๋ Spark์ฉ API์ด๊ธฐ ๋๋ฌธ์ PySpark ๊ฐ๋ ์ ์ดํดํ๋ ค๋ฉด Spark์ ๋ํด ์ดํดํด์ผ ํฉ๋๋ค. Apache Spark ๊ฐ๋ Apache Spark๋ ๋์ฉ๋์ ๋ฐ์ดํฐ๋ฅผ ๊ณ ์์ผ๋ก, ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๋น ๋ฐ์ดํฐ ๋ถ์ฐ์ฒ๋ฆฌ ํ๋ซํผ(Distributed Computing Platform)์ ๋๋ค. Apache Spark๋ ๋ฐ์ดํฐ๋ฅผ ํ๋๋์คํฌ๊ฐ ์๋ ๋ฉ๋ชจ๋ฆฌ์ ์บ..