๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋ก๋ฐ์ดํ„ฐ๋ถ„์„ (11)

DATA101

[NLP] ๋ฌธ์„œ ์œ ์‚ฌ๋„ ๋ถ„์„: (1) ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„(Cosine Similarity)

๐Ÿ“Œ Text ๋น…๋ฐ์ดํ„ฐ๋ถ„์„ ํ”Œ๋žซํผ ๋ฒ ํƒ€ํ…Œ์ŠคํŠธ ์ฐธ๊ฐ€์ž ๋ชจ์ง‘ ์ค‘!(๋„ค์ด๋ฒ„ํŽ˜์ด 4๋งŒ ์› ์ „์› ์ง€๊ธ‰) ๐Ÿ‘‹ ์•ˆ๋…•ํ•˜์„ธ์š”, ์ฝ”๋”ฉ์ด ํ•„์š” ์—†๋Š” AI/๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ All in One ํ”Œ๋žซํผ  ๊ฐœ๋ฐœํŒ€์ž…๋‹ˆ๋‹ค.๐Ÿ˜Š ์ €ํฌ ์„œ๋น„์Šค๋ฅผ ์‚ฌ์šฉํ•ด ๋ณด์‹œ๊ณ  ๊ฒฝํ—˜๋‹ด์„ ๋“ค๋ ค์ฃผ์„ธ์š” :)๐Ÿ’ธ ์ฐธ์—ฌํ•ด ์ฃผ์‹  "๋ชจ๋“ " ๋ถ„๋“ค๊ป˜ ๋„ค์ด๋ฒ„ํŽ˜์ด 4๋งŒ ์› ์ฟ ํฐ์„ ์ง€๊ธ‰ํ•ด ๋“œ๋ฆฝ๋‹ˆ๋‹ค.๐Ÿ‘จ‍๐Ÿ’ป ์ฐธ์—ฌ ํฌ๋ง ์‹œ ์นดํ†กํ”Œ๋Ÿฌ์Šค์นœ๊ตฌ 1:1 ์ฑ„ํŒ… or ์ธ์Šคํƒ€๊ทธ๋žจ DM ๋ถ€ํƒ๋“œ๋ฆฝ๋‹ˆ๋‹ค :)๐Ÿ“† ์ฐธ์—ฌ๊ธฐ๊ฐ„ : 11/25(์›”)~11/29(๊ธˆ) 11:00~21:00 ์ค‘ ํƒ1 (1์‹œ๊ฐ„ 1ํƒ€์ž„)๐Ÿ‘‰ ์ฐธ์—ฌ์žฅ์†Œ : ๊ฐ•๋‚จ์—ญ ์ธ๊ทผ ์Šคํ„ฐ๋””์นดํŽ˜ ๋ฏธํŒ…Room๐Ÿ“ ์†Œ์š”์‹œ๊ฐ„ : ์ด 40๋ถ„ ๋‚ด์™ธ(์„œ๋น„์Šค ์ฒดํ—˜ ๋ฐ ์ธํ„ฐ๋ทฐ ํฌํ•จ)โœ… ์ฐธ๊ฐ€์กฐ๊ฑด : Text ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ์—…๋ฌด ๊ฒฝํ—˜์ž๐Ÿ‘‰ ์ฐธ๊ฐ€ ๊ฐ€๋Šฅ์ผ์ • ์กฐํšŒํ•˜๊ธฐ : ht..

Boxplot ๊ทธ๋ž˜ํ”„ ํ•ด์„๋ฐฉ๋ฒ•(์ด์ƒ์น˜ ํƒ์ƒ‰๋ฐฉ๋ฒ•)

๐Ÿ“Œ ๋“ค์–ด๊ฐ€๋ฉฐ ๋ณธ ํฌ์ŠคํŒ…์—์„œ๋Š” Boxplot๋ฅผ ํ•ด์„ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ™์ด ์„ธ๋กœ์ถ•์€ ํŠน์ • ๊ฐ’์˜ ๋ฒ”์œ„๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ , ์ด ๋ฒ”์œ„ ๋‚ด์—์„œ ๋ฐ์ดํ„ฐ๋Š” ์ฃผ๋กœ ํŒŒ๋ž€์ƒ‰ ๋ฐ•์Šค ์•ˆ์— ๋ถ„ํฌํ•ฉ๋‹ˆ๋‹ค. ํŒŒ๋ž€์ƒ‰ ๋ฐ•์Šค ๊ฐ€์šด๋ฐ ๋…ธ๋ž€์ƒ‰ ์ง์„ ์œผ๋กœ ํ‘œ์‹œํ•œ ๋ถ€๋ถ„์ด ๋ฐ์ดํ„ฐ์˜ ์ค‘์•™๊ฐ’(Median)์ด ๋ฉ๋‹ˆ๋‹ค. ๋ฐ•์Šค ์ตœ์ƒ๋‹จ์€ ์ œ3 ์‚ฌ๋ถ„์œ„์ˆ˜(Q3, 75th percentile), ์ตœํ•˜๋‹จ์€ ์ œ1 ์‚ฌ๋ถ„์œ„์ˆ˜(Q1, 25th percentile)์ž…๋‹ˆ๋‹ค. ์‚ฌ๋ถ„์œ„์ˆ˜(Quantile)๋ž€ ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ์˜ค๋ฆ„์ฐจ์ˆœ ์ •๋ ฌํ•œ ๋‹ค์Œ 25%์”ฉ ๋™์ผํ•œ ๋น„์œจ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋‚˜๋ˆˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ์ œ1 ์‚ฌ๋ถ„์œ„์ˆ˜(Q1)๋Š” ๊ฐ€์žฅ ์ž‘์€ ๋ฐ์ดํ„ฐ๋ถ€ํ„ฐ ์ „์ฒด ์ค‘ 25% ๋น„์œจ๋งŒํผ์˜ ๋ฐ์ดํ„ฐ๋ฅผ(25%) ์˜๋ฏธํ•˜๊ณ , ์ œ3 ์‚ฌ๋ถ„์œ„์ˆ˜(Q3)๋Š” ์ค‘์•™๊ฐ’(50%)์—์„œ๋ถ€ํ„ฐ 25% ๋น„์œจ๋งŒํผ์˜ ๋ฐ์ด..

PySpark ๊ฐœ๋… ๋ฐ ์ฃผ์š” ๊ธฐ๋Šฅ(+Apache Spark)

๋“ค์–ด๊ฐ€๋ฉฐ PySpark, ๋ฐ์ดํ„ฐ ๋ถ„์„/์—”์ง€๋‹ˆ์–ด๋ง ํ˜น์€ ์ธ๊ณต์ง€๋Šฅ ๋ถ„์•ผ์— ๊ด€์‹ฌ ์žˆ์œผ์‹  ๋ถ„๋“ค์€ ํ•œ ๋ฒˆ์ฏค ๋“ค์–ด๋ณด์…จ์„ ๊ธฐ์ˆ  ์Šคํƒ์ด์ฃ . ์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” PySaprk์˜ ๊ฐœ๋…๊ณผ ์ฃผ์š” ๊ธฐ๋Šฅ์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ์ •๋ฆฌํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. 1. PySpark ๊ฐœ๋… PySpark๋Š” Python ํ™˜๊ฒฝ์—์„œ Apache Spark๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ธํ„ฐํŽ˜์ด์Šค์ž…๋‹ˆ๋‹ค. ์ฆ‰, PySpark๋Š” Spark์šฉ API์ด๊ธฐ ๋•Œ๋ฌธ์— PySpark ๊ฐœ๋…์„ ์ดํ•ดํ•˜๋ ค๋ฉด Spark์— ๋Œ€ํ•ด ์ดํ•ดํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. Apache Spark ๊ฐœ๋… Apache Spark๋Š” ๋Œ€์šฉ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ์†์œผ๋กœ, ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋น…๋ฐ์ดํ„ฐ ๋ถ„์‚ฐ์ฒ˜๋ฆฌ ํ”Œ๋žซํผ(Distributed Computing Platform)์ž…๋‹ˆ๋‹ค. Apache Spark๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ํ•˜๋“œ๋””์Šคํฌ๊ฐ€ ์•„๋‹Œ ๋ฉ”๋ชจ๋ฆฌ์— ์บ..