๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋กLeaky ReLU (2)

DATA101

[๋”ฅ๋Ÿฌ๋‹] ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค(Vanishing Gradient)์˜ ์˜๋ฏธ์™€ ํ•ด๊ฒฐ๋ฐฉ๋ฒ•

๐Ÿ“š ๋ชฉ์ฐจ1. ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์˜ ์˜๋ฏธ2. ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์˜ ์›์ธ3. ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์˜ ํ•ด๊ฒฐ๋ฐฉ๋ฒ•1. ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์˜ ์˜๋ฏธ๋”ฅ๋Ÿฌ๋‹ ๋ถ„์•ผ์—์„œ Layer๋ฅผ ๋งŽ์ด ์Œ“์„์ˆ˜๋ก ๋ฐ์ดํ„ฐ ํ‘œํ˜„๋ ฅ์ด ์ฆ๊ฐ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ•™์Šต์ด ์ž˜ ๋  ๊ฒƒ ๊ฐ™์ง€๋งŒ, ์‹ค์ œ๋กœ๋Š” Layer๊ฐ€ ๋งŽ์•„์งˆ์ˆ˜๋ก ํ•™์Šต์ด ์ž˜ ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค(Vanishing Gradient) ํ˜„์ƒ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์ด๋ž€ ์—ญ์ „ํŒŒ(Backpropagation) ๊ณผ์ •์—์„œ ์ถœ๋ ฅ์ธต์—์„œ ๋ฉ€์–ด์งˆ์ˆ˜๋ก Gradient ๊ฐ’์ด ๋งค์šฐ ์ž‘์•„์ง€๋Š” ํ˜„์ƒ์„ ๋งํ•ฉ๋‹ˆ๋‹ค(๊ทธ๋ฆผ 1 ์ฐธ๊ณ ). ๊ทธ๋ ‡๋‹ค๋ฉด ์™œ ์ด๋Ÿฐ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ• ๊นŒ์š”? ์ด์–ด์ง€๋Š” ์„น์…˜์—์„œ ์ž์„ธํžˆ ์•Œ์•„๋ด…๋‹ˆ๋‹ค. 2. ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์˜ ์›์ธ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์˜ ๋ฐœ์ƒ ์›์ธ์€ ํ™œ์„ฑํ™” ํ•จ์ˆ˜(Activation Function)์˜ ๊ธฐ์šธ๊ธฐ์™€ ๊ด€๋ จ์ด ๊นŠ์Šต๋‹ˆ๋‹ค..

[Deep Learning] Activation Function ๊ฐœ๋… ๋ฐ ์ข…๋ฅ˜: sign, tanh, sigmoid, softmax, ReLU, Leaky ReLU

๐Ÿ“š ๋ชฉ์ฐจ 1. ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ๊ฐœ๋… 2. ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ์ข…๋ฅ˜ 2.1. Sign ํ•จ์ˆ˜ 2.2. Sigmoid ํ•จ์ˆ˜ 2.3. Tanh ํ•จ์ˆ˜ 2.4. Softmax ํ•จ์ˆ˜ 2.5. ReLU ํ•จ์ˆ˜ 2.6. Leaky ReLU ํ•จ์ˆ˜ 1. ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ๊ฐœ๋… ํ™œ์„ฑํ™” ํ•จ์ˆ˜(Activation Function)๋ž€ ํผ์…‰ํŠธ๋ก (Perceptron)์˜ ์ถœ๋ ฅ๊ฐ’์„ ๊ฒฐ์ •ํ•˜๋Š” ๋น„์„ ํ˜•(non-linear) ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ์ฆ‰, ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋Š” ํผ์…‰ํŠธ๋ก ์—์„œ ์ž…๋ ฅ๊ฐ’์˜ ์ดํ•ฉ์„ ์ถœ๋ ฅํ• ์ง€ ๋ง์ง€ ๊ฒฐ์ •ํ•˜๊ณ , ์ถœ๋ ฅํ•œ๋‹ค๋ฉด ์–ด๋–ค ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์ถœ๋ ฅํ• ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ํผ์…‰ํŠธ๋ก ์— ๋Œ€ํ•œ ์ž์„ธํ•œ ๋‚ด์šฉ์€ ์ด๊ณณ์„ ์ฐธ๊ณ ํ•ด ์ฃผ์„ธ์š”. ์•„๋ž˜ ๊ทธ๋ฆผ 1์— ๋…ธ๋ž€์ƒ‰์œผ๋กœ ์ƒ‰์น ํ•œ ๋ถ€๋ถ„์ด ํผ์…‰ํŠธ๋ก ์˜ ํ™œ์„ฑํ™” ํ•จ์ˆ˜ ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค. 2. ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ์ข…๋ฅ˜ 2.1. Sign ํ•จ์ˆ˜ ์œ„์˜ ํผ์…‰..