๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋กsigmoid (1)

DATA101

[๋”ฅ๋Ÿฌ๋‹] ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค(Vanishing Gradient)์˜ ์˜๋ฏธ์™€ ํ•ด๊ฒฐ๋ฐฉ๋ฒ•

๐Ÿ“š ๋ชฉ์ฐจ1. ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์˜ ์˜๋ฏธ2. ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์˜ ์›์ธ3. ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์˜ ํ•ด๊ฒฐ๋ฐฉ๋ฒ•1. ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์˜ ์˜๋ฏธ๋”ฅ๋Ÿฌ๋‹ ๋ถ„์•ผ์—์„œ Layer๋ฅผ ๋งŽ์ด ์Œ“์„์ˆ˜๋ก ๋ฐ์ดํ„ฐ ํ‘œํ˜„๋ ฅ์ด ์ฆ๊ฐ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ•™์Šต์ด ์ž˜ ๋  ๊ฒƒ ๊ฐ™์ง€๋งŒ, ์‹ค์ œ๋กœ๋Š” Layer๊ฐ€ ๋งŽ์•„์งˆ์ˆ˜๋ก ํ•™์Šต์ด ์ž˜ ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค(Vanishing Gradient) ํ˜„์ƒ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์ด๋ž€ ์—ญ์ „ํŒŒ(Backpropagation) ๊ณผ์ •์—์„œ ์ถœ๋ ฅ์ธต์—์„œ ๋ฉ€์–ด์งˆ์ˆ˜๋ก Gradient ๊ฐ’์ด ๋งค์šฐ ์ž‘์•„์ง€๋Š” ํ˜„์ƒ์„ ๋งํ•ฉ๋‹ˆ๋‹ค(๊ทธ๋ฆผ 1 ์ฐธ๊ณ ). ๊ทธ๋ ‡๋‹ค๋ฉด ์™œ ์ด๋Ÿฐ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ• ๊นŒ์š”? ์ด์–ด์ง€๋Š” ์„น์…˜์—์„œ ์ž์„ธํžˆ ์•Œ์•„๋ด…๋‹ˆ๋‹ค. 2. ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์˜ ์›์ธ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์˜ ๋ฐœ์ƒ ์›์ธ์€ ํ™œ์„ฑํ™” ํ•จ์ˆ˜(Activation Function)์˜ ๊ธฐ์šธ๊ธฐ์™€ ๊ด€๋ จ์ด ๊นŠ์Šต๋‹ˆ๋‹ค..