λͺ©λ‘μ „체 κΈ€ (350)

DATA101

[Deep Learning] μ†μ‹€ν•¨μˆ˜(Loss Function) κ°œλ…

πŸ’‘ λͺ©ν‘œ 손싀 ν•¨μˆ˜μ˜ κ°œλ…κ³Ό μ•Œκ³ λ¦¬μ¦˜ ν•™μŠ΅μ˜ μˆ˜ν•™μ  μ˜λ―Έμ— λŒ€ν•΄ μ•Œμ•„λ΄…λ‹ˆλ‹€. 1. 손싀 ν•¨μˆ˜μ˜ κ°œλ… 손싀 ν•¨μˆ˜(Loss Function)λŠ” μ§€λ„ν•™μŠ΅(Supervised Learning) μ‹œ μ•Œκ³ λ¦¬μ¦˜μ΄ μ˜ˆμΈ‘ν•œ κ°’κ³Ό μ‹€μ œ μ •λ‹΅μ˜ 차이λ₯Ό λΉ„κ΅ν•˜κΈ° μœ„ν•œ ν•¨μˆ˜μž…λ‹ˆλ‹€. 즉, 'ν•™μŠ΅ 쀑에 μ•Œκ³ λ¦¬μ¦˜μ΄ μ–Όλ§ˆλ‚˜ 잘λͺ» μ˜ˆμΈ‘ν•˜λŠ” 정도'λ₯Ό ν™•μΈν•˜κΈ° μœ„ν•œ ν•¨μˆ˜λ‘œμ¨ μ΅œμ ν™”(Optimization)λ₯Ό μœ„ν•΄ μ΅œμ†Œν™”ν•˜λŠ” 것이 λͺ©μ μΈ ν•¨μˆ˜μž…λ‹ˆλ‹€. κ·Έλž˜μ„œ 손싀 ν•¨μˆ˜λ₯Ό λͺ©μ  ν•¨μˆ˜(Objective Function)라고도 λΆ€λ¦…λ‹ˆλ‹€. 이외에도 손싀 ν•¨μˆ˜λŠ” 뢄야에 따라 λΉ„μš© ν•¨μˆ˜(Cost Function), μ—λ„ˆμ§€ ν•¨μˆ˜(Energy Function) λ“±μœΌλ‘œ λ‹€μ–‘ν•˜κ²Œ λΆ€λ₯΄κΈ°λ„ ν•©λ‹ˆλ‹€. 손싀 ν•¨μˆ˜λ₯Ό 톡해 λͺ¨λΈ ν•™μŠ΅ 쀑에 손싀(loss)이 컀질수둝 ν•™..

[Deep Learning] Activation Function κ°œλ… 및 μ’…λ₯˜: sign, tanh, sigmoid, softmax, ReLU, Leaky ReLU

πŸ“š λͺ©μ°¨ 1. ν™œμ„±ν™” ν•¨μˆ˜μ˜ κ°œλ… 2. ν™œμ„±ν™” ν•¨μˆ˜μ˜ μ’…λ₯˜ 2.1. Sign ν•¨μˆ˜ 2.2. Sigmoid ν•¨μˆ˜ 2.3. Tanh ν•¨μˆ˜ 2.4. Softmax ν•¨μˆ˜ 2.5. ReLU ν•¨μˆ˜ 2.6. Leaky ReLU ν•¨μˆ˜ 1. ν™œμ„±ν™” ν•¨μˆ˜μ˜ κ°œλ… ν™œμ„±ν™” ν•¨μˆ˜(Activation Function)λž€ νΌμ…‰νŠΈλ‘ (Perceptron)의 좜λ ₯값을 κ²°μ •ν•˜λŠ” λΉ„μ„ ν˜•(non-linear) ν•¨μˆ˜μž…λ‹ˆλ‹€. 즉, ν™œμ„±ν™” ν•¨μˆ˜λŠ” νΌμ…‰νŠΈλ‘ μ—μ„œ μž…λ ₯κ°’μ˜ 총합을 좜λ ₯ν• μ§€ 말지 κ²°μ •ν•˜κ³ , 좜λ ₯ν•œλ‹€λ©΄ μ–΄λ–€ κ°’μœΌλ‘œ λ³€ν™˜ν•˜μ—¬ 좜λ ₯ν• μ§€ κ²°μ •ν•˜λŠ” ν•¨μˆ˜μž…λ‹ˆλ‹€. νΌμ…‰νŠΈλ‘ μ— λŒ€ν•œ μžμ„Έν•œ λ‚΄μš©μ€ 이곳을 μ°Έκ³ ν•΄ μ£Όμ„Έμš”. μ•„λž˜ κ·Έλ¦Ό 1에 λ…Έλž€μƒ‰μœΌλ‘œ μƒ‰μΉ ν•œ 뢀뢄이 νΌμ…‰νŠΈλ‘ μ˜ ν™œμ„±ν™” ν•¨μˆ˜ λΆ€λΆ„μž…λ‹ˆλ‹€. 2. ν™œμ„±ν™” ν•¨μˆ˜μ˜ μ’…λ₯˜ 2.1. Sign ν•¨μˆ˜ μœ„μ˜ 퍼셉..

[NLP] λ¬Έμ„œ μœ μ‚¬λ„ 뢄석: (1) 코사인 μœ μ‚¬λ„(Cosine Similarity)

πŸ“š λͺ©μ°¨1. 코사인 μœ μ‚¬λ„ κ°œλ…2. 코사인 μœ μ‚¬λ„ μ‹€μŠ΅1. 코사인 μœ μ‚¬λ„ κ°œλ…μ½”μ‚¬μΈ μœ μ‚¬λ„(Cosine Similarity)λž€ 두 벑터 μ‚¬μ΄μ˜ 각도λ₯Ό κ³„μ‚°ν•˜μ—¬ 두 벑터가 μ–Όλ§ˆλ‚˜ μœ μ‚¬ν•œμ§€ μΈ‘μ •ν•˜λŠ” μ²™λ„μž…λ‹ˆλ‹€. 즉, DTM, TF-IDF, Word2Vec λ“±κ³Ό 같이 단어λ₯Ό μˆ˜μΉ˜ν™”ν•˜μ—¬ ν‘œν˜„ν•  수 μžˆλ‹€λ©΄ 코사인 μœ μ‚¬λ„λ₯Ό ν™œμš©ν•˜μ—¬ λ¬Έμ„œ κ°„ μœ μ‚¬λ„λ₯Ό λΉ„κ΅ν•˜λŠ” 게 κ°€λŠ₯ν•©λ‹ˆλ‹€. 코사인 μœ μ‚¬λ„λŠ” \(1\)에 κ°€κΉŒμšΈμˆ˜λ‘ 두 벑터가 μœ μ‚¬ν•˜λ‹€κ³  ν•΄μ„ν•˜λ©°, λ¬Έμ„œμ˜ 길이가 λ‹€λ₯Έ κ²½μš°μ—λ„ 비ꡐ적 κ³΅μ •ν•˜κ²Œ 비ꡐ할 수 μžˆλ‹€λŠ” μž₯점이 μžˆμŠ΅λ‹ˆλ‹€. μ•„λž˜ κ·Έλ¦Ό 1κ³Ό 같이 두 벑터가 같은 λ°©ν–₯을 κ°€λ¦¬ν‚€λŠ”, 즉 두 벑터 μ‚¬μ΄μ˜ 각도가 \(0^\circ\)일 λ•Œ 코사인 μœ μ‚¬λ„κ°€ μ΅œλŒ“κ°’μΈ 1을 κ°–μŠ΅λ‹ˆλ‹€. \(A\), \(B\)λΌλŠ” 두 벑터가..

Boxplot κ·Έλž˜ν”„ 해석방법(μ΄μƒμΉ˜ 탐색방법)

πŸ“Œ λ“€μ–΄κ°€λ©° λ³Έ ν¬μŠ€νŒ…μ—μ„œλŠ” Boxplotλ₯Ό ν•΄μ„ν•˜λŠ” 방법에 λŒ€ν•΄ μ•Œμ•„λ΄…λ‹ˆλ‹€. μ•„λž˜ κ·Έλ¦Ό 1κ³Ό 같이 μ„Έλ‘œμΆ•μ€ νŠΉμ • κ°’μ˜ λ²”μœ„λ₯Ό λ‚˜νƒ€λ‚΄κ³ , 이 λ²”μœ„ λ‚΄μ—μ„œ λ°μ΄ν„°λŠ” 주둜 νŒŒλž€μƒ‰ λ°•μŠ€ μ•ˆμ— λΆ„ν¬ν•©λ‹ˆλ‹€. νŒŒλž€μƒ‰ λ°•μŠ€ κ°€μš΄λ° λ…Έλž€μƒ‰ μ§μ„ μœΌλ‘œ ν‘œμ‹œν•œ 뢀뢄이 λ°μ΄ν„°μ˜ 쀑앙값(Median)이 λ©λ‹ˆλ‹€. λ°•μŠ€ μ΅œμƒλ‹¨μ€ 제3 μ‚¬λΆ„μœ„μˆ˜(Q3, 75th percentile), μ΅œν•˜λ‹¨μ€ 제1 μ‚¬λΆ„μœ„μˆ˜(Q1, 25th percentile)μž…λ‹ˆλ‹€. μ‚¬λΆ„μœ„μˆ˜(Quantile)λž€ 전체 데이터λ₯Ό μ˜€λ¦„μ°¨μˆœ μ •λ ¬ν•œ λ‹€μŒ 25%μ”© λ™μΌν•œ λΉ„μœ¨λ‘œ 데이터λ₯Ό λ‚˜λˆˆ κ²ƒμž…λ‹ˆλ‹€. 즉, 제1 μ‚¬λΆ„μœ„μˆ˜(Q1)λŠ” κ°€μž₯ μž‘μ€ 데이터뢀터 전체 쀑 25% λΉ„μœ¨λ§ŒνΌμ˜ 데이터λ₯Ό(25%) μ˜λ―Έν•˜κ³ , 제3 μ‚¬λΆ„μœ„μˆ˜(Q3)λŠ” 쀑앙값(50%)μ—μ„œλΆ€ν„° 25% λΉ„μœ¨λ§ŒνΌμ˜ 데이..