- Today
- Total
목록AI & 빅데이터 (113)
DATA101

📚 목차 1. 개념 2. 장점 3. 단점 1. 개념 AdaGrad는 딥러닝 최적화 기법 중 하나로써 Adaptive Gradient의 약자이고, 적응적 기울기라고 부릅니다. Feature마다 중요도, 크기 등이 제각각이기 때문에 모든 Feature마다 동일한 학습률을 적용하는 것은 비효율적입니다. 이러한 관점에서 AdaGrad 기법이 제안되었습니다. AdaGrad는 Feature별로 학습률(Learning rate)을 Adaptive하게, 즉 다르게 조절하는 것이 특징입니다. AdaGrad를 수식으로 나타내면 아래와 같습니다. $$ g_{t} = g_{t-1} + (\nabla f(x_{t-1}))^{2} $$ $$ x_{t} = x_{t-1} - \frac{\eta}{\sqrt{g_{t} + \epsi..

본 포스팅에서는 딥러닝 최적화(optimizer) 기법 중 하나인 Momentum의 개념에 대해 알아봅니다. 먼저, Momentum 기법이 제안된 배경인 경사 하강법(Gradient Descent)의 한계점에 대해 다루고 알아보도록 하겠습니다.📚 목차1. 경사 하강법의 한계 1.1. Local Minimum 문제 1.2. Saddle Point 문제2. Momentum 2.1. 개념 2.2. 수식1. 경사 하강법의 한계경사 하강법(Gradient Descent)은 크게 2가지 한계점이 있습니다. 첫째, Local Minimum에 빠지기 쉽다는 점. 둘째, 안장점(Saddle point)를 벗어나지 못한다는 점. 각각에 대해 알아봅니다.1.1. Local Minimum..

📚 목차1. 최적화 개념 2. 기울기 개념 3. 경사 하강법 개념 4. 경사 하강법의 한계1. 최적화 개념딥러닝 분야에서 최적화(Optimization)란 손실 함수(Loss Function) 값을 최소화하는 파라미터를 구하는 과정입니다(아래 그림 1 참고). 딥러닝에서는 학습 데이터를 입력하여 네트워크 구조를 거쳐 예측값(\(\hat{y}\))을 얻습니다. 이 예측값과 실제 정답(\(y\))과의 차이를 비교하는 함수가 손실 함수입니다. 즉, 모델이 예측한 값과 실젯값의 차이를 최소화하는 네트워크 구조의 파라미터(a.k.a., Feature)를 찾는 과정이 최적화입니다. 최적화 기법에는 여러 가지가 있으며, 본 포스팅에서는 경사 하강법(Gradient Descent)에 대해 알아봅니다.2. 기울기 개념..

💡 목표 평균절대오차(MAE)의 개념 및 특징에 대해 알아봅니다. 1. MAE 개념 평균절대오차(Mean Absolute Error, MAE)는 모든 절대 오차(Error)의 평균입니다. 여기서 오차란 알고리즘이 예측한 값과 실제 정답과의 차이를 의미합니다. 즉, 알고리즘이 정답을 잘 맞힐수록 MSE 값은 작습니다. 따라서, MAE가 작을수록 알고리즘의 성능이 좋다고 볼 수 있습니다. MAE의 수식을 살펴보겠습니다. $$ E = \sum_{i}|y_{i} -\tilde{y_{i}}| $$ \(E\): 손실 함수 \(y_i\): \(i\)번째 학습 데이터의 정답 \(\tilde{y_i}\): \(i\)번째 학습 데이터로 예측한 값 2. MAE 특징 2.1. 오차와 비례하는 손실 함수 MAE는 손실 함수가 ..

💡 목표평균제곱오차(MSE)의 개념과 특징에 대해 알아봅니다.1. MSE 개념평균제곱오차(Mean Squared Error, MSE)는 이름에서 알 수 있듯이 오차(error)를 제곱한 값의 평균입니다. 오차란 알고리즘이 예측한 값과 실제 정답과의 차이를 의미합니다. 즉, 알고리즘이 정답을 잘 맞출수록 MSE 값은 작겠죠. 즉, MSE 값은 작을수록 알고리즘의 성능이 좋다고 볼 수 있습니다. 수식을 살펴보겠습니다.$$ E = \frac{1}{n}\sum_{i=1}^{n}(y_{i} - \tilde{y_i})^2 $$\(y_i\): \(i\)번째 학습 데이터의 정답\(\tilde{y_i}\): \(i\)번째 학습 데이터로 예측한 값2. 특징2.1. 오차 대비 큰 손실 함수의 증가폭MSE는 오차가 커질수록..

💡 목표 손실 함수의 개념과 알고리즘 학습의 수학적 의미에 대해 알아봅니다. 1. 손실 함수의 개념 손실 함수(Loss Function)는 지도학습(Supervised Learning) 시 알고리즘이 예측한 값과 실제 정답의 차이를 비교하기 위한 함수입니다. 즉, '학습 중에 알고리즘이 얼마나 잘못 예측하는 정도'를 확인하기 위한 함수로써 최적화(Optimization)를 위해 최소화하는 것이 목적인 함수입니다. 그래서 손실 함수를 목적 함수(Objective Function)라고도 부릅니다. 이외에도 손실 함수는 분야에 따라 비용 함수(Cost Function), 에너지 함수(Energy Function) 등으로 다양하게 부르기도 합니다. 손실 함수를 통해 모델 학습 중에 손실(loss)이 커질수록 학..

📚 목차 1. 활성화 함수의 개념 2. 활성화 함수의 종류 2.1. Sign 함수 2.2. Sigmoid 함수 2.3. Tanh 함수 2.4. Softmax 함수 2.5. ReLU 함수 2.6. Leaky ReLU 함수 1. 활성화 함수의 개념 활성화 함수(Activation Function)란 퍼셉트론(Perceptron)의 출력값을 결정하는 비선형(non-linear) 함수입니다. 즉, 활성화 함수는 퍼셉트론에서 입력값의 총합을 출력할지 말지 결정하고, 출력한다면 어떤 값으로 변환하여 출력할지 결정하는 함수입니다. 퍼셉트론에 대한 자세한 내용은 이곳을 참고해 주세요. 아래 그림 1에 노란색으로 색칠한 부분이 퍼셉트론의 활성화 함수 부분입니다. 2. 활성화 함수의 종류 2.1. Sign 함수 위의 퍼셉..

📚 목차1. 자카드 유사도 개념2. 자카드 유사고 실습1. 자카드 유사도 개념자카드 유사도(Jaccard Similarity)는 \(2\)개의 집합 \(A\), \(B\)가 있을 때 두 집합의 합집합 중 교집합의 비율입니다. 즉, 두 집합이 완전히 같을 때는 자카드 유사도가 \(1\)이며, 두 집합에 교집합이 없는 경우는 \(0\)입니다. 자카드 유사도를 \(J\)라고 할 때 두 집합 간의 자카드 유사도 수식은 아래와 같습니다. $$ J(A, B) = \frac{|A \cap B|}{|A \cup B|} = \frac{|A \cap B|}{|A| + |B| - |A \cap B|} $$ 자카드 유사도 개념을 자연어처리 분야로 그대로 가져오면, 하나의 집합이 곧 하나의 문서가 해당하는 것입니다. ..