'AI' 태그의 글 목록 (3 Page)

250x250

Notice

Recent Posts

Today

Total

Link

관리 메뉴

목록AI (25)

DATA101

[Deep Learning] 최적화(Optimizer): (4) Adam

1. 개념Adaptive Moment Estimation(Adam)은 딥러닝 최적화 기법 중 하나로써 Momentum과 RMSProp의 장점을 결합한 알고리즘입니다. 즉, 학습의 방향과 크기(=Learning rate)를 모두 개선한 기법으로 딥러닝에서 가장 많이 사용되어 "오던" 최적화 기법으로 알려져 있습니다. 최근에는 RAdam, AdamW과 같이 더욱 우수한 성능을 보이는 최적화 기법이 제안되었지만, 본 포스팅에서는 딥러닝 분야 전반을 공부하는 마음가짐으로 Adam에 대해 알아봅니다.2. 수식수식과 함께 Adam에 대해 자세히 알아보겠습니다. $$ m_{t} = \beta_{1} m_{t-1} + (1 - \beta_{1}) \nabla f(x_{t-1}) $$$$ g_{t} = \beta_{..

AI & 빅데이터/머신러닝·딥러닝 2022. 5. 21. 10:36

[Deep Learning] 최적화(Optimizer): (3) RMSProp

1. 개념RMSProp는 딥러닝 최적화 기법 중 하나로써 Root Mean Sqaure Propagation의 약자로, 알엠에스프롭(R.M.S.Prop)이라고 읽습니다.✋등장배경최적화 기법 중 하나인 AdaGrad는 학습이 진행될 때 학습률(Learning rate)이 꾸준히 감소하다 나중에는 $0$으로 수렴하여 학습이 더 이상 진행되지 않는다는 한계가 있습니다. RMSProp은 이러한 한계점을 보완한 최적화 기법으로써 제프리 힌튼 교수가 Coursea 강의 중에 발표한 알고리즘입니다.🛠 원리RMSProp은 AdaGrad와 마찬가지로 변수(feature)별로 학습률을 조절하되 기울기 업데이트 방식에서 차이가 있습니다. 이전 time step에서의 기울기를 단순히 같은 비율로 누적하지 않고 지수이동..

AI & 빅데이터/머신러닝·딥러닝 2022. 5. 21. 02:16

[Deep Learning] 최적화(Optimizer): (2) AdaGrad

📚 목차 1. 개념 2. 장점 3. 단점 1. 개념 AdaGrad는 딥러닝 최적화 기법 중 하나로써 Adaptive Gradient의 약자이고, 적응적 기울기라고 부릅니다. Feature마다 중요도, 크기 등이 제각각이기 때문에 모든 Feature마다 동일한 학습률을 적용하는 것은 비효율적입니다. 이러한 관점에서 AdaGrad 기법이 제안되었습니다. AdaGrad는 Feature별로 학습률(Learning rate)을 Adaptive하게, 즉 다르게 조절하는 것이 특징입니다. AdaGrad를 수식으로 나타내면 아래와 같습니다. $$ g_{t} = g_{t-1} + (\nabla f(x_{t-1}))^{2} $$ $$ x_{t} = x_{t-1} - \frac{\eta}{\sqrt{g_{t} + \epsi..

AI & 빅데이터/머신러닝·딥러닝 2022. 5. 20. 14:47

[Deep Learning] 최적화(Optimizer): (1) Momentum

본 포스팅에서는 딥러닝 최적화(optimizer) 기법 중 하나인 Momentum의 개념에 대해 알아봅니다. 먼저, Momentum 기법이 제안된 배경인 경사 하강법(Gradient Descent)의 한계점에 대해 다루고 알아보도록 하겠습니다.📚 목차1. 경사 하강법의 한계 1.1. Local Minimum 문제 1.2. Saddle Point 문제2. Momentum 2.1. 개념 2.2. 수식1. 경사 하강법의 한계경사 하강법(Gradient Descent)은 크게 2가지 한계점이 있습니다. 첫째, Local Minimum에 빠지기 쉽다는 점. 둘째, 안장점(Saddle point)를 벗어나지 못한다는 점. 각각에 대해 알아봅니다.1.1. Local Minimum..

AI & 빅데이터/머신러닝·딥러닝 2022. 5. 17. 11:22

[Deep Learning] 최적화 개념과 경사 하강법(Gradient Descent)

📚 목차1. 최적화 개념 2. 기울기 개념 3. 경사 하강법 개념 4. 경사 하강법의 한계1. 최적화 개념딥러닝 분야에서 최적화(Optimization)란 손실 함수(Loss Function) 값을 최소화하는 파라미터를 구하는 과정입니다(아래 그림 1 참고). 딥러닝에서는 학습 데이터를 입력하여 네트워크 구조를 거쳐 예측값($\hat{y}$)을 얻습니다. 이 예측값과 실제 정답($y$)과의 차이를 비교하는 함수가 손실 함수입니다. 즉, 모델이 예측한 값과 실젯값의 차이를 최소화하는 네트워크 구조의 파라미터(a.k.a., Feature)를 찾는 과정이 최적화입니다. 최적화 기법에는 여러 가지가 있으며, 본 포스팅에서는 경사 하강법(Gradient Descent)에 대해 알아봅니다.2. 기울기 개념..

AI & 빅데이터/머신러닝·딥러닝 2022. 5. 6. 16:29

[Deep Learning] 평균절대오차(MAE) 개념 및 특징

💡 목표 평균절대오차(MAE)의 개념 및 특징에 대해 알아봅니다. 1. MAE 개념 평균절대오차(Mean Absolute Error, MAE)는 모든 절대 오차(Error)의 평균입니다. 여기서 오차란 알고리즘이 예측한 값과 실제 정답과의 차이를 의미합니다. 즉, 알고리즘이 정답을 잘 맞힐수록 MSE 값은 작습니다. 따라서, MAE가 작을수록 알고리즘의 성능이 좋다고 볼 수 있습니다. MAE의 수식을 살펴보겠습니다. $$ E = \sum_{i}|y_{i} -\tilde{y_{i}}| $$ $E$: 손실 함수 $y_i$: $i$번째 학습 데이터의 정답 $\tilde{y_i}$: $i$번째 학습 데이터로 예측한 값 2. MAE 특징 2.1. 오차와 비례하는 손실 함수 MAE는 손실 함수가 ..

AI & 빅데이터/머신러닝·딥러닝 2022. 5. 4. 11:27

[NLP] Word2Vec: (3) Skip-gram 개념 및 원리

📚목차1. 학습 데이터셋 생성 2. 인공신경망 모형 3. 학습 과정4. CBOW vs Skip-gram5. 한계점들어가며Word2Vec는 학습방식에 따라 크게 $2$가지로 나눌 수 있습니다: Continuous Bag of Words(CBOW)와 Skip-gram. CBOW는 주변 단어(Context Word)로 중간에 있는 단어를 예측하는 방법입니다. 여기서 중간에 있는 단어를 중심 단어(Center Word) 또는 타겟 단어(Target Word)라고 부릅니다. 반대로, Skip-gram은 중심 단어를 바탕으로 주변 단어들을 예측하는 방법입니다. 선행연구들에 따르면, 대체로 Skip-gram이 CBOW보다 성능이 우수하다고 알려져 있는데, 이에 대한 자세한 내용은 본 포스팅에 'Chapter 4..

AI & 빅데이터/자연어처리(NLP) 2022. 4. 14. 08:22

[NLP] 언어모델(Language Model)의 개념 및 특징

본 포스팅에서는 통계학적 언어 모델의 개념 및 특징에 대해 알아봅니다.📚 목차1. 개념 2. 확률적 표현 3. 적용분야1. 개념1.1. 개요언어 모델(Language Model)은 문장이 얼마나 자연스러운지 확률적으로 계산함으로써 문장 내 특정 위치에 출현하기 적합한 단어를 확률적으로 예측하는 모델입니다. 더욱 쉽게 설명하자면, 언어 모델은 문장 내 앞서 등장한 단어를 기반으로 뒤에 어떤 단어가 등장해야 문장이 자연스러운지 판단하는 도구입니다.언어 모델은 크게 통계학적 언어 모델과 인공신경망 기반의 언어 모델이 있습니다. 최근에는 BERT, GPT-3와 같은 인공신경망 기반의 언어 모델의 성능이 뛰어나 대부분의 자연어처리 문제에서는 인공신경망 기반의 언어 모델을 사용합니다. 본 포스팅에서는 통계학 ..

AI & 빅데이터/자연어처리(NLP) 2022. 3. 31. 14:12

이전 Prev 1 2 3 4 Next 다음

목록AI (25)

DATA101

티스토리툴바