- Today
- Total
목록View All (355)
DATA101
📚 목차 1. 루트 사용자의 개념 2. IAM 사용자의 개념 👨💻 들어가며 아마존웹서비스(AWS)에는 아래와 같이 2가지 종류의 계정이 존재합니다(그림 1 참고). 루트 계정 IAM 계정 본 포스팅에서는 2가지 사용자별 개념에 대해 각각 알아봅니다. 1. 루트 사용자의 개념 AWS 루트 사용자는 회원가입 시 만든 계정으로서 모든 AWS 권한을 갖고 있는 사용자입니다. 이 계정은 탈취당할 시 복구가 매우 어려울 뿐만 아니라, 최근에는 해커들이 비트코인 채굴에 AWS 계정을 착취하여 사용하기 때문에 상상을 초월하는 과금폭탄을 맞을 수 있습니다. 실제로 최근 국내에서 AWS 계정이 해킹을 당하여 과금만 3억이 나온 사례도 있습니다. 따라서, 루트 사용자는 계정 설정을 변경하거나 과금 관리(i.e., Bill..
📚 목차 1. AWS EC2 개념 2. AWS 기본 세팅 3. AWS EC2 사용방법 1. AWS EC2 개념 AWS EC2는 Elastic Compute Cloud의 약자로 독립된 가상의 컴퓨터를 임대해 주는 웹 서비스입니다. 물리적인 컴퓨터가 아닌 리눅스, 윈도우와 같은 OS가 설치된 가상 머신을 빌려주는 것이기 때문에 사용자는 원격으로 해당 컴퓨터를 제어하여 사용할 수 있습니다. 이러한 가상 머신을 인스턴스(Instance)라고 부릅니다. AWS EC2는 사용목적이나 예산에 맞춰 메모리, 스토리지, 네트워크 성능 등의 인스턴스 스펙을 선택할 수 있습니다(참고). AWS EC2는 인스턴스 시작과 제거(컴퓨터 임대/반납)의 절차가 매우 간편합니다. 만약 더이상 인스턴스가 필요하지 않으면 언제든지 간편하..
👨💻 들어가며 본 포스팅에서는 딥러닝 분야에서 하이퍼파라미터 최적화 방법 3가지인 Grid Search, Random Search, Bayesian Optimization에 대해 알아봅니다. 📚 목차 1. Grid Search 2. Random Search 3. Bayesian Optimization 1. Grid Search 그리드 서치(Grid Search)는 하이퍼파라미터를 일정한 간격으로 변경하며 최적의 파라미터를 찾아가는 기법입니다. 아래의 그림 1처럼 가로축이 하이퍼파라미터이고 세로축이 목표함수일 때, 목표함수 값이 최대가 되는 하이퍼파라미터를 찾는 문제를 풀어야 한다고 가정해 보겠습니다. 그리드 서치는 특정 범위 내에서 하이퍼파라미터를 일정 값만큼 일일이 변경하며 출력값을 비교하는 방식으로..
📚 목차1. 기울기 소실의 의미2. 기울기 소실의 원인3. 기울기 소실의 해결방법1. 기울기 소실의 의미딥러닝 분야에서 Layer를 많이 쌓을수록 데이터 표현력이 증가하기 때문에 학습이 잘 될 것 같지만, 실제로는 Layer가 많아질수록 학습이 잘 되지 않습니다. 바로 기울기 소실(Vanishing Gradient) 현상때문입니다. 기울기 소실이란 역전파(Backpropagation) 과정에서 출력층에서 멀어질수록 Gradient 값이 매우 작아지는 현상을 말합니다(그림 1 참고). 그렇다면 왜 이런 기울기 소실 문제가 발생할까요? 이어지는 섹션에서 자세히 알아봅니다. 2. 기울기 소실의 원인기울기 소실의 발생 원인은 활성화 함수(Activation Function)의 기울기와 관련이 깊습니다..
📚 목차 1. 경사 하강법 개념 2. 경사 하강법 종류 2.1. 배치 경사 하강법 2.2. 확률적 경사 하강법 2.3. 미니 배치 경사 하강법 1. 경사 하강법 개념 경사 하강법(Gradient Descent)이란 딥러닝 알고리즘 학습 시 사용되는 최적화 방법(Optimizer) 중 하나입니다. 딥러닝 알고리즘 학습 시 목표는 예측값과 정답값 간의 차이인 손실 함수의 크기를 최소화시키는 파라미터를 찾는 것입니다. 학습 데이터 입력을 변경할 수 없기 때문에, 손실 함수 값의 변화에 따라 가중치(weight) 혹은 편향(bias)을 업데이트해야 합니다. 그럼 어떻게 최적의 가중치나 편향을 찾을 수 있을까요? 최적의 가중치를 찾는 과정을 소개합니다. 최적의 편향을 찾는 과정 역시 절차는 동일합니다. 아래의 그..
📚 목차 1. Batch Size 2. Iteration 3. Epoch 1. Batch Size Batch 크기는 모델 학습 중 parameter를 업데이트할 때 사용할 데이터 개수를 의미합니다. 사람이 문제 풀이를 통해 학습해 나가는 과정을 예로 들어보겠습니다. Batch 크기는 몇 개의 문제를 한 번에 쭉 풀고 채점할지를 결정하는 것과 같습니다. 예를 들어, 총 100개의 문제가 있을 때, 20개씩 풀고 채점한다면 Batch 크기는 20입니다. 사람은 문제를 풀고 채점을 하면서 문제를 틀린 이유나 맞춘 원리를 학습하죠. 딥러닝 모델 역시 마찬가지입니다. Batch 크기만큼 데이터를 활용해 모델이 예측한 값과 실제 정답 간의 오차(conf. 손실함수)를 계산하여 Optimizer가 parameter를..
1. 개념Adaptive Moment Estimation(Adam)은 딥러닝 최적화 기법 중 하나로써 Momentum과 RMSProp의 장점을 결합한 알고리즘입니다. 즉, 학습의 방향과 크기(=Learning rate)를 모두 개선한 기법으로 딥러닝에서 가장 많이 사용되어 "오던" 최적화 기법으로 알려져 있습니다. 최근에는 RAdam, AdamW과 같이 더욱 우수한 성능을 보이는 최적화 기법이 제안되었지만, 본 포스팅에서는 딥러닝 분야 전반을 공부하는 마음가짐으로 Adam에 대해 알아봅니다.2. 수식수식과 함께 Adam에 대해 자세히 알아보겠습니다. $$ m_{t} = \beta_{1} m_{t-1} + (1 - \beta_{1}) \nabla f(x_{t-1}) $$$$ g_{t} = \beta_{..
1. 개념RMSProp는 딥러닝 최적화 기법 중 하나로써 Root Mean Sqaure Propagation의 약자로, 알엠에스프롭(R.M.S.Prop)이라고 읽습니다.✋등장배경최적화 기법 중 하나인 AdaGrad는 학습이 진행될 때 학습률(Learning rate)이 꾸준히 감소하다 나중에는 \(0\)으로 수렴하여 학습이 더 이상 진행되지 않는다는 한계가 있습니다. RMSProp은 이러한 한계점을 보완한 최적화 기법으로써 제프리 힌튼 교수가 Coursea 강의 중에 발표한 알고리즘입니다.🛠 원리RMSProp은 AdaGrad와 마찬가지로 변수(feature)별로 학습률을 조절하되 기울기 업데이트 방식에서 차이가 있습니다. 이전 time step에서의 기울기를 단순히 같은 비율로 누적하지 않고 지수이동..