목록AI & 빅데이터 (113)
DATA101

📚 목차 1. RNN 개념 2. RNN 수식 3. RNN 용도 1. RNN 개념 Recurrent Neural Network(RNN)은 자연어 문장과 같이 단어의 순서에 따라 의미가 달라지는 순차 데이터(Sequential Data)를 다룰 때 주로 사용되는 신경망입니다. 따라서 RNN은 단어의 어순에 따라 문장의 의미가 달라지고 앞에 어떤 단어가 쓰였는지 기억해야 뒤에 오는 단어를 예측하는 등의 문제를 풀 때 주로 활용됩니다. RNN은 Hidden Layer의 노드에서 활성화 함수(Activation Function)를 거쳐 나온 결괏값을 Output Layer로 보내면서 다시 다음 Hidden Layer 노드 계산의 입력값으로 보내는 신경망입니다. 이처럼, 결괏값이 다음 Hidden Layer 노드의..

📌 들어가며 본 포스팅에서는 딥러닝 Generalization 기법 중 하나인 배치 정규화(Batch Normalization)에 대해 알아봅니다. 먼저, 데이터 정규화의 필요성에 대해 알아보고, Batch Normalization의 등장 배경인Internal Covariate Shift 현상에 대해 소개합니다. 이후 Batch Normalization의 개념과 특징에 대해 알아보겠습니다. 📚 목차 1. 데이터 정규화 1.1. 개념 1.2. 필요성 2. Internal Covariate Shift 현상 2.1. 개념 2.2. 문제점 3. Batch Normalization 3.1. 개념 3.2. 장점 3.3. 단계별 Batch Normalization 1. 데이터 정규화 1.1. 개념 데이터 정규화(No..

📚 목차 1. Example-based Evaluation 1.1. Exact-Match Ratio(EMR) 1.2. Accuracy 1.3. Precision 1.4. Recall 1.5. F1 Score 1.6. Hamming Loss 2. Label-based Evaluation 2.1. Macro average 2.2. Mico average 2.3. Weighted average 👨💻 들어가며 Multi-label Classification 모델 평가지표를 라벨(lael)을 기준으로 계산하는지 혹은 test example을 기준으로 계산하는지에 따라 평가 방법은 크게 2가지로 나뉩니다. 1) Example-based Evaluation 2) Label-based Evaluation 각각에 대해..

1. ROC Curve Receiver Operating Characteristic 곡선의 약자 (그림 1) \(x\)축: FPR(False Positive Rate), \(y\)축: TPR(True Positive Rate) FPR: 전체 경우 중 모델이 Positive로 예측했으나 실제 정답이 Negative인 비율로, 전체 경우에서 TNR(True Negatvie Rate)를 뺀 값과 같음 $$ FPR = 1 - TNR = 1 - \frac{TN}{FP+TN}=\frac{FP}{FP+TN} $$ TPR: 전체 경우 중 모델이 Positive로 예측했는데 실제 정답이 Positive인 비율(Recall과 동일) $$ TPR = Recall = \frac{TP}{TP+FN} $$ 그림 1에서 Refer..

📚 목차 1. Confusion Matrix 2. Accuracy 3. Precision 4. Recall 5. F1 Score 6. Average Precision 👨💻 들어가며 본 포스팅에서는 Binary Classification 및 Multi-class Classification에서 기본적으로 다루는 평가지표인 Confusion Matrix, Accuracy, Precision, Recall, F1 Score, Average Precision에 대해 다룹니다. Multi-label Classification에서 사용되는 평가지표는 아래의 포스팅을 참고해 주세요. https://heytech.tistory.com/434 1. Confusion Matrix '혼동 행렬' 또는 '오차 행렬'이라도 부..

패키지 import datetime는 기본 내장 패키지이므로 따로 설치하실 필요가 없습니다. from datetime import datetime 현재 시간 정보 now = datetime.datetime.now() print(now) 출력 결과 2022-06-23 12:18:53.198535 연도, 월, 일, 시, 분, 초 따로 구하기 연도(Year) print(now.year) # 2022 월(Month) print(now.month) # 6 일(Day) print(now.day) # 23 시(hour) print(now.hour) # 12 분(Minute) print(now.minute) # 18 초(Second) print(now.second) # 53 마이크로 초(Microsecond) prin..

📌 Text 빅데이터분석 플랫폼 베타테스트 참가자 모집 중!(네이버페이 4만 원 전원 지급) 👋 안녕하세요, 코딩이 필요 없는 AI/빅데이터 분석 All in One 플랫폼 개발팀입니다.😊 저희 서비스를 사용해 보시고 경험담을 들려주세요 :)💸 참여해 주신 "모든" 분들께 네이버페이 4만 원 쿠폰을 지급해 드립니다.👨💻 참여 희망 시 카톡플러스친구 1:1 채팅 or 인스타그램 DM 부탁드립니다 :)📆 참여기간 : 11/25(월)~11/29(금) 11:00~21:00 중 택1 (1시간 1타임)👉 참여장소 : 강남역 인근 스터디카페 미팅Room📍 소요시간 : 총 40분 내외(서비스 체험 및 인터뷰 포함)✅ 참가조건 : Text 빅데이터 분석 업무 경험자👉 참가 가능일정 조회하기 : ht..

본 포스팅에서는 Python pandas 패키지를 활용하여 결측치를 확인하고 제거하는 방법에 대해 다룹니다. 👨💻 들어가며 기본적으로 pandas 설치 및 import는 되어 있고 원하는 데이터셋도 불러왔다고 가정합니다. pandas 패키지 설치 !pip install pandas !pip install openpyxl # excel 파일 불러오기 위함 # pipenv 가상환경용 # !pipenv install pandas # !pipenv install openpyxl pandas 패키지 import import pandas as pd 데이터셋 Load dataset_raw = pd.read_excel("./data/dataset_raw.xlsx") 1. 결측치 확인 결측치 개수를 확인하는 방법은 크..