- Today
- Total
목록View All (360)
DATA101
📚목차1. 등장배경2. 개념3. Sample 선정4. Word2Vec 성능1. 등장 배경Negative Sampling 방법은 Word2Vec의 CBOW와 Skip-gram 모두 단어 개수가 많아질수록 계산 복잡도가 증가하여 연산 속도가 저하된다는 한계점을 보완하기 위해 제안되었습니다. CBOW와 Skip-gram의 목적함수는 아래와 같습니다. $$ \mathcal{L}_{CBOW} = -\sum_{j=1}^{|V|}y_{j}log(\hat{y}) $$ $$ \mathcal{L}_{Skip-gram} = -\sum_{j=0, j\ne{m}}^{2m}\sum_{k=1}^{|V|}y_{k}^{(c-j)}\log\hat{y_{k}}^{(c-j)} $$ 수식에서 알 수 있듯이, CBOW와 Skip-..
📚목차1. 학습 데이터셋 생성 2. 인공신경망 모형 3. 학습 과정4. CBOW vs Skip-gram5. 한계점들어가며Word2Vec는 학습방식에 따라 크게 \(2\)가지로 나눌 수 있습니다: Continuous Bag of Words(CBOW)와 Skip-gram. CBOW는 주변 단어(Context Word)로 중간에 있는 단어를 예측하는 방법입니다. 여기서 중간에 있는 단어를 중심 단어(Center Word) 또는 타겟 단어(Target Word)라고 부릅니다. 반대로, Skip-gram은 중심 단어를 바탕으로 주변 단어들을 예측하는 방법입니다. 선행연구들에 따르면, 대체로 Skip-gram이 CBOW보다 성능이 우수하다고 알려져 있는데, 이에 대한 자세한 내용은 본 포스팅에 'Chapter 4..
📚목차1. 학습 데이터셋 생성 2. 인공신경망 모형 3. 학습 절차4. CBOW vs Skip-gram5. 한계점들어가며Word2Vec는 학습방식에 따라 크게 \(2\)가지로 나눌 수 있습니다: Continuous Bag of Words(CBOW)와 Skip-gram. CBOW는 주변 단어(Context Word)로 중간에 있는 단어를 예측하는 방법입니다. 여기서 중간에 있는 단어를 중심 단어(Center Word) 또는 타겟 단어(Target Word)라고 부릅니다. 반대로, Skip-gram은 중심 단어를 바탕으로 주변 단어들을 예측하는 방법입니다. 본 포스팅에서는 CBOW에 대해 다루고, 다음 포스팅에서 Skip-gram에 대해 자세히 다룹니다.1. 학습 데이터셋 생성CBOW에서 학습 데이터셋을 ..
📚 목차1. Word2Vec 개념2. 희소표현과의 차이점 3. 언어모델과의 차이점1. Word2Vec 개념Word2Vec는 Word to Vector라는 이름에서 알 수 있듯이 단어(Word)를 컴퓨터가 이해할 수 있도록 수치화된 벡터(Vector)로 표현하는 기법 중 하나입니다. 구체적으로는 분산표현(Distributed Representation) 기반의 워드임베딩(Word Embedding) 기법 중 하나입니다. 분산표현이란 분포가설(Distibutional Hypothesis) 가정 하에 저차원에 단어 의미를 분산하여 표현하는 기법입니다. 분포가설은 "유사한 문맥에 등장한 단어는 유사한 의미를 갖는다"라는 가정입니다. 여기서 단어를 벡터화하는 작업을 워드임베딩(Word Embedding)이라고..
📚 목차1. 희소표현(Sparse Representation) 2. 밀집표현(Dense Representation) 3. 워드임베딩(Word Embedding)들어가며워드 임베딩(Word Embedding)은 단어(Word)를 컴퓨터가 이해할 수 있도록 벡터로 표현하는 기법 중 하나인데, 특히 밀집표현(Dense Representation) 방식을 통해 표현하는 기법을 말합니다. 밀집표현과 반대되는 개념이 희소표현(Sparse Representation)입니다. 워드 임베딩을 이해하기에 앞서 희소표현과 밀집표현에 대해 알아봅니다.1. 희소표현(Sparse Representation)희소표현은 데이터를 벡터 또는 행렬을 기반으로 수치화하여 표현할 때 극히 일부의 인덱스만 특정 값으로 표현하고, 대부분의 ..
📚 목차1. Perplexity 개념2. Perplexity 값의 의미3. Perplexity 계산방법1. Perplexity 개념1.1. 개요Perplexity(PPL)는 텍스트 생성(Text Generation) 언어 모델의 성능 평가지표 중 하나입니다. Perplexity는 '펄플렉서티'라고 읽으며, '(무언가를 이해할 수 없어) 당혹스러운 정도' 또는 '헷갈리는 정도'로 이해하시면 됩니다(cf., 네이버 영어사전). 일반적으로 테스트 데이터셋이 충분히 신뢰할 만할 때 Perplexity 값이 낮을수록 언어 모델이 우수하다고 평가합니다. 이에 대한 내용은 이어지는 '2. Perplexity 값의 의미' 섹션에서 더욱 자세히 다룹니다.1.2. 분기계수Perplexity는 곧 언어 모델의 ..
📚 목차1. N-gram 개념2. N-gram 등장 배경3. N-gram 종류 4. N-gram 기반 단어 예측 5. N-gram의 한계점1. N-gram 개념언어 모델(Language Model)은 문장 내 앞서 등장한 단어를 기반으로 이어서 등장할 적절한 단어를 예측하는 모델입니다. 언어 모델은 크게 통계학 기반의 언어 모델(Statistical Language Model, SLM)과 인공신경망(Artificial Neural Network, ANN) 기반의 언어 모델이 있습니다. N-gram은 통계학 기반의 언어 모델 중 하나입니다. N-gram 언어 모델은 이처럼 다음 단어를 예측할 때 문장 내 모든 단어를 고려하지 않고 특정 단어의 개수(\(N\))만 고려합니다. 즉, N-gram은 \(N\)..
본 포스팅에서는 통계학적 언어 모델의 개념 및 특징에 대해 알아봅니다.📚 목차1. 개념 2. 확률적 표현 3. 적용분야1. 개념1.1. 개요언어 모델(Language Model)은 문장이 얼마나 자연스러운지 확률적으로 계산함으로써 문장 내 특정 위치에 출현하기 적합한 단어를 확률적으로 예측하는 모델입니다. 더욱 쉽게 설명하자면, 언어 모델은 문장 내 앞서 등장한 단어를 기반으로 뒤에 어떤 단어가 등장해야 문장이 자연스러운지 판단하는 도구입니다.언어 모델은 크게 통계학적 언어 모델과 인공신경망 기반의 언어 모델이 있습니다. 최근에는 BERT, GPT-3와 같은 인공신경망 기반의 언어 모델의 성능이 뛰어나 대부분의 자연어처리 문제에서는 인공신경망 기반의 언어 모델을 사용합니다. 본 포스팅에서는 통계학 ..