- Today
- Total
목록AI & 빅데이터/자연어처리(NLP) (24)
DATA101

본 포스팅에서는 카운트 기반의 단어 표현 방법인 Bag of Words(BoW) 개념과 생성 방법을 알아봅니다.📚 목차1. BoW 개념2. BoW 특징3. BoW 생성 절차4. BoW 생성 실습1. BoW 개념Bag of Words(BoW)는 단어를 수치화하는 방법 중 하나로, 문서 내 단어의 순서와 의미는 고려하지 않고 오직 출현 빈도(frequency)만 고려하여 단어를 표현하는 방법입니다. BoW는 국소 표현방법(Local Representation) 또는 이산 표현방법(Discrete Representation)의 일종으로 카운트 기반의 단어 표현방법(Count-based Word Representation)이라고 부릅니다(그림 1 참고).2. BoW 특징BoW는 어떤 단어들이 몇 회..

오늘은 모바일 뱅킹 App 리뷰 텍스트마이닝 관련 논문을 방법론 위주로 빠르게 리뷰해 보겠습니다.그럼 바로 시작하죠!📚 논문 출처 APALeem, B. H., & Eum, S. W. (2021). Using text mining to measure mobile banking service quality. Industrial Management & Data Systems.💡 요약카카오뱅크 앱 리뷰 텍스트마이닝을(키워드 추출, 토픽 모델링, 감정분석) 통해 모바일 뱅킹 앱 서비스 퀄리티 평가한 논문1. 데이터 수집 및 전처리1.1. Data collection- 데이터: 카카오 뱅크 고객 리뷰 3,900건- 수집 출처: 구글 플레이 스토어- 수집 방법: WebHarvy 웹 크롤링 솔루션 활용- 수집일..

안녕하세요, 오늘은 파이썬을 이용하여 문자열을 치환하는 방법에 대해 공유해 드립니다.바로 시작하죠!문자열 치환은 언제 사용할까?위의 스크린샷처럼 한 번쯤은 한글, 워드, 엑셀 등에서 "찾아 바꾸기" 기능을 사용해 보셨을 것입니다.문자열 치환은 이처럼 특정 문자를 찾아서 변경하거나 특정 문자를 찾아 삭제할 때 주로 사용합니다.이 기능은 파이썬의 *정규표현식(regular expression)을 지원하는 re 모듈 내 sub 함수를 통해 이용할 수 있습니다. *정규표현식이란?정규표현식은 특정 패턴을 갖는 문자열을 '검색', '치환', '제거'하는 기능을 지원하는 기능입니다.re 패키지import re먼저, re 패키지를 불러 옵니다.re.subre 모듈의 sub 함수(substitute) 파라미터 입력방식은..

오늘은 파이썬을 통해 이모티콘을 텍스트로, 텍스트를 이모티콘으로 변환하는 방법을 공유해 드립니다.바로 시작하죠!목차1. emoji 라이브러리 설치2. emoji 라이브러리 import3. emoji-text 변환3.1. emoji to text3.2. text to emojiReferences1. emoji 라이브러리 설치pip install emoji2. emoji 라이브러리 importimport emoji3. emoji-text 변환3.1. emoji to textprint(emoji.demojize('🍎'))print(emoji.demojize('🐶'))print(emoji.demojize('❤️')) emoji 라이브러리 내 demojize 메서드를 이용하여 텍스트로 변환할 이모..

본 포스팅에서는 KoNLPy 라이브러리 내 Mecab 형태소 분석기의 고유명사 추가 방법을 알아봅니다.목차1. Mecab 고유명사 사전 접근2. 고유명사 사전 등록하기3. 고유명사 사전 업데이트4. (Optional) 고유명사 사전 등록여부 확인1. Mecab 고유명사 사전 접근Mecab 폴더 접근cd /Users/[USER_NAME]/mecab-ko-dic-2.1.1-20180720먼저, 터미널/커맨드라인을 통해 mecab 설치 위치에 접근해 줍니다. mecab 설치 시에 파일 경로를 바꾸시지 않았다면 위와 같이 PC 사용자 ID 폴더에 위치해 있습니다. 저와 mecab 버전이 달라 폴더 이름이 다를 수 있으니 참고만 하시길 바랍니다.고유명사 사전 접근cd user-dicvi nnp.csv터미..

📚 목차1. KoNLPy setup 1.1. KoNLPy 설치 1.2. KoNLPy import 1.3. 형태소 분석기 비교 2. 형태소별 토큰화(tokenization)하기 2.1. 토큰화 without 품사 태깅 2.2. 토큰화 with 품사 태깅 2.3. 명사만 추출하기1. KoNLPy setup1.1. KoNLPy 설치KoNLPy 라이브러리가 설치되어 있지 않는 분들은 아래 링크를 참고하셔서 설치해 주시길 바랍니다.heytech.tistory.com/3 [Python/NLP] MacOS에서 KoNLPy 설치하기오늘은 한국어 자연어처리(NLP)를 위한 파이썬 라이브러리 KoNLPy를 MacOS에서 설치하는 방법을 공유합니다. 1. 사전 설치항목 1.1. ..

오늘은 파이썬을 기반으로 텍스트 내 이모티콘/이모지를 제거하는 방법을 공유해 드립니다.지난 포스팅에서 구글 번역기 API를 활용하던 중 이모티콘이 포함된 텍스트 데이터의 경우,정상적으로 번역이 되지 않는 것을 확인하였습니다.이는 구글 번역기 API가 텍스트 내 이모티콘 데이터를 처리하지 못 하는 것으로 사료됩니다.이모티콘 제거 코드# Remove emoticonsdef remove_emoji(inputString): return inputString.encode('ascii', 'ignore').decode('ascii')print(remove_emoji('🏡 corpo'))코드는 정말 심플하죠. ASCII 코드에 해당하지 않은 입력 데이터를 모두 무시(제거)하고 출력해 주는 코드입니다.수행 결과..

오늘은 한국어 자연어처리(NLP)를 위한 파이썬 라이브러리 KoNLPy를 설치하는 방법을 공유합니다.1. 터미널/커맨드라인 오픈가장 먼저, 터미널/커맨드라인을 열어줍니다.2. KoNLPy 패키지 설치pip install --upgrade pippip install konlpy(Optional) Mecab 형태소 분석기 설치bash Mecab 형태소 분석기가 정상적으로 동작하지 않는다면, 아래 포스팅을 참고해 주세요!https://heytech.tistory.com/395 Mecab 설치 에러 해결하기: Exception: Install MeCab in order to use it: http://konlpy.org/en/latest/install/👨💻 들어가며 KoNLPy와 Mecab 패키지는 기..