목록View All (352)
DATA101

들어가며 PySpark, 데이터 분석/엔지니어링 혹은 인공지능 분야에 관심 있으신 분들은 한 번쯤 들어보셨을 기술 스택이죠. 이번 포스팅에서는 PySaprk의 개념과 주요 기능을 이해할 수 있도록 정리하고자 합니다. 1. PySpark 개념 PySpark는 Python 환경에서 Apache Spark를 사용할 수 있는 인터페이스입니다. 즉, PySpark는 Spark용 API이기 때문에 PySpark 개념을 이해하려면 Spark에 대해 이해해야 합니다. Apache Spark 개념 Apache Spark는 대용량의 데이터를 고속으로, 효율적으로 처리하는 빅데이터 분산처리 플랫폼(Distributed Computing Platform)입니다. Apache Spark는 데이터를 하드디스크가 아닌 메모리에 캐..

⁉️ 에러 상황 주피터 노트북 잘 사용하던 중 주피터 노트북 창 우측 상단에 forbidden이라는 문구가 나오며 저장이 제대로 되지 않았습니다. 터미널에서 확인해 보니 저장할 때마다 아래와 같은 에러 메시지가 나오고 있었습니다. 📝 에러 메시지 👨💻 원인 저 같은 경우에는 크롬 쿠키를 삭제한 것이 원인이었습니다. 이 문서에서도 저와 같은 상황에서 에러가 발생했다는 사용자가 있네요. 원인은 여러 가지 중 하나로, 모두 저와 같은 원인은 아닐 수 있다는 점 알아주세요 :) 💡 해결방법 해결 방법은 매우 간단해요. 크게 2가지 절차면 됩니다. [Step 1] 에러 난 주피터 노트북을 브라우저 새로운 탭에 띄웁니다. 아래와 같은 화면이 출력될 것입니다. [Step 2] 터미널에 아래 명령어를 입력하여 문제가..

⁉️ 에러 상황 아래와 같이 데이터프레임에서 2가지 조건을 만족하는 데이터를 필터링했더니 코드는 잘 돌아가는데 에러 메시지가 출력되었습니다. 2018

변경 전 파이썬 pandas 패키지로 엑셀 파일을 불러오면 아래와 같이 파일에는 없던 칼럼이 자동으로 추가되는 것을 볼 수 있습니다. 일단 데이터를 불러온 후에 해당 칼럼을 삭제하는 방법도 있지만, 번거로운 작업을 2번에 할 필요는 없겠죠. 그래서 이번 포스팅에서는 데이터를 불러올 때부터 해당 칼럼이 자동으로 생성되는 것을 방지하는 방법에 대해 알아봅니다. 변경 후 "Unnamed: 0" 칼럼 없이 파일을 불러오는 방법은 간단합니다. read 메소드 실행 시 index_col 옵션 값을 0으로 설정하는 것입니다. dataset = pd.read_csv("데이터셋 경로", index_col = 0) dataset.head() 위와 같이 옵션을 설정하면 이제 해당 칼럼("Unnamed: 0") 없이 데이터가..

변경 방법 변경하고자 하는 칼럼들의 순서대로 아래와 같이 나열하여 작성해 주면 됩니다. 데이터프레임 = 데이터프레임[['칼럼1', '칼럼2', ...]] 변경 전 아래 예시 데이터셋에서는 appName, review_raw, date_full, date_year 칼럼 순서입니다. dataset.head() 만약 date_full, date_year 칼럼을 review_raw 앞으로 이동하고 싶다면 어떻게 하면 될까요? 변경 후 date_full, date_year 칼럼을 review_raw 칼럼보다 앞서 입력하였습니다. dataset = dataset[['appName', 'date_full', 'date_year', 'review_raw']] dataset.head() 위와 같이 정상적으로 칼럼 순서가..

🔥 목표 오늘은 파이썬 map 함수와 lambda 함수를 활용하여 데이터를 핸들링하는 방법과 이점에 대해 알아봅니다. 👨💻 문제 상황 예시 데이터프레임 내 특정 칼럼의 데이터를 활용하여 어떠한 연산을 거쳐 새로운 값들로 이루어진 칼럼을 새롭게 생성하고 싶다면 어떻게 해야 할까요? 구체적인 예시와 함께 알아보겠습니다. 아래와 같이 dataset이라는 데이터프레임에 yyyymmdd 형식의 date 정보가 담긴 date_full 칼럼이 있다고 가정해 보겠습니다. 만약, 아래와 같이 연도 정보만 추출하여 date_year라는 칼럼에 새롭게 저장하고 싶다면 어떻게 코드를 작성해야 할까요? 💡 해결방법 1: 반복문 활용(Bad Case ❌) 반복문을 활용하여 date_full 칼럼 내 데이터를 한 개씩 접근하여 ..

본 포스팅에서는 venv를 활용하여 Python 가상환경 내 패키지 설치 및 관리 방법을 알아봅니다.📚 목차1. 가상환경 필요성 2. venv 활성화 3. 패키지 설치 4. 설치된 패키지 리스트 저장 5. 패키지 일괄 설치1. 가상환경 필요성가상 환경은 프로젝트마다 격리된 환경(즉, 가상 환경)을 생성함으로써 프로젝트별로 패키지를 관리하기 위함입니다. 파이썬을 입문하기로 마음 먹으셨다면 지금부터라도 가상 환경 사용을 권장해 드립니다. 가상 환경의 필요성에 대한 상세한 설명은 이 포스팅을 참고해 주세요.2. venv 활성화먼저 생성해 두었던 venv를 활성화해야 합니다. venv 가상환경 생성 및 활성화 방법은 이곳을 참고해 주세요. 참고로, Python 3.5 이후부터는 venv가 파이썬 표준 라이브러리..

📌 Text 빅데이터분석 플랫폼 베타테스트 참가자 모집 중!(네이버페이 4만 원 전원 지급) 👋 안녕하세요, 코딩이 필요 없는 AI/빅데이터 분석 All in One 플랫폼 개발팀입니다.😊 저희 서비스를 사용해 보시고 경험담을 들려주세요 :)💸 참여해 주신 "모든" 분들께 네이버페이 4만 원 쿠폰을 지급해 드립니다.👨💻 참여 희망 시 카톡플러스친구 1:1 채팅 or 인스타그램 DM 부탁드립니다 :)📆 참여기간 : 11/25(월)~11/29(금) 11:00~21:00 중 택1 (1시간 1타임)👉 참여장소 : 강남역 인근 스터디카페 미팅Room📍 소요시간 : 총 40분 내외(서비스 체험 및 인터뷰 포함)✅ 참가조건 : Text 빅데이터 분석 업무 경험자👉 참가 가능일정 조회하기 : ht..