Boxplot 그래프 해석방법(이상치 탐색방법)
📌 들어가며
본 포스팅에서는 Boxplot를 해석하는 방법에 대해 알아봅니다.
아래 그림 1과 같이 세로축은 특정 값의 범위를 나타내고, 이 범위 내에서 데이터는 주로 파란색 박스 안에 분포합니다. 파란색 박스 가운데 노란색 직선으로 표시한 부분이 데이터의 중앙값(Median)이 됩니다.

박스 최상단은 제3 사분위수(Q3, 75th percentile), 최하단은 제1 사분위수(Q1, 25th percentile)입니다. 사분위수(Quantile)란 전체 데이터를 오름차순 정렬한 다음 25%씩 동일한 비율로 데이터를 나눈 것입니다. 즉, 제1 사분위수(Q1)는 가장 작은 데이터부터 전체 중 25% 비율만큼의 데이터를(25%) 의미하고, 제3 사분위수(Q3)는 중앙값(50%)에서부터 25% 비율만큼의 데이터를(75%) 의미합니다. 이 Q3과 Q1 사이 범위인 (Q3-Q1)을 사분범위(Interquartile range, IQR)이라고 합니다.
Boxplot의 수염에 해당하는 박스 바깥의 위, 아래에 가로로 긴 직선을 각각 Maximum, Minimum이라고 부릅니다. Maximum은 IQR 값에 1.5를 곱한 값에 Q3을 더한 값이고, Minimum은 Q1에서 IQR 값에 1.5를 곱한 값을 뺀 값입니다. 이상치는 이 Minimum과 Maximum 보다 각각 크거나 작은 값으로 극단치라고 부릅니다. 즉, 그림 1에서는 빨간색 다이아몬드가 모두 이상치에 해당하는 것입니다.
데이터 분석부터 시각화, AI 모델링까지 해야 하는데 어디서부터 시작해야 할지 막막하셨다면,
저희 법인의 데이터분석 · Tableau 대시보드 구축 All in One 서비스도 함께 확인해보세요.
🏆 크몽 상위 2% 전문가 선정 이력과 대기업 연구원 출신 전문 인력으로 구성된 법인이 직접 수행합니다.
[ Contact Us ]
📬 메일) contact@uf5.io
🟡 카톡) DATA101 (플러스친구)
🔴 유튜브) DATA101 데이터워너원
💻 홈페이지) https://uf5.io
👨💻 기술블로그) https://www.blog.data101.io/
📍 크몽상품) https://kmong.com/gig/601647
대기업 출신) 데이터분석 / 통계분석 / 논문작성 지원 - 크몽
데이터워너원DATA101 전문가의 IT·프로그래밍 서비스를 만나보세요. <p><span style="font-size: 24px;&quo...
kmong.com
감사합니다.