대푯값에 대해서 알아봤어요. 평균, 중앙값, 최빈값이 있었죠? 대푯값은 말 그대로 변량들의 특징을 대표적으로 나타낼 수 있는 값이에요.

그런데 이번에는 자료의 대표적인 특징이 아니라 자료가 어떻게 분포되어 있는지 알고 싶어요. 대푯값으로는 알 수가 없거든요.

그래서 자료의 분포를 쉽게 알아볼 수 있는 값을 구해야 하는데 그게 바로 산포도입니다.

산포도

산포도는 자료가 흩어져 있는 정도를 하나의 수로 나타낸 값이에요. 산포는 분포랑 비슷한 뜻이에요.

산포도도 대푯값처럼 딱 하나만 있는 게 아니라 여러 가지 종류가 있어요. 그중에서도 분산표준편차가 가장 많이 쓰이는데, 이것에 대해서는 다음 글 분산과 표준편차에서 자세히 설명할게요.

산포도는 평균에 얼마나 가까이 있느냐, 평균에서 얼마나 멀리 있느냐를 통해서 자료가 흩어진 정도를 알아보는 방법이에요. 따라서 평균을 제일 먼저 구해야 해요. 자료의 변량이 평균에 가까이 있으면 "산포도가 작다"고 하고, 평균에서 멀리 떨어져 있으면 "산포도가 크다"고 해요.

편차

산포도는 평균에서 얼마나 떨어져 있느냐가 중요하잖아요. 평균에서 얼마나 떨어져 있느냐를 값으로 나타낸 게 편차이에요. 편차는 아래 공식으로 구해요.

변량이 평균보다 크면 편차 > 0이고, 변량이 평균보다 작으면 편차 < 0이 돼요.

편차의 부호와 상관없이 편차의 절댓값이 작을수록 평균에 가까이 있고, 절댓값이 클수록 평균에서 멀리 떨어져 있는 거죠.

또 하나 기억해야 할 게 편차의 합 = 0이에요.

90, x, 85, 95, 100의 다섯 숫자의 평균이 90일 때 x와 그 편차를 구하여라.

평균 90은 다섯 수를 모두 더해서 5로 나눈 값이죠? 그 과정을 거꾸로 하면 x를 구할 수 있어요.

(90 + x + 85 + 95 + 100) ÷ 5 = 90
90 + x + 85 + 95 + 100 = 450
x = 80

x = 80이에요. 편차 = 변량 - 평균이므로 x의 편차는 80 - 90 = -10이 되네요.

함께 보면 좋은 글

대푯값과 평균, 중앙값, 최빈값
분산과 표준편차
도수분포표에서의 분산과 표준편차

정리해볼까요

산포도: 자료가 흩어져 있는 정도를 수치로 나타낸 값

편차 = 변량 - 평균