대푯값과 평균, 중앙값, 최빈값

2012. 8. 24. 12:30

UN 알죠? 국제연합이라는 기구에요. 여기에는 여러 나라가 가입되어 있어요. UN에서 회의하는데 전 세계에 있는 사람들이 모두 모일 수는 없죠? 그래서 나라마다 1명씩만 나와서 회의를 합니다. 우리나라에서도 한 명이 가겠죠?

이때 우리나라에서 가는 그 한 명을 대한민국 대표라고 하지요? 대표는 어떤 집단의 특징을 잘 나타내야 해요. 우리나라 대표로 가는데 일본사람이나 중국사람이 가면 안 되잖아요.

여러 개의 자료가 있을 때, 자료 전체의 특징을 대표적으로 나타내는 걸 뭐라고 하는 지, 그 종류에는 어떤 게 있는지, 어떻게 구하는지 알아보죠.

대푯값

대푯값은 위에서 설명한 것처럼 전체의 특징을 대표적으로 나타내는 값이에요. 1학년 때 도수분포표, 변량, 계급, 계급값, 도수에서 공부했던 계급값은 그 계급을 대표하는 대푯값이에요.

계급값 말고도 잘 아는 게 바로 평균이에요. 처음으로 듣게 되는 대푯값으로는 중앙값과 최빈값이 있어요.

평균

평균은 변량 전체의 합을 변량의 총 개수로 나눈 값을 말해요. 평균 구하는 법은 이미 알 테고, 도수분포표에서의 평균 구하기에서 했던 내용은 기억이 나지 않을 수도 있으니 미리 한 번 봐두세요. 도수분포표에서 평균 구하는 건 나중에 또 나오니까 꼭 알고 있어야 해요.

평균

중앙값

중앙값은 이름 그대로 가운데 있는 값이에요. 영어로는 median이라고 하죠. 중앙값을 구하기 전에는 변량들을 작은 값부터 크기 순서대로 나열해야 해요. 그런 다음에 가운데 순서에 있는 값을 구하는 거죠.

3, 6, 9, 2, 4, 5, 8이라는 자료가 있어요. 여기에서 중앙값을 구해볼까요?

중앙값을 구하기 전에는 자료들을 순서대로 나열해야 해요. 2, 3, 4, 5, 6, 8, 9로 나열할 수 있어요. 자료의 개수가 7개고, 순서상으로 한가운데 있는 값은 네 번째 있는 5네요. 그래서 중앙값은 5예요.

자료의 개수(n)가 홀수개면 번째 값이 중앙값이에요. 위에서는 자료의 개수가 7개니까 (7 + 1) ÷ 2 = 4여서 네 번째 값이 중앙값인 거죠.

자료의 개수(n)가 짝수개면 번째 값의 평균이 중앙값이에요.

10, 30, 40, 20, 60, 70, 90, 80이라는 자료가 있어요. 크기가 작은 순서대로 나열해보면, 10, 20, 30, 40, 60, 70, 80, 90이에요. 총 8개의 자료가 있는데, 한가운데 값은 4, 5번째 수가 되겠죠? 그러면 값이 두 개인데, 이 두 개를 평균 낸 것이 자료의 중앙값이에요. 네 번째 순서에 있는 40과 다섯 번째 순서에 있는 60의 평균인 50이 중앙값입니다.

중앙값
전체 자료의 개수(n)가 홀수일 때 → 째 값
전체 자료의 개수(n)가 짝수일 때 → 째 값들의 평균

최빈값

최빈값은 변량 중에서 도수가 가장 큰 값이에요.

100, 200, 300, 400, 400, 500, 500, 500이라는 자료가 있다고 해보죠. 100, 200, 300은 개수가 하나씩 있죠? 도수가 모두 1이에요. 400은 두 개고, 500은 세 개가 있어요. 400은 도수가 2고, 500은 도수가 3이에요. 여기서는 도수가 3으로 가장 큰 500이 최빈값이에요.

그럼 만약에 100, 100, 200, 200, 300, 300처럼 모든 변량의 도수가 2인 경우에는 어떤 값이 최빈값일까요? 도수가 가장 큰 것도 2고 가장 작은 것도 2잖아요. 이처럼 변량의 도수가 모두 같으면 최빈값은 없어요.

또 100, 200, 200, 300, 300에서는 200과 300이 도수가 2로 같아요. 100은 도수가 1이니까 위처럼 모든 변량의 도수가 같은 경우는 아니지요. 그런데 이렇게 도수가 같은 변량이 여러 개 있을 때는 모두가 다 최빈값이라고 할 수 있어요. 따라서 이 경우의 최빈값은 200과 300입니다.

최빈값: 변량 중에서 도수가 가장 큰 값
변량의 도수가 모두 같으면 최빈값은 없다.
변량의 도수가 가장 큰 값이 여러 개이면 최빈값은 2개 이상일 수도 있다.

평균, 중앙값, 최빈값의 장단점

대푯값에서 평균과 중앙값, 최빈값을 알아봤는데, 각각이 어떤 장단점이 있는지 알아야겠죠? 어떤 자료들의 특징을 대표할 때 어떤 값을 사용하는 것이 대표성을 가장 잘 나타내는지 말이에요.

평균은 모든 자료의 값을 다 이용한다는 장점이 있어요.

중앙값은 1, 1, 1, 2, 2, 2, 100처럼 자료의 값 중 어느 하나가 너무 크거나 너무 작을 때 자료의 특징을 잘 대표할 수 있어요.

최빈값은 가장 많이 발생하는 값을 구할 때 유용하고, 특히 자료가 숫자가 아니어도 사용할 수 있지요. 대신 최빈값은 없을 수도 있고, 2개 이상일 수도 있다는 단점이 있어요.

다음 자료의 평균, 중앙값, 최빈값을 구하여라.
19, 20, 21, 19, 26

평균 = (19 + 20 + 21 + 19 + 26) ÷ 5 = 21

중앙값을 구하기 위해서 작은 거부터 순서대로 써보죠. 19, 19, 20, 21, 26이네요. 전체 자료의 수가 5로 홀수 개니까 (n + 1) ÷ 2 = 3번째 값인 20이 중앙값입니다.

최빈값은 도수가 가장 높은 값이에요. 19의 도수는 2, 나머지 20, 21, 26의 도수는 1이니까 도수가 2인 19가 모두 최빈값이라고 할 수 있겠네요.

대푯값과 평균, 중앙값, 최빈값

대푯값

평균

중앙값

최빈값

평균, 중앙값, 최빈값의 장단점

함께 보면 좋은 글

티스토리툴바