평균

이번에는 도수분포표를 보고 분산과 표준편차를 구하는 방법이에요. 분산과 표준편차에서 얘기한 것처럼 표준편차를 구하려면, 평균 → 편차 → 분산 → 표준편차의 순서대로 구해야 해요.

그런데 도수분포표에서 평균 구하는 방법은 일반적인 평균구하는 방법과 달랐죠? 도수분포표에서의 평균 구하기에서 했던 방법으로 평균을 먼저 구해야 해요. 미리 확인하세요.

이 글에서는 1학년 때 배웠던 도수분포표 관련 내용과 앞에서 배운 산포도의 내용이 모두 총망라돼서 나와요. 산포도 구하는 방법과 공식을 꼭 기억하고 있어야 해요.

도수분포표에서 분산과 표준편차 구하기

도수분포표에서 분산과 표준편차를 구할 때 가장 중요한 것은 도수예요. 일반적인 변량들로 된 자료에서는 각각의 값들을 정확하게 알 수 있어요. 하지만 도수분포표는 정확한 값을 알 수 없기 때문에 계급값을 이용하죠. 그리고 계급값을 이용하여 얻은 값들은 도수가 포함되지 않은 값들이에요. 따라서 값에 도수를 곱해줘야 우리가 원하는 걸 얻을 수 있어요.

뭔 말인지 모르겠죠? 실제로 구해보면서 정리해보죠. 아래같은 도수분포표가 있다고 해볼까요?

도수분포표
점수(점) 학생 수(명)
60 이상 ~ 70 미만 1
70 ~ 80 3
80 ~ 90 11
90 ~ 100 5
합계 20

평균 → 편차 → 분산 → 표준편차를 구해야 해요.

분산과 표준편차를 구할 때는 아래처럼 표를 이용해서 구하는 게 알아보기 쉽고 편해요.

도수분포표에서 분산과 표준편차 구하기
점수 (점) 학생 수 (명) 계급값 계급값 × 도수 편차 (편차)2 × 도수
60이상 ~ 70미만 1 65 65 × 1 = 65 65 - 85 = -20 (-20)2 × 1 = 400
70 ~ 80 3 75 75 × 3 = 225 75 - 85 = -10 (-10)2 × 3 = 300
80 ~ 90 11 85 85 × 11 = 935 85 - 85 = 0 (0)2 × 11 = 0
90 ~ 100 5 95 95 × 5 = 475 95 - 85 = 10 (10)2 × 5 = 500
합계 20 65 + 225 + 935 + 475 = 1700 400 + 300 + 0 + 500 = 1200
평균 1700 ÷ 20 = 85 1200 ÷ 20 = 60
  1. 계급값은 각 구간의 양 끝값을 더해서 2로 나눈 값이죠? 도수분포표, 변량, 계급, 계급값, 도수에서 계급값 구하는 방법도 해봤어요. 계급값을 이용해서 평균을 구했더니 85가 나왔네요.
  2. 평균을 구한 다음에는 편차를 구해야 해요. 편차 구하는 공식의 변량 자리에 계급값을 넣어주세요.
  3. 편차를 구한 다음에는 분산을 구해야 하는데요. 분산은 편차의 제곱의 평균이라고 했어요. 그런데 도수분포표에서는 편차 제곱에 도수를 구한 것들의 평균이에요. 편차의 제곱에 도수를 꼭 곱해줘야 해요.

    일반적인 변량이었다면 각각 편차를 구해서 더했을 텐데, 도수분포표에서는 각각의 편차를 구할 수 없기때문에 대표인 계급값을 이용했던 거거든요. 그런데 같은 계급값을 갖는 변량이 도수의 개수만큼 있잖아요. 특정한 계급값을 대표로 갖는 도수의 개수만큼을 곱해줘야 해당 계급의 변량들의 값을 모두 더한 게 되는 거죠.

    편차의 합은 0이라고 했는데, 위 도수분포표에서 편차의 합은 0이 아니에요. 대신 편차에 도수를 곱해서 더하면 0이 되는 겁니다.
    각 계급의 (편차)2 × 도수를 구한 다음에 도수의 총합으로 나누면 그게 바로 분산입니다. 분산이 60이 나왔네요.
  4. 마지막으로 표준편차는 분산에 제곱근을 씌운 거니까 가 되네요.

함께 보면 좋은 글

대푯값과 평균, 중앙값, 최빈값
산포도와 편차
분산과 표준편차
[중등수학/중1 수학] - 도수분포표, 변량, 계급, 계급값, 도수
[중등수학/중1 수학] - 도수분포표 만드는 법
[중등수학/중1 수학] - 도수분포표에서의 평균구하기

정리해볼까요

도수분포표에서의 표준편차 구하기

  • 표준편차 구하는 순서: 평균 → 편차 → 분산 → 표준편차
  • 평균 = {(계급값) × (도수)}의 총합 ÷ (도수의 총합)
  • 편차 = 계급값 - 평균
  • 분산 = {(편차)2 × 도수}의 총합 ÷ (도수의 총합)
  • 표준편차 = 분산의 음이 아닌 제곱근
 
그리드형

분산과 표준편차

2012. 8. 26. 12:30

산포도에 대해서 알아보고 있어요. 산포도에서 가장 많이 쓰이는 게 이번 글에서 다룰 분산표준편차에요.

한 번의 계산으로 구해지는 게 아니라 여러 단계를 거쳐서 구해야 하는 조금은 귀찮고 까다로울 수 있는 내용이에요. 반대로 단계별 순서만 기억하면 계산은 어렵지 않아서 쉽게 구할 수 있어요.

산포도와 편차에서 바로 이어지는 내용이니까 미리 읽어두세요. 분산과 표준편차의 뜻과 구하는 방법에 대해서 알아보죠.

분산

편차는 음수와 0, 양수가 섞여 있어요. 다 더하면 0이고, 평균도 0이 되지요. 따라서 편차의 평균으로는 산포도를 알 수 없어요.

새로운 뭔가가 필요해서 음수 없이 양수만 나오게 하려고 편차를 제곱하는 방법을 이용합니다. 이 편차 제곱의 평균을 이용해서 산포도를 구하게 된 거죠.

분산은 편차 제곱의 평균이에요. 제곱의 평균이니까 일단 편차를 전부 다 제곱해서 더한 다음 편차(변량)의 개수로 나누어야겠죠?

표준편차

분산을 구했더니 이게 제곱한 값들의 평균이라서 값이 너무 커질 때가 있어요. 제곱한 거니까 원래대로 돌려주려면 어떻게 해야하나요? 제곱근을 씌우면 되죠?

표준편차는 분산에 제곱근을 씌운 거예요. 제곱근을 씌웠으니까 양수인데요. 0이 될수도 있어요. 즉, 분산의 음이 아닌 제곱근을 말해요.

표준편차를 구하는 순서는 조금 복잡하네요.


표준편차 구하는 순서: 변량의 평균 → 편차 → 분산 → 표준편차

결국 표준편차를 구하려면 평균과 편차, 분산을 모두 구해야 해요.

19, 20, 21, 19, 26의 표준편차를 구하여라.

표준편차를 구하라고 했어요. 위해서 했던 것처럼 표준편차를 구하려면 평균 → 편차 → 분산 → 표준편차의 순서대로 구해야 해요. 순서대로 구해보죠. 표를 이용해서 구해볼까요?

표준편차 구하기
합계 평균
변량 19 20 21 19 26 105 21
편차 -2 -1 0 -2 5 0 0
(편차)² 4 1 0 4 25 34 6.8

① 평균 = (19 + 20 + 21 + 19 + 26) ÷ 5 = 21이네요.

② (편차) = (변량) - (평균)으로 구할 수 있고요.

③ 분산은 (편차)²의 평균이니까 각각의 제곱을 구해서 더해야겠죠. 그다음 평균을 구했더니 6.8이 나왔어요.

이제 문제에서 구하려고 하는 표준편차를 구할 차례인데, 표준편차는 분산에 제곱근을 씌운 거에요. 따라서 이 되네요.

자료의 분산과 표준편차가 크면 클수록 그 자료는 평균을 중심으로 멀리 흩어져있다고 할 수 있죠. 분산과 표준편차는 산포도의 한 종류니까요. 단순히 분산과 표준편차를 구하는 것에 그치지 말고, 그 수치가 어떤 의미를 가졌는지도 알아야 해요.

함께 보면 좋은 글

대푯값과 평균, 중앙값, 최빈값
산포도와 편차
도수분포표에서의 분산과 표준편차

정리해볼까요

표준편차: 분산의 음이 아닌 제곱근.

 
그리드형

산포도와 편차

2012. 8. 25. 12:30

대푯값에 대해서 알아봤어요. 평균, 중앙값, 최빈값이 있었죠? 대푯값은 말 그대로 변량들의 특징을 대표적으로 나타낼 수 있는 값이에요.

그런데 이번에는 자료의 대표적인 특징이 아니라 자료가 어떻게 분포되어 있는지 알고 싶어요. 대푯값으로는 알 수가 없거든요.

그래서 자료의 분포를 쉽게 알아볼 수 있는 값을 구해야 하는데 그게 바로 산포도입니다.

산포도

산포도는 자료가 흩어져 있는 정도를 하나의 수로 나타낸 값이에요. 산포는 분포랑 비슷한 뜻이에요.

산포도도 대푯값처럼 딱 하나만 있는 게 아니라 여러 가지 종류가 있어요. 그중에서도 분산표준편차가 가장 많이 쓰이는데, 이것에 대해서는 다음 글 분산과 표준편차에서 자세히 설명할게요.

산포도는 평균에 얼마나 가까이 있느냐, 평균에서 얼마나 멀리 있느냐를 통해서 자료가 흩어진 정도를 알아보는 방법이에요. 따라서 평균을 제일 먼저 구해야 해요. 자료의 변량이 평균에 가까이 있으면 "산포도가 작다"고 하고, 평균에서 멀리 떨어져 있으면 "산포도가 크다"고 해요.

편차

산포도는 평균에서 얼마나 떨어져 있느냐가 중요하잖아요. 평균에서 얼마나 떨어져 있느냐를 값으로 나타낸 게 편차이에요. 편차는 아래 공식으로 구해요.

변량이 평균보다 크면 편차 > 0이고, 변량이 평균보다 작으면 편차 < 0이 돼요.

편차의 부호와 상관없이 편차의 절댓값이 작을수록 평균에 가까이 있고, 절댓값이 클수록 평균에서 멀리 떨어져 있는 거죠.

또 하나 기억해야 할 게 편차의 합 = 0이에요.

90, x, 85, 95, 100의 다섯 숫자의 평균이 90일 때 x와 그 편차를 구하여라.

평균 90은 다섯 수를 모두 더해서 5로 나눈 값이죠? 그 과정을 거꾸로 하면 x를 구할 수 있어요.

(90 + x + 85 + 95 + 100) ÷ 5 = 90
90 + x + 85 + 95 + 100 = 450
x = 80

x = 80이에요. 편차 = 변량 - 평균이므로 x의 편차는 80 - 90 = -10이 되네요.

함께 보면 좋은 글

대푯값과 평균, 중앙값, 최빈값
분산과 표준편차
도수분포표에서의 분산과 표준편차

정리해볼까요

산포도: 자료가 흩어져 있는 정도를 수치로 나타낸 값

편차 = 변량 - 평균

 
그리드형

UN 알죠? 국제연합이라는 기구에요. 여기에는 여러 나라가 가입되어 있어요. UN에서 회의하는데 전 세계에 있는 사람들이 모두 모일 수는 없죠? 그래서 나라마다 1명씩만 나와서 회의를 합니다. 우리나라에서도 한 명이 가겠죠?

이때 우리나라에서 가는 그 한 명을 대한민국 대표라고 하지요? 대표는 어떤 집단의 특징을 잘 나타내야 해요. 우리나라 대표로 가는데 일본사람이나 중국사람이 가면 안 되잖아요.

여러 개의 자료가 있을 때, 자료 전체의 특징을 대표적으로 나타내는 걸 뭐라고 하는 지, 그 종류에는 어떤 게 있는지, 어떻게 구하는지 알아보죠.

대푯값

대푯값은 위에서 설명한 것처럼 전체의 특징을 대표적으로 나타내는 값이에요. 1학년 때 도수분포표, 변량, 계급, 계급값, 도수에서 공부했던 계급값은 그 계급을 대표하는 대푯값이에요.

계급값 말고도 잘 아는 게 바로 평균이에요. 처음으로 듣게 되는 대푯값으로는 중앙값과 최빈값이 있어요.

평균

평균은 변량 전체의 합을 변량의 총 개수로 나눈 값을 말해요. 평균 구하는 법은 이미 알 테고, 도수분포표에서의 평균 구하기에서 했던 내용은 기억이 나지 않을 수도 있으니 미리 한 번 봐두세요. 도수분포표에서 평균 구하는 건 나중에 또 나오니까 꼭 알고 있어야 해요.

평균

중앙값

중앙값은 이름 그대로 가운데 있는 값이에요. 영어로는 median이라고 하죠. 중앙값을 구하기 전에는 변량들을 작은 값부터 크기 순서대로 나열해야 해요. 그런 다음에 가운데 순서에 있는 값을 구하는 거죠.

3, 6, 9, 2, 4, 5, 8이라는 자료가 있어요. 여기에서 중앙값을 구해볼까요?

중앙값을 구하기 전에는 자료들을 순서대로 나열해야 해요. 2, 3, 4, 5, 6, 8, 9로 나열할 수 있어요. 자료의 개수가 7개고, 순서상으로 한가운데 있는 값은 네 번째 있는 5네요. 그래서 중앙값은 5예요.

자료의 개수(n)가 홀수개면 번째 값이 중앙값이에요. 위에서는 자료의 개수가 7개니까 (7 + 1) ÷ 2 = 4여서 네 번째 값이 중앙값인 거죠.

자료의 개수(n)가 짝수개면 번째 값의 평균이 중앙값이에요.

10, 30, 40, 20, 60, 70, 90, 80이라는 자료가 있어요. 크기가 작은 순서대로 나열해보면, 10, 20, 30, 40, 60, 70, 80, 90이에요. 총 8개의 자료가 있는데, 한가운데 값은 4, 5번째 수가 되겠죠? 그러면 값이 두 개인데, 이 두 개를 평균 낸 것이 자료의 중앙값이에요. 네 번째 순서에 있는 40과 다섯 번째 순서에 있는 60의 평균인 50이 중앙값입니다.

중앙값
전체 자료의 개수(n)가 홀수일 때 → 째 값
전체 자료의 개수(n)가 짝수일 때 → 째 값들의 평균

최빈값

최빈값은 변량 중에서 도수가 가장 큰 값이에요.

100, 200, 300, 400, 400, 500, 500, 500이라는 자료가 있다고 해보죠. 100, 200, 300은 개수가 하나씩 있죠? 도수가 모두 1이에요. 400은 두 개고, 500은 세 개가 있어요. 400은 도수가 2고, 500은 도수가 3이에요. 여기서는 도수가 3으로 가장 큰 500이 최빈값이에요.

그럼 만약에 100, 100, 200, 200, 300, 300처럼 모든 변량의 도수가 2인 경우에는 어떤 값이 최빈값일까요? 도수가 가장 큰 것도 2고 가장 작은 것도 2잖아요. 이처럼 변량의 도수가 모두 같으면 최빈값은 없어요.

또 100, 200, 200, 300, 300에서는 200과 300이 도수가 2로 같아요. 100은 도수가 1이니까 위처럼 모든 변량의 도수가 같은 경우는 아니지요. 그런데 이렇게 도수가 같은 변량이 여러 개 있을 때는 모두가 다 최빈값이라고 할 수 있어요. 따라서 이 경우의 최빈값은 200과 300입니다.

최빈값: 변량 중에서 도수가 가장 큰 값
           변량의 도수가 모두 같으면 최빈값은 없다.
           변량의 도수가 가장 큰 값이 여러 개이면 최빈값은 2개 이상일 수도 있다. 

평균, 중앙값, 최빈값의 장단점

대푯값에서 평균과 중앙값, 최빈값을 알아봤는데, 각각이 어떤 장단점이 있는지 알아야겠죠? 어떤 자료들의 특징을 대표할 때 어떤 값을 사용하는 것이 대표성을 가장 잘 나타내는지 말이에요.

평균은 모든 자료의 값을 다 이용한다는 장점이 있어요.

중앙값은 1, 1, 1, 2, 2, 2, 100처럼 자료의 값 중 어느 하나가 너무 크거나 너무 작을 때 자료의 특징을 잘 대표할 수 있어요.

최빈값은 가장 많이 발생하는 값을 구할 때 유용하고, 특히 자료가 숫자가 아니어도 사용할 수 있지요. 대신 최빈값은 없을 수도 있고, 2개 이상일 수도 있다는 단점이 있어요.

다음 자료의 평균, 중앙값, 최빈값을 구하여라.
19, 20, 21, 19, 26

평균 = (19 + 20 + 21 + 19 + 26) ÷ 5 = 21

중앙값을 구하기 위해서 작은 거부터 순서대로 써보죠. 19, 19, 20, 21, 26이네요. 전체 자료의 수가 5로 홀수 개니까 (n + 1) ÷ 2 = 3번째 값인 20이 중앙값입니다.

최빈값은 도수가 가장 높은 값이에요. 19의 도수는 2, 나머지 20, 21, 26의 도수는 1이니까 도수가 2인 19가 모두 최빈값이라고 할 수 있겠네요.

함께 보면 좋은 글

산포도와 편차
분산과 표준편차
도수분포표에서의 분산과 표준편차
[중등수학/중1 수학] - 도수분포표, 변량, 계급, 계급값, 도수
[중등수학/중1 수학] - 도수분포표에서의 평균구하기
[중등수학/중1 수학] - 도수분포표 만드는 법

정리해볼까요

대푯값: 자료 전체의 특징을 대표적으로 나타내는 값

  • 평균 = (변량의 총합) ÷ (변량의 개수)
            = {(계급값) × (도수)}의 총합 ÷ (도수의 총합)
  • 중앙값: 변량을 크기순으로 나열할 때, 중앙에 오는 값
    도수분포표에서는 중앙값이 속한 계급의 계급값
    자료의 수(n)가 홀수일 때 → (n + 1)/2번째 값
    자료의 수(n)가 짝수일 때 → {n/2와 (n/2 + 1)}번째 값의 평균
  • 최빈값: 각 변량 중에서 도수가 가장 큰 값
    0개 또는 2개 이상일 수도 있다.
    도수분포표에서는 도수가 가장 큰 계급의 계급값
<<    중3 수학 목차    >>
 
그리드형

도수분포표에서 사용하는 용어를 공부했고 도수분포표를 만드는 법도 공부했어요. 도수분포표에서 원하는 정보를 읽어내는 요령도 생겼지요.

이제는 도수분포표를 보고 그 표에 나와 있지 않은 정보를 유추해내는 방법을 공부할 거예요. 바로 도수분포표를 보고 변량의 평균을 구하는 거지요.

도수분포표를 이용해서 구한 평균과 실제 변량의 평균 사이에는 어떤 관계가 있는지도 알아보자고요.

평균

대푯값은 자료의 특징이나 자료 전체의 경향을 대표할 수 있는 값으로 중앙값이나 최빈값 등이 있어요. 중앙값은 계급값을 할 때 살짝 들어본 기억이 나나요? 계급값은 계급의 중앙값, 그러니까 (계급의 양 끝값의 합) ÷ 2라고 했었지요?

대푯값은 딱 하나만 있는 게 아니고 여러 개가 있어요.

평균은 대푯값 중의 하나입니다. 평균 구하는 공식은 모두 알고 있죠?

평균 구하기

도수분포표에서 평균 구하기

도수분포표에서 평균을 구할 때는 위 공식에서 오른쪽에 있는 내용을 이용해요.

도수분포표에서는 도수의 총합을 구할 수 있죠? 그런데 변량의 총합을 구할 수 없어요. 변량이 나오지 않으니까요. 그럼 평균을 구할 수 없을까요?

정확한 평균을 구할 수는 없지만 대략적인 평균을 구할 수는 있어요. 도수의 총합은 정확하게 구할 수 있지만 변량의 총합을 구할 수 없으니까 대략적인 변량의 총합을 구하는 거죠.

도수분포표에서 평균을 구할 때는 아래 순서로 해요.

  1. 각 계급의 계급값을 구한다.
    계급값은 위에서 설명한 것처럼 그 계급을 대표하는 대푯값의 한 종류에요. 정확한 값을 구할 수 없으므로 대표할 수 있는 값을 이용합니다.
  2. 각 계급의 (계급값) × (도수)를 구한다.
    대푯값인 계급값을 이용해서 계급의 대략적인 총합을 구하는 거예요. 각 계급의 도수는 도수분포표에서 바로 알 수 있죠?
  3. (계급값) × (도수)을 모두 더한다.
    계급별로 구한 (계급값) × (도수)를 모두 더하여 변량의 총합을 대신합니다.
  4. (계급값) × (도수)의 총합을 도수의 총합으로 나눈다.

도수분포표에서 평균구하기

아래는 도수분포표 만드는 법 예제에 있는 변량과 도수분포표에요. 이걸 이용해서 도수분포표에서 평균을 구해보죠.

점수(점) 학생 수(명) 계급값 계급값 × 도수
60 이상 ~ 70 미만 1 65 65 × 1 = 65
70 ~ 80 3 75 75 × 3 = 225
80 ~ 90 10 85 85 × 10 = 850
90 ~ 100 6 95 95 × 6 = 570
합계 20 65 + 225 + 850 + 570 = 1710

구하는 평균은 1710 ÷ 20 = 85.5군요.

변량을 이용해서 실제 평균을 구해볼까요? 역시 같은 예제에 있는 변량입니다.

92     88     76     90     96
72     84     82     86     74
90     86     94     88     68
82     84     86     98     84

20개의 값을 다 더한 다음에 20으로 나눠볼게요. 다 더했더니 1700이네요. 1700 ÷ 20 = 85군요.

실제로 구한 평균과 도수분포표를 이용해서 구한 평균이 다르죠? 도수분포표를 이용한 평균은 정확하진 않지만 차이가 많이 나지 않아서 변량의 분포라든가 위치 등을 파악하는데 큰 어려움은 없어요.

함께 보면 좋은 글

줄기와 잎 그림
도수분포표, 변량, 계급, 계급값, 도수
도수분포표 만드는 법
히스토그램과 히스토그램의 특징, 히스토그램 그리기
도수분포다각형, 도수분포다각형 그리는 방법

정리해볼까요

도수분포표에서 평균구하기

  1. 각 계급의 계급값을 구한다.
  2. (계급값) × (도수) 구한다.
  3. 각 계급의 (계급값) × (도수)를 모두 더한다.
  4. {(계급값) × (도수)의 총합} ÷ (도수의 총합)

도수분포표에서의 평균 = {(계급값) × (도수)의 총합} ÷ 도수의 총합

<<    중1 수학 목차    >>
 
그리드형

+ 최근글