Exceller's Home > 사용자 제공 자료

'무지개타고'님의 통계강좌

- 최초 작성일 : 2008-04-17
- 최종 수정일 : 2008-04-17

- 강좌 읽음수 : 5,221회
- 자료 작성자 : 무지개타고 (조석현님)

- 자료 편집자 : Exceller (권현욱, exceller@amorepacific.com)

강좌 제목 : 통계로 세상보기 - (49) 평균을 구하는 또다른 방법

 

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(http://instatistics.officetutor.org/)를 운영하고 있기도 합니다. 위트와 재미가 있는 통계강좌에 빠져보시기 바랍니다.


예제 파일 내려받기


이 글은 낚시성(?) 글이다. 평균을 구하는 '다른 방법'이 있는 건 아니고, 기존에 '있는 방법'이나 간혹 헷갈려 하는 분들이 있는 것 같아서 낚아봤다 ^^ (아마도 중학교 때 배운 내용이지 않을까 한다).

자료를 구하다 보면 간혹 도수분포표로 집계된 자료는 제공해도 평균은 제공하지 않는 경우가 있다. 이럴 때 엑셀을 이용해 평균을 구하는 방법을 살펴볼까 하는데... 이를 위해 자료는 이번 제18대 국회의원 선거 후보자 정보 중 재산신고액을 이용하겠다(중앙선거관리위원회 참조).

01

총 1,117명 중 재산신고액 1위를 차지한 후보자의 재산이 3조 6천억원이 넘는다고 하니 이는 이상치로 판단, 자료처리에는 미반영하도록 하겠다. 즉, 총 1,116명의 자료를 처리 대상으로 한다(300억원 이상에서 1명 제외). 그랬을 때 위 내용을 도수분포표로 재정리하여 히스토그램으로 나타내면...

02
※주의 : 해당 자료는 인용 과정에 오류가 있을 수 있습니다.

03

참고로 도수분포표를 작성 할 때, 계급구간을 동일간격으로 구성해야 되는데 자료가 한정되어 있는 관계로 그대로 인용하겠다. 그리고 대표값은 각 계급구간의 중앙에 위치하는 값이다. (산술)평균을 구할때 엑셀에서는 통상 Average 함수를 이용하면 쉽게 구할 수 있는데, 이런 경우는 Average 함수를 이용 할 수 없다. 그런데 평균을 구하는 수식이 뭐였더라... -_-

04

진짜 오랫만에 접하는 수식이다. 그런데 이 경우는 도수분포표를 이용하므로 조금 다른 수식을 이용한다. 참고로 변수(X)는 후보자의 재산이나, 원시자료가 없기 때문에 도수분포표의 대표값(m)을 이용한다는 점만 주의하면 된다.

05

위 수식을 말로 풀어보면, 각 계급구간의 대표값에 빈도를 곱하여 총 합을 구한 후 이를 총 빈도로 나눈다. 역시나 별거 아니었다(빼 먹었는데 위에 f는 각 계급구간의 빈도를 가리킨다). 그럼 엑셀에서 계산을 해보자. 우선적으로 각 계급구간의 대표값에 빈도를 곱한다.

b3*c3 하면 "-5억원 미만" 계급구간에 대한 값 구하기는 끝.
b4*c4 하면 "-1억원 미만" 계급구간에 대한 값 구하기는 끝.
b5*c5 하면 "-5천만원 미만" 계급구간에 대한 값 구하기는 끝.
....
b17*c17 하면 "300억원 이상" 계급구간에 대한 값 구하기는 끝.

이렇게 쭉~~~ 각 계급구간에 대한 값을 모두 합산한 자료를 구하면 되는데, 기특하게도 이런 계산을 도와주는 함수가 있다. Sumproduct 라고...

=Sumproduct(b3:b18,c3:c17)

이제 이 값을 총 빈도로 나누기만 하면 된다.

=Sumproduct(b3:b18,c3:c17)/sum(c3:c17)

또는 상대빈도를 이용 할 수도 있다(각 계급구간의 상대빈도는 "각 계급구간의 빈도/총 빈도" 이다).

=Sumproduct(b3:b17,d3:d17)

이랬을 때, 후보자의 평균 재산은 약 12.44억원이다. 그렇다면 진짜 평균은 얼마일까?

- 후보자 평균 재산 45억... 체납자 100명 넘어

기사에 따르면 재산 1위 후보자를 포함 할때 45.8억원이고, 재산 1위 후보자를 제외 할때는 평균 12.8억원 이라 한다. 그렇다면 1위를 제외한 12.8억원이 우리가 구하고자 한 값 되겠다. 그리고 이것을 앞서 구한 자료와 비교해보면 약 0.4억원의 차이가 발생하는데, 이는 원시자료가 아닌 도수분포표를 이용함으로써 발생되는 차이로 그 차이가 예상보다 낮아 보인다.

간단하게 도수분포표를 이용해 평균을 구해봤는데, 이용할 일이 있을지는...


Previous

Next

ⓒ Since 2008 아이엑셀러 닷컴. All rights reserved.

이 페이지의 저작권은 컨텐츠 제공자에게 있습니다.

본 강좌의 내용은 필자 개인의 견해이며, 아이엑셀러 닷컴의 공식 견해와 일치하지 않을 수도 있습니다.