Exceller's Home > 사용자 제공 자료

'무지개타고'님의 통계강좌

- 최초 작성일 : 2008-05-07
- 최종 수정일 : 2008-05-07

- 강좌 읽음수 : 4,671회
- 자료 작성자 : 무지개타고 (조석현님)

- 자료 편집자 : Exceller (권현욱, exceller@amorepacific.com)

강좌 제목 : 통계로 세상보기 - (55) 얼렁뚱땅 순위 구하기

 

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(http://instatistics.officetutor.org/)를 운영하고 있기도 합니다. 위트와 재미가 있는 통계강좌에 빠져보시기 바랍니다.


예제 파일 내려받기


관찰값, 점수 등을 가지고 일정 기준보다 큰가 작은가를 구분하는 것을 절대평가라 한다면, 순위는 상대평가가 된다. 상대평가란 이것과 저것, 넘과 나를 비교하는 것이라 그리 마음에 들지는 않지만 비교가 필요할 때가 더러 있다.

01

과목별 중요도가 동일할 때 합을 이용해 순위를 구하려는데 동점이 여럿 보인다. 참고로 원론적인 이야기이지만 순위를 구할 때는 기준이 있어야 한다. 합을 기준으로 순위를 구할 것인지 또는 특정 분야 점수를 이용해 순위를 구할 것인지 그도 아니라면 분야별 중요도를 어떻게 달리 부여해 순위를 구할 것인지 등등. 그리고 점수도 점수지만 누가 높고 낮은지를 구분하는 변별력을 갖춘 기준이 있어야 한다. 아무튼 평균, 가중평균을 이용해 순위를 구하면,

02

참고로 가중평균은 각각의 과목별 점수에 해당 가중치를 곱해 구했다. 만약에 각각의 중요도가 같다면 가중평균은 평균과 같아진다. 그리고 위에서 평균을 이용해 순위를 구할 때, 평균이 같은 경우 중요도 순서로 순위를 처리한 결과다. 그 결과 각 과목별 순위가 1,2위만 제외하고 모두 동일한 것을 볼 수 있다(여기선 합과 평균이 동격이다). 보통 이런 식으로 순위를 구하는데, 좀 엉뚱한 방식으로 순위를 구해볼까 한다.

03

과목별 변동계수를 보면 수학 < 국어 < 체육 순으로 변동계수가 커진다. 이를 통해 수학 점수가 상대적으로 밀집되어 있다는 것을 알 수 있다. 그리고 체육 점수가 상대적으로 넓게 퍼져 있다는 것도 알 수 있다.

06

만약에 과목별 점수 분포가 정규분포를 따른다면 위의 그림처럼 나타나게 되는데, 다른 과목에 비해 수학을 넘들보다 조금만 더 잘 받는다면 순위가 높을 가능성이 높다. 왜냐하면 수학 점수가 높은 학생이 적기 때문이다. 이는 수학이 변별력을 갖춘 과목이라는 얘기가 된다(물론 다른 과목이 적어도 평균은 유지한다는 가정하에 말이다).

그런데 문제는, 애석하게도 이 상태만으로는 계량화해 나타낼 수 없다는 것. 즉 순위를 구하기 위한 객관적 수치가 있어야 한다. 이에 공통된 기준으로 각 과목별 점수를 변환할 필요성이 생긴다.

04

위의 수식과 같이 변환된 Z를 통계에서는 '표준화한 변수'라 한다. 이렇게 표준화를 시켜주면 뭐가 달라지는데? 평균과 분산이 바뀐다. 0과 1이라는 기억하기 아주 쉬운 값으로...(만약에 점수(X)의 분포가 정규분포를 따른다면 Z의 분포는 표준정규분포가 된다)

05

참고로 엑셀에서는 표준화 계산을 위해 Standardize 라는 함수를 제공하고 있다. 표준화 결과 각각의 과목들은 동일한 평균과 분산을 갖게 되었다. 그래서 동일한 기준으로 비교할 수 있게 되는 것이다(위 그림에서 과목별 X축 값이 변경되는 것이라 이해하면 쉽다).

07

평균과 가중평균은 중요도를 반영한 순위이고, 표준화는 앞서 구한 과목별 표준화 값의 계를 이용한 순위이다. 그랬을 때 제리에 경우, 수학이 높게 평가되어 부진한 체육 점수를 만회하고도 남아 넘버 투에까지 오르게 된다. 그에 비해 톰은 낮게 평가된 국어가 높은 수학 점수를 까먹어, 합은 같아도 언제나처럼 제리에게 당하는 슬픈 악역이 된다.

이렇게 각각의 점수별로 표준화된 값을 구하게 되면 상대적 위치를 계량화하기 쉬워지고, 비교의 기준을 통일할 수 있다. 그리고 각각의 과목별 점수가 똑같지 않는 한, 동순위 발생 가능성은 매우 낮다고 하겠다.

그럼 이번엔 표준화 순위는 변경 없이, 과목별 중요도를 조정해 평균과 가중평균의 순위를 각각 구해보면...

08

중요도를 조정해보니 가중평균 순위와 표준화 순위가 조금 비슷해 보이는데, 가중평균 순위를 표준화 순위에 맞추기 위해 엑셀의 해 찾기 기능을 활용해 보면...

09

그 결과 중요도는 변동계수의 역순이라는 것을 볼 수 있다. 물론 중요도와 변동계수는 다른 의미이고 또한 변별력과 표준화는 목적이 다르다. 단지 기준이 미설정된 상태에서 순위를 구할 때 이런 방법은 어떨까 해서 생각해 본 것 뿐...


Previous

Next

Copyright ⓒ Since 2008 아이엑셀러 닷컴. All rights reserved.

이 페이지의 저작권은 컨텐츠 제공자에게 있습니다.

본 강좌의 내용은 필자 개인의 견해이며, 아이엑셀러 닷컴의 공식 견해와 일치하지 않을 수도 있습니다.