HOME > 사용자 제공 자료

'무지개타고'님의 통계강좌

- 최초 작성일 : 2008-09-10
- 최종 수정일 : 2008-09-10

- 강좌 읽음수 : 3,085회
- 자료 작성자 : 무지개타고 (조석현님)

- 자료 편집자 :

강좌 제목 : 통계로 세상보기 - (80) 이게 그건가 - 두번째

 

'무지개 타고'님의 통계 강좌를 시작한 지도 1년이 넘었군요. 우리 주변의 친숙한 주제를 통계와 접목하여 좋은 강의를 하고 계시는 무지개 타고(조석현)님께 다시 한번 감사드립니다. '통계로 세상보기' 블로그에 들르셔서 감사의 인사를 남기는 센스를 발휘하셔도 좋겠지요? ^^

통계로 세상보기 블로그


예제 파일 내려받기


지난번에는 어느 한쪽에 대해서만 익히 알고 있을 때를 가정했는데, 이번엔 양쪽 모두를 알고 있을 때를 생각해보자.

11

그리고 해당 지역별 산 높이는 정규분포를 각각 따른다고 하자.

12

만약 임의의 산에 높이를 알고 있을 때, 그 산이 어느 지역에 위치하는 산인지를 구분하고자 한다면? 그러기 위해선 38선이 하나 필요하다. 기준으로 삼을... 그래서 그 기준 보다 낮다면 수도권, 높다면 강원권으로 구분하면 될 것 같다. 그렇다면 그 기준을 어떻게 잡나?(잘... -_-;;)

간단히 생각해보자. 먼저 만만하게 평균이라고, 두 집단의 평균의 평균은 어떨까? 그래서 그 평균보다 낮으냐 높으냐를 기준으로 삼는 것이다.

13

아니면 두 분포의 교점을 이용하는 것은 또 어떨까? 그래서 그 교점보다 낮으냐 높으냐를 기준으로 삼는 것이다.

14

음... 이렇게 쉽게 될 리 없다. 문제가 있다. 두 집단의 분산이 같다면 평균의 평균 또는 교점을 이용할 수 있지만 분산이 서로 다르다면 아니된다. 분산이 다르다, 분산이 다르다... 다르다 다르다... 그럼 같게 만들면 되지! 표준화를 시키자. 그러면 표준화된 변수는 평균이 0, 분산이 1인 정규분포를 각각 따르게 된다.

04 

그리고 그때의 교점을 찾으면 될 것 같다. 여기서 교점이란 각각의 집단에 포함될 누적확률이 같은 지점이다.

15

그럼 그 교점은 어떻게 찾나가 문제인데... 엑셀의 해찾기 기능으로도 어느 정도 가능하다.

16

G11 셀:

=NORMSDIST(STANDARDIZE(C9,C$4,C$5))-(1-NORMSDIST(STANDARDIZE(C9,D$4,D$5)))

이 결과 두 집단의 누적확률은 동일하게 된다.

17

계산된 기준(760.9m)에 따르면 북한산(836m)은 강원권에 위치한 산으로 구분짓게 된다. 그러나 이는 익히 알고 있는 정보와 다르다. 그렇다면 잘못 판단할 확률은,

=1-NORMDIST(C9,C$4,C$5,TRUE) 또는 =NORMDIST(C9,D$4,D$5,TRUE)

그래서 기준 설정시 유효적절한 변수를 참고해야 한다. 참고한 변수가 흐리멍텅(?)하다면 기준도 덩달아 흐리멍텅해지게 된다. 이처럼 기존에 알려진 정보를 이용해 미지의 자료를 구분 짓는 방법을 통계에서는 판별분석(Discriminant Analysis)이라 하는데, 여기선 간단히 그리고 대충 보였지만, 다변량분석인 만큼 변수가 k개 일 때 이용하는지라 조금(?) 복잡하다.

복잡한 이유는 전적으로 아둔한 내 머리 탓이다.


Previous

Next

Copyright ⓒ Since 2008 아이엑셀러 닷컴. All rights reserved.

이 페이지의 저작권은 컨텐츠 제공자에게 있습니다.

본 강좌의 내용은 필자 개인의 견해이며, 아이엑셀러 닷컴의 공식 견해와 일치하지 않을 수도 있습니다.