Exceller's Home > 사용자 제공 자료

'무지개타고'님의 통계강좌

- 최초 작성일 : 2007-10-23
- 최종 수정일 : 2007-10-23

- 강좌 읽음수 : 3,376회
- 자료 작성자 : 무지개타고

- 자료 편집자 : Exceller (권현욱, exceller@amorepacific.com)

강좌 제목 : 통계로 세상보기 - (23) 이게 그건가?

 

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(http://instatistics.officetutor.org/)를 운영하고 있기도 합니다. 위트와 재미가 있는 통계강좌에 빠져보시기 바랍니다.


예제 파일 내려받기


전국에 있는 산 중에서 수도권과 강원도 두 지역만 간단히 비교해보자.

01

해당 지역 산에 대한 히스토그램인데 뭔가가 어색하다. 어색하다는 표현보다는 차이가 느껴진다고 하는게 좀더 적절할 것 같다. 왜냐하면... 900m 이하에서는 수도권 산이 많고, 900m 초과에서는 강원도 산이 많아서다.

여기서 상상력이 아닌 상상을 해보자. 만약에 300m 되는 산이 하나 있다고 치자. 그럼 이 산은 두 지역 중 어느 지역에 위치하고 있는 산일까? 아마도 수도권에 위치할 가능성이 높다고 할 수 있겠다.

그럼 500m 되는 산은 어느 지역에 있는 산일까? 이도 수도권에 위치할 가능성이 높겠다.

그럼 700m 되는 산은? 조금 고민되지만 이도 수도권에 위치하지 않을까? 그래? 그럼 800m 되는 산은? 음... 어째 점점 말이 짧아지네... 아무튼 고민되는 높이다.

그럼 900m 되는 산은? 거... 말이 짧아서 말하지 않겠다.

그럼 1000m 되는 산은 두 지역 중 어느 지역에 있는 산일까? 다시 길어졌군... 강원도에 위치할 가능성이 높지 않을까 한다.

세상사 이게 문제다.
공산품의 경우는 규격 범위가 정해져 있어 어느 한계를 벗어나면 합격/불합격을 말하기 부담 없는데 반해 대부분의 경우에는 기준이 없다는 거다(물론 공산품의 규격 범위 산정시 어떤 기준을 적용할거냐는 원초적인 질문은 다시금 우리를 혼돈 속으로 몰아 넣겠지만...).

만약 산의 분포형태가 정규분포를 각각 따른다고 한다면...

02

03

두 지역의 분포가 교차하는 범위가 매우 좁다면 또는 없다면 큰 고민하지 않아도 되겠지만, 위의 그림처럼 교집합이 있다면 고민 안 할 수 없겠다.

만약 이런 그림이 나왔다면 별 고민 안해도 되겠다.

04

그러나 이게 불가능하다는 건 누구나 다 아는 얘기다. 저렇게 짝궁둥이처럼 이쁘게 나와줬으면 좋으련만 실상은 이러하다.

05

높이가 600m라면 수도권에 위치할 가능성이 높지만 그렇다고 강원도도 무시 못하겠고, 1000m 되는 산이라면 강원도에 있을 가능성이 높지만 그렇다고 수도권에 없는 것도 아니고... 즉 어떤 지역에 위치하는 산이라고 얘기해도 언제나 오류를 안고 있다는 것이다. 어느 쪽에 오류 가능성이 높냐 낮냐에 차이가 있을뿐.

만약에 수도권(H0)내 산 정보를 익히 잘 알고 있는 반면, 강원도(H1)내 산 정보에 대해서는 잘 모르고 있다고 하자. 이렇게 되면 어느 쪽에 오류 가능성이 높냐 낮냐에서 어느 쪽에 오류를 안정(?)시키느냐의 문제로 주안점이 이동된다. 그래서 어느 쪽이든 익히 잘 알고 있다는 것(H0)은 매우 중요한 거다. 그러던 중 어떤 넘이 강원도(H1) 지역에 위치할 것으로 추정되는 산을 가리키며 강원도(H1)에 있는 산이라고 우길려면 그 산에 높이는 얼마쯤 되야 할까?

통계는 이런 뚱딴지 같은 어떤 넘들을 위해 가설검정 이라는 과정을 마련해 놨다. 그리고 그때 유의수준이란게 사용된다(어느 쪽으로 결정을 하든 오류가 발생되는데, 가급적 제1종오류에 주안점을 두는 개념이다).

06

유의수준이란 위 그림에서 alpa 영역(확률)을 가리키는데, 임의의 산 높이가 alpa 영역의 시작점(기각역) 이상에 위치한다면 수도권(H0)에 있는 산은 아니라고 말하는 기준이 된다. 그리고 나 같은 어중이떠중이가 사기치기 위해 기준을 몇대로 정하는 것을 방지하기 위해 통상 유의수준은 0.1, 0.05, 0.01 크게 세가지를 사용한다. 그리고 0.05를 아주 애용한다(그런데 왜 0.1, 0.05, 0.01를 주로 이용하게 됐는지는 잘 모르겠다. 모의실험을 통해 제2종 오류와의 관계도 고려해 결정되지 않았을까 하는 게으른 추정만 할 뿐...).

유의수준이 작을수록 왠만하면 수도권(H0)에 위치한 산으로 보겠다는 것이므로, 매우 높지 않다면 강원도(H1)에 위치한 산이라 말하기는 점점 어려워진다. 아무튼 계산해보니 유의수준 0.05에서 960m(기각역)는 되야 수도권(H0)에 위치하지 않는다고 할 수 있고, 유의수준 0.01에서는 1120m는 넘어야 수도권(H0)에 위치하지 않는다고 할 수 있다(H0기각).

말장난 같지만, 그렇다고 강원도(H1)에 위치한 산이 맞다는건 아니다. 수도권(H0)과 강원도(H1) 두 가지만 고려한건 맞지만, 수도권(H0)에 대해서는 익히 알고 있으나 강원도(H1)에 대해서는 많이 알지 못하다 보니 안정성이 담보되지 않기 때문이다. 그리고 만에 하나 경상도(H1)를 강원도((H1)로 잘못 알고 있을 수도 있지 않은가(그래서 "H0 기각"이라 하지, "H1 채택"이라 하지 않는다).

그렇지만 논리적으로 배반사건인 두 사건에서 하나가 거짓이라고 했으므로 나머지 다른 하나가  참이 될 수 밖에 없는 상황이 된 것 뿐이다(이 오묘함은 아직도 잘 모르겠다).


Previous

Next

ⓒ Since 2007 Exceller Corporation. All rights reserved.

이 페이지의 저작권은 컨텐츠 제공자에게 있습니다.