• 최초 작성일: 2008-08-12
  • 최종 수정일: 2008-08-12
  • 조회수: 5,209 회
  • 작성자: 무지개타고
  • 강의 제목: '가=나'이고 '나=다'이면 반드시 '가=다'라 말할 수 있나?

엑셀러 권현욱

들어가기 전에

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀 더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(https://onrainbow.tistory.com/)를 운영하고 있기도 합니다. 특유의 위트와 재미가 있는 통계 강의에 빠져보시기 바랍니다.


  • 이 페이지의 저작권은 콘텐츠 제공자에게 있습니다.
  • 본문 내용은 필자 개인의 견해이며 아이엑셀러 닷컴 공식 의견과 일치하지 않을 수도 있습니다.

'가=나'이고 '나=다'이면, '가=다'이다. 너무나 당연한 명제라 민망할 정도다. 그런데 이것은 수학에서나 그렇다. 통계에서라면 답은... "그때 그때 달라요~"

로딩 중...

다음 예제를 보자.

로딩 중...
로딩 중...

만약 각각의 집단이 정규분포를 각각 따른다고 가정하면,

로딩 중...
로딩 중...

위의 그림처럼 가와 나, 나와 다 간에는 평균과 분산이 서로 다름에도 불구하고 겹쳐지는 부분이 상당히 넓다는 것을 알 수 있다. 그리고 각각의 T-검정 또한 유의수준 0.05에서 귀무가설을 기각할 수 없는 것으로 나왔다.

로딩 중...

그럼 '가=나'이고 '나=다'라고 통계적으로 검증됐으니 '가=다'이겠네? 가와 다를 비교해 보면 알겠지.

로딩 중...
로딩 중...

유의수준 0.05에서 귀무가설을 기각한다고 나왔다. 그러므로 '가=나'이고 '나=다'라도, '반드시 가=다'이다,라고 할 수 없다. 그런데 위의 검증 방식에는 통계적인 문제가 있다. 동시성에 문제가 생긴다.

로딩 중...

각 집단이 서로 차이가 없다고 가정한다면, 즉 단일한 분포 '전체'의 일부분이었다면 각 집단은 '전체'와 동일한 분포를 보여줘야 한다. 그러므로 '가=나=다'인가를 동시에 검증할 필요성이 생긴다.

로딩 중...

그래서 두집단일 때는 T-검정을 이용하고 다집단 일 때는 분산분석 ANOVA을 이용하는 것이다. 물론 두집단일 때에도 양측검정에 한해 분산분석을 이용할 수 있다.