Exceller's Home > 사용자 제공 자료

'무지개타고'님의 통계강좌

- 최초 작성일 : 2008-07-08
- 최종 수정일 : 2008-07-08

- 강좌 읽음수 : 3,058회
- 자료 작성자 : 무지개타고 (조석현님)

- 자료 편집자 :

강좌 제목 : 통계로 세상보기 - (65) 무한대

 

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(http://instatistics.officetutor.org/)를 운영하고 있기도 합니다. 위트와 재미가 있는 통계강좌에 빠져보시기 바랍니다.


예제 파일 내려받기


전화는 걸고, 전보는 치고, CD는 굽는다고 말한다. 그런데 분석은 왜 돌린다고 하지? 나만 그러나...(저는 두 가지로 나눕니다. '분석한다'와 '분석데이터 돌린다'로... ^^//Exceller)

엑셀의 LinEst 함수 도움말에 나오는 예제를 가지고 중회귀분석을 돌려보자.

061

그런데 회귀 모형을 어떤걸 예상하고 돌려야할까?

Y = C0 + X1 + X2 + X3 + X4

예제의 경우 독립변수 4개 모두를 이용했다. 자료가 11개 인데, 변수를 4개나 사용한다? 좀 그렇다. 그래서 예상되는 변수의 조합을 모두 구해보았다.

062

참고로 위에서 'C0'는 상수항으로, 기본으로 하겠다. 그리고 결정계수는 클수록, MSE(오차평균제곱)가 작을수록 회귀 모형이 적합하다. 위에서 구한 결정계수와 MSE에 대해 각각 순위로 나열하면...

063 064

결정계수는 8위와 9위 사이에서 레벨 업(?)을 단행했다. 그리고 순위 1~3위에서 결정계수의 증가세는 정체되고 있다. 그리고 MSE는 결정계수에 반비례하여 나타나고 있다.

이번에는 모형에 적용한 독립변수의 수에 따라 최대 결정계수와 최소 MSE를 정리하면...

065 
066

독립변수를 3개 이용할 때와 4개를 이용할 때 간에 결정계수의 차이는 상대적으로 그리 커 보이지 않는다. 그에 반해 2개를 이용할 때와 3개를 이용할 때 간에 차이는 상대적으로 커 보인다. 즉 독립변수의 수가 3개 정도가 되면 결정계수의 증가세는 정체되는 모습을 보인다.

자 그럼 결정을 하자. (뭘?)
어떤 회귀 모형을 선택할지를... (그냥 결정계수 높은 걸 선택하는거 아니야?)

라고 얘기할 수도 있겠지만, 모수 절약의 원칙을 떠나 앞서 말했듯이 자료가 11개인데 모수가 4개나 된다는 건 효율적이지 않아 보인다(물론 F검정, T검정 거치고 잔차도 살피고 해야 하지만 여기선 논외로 한다). 그래서 어떤 모형을 선택할지를 고민해야 된다(결정계수 외에도 평가하는 항목들이 더 있는데, 복잡하고 잊은 지도 오래다).

그럼 왜 결정계수가 큰 걸 선택하지 않는 걸까? 큰걸 선택하지 않는 게 아니라, 효율적인 모형을 선택하는 것이다. 여기서 효율이란 많은 의미가 포함되겠지만, 통계로만 본다면 적은 수의 독립변수로 많은 변동을 설명할 수 있다면 굳이 더 큰 결정계수를 좇을 필요는 없다. 그래서 결정계수의 증가세가 정체되는 포인트가 최적이 된다.

Y = C0 + X1 + X2 +  X4

물론 독립변수가 2개 일때도 결정계수가 0.9를 넘으니 부적합한 모형이라고 말할 수 없다. 그렇다면 다른 누구는 이를 선택할 수도 있다.

Y = C0 + X2 +  X4

즉 회귀 모형이 유의미하다면 어떤 모형도 선택할 수 있는 것이다. 누가? 분석자가!

그럼 만약에 X1의 제곱항을 이용한다면 또는 X3의 삼제곱항을 이용한다면 어떨까? 이미 적합한 모형을 구했는데, 왜 또 해야 하는데? 혹시 알아. 위의 모형 보다 좀더 적합한 모형이 나올지~~~ 그래서 모형을 적합시키는 것은 무한대의 노력이 요구된다.

우스개 얘기가 떠오른다. 원가는 신도 모른다...


Previous

Next

Copyright ⓒ Since 2008 아이엑셀러 닷컴. All rights reserved.

이 페이지의 저작권은 컨텐츠 제공자에게 있습니다.

본 강좌의 내용은 필자 개인의 견해이며, 아이엑셀러 닷컴의 공식 견해와 일치하지 않을 수도 있습니다.