HOME > 사용자 제공 자료 > 통계로 세상보기

'무지개타고'님의 통계강좌

- 최초 작성일 : 2008-11-04
- 최종 수정일 : 2008-11-04

- 강좌 읽음수 : 5,009회
- 자료 작성자 : 무지개타고 (조석현님)

- 자료 편집자 :

강좌 제목 : 통계로 세상보기 - (91) 이게 그건가 - 세번째

 

'무지개 타고'님의 통계 강좌를 시작한 지도 1년이 넘었군요. 우리 주변의 친숙한 주제를 통계와 접목하여 좋은 강의를 하고 계시는 무지개 타고(조석현)님께 다시 한번 감사드립니다. '통계로 세상보기' 블로그에 들르셔서 감사의 인사를 남기는 센스를 발휘하셔도 좋겠지요? ^^

통계로 세상보기 블로그


예제 파일 내려받기


원시자료가 입력 완료되면 가장 먼저 진행하는게 도수분포표 확인이다. 오타도 나오고 이상치도 나오고, 어떤 분포를 띄는지가 대충 나온다. 그리고 재수가 좋다면 알듯 모를 듯한 규칙성도 나온다('도수분포표 확인' 절차를 절대 간과하지 마시기 바란다).

01 
※ 주의 : 해당 자료는 인용 과정에 오류가 있을 수 있습니다.

각 구간에 따른 강원권 산이 차지하는 비율을 '강원비율'로 나타냈다.

E3 셀:
=C3/$D3

그리고 이를 그래프로 나타내면...

02

그림이 이쁘다. 그림을 좀더 보면(정확하게는 도수분포표를 보는거다), 조금 차이가 있으나 높이가 증가할수록 강원도에 있을 가능성 또한 증가한다. 이를 가지고 몇번을 떠들어온 회귀분석을 돌려보자.

03

엑셀의 추세선을 이용해 단순회귀를 돌려봤는데 얼추 뭐가 하나 나올 것 같다. 그런데 문제가 있다. 높이가 증가할수록 추정치는 1을 초과한다. 아니, 이미 주어진 범위에서 초과했다(합에 대한 비율이 0과 1 사이를 벗어나도 되는거야?). 즉 모형이 적절치 못하다는 얘기다(그러므로 얘기는 다시 처음으로 돌아간다 -_-;;).

그림이 너무 이뻐서 버리긴 아깝고... 뭐 없을까?

04

책 좀 뒤적여보니 뭔가가 하나 나왔다. 로지스틱 회귀분석이라고...

05

이를 가지고 선학자들이 예술(?)을 펼치는데...

06

이쯤되면 머리에 쥐 나는 이, 여럿 있겠다. 언제나 말하지만 이런거 몰라도 사는데 전혀 지장 없다. 물론 나 또한 잊고 산지 오래고... 로지스틱 회귀분석은 종속변수가 0과 1로 구성된, 즉 이진수인 경우 이용된다(로지스틱 회귀분석에 대해서는 별도 확인 바람). 그 결과 추정치는 확률의 공리 중 하나인 첫번째를 만족하게 된다. 그리고 두번째도 만족하고 그래서 세번째도 만족한다. 그러므로 추정치는 확률이 된다.

07

'확률의 공리' 너 본지 언제더냐... 자 다시...

08

위의 로지스틱 변환 방법을 이용해 '강원비율'을 '비율'로 바꾼다.

F3 셀:
=LN(E3/(1-E3))

그리고 종속변수는 '비율'', 독립변수는 '구간'으로 회귀분석을 돌려 회귀계수를 구한다. 이때 보통은 오차가 독립 및 등분산이라고 가정하는데, 이를 만족하지 않는 경우가 있다. 그래서 보통의 경우 사용되는 방식을 OLS(Ordinary Least Squares) 추정량이라 하고, 다른 경우 사용되는 방식을 GLS(Generalized Least Squares) 추정량이라 구분하면(계산오류가 발생한 F11 셀은 추정량 계산에서 제외한다),

09

OLS
=MMULT(MINVERSE(MMULT(TRANSPOSE(POWER($A$3:$A$10,{0,1})),POWER($A$3:$A$10,{0,1}))),MMULT(TRANSPOSE(POWER($A$3:$A$10,{0,1})),$F$3:$F$10))

GLS
=MMULT(MINVERSE(MMULT(MMULT(TRANSPOSE(POWER($A$3:$A$10,{0,1})),MINVERSE(N(ROW($D$3:$D$10)=TRANSPOSE(ROW($D$3:$D$10)))*1/($D$3:$D$10*$E$3:$E$10*(1-$E$3:$E$10)))),POWER($A$3:$A$10,{0,1}))),MMULT(MMULT(TRANSPOSE(POWER($A$3:$A$10,{0,1})),MINVERSE(N(ROW($D$3:$D$10)=TRANSPOSE(ROW($D$3:$D$10)))*1/($D$3:$D$10*$E$3:$E$10*(1-$E$3:$E$10)))),$F$3:$F$10))

두 수식 모두 배열수식이고, OLS는 LinEst 함수를 이용해 간단히 구할 수 있다. LinEst 함수에 대해서는 다음 강좌를 참고하시기 바란다.

http://www.iexceller.com/MyXls/External_lectures/OnRainbow/OnRainbow_14.asp 

OLS
=LINEST($F$3:$F$10,$A$3:$A$10,TRUE,FALSE)

즉 LinEst 함수는 OLS 방식을 채택하고 있는 것이다. 그리고 이렇게 추정된 회귀계수를 이용해 추정치를 구하면... 역시나 GLS의 잔차제곱합(SSE)이 더 낮게 나왔다.

10

G3 셀:
=EXP(MMULT(POWER($A3,{0,1}),L$3:L$4))/(1+EXP(MMULT(POWER($A3,{0,1}),L$3:L$4)))

G12 셀:
=SUMXMY2($E$3:$E$11,G$3:G$11)

11

이 결과는 높이라는 정보를 이용해 강원권에 있을 확률을 가리킨다. 그럼 배반사건에 해당되는 수도권에 대해서는 직접 계산해 보기 바란다. 논리적으론 1에서 강원권일 확률을 빼면 수도권일 확률이 나와야 한다.

이쯤에서 궁금이 하나 튀어 나올 것이다. 저번에 살펴본 판별분석과 로지스틱 회귀분석 중 어느 것이 더 효과적일까?

판별분석에서 얻은 기준 높이는 760.9m 이었다. 이를 로지스틱 회귀분석 결과에 대입하면... OLS를 적용하면 강원권일 확률이 약 0.4598, GLS를 적용하면 약 0.3738로 나온다. 그러나 로지스틱 회귀분석 결과 확률이 0.5일 높이는 OLS를 적용하면 약 799.5m 이다. GLS는 약 863.2m 로 추정 된다. GLS로 하면 북한산(836m)은 강원권에 속할 확률이 0.4658로 나온다. 그에 반해 홍천 팔봉산(302m)는 강원권에 속할 확률이 OLS 0.1113, GLS 0.0558이다.

음... 또 다시 고민 시작이다.


Previous

Next

Copyright ⓒ Since 2008 아이엑셀러 닷컴. All rights reserved.

이 페이지의 저작권은 컨텐츠 제공자에게 있습니다.

본 강좌의 내용은 필자 개인의 견해이며, 아이엑셀러 닷컴의 공식 견해와 일치하지 않을 수도 있습니다.