지난 시간에 영화관의 연 매출액을 추정해 보았는데 너무 주먹구구였던것 같다. 그래서 언제나처럼 내 맘대로 중회귀분석을 돌려본다. 시계열분석을 고려해야 되는데 그냥 쉽게쉽게 가련다.
![로딩 중...](http://www.iexceller.com/MyXls/External_lectures/OnRainbow/images/onrainbow_67_01.png)
(주의) 해당 자료는 인용 과정에서 오류가 있을 수 있음.
여기서 연도별로 월 기준으로 정리된 자료를 시간 순으로 정리하면 이런 형태가 되겠다.
![로딩 중...](http://www.iexceller.com/MyXls/External_lectures/OnRainbow/images/onrainbow_67_02.png)
초기에는 상승 추세를 유지하다가 30개월 전후에서 추세를 이탈한 감이 느껴지는데 일단 단순회귀를 구해 본다.
![로딩 중...](http://www.iexceller.com/MyXls/External_lectures/OnRainbow/images/onrainbow_67_03.png)
그림은 그럴싸해 보이지만 결정계수가 0.3568로 매우 낮게 나타났다. 그리 마음에 들지 않는 수준이다. 결정계수는 낮아도 회귀모형은 유의미하다고 나왔다.
![로딩 중...](http://www.iexceller.com/MyXls/External_lectures/OnRainbow/images/onrainbow_67_04.png)
이 모형은 가변수라는 것을 독립변수로 이용해서 구한 모형이다. 그리고 여기서 사용한 가변수는 매년 1, 7, 8, 12 월일 때를 '1', 그 외 월일 때는 '0'을 부여했다. 즉 방학기간을 반영하기 위해 임의로 설정한 가짜(Dummy) 변수이다. 여기서 잠깐, 가변수를 이용해서 구한 회귀계수와 가변수별 평균 매출액을 비교해 보자.
![로딩 중...](http://www.iexceller.com/MyXls/External_lectures/OnRainbow/images/onrainbow_67_05.png)
혹시 느끼셨나 모르겠지만, 가변수의 회귀계수와 평균 매출액의 차이는 같다. 즉 방학기간(1, 7, 8, 12월)일 때는 그 외 기간보다 매출이 약 263억 가량 증가한다는 것을 회귀계수는 보여주고 있다.
그러나 모형2의 결과는 결정계수 0.2513으로 앞에서 보다 더 낮게 나왔다. 영화 상영관 매출 자료에 대한 사전 지식 및 기존 분석 모형을 모르고 시작하니, 시쳇말로 맨땅에 헤딩 열심히 하는 중이다. 그런데 만약 모형1과 모형2를 동시에 반영한다면 어떤 결과가 나올까?
![로딩 중...](http://www.iexceller.com/MyXls/External_lectures/OnRainbow/images/onrainbow_67_06.png)
결정계수가 0.6378로 앞의 그것보다 상당히 높게 나타났다. 그러나 통상 기준으로 삼는 결정계수 0.7에 비해서는 아직도 낮은 수준이다. 상당히 싫어하는 방식이지만, 시간을 로그변환한 변수와 가변수가 동시에 반영된 모형을 예상해 본다.
![로딩 중...](http://www.iexceller.com/MyXls/External_lectures/OnRainbow/images/onrainbow_67_07.png)
결정계수가 0.7423으로 이제 조금 안심되는 수준까지 올라왔다. 그리고 모형도 유의미한 것으로 나왔으니 여기서 모형 추정을 대충 마치면...
![로딩 중...](http://www.iexceller.com/MyXls/External_lectures/OnRainbow/images/onrainbow_67_08.png)
마친다고 했는데 거짓말했다. 아직 끝난 게 아니다. 잔차 검토가 아직 남아 있다. 만약 잔차가 정규성과 등분산성을 만족하지 못한다면 위의 모형은 파기되어야 한다(빌자 빌자 만족하기를).
![로딩 중...](http://www.iexceller.com/MyXls/External_lectures/OnRainbow/images/onrainbow_67_09.png)
이때 잔차보다는 표준화잔차를 이용하면 기준 잡기가 손쉽다.
![로딩 중...](http://www.iexceller.com/MyXls/External_lectures/OnRainbow/images/onrainbow_67_10.png)
어째 등분산성이 조금 위협받는 느낌이다(또는 이상치가 발생된 느낌?). 아무래도 이상치 쪽으로 몰아(?)가는 게 편리해 보인다. 등분상성을 만족 못 한다고 판단해버리면 지금까지 작업한 게 도로아미타불(?)이 될 우려가 있다.
참고로 이상치 판단기준은 통상 표준화잔차 값이 ±2를 초과한 경우로 본다. 그리고 '±2'란 유의수준 0.045에서의 신뢰구간을 벗어난 기각역에 해당된다(유의수준 0.05는 약 ±1.96 이다).
이상치 존재에 무게를 두고 2006년1월(+), 2007년8월(+), 2008년4월(-) 이상치가 나타났다. 2006년1월은 '왕의 남자'가 상영되던 시기이고, 2007년8월은 '화려한 휴가', '디워'가 상영된 시기이다. 2008년4월은 시기적으로 비수기이지만 추정치보다 더 낮게 매출이 발생됐다는 건데, 통상 (+) 방향의 이상치는 눈에 확 띄는 반면, (-)방향의 이상치는 원인을 추정하기가 쉽지 않다.
어쨌거나 이들 3개 자료를 제외하고, 즉 이상치를 제거하고 회귀분석을 다시 돌리면...
![로딩 중...](http://www.iexceller.com/MyXls/External_lectures/OnRainbow/images/onrainbow_67_11.png)
![로딩 중...](http://www.iexceller.com/MyXls/External_lectures/OnRainbow/images/onrainbow_67_12.png)
회귀모형도 유의미하게 나왔고 앞에서 보다 잔차도 안정된 것으로 보인다. 그리고 결정계수는 약 0.04 증가한 0.7813으로 나타났다. 이제 결정하자. 이상치를 살릴지 죽일지 그도 아니면 이상치를 보정할지.
참고로 위의 작업은 엑셀 2003에서는 [도구] - [데이터 분석] 메뉴에서 [회귀분석]을 이용하면 좀 더 손쉽게 구할 수 있다(아래 그림 참고). 그리고 언제나 말하지만 그렇다고 아무거나 무턱대고 돌리면 안 된다. 컴퓨터는 시키는 대로만 할 뿐이다.
![로딩 중...](http://www.iexceller.com/MyXls/External_lectures/OnRainbow/images/onrainbow_67_13.png)