Exceller's Home > 사용자 제공 자료

'무지개타고'님의 통계강좌

- 최초 작성일 : 2007-11-26
- 최종 수정일 : 2007-11-26

- 강좌 읽음수 : 3,497회
- 자료 작성자 : 무지개타고 (조석현님)

- 자료 편집자 : Exceller (권현욱, exceller@amorepacific.com)

강좌 제목 : 통계로 세상보기 - (28) '보정'과 '조작'은 백지장 차이

 

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(http://instatistics.officetutor.org/)를 운영하고 있기도 합니다. 위트와 재미가 있는 통계강좌에 빠져보시기 바랍니다.


예제 파일 내려받기


동일 업종내에서 몇몇 점포를 추출해 주당 판매량과 매출액을 조사하여 아래와 같은 자료를 얻었다고 하자.

01  

단위가격 정보를 봐서는 1,7번 점포는 박리다매형인지 아주 싸게 판다(또는 저렴한 제품만을 다룬다). 그리고 9번 점포는 정가로만 팔던지 아니면 고가의 제품을 주로 다룬다고 유추할 수 있겠다. 어쨌거나 위의 자료를 가지고 판매량과 매출액 간에 관계를 단순회귀모형으로 예상하여 결정계수(R²)를 구해보자.

02

결정계수가 0.7331 이기에 판매량으로 매출액을 추정하는 것은 어느 정도 설명력을 갖고 있어 보인다(참고로 회귀모형이 유의미한지는 별도 검정 단계를 거쳐야 하는데 여기서는 건너뛴다).

그런데 암만 봐도, 저 붉은 동그라미 안에 수치가 영~ 눈에 거슬린다. 이렇게 유독 동떨어진 자료를 이상치라 한다. 그래서 이상치에 해당하는 점포의 판매 자료를 제외하고 다시 결정계수를 구하면...

 03

단지 자료 하나 제외한 것 뿐인데, 결정계수가 0.9863 으로 0.25 증가했다. 즉 어느 정도의 희생으로 더 효과적인 결과를 얻게 된 것이다.

그렇다면 이때 이상치를 포함한 분석과 이상치를 제외한 분석 중 어느 분석 방식을 선택해야 하나?

물론 이상치를 어떻게 규정하고 선택할 것이냐는 중요하고 예민한 부분이다. 그리고 분석 방법에 따라 이상치를 구분하는 방식도 다양하다(위 자료는 표준화 잔차가 이상치 기각역을 초과하지 않으므로 실제적으로 이상치는 아니지만, 그러나 여기선 이상치 기각역을 초과했다고 가정하겠다). 이론적으로는 원인을 파악하고 별다른 오류가 없다면 이상치를 제외하고 분석해야 한다고 하지만, 내가 보기에 이 선택은 분석자의 몫이다.

그런데 만약에 자료가 매우 희귀한 자료일 때 또는 자료가 적을 때는 이상치라도 버리기 아쉬울 때가 있다. 이럴 땐 제외시키기 보다는 보정이라는 제3의 길을 선택할 수 있다.

보정? 조금 낯선 단어일텐데, 좋게 말하면 수정이고 악의적으로 말하면 조작이다(이렇게까지 비약하면 아마도 돌 날아올거 같은데...).

그렇다면 보정과 조작은 어떻게 구분하나?
분석자의 의도를 선과 악으로 구분하면 어떨까? 선의로 했으면 대충 넘어가고, 악의로 했다면 매장시키는... 좀 썰렁했나. 이 기준은 객관성과 합리성에 있다. 즉 넘들도 두루 인정할 기준으로 이상치를 구분하고 보정해야 하는 것이다.

그런데 이 보다 더한 경우는 결측치가 발생될 때다. 이럴 땐 대세에 큰 영향을 주지 않는 범위내에서 결측치를 추정/대체하여 분석을 진행하는 것이다(자료가 많다면 일부러 대체할 필요는 없겠지만...).

이와 비슷한 경우는 비일비재하고, 어쩔땐 보정과 조작의 경계선에서 위태로운 줄타기를 하기도 한다. 이것이 현실이다!


Previous

Next

ⓒ Since 2007 Exceller Corporation. All rights reserved.

이 페이지의 저작권은 컨텐츠 제공자에게 있습니다.