• 최초 작성일: 2007-11-26
  • 최종 수정일: 2007-11-26
  • 조회수: 6,249 회
  • 작성자: 무지개타고
  • 강의 제목: '보정'과 '조작'은 어떻게 구분할까?

엑셀러 권현욱

들어가기 전에

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀 더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(https://onrainbow.tistory.com/)를 운영하고 있기도 합니다. 특유의 위트와 재미가 있는 통계 강의에 빠져보시기 바랍니다.


  • 이 페이지의 저작권은 콘텐츠 제공자에게 있습니다.
  • 본문 내용은 필자 개인의 견해이며 아이엑셀러 닷컴 공식 의견과 일치하지 않을 수도 있습니다.

동일 업종 내에서 몇몇 점포를 추출해 주당 판매량과 매출액을 조사하여 아래와 같은 자료를 얻었다고 하자

로딩 중...

단위가격 정보를 봐서는 1, 7번 점포는 박리다매형인지 아주 싸게 판다(또는 저렴한 제품만을 다룬다). 그리고 9번 점포는 정가로만 팔거나 아니면 고가의 제품을 주로 다룬다고 유추할 수 있겠다. 어쨌거나 위의 자료를 가지고 판매량과 매출액 간의 관계를 단순회귀모형으로 예상하여 결정계수(R²)를 구해 보자.

로딩 중...

결정계수가 0.7331이기에 판매량으로 매출액을 추정하는 것은 어느 정도 설명력을 갖고 있어 보인다. 참고로 회귀모형이 유의미한 지는 별도 검정 단계를 거쳐야 하는데 여기서는 건너 뛴다.

그런데 암만 봐도 저 붉은 동그라미 안의 수치가 영 눈에 거슬린다. 이렇게 유독 동떨어진 자료를 이상치라 한다. 이상치에 해당하는 점포의 판매 자료를 제외하고 다시 결정계수를 구하면,

로딩 중...

단지 자료 하나 제외한 것 뿐인데 결정계수가 0.9863으로 0.25 증가했다. 어느 정도의 희생으로 더 효과적인 결과를 얻게 된 것이다.

그렇다면 이때 이상치를 포함한 분석과 이상치를 제외한 분석 중 어느 분석 방식을 선택해야 하나?

물론 이상치를 어떻게 규정하고 선택할 것이냐는 중요하고 예민한 부분이다. 분석 방법에 따라 이상치를 구분하는 방식도 다양하다. 위의 자료는 표준화 잔차가 이상치 기각역을 초과하지 않으므로 실제적으로 이상치는 아니지만 여기선 이상치 기각역을 초과했다고 가정하겠다. 이론적으로는 원인을 파악하고 별다른 오류가 없다면 이상치를 제외하고 분석해야 한다고 하지만 이 선택은 분석자 몫이다.

그런데 매우 희귀한 자료이거나 자료가 적을 때에는 이상치라도 버리기 아쉬울 때가 있다. 이럴 땐 제외시키기 보다는 '보정'이라는 제3의 길을 선택할 수 있다.

보정? 조금 낯선 단어일 텐데, 좋게 말하면 수정이고 악의적으로 말하면 조작이다(이렇게까지 비약하면 돌 날아올 것 같긴 하다).

그렇다면 '보정'과 '조작'은 어떻게 구분할까?

분석자의 의도를 선과 악으로 구분하면 어떨까? 선의로 했으면 대충 넘어가고 악의로 했다면 매장시키는... 좀 썰렁했나. 그 기준은 객관성과 합리성에 있다. 남들도 두루 인정할 기준으로 이상치를 구분하고 보정해야 하는 것이다.

그런데 이 보다 더한 경우는 결측치가 발생될 때다. 이럴 땐 대세에 큰 영향을 주지 않는 범위 내에서 결측치를 추정/대체하여 분석을 진행하는 것이다. 자료가 많다면 일부러 대체할 필요는 없겠지만...

이와 비슷한 경우는 비일비재하고, 어떤 때에는 보정과 조작의 경계선에서 위태로운 줄타기를 하기도 한다. 이것이 현실이다!