Exceller's Home > 사용자 제공 자료

'무지개타고'님의 통계강좌

- 최초 작성일 : 2008-06-05
- 최종 수정일 : 2008-06-05

- 강좌 읽음수 : 3,309회
- 자료 작성자 : 무지개타고 (조석현님)

- 자료 편집자 :

강좌 제목 : 통계로 세상보기 - (60) 또 틀렸어

 

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(http://instatistics.officetutor.org/)를 운영하고 있기도 합니다. 위트와 재미가 있는 통계강좌에 빠져보시기 바랍니다.


예제 파일 내려받기


대통령 취임 100일에 즈음하여 여기저기서 정치조사가 진행되어 언론에서 보도하고 있다. 그런데 아쉽게도 조사 결과만 기사화하고 통계표는 제공하는 곳이 거의 없던데 다행히 아래 기사는 통계표도 함께 제공하고 있다.

- FTA-쇠고기 연계 '잘못' 66%

기사의 내용에 대해서는 각자 알아서 판단하시기 바라고, 기사 하단에 보면 조사 결과표를 내려 받을 수 있게 등록되어 있다. 그 내용 첫머리에 보면 조사 설계에 대해 서술했는데...

- 조사방법 : 구조화된 질문지를 사용한 전화조사
- 모집단 : 만19세 이상 성인남녀
- 표본크기 : 1,000명
- 표본추출 : 비례할당에 의한 층화 무작위 추출법
                 (각 지역별로 성별, 연령별 인구비례에 따라 표본수를 할당한 후 체계적 추출)

- 표본오차 : ±3.1%P
- 응답률 : 18.2%
- 조사기간 : 2008년 5월 28일 (수)
- 조사기관 : 디오피니언

그리고 해당 자료에 보면 응답자 특성표를 기재해놨다(지역, 성, 연령, 학력, 직업, 소득 구성비). 그리고 본 문항별로 교차표를 보여주는데, 그 중 지난 17대 대통령 선거 당시 투표 여부를 물어본 문항이 있다. 요거 지난 대선 결과와 비교해 보면 재밌을거 같기에 한번 살펴본다.

여기서 간단한 가정이 하나 필요한데 대선은 지난해 12월에 그리고 위 조사는 올해 5월에 조사됐다. 즉 이 두 자료는 약 6개월이라는 시차가 생긴다. 그런데 이 기간 동안 급격한 인구 변동이 발생됐다면, 이 두 자료를 서로 비교할 수 없으니 지난 6개월 동안 인구 구성에 변동은 없다는 가정이 필요하겠다.

01
※ 주의 : 해당 자료는 인용 과정에 오류가 있을 수 있습니다.

앞에 가정이 적절하게 나타나고 있는지를 살펴보기 위해 해당 조사의 응답자 구성과 지난 17대 대선 유권자 구성을 비교해 보니, 한정된 정보이나 구성비의 차이가 결과에 영향을 줄 정도로 크지는 않다고 여겨진다(연령 정보는 구하지 못해 비교하지 못함). 그럼 지난 17대 대선 결과와 조사 결과를 비교해 보면...

02
※ 주의 : 해당 자료는 인용 과정에 오류가 있을 수 있습니다.

음... 참담할 정도로 차이가 난다. 이 정도 차이라면 적합도검정이고 뭐고 할 필요가 없을 정도로 엄청난 차이다. 그리고 지난 대선 때 기권율이 37%인데, 조사에서는 '기권'과 '모름/무응답'을 합쳐도 20.1% 밖에 나오지 않는다(그참 신기하다). 그래서 이번엔 '기권', '무효', '모름/무응답'을 제외한 유효표를 기준으로 다시 구해보면...

03
※ 주의 : 해당 자료는 인용 과정에 오류가 있을 수 있습니다.

역시나 그 차이가 좁혀지지 않는다(왜지?).

당선된 후보에게 투표한 유권자는 행복하게 삶을 계속 영위하고, 낙선된 후보에게 투표한 유권자는 슬픈 나머지 비관 자살해서 또는 병이 생겨 죽었다든지
그도 아니면 정치적 탄압으로 해외로 도피하여 지난 대선 결과와 조사 결관 간에 차이가 발생했다 라고 하기엔 너무 비현실적이지 않은가...

혹시라도 이 썰(?)이 사실이라면 앞서 가정이 틀렸을 가능성이 높다는 얘기고, 더불어 엄청난 일이 초래된다. 생물학계에 일대 파장을 몰고 오게 되며, 또한 지지 후보의 당선을 위해서 물불 가리지 않고 달려 들어야 하는 상황이 연출될 수 있기 때문이다. 그것도 5년 마다. 그러느니 차라리 무정부주의자가 되겠다. 그렇다면 위의 소설(?)보다, 조사 대상자가 응답을 회피한 경향이 지지 후보간에 서로 다르게 나타났다는 것이 좀더 합리적이겠다. 즉 편의(Bias)가 발생됐다는 얘기. 그것도 많이... 그렇다면 결론은 하나다. 조사 잘 못 하셨네요!

그런데 조사가 틀렸다고 말하긴 쉽지만 막상 그 원인을 찾고 반영하기란 쉽지 않다. 여기서 지난 17대 대선 출구조사에 관해 올린 글을 참고해 보면,
그 때도 맞는 곳은 맞았고 틀린 곳은 틀렸다. (단정해 말하기엔 무리가 많지만) 출구조사는 맞았고, 전화조사는 틀렸다. 즉 위 조사만의 문제라고 치부할 수 없다는 얘기다. 조사 회사들 팔 높이 들고 반성해야 한다. -_-;;

그러면 대안은?

응답자들의 응답회피 및 오응답률을 문제 삼을게 아니라 전화조사를 출구조사처럼 최소한 대면방식으로 그리고 응답 내용이 노출되지 않게 조사방식을 바꿔야 한다(여기서 파렴치하게 응답자에게 화살을 돌리는 것은 자기 모순이다. 왜냐하면 응답자가 선의로 그리고 진실되게 응답한다는 가정 없이는
정치,사회,시장 조사 등 대부분의 여론조사는 존립할 수 없기 때문이다).

그리고 효율을 높이고자 한다면 표본추출 방법도 변경해야 한다. 누차 말했듯이 할당 추출은 유의 추출이기에 편의를 제어할 수 없다. 또한 가중치를 바꿔야 한다. 문제 제기가 계속되어도 어떻게 허구헌 날 「지역*성*연령」가중치냐...

허명회 외 2명, 2004, "사회조사에서 표본의 왜곡과 가중치 보정의 결과 : 18개 사례연구", 조사연구, 5권 2호, 31-47

위 논문에 보니, 반복비례가중법(림가중법)을 제안하던데 모듈도 만들었다고 하니 얻어다 적용도 해보고, 이것도 마땅치 않다면 돈 아까워 말고 연구 좀 해달라고 의뢰도 하고 좀 그래라(그 잘난 고문들은 도대체 뭔 일을 하고 있는지...).

그도 못하겠다면 가중치 그만 적용하던가... 가중치로는 할당 추출의 한계를 해결할 수 없다는 걸 아직도 모르겠는가?(매번 가중치를 적용해 자료를 처리했으니 가중치를 적용하지 않았을 때의 결과를 알 리가 없지)

아니면 아예 "편의가 있습니다"라고 당당히 밝히던가(정치조사를 비롯해 대부분의 조사에서 크든 작든 편의가 존재하는 게 사실이잖아).

그리고 제발 통계 전공자 좀 뽑아서 써라. 눈에 보이는 성과가 나타나지 않을지라도 문제점이라도 찾아낼 순 있으니(그렇다고 쓰잘데기 없는 일 시키지 말고...).

그럼 이쯤에서... 나는 떳떳한가? 당연히(?) 나는 공범이 아니라고 무죄라고 말할 수 없다. 나도 그에 일조했으니... -_-;; 그래서 지금 팔 높이 치켜들고 벌 서는 중이다.


Previous

Next

Copyright ⓒ Since 2008 아이엑셀러 닷컴. All rights reserved.

이 페이지의 저작권은 컨텐츠 제공자에게 있습니다.

본 강좌의 내용은 필자 개인의 견해이며, 아이엑셀러 닷컴의 공식 견해와 일치하지 않을 수도 있습니다.