아이엑셀러 닷컴

가끔씩 아래와 같은 기사를 보면 언제나 2% 부족함을 느낀다.

이명박-박근혜, 여론조사 신뢰성 공방
여론조사 얼마나 믿을 수 있나 (연결 정보 손실)
여론조사가 대권을 움직인다 (연결 정보 손실)

공감되는 부분도 있고 아닌 것도 있지만 그나마 위의 기사들은 논할 만한 것들을 논하기에 적극적으로 참고할 만하다. 그렇지만 아래 경우는 도대체 뭔 얘기를 하는건지...

여론조사 제대로 합시다 (연결 정보 손실)

대부분의 사람들이 갖는 통계에 대한 환상 중에 이런 게 있는 것 같다.

진실은 언제나 오차범위 내에 존재한다.

미안하지만 그건 희망사항일 뿐이다. 그럼 왜 희망사항인지를 보자.

유의수준 0.05(또는 신뢰수준 95%)에서 오차범위는 ±○.○%

아마 대부분의 여론조사에서 졉했을 텐데, 이 얘기는 "동일한 조사 대상자 집단(모집단)에서 추출된 대상자(표본집단)에게 동일한 시간에 동일한 방법과 내용으로 조사를 100번 했을 때 '진실(모수)은 신뢰구간 내에 항상 위치한다"는 게 아니라,

"100번의 조사 중에서 95번은 신뢰구간 내에 진실(모수)이 위치한다."

라는 것이다. 즉 100번의 조사 중에서 95번은 신뢰구간 내에 모수가 있지 않을 수 있다는 것으로, 쉽게 말하면 100번 중 5번은 틀릴 수 있다는 것이다. 이를 '제1종 오류'라 한다. 그리고 신뢰구간은 제1종 오류에 종속되어 계산된다.

(주의) 단순한 예를 위한 자료입니다.

일반인들의 통계에 대한 환상을 깨는 또 다른 예로 출생 성비를 들 수 있겠다. 여기서 잠깐, 확률은 크게 두 가지로 나눌 수 있다. 수학적 확률과 경험적 확률이 그것이다. 장애 없이 태어난다고 가정한다면 사람은 언제나 남자 아니면 여자다. 그래서 수학적 확률은 각기 50%이다.

그러나 실제 자료를 보면 다르다. 좀 지난 자료이기는 하나 통계청 자료를 보면 2000년 출생 성비는 110.2로 남자가 태어날 확률은 52.4%, 여자가 태어날 확률은 47.6%이다. 더 나아가 첫째 아이가 남자일 확률이나 둘째, 셋째가 남자일 수학적 확률은 언제나 50%로 모두 같지만, 실제 자료로는 51.5%, 51.9%, 59.0%이다(이 경우는 좀 더 세부적으로 조건부확률에 해당된다). 즉 남자가 태어날 확률은 현실적으로 50%가 아니라는 것이다.

이런 잘못된 선입견들이 모여서 진실(모수)을 추정할 수 있는 과학적이고 현실적 방법으로는 통계 밖에 없음에도 불구하고 '이게 저거와 서로 다르기에 통계는 거짓말'이라 매도하며 결과에 오류가 있다고 하면서 오류를 줄일 수 있는 과학적 대안은 없이 언제나 결론은 음모론으로 향하곤 한다.

그러나 이것은 통계가 오용 당해 발생되는 문제이지 통계가 믿지 못할 대상은 아니다. (왜냐구?) 수학과 다르게 통계는 기본적으로 오차의 존재를 인정하고 오차가 최소가 되는 이론을 찾아내기 위해 연구하는 학문이기 때문이다. 다른 얘기지만 이런 것과 비슷하다. 빨강색은 수학적으로는 빨강색 하나지만 통계적으로는 빨갛거나 불그스름하거나 붉거나 심지어 고구마 같다고 해도 빨강색으로 처리할 수 있다는 거다.

그럼에도 불구하고 정치가 끼어들어 여론 호도를 위해 통계를 오용하려는 걸 보면 분개하지 않을 수 없다. 다시 말하지만 그들이 말하는 오류가 발생한다 해도 그것은 이미 계산된 확률이었기에 그 자체 또한 통계다. 단, 불순한 정치세력과 의도적으로 결탁해 나타나는 문제는 오류가 아니라 오용의 문제로, 이는 통계의 문제가 아니라 해당자 개인의 문제이다. 왜냐하면 과학에는 감정이란 없기 때문이다.

여기에는 언론 또한 자유로울 수 없을 것이다. 중심극한정리(CLT)는 둘째 치고, 분포라는 개념도 제대로 인지하는 지 의심스러울 정도의 수준으로 통계를 논하려 하다니... 그리고 10년 전이나 오늘이나 이런 불신에 대해 신뢰를 주지 못한 여론조사 업계에 책임 또한 크다. 심하게 말하면 돈 벌 생각만 했지 자료의 대표성 확보를 위해 한 게 뭐가 있나?

응답률이 낮다고 호들갑 떨지만 막상 조사 참여에 대가로 손톱깎기 세트 또는 양산이나 주면서 설문조사에 응답해 주기를 기대한다는 건 어불성설이다. 뭐가 아쉽다고 어줍잖은 댓가 때문에 관심도 없는 분야의 조사에 개인정보와 성의 있는 답변 및 짧지 않은 시간을 할애해야 하는가!

그리고 대부분에 전화조사의 경우는 일체 댓가도 없다. 경제적 댓가를 주느니 차라리 참여한 조사의 핵심 주제에 관한 결과를 통보해 주는 게 더 생산적이고 응답률 제고에 도움이 될 수 있다고 본다. 그리고 특히나 정치조사의 경우, 통계 전공자들이 조사를 설계하고 표본추출에 참여하는 여론조사 회사가 얼마나 있나? 아니 있기는 한가?

정상적인 자동차로 운전하다 사고를 내면 자동차가 문제인가? 운전자의 문제지! 그리고 똑같이 통계 이론을 배경으로 하면서 마케팅조사는 음모론 같은 비과학적 군소리 만큼은 없는데 정치조사는 왜 시끄러운건가? 물론 마케팅조사에도 얘기거리는 많다. 그렇지만 통계의 오류를 논하지 오용이나 음모론을 논하지는 않는다.

그리고 자문 교수라는 사람들은 그 동안 한게 뭐가 있나? 선거철 마다 정치권과 언론에 의해 숫하게 통계가 매도 당해도 자문 교수라고 명찰 달고 있는 그들은 조사가 잘못 됐으면 잘못 됐다고, 그게 아니라면 아니라고 해야하는 거 아니냐는 말이다.

가끔 보면 최신 장비가 없거나 부족해서 오류가 발생된다는 식에 얘기도 있던데 헉! 그 자체다. 물론 최신 장비가 구비되어 있으면 좋다. 자료 처리 시간을 단축할 수 있어서 좋다. 그리고 입력 시 오입력을 예방하는 기능이 있어서 좋다. 그러나 이것도 결국은 자료 처리 시간 단축일 뿐이다.

그런데 최신 장비 없으면 통계 못하나? 공학 계산기 없으면 피라미드를 쌓지 못하냐는 말이다. 결국은 통계 이론으로 귀결된다. 이론이 잘못 됐다면 당연히 비판 받고 정정되어야 할 것이고, 이론대로 이행하지 않았다면 그 또한 비판받아야 할 것이지, 장비 얘기는 나중에 해도 된다.

음모론적 불신에서 시작하여 통계 자체에 대한 불신까지 전개되는 작금의 상황을 방지하기 위해서는 적어도 언론 공개를 목적으로 하는 정치사회 조사의 경우에는 최소한 조사설계를 공개해야 한다. 그리고 응답률도 공개해야 한다. 또한 설문 문항 전체를 함께 공개해야 한다. 더불어 표준화된 설문 문항을 같이 공유해야 한다.

이것은 돈 한푼 안 들이고도 통계에 대한 일반인들의 신뢰감을 높일 수 있는 방법이고 최소한의 자세라고 본다. 그리고 통계의 대표성 담보를 위해서는 할당추출을 이용한 표본추출은 이제는 그만 좀 하고 최소한 계통추출 또는 지그재그추출이라도 적용해보자. 이렇게 표본추출에 대해 얘기하면 꼭 나오는 얘기는 비용과 시간이다. 그럼 대표성 담보를 위해 그 동안 업계 자체적으로 한 게 무엇인가? 정녕 이도저도 못하겠다면 언론 공개용 조사는 하지 않으면 될 것 아닌가!

그러나 이 시점에서 대안을 얘기한다는 건 어쩌면 사치일지도 모른다. 개인주의 때문에 그런지 귀찮아서 그런지는 모르지만, 조사에 응답해 주는 사람이 아직 있다는 그 자체만으로도 고마운 것이 어쩌면 여론조사 업계에 현실일 거다.

끝으로, 일반 회사에서 하는 조사는 귀찮아서 응답하지 않는다 해도, 최소한 국가에서 하는 조사만큼은 응답해 주시기를 바란다. 가깝게는 출근 시간 단축을 위해 교통 혼잡을 줄이는데 이용되고, 멀게는 국민연금 산정에도, 우리의 후손을 위해서도 이용되는 귀중한 자료이기 때문이다.

들어가기 전에

(주의) 단순한 예를 위한 자료입니다.