Exceller's Home > 사용자 제공 자료

'무지개타고'님의 통계강좌

- 최초 작성일 : 2008-08-14
- 최종 수정일 : 2008-08-14

- 강좌 읽음수 : 3,009회
- 자료 작성자 : 무지개타고 (조석현님)

- 자료 편집자 :

강좌 제목 : 통계로 세상보기 - (71) 선뜻 동의하기 어렵지만...

 

그러고 보니 '무지개 타고'님의 통계 강좌를 시작한 지도 1년이 넘었군요. 우리 주변의 친숙한 주제를 통계와 접목하여 좋은 강의를 하고 계시는 무지개 타고(조석현)님께 다시 한번 감사드립니다. '통계로 세상보기' 블로그에 들르셔서 감사의 인사를 남기는 센스를 발휘하셔도 안 말립니다. ^^

통계로 세상보기 블로그


예제 파일 내려받기


지난 6월 한국마케팅여론조사협회(KOSOMAR)에서'온라인리서치의 현재와 미래'라는 주제로 세미나를 열었는데, 그때 세미나 자료집을 구해 한번 읽어 봤다. 그 중 '온라인리서치에 대한 인식 및 신뢰성 향상 방안'이란 소주제가 눈길을 잡았다.

우선 지난 2006년 고객사를 대상으로 했다는 '온라인리서치에 대한 인식조사'(심층 면접) 결과를 간략히 보여준다.
- 최근 조사 트랜드
- 온라인리서치의 장점/이용 계기
- 온라인리서치 확대의 주요 장애요인

그 중 '장애요인'으로는
- 최고경영자의 부정적 인식
- 기존 오프라인 조사와의 연계성 문제
- 표본 대표성 문제
- 신뢰성 문제
라 정리했다.

이 중 '신뢰성 문제'에는 '비교적 단기간에 해결 가능한 이유'라고 메모를 달았다(아마도 생산한 자료가 신뢰를 기대할 수 없는 '사이비 조사'는 아니라는걸 입증할 필요가 있었을테니까...).

그러면서 본론으로 넘어간다. '온라인리서치 신뢰성 향상 방안'
그런데 용어가 좀 헷갈린다. '온라인리서치 신뢰성 향상 방안'이라는데, 뭐에 대한 '신뢰성'이지? 응답을 믿을 수 있다는거야? 모수 추정을 믿을 수 있다는거야? 이 둘은 상당히 비슷해 보인다. 사실대로 응답한 자료를 바탕으로 모수를 추정했다면 믿을만한 것 아닌가?

그러나 이 둘은 엄연히 다르다. 응답자가 사실대로 응답했다 한들 표본추출이 부적절 하다면(제한된 범위 내에서 비교는 가능하겠지만) 모수 추정은 기대할게 없다. 그렇다고 응답의 신뢰성은 간과해도 된다는 것은 아니다. 이 또한 중요하다. 아무튼 내용은 응답의 신뢰성에 초점을 맞추고 있는 것으로 보인다.

온라인 조사에서 신뢰성에 미치는 요인을 3가지로 압축했다.
- 솔루션
- 노하우
- 패널

이 중 조사단계별 '노하우'를 정리했다.
- 설문지 작성 단계
- 메일 발송 단계
- 온라인 실사 단계
- 데이터 검증 단계

그리고 그 중 '데이터 검증 단계'의 메모에 색칠을 했다.
- 응답시간 검증
- 검색예상자 식별/제어
즉 여러 사항 중 이 둘을 검토하겠다는 것(다른 자료집에 보니 여타 부분에 대해서도 일정부분 검토를 진행한 것으로 보인다). '응답시간 검증'은 응답을 마무리하는데 걸린 총소요시간을 10분위로 집단을 나눠, 각 집단간 응답 내용에 차이 유무를 T-검정을 통해 분석했다. 그 결과 1분위수 집단과 나머지 집단간에 유의미한 차이가 있는 것으로 나타났기에 1분위수 집단은 불성실하게 응답했을 가능성이 높다고 판단하고, 집단을 좀더 세분해 상관관계를 분석한 결과 (공통 문항) 응답 소요시간이 매우 짧은 응답자(5%)는 자료 처리에서 제외해야 한다는 결론을 도출한다.

11 
※ 주의 : 자료 인용 과정에 오류가 있을 수 있습니다.

그런데 분석 방법과 결론에 선듯 동의하기 어렵다. 일원배치법이나 독립성검정을 통해 집단간 차이 유무를 확인할 수 있었을텐데,  다집단간 차이 유무에 뜬금 없이 왜 T-검정을 이용했을까? 그리고 응답 내용에 차이가 있다고해서 이게 곧 불성실한 응답자라고 말할 수 있나? 해당 질문에 대해 이미 많은 지식과 견해를 갖춘 응답자라면 (또는 그 반대) 응답 총소요시간 및  응답 내용이 다를 수 있다고 가정 할 수도 있을텐데, (개연성은 공감하지만) 응답 총소요시간이 짧다고 불성실한 응답자라 단정짓는다는 건 무리수가 있어 보인다. 그리고 1분위수 집단 보다는 10분위수 집단이 더 의심된다. 응답 총소요시간이 평균이나 분산 모두 다른 집단과 너무 대비된다.'검색예상자 식별/제어'는 생각해보지 않았던 부분이었기에 참고할 부분이 많아 보인다.

시장조사든 여론조사든 많은 질문을 응답자에게 던진다. 응답자의 의견을 알려달라고. 그러나 여기엔 정답이란 없다. 현재의 응답자 의견만 밝히면 된다.
그러므로 질문에 응답하기 위해 인터넷 등을 이용해 검색 후 응답하는 것은
조사 목적을 벗어난 행동이다. 그런데 이런 응답자가 일부 있다고 한다(8%). 이에 어떻게 검색 이용자를 기술적으로 식별할 수 있는지에 대해 기술했다. 마우스 포인터가 조사 화면을 이탈한 경우를 검색 이용 예상자라 임의 정의했으나, 정확도가 그리 높게 나타나진 않았다.

12  
※ 주의 : 자료 인용 및 응답자수(역추정)에 오류가 있을 수 있습니다.

그러나 마우스 포인터의 조사 화면 이탈 시간이 길수록 정답 비율이 증가하는 것으로 봐서, (고난이도의 질문인 경우) 이탈 시간이 긴 응답자(40초 이상)는 불성실한 응답자로 보고 자료 처리에서 제외해야 한다고 결론 내린다.

그런데 여기에도 몇가지 동의하기 어려운 부분이 있다. 우선 이탈 시간과 정답 비율 비교시 어떤 분석 방법을 이용했는지 제시되어있지 않다. 감(?)이 그런 것과 통계적 분석 결과가 그런 것과는 엄연히 다름에도 불구하고 말이다. 그리고 마우스 포인터가 긴 시간 이탈했다고 해서 이게 곧 불성실한 응답자라 말할 수 있을지는 또 의문이다.

앞의 조사는 응답 총소요시간을 검토하여 불성실한 응답자를 가려내는 방법을, 뒤의 조사는 마우스 포인터의 이탈 시간을 검토하여 불성실한 응답자를 가려내는 방법을 소개했다. 그러나 수 차례 얘기했지만, 난 이 두 조사의 개연성에는 공감은 하지만 정의 및 분석 과정은 썩 내키지 않는다. 자타가 인정하는(?) 온라인 조사 업계 1위 회사 답다 라는 생각을 갖지 않을 수 없어 보인다. 조사 결과의 신뢰성 담보를 위해 고민하고 있다는 느낌을 다른 회사의 발표 자료에서는 별로 느끼지 못했고, 내용도 앞서가는 것으로 보이기 때문이다.

이건 사족인데... 불성실한 응답자? -_- 성실히 응답 했는지 안했는지 응답자의 마음 속에 들어가 파해치기 전에는 솔직히 구분짓기 불분명하지 않을까? 그래서 난 '불성실' 보다는 '이상치'로 생각해봤다.

집계된 자료라해서 모든 자료가 통계 분석에 이용되는 것은 아니다. 이상치는 모수 추정에 편의를 가져올 수 있으므로 제외/보정 할 수 있다. 그러므로 응답 총소요시간이 이상치로 판단되면 (응답 내용과는 무관하게) 자료 처리에서 제외 한다는거다. 물론 이상치의 판단 기준을 어떻게 설정할 것인지는 연구되어야겠지만... 결론이 비슷해 보이니 어째 말장난 같기도 하다. 어쩌면 내가 생각해본 것을 이미 검토해 봤을 수도 있고...


Previous

Next

Copyright ⓒ Since 2008 아이엑셀러 닷컴. All rights reserved.

이 페이지의 저작권은 컨텐츠 제공자에게 있습니다.

본 강좌의 내용은 필자 개인의 견해이며, 아이엑셀러 닷컴의 공식 견해와 일치하지 않을 수도 있습니다.