Exceller's Home > 사용자 제공 자료

'무지개타고'님의 통계강좌

최초 작성일 : 2007-08-13
최종 수정일 : 2007-08-13

강좌 읽음수 : 6,329회
자료 작성자 : 무지개타고

자료 편집자 : Exceller (권현욱, exceller@amorepacific.com)

강좌 제목 : 통계로 세상보기 - (3) 당신은 어느 이동통신사를 이용하나요?

 

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(http://instatistics.officetutor.org/)를 운영하고 있기도 합니다. 특유의 위트와 재미가 있는 통계강좌에 빠져보시기 바랍니다.


예제 파일 내려받기


정보통신부 자료를 보면 이동통신사별 가입자수 자료를 구할 수 있는데 SK텔레콤의 아성이 여전히 굳건하다는 것을 알 수 있다(단, SK텔레콤, KTF는 합병한 회사의 이전 가입자 합계치).


(주의: 해당 자료는 인용과정에서 오류가 있을 수 있습니다)

그런데 모든 연령대에서도 SK텔레콤은 선두를 차지할까? 중학생을 제외한 모든 연령대에서는 그렇다. 그렇다면 후발 주자인 KTF나 LG텔레콤은 계속 손가락만 빨고 있는 것일까? 그건 아닌 것 같다. 즉 중학생을 제외한 모든 연령대에서 SK텔레콤은 1위를 차지하고 있지만 자료를 보는 시각을 연령대별 가입률로 옮겨본다면 각 이동통신 회사들의 주 타겟 연령층이 다르다는 것을 감지할 수 있다는 얘기다.

이를 위해 아틀라스 리서치 그룹의 '국내 연령대별 이동통신사별 가입률 조사(2006년 3월)' 자료를 참고해 보자(http://blog.naver.com/arg_news.do?Redirect=Log&logNo=20023780675). 조사 방법이 이메일을 이용했다는 한계는 있지만 그대도 없는 것 보다는 낫다.

 

이렇게 자료가 있을 때 무슨 기준으로 연령대별로 차이가 있다고 얘기하는지 궁금한데 단순히 차트가 찌그러져 보여서라고 말할 건가? 이럴 땐 통계적 검정 방법을 이용한 결과라고 하면 끽소리 못한다는 것.
빈도 자료가 있다면 훨씬 수월했을텐데 비율 자료만 구할 수 있었기에 역으로 빈도를 추정하여 동일성검정이라는 통계적 검정 방법을 사용하겠다. 만약에 구분(연령대)별로 각각 1,000명씩을 조사한다고 하자. 그렇다면 아래처럼 빈도를 역추정 할 수 있다(초등학생의 경우 1,000이 안되는데 큰 문제는 없겠다).

이렇게 조사된 비율을 가지고 각 연령대에 대해 1,000명 기준으로 빈도를 구했는데, 만약에 각 연령대의 가입비율이 전체와 같다면 두말 할 것도 없이 각 연령대의 빈도는 전체 빈도와 같을 것이다.

이렇게 해서 준비는 끝. 엑셀을 사용한다면 다음과 같이 입력하면 된다.

=CHITEST(빈도범위,기대빈도범위)
=CHITEST(C25:E34,I25:K34)

그 결과, 3.957E-30 이라는 어마어마하게 작은 값(P값)이 나오는데 이는 유의수준 0.01에서 귀무가설기각하게 되므로 결과적으로 각 회사의 연령대별 가입자수에는 차이가 있다는 결론이 된다. 즉 차트가 찌그러져 있다고 말하는 것보다 훨씬 과학적이고 검증 가능한 방법이라는 것.

그리고 참고로 자료를 다룰 때 개인적으로 차트는 사용하지 않는다. 차트로 나타낼 수 있는 자료란 생각보다 한정적이고 더불어 차트는 시각적 효과가 강하기 때문에 의사결정에 영향을 미칠 소지가 다분하기 때문이다. 그래서 확인된 결과를 참고적으로 보여줄 때에만 가끔 사용할 뿐이다. 물론 그 이전에 자료가 어떻게 생산되었고 처리되었는지를 알고 있는 것이, 즉 원시자료(raw data)를 이해하는 것이 무엇보다도 중요하다. 거기에 덧붙여... 시쳇말로 '와꾸'라는 문서형식도 거의 사용하지 않는다. 문서형식을 사용하다보면 자료 처리하는 시간보다도 더 걸려서... 하다 못해 백분율 기호도 사용하지 않는데 차트를 사용했다는 건 진짜 대단한거다. ^^

여기서 끝내기는 좀 거시기(?) 해서 세부 연령대에 대해서도 살펴보자. 연령대 중에서 25~29세를 훑어보자. 조사로 확인된 가입률은 아래와 같은데, 이후부터는 가입률 대신 시장점유율로 쓰겠다.

좀 차이가 느껴지는 것 같은데, 이번에는 적합도검정을 적용해 보면(참고로 적합도검정과 동일성검정은 의미는 다르지만 사용분포 및 계산과정은 대동소이하다. 그래서 함수도 Chitest를 같이 사용한다),

P값이 유의수준 0.01보다 작으므로 강하게 귀무가설을 기각하게 된다. 이를 좀 풀어서 얘기한다면 해당 '25~29세' 연령대의 이동통신사별 시장점유을은 전체 시장점유율과 다르다는 것이다. 즉 어떤 이유에서인지는 시장조사 등을 통해 더 확인해야겠지만 해당 연령대의 소비자들은 전체 소비자와 다른 선택을 했다는 것이다. 이쯤되면 어떤 회사에서 전체와 다른 차이가 발생되는지를 파악할 이유가 생기는데...

빈도에서 기대빈도를 단순하게 빼보면 SKT는 긍적적으로, LGT는 부정적으로 나타나는 것을 볼 수 있고, KTF는 통상적인 수준을 유지하는 것으로 보인다. 이 때 SKT는 43만큼, LGT는 -51만큼 벌어졌는데, 어느 이동통신사의 영향이 더 클까? (물론 앞서 검정 결과가 유의미하다는 전제 하에서...)

혹시나 해서 차트를 그려봤는데 감을 더 못 잡겠다. 음수만 없었더라면 좋겠지만 차이 값들의 합계는... 그래서 차이를 다르게 구해본다면,

빈도에서 기대빈도를 뺀 값을 제곱한, 조금 변형된 차이라고나 할까. 그런데 뭔지 모르겠지만 필이 팍~하고 꽂힐 것만 같다. 이를 차트로 그려보면,

좀 전 차트보다는 확연한 차이를 보여준다. 그렇다면 제곱이 아니라 세제곱을 한다면 더 확실해지겠다?? 그런데 세제곱은 하지 말자. 이유는 간단하다. 음수가 나타나기 때문이다. 그럼 네제곱은 해도 되겠다?? 그것도 하지 말자! 수치상으로는 차이가 좀더 확연히 나타나겠지만 이미 제곱에서 결판이 났기 때문에 이는 사족이고 계륵이기 때문이다. 그리고 제곱을 했다는 것은 쉽게 말해 분산을 적용하겠다는 의도인데 세제곱, 네제곱은 분산이라는 의미를 부여할 수 없을 뿐더러 공식도 없다(공식이 없기 때문에 의미를 부여할 수 없는건가...?).

아무튼, 25~29세에서는 전체와 다른 시장점유율 차이가 나타났는데, 이는 SK텔레콤과 LG텔레콤에서 기인한 것이고 LG텔레콤의 점유율 차이가 상대적으로 더 크게 반영되었다고 할 수 있다. 즉 SK텔레콤은 선전했고, KTF는 그냥 그랬고, LG텔레콤은 고전을 면치 못했다는 얘기가 되겠다.

아래는 연령대 각각에 대한 적합도검정을 한 결과다.

여기서 '중고등학생'에게서 KTF가 상대적으로 좋은 반응을 얻고 있다는건 중고등학생에 대해 특화된 전략이 수립/시행되고 있다고 보는게 적절할 것 같다. 그리고 30~59세까지의 연령대에서는 전체 점유율과 차이가 없는 것을 보여주는데 이는 각 이동통신사들이 해당 연령대에 대한 별도의 전략이 없든지 또는 전략은 있지만 시장 자체가 유혈이 낭자하는 전쟁터라든지 그도 아니면 해당 연령대 소비자들의 취향을 제대로 인지하지 못하고 헛다리 짚고 있다든지 중 하나가 아닐까 한다.

참고로 본 내용도 앞서 얘기했듯이 내 멋대로 작성되었기에 사실과 다를 수 있고 더군다나 어떤 테크닉(?)을 보여주기 위한 것도 아니다. 단지, 자료를 분석할 때 통계적 시각으로 접근하는 방법도 있다는 것과, 원시자료를 먼저 이해하기를 바란다는 것 외에 그 이상도 이하도 아니니 오해 마시길...


Previous

Next

ⓒ Since 2007 Exceller Corporation. All rights reserved.

이 페이지의 저작권은 컨텐츠 제공자에게 있습니다.