아이엑셀러 닷컴

정보통신부 자료를 보면 이동통신사별 가입자수 자료를 구할 수 있는데 SK텔레콤의 아성이 여전히 굳건하다는 것을 알 수 있다(단, SK텔레콤, KTF는 합병한 회사의 이전 가입자 합계치).

(주의) 해당 자료는 인용 과정에서 오류가 있을 수 있습니다.

그런데 모든 연령대에서도 SK텔레콤은 선두를 차지할까? 중학생을 제외한 모든 연령대에서는 그렇다. 그렇다면 후발 주자인 KTF나 LG텔레콤은 계속 손가락만 빨고 있는 것일까? 그건 아닌 것 같다. 즉 중학생을 제외한 모든 연령대에서 SK텔레콤은 1위를 차지하고 있지만 자료를 보는 시각을 연령대별 가입률로 옮겨본다면 각 이동통신 회사들의 주 타깃 연령층이 다르다는 것을 알 수 있다.

이를 위해 아틀라스 리서치 그룹의 '국내 연령대별 이동통신사별 가입률 조사(2006년 3월)' 자료를 참고해 보자(http://blog.naver.com/arg_news.do?Redirect=Log&logNo=20023780675). 조사 방법이 이메일을 이용했다는 한계는 있지만 그래도 없는 것 보다는 낫다.

이렇게 자료가 있을 때 무슨 기준으로 연령대별로 차이가 있다고 얘기하는지 궁금한데 단순히 차트가 찌그러져 보여서라고 말할 건가? 이럴 땐 통계적 검정 방법을 이용한 결과라고 하면 끽소리 못한다는 것. 빈도 자료가 있다면 훨씬 수월했을텐데 비율 자료만 구할 수 있었기에 역으로 빈도를 추정하여 동일성검정이라는 통계적 검정 방법을 사용하겠다

만약에 구분(연령대)별로 각각 1,000명씩을 조사한다고 하자. 그렇다면 아래처럼 빈도를 역추정 할 수 있다. 초등학생의 경우 1,000이 안 되는데 큰 문제는 없겠다.

이렇게 조사된 비율을 가지고 각 연령대에 대해 1,000명 기준으로 빈도를 구했는데, 만약 각 연령대의 가입비율이 전체와 같다면 두말 할 것도 없이 각 연령대의 빈도는 전체 빈도와 같을 것이다.

이렇게 해서 준비는 끝. 엑셀을 사용한다면 다음과 같이 입력하면 된다.

=CHITEST(빈도범위, 기대빈도범위)

=CHITEST(C25:E34, I25:K34)

그 결과, 3.957E-30 이라는 어마어마하게 작은 값(P값)이 나오는데 이는 유의수준 0.01에서 귀무가설을 기각하게 되므로 결과적으로 각 회사의 연령대별 가입자수에는 차이가 있다는 결론이 된다. 즉 차트가 찌그러져 있다고 말하는 것보다 훨씬 과학적이고 검증 가능한 방법이라는 것.

그리고 참고로 자료를 다룰 때 개인적으로 차트는 사용하지 않는다. 차트로 나타낼 수 있는 자료란 생각보다 한정적이고 더불어 차트는 시각적 효과가 강하기 때문에 의사결정에 영향을 미칠 소지가 다분하기 때문이다. 그래서 확인된 결과를 참고용으로 보여줄 때에만 가끔 사용할 뿐이다.

물론 그 전에 자료가 어떻게 생산되었고 처리되었는지 알고 있는 것이, 즉 원시자료(raw data)를 이해하는 것이 무엇보다도 중요하다. 거기에 덧붙여 시쳇말로 '와꾸'라는 문서 형식도 거의 사용하지 않는다. 문서 형식을 사용하다 보면 자료 처리하는 시간보다도 더 걸린다. 심지어는 백분율 기호도 사용하지 않는데 차트를 사용했다는 건 진짜 대단한 거다.

여기서 끝내기는 좀 거시기(?) 해서 세부 연령대에 대해서도 살펴보자. 연령대 중에서 25~29세를 훑어보자. 조사로 확인된 가입률은 아래와 같은데, 이후부터는 가입률 대신 시장점유율로 쓰겠다.

좀 차이가 느껴지는 것 같은데, 이번에는 적합도검정을 적용해 보겠다. 참고로, 적합도검정과 동일성검정은 의미는 다르지만 사용분포 및 계산과정은 대동소이하다. 그래서 함수도 Chitest를 같이 사용한다.

P값이 유의수준 0.01보다 작으므로 강하게 귀무가설을 기각하게 된다. 이를 좀 풀어서 얘기한다면 25 ~ 29세 연령대의 이동통신사별 시장점유을은 전체 시장점유율과 다르다는 것이다. 즉 어떤 이유에서인지는 시장조사 등을 통해 더 확인해야겠지만 해당 연령대의 소비자들은 전체 소비자와 다른 선택을 했다는 것이다. 이쯤되면 어떤 회사에서 전체와 다른 차이가 발생되는지를 파악할 이유가 생긴다.

빈도에서 기대빈도를 단순하게 빼보면 SKT는 긍적적으로, LGT는 부정적으로 나타나는 것을 볼 수 있고, KTF는 통상적인 수준을 유지하는 것으로 보인다. 이 때 SKT는 43만큼, LGT는 -51만큼 벌어졌는데, 어느 이동통신사의 영향이 더 클까?(물론 앞서 검정 결과가 유의미하다는 전제 하에서)

혹시나 해서 차트를 그려 봤는데 감을 더 못 잡겠다. 음수만 없었더라면 좋겠지만 차이 값들의 합계는... 그래서 차이를 다르게 구해본다면,

빈도에서 기대빈도를 뺀 값을 제곱한, 조금 변형된 차이라고나 할까. 그런데 뭔지 모르겠지만 필이 팍~하고 꽂힐 것만 같다. 이를 차트로 그려보면,

좀 전 차트보다는 확연한 차이를 보여준다. 그렇다면 제곱이 아니라 세제곱을 한다면 더 확실질까? 그런데 세제곱은 하지 말자. 음수가 나타나기 때문이다. 그럼 네제곱은? 그것도 하지 말자. 수치상으로는 차이가 좀 더 확연히 나타나겠지만 이미 제곱에서 결판이 났기 때문에 이는 사족이기 때문이다. 그리고 제곱을 했다는 것은 쉽게 말해 분산을 적용하겠다는 의도인데 세제곱, 네제곱은 분산이라는 의미를 부여할 수 없을 뿐더러 공식도 없다.

아무튼 25 ~ 29세에서는 전체와 다른 시장점유율 차이가 나타났는데, 이는 SK텔레콤과 LG텔레콤에서 기인한 것이고 LG텔레콤의 점유율 차이가 상대적으로 더 크게 반영되었다고 할 수 있다. 즉 SK텔레콤은 선전했고, KTF는 그냥 그랬고, LG텔레콤은 고전을 면치 못했다는 얘기가 되겠다.

아래는 연령대 각각에 대한 적합도검정을 한 결과다.

여기서 '중고등학생'에게서 KTF가 상대적으로 좋은 반응을 얻고 있다는 건 중고등학생에 대해 특화된 전략이 수립/시행되고 있다고 보는 게 적절할 것 같다. 그리고 30 ~ 59세까지의 연령대에서는 전체 점유율과 차이가 없는 것을 보여주는데, 이는 (1) 각 이동통신사들이 해당 연령대에 대한 별도의 전략이 없든지, (2) 전략은 있지만 시장 자체가 유혈이 낭자하는 전쟁터라든지, (3) 그도 아니면 해당 연령대 소비자들의 취향을 제대로 인지하지 못하고 헛다리 짚고 있다든지 중 하나가 아닐까 한다.

참고로 본 내용도 앞서 얘기했듯이 필자 멋대로 작성되었기에 사실과 다를 수 있고 더구나 어떤 테크닉(?)을 보여주기 위한 것도 아니다. 단지, 자료를 분석할 때 통계적 시각으로 접근하는 방법도 있다는 것과, 원시 자료를 먼저 이해하기를 바란다는 것 외에 그 이상도 이하도 아니니 오해 마시길...

들어가기 전에

(주의) 해당 자료는 인용 과정에서 오류가 있을 수 있습니다.