Exceller's Home > 사용자 제공 자료

'무지개타고'님의 통계강좌

- 최초 작성일 : 2008-09-01
- 최종 수정일 : 2008-09-01

- 강좌 읽음수 : 3,267회
- 자료 작성자 : 무지개타고 (조석현님)

- 자료 편집자 :

강좌 제목 : 통계로 세상보기 - (77) 짜증나는 원링 스팸

 

'무지개 타고'님의 통계 강좌를 시작한 지도 1년이 넘었군요. 우리 주변의 친숙한 주제를 통계와 접목하여 좋은 강의를 하고 계시는 무지개 타고(조석현)님께 다시 한번 감사드립니다. '통계로 세상보기' 블로그에 들르셔서 감사의 인사를 남기는 센스를 발휘하셔도 좋겠지요? ^^

통계로 세상보기 블로그


예제 파일 내려받기


간간히 원링 스팸으로 추정되는 전화가 온다. 내 개인정보가 유출됐던지 아니면 무작위 전화번호 생성기를 이용해서인지 간에 명X이 만큼이나 짜증나게 한다. 오죽 짜증났으면 이런 사이트도 있을라고... 스팸 전화번호 데이터베이스(www.missed-call.com)...

며칠 전 기사가 하나 걸렸다.

- 이통사들 "원링을 막아라"

기사에 따르면 KTF와 SK텔레콤에서 스팸을 필터링하기 위한 기준을 제시했는데...

이동통신사

기준

사용량

대응

환산 사용량

SK텔레콤

1시간

100건

수동

100건/시간

KTF

1일

1,000건

자동

42건/시간

환산 사용량을 봤을 때, SK텔레콤과 KTF간에 스팸 필터링 기준은 약 2.4배 차이 난다. 이 때 IT통계포탈을 참고하면, 2008년 6월 기준으로 각 통신사별 이동통신 가입자수는...

이동통신사

가입자

점유율

SK텔레콤

22,744,198

50.6%

KTF

14,165,262

31.5%

LG텔레콤

8,073,363

17.9%

※ 주의 : 해당 자료는 인용 과정에 오류가 있을 수 있습니다.

가입자수로 봤을 때, SK텔레콤은 KTF 보다 약 1.6배 많다. 그런데 스팸 필터링 기준은 2.4배? 이는 SK텔레콤 쪽에 더 많은 스팸이 발생되고 있다는 반증이 될 수 있을텐데... 만약 무작위 전화번호 생성기를 이용했다면 두 회사의 필터링 기준은 비슷했어야 하는데 시장점유율 보다 차이가 크다는 것은 무작위 전화번호 생성기가 아닌 유출된 개인 정보를 이용해 스팸을 보낸다는 썰(?)을 제기할 수 있을 것이다. 그리고 그 타겟을 SK텔레콤 가입자로 설정했을 가능성 또한 제기 할 수 있을 것이다. 결과적으로 SK텔레콤 가입자들이 좀더 짜증나는 상황에 몰렸다는 얘기.

그런데 이 썰(?)에는 가정이 있다. 실제 스팸 비율은 시장점유율과 유사했더라도 스팸 여부를 가려내는 방식이 회사마다 서로 다르거나 스팸에 대응하는 의지가 서로 다르다면 스팸 필터링 기준은 영향 받게 되므로, 이 두가지는 동일하다는 가정이 전제되어야 한다.

기사에 이동통신사의 원링 스팸 필터링 기준이 일정부분 공개됐는데, 내가 스팸 업자라면... 공개된 기준이 100건/시간, 1000건/일이므로 1건씩 제한 99건/시간, 999건/일로 하면 필터링 기준을 피할 수 있겠다는 생각을 당연히 갖게 될 것이다. 그런데 이동통신사에서 이런 역발상을 생각 못 했을리 없을테니 좀더 잔머리를 굴릴 필요가 있다. 이런 경우를 예상해보자.

자료의 평균이 10이다. 그럼 100 이하의 값이 나올 확률은?

P{X≤100|μ=10}

어떤 값이 나올텐데 미루어 짐작하길 상당히 높은 확률이 나올 것이다. 이번엔 자료의 평균이 1000이다. 그럼 100 이하의 값이 나올 확률은?

P{X≤100|μ=1000}

이번에도 어떤 값이 나오겠지만 상당히 낮은 확률이 나올 것이라고 미루어 생각할 수 있다. 만약 단위 시간당 발신 횟수의 분포가 포아송분포를 따른다고 가정한다면 아래와 같은 확률을 얻게 된다.

01 02

P{X≤100|λ=추정평균} = Poisson(100,추정평균,true)
P{X≤1000|λ=추정평균} = Poisson(1000,추정평균,true)

그런데 문제가 있다. 발신 횟수의 분포라 임의로 정의했지만, 그 평균이 60, 100 또는 800, 1000 일 가능성은 내 상식으로는 기대하기엔 너무 큰 수치다. 그래서 원링 스팸으로 의심되는 발신 횟수 정도로 변수 정의를 조정해야 된다고 보고, 그랬을 때 위의 자료는 원링 스팸으로 의심되는 발신 횟수의 추정평균에 따른  100 이하 또는 1000 이하가 나올 확률이 된다.

음... 내가 봐도 뭔 소린지 헷갈린다(-_-). 이럴 땐 명X이처럼 무시 전략으로 대충 비켜가고... (나쁜 건 언제나 빨리 배우고 또 빨리 퍼지게 되어 있다)

그런데 스팸 업자에게 필요한 정보는 'P{X≤100|λ=추정평균}에서 제한선에 걸리지 않을 추정평균은 얼마냐' 하는 것이다.

추정평균이 86 일때 100 이하가 나올 확률이 0.9382이다. 이는 역으로 원링 스팸으로 의심되는 다발신 횟수의 평균은 86 이라 할 때, 발신 횟수가 101 라면 유의수준 0.05에서 평균이 86 인 포아송분포를 벗어나는 것으로 의심 받을 수 있다. 즉 평균 86 일때 101 은 많은 발신 횟수라는 의심을 받게 된다는 것. 그러므로 원링 스팸의 추정평균은 86 일 가능성이 높다.

그러나 여기에도 함정은 있다. 유의수준을 얼마로 설정했느냐다. 통상 유의수준은 0.1, 0.05, 0.01 로 설정하는데, 유의수준 0.01 일때 추정평균은 80 이 된다(물론 유의수준을 다르게 설정할 수도 있다). 그래서 이것저것 고려했을 때, 필터링을 벗어나기 위한 시쳇말로 안전빵인 발신 횟수는,

P{X≤100|λ=80} = 0.9868 ⇒ Poisson(91,80,true) = 0.8988

이므로 91회 정도가 된다. 1000건/일 인 경우는,

P{X≤1000|λ=930} = 0.9890 ⇒ Poisson(968,930,true) = 0.8960

그러므로 스팸업자는 스팸용 전화번호 1개로 무한대에 가깝게 발신할 수 있던 것을 필터링으로 인해 한정된 수 밖에 처리할 수 없게 된다. 즉 스팸을 1만번 보낸다고 할시 기존에는 1개로 충분했지만 이제는 109개의 전화번호가 필요해졌다는 얘기(또는 소요 시간을 더 길게 잡아야 한다).

이렇게 멋대로 계산해 봤는데, 그래도 이익이 난다면 스팸 업자는 달려들 것이다. 그러면 이동통신사는 또 다시 필터링 기준을 강화하고 감시할테지...
즉 악순환이다. 전혀 비생산적인 곳에 인력과 자본이 투입되는... 그리고 이 모든 피해는 결국 소비자에게로 돌아간다.

얼마 전엔 밤 11시가 넘어 스팸으로 추정되는 전화가 딱 한번 울렸다. 이넘들은 예의도 없다. 오밤중에 스팸질이게...


Previous

Next

Copyright ⓒ Since 2008 아이엑셀러 닷컴. All rights reserved.

이 페이지의 저작권은 컨텐츠 제공자에게 있습니다.

본 강좌의 내용은 필자 개인의 견해이며, 아이엑셀러 닷컴의 공식 견해와 일치하지 않을 수도 있습니다.