HOME > 사용자 제공 자료 > 통계로 세상보기

'무지개타고'님의 통계강좌

- 최초 작성일 : 2008-12-12
- 최종 수정일 : 2008-12-12

- 강좌 읽음수 : 3,028회
- 자료 작성자 : 무지개타고 (조석현님)

- 자료 편집자 :

강좌 제목 : 통계로 세상보기 - (96) 새로운 신디케이트 조사 - 첫번째

 

'무지개 타고'님의 통계 강좌를 시작한 지도 1년이 넘었군요. 우리 주변의 친숙한 주제를 통계와 접목하여 좋은 강의를 하고 계시는 무지개 타고(조석현)님께 다시 한번 감사드립니다. '통계로 세상보기' 블로그에 들르셔서 감사의 인사를 남기는 센스를 발휘하셔도 좋겠지요? ^^

통계로 세상보기 블로그


예제 파일 내려받기


이번 강좌는 약간의 인내력이 필요해 보입니다(그림은 하나도 없고 죄다 글씨만... ^^;). 하지만 참고 견디다 보면 언젠가 좋은 날이 오리라 믿고 읽어 보세요.

인터넷에서 검색해보니 유비쿼터스와 위치기반 서비스라는게 간간이 보인다. 아마도 공간과 무선통신이 융합된 시대의 도래를 예언하는 단어처럼 느껴진다. GPS를 이용해 동선을 파악하면 무엇을 얻을 수 있을까?

우선 직접적으로 이동경로를 알 수 있을 것이다. 그리고 이동시간을 알 수 있겠다. 경로를 거리로 환산하고 이를 이동시간으로 나누면 이동속도를 알게 된다. 이동속도가 빠르다면 휙~ 지나간 것이고, 이동속도가 느리다면 어떤 공간에 머문 것이다. 물론 머물거나 지나갔다는 판단을 어떤 기준으로 할 것인지는 매우 중요하다.

하여튼... 이렇게 이동경로, 이동거리, 이동시간, 이동속도, 거주시간을 알게 됐고 이를 시계열로 쌓으면 재방문율이라는 측도가 나온다. 재방문율이 높다든지 또는 낮다는 것은, 그 공간에서 어떤 행동(?) 또는 서비스를 이용했는진 모르지만, 해당 공간이 갖는 필요성 및 만족도와 연관되어 있을 가능성을 충분 제기할 수 있을 것이다.

이때 문제가 있는데, 집 또는 직장(영업장,학교,학원 등)은 거주시간도 길고 재방문율 또한 높게 나올 것이다. 즉, 집 또는 직장이라는 공간은 만족 여부를 떠나 절대적 필요성을 갖고 있는 공간이다. 그러므로 집 또는 직장이라는 공간이 갖는 영향력을 어떻게 반영할 것이냐가 중요한 이슈가 될 것이다. 물론 가장 중요한 이슈로 공간을 어떻게 정의할 것이냐가 있을 것이다. 공간은 보이는 또는 보이지 않는 울타리(경계선) 안에 놓여져 있는데 이를 어떻게 나타낼 수 있을까?

이를 중요하게 생각하는 이유는 이렇다. 울타리 내에서만 이동했다면 동일 공간에 머문 것이라고 판단해야 되는데, 문제는, 그 울타리를 모두 나타낼 수는 없다는 것이다. 물론 측량 자료가 있으면 좋겠지만 세세한 측량 자료의 존재는 기대하고 어렵고, 있다손 치더라도 비용이 문제고 갱신주기가 또 문제다.

그렇게 봤을 때, 측량 자료는 한계가 많다. 이보다는 이동경로와 거주시간을 이용해 공간을 나누는 것이 좀더 현실적이지 않을까? 물론 공간이란 상대적이므로 작은 공간도 있고 넓은 공간도 있기 마련이니 기준을 어떻게 정의할 것이냐, 그리고 어떻게 측정할 것이냐는 엄청난 숙제로 남는다. 무식하면 용감하다고, 동선에 대한 개념이 전무한 상태에서 출발하다보니... 완전히 소설을 쓰고 있다. -_-;;

어쨌든 이동경로, 이동거리, 이동시간, 이동속도, 거주시간, 재방문율이 산출되었고 또 뭐가 나올 수 있을까? 동일 공간에 얼마나 많은 사람이 위치하고 있는지 이용자수를 나타낼 수 있겠다. 그리고 좌표에 따른 통행량도 구할 수 있겠다. 그리고 이동경로를 통해 어떤 공간이 진행방향의 좌우에 있는지도 알게 된다. 이렇게 해서 이동경로, 이동거리, 이동시간, 이동속도, 거주시간, 재방문율, 공간규모, 이용자수, 통행량, 접근방향 이라는 정보가 나왔다. 그 외에도 여러 측도가 나올 수 있겠지만... 대충 떠오른 건 이 정도다.

이들 측도를 1차 측도라 한다면 1차 측도 중 어떤 정보를 분자와 분모로 하는지에 따라 2차 측도가 산출된다. 이용자수를 공간규모로 나누면 단위면적당 이용자수가 나온다. 이동시간을 거주시간으로 나누면 충성도가 나온다. 이용자수를 통행량으로 나누면 접촉률이 나온다. 물론 충성도 및 접촉률 등은 어떻게 정의할 것이냐에 따라 계산 방식은 달라질 수 있지만 말이다.

이렇듯 1차 측도가 집계되면 2차 측도는 쉽게 계산되는 만큼, 누차 말했듯이 1차 측도를 어떻게 정의할 것이냐는 매우 중요하다. 어설프게 정의했다가는 화살되어 돌아올 것이다. 그리고 정의된 측도를 기술적으로 얼마나 정확히 측정할 수 있느냐 또한 중요할 것이다. 측도의 정의대로 측정 가능한, 아주 이상적 상황이라고 가정한다면... 어려운 단계를 마쳤으므로 마냥 해피할거 같지만, 갈 길은 아직도 태산이다. -_-;;

취합된 자료를 집계할 때, 어떤 기준으로 집계할지를 결정해야 한다. 우선 조사대상이 개인인 만큼 개인정보를 집계 기준으로 사용할 수 있겠고, 동선을 취합하므로 동선상에 존재하는 공간의 산업분류가 집계 기준으로 유용하겠고, 시계열 자료이므로 시간 또한 집계 기준이 될 것이다. 그리고 또 뭐가 있을지는 좀더 생각해봐야겠다(집계와 분석은 서로 다른 것인데, 분석은 집계 보다 많이 복잡하므로 숙제로 미루고...).

우선 개인정보는 성, 연령, 학력, 거주지, 직업, 소득, 혼인, 가구원수 등이 주로 사용된다. 물론 이중에서 차별성을 보이지 않는 변수는 집계과정에서 제외하면 된다. 그러나 시시콜콜한 것 까지 본조사에 포함시킨다면 조사에 참여하는 개인도 불편하고, 한번 정해진 변수는 계속 조사해야 되므로 조사 담당자도 불필요한 업무를 지속해야 되니 낭비가 많다. 즉 사전조사 또는 유사조사 등을 검토해 필요로 하는 변수를 확정하는게 좋다(여기에 주택형태 및 주생활권역을 추가하면 좋아보이는군).

그리고 동선을 조사하는 만큼 머문 공간과 이동 공간도 보여줘야 하는데... 이는 좀더 복잡할 것 같다. 공간이란 좌표로 나타내게 되는데, 좌표는 실수이므로 무한대에 좌표가 발생하게 된다. 그러므로 좌표는 집계 기준으로 사용하기는 부적절해 보이니 산업분류를 사용하는게 좀더 현실적이지 않을까 한다.

음... 생각보다 훨씬 복잡하군... 머문 공간은 실사를 통해 산업분류가 가능할 것이다. 그러나 이후 사용자태도조사와의 연계를 위해 조사 참여자가 머문 공간의 산업분류 및 사업장명을 직접 기재하는 방법을 적용하도록 해야 될 것이다. 만약 이상적 상황으로 주소와 좌표 대조가 가능하다면 시간과 비용을 많이 절약할 수 있다. 그리고 사업자등록정보와의 연계도 고려해봄직 하다. 이렇게 되면 적어도 머문 공간 만큼은 분류가 된다. 퉁~친다면 행정구역 그리고 집, 일반사업장, 음식점, 소매점, 교육시설, 공공시설, 은행, 의료시설, 유흥시설, 정류소/주유소(?) 및 주요 체인사업장, 기타서비스사업장, 기타 등등. 그런데 복합시설은 어떻게 하지?

그건 그렇고... 머문 공간이 아닌 지나친 공간은 또 어떤 기준으로 집계하지? 그런데 '지나침(?)을 당한 공간을 집계한다는게 얼마나 의미가 있을까?'라는 의구심도 들고... 이건 숙제~~~

그리고 또 고려할게 시간이다. 이건 복잡하지만 쉽다. 시간은 실수이므로 특정 시점으로 나타내지 않고 일정 간격으로 묶는다. 시간대, 요일, 주, 월, 분기, 계절, 반기, 년 그리고 아침/낮/저녁/밤, 평일/휴일, 월주차 외에 음력도 적절히 반영하면 좋겠다. 이렇게 되면 측도에 성장률을 나타내는 전동기비 2차 측도들이 우르륵 추가된다. 즉 측도 생산이 아직 끝난게 아니다. 성장률 외에도 앞서 개인정보 및 공간에 대한 점유율도 주르륵 만들어야 한다.

그러나 이렇게만 해서는 기존 소비재 조사와 별 차별성이 나타나지 않는다. 동선 조사의 유용성을 보여줄 수 있는 새로운게 나와줘야 한다. 그래서 공간을 생활권역을 기준으로 나누는걸 한번 생각해봤는데 거주지 주변 몇미터, 주생활공간 주변 몇미터처럼. 이 외에도 어떤 공간의 주변 몇미터에 위치한 다른 공간을 보여주는 것도 가능하겠다. 이는 해당 사업장의 선호도 또는 경쟁력 및 산업조화(?) 등을 보려는 의도인데 패널 크기에 영향을 받지 않을까 좀 걱정 된다. 더불어 날씨와 연계해 보는건 또 어떨까? 날씨는 소지역 단위로 유의미한 결과를 보이긴 어렵지만, 환절기와 동선의 연계는 의미가 있을거 같은데 말이다. 뭐 이건 나중에 생각해도 된다. DB만 연결시키면 되니까.

아무튼 이쯤에서 대충 집계 기준 설정을 마쳤다면 끝? 끝날려면 아직 멀었다. 집계를 했으니 이젠 집계된 자료를 어떻게 보여줄 것인가도 고려해야 한다. 즉 엔드유저용 뷰어프로그램 개발시 자료를 표 형식으로 보여줄 것인가, 아니면 지도 위에 시각적으로 보여줄 것인가를 고민해야 한다. 서로 장단점이 있으니 둘 다 만들면 좋겠지만, 시각적으로 나타내려면 손이 많이 갈 것 같다.

기존의 지리정보서비스(GIS)를 접해보지 않아서 판단하긴 어렵지만, 만약 통계청이 제공하는 통계지리정보서비스(SGIS)와 유사하다면 결코 접목시키고 싶지 않다. 그 넓은 화면에 분류창은 너무도 비좁아 훑어보기 불편해 세분류는 눈에 들어오지도 않는다. 그리고 색감 하난 죽여줘서 뻘겋거나 푸르거나 둘 중 하나다.

네버엔딩 마냥 허접한 소설이 어째 끝이 보이지 않는다. -_-;


Previous

Next

Copyright ⓒ Since 2008 아이엑셀러 닷컴. All rights reserved.

이 페이지의 저작권은 컨텐츠 제공자에게 있습니다.

본 강좌의 내용은 필자 개인의 견해이며, 아이엑셀러 닷컴의 공식 견해와 일치하지 않을 수도 있습니다.