Exceller's Home > 사용자 제공 자료

'무지개타고'님의 통계강좌

- 최초 작성일 : 2008-05-02
- 최종 수정일 : 2008-05-02

- 강좌 읽음수 : 3,908회
- 자료 작성자 : 무지개타고 (조석현님)

- 자료 편집자 : Exceller (권현욱, exceller@amorepacific.com)

강좌 제목 : 통계로 세상보기 - (54) 조합 찾기

 

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(http://instatistics.officetutor.org/)를 운영하고 있기도 합니다. 위트와 재미가 있는 통계강좌에 빠져보시기 바랍니다.


예제 파일 내려받기


건설교통부 아니 국토해양부의 아파트 실거래가 공개 자료를 참고해 뭐 좀 구해볼까 한다. 구하고자 하는 대상은 별 거 아니다. 노원구 내 아파트의 단위면적당 거래금액이 아파트 이름(단지)과 (전용)면적에 따라 차이가 있나 없나를 알아볼까 한다.

단순한 논리로 보면 주거 면적에 상관없이 그리고 단지 이름에 상관없이 단위면적당 거래금액은 동일해야한다(일전에 얘기 했듯이 귀무가설은 평등한 거다). 그러나 실제로는 동일하다고 보기 어려운 게 또한 현실이다. 그래서 궁금증이 생기는거고...

이런 궁금증을 풀고자 아파트 실거래가 자료를 분석하려는데... 아파트 거래가격에 미치는 요인은 무수히 많이 있을 것이나 해당 사이트를 통해서는 얻을 수 있는 정보는 "주소, 단지명, 면적, 거래일, 거래금액, 층" 뿐이다. 물론 다른 출처를 이용해 더 많은 자료를 참고할 수 있겠지만 언제나처럼 그럴 정도의 열의도 없고 그에 따른 분석 모형도 모르니, 한정된 정보고 자료 취합의 험난함(?)을 고려해 자의적으로 단지와 면적을 처리 요인으로 선정하겠다(주소 정보를 이용하면 좀더 '혹' 하겠으나 그렇게 되면 거의 모든 거래 자료를 입력하고 추출해야 되므로 혼자서 처리하기엔 버거운 양이다).

그리고 분석 방법은 반복이 있는 이원배치법을 적용하려한다. 원래 이원배치법은 실험실 같이 통제된 환경 속에서 실험 요인이 유의미한지 아닌지를 검토하는 분석 방법인데, 실제 생활 속에선 환경을 통제하기란 거의 불가능에 가깝기 때문에 통제되지 못한 환경에서 얻은 자료가 기본 가정(무작위성, 오차~iid N(0,σ²))을 만족할 수 있을 것이라 기대하기는 어렵다. 그렇지만 실제 생활 속에는 통제해야될 요인들이 너무 많고, 또한 그 많은 요인을 반영하는 것이 최선이라 할 수 없기에... 그럼에도 불구하고 이원배치법을 적용하겠다. 단지 오차가 그외 요인들을 적절히 흡수해 주기를 바랄뿐...(이렇듯 난 현실과 잘 영합한다)

그리고 자료 처리는 연필이 아니라 엑셀을 이용한다. 통계 프로그램이 좀더 편리하지만 이정도 쯤이야...

선정한 요인 중 면적은 다양한 면적 중 많이 선호하는 것으로 여겨지는 60㎡ , 85㎡ 두 종류를 선택한다. 그리고 단지는 두 종류의 면적을 포함하고, 각각의 면적별 3월 거래가 2회 이상 존재하는 단지를 선택한다. 그 결과 단지는 8개가 선택되었다. 이렇게 하여 처리 대상은 노원구내 면적과 단지를 만족하는 최근 2회분 거래 자료다.

사설이 길었는데, 반복수가 2회인 이원배치법 결과는...

01
※주의 : 해당 자료는 인용 및 분석 과정에 오류 및 한계가 있습니다.

모든 요인에서 P값이 유의수준 0.05 보다 작으므로 단지와 면적 간에 교호작용이 존재하고, 주효과도 유의미한 것으로 나타났다(단, 가정을 만족했다면...). 사설은 한 움큼 떨고선, 결과는 너무(?) 단촐했나... 처리에 이용된 자료는 단지(8)*면적(2)*반복수(2) 이므로 총 32개다. 이를 각각의 집단별로 평균과 표준편차를 구하면,

02  

숫자만 나열되어 감이 잘 안 잡히나... 단지의 경우 표준편차가 많이 유동적인 것을 느낄(?) 수 있다. 그리고 라 단지의 평균이 상대적으로 높게 나타났다.

04  

단지가 서로 다른 경우 단위면적당 거래금액 평균의 차이가 크고 그에 반해 면적이 서로 다른 경우는 차이가 상대적으로 적다. 그런데 지금 하려는 분석은 이원배치법이므로, 단지와 면적을 동시에 고려해야 한다(즉 일원배치법 두번 하는 거와 다르다는 얘기).

03 

05 
06

차트에서 선이 서로 교차하는 것을 볼 수 있다. 이는 어떤 요인(A)이 다른 요인(B)과 결합하여 그 효과가 서로 다르게 나타나는 현상으로, 통계에서는 이를 교호작용이라 한다. 달리 말하면 이 회사 저 회사 아무나 합병한다고 양의 시너지가 발휘되는건 아닌 것처럼 두 요인이 결합한(A*B) 효과는 항상 일정한 방향으로 나타나는 것이 아니라 조합에 따라 서로 다른 방향으로 나타날 수 있다는 것이다(교호작용이 유의미하다는 것은 역으로 고민할게 많다는 얘기다).

어쨌거나... 이원배치법을 통해 아파트 단지와 면적 간에 교호작용이 유의미하다는 것과 주효과인 단지, 면적 또한 유의미하다는 결과를 얻었다. 이 결과 덕분에 '이제는' 말할 수 있게 된다.

{가 단지, 60㎡}가 상대적으로 저렴하고,
{라 단지, 85㎡}는 상대적으로 비싸다.
{가, 나, 다, 라, 바 단지}는 면적이 클수록 가격이 상대적으로 높으나,
{마, 아, 자 단지}는 면적이 클수록 가격이 상대적으로 낮다.

즉 면적이 넓다해서 항상 프리미엄(?)을 기대할 수 있는건 아니다. 그리고 면적은 단지와 함께 고려했을 때 유의미한 결과를 보인다(면적만으로 처리한 일원배치법이 유의미하지 않았던 것과는 상반되는 결과다). 그리고 95% 신뢰구간의 폭은 약 ±16.8 이다.

이렇게 썰(?)을 풀긴 했는데 한계가 많다. 특정 지역에 한정된 자료라 일반화할 수 없고, 이원배치법의 가정을 만족하지 못했을 가능성 또한 높다. 그리고 단지라는 정보에는 의도하진 않았으나 아파트 이름 외에 지역이라는 특수성이 내포되었을 가능성 또한 높다는 것에 주의 바란다. 이는 면적이 클수록 가격이 높은 단지 중에서 {가, 나, 다, 라 단지}는 공교롭게도 요새 말 많은 상계동, 중계동에 위치하고 있기 때문이다(험난해도 주소 정보를 이용하는 쪽을 고려할걸 그랬나 보다).

아무튼 결과적으로 내세우긴 어려운, 오류가 많이 내재된 분석 결과되겠다. -_-;;

참고로 이원배치법에 따른 자료 처리 방식을 모르는 경우라도 엑셀의 데이터분석에 등록된 분석 방식 중 '분산분석 : 반복 있는 이원배치법'을 활용하면 손쉽게 결과를 구할 수 있다(단, 자료 배치가 해당 기능이 요구하는 구성이라야 한다). 그렇다고 아무거나 돌리진(?) 말기 바란다. 컴퓨터란 단순해서 시키는대로만 처리할 뿐, 이게 떵인지 된장인지 분간하지 못하니...

 09 08


Previous

Next

Copyright ⓒ Since 2008 아이엑셀러 닷컴. All rights reserved.

이 페이지의 저작권은 컨텐츠 제공자에게 있습니다.

본 강좌의 내용은 필자 개인의 견해이며, 아이엑셀러 닷컴의 공식 견해와 일치하지 않을 수도 있습니다.