• 최초 작성일: 2008-05-20
  • 최종 수정일: 2008-05-20
  • 조회수: 7,566 회
  • 작성자: 무지개타고
  • 강의 제목: 군집분석 하다가 대략난감

엑셀러 권현욱

들어가기 전에

'통계'라고 하면 여러분은 어떤 생각이 드시나요? 저는 개인적으로 좋은 기억보다 그렇지 않은 기억이 많습니다만, 최근 들어 통계를 좀 더 공부해야겠다는 생각을 많이 하고 있습니다.

이번 시간에 함께 할 주제는 '무지개타고'님의 재미있는 통계이야기입니다. '무지개타고'님은 '통계로 세상보기'라는 블로그(https://onrainbow.tistory.com/)를 운영하고 있기도 합니다. 특유의 위트와 재미가 있는 통계 강의에 빠져보시기 바랍니다.


  • 이 페이지의 저작권은 콘텐츠 제공자에게 있습니다.
  • 본문 내용은 필자 개인의 견해이며 아이엑셀러 닷컴 공식 의견과 일치하지 않을 수도 있습니다.

다른 나라와 비교 했을 때 우리나라 정부에 대한 신뢰도가 바닥이란다.

기사 내용 중 '정부신뢰' 비율과 '정부 이익집단 대변' 비율을 간단히 정리해 본다.

로딩 중...
(주의) 해당 자료는 인용 과정에서 오류가 있을 수 있음.

두 변수간에 음의 상관관계가 나타나고 있다. 즉 특정 이익집단에 치우치는 정부일수록 정부에 대한 신뢰도는 떨어진다는 것인데, 우리나라가 도대체 어디로 가려고 하는지 걱정하지 않을 수 없다. 4·19도 아닌데 중고등학생이 길거리로 나오는 지경까지 돼버렸다.

정부 탓만 할 것도 아니다. 세금 제대로 안 내고, 원산지 속이고, 남들 하니까 나도 한다는 식의 국민이 넘쳐나는 마당이니 따로 할 말도 없다.

그건 그렇고, 위의 차트를 이용해 간단한 그림을 그려볼까 한다. 뭐 대단한 그림은 아니고, 근접해 보이는 국가들끼리 묶어주는 작업이다.

로딩 중...

이렇게 그룹핑을 해 놓고 보니 A와 B, C와 D가 상대적으로 근접해 보인다. 그럼 이네들을 또 묶어 줄까? 선택은 분석자의 몫이다.

로딩 중...

이번엔 가, 나, 다, 라 묶음이 근접해 보인다. 또다시 그룹핑 해보자.

로딩 중...

그림을 열심히 그런 것 같은데... 이게 뭐지? 통계에서는 이를 군집분석 Cluster Analysis이라 하는데, 심히 '안' 인간적인 분석되겠다. 머리가 따라주지 않아 모르기도 하지만 다변량 분석이 대부분 그러하듯, 계산이 복잡하고 해석도 어려우며 분산이 비대하게 증가한다. 보기에는 그럴싸 해도 막상 접하면 시름만 쌓인다.

여기선 변수가 x, y 두 개고 자료도 십여 건에 그쳐 그나마 차트를 이용해 묶어줄 수 있었지만 어떤 것은 수십 개의 변수와 몇백 건의 자료로 구성되어 있어 차트를 이용한다는 건 거의 불가능하다.

로딩 중...

물론 계산하는 공식은 있으나 수작업으로 한다는 건 정신 건강에 상당한 지장(?)을 초래할 수 있으므로 통계프로그램을 이용해서 처리하면 아래와 같은 그림을 얻게 된다. 참고로 이런 그림을 덴드로그램 dendrogram이라고 한다.

로딩 중...

눈대중으로 그린 것과 조금 차이가 발생했다.

최종 묶음을 몇 개로 할지는 분석자가 정하면 되는데 a, b 두 묶음으로 하면 간단하긴 하지만 a 묶음이 너무 포괄적이게 된다. 그래서 가, 나, 다, 라, b 이렇게 5개 묶음으로 정할까 한다(그런데 이걸 어떻게 해석하지?).

해석은 각 묶음에 속한 관찰값의 공통된 속성을 찾아내는 방식인데 우리나라와 멕시코, 우크라이나의 공통분모가 뭐야? 터키와 인도, 아제르바이잔의 공통분모는 또 뭐고? 중국과 이집트의 공통분모는 뭐지? 그리고 미국과 나이지리아는 또 뭐고?

서로 근접해 있다는 것은 공통된 뭔가가 존재할 가능성이 높다는 것인데, 우리나라도 제대로 모르겠구만 다른 나라 사정을 어떻게 알아내어 해석할 지 대략 난감이다.