본문 바로가기

Gos&Op

여론조사와 샘플링의 덫 Unsampling

 오늘 6월 2일의 지방선거 때문에 지금 여론조사가 한참입니다. (물론 천안함사건으로 인한 전쟁설이나 그로 인한 경제하강이 더 큰 이슈이긴 합니다.) 현재 여러 조사기관에서 각 지역별 후보들의 지지율을 발표하고, 또 각 후보들은 자신들에게 유리한 지지율데이터도 공개하고 있습니다. 현재 각 지역의 지지율에 관련된 신문기사들이 많기 때문에 별도의 수치나 링크는 생략하겠습니다. 그리고, 전국의 지지율을 언급하는 것도 문제가 있으니, 일단 수도권 (서울, 경기, 인천)만을 생각해보겠습니다. 현재 조사기관에 따라 수치는 조금씩 다르겠지만, 여당후보 (오세훈, 김문수, 안상수)들이 야당후보 (한명숙, 유시민, 송영길)를 5~10%정도 앞선 것으로 보도되고 있습니다. 그런데, 제가 의문을 가지고 있는 것은 인터넷 상으로 현재 정권의 무능과 부정에 대해서 많은 이들이 질타하고 있고, 반여친야성향이 인터넷 공간에서는 늘리 퍼져있다는 것입니다. 이런 공감대에서 여당후보들이 5~10%이상의 큰 격차로 선두를 지키고 있다는 것이 참 의아하다는 것입니다. 그래서, 다음검색에서 검색트렌드를 보았습니다. 검색트렌드는 다음검색창에 입력된 검색어들의 최근 추이를 보여주는 서비스입니다. (검색트렌드 바로가기: 한명숙 vs 오세훈, 유시민 vs 김문수, 송영길 vs 안상수) 이상의 결과들에서 보듯이, 앞선 여론조사에 반해서 야당후보들의 인기가 여당후보들의 그것보다 더 높다는 것을 알 수가 있습니다. 앞의 여론조사와 후의 인터넷 검색트렌드 중에서 어느 것이 진실에 가까운지는 실제 6월 2일이 지나봐야 알 수가 있습니다. 그런데, 현시점에 말할 수 있는 것이, 전화를 통한 여론조사던 인터넷 검색창의 검색트렌드던 모두 bias가 있다는 것입니다. 즉, 샘플링을 어떻게 하느냐에 따라서 (그리고, 설문내용을 어떻게 정하느냐에 따라서) 여론결과가 많이 차이가 난다는 것입니다.

 샘플링의 오류에 의한 잘못된 여론조사의 가장 대표적인 예로 1936년의 미국대선입니다. 당시에 갤럽과 리터러리 다이제스트라는 인기있는 잡지는 1000만명의 시민들에게 대선에서 누가 승리할 것인지에 대한 설문엽서를 보냈습니다. 결과는 랜든이 57%의 지지율로 43%를 얻은 루즈벨트에 압승을 할 것이라고 예측을 했습니다. (실제 236만명의 응답을 받음) 그런데, 실제 대선의 결과는 루즈벨트가 62%의 득표률을 얻어서 대통령으로 당선되었습니다. 왜 이런 여론조사의 결과와 실제 선거의 결과가 많이 달랐을까요? 그것은 바로 갤럽과 리터러리 다이제스트가 엽서를 발송한 1000만명의 표본집단에 있습니다. 그들은 당시에 전화가입 및 자동차 소유자에서 1000만명의 설문인단을 임의로 선정하였습니다. 임의로 샘플링하는 것은 여론조사의 전형이지만, 그들의 실수는 표본집단을 전화 및 자동차 소유자 중에서 선택했다는 것입니다. 즉, 당시에 전화 및 자동차를 소유하고 있다는 것은 중산층 이상의 부를 소유한 집단입니다. 현재도 비슷하지만, 중산층 이상의 부유층들은 민주당보다는 공화당을 선호합니다. 그렇기 때문에 공화당 후보인 랜든이 압승할 것이라는 여론조사결과가 나왔습니다. 그런데, 실제 투표에서는 여론조사의 대상이 될 수 없었던 전화나 자동차를 소유할 수가 없는 중하층들의 성향이 반영이 되어, 민주당 후보인 루즈벨트가 대통령으로 선출이 되었습니다. 그리고, 최근의 미국 대선에서도 샘플링의 오류가 발생했다. 1936년과 같은 갤럽조사는 아니었지만, 인터넷의 성장과 함께 붐을 일으켰던 전 버몬트 주지사인 하워드 딘의 얘기다. 그는 인터넷에서 스타였고, 그래서 마치 민주당 대선후보 (& 대통령)가 될 기세였다. 그러나, 그의 추종자들만이 밋업 meetup에 모여들었다. 성향이 비슷한 이들 사이에 발생하는 이런 집단현실왜곡이 샘플링의 오류의 일종이다.

 이런 샘플링의 오류가 현재의 수도권후보들에 대한 지지율이나 다음검색의 트렌드차트에 그대로 반영이 된 것같습니다. 현재 여론조사는 대부분 유선전화에 의존합니다. 즉, 낮시간에 유선전화를 받을 수 있는 경우 (회사로 전화오지 않는 이상)는 대부분 가정주부나 노년층입니다. 가정주부의 경우에 그 성향은 잘 알 수가 없으니, 현재 노년층의 경우 여당에 편향된 경우가 많이 있습니다. 역으로, 남성투표자들이나 청년층에 대한 여론성향이 전화여론조사에서는 반영이 되어있지 않을 가능성이 높습니다. (대단으로, 핸드폰으로 여론조사를 시도하는 것도 괞찮을 것으로 보입니다.) 그리고, 다음검색의 경우에는 역으로 인터넷 사용인구가 전화조사와 반대가 된다는 것입니다. 대부분 젊은층이 컴퓨터/인터넷에 익숙하고, 아직까지 일반가정에 고속인터넷이 설치되지 못한 경우도 많아서 인터넷 사용자층이 (회사에서 인터넷에 접속하는) 남성의 비율이 상대적으로 높을 것으로 예상이 됩니다. (사회생활을 하는 경우, 후보자들이 쏟아내는 단순한 홍보전단이나 주장을 받아들이기보다는 동료, 친구들과 다양한 의견을 주고받고, 또 다른 과거 데이터를 조회해볼 가능성도 높기 때문에 투표의 결과가 단순치는 않을 것입니다.) 이런 사용자층의 문제도 있지만, 지역에도 문제가 있습니다. 여론조사의 경우, 해당 지역에 거주하는 유권자들로 한정이 되지만, 인터넷에 접속하는 사람들은 해당 지역을 벗어나서도 검색을 해볼 수가 있기 때문에 실제 해당 지역의 여론추이와 다를 수가 있습니다. (그런데, 다음검색의 검색트렌드에서 '지역'탭을 눌러보면, 해당 지역에서의 검색결과도 여당후보보다는 야당후보들에 대해서 더 많은 검색을 해봤다는 것을 알 수가 있습니다. 단순히 IP로 매핑된 예측값이라 실제와 조금 오차는 있을 수 있습니다.) 그리고, 또 하나 우려되는 부분은 동명이인의 존재도 검색결과에 문제를 일으킵니다. 그런데, 현재 동명이인으로 오인될 수 있는 이는 인천시의 여당후보인 안상수씨밖에 없습니다. (실제 검색트렌드에서 2달 전에 안상수씨의 검색추이가 높았던 것은 인천시장 후보인 안상수씨가 아니라, 봉은사문제를 일으킨 한나라당 원내대표인 안상수씨에 대한 검색결과입니다.) 여론조사에서와 검색트렌드에서 공통으로 나타나는 것이 바로 샘플링 오류입니다. 이런 샘플링 오류를 완전히 상쇄시켜서 실제 여론의 추이와 가장 비슷하게 예측할 수 있는 방법이 있을까요? 그런 방법이 있다면 '대박'... (물론 방법이 없는 것은 아닙니다. 전체 유권자들을 모두에게 설문조사하는 것입니다. 그래도, 설문지를 어떻게 만드느냐에 따라서 결과가 또 많이 달라집니다.) 어쨌던 현재로써는 6월 2일이 되어, 실제 득표률을 확인해보는 수밖에 없을 것같습니다.

  * 참고로, 인터넷 검색트렌드를 이용해서 다양한 사회현상을 분석하는 것은 일반적인 방법론이 되었습니다. 대표적으로 HitWise나 comScore같이 인터넷 트래픽을 수집,조사, 분석하는 전문회사들이 있습니다. 그리고, HitWise에서 글로벌 리서치 총괄담당인 빌 탠서 Bill Tancer는 이런 내용을 기반으로 <검색의 경제학 Click>이라는 책을 발표했습니다.

 ** 검색트렌드의 그래프를 캡쳐해서 글에 삽입하는 쉬운방법이 있었지만, 어제 읽은 Nicholas Carr의 Wired 기고문에 영감을 얻어서 이 글을 읽는 분들의 집중력, 더 깊은 사고, 연관 사고에 도움을 주기 위해서 일체의 그림을 넣지 않았습니다. Nicholas Carr의 The WEb Shatters Focus, Rewires Brains 참조.

 *** 덧, 만약 이번에 여론조사가 아니라 검색트렌드가 더 예측력이 높다면, 국내외 모든 여론조사기관들은 이제 뭘 하고 살아야 하나? 요즘 잘 하는 교묘한 설문지 만들기를 십분 활용해서 천안함 합조단같은데랑 공조하면 될 것같다.

반응형