Share           Pin It
 오늘 6월 2일의 지방선거 때문에 지금 여론조사가 한참입니다. (물론 천안함사건으로 인한 전쟁설이나 그로 인한 경제하강이 더 큰 이슈이긴 합니다.) 현재 여러 조사기관에서 각 지역별 후보들의 지지율을 발표하고, 또 각 후보들은 자신들에게 유리한 지지율데이터도 공개하고 있습니다. 현재 각 지역의 지지율에 관련된 신문기사들이 많기 때문에 별도의 수치나 링크는 생략하겠습니다. 그리고, 전국의 지지율을 언급하는 것도 문제가 있으니, 일단 수도권 (서울, 경기, 인천)만을 생각해보겠습니다. 현재 조사기관에 따라 수치는 조금씩 다르겠지만, 여당후보 (오세훈, 김문수, 안상수)들이 야당후보 (한명숙, 유시민, 송영길)를 5~10%정도 앞선 것으로 보도되고 있습니다. 그런데, 제가 의문을 가지고 있는 것은 인터넷 상으로 현재 정권의 무능과 부정에 대해서 많은 이들이 질타하고 있고, 반여친야성향이 인터넷 공간에서는 늘리 퍼져있다는 것입니다. 이런 공감대에서 여당후보들이 5~10%이상의 큰 격차로 선두를 지키고 있다는 것이 참 의아하다는 것입니다. 그래서, 다음검색에서 검색트렌드를 보았습니다. 검색트렌드는 다음검색창에 입력된 검색어들의 최근 추이를 보여주는 서비스입니다. (검색트렌드 바로가기: 한명숙 vs 오세훈, 유시민 vs 김문수, 송영길 vs 안상수) 이상의 결과들에서 보듯이, 앞선 여론조사에 반해서 야당후보들의 인기가 여당후보들의 그것보다 더 높다는 것을 알 수가 있습니다. 앞의 여론조사와 후의 인터넷 검색트렌드 중에서 어느 것이 진실에 가까운지는 실제 6월 2일이 지나봐야 알 수가 있습니다. 그런데, 현시점에 말할 수 있는 것이, 전화를 통한 여론조사던 인터넷 검색창의 검색트렌드던 모두 bias가 있다는 것입니다. 즉, 샘플링을 어떻게 하느냐에 따라서 (그리고, 설문내용을 어떻게 정하느냐에 따라서) 여론결과가 많이 차이가 난다는 것입니다.

 샘플링의 오류에 의한 잘못된 여론조사의 가장 대표적인 예로 1936년의 미국대선입니다. 당시에 갤럽과 리터러리 다이제스트라는 인기있는 잡지는 1000만명의 시민들에게 대선에서 누가 승리할 것인지에 대한 설문엽서를 보냈습니다. 결과는 랜든이 57%의 지지율로 43%를 얻은 루즈벨트에 압승을 할 것이라고 예측을 했습니다. (실제 236만명의 응답을 받음) 그런데, 실제 대선의 결과는 루즈벨트가 62%의 득표률을 얻어서 대통령으로 당선되었습니다. 왜 이런 여론조사의 결과와 실제 선거의 결과가 많이 달랐을까요? 그것은 바로 갤럽과 리터러리 다이제스트가 엽서를 발송한 1000만명의 표본집단에 있습니다. 그들은 당시에 전화가입 및 자동차 소유자에서 1000만명의 설문인단을 임의로 선정하였습니다. 임의로 샘플링하는 것은 여론조사의 전형이지만, 그들의 실수는 표본집단을 전화 및 자동차 소유자 중에서 선택했다는 것입니다. 즉, 당시에 전화 및 자동차를 소유하고 있다는 것은 중산층 이상의 부를 소유한 집단입니다. 현재도 비슷하지만, 중산층 이상의 부유층들은 민주당보다는 공화당을 선호합니다. 그렇기 때문에 공화당 후보인 랜든이 압승할 것이라는 여론조사결과가 나왔습니다. 그런데, 실제 투표에서는 여론조사의 대상이 될 수 없었던 전화나 자동차를 소유할 수가 없는 중하층들의 성향이 반영이 되어, 민주당 후보인 루즈벨트가 대통령으로 선출이 되었습니다. 그리고, 최근의 미국 대선에서도 샘플링의 오류가 발생했다. 1936년과 같은 갤럽조사는 아니었지만, 인터넷의 성장과 함께 붐을 일으켰던 전 버몬트 주지사인 하워드 딘의 얘기다. 그는 인터넷에서 스타였고, 그래서 마치 민주당 대선후보 (& 대통령)가 될 기세였다. 그러나, 그의 추종자들만이 밋업 meetup에 모여들었다. 성향이 비슷한 이들 사이에 발생하는 이런 집단현실왜곡이 샘플링의 오류의 일종이다.

 이런 샘플링의 오류가 현재의 수도권후보들에 대한 지지율이나 다음검색의 트렌드차트에 그대로 반영이 된 것같습니다. 현재 여론조사는 대부분 유선전화에 의존합니다. 즉, 낮시간에 유선전화를 받을 수 있는 경우 (회사로 전화오지 않는 이상)는 대부분 가정주부나 노년층입니다. 가정주부의 경우에 그 성향은 잘 알 수가 없으니, 현재 노년층의 경우 여당에 편향된 경우가 많이 있습니다. 역으로, 남성투표자들이나 청년층에 대한 여론성향이 전화여론조사에서는 반영이 되어있지 않을 가능성이 높습니다. (대단으로, 핸드폰으로 여론조사를 시도하는 것도 괞찮을 것으로 보입니다.) 그리고, 다음검색의 경우에는 역으로 인터넷 사용인구가 전화조사와 반대가 된다는 것입니다. 대부분 젊은층이 컴퓨터/인터넷에 익숙하고, 아직까지 일반가정에 고속인터넷이 설치되지 못한 경우도 많아서 인터넷 사용자층이 (회사에서 인터넷에 접속하는) 남성의 비율이 상대적으로 높을 것으로 예상이 됩니다. (사회생활을 하는 경우, 후보자들이 쏟아내는 단순한 홍보전단이나 주장을 받아들이기보다는 동료, 친구들과 다양한 의견을 주고받고, 또 다른 과거 데이터를 조회해볼 가능성도 높기 때문에 투표의 결과가 단순치는 않을 것입니다.) 이런 사용자층의 문제도 있지만, 지역에도 문제가 있습니다. 여론조사의 경우, 해당 지역에 거주하는 유권자들로 한정이 되지만, 인터넷에 접속하는 사람들은 해당 지역을 벗어나서도 검색을 해볼 수가 있기 때문에 실제 해당 지역의 여론추이와 다를 수가 있습니다. (그런데, 다음검색의 검색트렌드에서 '지역'탭을 눌러보면, 해당 지역에서의 검색결과도 여당후보보다는 야당후보들에 대해서 더 많은 검색을 해봤다는 것을 알 수가 있습니다. 단순히 IP로 매핑된 예측값이라 실제와 조금 오차는 있을 수 있습니다.) 그리고, 또 하나 우려되는 부분은 동명이인의 존재도 검색결과에 문제를 일으킵니다. 그런데, 현재 동명이인으로 오인될 수 있는 이는 인천시의 여당후보인 안상수씨밖에 없습니다. (실제 검색트렌드에서 2달 전에 안상수씨의 검색추이가 높았던 것은 인천시장 후보인 안상수씨가 아니라, 봉은사문제를 일으킨 한나라당 원내대표인 안상수씨에 대한 검색결과입니다.) 여론조사에서와 검색트렌드에서 공통으로 나타나는 것이 바로 샘플링 오류입니다. 이런 샘플링 오류를 완전히 상쇄시켜서 실제 여론의 추이와 가장 비슷하게 예측할 수 있는 방법이 있을까요? 그런 방법이 있다면 '대박'... (물론 방법이 없는 것은 아닙니다. 전체 유권자들을 모두에게 설문조사하는 것입니다. 그래도, 설문지를 어떻게 만드느냐에 따라서 결과가 또 많이 달라집니다.) 어쨌던 현재로써는 6월 2일이 되어, 실제 득표률을 확인해보는 수밖에 없을 것같습니다.

  * 참고로, 인터넷 검색트렌드를 이용해서 다양한 사회현상을 분석하는 것은 일반적인 방법론이 되었습니다. 대표적으로 HitWise나 comScore같이 인터넷 트래픽을 수집,조사, 분석하는 전문회사들이 있습니다. 그리고, HitWise에서 글로벌 리서치 총괄담당인 빌 탠서 Bill Tancer는 이런 내용을 기반으로 <검색의 경제학 Click>이라는 책을 발표했습니다.

 ** 검색트렌드의 그래프를 캡쳐해서 글에 삽입하는 쉬운방법이 있었지만, 어제 읽은 Nicholas Carr의 Wired 기고문에 영감을 얻어서 이 글을 읽는 분들의 집중력, 더 깊은 사고, 연관 사고에 도움을 주기 위해서 일체의 그림을 넣지 않았습니다. Nicholas Carr의 The WEb Shatters Focus, Rewires Brains 참조.

 *** 덧, 만약 이번에 여론조사가 아니라 검색트렌드가 더 예측력이 높다면, 국내외 모든 여론조사기관들은 이제 뭘 하고 살아야 하나? 요즘 잘 하는 교묘한 설문지 만들기를 십분 활용해서 천안함 합조단같은데랑 공조하면 될 것같다.

댓글을 달아 주세요

  1. Favicon of http://blog.daum.net/hazzling BlogIcon nandaro 2010.05.26 22:22 신고 Address Modify/Delete Reply

    음~ 그렇군요 역시~ 음~
    관건은 젊은 층의 투표율인가? ㅋ

Share           Pin It
 지난 포스팅에서 블로그 검색최적화 SEO를 위한 제목정하는 팁/규칙에 대해서 간단히 적었습니다. 짧게 요약하면, 검색엔진에 최적화되는 것과 함께 블로그를 읽는 독자들에게도 최적화된 제목을 정해야 한다는 것입니다. 구체적인 팁으로 글자수를 10~20자 정도로 해서 한눈에 제목이 들어올 수 있으면 좋고, 제목은 글의 모든 내용을 포함/함축하면서 가능한 짧게/심플하게 핵심단어를 제시해야 한다고 적었습니다. 그리고, 가능하면 글의 컨텍스트를 알려줄 수 있는 태그를 제목에 함께 적는 것도 좋다고 했습니다. 오늘은 이런 추상적이고 원론적인 내용이 아닌, 좀 더 실용적인 practical 팁을 몇 가지 다루겠습니다. 그리고, 지난 글에도 밝혔지만 본 글은 우수한 컨텐츠가 검색엔진에서 또는 사람들에게 외면당하는 것이 아쉬워서 적은 글입니다. 즉, 정상적인 블로거들을 위한 글쓰기/제목정하기 팁입니다. 이 글의 내용을 악용하는 스패머/어뷰저들이 있을 것도 우려가 되지만, 더 나은 블로고스피어를 위해서 그래도 글을 적겠습니다. 스패머/어뷰저를 잡아내는 것은 서비스 제공자들의 역할이니, 우리같은 일반 블로거들은 즐겁게 글을 쓰고 소통과 대화를 나누면 됩니다.

 사람들이 많이 찾아오는 글을 적기 위해서 또는 그런 글의 제목을 정하기 위해서는 사람들이 어떤 글을 찾는지를 알아야 합니다. 그런데 이미 다음이나 네이버 등의 검색/인터넷 포털들은 이 물음에 대한 명확한 답변을 주고 있습니다. 첫번째는 바로 소위 '실시간급등어/이슈어'를 활용하는 것입니다. 이런 실시간 이슈어는 현재 많은 사용자들이 찾아보는 내용이기 때문에 해당 질의어를 만족시켜주는 글 또는 제목을 정한다면 블로그 트래픽이 많이 늘어날 것입니다. 그런데, 문제는 이런 모든 실시간급등어들에 대해서 글을 적을 수도 없고, 현재 적은 글이 이런 이슈어와 전혀 무관할 수도 있다는 점입니다. 보통 이런 실시간급등어를 이용하는 경우는 전문 스패머/어뷰저들이나 단순히 광고수익이나 얻으려는 소인배 블로거들이 주로 이용하는 방법입니다. 단기적으로는 트래픽이 몰려들겠지만, 장기적으로는 블로고스피어를 망하게 하는 방법입니다. 특별히 현재/이미 적은 글이 실시간 이슈와 연관이 된다면 글의 제목이나 태그에 이를 활용하면 좋겠다는 것입니다. 참고로 이런 실시간 급등어를 사용하는 스패밍/어뷰징이 최근이 많기 때문에 잘못 사용하면 실시간 어뷰저/스패머로 걸려서 블로그가 삭제되는 등의 불이익이 발생할 수 있기 때문에 선의의 사용만을 해주셨으면 합니다.


 두번째 방법은 검색엔진에서 제공해주는 서제스트 기능입니다. 서제스트기능은 (왼쪽 그림과 같이) 검색창에 키워드를 입력해주면 기존에 많은 유저들이 공통적으로 찾았던 검색어를 보여주는 기능입니다. 이런 서제스트에 등록된 검색어는 많은 사용자들이 꾸준히 검색을 하는 단어들입니다. 그렇기 때문에 앞으로도 비슷한 종류의 검색이 많이 이루어진다는 것을 유추할 수 있습니다. 위의 실시간급등어와는 달리, 이런 검색 서제스트에 등재되면 중장기적으로 꾸준히 검색이 발생된다는 점입니다. (참고로, 위의 실시간급등어의 경우 보통 하루 이틀 내에 검색수요가 급감하기 때문에 중장기적인 트래픽유도에는 큰 효과가 없습니다.) 그렇기 때문에, 현재 작성하고 있는 글의 키워드/핵심어가 이미 검색서제스트에 등록되어있는지를 확인해보는 것도 검색최적화에 도움이 될 것입니다. 그리고, 검색서제스트를 잘 찾아보면 훌륭한 블르그 제목들이 많이 발견됩니다. 위의 그림에서는 '다음검색 등록'이라는 서제스트를 이용해서 '다음검색 등록방법'이라는 블로그 글을 적는다면 SEO된 블로깅이 될 수 있습니다. 그리고, 이 방법도 단순히 광고수익을 얻기 위한 전문 스패머/어뷰저/낚시꾼들이 활동하기 때문에 잘못된 사용자로 오인받으실 수 있습니다.

 이상의 두가지 방법은 이미 잘 알려진 방법입니다. 실제 오늘 글을 적고 싶었던 이유는 바로 세번째 방법을 알려드리기 위합니다. 세번째 방법은 다음검색트렌드서비스를 이용하는 것입니다. 다음의 검색트렌드 서비스 URL은 http://trend.search.daum.net/SearchTrend/index.html 입니다. 아니면, 위의 실시간급등어 목록 상단에 보시면 '+' 마크가 있는데, 이걸 클릭하시면 접속하실 수 있습니다. 검색트렌드 서비스는 최근 하루, 일주일, 한달 등의 기간동안 많이 발생한 키워드들을 보여주고 성별, 지역, 나이별로 분석한 데이터를 제공해주고 있습니다. 실시간급등어 서비스의 확장판으로 보시면 좋을 것같습니다. 그런데, 이 검색트렌드를 확인해보시면 블로그의 타겟층을 확인하실 수 있습니다. 즉, 성별에 따라 많이 검색되는 키워드를 사용함으로써 남성을 위한 글 또는 여성을 위한 글 등을 구분해서 작성할 수 있고, 또 10대 20대 등의 나이대나 지역에 특화된 키워드를 뽑아낼 수 있는 장점이 있습니다. 그리고, 검색트렌드 창의 하단에 보시면 주요 카테고리별로 인기검색어들이 나열되어있기 때문에 자신의 분야에 맞도록 최근에 이슈가 되는 키워드들을 골라서 글을 작성하면 도움이 될 것입니다. 무엇보다도 블로거들을 위해서 가장 중요한 항목은 바로 상단메뉴바의 가장 오른쪽에 있는 '트렌드발견' 서비스입니다. (검색트렌드의 하단에도 나열되어있음) 여기에 나열된 트렌드발견의 검색어들은 꾸준히 발생하면서 정보성글을 위한 좋은 블로그 제목 SEO를 제공해주고 있습니다. 대략 여기서 나열하면,
  • 좋은 ~
  • 세계 ~
  • 우리나라 ~
  • ~ 가격
  • ~ 가는 길/(방)법
  • ~ 곳
  • (~ 다시보기): 이 키워드는 스패머로 몰릴 가능서이 높으므로, 주의해서 사용해야 합니다.
  • ~ 홈피
  • ~ 창업
  • ~ 펀드
  • ~ 추천
  • ~ 칼로리
  • ~ 요리범 / ~ 하는 (방)법
등의 키워드 패턴을 현재 작성중인 글에 맞도록 활용하면 꾸준한 트래픽을 유도할 수 있습니다. 참고로 트렌드발견에서 '@ ~'라는 것이 있는데, 이것은 다음에서 제공하는 '검색쇼'라는 서비스입니다. 검색쇼는 결혼, 기념일 등과 같은 개인이벤트를 검색창에 바로 공지/제공해주는 서비스로, 특정인을 위한 맞춤형 검색 및 댓글서비스로 보실 수 있습니다. 미리 검색쇼에 등록을 하시고, 청첩장에 '@XX결혼'을 입력해보세요와 같이 자신이 준비한 이벤트를 지인들에게 알려주는 기능입니다. 어쩌면, 작업용으로 사용될지도 모르겠네요. 이런 검색쇼를 이용한 감동의 이벤트를 준비하는 것도 좋은 글을 적는 것만큼 알찰 듯합니다.

 정리하면, 사람들이 많이 찾는 블로그를 만들기 위해서는 사람들이 즐겨찾는 키워드 또는 패턴/방법으로 글의 제목을 정하면 좋다는 것입니다. 지난 포스팅의 것과 오늘 말씀드린 내용을 잘 조합해보면, 확연히 좋은 결과가 있을 것으로 예상합니다. 그리고, 이 글 (그리고 다른 모든 블로깅 관련 글들)은 정상적인 블로거들을 위한 방법입니다. 이런 방법을 오용/남용하다가 스패머/어뷰저로 잡힐 수도 있으니 필요한 경우에만 활용하시기 바랍니다. 남들에게 보여주기 위해서 좋은 글을 정성들려서 적었는데, 아무도 않 찾아오는 것만큼 우울한 것도 없습니다. 검색 관련 업무를 주로 하다보니 이런 경우를 종종보기 때문에 주제넘게 이런 글을 적게 되었네요. 긴글을 읽어주셔서 감사합니다. 모두 즐거운 블로깅되세요.

 검토없이 한번에 쭉 적은 글이라서, 오탈자라던가 논리흐름이 어색한 경우도 있을 수 있습니다. 깊은 아량으로 웃고 넘어가주세요.

댓글을 달아 주세요

  1. Favicon of http://crossvillage.kr BlogIcon 우육 2010.01.20 10:00 신고 Address Modify/Delete Reply

    좋은 방법 잘 활용하도록 하겠습니다.^^

  2. Favicon of http://sys610.tistory.com BlogIcon 꽁보리밥 2010.05.18 19:53 신고 Address Modify/Delete Reply

    읽으면 읽을수록 공감가는 글들이고 정상적인 블로거를 아끼는 마음이
    담겨있군요.
    저같은 초보들이 님같은 분들을 만나는 것도 복이라 여겨집니다.
    주옥같은 내용들 잘 기억하고 질이 앞서는 브로그를 만들겠습니다.
    감사합니다.^^

  3. Favicon of http://omanina.tistory.com BlogIcon 다잘될꺼야요 2010.10.28 14:46 신고 Address Modify/Delete Reply

    아주 유용한 제목 팁이네요.
    블로그 제목 정하는 방법에 대한 글을 작성했는데~
    어여쁘게 엮고 가용~

    뭔가 웹적인 마인드가 충만하신 듯한 자주 올께요.

Share           Pin It
 오늘은 간단한 통계 또는 그래프를 보여주기 위해서 글을 적습니다. 제가 다음 (Daum Communications Corp.)의 검색본부에서 일을 하고 있는 것은 여러번 밝혔습니다. 데이터마이닝팀에서 약 1년 반을 근무했고, 지금은 업무내용은 크게 다르지 않지만 검색품질팀에서 반년정도 근무하고 있습니다. 주로하는 작업이 데이터를 처리해서, 랭킹요소발굴 및 랭킹개선 작업이라는 검색의 품질에 관련된 일들을 하고 있습니다. 그렇기 때문에, 다음검색창을 통해서 유입되는 다양한 검색키워드데이터 (또는 쿼리 데이터)라던가 클릭정보 등을 자주 분석하게 됩니다. 외국이 유수 인터넷 분석기관들 (닐슨, 히트와이즈, 컴스코어 등)은 주기적으로 검색과 관련된 다양한 통계자료를 공개하는 것이 내심 부러워서 항상 국내의 검색시장에 대한 간단한 요약정도는 블로깅을 해보고 싶었습니다. 물론, 국내에서 코리안클릭스 등과 같은 인터넷 트래픽을 분석해서 정보를 제공해주는 업체들이 있습니다. 이런 정보업체의 장점은 특정 포털에 편향되지않은 정보를 제공해준다는 측면에서 큰 의미를 가지지만, 역으로 전체 데이터가 아닌 일부만으로 전체를 추론하는 과정을 거침으로써 상당한 오류/오차범위를 가진다는 것입니다. 그러나 저의 경우, 적어도 다음검색창에 유입되는 전체 데이터를 분석할 수 있다는 장점이 있기에 오늘 간단한 통계치/글을 보여드리려 합니다. 물론 국내 검색의 6~70%를 차지하는 네이버의 데이터가 없다는 점이 못내 아쉽지만, 그래도 다음검색이 데이터만으로도 충분히 의미있는 결과를 보실 수 있으리라 기대합니다. 

 오늘은 아주 사소한 데이터만 보여드리고, 앞으로 기회가 있으면 더 자세한 또는 시계열 데이터를 보여드리겠습니다. 그리고, 이런 검색데이터도 나름 회사의 기밀사항이기 때문에 자세한 값을 공개할 수 없음을 미리 양해를 바랍니다. 그러나, 가능하면 분석방법이나 조건 등에 대해서는 자세히 알려드리겠습니다. 오늘 보여드릴 데이터는 2010년 1월 14일 (목요일)에 다음검색에 유입된 키워드들의 길이와 단어수를 정리한 것입니다. 참고를 위해서 2009년의 그것들도 그래프에 함께 그렸는데, 미리 말씀드리자면 2009년 1월의 데이터는 완벽한 데이터가 아니라 대략적인 경향성만을 보여줄 수 있는 매우 제한된 것이므로 크게 신뢰를 하지 않았으면 합니다. 회사정책상 이런 검색데이터를 장기간 보관할 수가 없어서 로그를 주기적으로 삭제를 하는데, 그래서 2009년도 1월의 완벽한 검색데이터가 존재하지 않습니다. 제가 분석한 2009년도 데이터는 우연히 분석서버를 정리하면서 발견한 것이어서 신뢰도가 크게 떨어집니다. (실제 검색량의 약 10%에 해당되는 데이터만 사용됨)

   검색 데이터 정제  
 
 분석에 앞서서 항상 선행되는 것으로 pre-processing이라는 전처리 과정을 거칩니다. 이번 분석을 위한 전처리는 사용되는 키워드의 종류와 수를 결정하는 것이라 보시면 됩니다. (단 2010년 데이터만 해당됨.) 우선 현재 다음이나 네이버 등이 검색포털들에서 발생되는 검색패턴을 이해가 필요합니다. 포털에서의 검색패턴을 크게 두가지로 정리하면, 검색창에 사용자가 직접 입력하는 경우와 실시간이슈 등과 같이 서비스제공자가 임의로 설정한 검색링크에 의한 경우로 나뉠 수 있습니다. 후자의 검색링크의 경우, 사업자가 설정한 것이므로 실제 사용자들의 검색패턴과는 거리가 있기 때문에 분석에서 제외시켰습니다. 그리고, 검색엔진에 유입되는 다양한 데이터를 보면 특정 업체에서 의도를 가지고 검색스팸/어뷰징을 하는 경우도 종종 발견되고 다른 무의미한 검색형태들이 있는데 이런 종류의 검색어들도 모두 걷어냈습니다. 그리고, 중요한 이슈로 한글검색어와 영문검색어가 조금 다른 형태를 보이기 때문에, 본 분석에서는 영문, 숫자, 또는 특수문자를 포함한 모든 키워드들을 분석에서 제외시켰습니다. 그래서, 최종적으로 사용된 키워드들은 사용자들이 입력한 것으로 생각되는 순수 한글 키워드들만을 사용했습니다. 추가로, 한 사용자가 동일한 검색어를 반복검색할 수도 있기 때문에 1인1키워드만을 대상으로 삼았습니다. 다른 부수적인 작업도 있었지만 생략하겠습니다.

   키워드의 길이   
 
 첫번째 보여드릴 데이터는 검색키워드의 길이 분포입니다. 키워드의 길이는 공백 (띄워쓰기)를 제외한 둔수 음절의 수로 정의했습니다. 아래의 그래프에서 파란색선이 2010년 데이터를, 빨간색선이 2009년 데이터입니다. 먼저, 2009년 데이터는 상당히 일부데이터만을 사용했고, 앞서 말한 전처리과정도 거치지 않았기 때문에 2010년 데이터와 모양에서 차이가 조금 나는 것을 보실 수 있습니다. 그래프에서 구체적인 숫자가 깨끗하게 프린트되지 않아서 생략했습니다. 2010년 데이터만을 본다면, 4음절 키워드가 전체의 약 20%로 가장 많이 검색된다는 것을 아실 수 있습니다. 그리고 3음절 단어가 약 18%, 5음절 단어가 16%, 6음절 단어가 12% 등의 3~6음절 단어가 전체 검색의 약 2/3 (67%)를 차지하고 있습니다. 7음절 단어를 포함하면 검색의 3/4를 3~7음절단어가 차지하고, 또 7음절 이하가 약 85%를 차지합니다. 2009년 데이터에서는 3~8음절 단어가 전체의 90%정도를 차지합니다. 단순히 그래프에서는 2009년도보다 2010년도에 단어의 길이가 줄어든 것같이 보입니다. 그러나 이미 말씀드렸듯이, 2009년 데이터는 분포의 대표성을 보장해주지 않기 때문에 단순히 아래의 그래프로만으로 2010년의 키워드 음절길이가 줄어들었다고 결론을 내리기에는 무리가 있을 것같습니다. (같은 논리로 보면 9음절이상의 단어들이 2010년에는 오히려 늘어났다는 결론을 내릴 수 있습니다.) 참고로, 히트와이즈나 컴스코어 등의 외국의 사례를 보면, 최근에 키워드에 사용되는 단어의 수가 증가하고 있다고 합니다. 검색엔진들의 성능이 좋아져서 긴 복합어에서도 좋은 검색결과를 보여주는 것과 함께, 검색 사용자들도 검색엔진에 익숙해져서 검색을 하는 방법이 많이 개선되었기 때문에 이렇게 검색어가 길어지고 있다고 합니다. 2009년 데이터를 비교하면서 한국에서도 이런 패턴이 발결될 것을 기대했지만, 불완전한 데이터를 사용함으로써 반대의 결과만을 보여주게 되었습니다. 어쩌면 2009년 데이터에서 검색사업자 (다음)이 설정해둔 다양한 링크검색의 수가 포함되었기 때문에 5~8음절 키워드들의 분포가 더 크게 나타났을 수도 있습니다. 실제 링크검색에서의 키워드는 1단어 또는 짧은 음절 키워드보다는 2~3단어의 복합키워드들이 많이 사용되기 때문에 아래와 같은 결과가 나온 것으로 유추를 할 수 있을 듯합니다. 그리고, 3음절의 단어가 많은 이유 중에 하나가 바로 사람이름을 검색하기 때문이 아닌가 유추해봅니다.

한국어 키워드 길이 분포


   키워드의 단어수  
 
 두번째로 보여드릴 데이터는 키워드에 사용된 단어수를 집계한 것입니다. 단어수를 측정하기 위해서 자연어처리 NLP (Natural Language Processing)의 형태소분석과정을 거쳐야겠지만, 아래의 데이터에서는 단순히 사용자가 입력한 키워드에서 공백 (띄워쓰기)를 기준으로 단어수를 측정한 것입니다. 아래의 그래프에서 보시듯이 1단어 키워드가 전체의 70%를 차지하고 있고, 2단어 이하가 90%이상을 차지함을 확인할 수 있습니다. 위에서 검색엔진이 개선되고 사용자들이 검색에 익숙해질수록 검색어의 길이 (또는 단어수)가 늘어난다고 말씀드린 내용과 어긋나는 결과입니다. 이런 결과가, 한국에서는 여전히 2단어 이하의 검색어를 주로 이용하고 있어서 한국의 검색엔진들의 성능이 아직 개선이 덜 되었거나 사용자들이 여전히 검색에 미숙하다는 그런 의미는 아닙니다. 영미권의 검색결과와 다른 점은 언어의 차이에서도 기인합니다. 영어권에서 단어의 띄워쓰기가 매우 중요하지만, 한국에서의 복합어는 경우에 따라서 띄워쓰기를 무시해도 의미전달에 차이가 없습니다. 예를들어, '다음검색'과 '다음 검색'이 큰 차이를 보이지 않습니다. 그렇기 때문에 사용자들이 굳이 힘을 들려가면서 검색키워드의 띄워쓰기를 하지 않는다는 것을 유추할 수 있습니다. 그리고, 검색엔진의 성능개선도 이런 1 단어 검색을 가능하게 해주고 있습니다. 즉, 앞서 말한 자연어의 형태소분석이 제대로 이루어지기 때문에 검색엔진에서 '다음검색'으로 입력이 되더라도 '다음 + 검색'으로 검색결과를 찾아주기 때문에 사용자들이 굳이 띄워쓰기를 하지 않는다고 보실 수 있습니다. 그런 의미에서, 또 사용자들의 검색엔진이 익숙해져서 1 단어 키우드를 많이 입력하고 있다는 것으로 결론을 내려도 좋을 것같습니다. 이런 다양한 이유로 한국에서는 3단어 이하로 전체 검색이 이뤄진다고 결론을 내려도 좋을 것같습니다.


 앞으로 기회가 있으면 더 다양한 검색 데이터를 분석한 내용으로 블로깅을 하겠습니다. 이상의 결과와 동일하지만 시계열 데이터를 보여드리는 것도 의미가 있을 것같고, 하루 시간대별 또는 요일별 검색트래픽 분포 등도 재미있는 이야기 거리가 될 것같습니다. 그리고 현재 다음검색의 검색트렌드 (http://trend.search.daum.net/SearchTrend/index.html)에 들어가시면 검색어별로 다양한 검색추이도 보실 수가 있고, 다음검색창에 '아이폰 트렌드차트'나 '아이폰 vs 옴니아2' '아이폰 vs 옴니아2 vs 넥서스원' 등과 같이 <키워드 트렌드차트> 또는 <키워드 vs 키워드> 형태의 검색을 하면 해당 키워드의 검색추이도 (및 주요 뉴스)나 두 검색어 (또는 그이상)의 검색추이를 비교한 그래프를 보실 수 있습니다.

댓글을 달아 주세요

  1. 2010.03.15 23:44 Address Modify/Delete Reply

    비밀댓글입니다

  2. 2010.03.15 23:46 Address Modify/Delete Reply

    비밀댓글입니다