오늘은 간단한 통계 또는 그래프를 보여주기 위해서 글을 적습니다. 제가 다음 (Daum Communications Corp.)의 검색본부에서 일을 하고 있는 것은 여러번 밝혔습니다. 데이터마이닝팀에서 약 1년 반을 근무했고, 지금은 업무내용은 크게 다르지 않지만 검색품질팀에서 반년정도 근무하고 있습니다. 주로하는 작업이 데이터를 처리해서, 랭킹요소발굴 및 랭킹개선 작업이라는 검색의 품질에 관련된 일들을 하고 있습니다. 그렇기 때문에, 다음검색창을 통해서 유입되는 다양한 검색키워드데이터 (또는 쿼리 데이터)라던가 클릭정보 등을 자주 분석하게 됩니다. 외국이 유수 인터넷 분석기관들 (닐슨, 히트와이즈, 컴스코어 등)은 주기적으로 검색과 관련된 다양한 통계자료를 공개하는 것이 내심 부러워서 항상 국내의 검색시장에 대한 간단한 요약정도는 블로깅을 해보고 싶었습니다. 물론, 국내에서 코리안클릭스 등과 같은 인터넷 트래픽을 분석해서 정보를 제공해주는 업체들이 있습니다. 이런 정보업체의 장점은 특정 포털에 편향되지않은 정보를 제공해준다는 측면에서 큰 의미를 가지지만, 역으로 전체 데이터가 아닌 일부만으로 전체를 추론하는 과정을 거침으로써 상당한 오류/오차범위를 가진다는 것입니다. 그러나 저의 경우, 적어도 다음검색창에 유입되는 전체 데이터를 분석할 수 있다는 장점이 있기에 오늘 간단한 통계치/글을 보여드리려 합니다. 물론 국내 검색의 6~70%를 차지하는 네이버의 데이터가 없다는 점이 못내 아쉽지만, 그래도 다음검색이 데이터만으로도 충분히 의미있는 결과를 보실 수 있으리라 기대합니다.
오늘은 아주 사소한 데이터만 보여드리고, 앞으로 기회가 있으면 더 자세한 또는 시계열 데이터를 보여드리겠습니다. 그리고, 이런 검색데이터도 나름 회사의 기밀사항이기 때문에 자세한 값을 공개할 수 없음을 미리 양해를 바랍니다. 그러나, 가능하면 분석방법이나 조건 등에 대해서는 자세히 알려드리겠습니다. 오늘 보여드릴 데이터는 2010년 1월 14일 (목요일)에 다음검색에 유입된 키워드들의 길이와 단어수를 정리한 것입니다. 참고를 위해서 2009년의 그것들도 그래프에 함께 그렸는데, 미리 말씀드리자면 2009년 1월의 데이터는 완벽한 데이터가 아니라 대략적인 경향성만을 보여줄 수 있는 매우 제한된 것이므로 크게 신뢰를 하지 않았으면 합니다. 회사정책상 이런 검색데이터를 장기간 보관할 수가 없어서 로그를 주기적으로 삭제를 하는데, 그래서 2009년도 1월의 완벽한 검색데이터가 존재하지 않습니다. 제가 분석한 2009년도 데이터는 우연히 분석서버를 정리하면서 발견한 것이어서 신뢰도가 크게 떨어집니다. (실제 검색량의 약 10%에 해당되는 데이터만 사용됨)
분석에 앞서서 항상 선행되는 것으로 pre-processing이라는 전처리 과정을 거칩니다. 이번 분석을 위한 전처리는 사용되는 키워드의 종류와 수를 결정하는 것이라 보시면 됩니다. (단 2010년 데이터만 해당됨.) 우선 현재 다음이나 네이버 등이 검색포털들에서 발생되는 검색패턴을 이해가 필요합니다. 포털에서의 검색패턴을 크게 두가지로 정리하면, 검색창에 사용자가 직접 입력하는 경우와 실시간이슈 등과 같이 서비스제공자가 임의로 설정한 검색링크에 의한 경우로 나뉠 수 있습니다. 후자의 검색링크의 경우, 사업자가 설정한 것이므로 실제 사용자들의 검색패턴과는 거리가 있기 때문에 분석에서 제외시켰습니다. 그리고, 검색엔진에 유입되는 다양한 데이터를 보면 특정 업체에서 의도를 가지고 검색스팸/어뷰징을 하는 경우도 종종 발견되고 다른 무의미한 검색형태들이 있는데 이런 종류의 검색어들도 모두 걷어냈습니다. 그리고, 중요한 이슈로 한글검색어와 영문검색어가 조금 다른 형태를 보이기 때문에, 본 분석에서는 영문, 숫자, 또는 특수문자를 포함한 모든 키워드들을 분석에서 제외시켰습니다. 그래서, 최종적으로 사용된 키워드들은 사용자들이 입력한 것으로 생각되는 순수 한글 키워드들만을 사용했습니다. 추가로, 한 사용자가 동일한 검색어를 반복검색할 수도 있기 때문에 1인1키워드만을 대상으로 삼았습니다. 다른 부수적인 작업도 있었지만 생략하겠습니다.
첫번째 보여드릴 데이터는 검색키워드의 길이 분포입니다. 키워드의 길이는 공백 (띄워쓰기)를 제외한 둔수 음절의 수로 정의했습니다. 아래의 그래프에서 파란색선이 2010년 데이터를, 빨간색선이 2009년 데이터입니다. 먼저, 2009년 데이터는 상당히 일부데이터만을 사용했고, 앞서 말한 전처리과정도 거치지 않았기 때문에 2010년 데이터와 모양에서 차이가 조금 나는 것을 보실 수 있습니다. 그래프에서 구체적인 숫자가 깨끗하게 프린트되지 않아서 생략했습니다. 2010년 데이터만을 본다면, 4음절 키워드가 전체의 약 20%로 가장 많이 검색된다는 것을 아실 수 있습니다. 그리고 3음절 단어가 약 18%, 5음절 단어가 16%, 6음절 단어가 12% 등의 3~6음절 단어가 전체 검색의 약 2/3 (67%)를 차지하고 있습니다. 7음절 단어를 포함하면 검색의 3/4를 3~7음절단어가 차지하고, 또 7음절 이하가 약 85%를 차지합니다. 2009년 데이터에서는 3~8음절 단어가 전체의 90%정도를 차지합니다. 단순히 그래프에서는 2009년도보다 2010년도에 단어의 길이가 줄어든 것같이 보입니다. 그러나 이미 말씀드렸듯이, 2009년 데이터는 분포의 대표성을 보장해주지 않기 때문에 단순히 아래의 그래프로만으로 2010년의 키워드 음절길이가 줄어들었다고 결론을 내리기에는 무리가 있을 것같습니다. (같은 논리로 보면 9음절이상의 단어들이 2010년에는 오히려 늘어났다는 결론을 내릴 수 있습니다.) 참고로, 히트와이즈나 컴스코어 등의 외국의 사례를 보면, 최근에 키워드에 사용되는 단어의 수가 증가하고 있다고 합니다. 검색엔진들의 성능이 좋아져서 긴 복합어에서도 좋은 검색결과를 보여주는 것과 함께, 검색 사용자들도 검색엔진에 익숙해져서 검색을 하는 방법이 많이 개선되었기 때문에 이렇게 검색어가 길어지고 있다고 합니다. 2009년 데이터를 비교하면서 한국에서도 이런 패턴이 발결될 것을 기대했지만, 불완전한 데이터를 사용함으로써 반대의 결과만을 보여주게 되었습니다. 어쩌면 2009년 데이터에서 검색사업자 (다음)이 설정해둔 다양한 링크검색의 수가 포함되었기 때문에 5~8음절 키워드들의 분포가 더 크게 나타났을 수도 있습니다. 실제 링크검색에서의 키워드는 1단어 또는 짧은 음절 키워드보다는 2~3단어의 복합키워드들이 많이 사용되기 때문에 아래와 같은 결과가 나온 것으로 유추를 할 수 있을 듯합니다. 그리고, 3음절의 단어가 많은 이유 중에 하나가 바로 사람이름을 검색하기 때문이 아닌가 유추해봅니다.
한국어 키워드 길이 분포
두번째로 보여드릴 데이터는 키워드에 사용된 단어수를 집계한 것입니다. 단어수를 측정하기 위해서 자연어처리 NLP (Natural Language Processing)의 형태소분석과정을 거쳐야겠지만, 아래의 데이터에서는 단순히 사용자가 입력한 키워드에서 공백 (띄워쓰기)를 기준으로 단어수를 측정한 것입니다. 아래의 그래프에서 보시듯이 1단어 키워드가 전체의 70%를 차지하고 있고, 2단어 이하가 90%이상을 차지함을 확인할 수 있습니다. 위에서 검색엔진이 개선되고 사용자들이 검색에 익숙해질수록 검색어의 길이 (또는 단어수)가 늘어난다고 말씀드린 내용과 어긋나는 결과입니다. 이런 결과가, 한국에서는 여전히 2단어 이하의 검색어를 주로 이용하고 있어서 한국의 검색엔진들의 성능이 아직 개선이 덜 되었거나 사용자들이 여전히 검색에 미숙하다는 그런 의미는 아닙니다. 영미권의 검색결과와 다른 점은 언어의 차이에서도 기인합니다. 영어권에서 단어의 띄워쓰기가 매우 중요하지만, 한국에서의 복합어는 경우에 따라서 띄워쓰기를 무시해도 의미전달에 차이가 없습니다. 예를들어, '다음검색'과 '다음 검색'이 큰 차이를 보이지 않습니다. 그렇기 때문에 사용자들이 굳이 힘을 들려가면서 검색키워드의 띄워쓰기를 하지 않는다는 것을 유추할 수 있습니다. 그리고, 검색엔진의 성능개선도 이런 1 단어 검색을 가능하게 해주고 있습니다. 즉, 앞서 말한 자연어의 형태소분석이 제대로 이루어지기 때문에 검색엔진에서 '다음검색'으로 입력이 되더라도 '다음 + 검색'으로 검색결과를 찾아주기 때문에 사용자들이 굳이 띄워쓰기를 하지 않는다고 보실 수 있습니다. 그런 의미에서, 또 사용자들의 검색엔진이 익숙해져서 1 단어 키우드를 많이 입력하고 있다는 것으로 결론을 내려도 좋을 것같습니다. 이런 다양한 이유로 한국에서는 3단어 이하로 전체 검색이 이뤄진다고 결론을 내려도 좋을 것같습니다.