본문 바로가기

Gos&Op

검색에서 롱테일키워드처리 방법에 대해서 Nobody nobody but you.

 오늘도 휴가다. 그래서 '다음에서의 3년'이라는 글로 지난 3년 동안 다음에서 수행했던 여러 프로젝트들에 대해서 정리해보는 시간을 가지려고 계획했지만, 아직 남은 휴가일수도 많고 하니 일단 뒤로 미루고,.. 어제 갑자기 떠오른 생각이 아침이 되어 더 깊게 빠져들어서 그냥 또 지나가는 생각을 조금 깊게 잡아보려 합니다. 아주 심각한 문제는 아닐 수도 있지만, 적어도 검색을 업으로 삼는 본인에게는 중요한 이슈이기 때문에...

 파레토 최적화 (20/80법칙)
 경제학이나 마케팅에서 나름 유명한 법칙이다. Wired의 편집장인 크리스 앤더슨이 롱테일이라는 용어를 일반화시키기 전 (물론, 롱테일이라는 키워드는 이전부터 통계에서 사용되던 용어였지만, 일반인들과는 거의 무관한 단어였다.)에는 짜여진 각본과 같이 파레토의 법칙으로 많은 것들을 설명할 수가 있었다. 여러 경우에 대해서 설명이 가능하겠지만, 가장 대표적인 케이스인 상품판매 및 매출로 설명하겠다. (이미 알고 있겠지만, 잠시 참아주시길...) 바로 인기있는 상위 20%의 상품이 전체 매출의 80%를 차지한다는 이론이다. 그래서, 스토리지가 제한된 오프라인 매장에서는 모든 상품을 구비/전시하지 않고, 소비자들이 많이 찾는 상위 몇몇 제품만 진열대에 올려놓고 판매해도 적당한 수익을 얻을 수가 있다. 그들이 '선택과 집중'이라는 고전적인 전략을 오랫동안 유지할 수 있었던 모든 이유가 20/80법칙이라는 나름 이론적 근거가 있었던 것같다. 여러 가지 변형도 이었다.  국내의 모기업에서는 상위 1%의 인재가 전체를 먹여살린다던가 상위 1%의 우수 프로젝트만 성공해도 기업이 살아남는다 등으로 더 극단적으로 현혹시킨 것도 기본적으로 파레토법칙에서 설명이 가능하다. 다시 오프라인 상점으로 들어가보자. 그러면 매출 20%를 담당할 나머지 80%의 상품은 어떨까? 실제 판매량에도 큰 영향을 미치지 못하고, 단지 제고비용만을 일으키기 때문에 굳이 전시를 할 필요가 없고, 그래서 자연히 나머지 80%의 상품들은 자연도태되었다. 물론, 소위 마니아들에 의해서 간간히 명맥은 유지할 수가 있었겠지만, 그런 제품에 대한 마니아를 만든 것도 그 만큼 일반 시장에서의 희소성 때문일 듯하다. 시장/상점에 넘쳐나는 제품에 대해서 그렇게 마니아들이 형성되지는 않으니... 물론, 요즘은 애플 제품들에 대해서 많은 마니아들이 생겨났다지만, 애플 제품들이 사실 메이저는 아니지 않은가? 물론, 최근의 아이팟, 아이폰, 아이패드 등은 해당 카테고리에서 메이저지만, 앞의 문자에서 말하는 것은 전통적인 애플제품인 PC/노트북/소프트웨어만을 염두에 둔 발언이니 크게 문제를 삼지는 않았으면... 애플 컴퓨터의 최근 매출이 늘어났다고는 하지만, 여전히 시장에서 10%미만의 마이너다. 마이너에게는 늘 매니아가 따라 붙는 듯하다. 

 롱테일 법칙 (Power Law)
 2000년대 초반에 센세이션을 일으킨 책이 있다. 일반인들에게는 센세이션이 아닐 수도 있지만, 적어도 인터넷 관련 업을 하는 이들에게는 센세이션을 일으켰다. 바로 Chris Anderson이 적은 LongTail이다. 전통적으로 경제학에서 파레토법칙이 지배한다고 여겨졌지만, 아마존이나 iTunes, NetFlix 등의 인터넷 기반의 쇼핑몰들을 조사해보니 여전히 파레토의 법칙이 우위를 나타내고는 있었지만, 기존에 무시했던 마이너 80%에 대한 수요가 여전히 많다는 발견했다. 오프라인 매장에서는 제고비용이나 관리비용 등에 의해서 80%에서 얻는 20%의 수익은 실제 수익보다는 비용에 가까웠지만, 인터넷 매장에서는 오프라인매장처럼 제고비용 등이 크게 들지 않기 때문에, 80%의 마이너에서 얻는 20%의 수익도 실제 수익으로 잡히기 시작했다. 그리고, 더 중요한 것은 수요가 전혀 없을 것같은 80%의 상품에서 여전히 꾸준히 수요가 발생했다는 점이다. 비록, 빈도가 매우 낮았지만... 그런데, 이런 롱테일 (마이너 80%)에 반대되는 개념으로 팻헤드 (Fat Head, 메이저 20%)라고 부른다. 제가 오늘 관심을 가진 영역은 이렇게 팻헤드와 롱테일의 중간에 위치한 바디 Body 부분이다. 이를 어떤 섹시한 이름으로 불러야할지는 모르겠지만, 어쨌던 파레토법칙에서 중요하게 다뤄진 팻헤드와 롱테일에서 중요하게 다뤄진 롱테일에 비해서 실제 몸통을 형성하는 이 Body부분에 대한 관심이 너무 적었던 것같다. 그래서, 제목에서 nobody라고 표현했다.

 팻헤드와 롱테일 키워드
 이제 본론으로 들어가서, 검색에서의 팻헤드와 롱테일에 대해서 얘기해보자. 사실 검색에서 팻헤드라는 용어보다는 롱테일이라는 용어에 더 많은 관심을 가진다. 검색에서의 롱테일 (또는 롱테일 키워드)은 정의하는 방식에 따라 다르지만, 1. 검색쿼리빈도의 측면에서 하루중 쿼리빈도가 극히 낮은 키워드 (예를 들어, 하루에 5회미만 발생하는 키워드), 또는 2. 검색어의 측면에서 키워드가 1, 2단어로 이뤄진 것이 아니가 3~4단어 이상의 복합어 (또는 문장)으로 이뤄진 키워드를 롱테일 키워드로 정의하곤 한다. 아니면, 단순히 20/80 또는 10/90 법칙에 의해서 빈도 기준으로 하위 10%에 속하는 모든 키워드를 롱테일 키워드라고 정의해도 될 것같다. 그런데, 이런 롱테일 키워드들은 어떻게 만들어질까? 실제 특정 주제에 대해서 관심을 가지는 이들이 적기 때문에 롱테일 키워드가 생겨난다. 예를들어, '아이패드'에 대한 관심은 많지만, '아이덴터티탭'에 대한 관심은 적다. 물론, 아이덴터티탭에 대한 쿼리는 하루에 5회보다는 많이 발생하겠지만, 어쨌던 아이패드에 비해서 아이덴터티탭에 관심을 가지는 이들이 매우 적기 때문에 아이패드는 팻헤드키워드로 아이덴터티탭은 롱테일키워드로 분류가 될 가능성이 많다. 이것은 특정 제품/키워드 관심을 가지는 인적구성 Demographic 측면에서 어쩔 수 없이 나눠지는 경우라서, 큰 논의 대상은 아닌 것같다. 그런데, 팻헤드 키워드가 롱테일 키워드의 시드를 제공해준다는 것이 재미있다. 예를들어, '아이패드'라는 키워드는 분명 팻헤드 키워드지만, 만약 '아이패드 필수앱'이라는 키워드는 분명 '아이패드'보다는 롱테일쪽에 있을 것이다. 그런데, '아이패드와 아이폰에서 동시에 구동되는 필수앱'이라는 키워드는 쿼리빈도측면이던 검색어형태측면이던 분명 롱테일 키워드로 정의될 것이다. 즉, 팻헤드 키워드에서 파생되나오는 이런 파생/확장/변형 키워드가 롱테일 키워드가 될 수가 있다는 거다.

 그런데, 실제 검색엔진에서 (특히, 한국의 검색엔진들) 팻헤드와 롱테일 키워드를 처리하는 방식이 매우 다르다. 팻헤드키워드의 경우 많은 사람들이 찾아보고 또 자주 발생하기 때문에 특정 검색결과를 만들어서 제공해주는 경우가 많다. 예를들어, 인물프로필정보라던가 특정 회사의 주가그래프, 영화나 드라마 등의 정보를 미리 준비된 템플릿에 맞게 검색결과를 가공해서 제공해주고 있다. 여러 수작업이 들어간 작업이지만, 실제 구글에서 제공해주는 단순 텍스트 (물론, 요즘은 위키피디아 등과 같이 전문적으로 특정 키워드에 대해서 구조화된/전문 컨텐츠를 제공해주기 때문에, 아주 과거의 단순 나열식 검색결과보다는 나아졌지만...) 목록에서 원하는 여러 정보들을  일일히 찾는 것보다 사용자의 입장에서는 참 편리하다. (물론, 검색제공자의 입장에서는 수작업 및 다른 여러 전처리가 필요하니 리소스가 많이 들어가는 작업이다.) 쿼리빈도가 높은 팻헤드 키워드에 대해서는 이렇게 수작업을 통해서라도 잘 정제된 검색결과를 제공해줄 수가 있다. 뿐만 아니라, 팻헤드 키워드에 대해서는 뉴스, 블로그, 카페, 트위터 등에서도 많은 문서들이 작성되기 때문에 특별히 랭킹이슈나 원본글이슈 등에서 문제가 없다면, 보통 팻헤드 키워드에 대해서는 큰 이슈가 없다. 다음, 네이버, 네이트, 구글, 빙, 야후 등의 대부분의 검색엔진들이 팻헤드키워드를 처리하는데 큰 문제가 없다. 그런데, 롱테일키워드의 경우는 참 애매하다. 롱테일 키워드는 보통 사람들의 관심이 적기 때문에 관련된 문서도 별로 없고, 특히 3~4단어 이상의 진짜 복잡한 복합단어에 대해서는 적당히 매핑된 문서를 찾기가 거의 불가능한 경우가 많다. 그런데, 이런 복잡한 롱테일키워드에 대해서 검색엔진이 얼마나 더 적당한 문서를 찾아주느냐에 따라서 실제 검색엔진의 성능이 갈리게 된다. (그런 점에서, 다음검색이 아직은 네이버에 비해서 많이 약하다는 지적을 종종 받는다. 물론, 구글에 비하면... 구글은 검색의 성역이리 건들지 않겠다.) 팻헤드키워드에 대해서는 적당한 컨텐츠를 수작업으로 제공해주거나 많은 관련 문서들이 제공되고 있기 때문에 별 문제가 없고, 복잡한 롱테일 키워드에 대해서는 구글이 아니라면 대부분의 검색엔진들이 성능이 떨어지니 큰 변별력도 없고... 그런데, 참 애매한 경우가 바로 Body에 해당하는 키워드 (그냥, 바디키워드라 하자.)에 대해서 어떻게 처리해줄 것인가?다.

 바디키워드를 팻헤드키워드처럼 수작업으로 종류가 너무 다양하고 그래서 투입한 리소스에 대해서 얻은 결과 ROI가 너무 낮기 때문에 특정 임계치를 넘지않는 선에서는 수작업이 들어갈 여지가 없다. 그렇다고 해서, 바디키워드에 잘 매칭되는 문서들이 많이 있는 경우는 다행이지만, 그렇지 못한 경우도 많기 때문이다. 진짜 롱테일키워드에 대해서는 모든 검색엔진의 품질이 낮기 때문에 변명의 여지가 있지만, 바디키워드에 대해서는 검색엔진의 품질이 바로 갈리는 것같다. 그런데, 이런 바디 키워드는 어떻게 만들어질까? 여러 메카니즘이 존재하겠지만, 제 개인적인 생각으로는 앞서도 잠시 언급했듯이 '파생/조합 키워드'가 바디키워드를 형성할 가능성이 매우 높아 보인다. '무한도전'은 팻헤드키워드지만, '무한도전 시청률' '무한도전 출연진' '무한도전 나비효과' 등은 (특정 순간에는 팻헤드 키워드일 수는 있다) 명확한 팻헤드키워드는 아니다. 그렇다고 해서, 이런 키워드가 롱테일 키워드도 아니다. 참 애매한 이런 바디키워드를 어떻게 처리해줄 것인가? 참 고민이다. 그래서, 다음검색에서는 특정 패턴키워드 (예를들어, ~시청률,  ~출연진 등)에 대해서는 입력키워드 자체는 바디키워드가 될 수가 있지만, 패턴으로 묶는 경우 팻헤드패턴이 될 수 있기 때문에, 패턴별로 스마트앤서를 제공해주는 경우가 있다. 바디키워드의 경우, 패턴단위로 팻헤드를 만들어내는 것도 좋은 방법이다. 그리고, 네이트의 시맨택검색의 경우는 역으로 특정 오브젝트/객체에 대해서 속성들을 나열해주는 방식을 취하고 있다. 앞서 무한도전에서 ~시청률, ~출연진, ~나비효과는 바디/롱테일키워드지만, '무한도전'이 팻헤드 키워드임에 주목해서 나머지 속성키워드를 객체키워드에 패키지로 묶어버림으로써 바디키워드를 효과적으로 처리해주고 있다. 물론, 네이트 시맨틱검색에서 팻헤드 객체들은 제대로 인지했지만, 속성과 결합된 바디키워드에 대해서 양질의 문서/검색결과를 제공해주느냐에 대해서는 노코멘트. 또 다른 접근법으로 다음검색에서 '무한도전 시청률'을 입력하면 팻헤드 '무한도전'에 반응하는 TV프로그램 스페셜 페이지내에 '시청률'이라는 속성필드를 추가해서 보여주는 변칙적인 방식을 사용하고 있다. '무한도전 시청률'이라는 바디/롱테일 키워드에 개별적으로 반응하는 것이 아니라, '무한도전'이라는 팻헤드키워드에 파생해서 결과를 보여주는 방식이다. 그런데, 일반사용자들이라면 무한도전 스페셜페이지에서 시청률 부분에 주황색 밑줄이 그어졌다는 것을 쉽게 알아차릴 수 있을까?라는 점에서는 좀 의문이다. (제대로 홍보가 못된 점도 있지만, 근본적으로 네이버에 비해서 다음검색을 사용하는 사용자가 적다는 것이 더 큰 문제지만....)

 바디키워드를 처리하는 방식에 대해서, 팻헤드 객체나 패턴으로 묶는다거나 기존 컨텐츠에 파생해서 결과를 보여준다거나 다양한 시도들이 존재한다. 그런데, 이런 방식들은 여전히 팻헤드 의존형이다. 바디키워드들이 롱테일키워드 쪽으로 더 가까이 나아갈 수록 원하는 결과를 얻을 수 없다는 근원적인 문제는 여전히 존재한다. 입력된 키워드를 분해해서, 핵심 키워드에 대한 결과와 전체 키워드에 대한 검색결과를 이원화해서 보여주는 방식도 시도해볼 만하다. '무한도전 출연진'이라는 키워드에 대해서 일단 '무한도전' 스페셜 페이지를 보여주고, 나머지 영역에는 '무한도전 출연진'이라는 키워드를 포함한 문서들을 보여주는 나름 하이브리드 방식을 취할 수도 있다. 그런데, 문제는 실시간으로 입력되는 모든 바디키워드들에서 핵심키워드와 부가키워드를 분리하는 것 (대용량 실시간 처리)이 말처럼 쉽지가 않다. 과거로 돌아가서, 롱테일키워드에 대해서는 오프라인매장처럼 무시해버릴 수도 있다. 그런데, 중간지대인 바디키워드에 대해서는 어떤 접근방법을 취할 것인가?가 참 어려운 문제다.

 글을 적다보니 결론을 내릴 수 없는 지점까지 와버렸다. 제목은 롱테일키워드처리방식인데, 글에서는 그냥 품질낮은대로 사세요라고 적어놓고 나머지는 바디키워드에 대해서만 얘기를 해버렸다. 어제 처음 이 주제를 생각했을 때는 바디키워드라는 중간지대는 생각하지 않았다. 단지, 롱테일키워드라는 것이 어떤 측면에서는 (물론, 다양한 이유가 있지만) 팻헤드키워드에서 파생/확장/변형된 형태로 만들어질 것같다는 생각을 하게되었다. (물론, 분야별로 관심을 가지는 사용자가 너무 없어서 롱테일이되는 경우는 제외하고... 누가 (본인이 아닌이상), 검색창에 'falnlov'를 찾아보겠는가? falnlov는 본인의 온라인 ID다.) 팻헤드에서 파생된 롱테일이라면, 팻헤드를 최대한 활용한 방식으로 더 좋은 롱테일결과를 제공해줄 수 있을 것같다. 때로는 파생된 키워드가 일반인들이 잘 사용하지 않은 경우라면, 같은 의미를 가지는 동의어를 제시해주는 등으로 롱테일키워드를 처리해줄 수도 있다. 오탈자를 바로 잡아서 검색해준다거나 동의어검색같은 경우도 궁극적으로 롱테일키워드처리의 한 방안이다. 만약, '무한도전에 출연한 사람들'이라는 이상한 키워드를 짧게 '무한도전 출연진'이라고 정형화된 형태로 바꾸어서 검색해주면, 검색결과/품질이 많이 달라진다. 롱테일 키워드의 처리는 참 어려운 문제지만, 나름 좋은 해결방안이 있으리라 믿는다. ... 아, 맞다. 대표적인 롱테일 키워드는 기사나 블로그 제목이다. "검색에서 롱테일키워드처리 방법에 대해서' 이것보다 더 적합한 롱테일키워드의 예제가 어디있겠는가? 아무리 눈씻도 검색해봐도 저 키워드에 제대로된 검색결과를 찾을 수 없을 거다. 이 포스팅을 일반공개하기 전에는... 사실, 롱테일키워드에 관심을 가진 것은 이런 제목검색 그리고 그에 따른 원문을 보여줄 수 있느냐?에 대한 고민에서 시작되었다. 결론은 없습니다. 더 고민해볼게요. 그리고 더 좋은 검색엔진을 만들게요. 품질이 나쁘더라도 조금 참고 사용해주시고, 문제가 있을 때마다 다양한 경로로 피드백주세요. 꾸준히 개선해나갈테니...

반응형