다음뷰 이슈 선정방법 Issues on Daum View
Tech Story 2011.05.05 13:36 |문화/연예 채널
다시 본론으로 들어가서, 그러면 어떻게 다음뷰 이슈를 자동으로 선정하는가에 대해서 아주 간단한 설명을 더하겠다.
- 키워드 추출.
다음 전사에서 그리고 다음뷰 팀 내에서 여러 서비스에서 중요하게 다뤄지는 키워드들을 관리하고 있다. 이를 '핵심키워드' 또는 '키워드 사전'이라고 통상 부르고 있다. 이런 키워드 사전을 바탕으로 해서 다음뷰에 유입되는 모든 글들에서 키워드를 추출하는 작업을 진행한다. 문서의 길이가 길고 키워드 사전이 크다면 추출되는 키워드의 수도 무시히 많아지기 때문에, 텍스트마이닝에서 사용하는 TF/IDF 등의 알고리즘이나 키워드의 노출위치 (제목 vs 본문)나 검색인기도 등의 휴리스틱을 사용해서 문서별로 상위/핵심 키워드들을 미리 선별/매핑해둔다. - 이슈 키워드 선정.
이슈 키워드 선정은 간단하다. 특정 키워드가 최근 몇시간/하루동안 평소보다 월등히 많이 유입되면 해당 키워드가 지금 이슈/회자중이라고 가정한다. 단순히 다음뷰에 유입되는 키워드의 수/비율의 증가 뿐만 아니라, 다음검색에서의 인기도/쿼리빈도, 글 제목에서의 사용빈도, 유명/주요 블로그에 언급된 정도 등의 여러 요소들을 고려해서, 평소에 비해서 급등해서 유입/추출되는 키워드들을 선정해서 이슈 시드 Issue Seed로 선정한다. 물론, 급등도나 인기도 등에 이슈 키워드의 랭킹도 함께 정해진다. 그리고 당연히 특정인이 편향된 주제의 글을 많이 적는 것보다 많은 사람들이 해당 이슈/키워드를 많이 사용하는 경우에 이슈키워드가 된다. 키워드별로 사용된 채널/카테고리도 이슈선정에 영향을 미친다. - 이슈제목 선정.
이상의 이슈키워드는 (복합단어가 아닌 이상) 1단어로 이뤄졌기 때문에, 사용자들이 해당 키워드만으로 이슈를 가늠할 수가 없다. 예를들어, (TV시청자가 아닌 이상은) '임재범'만으로는 왜 이슈가 되는지 알 수가 없기 때문에 '나가수 임재범'과 같이 이슈의 컨텍스트 Context가 되는 부가 키워드를 선정해서, 이슈키워드와 묶어줌으로써 이슈제목을 선정한다. 컨텍스트 키워드를 선정하는 것이 해당 프로젝트를 하면서 가장 까다로운 작업이었다. 가장 먼저 시도한 방법은 이슈키워드들 간의 co-occurrence를 분석해서 하위 이슈키워드를 컨텍스트 키워드로 간주하는 방법을 시도했다. 그런데, 이슈키워드 세트에 한계가 있기 때문에, 컨텍스트 키워드 (이들 키워드는 보통 일반 단어이기 때문에 이슈키워드 세트에 미포함될 가능성이 매우 높다)가 깔끔하게 뽑히지 않는 문제가 있었다. 그래서, 여기서 또 활용한 것이 다음검색을 사용하는 사용자들의 집단지성을 활용했다. 바로 이슈키워드를 포함하는 모든 검색어들을 가져와서 그 중에서 최근에 가장 인기가 있는 검색어 및 평소보다 급등한 검색어를 뽑아내서 '(인기/급등) 검색어 = 이슈키워드 + 컨텍스트키워드'라를 가정으로 이슈제목을 선정했다. 이상의 방법으로도 컨텍스트 키워드를 뽑을 수 없다면, 그냥 이슈키워드를 단독으로 이슈제목으로 정했다. 이슈+컨텍스트로 제목이 정해진 경우, 키워드 간의 순서를 정하는 작업도 필요한데, 검색어에서의 순서를 유지하거나 글/제목에서의 키워드 순서 등을 고려해서 제목을 선정한다. - 이슈글 묶음.
선정된 이슈와 이슈제목 목록을 뷰팀에 넘겨주면 채널별로 상위 이슈를 뽑아서, 해당 이슈와 매핑된 (검색된) 글들을 이슈패널에 열거해주고 있다. 글묶음을 보여주는 것은 나의 업무 외적인 부분이라, 자세한 것은 잘 모르겠으나 여기에 오픈에디팅점수와 추천회수를 기준으로 글들을 피쳐링해주고 있다.
이상의 작업이 실시간으로 이뤄지는 것은 아니고, 가능한 짧은 주기로 업데이트해주고 있다. 지금은 1시간 주기로 작업/업데이트하고 있지만, 대한민국에서 인터넷 이슈가 급변하지만 또 이슈의 다양성이 부족해서 실제 서비스 상에서 업데이트 주기 (사용자들이 느끼는 변화)는 더 적을 수 밖에 없다.
아주 세부적인 내용은 생략했지만, 대략적인 이슈선정 방법/프로세스를 이해하는데는 충분하리라 생각한다. 이슈 및 이슈제목을 선정하는 알고리즘을 직접 만들어서 데이터를 제공해주는 사람의 입장에서, 앞으로 불필요한 이슈 선정의 중립성에 대한 잡음 및 오해가 없었으면 하는 바람에서 이 글을 적었다.
댓글을 달아 주세요