본문 바로가기

Tech Story

다음검색 애정남: 동명이인과 연관인물

 오늘 다음검색에 몇 가지 개편이 있었습니다. 제가 관여했던 부분은 크게 두부분이었습니다. 첫째는 사용자들이 입력한 검색어와 연관된 관련검색어에 개편이 있었고 (2011년 초에는 제가 관련검색어 데이터분석의 메인이었지만, 지금은 다른 분에게 인수인계가 끝났고, 기타 일부 관련검색어 페어만 제공해주고 있음), 다른 것은 인물프로필 부분입니다. 오늘은 이 인물 프로필 부분에서 제가 관여했던 것에 대해서 짧게 글을 적습니다. 구체적으로 어떤 식 (계산식이나 가중치 등)으로 구했는지는 이곳에서 밝힐 수는 없습니다.

 인물 프로필에서도 제가 관여했던 부분은 두 곳입니다. 첫번째는 동명이인이 존재할 때, 대표1인을 선정해서 크게 노출시켜주는 것이고, 두번째 것은 인물관계도의 데이터를 제공해주는 것입니다. 아래의 캡쳐화면 '유리'를 검색한 경우입니다. '유리'라는 이름을 가진 연예인들이 많이 있습니다. 그런데, 현 시점에서 '유리'를 검색하면 많은 경우 소녀시대의 유리를 떠올립니다. (10년 전이었다면 '쿨'의 '유리'를 떠올렸겠지만... 세월이란..) 개편 전에는 3명까지 한줄에 (사진과 함께) 노출하였습니다. 그런데 오늘부터 동명이인에 대해서 대표1인을 선정해서 크게 보여주고, 나머지 인물들은 밑에 따로 보여줍니다. 물론, 동명이인에서 대표1인을 선정하기 어려운 경우는 기존처럼 한줄에 3명씩 보여줍니다. 그리고, 한 인물과 관련된 여러 인물들이 존재합니다. 그런 경우 해당 인물들을 인물연관도를 측정해서 함께 보여주도록 했습니다. 제가 다음검색에서 인물프로필의 대표일인선정과 인물관계도에 대한 애매한 것을 정해드리겠습니다.

소녀시대 '유리'를 검색한 화면. 동명이인에 대해서 소녀시대 '유리'를 대표1인으로 선정하여 보여주고, 또 유리와 관련된 인물들을 일목요연하게 정리해서 보여주고 있습니다.


 동명이인에서 대표1인 선정.
 대표1인을 선정하는 방법은 참 쉽습니다. 그냥 집단지성 Collective Intelligence에 맡기는 것입니다. 위의 예에서처럼 '유리'를 검색하는 사용자들이 많이 있을 것입니다. 그러면 그들이 생각하는 '유리'에 적합한 인물을 클릭해서 볼 것입니다. 네, 맞습니다. 같은 키워드에 대해서 가장 많은, 아니 압도적으로 많은 클릭을 받은 인물을 대표1인으로 선정을 합니다. 그런데 클릭회수가 비등해서 우열을 가리기 어려운 경우에는 특정 인물을 특정하면 또 다른 문제가 발생합니다. 그런 경우에는 그냥 클릭순으로 같은 등위에서 노출순서만 정해서 나열해서 보여줍니다.

 그런데, 지금은 '유리'에 대해서 소녀시대 '유리'를 떠올리겠지만, 갑자기 새로운 이슈가 발생해서 쿨의 '유리'를 찾는 이들이 많아진다면 이때는 쿨의 '유리'를 대표1인으로 보여줘야할 경우가 생기기도 합니다. 그렇기 때문에 단순히 특정 기간동안 받은 클릭회수의 합으로 순위를 선정하는 것에 더해서, 최근에 많은 클릭을 받은 인물을 대표1인으로 선정하도록 가중치의 조정이 필요합니다. 중요한 것 하나더. 원래 인기가 없은 검색어 (인명)에 대해서는 데이터가 부족해서 대표1인을 선정하지 않았습니다.

 인물관계도
 제가 다음에 입사한 이후로 계속 보여주고 싶었던 기능이 관련/연관인물 정보입니다. 다음의 영화섹션에 들어가면 인물별로 관련인물이 나옵니다. (예, 유리) 그런데, 이곳에서 제공해주는 관련인물들이 참 멋쩍은 경우가 많습니다. 단순히 신장이 같거나 나이가 같은 동일 직업군의 아무나 한명을 보여주고 있습니다. 그리고, 같은 작품에 출연한 경우에 대해서도 작품의 수나 이름 등이 제대로 특정되지 않은 경우가 많았습니다. 제가 진짜 보여주고 싶었던 정보는 특정 인물과 진짜 관련된 인맥이었습니다. 그런데 작년 여름에 우연한 기회에 인맥도를 구하게 되었고, 또 이를 바탕으로 1년을 넘게 기다린 지금 그 정보를 검색에서 활용하게 되었습니다.

 인물연관도를 구하는 원칙은 간단합니다. 가능한 모든 연결을 찾아내서, 가장 강하고 많은 연결을 가진 인물들 사이의 관계를 보여주자입니다. 그렇기 때문에 가족관계나 그룹멤버여부 등의 피지컬한 관계도 확인했고, 같은 영화/TV에 출연했는지 아니면 음반작업을 같이했는지의 로지컬한 관계도 확인했고, 또 동향인이거나 동문여부 등의 조금 약한 관계들도 모두 모았습니다. 그래서, 가족이나 그룹멤버와 같은 강한 연결의 경우 연관도가중치를 높여주었고, 동문/동향의 경우에는 가중치를 조금 낮게줬습니다. 그래도 발견된 모든 연결을 하나도 버리지는 않았습니다.

 그 외에도 검색에서 유용한 정보가 있습니다. 어떤 특정인물을 많이 찾아봤는지에 대한 검색인기도입니다. 지금 다음스타랭킹에서도 검색량 등을 분석해서 여러 분야의 스타들의 랭크를 보여주고 있습니다. 인물연관도에서는 실제 검색인기도는 무의미한 데이터입니다. 검색인기도가 인물관계도와 전혀 무관하기 때문입니다. 그렇지만, 관련인물을 나열하는 경우에 일부 유용한 정보를 제공해주고 있습니다. 인물의 나열순서는 우선 연관도가 높은 경우에 앞에 노출됩니다. 그렇지만, 연관도점수가 같은 경우에는 누굴 먼저 보여줄지 애매합니다. 그래서 제가 애정남했습니다. 즉, (검색)인기도가 높은 인물을 먼저 보여주기로 했습니다.

 인물별로 현재 다음에서 획득한 여러 DB정보를 활용해서 인물연관도를 구했습니다. 그 중에서도 다음검색의 인물프로필에서는 가족여부, 같은 소속사여부, 작품출연여부, 고향과 출신학교, 그리고 트위터에서의 최근 멘션관계에 대해서는 별도의 탭으로 보여주도록 했습니다. 그리고, 국회의원의 경우 최근 입법발의된 법안에 대해서 같은 찬성/반대했는 인물들을 함께 보여주도록 했습니다. 그런 입법의 찬반성향에 따라서 국회의원들을 그루핑했다고 볼 수 있습니다. (근데, 이노무 나라의 국회에 있는 양반들은 자신의 전문성이나 양심에 따라서 입법활동을 하는 것이 아니라, 단지 자신이 속한 당의 정책에 따라서 무더기 입법활동을 벌이고 있는 것이 참 개탄스럽습니다. 그런 정보가 국회의원의 의정활동 탭을 보시면 살짝 눈치챌 수가 있습니다.

 오늘 1차 오픈을 했지만, 아직 완벽한 것이 아닙니다. 계속 더 나은 요소들을 발굴해서 더 나은 연관도를 구해서 계속 업데이트할 예정입니다. 오늘 오픈했지만, 지금도 계속 작업중입니다. (전 오늘 휴가입니다. 그래서 지금 이 글을 적을 수 있는 거에요.) 모든 내용을다 공개할 수 없음을 양해바랍니다. 그렇지만, 더나은 결과로 계속 보답하겠습니다.
 
반응형