본문 바로가기

Tech Story

랭킹 이야기

 이전 글들을 종합해 보면 제가 어디서 어떤 일들을 하고 있는지 알 수 있을 것이다. 일명 (호라이즌) 포탈을 운영하는 곳에서 일하고 있기 때문에 회사 내에 다양한 서비스들이 존재한다. 즉 내가 이 회사에 몸을 담고 있다고 하더라도 다른 팀이나 서비스들에 대해서는 경우에 따라서 전혀 모를 수도 있다는 소리다. 팀의 성격상 cross-team 업무가 많기는 하지만 회사에서 운영하고 있는 대부분의 서비스들에 대해서 전혀 아는 것이 없다고 해도 맞는 말이다. 그런데 오늘 다른 팀의 서비스에 대해서 좀 이야기를 하고 싶어졌다. 블로거뉴스나 한참 때의 아고라의 글들 중에 자신의 글의 랭킹이라던가, 베스트글에 존재여부 등에 대해서 매우 민감한 반응을 보이는 이들이 종종있다. 어쩌면 그들이 직감한 것이 맞을 수도 있지만 맞지 않을 수도 있다. 문제는 그들은 '이것이 문제다'라고 종종 주장하지만, 서비스를 운영하는 쪽에서는 일일이 답변을 해주는 것도 아니고 그렇다고 해서 가끔 종합해서 서비스에 대해서 설명을 해주는 것도 아니고... 설사 있다고 하더라도 그런 글들을 찾기도 만만치 않고...

 앞서 말했듯이 다른 팀에서 하고 있는 업무 (예, 블로거뉴스 랭킹)에 대해서 전혀 모른다고 해도 과언이 아니지만... 적어도 대부분의 일들이 상식선에서 해결되고 있다는 가정아래 다음의 글을 적는다. 팀내에서 그리고 다른 팀의 사람들과 가끔 좋은 글이란 무엇인가에 대해서 얘기를 자주 나눌 때가 있다. 유명하고 영향력이 있는 사람이 적은 글나 좋은 출처 좋은 글일 수도 있고, 현재 이슈가 되는 주제를 다룬 글이 좋은 글일 수도 있고, 가장 시기적절하게 적은 글이 좋은 글일 수도 있고, 가장 간단하게 핵심을 찌른 글이 좋은 글일 수도 있고, 추천을 많이 받은 글이 좋은 글일 수도 있고, 때로는 감동을 준다거나 예측한 내용이 맞았을 경우 좋은 글이 될 수도 있다. 우리가 저자를 보고 책을 살 때도 있고, 가격을 보고 책을 살 때도 있고, 쪽수를 보고 책을 살 때도 있다. 가장 직접적인 이유가 책의 내용을 모르는 상태에서 값을 지불해야하기 때문이 아닐까 생각한다.

 그런데 온라인 상에서 블로거뉴스나 아고라 같은 서비스의 경우 일반 대중들의 추천수라는 것은 글의 품질을 측정하는데 매우 중요한 지표가 될 수가 있다. 그래서 현재 블로거뉴스의 베스트글에는 대부분 추천수가 많은 글들을 올려놓는 경향이 있다. 그렇지만 앞서 말했듯이 추천수는 단지 문서의 품질을 평가하는 하나의 측도에 불과하다는 것이다. 대표적인 추천수의 문제점은 어뷰징이 아닐까 생각한다. 같은 사람이 여러 개의 ID를 가지는 경우도 존재할 것이고, 어떤 경우 친구나 동료들이 한꺼번에 추천을 하는 경우도 있고, 심한 경우 로봇을 만들어서 추천수를 조작할 수도 있을 것이다. (좀비PC를 이용한 추천수 조작이 실제 일어나는지는 확인할 수 없기때문에 사실을 말하는 것이 아니라, 가능성을 말하고 있는 것이다. 그러나 실제 다른 영역에서 조직적으로 조작이 일어나고 있는 것은 사실인듯하다. 이런 일을 전문으로 하는 불법 회사들이 많이 존재하고 있다는 사실이 그렇다는 것이지, 직접 눈으로 확인했다거나 그런 것은 아니니 오해하지는 말았으면 좋겠다.) 실시간 서비스에서는 같은 사용자에 의한 중복추천을 필터링해내기가 쉽지만은 않다. 그렇지만 최종 집계를 하는 단계에서 IP 주소 등으로 중복 추천하는 것을 제거하고 있는 것다. (물론, 공용 IP를 공유하는 경우 불이익을 당하겠지만, 현실적으로 어쩔 수 없는 듯하다.)

 그래도 추천수는 문서의 품질을 평가하는데 아주 좋은 측도이다. 추천수가 많다고 좋은 글로 볼 수는 없다. 시간이 지날 수록 추천수는 분명 증가하기 때문이다. 그래서 '추천수 / 게시시간'이라는 변형 측도를 사용할 수도 있고, 단위 시간당 peak 추천수를 사용할 수도 있을 것이다. 그리고 추천수의 문제점을 해결할 수 있는 좋은 방법으로 '추천수 / 조회수'의 비율을 사용하는 것이다. 즉 사람들이 많이 반응하는 글이 좋은 글일 가능성이 높다는 의미다. 실제 아고라나 블로거뉴스에 이런 비율이 포함되었으면 하는 바램이 있다. 이 비율을 사용하면 좋은 점으로 최상단에 위치된 글들이 다이내믹하게 변할 수 있기 때문에 한시간 뒤에 새로운 좋은 글을 읽을 가능성이 높아진다는 것이다. 그러나 여전히 문제는 존재한다. 악의적으로 보기 싫은 글의 조회수를 높인다면 위의 비율이 감소하고 문서의 품질이 낮은 것처럼 속일 수가 있다는 점이다. 일명 '알바'글들이 문제가 되듯이 알바들에 의해서 문서의 품질이 결정될 수도 있다는 말이다. (실제 추천은 로그인이 필요하지만, 조회는 로그인이 필요없다. 물론, IP 등의 부가 정보를 이용해서 러프하게 체크는 할 수가 있다.)

 앞의 문단에서 '추천수 / 게시시간'을 이미 말했다. 그런데, 실시간 베스트글에서 중요한 점은 최근 1 ~ 2시간 동안 받은 추천수가 매우 중요하다. 때로는 최근 1시간은 추천은 가중치 1을 주지만, 1시간 전의 추천들은 가중치 0.7, 0.5 등으로 낮추어서 계산을 할 수도 있다. (실제로 그렇게 하고 있는지 아닌지는 잘 모르겠다. 그리고 어떤 시간 주기로 이루어지고 있는지도 잘 모르겠다.) 즉, 추천수가 많아서 베스트 글에 올랐다고 하더라도 최근에 추천이 별로 없으면 베스트에서 탈락할 수도 있다는 얘기다. 이런 현상 때문에 오해하는 경우가 종종 발생하는 것같다. 그래서 여러 포스팅에서 언제 글을 올리는 것이 가장 추천을 많이 받을 것이가에 대한 글들도 있지 않은가? 밤 늦게 올린 글들은 사람들이 보지 않기 때문에 사장될 수도 있지만, 점심시간 직전이나 퇴근 전에 올린 글은 더 많은 사람들이 볼 가능성이 높다. 그래서, 분석 주기를 동적으로 가져가는 문제도 발생할 수가 있다. 낮시간중에는 최근 3시간의 추천만을 고려한다면 밤 시간에는 6시간의 추천을 고려한다거나... 주중과 주말의 추천을 달리 해석한다거나 그런 여러 변치 조건들이 추가될 수도 있을 것이다. (다시 강조하지만 해당 팀에 속해있지 않기 때문에 어떻게 이루어지는지는 알 수가 없고, 알고 있더라도 공공 장소에서 발설할 수가 없는 것이 집단에 속한 개인의 의무인 것을...)

 ..... 글의 밑천이 다 떨어져가는 것같다. (다음에 생각날 때마다 더 추가/수정하겠지만...)
추천 데이터가 없다는 가정아래... 사람들을 어떻게 유인할 것인가? 제목을 잘 정해야한다. 근데 낚시 제목은 사양해줬으면 좋겠다. 제목은 그 글의 전체를 요약할 수가 있어야 한다. 글의 첫 문장만으로 제목이 낚시였는지 알 수가 있다. 트래픽은 증가할지 모르겠으나, 사람들에 긍정적인 영향을 줄 수가 없다. 그래서 좋은 제목은 글의 전체를 요약할 수 있는 것으로, 때로는 논문의 keywords나 tag 태그에 포함된 용어들을 대부분 활용해서 글의 제목을 정하는 것이 좋다. 둘째, 사진을 잘 활용해야 한다. 실제 검색 서비스를 담당하는 회사들에서 연구한 보고서의 의하면 사진이 있는 경우 사람들의 시선을 더 잘 받도록 한다는 것은 기정 사실이다. (Eyetracking을 이용한 연구) 그런 점에서 현재 블로거뉴스의 이미지는 오른쪽에 위치해 있기 때문에 읽기에 불편하다. 왼쪽으로 옮겨줬으면 좋겠는데, 내부 제안 후에 마우스를 올린 경우 사진이 크지도록 하는 인터페이스로 바뀌었을 뿐이다. 세째, 용어를 잘 선택해야 한다. 검색이 많이 되는 용어가 있고 그렇지 않은 용어가 있다. 그래서 인기검색어를 이용해서 글을 적으면 트래픽이 많이 증가한다. (실제 본인의 [인기 검색어] 포스팅들이 낚시성으로 사람들을 많이 낚고 있다. 낚시를 위한 글이 아니라 검색 트렌드를 보여주기 위해서 그리고 전날을 요약해주기 위해서 글을 적는 것이기 때문에 이 글을 통해서 혹시 낚였구나라고 생각하셨던 분들에게는 다시 한번 죄송하다는 마을 전하고 싶다.) 미담의 신문 기사들을 보면 간혹 하이퍼링크가 걸린 단어들을 볼 수가 있다. 그 하이퍼링크는 검색으로 통하고 있지만... 그런 단어들을 유심히 살펴보면 기사에서 매우 중요한 위치를 차지하는 단어일 가능성이 높다. (물론 분석이 잘못 되어서 영 엉뚱한 단어에 하이퍼링크가 걸린 경우도 종종 있지만...) 요는, 좋은 단어를 사용하면 로봇들이 좋은 글인 걸로 착각할 수도 있다는 소리다.

 기회가 된다면 다음에는 구글 페이지랭크니 Okapi's BM25와 같은 일반적인 검색에서의 랭킹에 대한 이야기를 할 수 있을지도 모르겠다. 오늘 적지 못한 내용은 앞으로 계속 추가/수정하겠다.

 중요한 것 하나 더... 모든 추천이 동일한 효과를 발휘할까요? 좋은 추천을 해주는 사용자가 있을 것이고 대강 또는 마구잡이로 추천해주는 사용자들이 있습니다. 마구잡이라고 몰아세우는 것은 아니지만 좋고 나쁨을 판단하는 사용자들의 역치 수준이 모두 다르기 때문에 (만인은 평등하다지만) 추천자들의 성향 등에 따라서 추천 가중치가 달라질 수도 있습니다. ... 그리고 보통의 회사들의 입장에서 더 많은 글들이 올라오는 것에는 신경을 쓰지만 개인의 글이 베스트로 올라가고 내려오고 그런 것에는 신경을 쓸 여력도 없고, 그래서 별로 신경을 쓰지 않습니다. 물론, 악의적인 루머를 퍼뜨린다거나 그런 경우가 아니라면 말이죠. 본인의 글이 베스트로 올라갔느니 또는 내려왔느니 그런 것에 신경을 쓰지 않고 대범하게 인터넷 세상을 즐기세요. 정신 건강에도 그게 나을 겁니다.
반응형