본문 바로가기

serendipity

(3)
추천 시스템의 성능 평가방법 및 고려사항 (PR시리즈.6) 지난 글들에서 CF 알고리즘과 CF에서 가장 중요한 유사도를 구하는 방식에 대해서 간략히 설명을 드렸습니다. 이번에는 그런 추천 알고리즘들이 잘 개발되었는지를 측정하는 성능지표에 대해서 다루겠습니다. 평가지표에 더해서 추천 시스템을 개발할 때 고려해야할 사항도 함께 적겠습니다. 다른 대부분의 데이터마이닝 기술들이 그렇듯이 첫번째 성능지표는 정확도입니다. 제안된 방법이 얼마나 사용자의 선호도를 잘 예측해서 레이팅값을 제대로 예측하느냐 또는 추천된 아이템을 선택할/좋아할 가능성이 높은가를 측정합니다. 정확도는 보통 두가지 방법으로 계산됩니다. 가장 흔히 사용하는 방식은 예측된 레이팅과 실제 레이팅 사이의 차이, 즉 Error 텀을 측정하는 것입니다. MAE (Mean Absolute Error)와 RMSE ..
우연 행운 그리고 필연 Serendipity 내가 기억하기로 Serendipity라는 말을 처음 들었던 것은 존 쿠색과 케이트 베킨세일 주연의 를 통해서다. TV의 영화정보프로그램을 통해서 영화를 알게 되었고, 또 시간이 흘러 TV에서 방영하는 것을 두번정도 시청한 듯하다. 영화의 내용은 좀 뻔하다. 우연히 마주친 운명적 상대를 시간이 흐른 뒤에 다시 만나서 운명을 이어간다는 뭐 그런... 현대 소설에서는 모든 사건사고가 필연에 의해서 이뤄져야 하는데, 제목부터 '우연한 행운'으로 지었으니...사용자들을 상대로 하는 서비스를 만들다보니 Serendipity라는 말을 자주 하게 된다. 그저 누구나 예상할 수 있는 뻔한 서비스로는 계속 변화하는 사용자들의 필요 Needs와 욕구 Desire를 제대로 충족시켜주지 못한다. 카노모델 Kano Model에서..
의도된 우연 Connected Serendipity 작년 전반기 6개월동안은 다음에서 관련검색어 서비스의 데이터를 집계/분석하는 업무를 담당했었다. 다음에서는 관련검색어로 네이밍되었지만, 네이버에서 연관검색어로 서비스되기 때문에 연관검색어라는 용어가 더 통용되는 듯하다. 어쨌던 6개월의 개편 후에, 관련검색어 관련 메인롤은 다른 이에게 넘겨줬지만 여전히 서브롤은 담당하고 있다. 메인롤을 넘겨줘야했던 비하인드 스토리도 있지만 6개월동안 나름 집중했었는데... 그래서 지난 늦가을에 다음개발자컨퍼런스에서 관련검색어 데이터를 어떻게 만들어지는가에 대한 발표를 했다. (참고: DDC2011 (다음개발자컨퍼런스) 발표자료 - 가이드쿼리 및 관련검색어) 이 발표의 거의 마지막 부분에 관련검색어나 기타 여러 서비스들을 분석/준비하면서 고려해야할 대표적인 특성을 5개로 ..