본문 바로가기

추천 알고리즘

(4)
추천 시스템 (PR시리즈 A/S) 일전에 PR시리즈라는 타이틀로 20 차례에 걸쳐서 추천 시스템 및 알고리즘에 대한 다양한 글을 적었었습니다. 이후로도 계속 추천 관련 업무를 진행하고 있기 때문에 그 이후에 추천에 관한 생각을 정리할 필요가 있을 것같아서 글을 적습니다. 예전 글과 반복되는 내용도 있지만, 이 글을 처음 읽는 분들을 위해서 중복된 내용도 간략히 다시 적겠습니다. 초기의 추천 시스템은 아이템 Item 자체 또는 그것의 메타데이터를 이용해서 관련성을 맺어서 추천해줬습니다. 그래서 이름도 CBF, 즉 Content-based Filtering입니다. 보통 추천 알고리즘에서는 Recommendation보다는 Filtering이라는 용어를 많이 사용하는데, 필요한 것만 걸러서 보여준다 정도로 이해하면 될 것같습니다. Filteri..
추천 서비스에 대한 생각 일전에 PR시리즈를 통해서 추천 시스템과 관련된 여러 알고리즘 및 이슈를 다뤘습니다. 그 이후에도 추천 및 개인화 프로젝트를 계속 진행하고 있고, 당분간은 (타의로?) 추천 업무에서 벗어날 수 없을 듯합니다. 그래서 최근 떠오르는 추천에 대한 생각을 정리합니다. 일각에서는 추천이 모든 문제를 해결해줄 마법약으로 생각하는 듯합니다. 제대로 된 추천 서비스를 붙이면 갑자기 매출이 2~30%이상 올라가고, 사용자들이 급증할 것이라는 환상을 가지고 있습니다. 기존의 유수의 잘 나가는 기업들이 추천 서비스를 잘 만들었기 때문에 현재의 위치에 왔다는 착각을 하는 듯합니다. 그도 그럴 것이 아마존의 매출의 몇%이상은 추천 상품에서 나온다거나 넷플릭스가 추천을 잘 해줘서 성공했다와 같은 기사들이 많기는 합니다. 그러나..
추천 시스템의 성능 평가방법 및 고려사항 (PR시리즈.6) 지난 글들에서 CF 알고리즘과 CF에서 가장 중요한 유사도를 구하는 방식에 대해서 간략히 설명을 드렸습니다. 이번에는 그런 추천 알고리즘들이 잘 개발되었는지를 측정하는 성능지표에 대해서 다루겠습니다. 평가지표에 더해서 추천 시스템을 개발할 때 고려해야할 사항도 함께 적겠습니다. 다른 대부분의 데이터마이닝 기술들이 그렇듯이 첫번째 성능지표는 정확도입니다. 제안된 방법이 얼마나 사용자의 선호도를 잘 예측해서 레이팅값을 제대로 예측하느냐 또는 추천된 아이템을 선택할/좋아할 가능성이 높은가를 측정합니다. 정확도는 보통 두가지 방법으로 계산됩니다. 가장 흔히 사용하는 방식은 예측된 레이팅과 실제 레이팅 사이의 차이, 즉 Error 텀을 측정하는 것입니다. MAE (Mean Absolute Error)와 RMSE ..
알고리즘에 따른 추천 시스템의 분류 (PR시리즈.4) 앞으로 다양한 주제의 글이 남아있지만, 이번 포스팅이 추천 시스템에서는 가장 핵심이 되는 추천 알고리즘에 대한 글입니다. 본격적으로 추천 알고리즘이 개발된 것은 20여 년 밖에 되지 않지만, 실 서비스에서 쉽게/바로 적용이 가능하고 그 효과도 즉각적으로 측정이 가능하기 때문에 다양한 방법들이 개발되었습니다. 밑에서 자세히 설명하겠지만 대부분의 알고리즘들이 매우 간단하여, 데이터마이닝에 큰 지식이 없는 이들도 쉽게 구현, 적용할 수 있어서 다양한 분야의 전문가들이 추천 알고리즘에 살을 붙여서 개념의 간단성에 비해서 매우 다양한 방법들이 존재합니다. 가장 원시적인 추천 알고리즘은 컨텐츠 기반의 필터링 (CBF)이 될 듯합니다. 아이템의 속성/메타데이터를 이용해서 연관 아이템을 묶어주기 때문에 별로 어렵지 않..