본문 바로가기

추천 시스템

(6)
추천 시스템 (PR시리즈 A/S) 일전에 PR시리즈라는 타이틀로 20 차례에 걸쳐서 추천 시스템 및 알고리즘에 대한 다양한 글을 적었었습니다. 이후로도 계속 추천 관련 업무를 진행하고 있기 때문에 그 이후에 추천에 관한 생각을 정리할 필요가 있을 것같아서 글을 적습니다. 예전 글과 반복되는 내용도 있지만, 이 글을 처음 읽는 분들을 위해서 중복된 내용도 간략히 다시 적겠습니다. 초기의 추천 시스템은 아이템 Item 자체 또는 그것의 메타데이터를 이용해서 관련성을 맺어서 추천해줬습니다. 그래서 이름도 CBF, 즉 Content-based Filtering입니다. 보통 추천 알고리즘에서는 Recommendation보다는 Filtering이라는 용어를 많이 사용하는데, 필요한 것만 걸러서 보여준다 정도로 이해하면 될 것같습니다. Filteri..
추천 서비스에 대한 생각 일전에 PR시리즈를 통해서 추천 시스템과 관련된 여러 알고리즘 및 이슈를 다뤘습니다. 그 이후에도 추천 및 개인화 프로젝트를 계속 진행하고 있고, 당분간은 (타의로?) 추천 업무에서 벗어날 수 없을 듯합니다. 그래서 최근 떠오르는 추천에 대한 생각을 정리합니다. 일각에서는 추천이 모든 문제를 해결해줄 마법약으로 생각하는 듯합니다. 제대로 된 추천 서비스를 붙이면 갑자기 매출이 2~30%이상 올라가고, 사용자들이 급증할 것이라는 환상을 가지고 있습니다. 기존의 유수의 잘 나가는 기업들이 추천 서비스를 잘 만들었기 때문에 현재의 위치에 왔다는 착각을 하는 듯합니다. 그도 그럴 것이 아마존의 매출의 몇%이상은 추천 상품에서 나온다거나 넷플릭스가 추천을 잘 해줘서 성공했다와 같은 기사들이 많기는 합니다. 그러나..
추천 시스템과 프라이버시 (PR시리즈.20) 이 주제에 대해서 자세히 다룰 능력이 되지 않지만 이 주제를 뺀다면 글이 완성될 수 없기 때문에 생각했던 그리고 주워들었던 일반적인 내용만이라도 짧게 다룹니다. 프라이버시라고 제목에 적었지만 단지 프라이버시 뿐만 아니라, 여러 법적인 문제들은 늘 서비스 또는 알고리즘을 개발하는데 이슈가 됩니다. 특히 추천은 궁극적으로 개인화로 가기 때문에 개인정보 및 사용에 대한 고민이 많을 수 밖에 없습니다. (이 글은 조금 민감한 주제이므로, 미리 밝히는데 이 글은 오로지 개인의 일탈적 생각일 뿐, 제가 몸담고 있는 조직의 생각/프랙티스는 아닙니다. 어떤 것들은 그냥 가능성 또는 잠재성만을 얘기하는 것일 뿐 저의 신념을 얘기하는 것도 아닙니다.) 이전 글에서 사적인 영역에서 봤던 것을 기준으로 추천된 것이 공적인 영..
추천 시스템과 어뷰징 (PR시리즈.19) 특별히 지능적인 해결책이 있는 것도 아니지만 잠재적인 문제가 될 수 있는 이슈라서 글을 적습니다. 글의 내용 때문에 어뷰저들이 더 지능적으로 바뀌지 않을까?라는 우려를 할 수 있겠으나 그렇게 지능적으로 발전할만한 내용을 담고 있지 않으니 큰 문제는 되지 않을 듯합니다. 현재 지능적인 해결책보다는 그저 휴리스틱으로 사후 대처에 급급한 분야이기 때문에 더 지능적인 어뷰저가 등장한다면 대처 능력도 더 커질 것이니 나쁜 것만은 아닙니다. 병이 있어야 약이 있는 이치입니다. (오늘 slownews.kr에 올라온, 일워 개발 이야기를 참조하세요.) 추천 시스템과 검색 엔진은 실질적으로 같은 것이다라고 적은 적이 있습니다. 인터넷의 많은 서비스들이 어뷰징이나 스팸 공격을 받고 있습니다. 특히 검색 서비스를 악용해서 ..
추천 시스템의 유사도에 대한 심화이해 (PR시리즈.17) 이 글은 이전에 다뤘던 글들에 비해서 조금 더 관념적이면서 기술적인 글을 담고 있습니다. 그렇다고 해서 수식이나 프로그래밍 코드가 포함된 것은 아닙니다. 추천 시스템 (CF방식)에서 어떤 유사도 similarity measure를 사용하느냐에 따라서 추천 시스템의 성능에 큰 영향을 준다고 설명했습니다. 일반적으로 Euclidean distance, jacard index, correlation coefficient, cosine 등의 유사도를 많이 사용하고 있다고 말했습니다. 그리고, 추천 시스템에 따른 예측값과 실측값의 Error term이나 이들의 correlation의 정도로 추천 시스템의 정확도를 평가한다고 말씀 드렸습니다. (하단 링크 참조) 이 글에서는 유사도 또는 성능평가 측도에 대해서 좀더..
추천 시스템에 대한 잡다한 생각들 (PR시리즈.12) 총 11번에 걸쳐서 추천 시스템과 관련된 다양한 알고리즘, measure, 고려사항 등을 다뤘습니다. 이 글에서는 미쳐 다루지 못했던 내용이나 그외 추천 시스템에 대한 잡다한 생각들을 두서없이 적으려고 합니다. 외국의 경우 아마존이나 넷플릭스, 구글유튜브 등이 추천으로 유명한 회사/서비스들이지만, 국내에는 여전히 추천 또는 데이터기반이 여전히 미약합니다. 최근에 영화 추천 서비스인 왓차, 그리고 그것을 만든 프로그래밍스가 조금 유명세를 타고 있습니다. 이전의 모든 글의 공통된 밑바탕은 추천 알고리즘 및 서비스는 별개 아니다 입니다. 현존하는 데이터마이닝 방법 중에서 추천보다 더 쉬운 것은 없다는 것이 저의 기본 가정입니다. (물론 엄청 잘하는 것은 매우 어렵습니다.) 왓차 서비스도 전혀 새로운 것이 없는..