특별히 지능적인 해결책이 있는 것도 아니지만 잠재적인 문제가 될 수 있는 이슈라서 글을 적습니다. 글의 내용 때문에 어뷰저들이 더 지능적으로 바뀌지 않을까?라는 우려를 할 수 있겠으나 그렇게 지능적으로 발전할만한 내용을 담고 있지 않으니 큰 문제는 되지 않을 듯합니다. 현재 지능적인 해결책보다는 그저 휴리스틱으로 사후 대처에 급급한 분야이기 때문에 더 지능적인 어뷰저가 등장한다면 대처 능력도 더 커질 것이니 나쁜 것만은 아닙니다. 병이 있어야 약이 있는 이치입니다. (오늘 slownews.kr에 올라온, 일워 개발 이야기를 참조하세요.)
추천 시스템과 검색 엔진은 실질적으로 같은 것이다라고 적은 적이 있습니다. 인터넷의 많은 서비스들이 어뷰징이나 스팸 공격을 받고 있습니다. 특히 검색 서비스를 악용해서 스팸 문서를 배포하는 행위는 매우 우려스럽습니다. 정상적인 검색엔진을 분석해서 SEO (Search Engine Optimizatio 검색최적화)를 통해서 검색랭킹을 올리는 경우도 있지만, 문서의 내용을 변경한다는 등의 비정상적인 방법으로 어뷰징이 많이 일어난다. 그리고 서제스트, 관련검색어, 실시간 이슈어 등의 검색어를 순위에 올리기 위한 다양한 어뷰징이 존재한다. 검색에서도 그렇듯이 추천에서도 비슷한 어뷰징 사례가 등장할 수 있습니다. 다수의 좀비 PC 등을 사용해서 전혀 무관한 두 상품을 연관상품으로 묶어서 보여줄 수 있습니다. 나이키 운동화를 찾는 사용자에게 카메라를 보여주는 형태입니다. 만약 그 사용자가 카메라를 보고 구입한다면 오히려 땡큐인 상황이지만, 카메라가 아니라 성인용품 등이 노출된다며 문제는 심각해집니다.
특정 서비스를 과도하게 많이 사용한다고 해서 어뷰징이 아닙니다. 오히려 그들은 그 서비스의 헤비유저이므로 매우 감사해야할 사용자입니다. 어뷰저는 특정한 목적과 사적인 이득을 편취하기 위해서 서비스를 오남용하는 사용자입니다. 때로는 어뷰저이지만 매우 합리적인 어뷰저도 존재할 수 있습니다. 정상적인 연관상품을 매핑시켜줘서 커버리지를 넓혀준다면 그 사용자가 서비스를 남용하더라도 큰 문제는 아닙니다. 물론 경쟁 상품의 업주 입장에서는 한탄할 상황이지만 말입니다. 그런데 보통 어뷰징을 통해서 비정상적인 관계가 형성되기 때문에 문제가 됩니다. 앞서 말했던 성인용품이 많은 상품에 공통적으로 추천되는 경우입니다.
그리고 특정인이 서비스를 남용하더라도 큰 문제가 되지 않을 소지가 큽니다. 연관 상품이라는 것이 여러 사람들이 공통적으로 함께 조회/구입한 상품들을 연결하기 때문에 특정인의 남용으로 큰 변화를 주지 않습니다. 물론 비인기 상품의 경우 한두명이 같은 상품을 조회하면 엉뚱한 연결이 발생할 수도 있습니다. 구매를 기준으로 한다면 어뷰징이 오히려 비용을 만들어 내기 때문에 서비스 제공자 입장에서는 상관은 없습니다. 그런데 많은 경우 구매같은 엄격한 액션보다는 단순히 조회나 댓글을 남긴 것 등의 기록을 가지고 분석하기 때문에 (Data sparsity 등의 이슈로) 문제가 될 수 있습니다. 그리고 특정 인이 과도하게 사용하는 것도 충분히 막을 수 있습니다. 비정상적인 사용자의 행동 패턴은 그냥 원시 데이터에서 제외시켜도 되고, 데이터 중에서 아주 일부만 사용하면 그만입니다. 실제 계산량을 줄이기 위해서 사용자별로 최신 몇 개의 조회기록만으로 연관성을 계산하는 것이 더 합리적인 방법이기도 합니다. 문제는 요즘처럼 좀비PC를 이용한 대규모 공격이 들어왔을 때입니다. 물론 다수의 컴퓨터에서 너무 비슷한 패턴으로 행동이 이뤄지면 해당 컴퓨터의 모든 기록을 제외시킬 수도 있다. 실시간 분석에 민감하지 않은 서비스에서는 이렇게 걸러내면 어느 정도 해결된다. 물론 그래서 핵심 페어를 제외하고는 다른 세트의 조합으로 어뷰징을 시도하기도 합니다.
최근 영화 '변호인'이 개봉하기 전에 벌레들의 별점 테러라는 것이 자행되었습니다. 한 사람에 의한 좀비PC 공격은 아니지만 다수의 벌레들에 의해 발생한 어뷰징의 좋은 사례입니다. 이런 경우 기존의 행동 패턴과 맞지 않은 기록은 제외시킬 수도 있습니다. 이제껏 1점을 한 번도 준 적이 없는 사용자가 어느날 갑자기 1점을 줬다면 (아웃라이어로) 분명 의심해볼 수 있습니다. 다르게 생각해보면, 만약 점수를 준 행동만으로 그냥 암묵 피드백을 이용한다면 오히려 변호인을 봤던 사람들이 봤던 비슷한 다른 영화들 -- 당연히 벌레들이 싫어할 만한 --을 추천을 해주는 이상현상이 발생할 수 있습니다. 특수한 경우지만, 어뷰징을 했다가 오히려 뒷통수를 맞은 상황입니다.
그리고 만약 어뷰징이 발생하고 있다면 누군가가 그 서비스를 중요한 서비스로 인식하고 있다는 증거이기도 합니다. 나쁜 피드백이 무응답/무관심보다 낫다라는 말이 있습니다. 노이즈는 잘 걸러내면 됩니다.
준비가 없이 즉흥적으로 글을 적어서 조금 횡설수설했습니다.
추천시스템 전체 목록
- 추천 시스템과의 조우 (PR시리즈.1)
- 추천 시스템을 위한 데이터 준비 (PR시리즈.2)
- 추천대상에 따른 추천 시스템의 분류 (PR시리즈.3)
- 알고리즘에 따른 추천 시스템의 분류 (PR시리즈.4)
- 추천 시스템을 위한 유사도 측정 방법 (PR시리즈.5)
- 추천 시스템의 성능 평가방법 및 고려사항 (PR시리즈.6)
- 추천 시스템에서의 랭킹과 필터링 문제 (PR시리즈.7)
- 추천 시스템의 쇼핑하우 적용예 (PR시리즈.8)
- 개인화 추천 시스템에 대하여 (PR시리즈.9)
- 추천 시스템의 부작용 - 필터버블 (PR시리즈.10)
- 추천 시스템의 레퍼런스 (PR시리즈.11)
- 추천 시스템에 대한 잡다한 생각들 (PR시리즈.12)
- 추천 시스템을 위한 하둡 마훗 사용하기 (PR시리즈.13)
- 추천 시스템에 대해서 여전히 남은 이야기들 (PR시리즈.14)
- 추천 시스템과 머신러닝 (PR시리즈.15)
- 추천 시스템과 다중인격 (PR시리즈.16)
- 추천 시스템의 유사도에 대한 심화이해 (PR시리즈.17)
- 추천 시스템의 설계 (PR시리즈.18)
- 추천 시스템과 어뷰징 (PR시리즈.19)
==
페이스북 페이지: https://www.facebook.com/unexperienced