지금으로부터 10년 전인 2006년 10월 2일에 우편으로 DVD를 렌탈하는 미국 업체인 넷플릭스 Netflix에서 많은 이들을 깜짝 놀라게하는 발표를 했다. 2006년도 기준으로 자사가 보유하고 있던 방대한 양의 사용자들의 영화 평점 데이터를 공개하고, 자사의 추천 알고리즘의 정확도보다 10%이상 향상시킨 알고리즘을 개발한 팀에게 상금으로 $1M을 주겠다는 발표한 것이다. 이른바 Netflix Prize 또는 Netflix Contest로 알려진 대회의 시작을 알린 것이다를. 당시만 하더라도 이제 겨우 우편 렌탈에서 온라인 스트리밍다운로드로 넘어가던 초기였다는 것을 감안하면 더욱 놀라운 일이다.
1백만달러 (한화로 약 10억원)의 상금 규모도 놀라웠고, 또 그들이 공개한 평점 데이터의 양도 놀라웠다. 학교에 있으면 신뢰할만한 충분한 양의 데이터를 확보하는 것이 매우 어려운데, 넷플릭스에서 공짜로 아니 상금까지 내걸면서 공개한 것이다. 2006-7년도는 학교에서 추천 알고리즘으로 논문을 한참 적고 있던 시절인데, 당시에 구할 수 있는 추천 데이터는 겨우 수천명의 사용자가 수백개의 아이템을 평가한 것이 전부였다. 일부 불필요한 데이터를 제거하고 나면 겨우 몇 만에서 몇 십만의 평가 데이터만 구할 수 있던 시절에, 1억건이 넘는 평가 데이터를 공짜로 얻는다는 것은 큰 행운이었다. 상금뿐만 아니라 양질의 데이터를 얻을 수 었기 때문에 세계의 많은 학자들이 넷플릭스 프라이즈에 뛰어들었다.
참고로 약 48만명의 사용자가 1.8만개의 영화에 대해서 5-star 평점 (rating)을 매긴 약 1억건의 데이터를 공개한 것이다. (참고. https://en.wikipedia.org/wiki/Netflix_Prize) 넷플릭스 프라이즈에서 RSME로 10%를 향상시키는 알고리즘을 찾겠다는 평가 방식에 문제가 없는 것은 아니나, 이 글에서는 별로 중요한 이슈는 아니다.
돈의 가치가 많이 떨어졌다고는 하지만 1백만 달러 (약 10억원)은 여전히 큰 돈이다. 넷플릭스 내에도 똑똑한 개발자들이 많이 있을테고, 추천 시스템으로 유명한 몇몇 대학 연구실과 협업을 하면 더 적은 돈으로 충분히 괜찮은 알고리즘을 만들 법도 했지만, 얼핏 보기에 넷플릭스가 무모한 선언을 한 것처럼 보였다. 물론 대회를 선언했기 때문에 그동안 추천 시스템과 무관한 일을 했던 수학자나 데이터 사이언티스트들을 추천 문제에 눈을 돌리도록 했고, 또 3년만인 2009년 6월에 RSME를 10%이상 향상시킨 알고리즘을 얻을 수 있었다. 어느 사기업의 돈으로 인류 전체에 혜택이 돌아가는 연구가 발전한 셈이다.
그래도 최근까지 1백만 달러는 과했다고 생각했었다.
그러나 다른 (마케팅) 관점에서 생각해보면 넷플릭스는 1백만 달러라는 푼돈으로 더 큰 것을 얻었다고 생각한다. 2006년도 이후에 발표되는 수많은 추천 관련 논문이나 인터넷 포스팅들에서 넷플릭스 프라이즈를 필히 언급한다. 단순히 기업의 브랜드 광고를 위해서도 수억원의 광고비를 책정하는데, 수많은 권위있는 논문, 기사, 그리고 블로그 등에서 10년이 넘도록 넷플릭스를 여전히 언급하고 있다. 아마존 등의 기업도 추천 알고리즘으로 유명하지만, '추천 = 넷플릭스'라는 인식을 많은 사람들에게 심어준 것이 넷플릭스 프라이즈라고 본다. (물론 저같이 IT 및 DT 분야에 종사하는 사람들과 일반인들의 인식에는 조금의 차이가 있겠지만...)
만에 하나 넷플릭스 프라이즈 (RSME 10% 향상)가 실패했더라도, 아니 전혀 정확도 개선이 없었더라도 넷플릭스는 남는 장사를 했다고 본다. (실패했다면 $1M을 세이브했을테니, 홍보만 왕창했으니 손도 안 대고 코를 푼 격)
오픈 소스를 공개하고 활용하는 것은 오랜 관행이었지만 데이터를 공개하고 쉽게 접근할 수 있게 해주는 것은 흔치는 않았다. 실리콘밸리의 유수의 기업들이 그들의 핵심 역량을 계속 공개하고 있고 최근에는 국내의 네이버마저 데이터랩을 오픈하는 것을 보면 10년 전에 넷플릭스한 결단은 그저 놀랍다. 보통 방향을 잘 모른다는 것이 문제지만, 방향이 맞다면 얼핏 보기에 조금 과하다 싶을 정도로 지르는 것도 결국은 남는 장사인 것 같다.
===
반응형