Share           Pin It

어쩌다 보니 카카오 AI 리포트 7월호에 카카오의 광고 랭킹 알고리즘을 소개하는 글을 적게 됐습니다. (퇴고 시간이 길었지만 실질적으로 이틀만에 급하게 적음) 원래는 제목처럼 '광고는 서비스의 동반자다'라는 이름으로 글을 적었지만 최종 편집본에는 '더욱 똑똑해진 AI 광고 알고리듬'으로 정해졌습니다. 대부분은 초본과 같았지만, 서론과 결언 부분이 조금 편집되면서 변경됐습니다. 그래서 초안에 적었던 서론과 결언만 다시 적습니다. 개인적으로 한글화가 어색한 영어 용어는 그냥 영어로 적는 편인데 편집되면서 한글화된 점도 미리 밝힙니다.ㅠㅠ

===

답이 정해진 질문으로 시작합니다. 

구글 Alphabet Inc.은 무슨 회사인가?라는 질문에 많은 사람들은 검색 서비스 회사나 안드로이드 OS 를 만드는 회사 정도로 답한다. 이 글을 읽는 분들이라면 TensorFlow를 만든 회사 또는 AlphaGo를 만 든 DeepMind의 모회사 정도로 답할지도 모른다. 같은 질문을 페이스북 Facebook Inc.에 적용한다면 소셜미디어 (SNS) 회사나 Instagram 또는 WhatsApp 서비스를 제공하는 회사라는 답변이 가장 많을 거 다. 어떤 기업을 정의할 때 그들이 무슨 제품을 만들고 어떤 서비스를 제공하는지도 중요한 요소지만, 그기업의자금흐름이어떠한지를보는것도중요하다.즉,기업이어떻게돈을버는지가그기업의 본질을 나타낸다. 공히 구글과 페이스북의 매출에서 광고가 8~90% 이상을 차지한다. 그렇다면 구글 과 페이스북은 광고 회사라고 정의하는 것이 맞다. 구글은 광고를 위해서 검색 서비스를 제공하고 안 드로이드OS를 만들고 있는 것이고, 페이스북도 광고를 위해서 타임라인과 인스타그램 등의 서비스 를 제공하고 있는 셈이다. 국내의 네이버도 광고 회사고, 카카오는 포트폴리오가 좀더 다양하지만 매 출의 50%정도는 광고가 차지하므로2 광고 회사라 불러도 무관하다. 광고의 정의와 범위에 따라 달라 지겠지만 우리가 알고 있는 대부분의 인터넷 기업들을 광고 회사로 봐야 한다. 광고 비즈니스를 알면 인터넷기업의진면모를제대로볼수있지만,아쉽게도많은이들이—심지어IT회사의직원들마저 도—인터넷기업들이어떻게돈을벌고있는지제대로알지못한다.


본문은 브런치 참조... 

https://brunch.co.kr/@kakao-it/84


결언

글의 성격상 경어체를 사용하지 못했습니다. 담당하는 업무를 소개하는 글을 부탁받고 신나게 적다 보니어려울수있는내용을좀지루하게적었습니다.지면관계상많은디테일을생략해서다소어렵 거나 재미없을 수도 있지만 광고 랭킹과 관련된 많은 문제들이 존재하고 그것을 데이터 관점에서 그 리고 알고리즘으로 하나씩 해결해가는 과정은 참 재미있습니다. 여러분들의 도전을 기다리는 많은 재미있는 문제들이 있습니다. [그림 2]보다 더 아름다운 우상향 그래프를 그려줄 동료를 찾고 있습니다. 본인의 업무가 데이터 모델링과 알고리즘을 담당하고 있어서 시스템에 관한 지식이 많지 않습니다. 그래서 광고 시스템과 관련된 자세한 내용은 적지 못했습니다.

===

저희 팀에서 우수한 연구자와 개발자를 계속 뽑고 있습니다. 역으로 저를 좀 끌어가셔도...ㅎㅎ


(또) 어쩌다 보니, 학교 후배인 VUNO의 CTO 정규환 박사의 글도 7월호에 함께 실렸습니다.

[카카오AI리포트] AI 의료영상 기술 활용 사례 https://brunch.co.kr/@kakao-it/81

=== Also in...

F: https://www.facebook.com/unexperienced



신고

댓글을 달아 주세요

Share           Pin It

KPCB의 Mary Meeker의 2016년도 인터넷 트렌드 보고서가 지난 밤에 공개됐습니다. 자세한 내용은 아래의 링크/슬라이드를 직접 확인하시고, 대강 넘기면서 눈에 띄었던 몇 가지만 캡쳐한 화면과 함께 적겠습니다.

링크: http://www.kpcb.com/blog/2016-internet-trends-report



어쩌다 보니 캡쳐한 화면들이 대부분 그래프 위주입니다. 마리 미커의 제시한 목차에서 거의 한장씩 가져왔다고 보셔도 됩니다.

1. 글로벌 인터넷 인구는 계속 증가하지만 증가세는 둔화되고 있다.

글로벌 인터넷 인구를 보여주는 섹션에서 인도 인터넷 인구를 별도로 떼놓았다는 점이 특색입니다. 마치 몇 년 전에 글로벌 인터넷 인구 vs 중국 인터넷 인구를 비교했던 것의 재현으로 보입니다. 이제 명실공히 인도가 중국이 몇 년 동안 해왔던 것을 넘겨받았다는 느낌을 받습니다.

2. 스마트폰 마켓의 성숙 또는 정체... 새로운 모멘텀이 필요해 보입니다.

3. 여러 측면에서의 정체 및 하락. 아래 그림은 그냥 인구 증가(률) 그래프만 가져왔지만 여러 측면에서 둔화 및 다운되는 것을 확인할 수 있습니다.

4. 현재 광고팀에 소속돼있다 보니 광고 시장에 눈길이 갑니다. 여전히 모바일을 중심으로 온라인 광고는 성장하고 있습니다.

그러나 최근 여러 기사에도 나왔듯이 아시아와 모바일을 중심으로 AdBlocking을 채택하는 비율도 빠르게 증가하고 있습니다.

5. 세대의 변화도 눈에 띕니다. Generation is still evolving.

6. 몇 년 전부터 Re-Imagination이라는 키워드를 들고 나왔는데, 올해도 여전히 등장했습니다. 특히 지난 몇년 동안은 기존의 Off-line X가 On-line X로 전환되는 Re-imagination이었는데, 올해는 이미 온라인이었던 것이 넥스트 온라인으로 전환되는 Re-Imagination입니다. 대표적으로 텍스트 중심에서 이미지를 포함한 멀티미디어 중심의 커뮤니케이션입니다.

눈에 띄는 장표로 메시징 앱이 새로운 홈스크린이 됐다는...

계속 해서 보이스 인터페이스의 증가... 개인적으로 별로 선호하는 인터페이스는 아닙니다. 그런데 두 손이 모두 묶인 상태라면 음성으로 뭔가를 제대로 조작할 수 있다면...

Re-imagination에 마지막으로 자동차 산업에 대해서 나오는데, Uber 화면을 캡쳐하는 것보다는 디트로이트 (미국의 대표적인 자동차 산업 도시)의 인구수의 변화가 자동차 산업의 변화를 더 잘 설명해주는 듯합니다.

7. 인터넷 = 중국

아래 장표는 중국의 온라인 광고 시장이 TV 광고 시장에 앞섰다는 내용입니다. 기존 선진국들보다 중국이 인터넷 트렌드에는 확실히 앞섭니다.

8. 마지막으로 데이터... 빅데이터같은 마케팅 용어가 아닌 체감하는 데이터의 시대에 오신 것을 환영합니다.

그런데, AI와 관련된 내용이 없다. 작년에 Robot은 언급했던 것 같기도 한데, 어쨌든 로봇과 인공지능에 대한 언급이 없다는 건 (Voice 등에 살짝 포함돼있긴 하지만)...? 슬라이드에 무슨 내용이 있는가를 확인하는 것도 중요하지만 무엇이 없는가를 캐치하는 것도 중요하다.

=== Also in...

F: https://www.facebook.com/unexperienced

신고

댓글을 달아 주세요

Share           Pin It
지금으로부터 10년 전인 2006년 10월 2일에 우편으로 DVD를 렌탈하는 미국 업체인 넷플릭스 Netflix에서 많은 이들을 깜짝 놀라게하는 발표를 했다. 2006년도 기준으로 자사가 보유하고 있던 방대한 양의 사용자들의 영화 평점 데이터를 공개하고, 자사의 추천 알고리즘의 정확도보다 10%이상 향상시킨 알고리즘을 개발한 팀에게 상금으로 $1M을 주겠다는 발표한 것이다. 이른바 Netflix Prize 또는 Netflix Contest로 알려진 대회의 시작을 알린 것이다를. 당시만 하더라도 이제 겨우 우편 렌탈에서 온라인 스트리밍다운로드로 넘어가던 초기였다는 것을 감안하면 더욱 놀라운 일이다.

1백만달러 (한화로 약 10억원)의 상금 규모도 놀라웠고, 또 그들이 공개한 평점 데이터의 양도 놀라웠다. 학교에 있으면 신뢰할만한 충분한 양의 데이터를 확보하는 것이 매우 어려운데, 넷플릭스에서 공짜로 아니 상금까지 내걸면서 공개한 것이다. 2006-7년도는 학교에서 추천 알고리즘으로 논문을 한참 적고 있던 시절인데, 당시에 구할 수 있는 추천 데이터는 겨우 수천명의 사용자가 수백개의 아이템을 평가한 것이 전부였다. 일부 불필요한 데이터를 제거하고 나면 겨우 몇 만에서 몇 십만의 평가 데이터만 구할 수 있던 시절에, 1억건이 넘는 평가 데이터를 공짜로 얻는다는 것은 큰 행운이었다. 상금뿐만 아니라 양질의 데이터를 얻을 수 었기 때문에 세계의 많은 학자들이 넷플릭스 프라이즈에 뛰어들었다.

참고로 약 48만명의 사용자가 1.8만개의 영화에 대해서 5-star 평점 (rating)을 매긴 약 1억건의 데이터를 공개한 것이다. (참고. https://en.wikipedia.org/wiki/Netflix_Prize) 넷플릭스 프라이즈에서 RSME로 10%를 향상시키는 알고리즘을 찾겠다는 평가 방식에 문제가 없는 것은 아니나, 이 글에서는 별로 중요한 이슈는 아니다.

돈의 가치가 많이 떨어졌다고는 하지만 1백만 달러 (약 10억원)은 여전히 큰 돈이다. 넷플릭스 내에도 똑똑한 개발자들이 많이 있을테고, 추천 시스템으로 유명한 몇몇 대학 연구실과 협업을 하면 더 적은 돈으로 충분히 괜찮은 알고리즘을 만들 법도 했지만, 얼핏 보기에 넷플릭스가 무모한 선언을 한 것처럼 보였다. 물론 대회를 선언했기 때문에 그동안 추천 시스템과 무관한 일을 했던 수학자나 데이터 사이언티스트들을 추천 문제에 눈을 돌리도록 했고, 또 3년만인 2009년 6월에 RSME를 10%이상 향상시킨 알고리즘을 얻을 수 있었다. 어느 사기업의 돈으로 인류 전체에 혜택이 돌아가는 연구가 발전한 셈이다.

그래도 최근까지 1백만 달러는 과했다고 생각했었다.

그러나 다른 (마케팅) 관점에서 생각해보면 넷플릭스는 1백만 달러라는 푼돈으로 더 큰 것을 얻었다고 생각한다. 2006년도 이후에 발표되는 수많은 추천 관련 논문이나 인터넷 포스팅들에서 넷플릭스 프라이즈를 필히 언급한다. 단순히 기업의 브랜드 광고를 위해서도 수억원의 광고비를 책정하는데, 수많은 권위있는 논문, 기사, 그리고 블로그 등에서 10년이 넘도록 넷플릭스를 여전히 언급하고 있다. 아마존 등의 기업도 추천 알고리즘으로 유명하지만, '추천 = 넷플릭스'라는 인식을 많은 사람들에게 심어준 것이 넷플릭스 프라이즈라고 본다. (물론 저같이 IT 및 DT 분야에 종사하는 사람들과 일반인들의 인식에는 조금의 차이가 있겠지만...)

만에 하나 넷플릭스 프라이즈 (RSME 10% 향상)가 실패했더라도, 아니 전혀 정확도 개선이 없었더라도 넷플릭스는 남는 장사를 했다고 본다. (실패했다면 $1M을 세이브했을테니, 홍보만 왕창했으니 손도 안 대고 코를 푼 격)

오픈 소스를 공개하고 활용하는 것은 오랜 관행이었지만 데이터를 공개하고 쉽게 접근할 수 있게 해주는 것은 흔치는 않았다. 실리콘밸리의 유수의 기업들이 그들의 핵심 역량을 계속 공개하고 있고 최근에는 국내의 네이버마저 데이터랩을 오픈하는 것을 보면 10년 전에 넷플릭스한 결단은 그저 놀랍다. 보통 방향을 잘 모른다는 것이 문제지만, 방향이 맞다면 얼핏 보기에 조금 과하다 싶을 정도로 지르는 것도 결국은 남는 장사인 것 같다.

===
B: https://brunch.co.kr/@jejugrapher
M: https://medium.com/jeju-photography
F: https://www.facebook.com/unexperienced


신고

댓글을 달아 주세요

Share           Pin It
매년 인터넷 트렌드를 정리해서 올려주는 KPCB의 Mary Meeker의 인터넷 트렌드 2015년도 버전이 지난 밤에 공개됐습니다. 며칠 전에 트렌드 보고서가 나왔을 것같은데 내가 놓쳐버렸나?라고 생각했었는데...

오전에 시간이 없어서 그냥 빠른 속도로 전체 슬라이드를 넘겨봤습니다. 다시 자세히 읽어봐야겠지만, 빠르게 넘기면서 눈에 띄었던 몇 가지만 언급하겠습니다.
  1. 인터넷 시장이 여전히 증가하고 있지만 폭발성은 많이 잃어버렸다. 그러나 지금 모바일이 인터넷의 성장을 주도하고 있다. (이건 작년에도 비슷했던 것같은데, 그 현장이 더 확연해진 면이 있음)
  2. 작년 보고서에서는 소비자 관련 서비스를 RE-IMAGINE에서 주를 이뤘는데, 올해는 기업시장과 관련된 다양한 서비스가 등장한 것이 주목할 만합니다. 인터넷도 초기에는 소비자 위주에서 차츰 기업/업무용으로 변했듯이, 모바일도 소비에서 점차 생산으로 시프트되고 있는 듯합니다.
  3. 최근 중국은 매우 중요한 위치를 차지했습니다. 이제 인도가 중국과 동급으로 바라보기 시작한 것같습니다. 오랫동안 인도 시장의 가능성을 계속 말해왔지만, 실제 인식에서 미국과 중국의 그것과 동급으로 놓고 생각하지는 않았었는데, 이제 인도에 대한 실질적인 인식이 바뀌기 시작한 듯합니다.


바쁘신 분들은 TechCrunch에서 뽑은 23장의 장표를 보세요.

==
페이스북 페이지: https://www.facebook.com/unexperienced


신고

댓글을 달아 주세요

Share           Pin It
언제나 인터넷 업계, 어쩌면 이제 그냥 우리의 실생활을 잘 정리해서 매년/정기적으로 소개/공유해주는 KPCB의 Mary Meeker의 인터넷 트렌드 보고서 2014년 버전이 어제 공개됐습니다. 전체 내용은 아래의 슬라이드를 참조하시고, 그냥 빠르게 넘기면서 눈에 띄었던 몇 가지 점만 추리려 합니다.


먼저 이야기의 시작을 2013년도로 되돌려야 합니다. 작년에 발표한 자료에서 RE-IMAGINE이라는 키워드를 들고 나와서 기존에 오프라인에서 이뤄지던 일들이 온라인으로 옮겨가는 몇 가지 섹터로 요약정리했고, 하반기에 몇 가지를 더 추가했습니다. 2014년도 버전에서도 같은 내용을 더 추가했습니다. 2014년도 버전에서는 오프라인에서 온라인으로의 트랜지션 이후의, 온라인에서 올라인 (모바일)로의 트랜지션에 더 방점을 찍은 듯합니다. 메시징, 앱 (잡스가 맞았네요.), 컨텐츠 유통채널 등등에서 온라인을 넘어 올라인으로 넘어가는 것을 잘 정리했습니다.

RE-IMAGINATION이 가장 중요한 단어라서 먼저 언급했지만, 전반적인 트렌드는 인터넷 성장 속도는 다소 정체되지만 모바일 성장 속도는 더 가속되고 있고, 미국의 성장 속도는 다소 주춤하지만 그 외의 세계, 특히 중국의 속도는 여전히 어마어마하다는 것입니다. 이 둘이 결합해서 중국에서의 모바일의 성장, 특히 중국을 모바일 혁신의 중심지가 되고 있다고 합니다. 다른 자료들을 통해서 공개됐듯이 중국은 적어도 모바일에서는 따라쟁이 카피캣이 아니라 혁신의 제일 앞단에 있는 듯합니다. 그러나 여전히 OS분야에서는 미국의 힘이 더 강해지고 있습니다.


교육과 헬스케어 분야를 따로 떼내서 소개하는 것으로 봐서 앞으로 더 주목받을 듯합니다. 사석에서 여러 사람들에게 밝혔듯이 과거에도 그리고 미래에서 돈이 몰리는 분야는 사람을 살리거나 사람을 죽이는 분야입니다. 사람을 살리는 분야는 유아 및 어린이, 교육, 병원 등이 될테고, 사람을 죽이는 분야는 군수 뿐만 아니라 실버산업을 뜻합니다. ('죽인다'가 말 그대로 죽이는 것이 아니라 죽음과 관련된으로 해석하시면 됩니다.) 생과 사와 관련된 산업은 항상 중요합니다.

RE-IMAGINE을 좀더 장황하게 설명하면.. 먼저 모바일 메시징 분야입니다. 스카이프를 필두고 왓츠앱, 바이브 등이 비싸게 팔렸고 라인이나 카카오톡, 그리고 스냅챗 등이 가장 현재 뜨거운 분야입니다. 두번째로 잡스의 발견/통찰이 맞다는 것을 보여주는 앱으로의 전이입니다.  특히 눈에 띄는 대목은 'purpose-built & informed by contextual signal' 부분입니다. 다음으로 디지털 컨텐츠의 유통채널이 변하고 있는 것과 매일매일의 일상의 활동들이 기록되고 저장되고 분석되고 고유된다는 것을 밝힙니다. 비트코인이 아니더라도 다양한 형태의 결재수단이 바뀌는 것도 목격하고 있고, 다섯번째는 컨텐츠를 중심으로 커뮤니티를 만들고 다음으로 커머스로 이어지는 생태계를 다루고 있습니다.

무엇보다도 위의 모든 RI들을 합쳐놓은 빅데이터... 모바일과 IoT의 데이터가 인텔리전스를 만났을 때의 변화를 상상해야 합니다. 소개된 Tinder라는 앱을 설치했는데 아직은 국내에는 사용자가 별로 없는지 주변에서 아무도 검색을 못합니다. 사생활 이슈도 있지만 재미있는 서비스인 듯합니다. 센싱기술과 클라우드/밴드위드 기술의 발전, 그리고 분석을 통한 다양한 활용으로 기존의 생활패턴이 바뀌는 것.. 주목해볼 대목입니다.


다음으로 비디오와 N스크린 이야기를 다룹니다. 특히 눈에 띄는 대목은 3번째 'Apps Replacing Channels'입니다. 


다음으로 중국의 역습과 IPO 기업들에 대한 간략한 상태 요약 (& 활발해진 M&A) 등으로 슬라이드를 요약합니다.

최근 회사 사정과 결부되서 161쪽의 내용도 저의 눈길을 끕니다.


전체를 다루지 못하고 그냥 페이지를 빠르게 넘기면서 눈에 띄는 대목만 집어봤습니다. 각자의 관심사나 현재 상황에 맞게 확인해보시고 전략을 세우고 실행하셨으면 합니다.

추가. <re/code> 컨퍼런스에서 발표하는 Mary Meeker. 워낙 내용이 많아서 슬라이드의 중요 단어만 언급하는 수준이지만...

==
페이스북 페이지: https://www.facebook.com/unexperienced


신고

댓글을 달아 주세요

  1. Favicon of http://kongdple.tistory.com BlogIcon 사부노 2014.06.11 11:11 신고 Address Modify/Delete Reply

    큰 도움이 된 포스팅입니다.
    사회가 너무 빠르게 돌아가 트렌드를 주의하지 않으면 안되겠더라구요..

Share           Pin It
최근 페이스북 뉴스피드를 보면 몇 가지 변한 점을 발견할 수 있다. 나쁜 점도 있고 좋은 점도 있다.

먼저 나쁜 점부터 집어 보면 (물론 개인의 사용 패턴 그리고 관점/철학의 차이에 따른 불편함이다.) 페이스북이 1월에 뉴스피드 노출 알고리즘을 개선했다. (참고. 페북 뉴스피드, 페이지보단 친구 소식 잘 띄게) 블로터 기사처럼 현재 뉴스피드는 친구의 글/사진과 페이지 (팔로잉하는 사람의 글/사진 포함)를 함께 보여줬는데, Most Recent 옵션을 사용하면 모든 글을 시간 역순으로 보여줬다. 그런데 뉴스피드 알고리즘을 변경한 후에는 뉴스피드만으로는 모든 글을 확인할 수 없다. 물론 이전에도 Top Stories를 선택하면 Edge Rank로 알려진 알고리즘에 의해서 많은 라이크나 댓글이 달린 기사를 우선 보여주기는 했지만, 지금처럼 제한하지는 않았다. 즉, (예전에는) Most Recent 옵션으로 모든 글을 시간순으로 확인할 수 있었다. 

그러나 지금은 Most Recent를 통해서 모든 글을 볼 수 없다. 해외 언론에서도 "Facebook's fatal weakness: Why the social network if losing to Amazon, Apple & Google"이라는 글을 통해서 나와 비슷한 불편을 토로했다. (위의 기사는 유저 컨트롤 그 이상을 다루고 있고 충분히 읽을 가치가 있음) 글의 저자 Andrew Leonard처럼 나도 페이스북 앱에 접속할 때마다 매번 상단의 랭킹 옵션을 Most Recent로 변경하고 있다. 그런데 앞서 말했듯이 이렇게 변경하더라도 모든 글을 볼 수가 없다. (어쩌면 모바일 앱에서는 조금 다를 수도 있다.) 그래서, 적어도 PC에서는, 모든 (친구가 적은 것이 아닌 페이지/팔로잉에 올라온) 최신 글을 확인하기 위해서 왼쪽 메뉴 패널에 있는 Pages Feed를 다시 확인해야 한다. 이 Pages Feed의 한가지 문제점은 내가 보고 싶은 것 이상을 보여준다는 단점이 있다. 즉, 나는 그냥 새로 올라온 글만 읽고 싶은데, 팔로잉하는 사람이 라이크를 누르거나 댓글을 단 모든 행동/글들을 함께 보여준다는 점이다. 나는 그들의 글을 보고 싶지 그들이 라이크/댓글을 단 글을 보고 싶은 것이 아니다.

어쨌든 이렇게 뉴스피드 알고리즘을 변경한 후로 내가 원하는 형태로 뉴스/글을 소비하지도 못하고, 불편하게 추가 액션을 취해야 하고, 또 그렇게 들어간 곳에서는 불필요한/보고 싶지 않은 쓸데없는 글들까지 모두 걸러서 봐야 한다. 물론 간혹 라이크나 댓글이 달린 글이 충분히 가치가 있는 경우도 있지만, 대부분은 나와 무관한 그냥 쓰레기인 경우가 많다. 자동화된 필터링은 좋지만 내 의지/의사와 반해서 마구잡이 필터링은 문제가 있다.

불편한 단점이 있다면 다른 측면에서 장점도 있다. 아래의 캡쳐 화면과 같이 관심이 가는 글/링크를 클릭하면 아래쪽에 관련된 글이 추가되어 추천해준다. 내용이 유사한 경우도 있지만, 적어도 아래 화면의 경우에는 글이 인용한 원문을 추천해주는 것은 참 반가운 일이다. 어제 밤에는 어느 애니메이션 감독의 짧은 동영상을 클릭했을 때, 그 감독의 다른 동영상을 추천해줘서 함께 볼 수 있어서 좋은 경험이었다. 



특히 업무적 특성, 그리고 지금 진행하고 있는 뉴스 추천과 묘하게 연결되는 것이라서 관심이 간다. 자연스레 알고리즘을 유추하게 된다. 정확한 알고리즘은 알 수 없으나 대강 유추해본다면 (다른 대부분의 알고리즘들의 메카니즘과 닮았으리라 판단함) 글에 사용된 키워드나 메타데이터/컨텍스트 (작성자, 글의 타입 등)의 유사도, 글에서 인용/참조한 링크의 원문, 사용자들의 행동 분석 (Collaborative Filtering) 등으로 관련도를 찾아내고, 그 추천된 글의 관련도에 더해서 인기도 (얼마나 공유되고 라이크받았는지)나 시간 (최신순도 있지만, 적어도 원문의 경우에는 더 오래된 글) 등의 랭킹팩터를 이용한 것같다.

그리고 모든 글에 추천 컨텐츠를 보여주는 것이 아니라, 내가 클릭한 글에 자동으로/즉시에 추천되는 형태 (반응형 추천)인 점도 중요한 포인트다. 즉, 내가 클릭해서 읽는다는 것은 내가 관심이 있다는 것이고, 그런 관심을 바탕으로 추천해주기 때문이다. 화면구성이나 UI/UX 때문에 어쩔 수 없이 추천 컨텐츠를 쏟아내서 보여줘야하는 경우가 많은데, 나의 행동에 반응해서 보여준다는 점은 마음에 든다. 그런데 이런 식으로 나중에는 광고도 은근슬쩍 노출해줄 것같다는 생각도 든다.

==
페이스북 페이지: https://www.facebook.com/unexperienced


신고

댓글을 달아 주세요

Share           Pin It

테크크런치에 Visualizing 15 Years of Acquisitions by Apple, Google, Yahoo, Amazon, and Facebook이라는 제목으로 주요 IT 기업들의 최근 15년 동안의 기업인수 현황을 시각화한 기사가 올라왔습니다. 시각화는 원래 영국의 Simply Business에서 정리한 것입니다. 인터랙티브 시각화 데이터를 블로그에 올릴 수 있지만, 폭과 높이를 블로그 사이즈에 맞추니 제대로 작동하지 않아서 캡쳐화면으로만 대체합니다. 시각화 그래픽스와 자세한 내용은 테크크런치의 기사를 참조하세요. 저는 그냥 특징적인 것만 몇 가지 적겠습니다.


인수금액 기준으로 보기

먼저 위의 인수금액 기준으로 확인하면 재미있는 것을 발견할 수 있습니다. 구글의 모토롤라 인수 ($12.5B)와 최근 페이스북의 왓츠앱 인수 ($19B)가 인수 금액 면에서 워낙 커서 다른 인수는 사소해 보일 정도입니다. 상대적으로 인터넷 초기 기업인 야후는 초기에 큰 인수를 두번 단행했지만, 결과적으로는 대부분 실패로 끝났습니다. 현재 시가총액 1위 기업인 애플은 상대적으로 인수 규모가 작습니다. 신중하게 고민해서 필요한 부분에만 투자하는 모습을 확인할 수 있습니다.

그리고 위의 사진에서 상단의 카테고리별 필터링을 해보면 재미있는 현상을 발견할 수 있습니다. 인수 기업의 면면/카테고리를 확인해보면 이 회사가 어떤 회사이고 집중하는/관심갖는 분야가 어떤 것인지 대강 확인할 수 있습니다. 편의상 오른쪽에서 왼쪽으로 살펴봅니다.

  • 모두 기본적으로 소프트웨어 기업이기 때문에 소프트웨어의 인수는 빈번히 일어났습니다. 소프트웨어에서는 구글이 인수한 Waze가 약 $1B로 가장 많은 인수 금액을 투자했습니다.
  • 그런데 하드웨어를 확인해보면 애플이 역시 하드웨어 기업임을 알 수 있습니다. 그런데 최근 구글이 로봇 관련 인수를 많이 해서 구글도 상대적으로 하드웨어에 많은 투자를 했다는 것을 알 수 있습니다. 구글이 최근 인수한 Nest ($3.2B)가 가장 큰 인수였습니다.
  • 소셜 쪽은 당연히 페이스북이 두각을 나타냈고 가장 큰 금액도 왓츠앱에 $19B를 투자했습니다. 구글도 소셜에서는 빅바이어임을 보여주지만 아직은 소셜에서 입지를 제대로 자리잡지는 못했습니다. 애플도 최근 Topsy를 인수한 것이 눈에 띕니다.
  • 이커머스 분야는 당연히 아마존이 두각을 나타내지만 구글은 여전히 멀티플레이어의 역할을 하는 것을 볼 수 있습니다. 가장 큰 인수는 아마존이 인수한 Zappos로 약 $1B가 소요됐습니다.
  • 미디어 분야는 야후와 구글이 골고루 인수했고, 가장 큰 금액은 당시로는 상당히 큰 금액이었던 $1.6B에 인수한 YouTube입니다.
  • 광고 분야에서는 역시 구글은 광고회사라는 것을 알 수 있습니다. 야후도 많이 인수했지만, 구글의 더블클릭을 $3.1B에 인수한 것에는 미치지 않습니다.
  • 검색에서는 구글이 많은 기업을 인수했지만 최대 금액은 야후의 어버츄어를 인수하는데 소요된 $1.8B입니다. 어버츄어를 광고가 아닌 검색에 넣은 것이 조금 의아합니다.
  • 최근 가장 격전지는 모바일입니다. 구글이 주도하지만 페이스북도 주요 플레이어로 등장합니다. 최대 금액은 모토로라를 위해서 사용한  $12.5B입니다.
  • 기타 분야에서는 야후의 초기 삽질이 눈에 띕니다. $5B와 $3.6B를 투자한 브로드캐스트와 지오시티는 지못미입니다.
  • 전체적으로 애플은 하드웨어 회사, 아마존은 이커머스 회사, 구글은 광고 회사, 야후는 하드웨어를 제외한 잡탕 회사, 그리고 페이스북은 소셜회사임을 확인할 수 있습니다.

인수 빈도 기준으로 보기

다음으로 인수회수 Frequency에 따른 비교인데, 특별한 설명보다는 인포그래픽에 나온 코멘트만 소개하는 것으로 충분해 보입니다.

  • 애플의 경우, 잡스가 생존할 때는 인수는 혁신의 실패로 간주해서 인수가 별로 없었는데, 팀 쿡 체제 하에서는 다양한 압박을 받고 있어서 외부 수혈을 많이 하고 있다는 느낌을 맏습니다.
  • 아마존은 자신들의 주요 분야, 즉 이머커스에 집중해서 인수하고 있음을 확인할 수 있습니다.
  • 구글은 스타트업을 마구 잡아먹고 있습니다.
  • 야후는 꾸준히 인수전쟁에 뛰어들었지만 마리사 메이어가 CEO가 된 후에 왕성한 식욕을 보여줍니다.
  • 페이스북은 IPO 이후에 인수가 늘었다는 코멘트를 남겨놨습니다.
간단한 그래픽스지만 다양한 정보가 재미있게 녹아있는 듯합니다. 더 많은 인사이트는 직접 보시고...

==

페이스북 페이지: https://www.facebook.com/unexperienced


신고

댓글을 달아 주세요

Share           Pin It

20편의 PR시리즈를 통해서 추천 시스템에 대한 다양한 이야기를 했습니다. 원래는 슬라이드를 만들 계획이 없었지만 화이트보드와 펜과 함께 하는 강의가 아닌, 스크린과 하는 발표가 생겨서 어쩔 수 없이 간단히 추천 시스템의 구분에 대한 키워드만 뽑아서 발표자료로 정리했습니다. 내부적인 논의가 필요한 항목을 제외하고 공개합니다.

==

페이스북 페이지: https://www.facebook.com/unexperienced

신고

댓글을 달아 주세요

Share           Pin It

이 주제에 대해서 자세히 다룰 능력이 되지 않지만 이 주제를 뺀다면 글이 완성될 수 없기 때문에 생각했던 그리고 주워들었던 일반적인 내용만이라도 짧게 다룹니다. 프라이버시라고 제목에 적었지만 단지 프라이버시 뿐만 아니라, 여러 법적인 문제들은 늘 서비스 또는 알고리즘을 개발하는데 이슈가 됩니다. 특히 추천은 궁극적으로 개인화로 가기 때문에 개인정보 및 사용에 대한 고민이 많을 수 밖에 없습니다. (이 글은 조금 민감한 주제이므로, 미리 밝히는데 이 글은 오로지 개인의 일탈적 생각일 뿐, 제가 몸담고 있는 조직의 생각/프랙티스는 아닙니다. 어떤 것들은 그냥 가능성 또는 잠재성만을 얘기하는 것일 뿐 저의 신념을 얘기하는 것도 아닙니다.)

이전 글에서 사적인 영역에서 봤던 것을 기준으로 추천된 것이 공적인 영역에서도 노출될 수 있다는 우려의 글을 적은 적이 있습니다. 조금 낯이 뜨겁고 민망한 경우지만 웃으며 넘길 수도 있습니다. 그렇지만 하나의 기기 (대표적으로 스마트폰)로 개인의 모든 정보가 접근 가능해지고, 하나의 식별자 (이메일 등)로 모든 연결된 곳에서의 활동이 저장되고 통합된다는 것을 깊이 생각해보면 아찔하다는 생각이 듭니다. 가볍게 무시될 수도 있지만 또 그냥 넘길 수가 없는 것이 프라이버시 문제입니다.

다른 글에서 (추천 시리즈 외의 글) 개인정보의 개념이 바뀌고 있다는 뉘앙스의 글/말을 한 적이 있습니다. 페이스북의 저크버그는 개인정보/프라이버시의 시대는 끝났다라는 위험한 선언까지도 했지만 어쨌든 프라이버시에 대한 생각이 많이 바뀌었고 둔화되었습니다. 다른 글에서 저는 이제 개인정보는 개인에 대한 정보에 관한 것이 아니라 그 정보에 대한 통제권/제어권의 문제다라고 적었습니다. 이제는 그리고 앞으로는 개인의 정보를 숨길 수가 없습니다. 지난해 문제가 되었던 NSA의 감시 및 첩보활동에서 보듯이, 우리가 아무리 숨기려고 해도 그것을 캐내려는 시도가 많습니다. 그리고 무의식적으로 우리 정보를 흘리고 다니고 있습니다. 이미 내 주민등록 번호는 공용이다라는 우스개 소리도 합니다.

어쩌면 그래서 개인의 이름, 생년월일, 관심사, 다녀왔던 곳 등의 정보는 더 이상 개인정보가 아닐 수도 있습니다. 프라이버시 문제를 다룰 때 이런 정보를 보호해야 한다는 접근법은 어쩌면 맞지 않을 수도 있습니다. 이제는 그런 정보에 대한 통제권이라는 측면에서 프라이버시를 다뤄야한다고 생각합니다. 내가 페이스북에 사진을 공개한다면 내 친구들이나 때로는 불특정인이 저의 개인 페이지에서 그걸 볼 수가 있습니다. 그러나 그 사진을 허락도 없이 — 저작권/초상권 문제와는 별개로 — 다른 곳에서 이용할 수는 없습니다. 나의 정보는 내가 통제하는 범위 내에서 공개되고 사용되어야 합니다. 그런 의미에서 정보 통제권을 말하는 것입니다. 이미 공개된 (때로는 그냥 아무런 숫자조합으로도 만들어지는) 주민번호나 전화번호 자체가 문제가 되는 것이 아니라, 그것을 불법적으로 사용하는 것이 문제입니다. 전화번호나 이메일 주소를 공개했다면 정상적인 연락을 받겠다는 의미이지 스팸 문제나 메일을 받겠다는 의미가 아닙니다. 그런 스팸은 저의 통제권을 벗어난 것입니다. 즉, 프라이버시 침해라고 말할 때 그것이 나의 통제권 안에 있느냐 밖에 있느냐를 따져야합니다.

그런 측면에서 추천에서도 나의 구매나 조회 기록이 다른 사람들에게 도움을 줄 수 있도록 추천 데이터로 사용되어야 된다는 허락이나, 나에게 맞는 개인화된 추천을 받아보겠다 등과 같은 명시적 허락이 필요합니다. 서비스 제공자의 입장에서는 이런 옵트인 opt-in 방식은 여러모로 꺼려지기 때문에, 적어도 옵트아웃 opt-out 방식으로 사용하지 말것 또는 추천하지 말것 등의 옵션이 제공될 필요가 있습니다. 특정 히스토리만 빼달라와 같은 CS 까지 들어온다면 서비스 제공자 입장에서는 애초에 추천 서비스를 하지 않는 것이 가성비가 더 나을지도 모르겠다는 생각도 문득 듭니다.

프라이버시나 법적인 문제는 저의 전문 영역이 아니라서 이정도에서 끝맺겠습니다.

추천시스템 전체 목록

  1. 추천 시스템과의 조우 (PR시리즈.1)
  2. 추천 시스템을 위한 데이터 준비 (PR시리즈.2)
  3. 추천대상에 따른 추천 시스템의 분류 (PR시리즈.3)
  4. 알고리즘에 따른 추천 시스템의 분류 (PR시리즈.4)
  5. 추천 시스템을 위한 유사도 측정 방법 (PR시리즈.5)
  6. 추천 시스템의 성능 평가방법 및 고려사항 (PR시리즈.6)
  7. 추천 시스템에서의 랭킹과 필터링 문제 (PR시리즈.7)
  8. 추천 시스템의 쇼핑하우 적용예 (PR시리즈.8)
  9. 개인화 추천 시스템에 대하여 (PR시리즈.9)
  10. 추천 시스템의 부작용 - 필터버블 (PR시리즈.10)
  11. 추천 시스템의 레퍼런스 (PR시리즈.11)
  12. 추천 시스템에 대한 잡다한 생각들 (PR시리즈.12)
  13. 추천 시스템을 위한 하둡 마훗 사용하기 (PR시리즈.13)
  14. 추천 시스템에 대해서 여전히 남은 이야기들 (PR시리즈.14)
  15. 추천 시스템과 머신러닝 (PR시리즈.15)
  16. 추천 시스템과 다중인격 (PR시리즈.16)
  17. 추천 시스템의 유사도에 대한 심화이해 (PR시리즈.17)
  18. 추천 시스템의 설계 (PR시리즈.18)
  19. 추천 시스템과 어뷰징 (PR시리즈.19)
  20. 추천 시스템과 프라이버시 (PR시리즈.20)

==

페이스북 페이지: https://www.facebook.com/unexperienced

신고

댓글을 달아 주세요

Share           Pin It

특별히 지능적인 해결책이 있는 것도 아니지만 잠재적인 문제가 될 수 있는 이슈라서 글을 적습니다. 글의 내용 때문에 어뷰저들이 더 지능적으로 바뀌지 않을까?라는 우려를 할 수 있겠으나 그렇게 지능적으로 발전할만한 내용을 담고 있지 않으니 큰 문제는 되지 않을 듯합니다. 현재 지능적인 해결책보다는 그저 휴리스틱으로 사후 대처에 급급한 분야이기 때문에 더 지능적인 어뷰저가 등장한다면 대처 능력도 더 커질 것이니 나쁜 것만은 아닙니다. 병이 있어야 약이 있는 이치입니다. (오늘 slownews.kr에 올라온, 일워 개발 이야기를 참조하세요.)

추천 시스템과 검색 엔진은 실질적으로 같은 것이다라고 적은 적이 있습니다. 인터넷의 많은 서비스들이 어뷰징이나 스팸 공격을 받고 있습니다. 특히 검색 서비스를 악용해서 스팸 문서를 배포하는 행위는 매우 우려스럽습니다. 정상적인 검색엔진을 분석해서 SEO (Search Engine Optimizatio 검색최적화)를 통해서 검색랭킹을 올리는 경우도 있지만, 문서의 내용을 변경한다는 등의 비정상적인 방법으로 어뷰징이 많이 일어난다. 그리고 서제스트, 관련검색어, 실시간 이슈어 등의 검색어를 순위에 올리기 위한 다양한 어뷰징이 존재한다. 검색에서도 그렇듯이 추천에서도 비슷한 어뷰징 사례가 등장할 수 있습니다. 다수의 좀비 PC 등을 사용해서 전혀 무관한 두 상품을 연관상품으로 묶어서 보여줄 수 있습니다. 나이키 운동화를 찾는 사용자에게 카메라를 보여주는 형태입니다. 만약 그 사용자가 카메라를 보고 구입한다면 오히려 땡큐인 상황이지만, 카메라가 아니라 성인용품 등이 노출된다며 문제는 심각해집니다.

특정 서비스를 과도하게 많이 사용한다고 해서 어뷰징이 아닙니다. 오히려 그들은 그 서비스의 헤비유저이므로 매우 감사해야할 사용자입니다. 어뷰저는 특정한 목적과 사적인 이득을 편취하기 위해서 서비스를 오남용하는 사용자입니다. 때로는 어뷰저이지만 매우 합리적인 어뷰저도 존재할 수 있습니다. 정상적인 연관상품을 매핑시켜줘서 커버리지를 넓혀준다면 그 사용자가 서비스를 남용하더라도 큰 문제는 아닙니다. 물론 경쟁 상품의 업주 입장에서는 한탄할 상황이지만 말입니다. 그런데 보통 어뷰징을 통해서 비정상적인 관계가 형성되기 때문에 문제가 됩니다. 앞서 말했던 성인용품이 많은 상품에 공통적으로 추천되는 경우입니다.

그리고 특정인이 서비스를 남용하더라도 큰 문제가 되지 않을 소지가 큽니다. 연관 상품이라는 것이 여러 사람들이 공통적으로 함께 조회/구입한 상품들을 연결하기 때문에 특정인의 남용으로 큰 변화를 주지 않습니다. 물론 비인기 상품의 경우 한두명이 같은 상품을 조회하면 엉뚱한 연결이 발생할 수도 있습니다. 구매를 기준으로 한다면 어뷰징이 오히려 비용을 만들어 내기 때문에 서비스 제공자 입장에서는 상관은 없습니다. 그런데 많은 경우 구매같은 엄격한 액션보다는 단순히 조회나 댓글을 남긴 것 등의 기록을 가지고 분석하기 때문에 (Data sparsity 등의 이슈로문제가 될 수 있습니다. 그리고 특정 인이 과도하게 사용하는 것도 충분히 막을 수 있습니다. 비정상적인 사용자의 행동 패턴은 그냥 원시 데이터에서 제외시켜도 되고, 데이터 중에서 아주 일부만 사용하면 그만입니다. 실제 계산량을 줄이기 위해서 사용자별로 최신 몇 개의 조회기록만으로 연관성을 계산하는 것이 더 합리적인 방법이기도 합니다. 문제는 요즘처럼 좀비PC를 이용한 대규모 공격이 들어왔을 때입니다. 물론 다수의 컴퓨터에서 너무 비슷한 패턴으로 행동이 이뤄지면 해당 컴퓨터의 모든 기록을 제외시킬 수도 있다. 실시간 분석에 민감하지 않은 서비스에서는 이렇게 걸러내면 어느 정도 해결된다. 물론 그래서 핵심 페어를 제외하고는 다른 세트의 조합으로 어뷰징을 시도하기도 합니다.

최근 영화 '변호인'이 개봉하기 전에 벌레들의 별점 테러라는 것이 자행되었습니다. 한 사람에 의한 좀비PC 공격은 아니지만 다수의 벌레들에 의해 발생한 어뷰징의 좋은 사례입니다. 이런 경우 기존의 행동 패턴과 맞지 않은 기록은 제외시킬 수도 있습니다. 이제껏 1점을 한 번도 준 적이 없는 사용자가 어느날 갑자기 1점을 줬다면 (아웃라이어로) 분명 의심해볼 수 있습니다. 다르게 생각해보면, 만약 점수를 준 행동만으로 그냥 암묵 피드백을 이용한다면 오히려 변호인을 봤던 사람들이 봤던 비슷한 다른 영화들 -- 당연히 벌레들이 싫어할 만한 --을 추천을 해주는 이상현상이 발생할 수 있습니다. 특수한 경우지만, 어뷰징을 했다가 오히려 뒷통수를 맞은 상황입니다.

그리고 만약 어뷰징이 발생하고 있다면 누군가가 그 서비스를 중요한 서비스로 인식하고 있다는 증거이기도 합니다. 나쁜 피드백이 무응답/무관심보다 낫다라는 말이 있습니다. 노이즈는 잘 걸러내면 됩니다.

준비가 없이 즉흥적으로 글을 적어서 조금 횡설수설했습니다.

추천시스템 전체 목록

  1. 추천 시스템과의 조우 (PR시리즈.1)
  2. 추천 시스템을 위한 데이터 준비 (PR시리즈.2)
  3. 추천대상에 따른 추천 시스템의 분류 (PR시리즈.3)
  4. 알고리즘에 따른 추천 시스템의 분류 (PR시리즈.4)
  5. 추천 시스템을 위한 유사도 측정 방법 (PR시리즈.5)
  6. 추천 시스템의 성능 평가방법 및 고려사항 (PR시리즈.6)
  7. 추천 시스템에서의 랭킹과 필터링 문제 (PR시리즈.7)
  8. 추천 시스템의 쇼핑하우 적용예 (PR시리즈.8)
  9. 개인화 추천 시스템에 대하여 (PR시리즈.9)
  10. 추천 시스템의 부작용 - 필터버블 (PR시리즈.10)
  11. 추천 시스템의 레퍼런스 (PR시리즈.11)
  12. 추천 시스템에 대한 잡다한 생각들 (PR시리즈.12)
  13. 추천 시스템을 위한 하둡 마훗 사용하기 (PR시리즈.13)
  14. 추천 시스템에 대해서 여전히 남은 이야기들 (PR시리즈.14)
  15. 추천 시스템과 머신러닝 (PR시리즈.15)
  16. 추천 시스템과 다중인격 (PR시리즈.16)
  17. 추천 시스템의 유사도에 대한 심화이해 (PR시리즈.17)
  18. 추천 시스템의 설계 (PR시리즈.18)
  19. 추천 시스템과 어뷰징 (PR시리즈.19)

==

페이스북 페이지: https://www.facebook.com/unexperienced

신고

댓글을 달아 주세요