본문 바로가기

Gos&Op

오픈 데이터를 제공하는 회사를 꿈꾼다.

회사(카카오)는 요즘 고민이 많습니다. O2O를 시작하면서 예견된 일이지만 O2O에서 서비스적 성과는 냈지만 가시적인 비즈니스 성과는 제대로 내지도 못하고 이리저리 치이다보니 카카오라는 브랜드 이미지마저 나빠집니다. 많은 스타트업에 투자하고 인수를 해서 진행한 일도 카카오라는 이름으로 리브랜딩하는 순간 과거의 모든 것은 사라집니다. 대기업의 골목상권 침해라는 프레임으로 기술과 서비스를 평가하는 것에 억울함은 있지만, 그럴수록 상생과 공생, 그리고 번영이라는 어쩌면 시대의 화두에 대해서 더 고민하게 됩니다.

카카오는 카톡이라는 메신저 플랫폼도 가지고 있고 다음이라는 포털도 가지고 또 다른 많은 브랜드와 서비스를 가지고 있습니다. 그러나 매출은 결국 소위 말하는 트래픽 장사로 벌어들입니다. 즉, 광고입니다. 좀 고상하게 표현하면 데이터 비즈니스를 하고 있습니다. 지난 글에서 적었듯이 카카오가 현재까지는 데이터 비즈니스에 현명하지는 -- 이라고 적고 교활하지는 이라고 해석 -- 못했습니다. (참고 링크. http://bahnsville.tistory.com/1121)

결국 현재 카카오는 데이터 비즈니스를 제대로 하는 기반을 마련하면서 카카오를 중심으로 많은 스타트업들과 상생하는 건전한 생태계를 만들어야 하는 숙제를 가지고 있습니다. 이 두가지 -- 상생과 데이터 비즈니스 --를 한번에 해결(까지는 아니고 조금 도움이될)하는 한가지 방법을 제안합니다. (내부 게시판/아지트를 통해서 적었던 글을 외부용으로 편집해서 블로깅합니다.)

제가 생각했던 것은 '오픈 데이터 Open Data' 전략입니다. 즉, 프로그램 소스 코드나 라이브러리, API를 외부에 공개해서 마음껏 사용하도록 하는 오픈 소스처럼 카카오 서비스 생태계에서 확보한 다양한 데이터를 외부에 공개해서 마음껏 사용하도록 지원하는 것입니다. 가칭 Kakao Open Data Initiative (KODI)입니다. 실시간으로 확보하는 모든 데이터를 외부에 공개하자는 얘기는 당연히 아닙니다. 데이터가 기업의 특급 비밀이며 자산인 시대에 모두를 공개하는 것은 말도 안 되는 소리고, 또 (익명화 과정을 거친다손 치더라도) 사용자의 개인정보를 다수 포함한 데이터를 공개하는 것은 다른 법적 이슈도 발생합니다. 그리고 모든 데이터를 공개한다고 해서 방대한 양의 데이터를 한꺼번에 다 가져다쓸 수 있는 곳도 거의 없습니다. (가능한 곳은 카카오의 몇몇 경쟁 회사들 뿐입니다.) KODI의 기본 전제가 연구자들을 위한 데이터 공개입니다.

지금은 데이터의 시대이면서 지능의 시대로 접어들고 있습니다. (글을 처음 적은 날 구글은 AI-first를 선언했습니다.) 인공지능이 화두인 이 시점에 카카오 내부의 인력과 재원만으로 지능의 파고를 제대로 대처할 수가 없습니다. 일부 분야에서 앞선/첨단 기술을 적용해서 서비스화도 시도하고 있지만, 모든 분야에서 딥러닝 등의 머신러닝 기술을 적용할 수가 없습니다. 구글이나 페이스북도 많은 부분에 인공지능을 접목해서 가시적 성과를 내고 있지만 완벽하지는 않습니다. 그런 상황에서 갈길이 바쁜 카카오가 지금 당장 인공지능의 선두회사가 될 가능성은 거의 없다고 봐도 무관합니다. (앞으로의 가능성에 대한 여지는 남겨둡니다.) 최근 주목받고 있는 conversational UI, 즉 지능형 봇을 카톡에 제대로 구현한다거나 AI 기반으로 검색/추천랭킹을 완전히 바꾼다거나 많은 사용자/트래픽 정보를 비즈니스적 가치가 있는 정보로 가공하는 등의 많은 일들을 현재의 카카오 내부 역량만으로는 모두할 수가 없습니다.

회사 내에서 불가능하다면 회사 밖에서 솔루션을 찾아야 합니다. 그래서 많은 스타트업들에게 투자와 인수를 하는 것입니다. 잠재적 동지이며 경쟁자인 스타트업들도 중요하지만, 눈길을 학교로 돌려야 한다고 생각합니다. 수 테라바이트의 데이터가 우수은 빅데이터의 시대지만, 오늘도 열악한 대학원 연구실에는 수십만개, 아니 수만개의 데이터도 없어서 알고리즘을 개발하거나 개선하지 못하는 실정입니다. 10년 전에 추천 알고리즘에 관한 논문을 쓸 때 사용했던 (ML) 데이터나 BookCrossing (BX) 데이터가 여전히 거의 유이한 추천 알고리즘용 데이터입니다. (물론 이들 데이터는 여러 연구를 통해서 검증을 마친 상태라서 레퍼런스하기에 좋다는 장점이 있음) 대학원 연구실에는 실제 현장/서비스가 만들어내는 데이터가 없어서 앞으로 전진하지 못하는 것이 현실입니다. 그 숨통을 확 터여줬던 것이 Netflix Prize였습니다. 사용한 메트릭의 좋냐 나쁘냐의 이슈를 떠나서, 알고리즘 분야에서 10%이상의 개선은 거의 불가능한 과제였지만, 넥플릭스 프라이즈를 통해서 그 벽을 허물었습니다.

넷플릭스처럼 상금대회를 개최하자는 얘기는 아닙니다. 단지 카카오 (또는 데이터를 가진 다른 회사)가 가진 그리고 해결해야하는 문제와 연관된 일부 (안전한) 데이터만 외부에 오픈하자는 것입니다. 많은 연구자들이 카카오의 데이터로 알고리즘을 개발/개선하고 검증하면서 논문을 쓴다고 상상해보십시오. 저는 이 글을 적으면서 상상만으로도 가슴이 벅찹니다. 그렇게 출판된 논문의 알고리즘을 가져와서 카카오의 서비스를 개선할 수 있습니다. 그런 우수한 연구를 한 연구자가 잡마켓에 나왔을 때 카카오가 먼저 사카우트한다면 인적/기술적 자산을 더 풍부하게 만들 수 있습니다. 이미 카카오의 데이터에 익숙해진 연구자라면 취업 후에 적응에 따른 시행착오도 줄일 수 있습니다. 예전에 '넷플릭스 프라이즈를 다시 생각하다'라는 글에서도 적었듯이, 연구논문에 'Kakao의 데이터를 사용했다'라는 문구만 들어가도 큰 홍보가 됩니다. 앞의 포스트에서 넷플릭스는 겨우 $1M이라는 헐값으로 10%개선된 알고리즘도 획득하고 데이터 비즈니스를 하는 회사라는 명성도 얻었다고 적었습니다. 카카오가 그리고 대한민국의 다른 회사들도 그런 명성을 얻을 수 있습니다.

많은 기업들이 자신들이 개발한 소스 코드를 공개하고 데이터를 오픈하는 것은 그들이 바보라서 아니면 세상을 크게 변화시켜야 한다는 대의 때문만은 아닙니다. 공개를 통해서 실질적인 이득을 얻고 있기 때문입니다. 내부에서 기존의 사고에 갇혀셔 같은 데이터를 같은 프로세스로 같은 관점으로 계속 들여다보면 결국 기존의 것과 전혀 다르지 않은 것을 반복할 뿐입니다. 오픈 이노베이션 Open Innovation이 항상 최고의 전략이라는 것은 아니지만, 손대지 않고 코 풀 수 있는 이만한 전략도 없습니다. 카카오가 필요한 기술과 인력을 외부에서 키우면서 카카오는 연구/기술 생태계를 만들어가는 회사라는 명성도 얻을 수 있습니다. 데이터가 21세기의 원유라고 표현하는데, 굳이 혼자 힘으로 다 캐고 정제할 필요는 없다고 생각합니다.

실제 실행에 옮기기 위해서는 고려해야할 사항이 많고, 장애물도 많습니다. 그래서 전략적 차원에서 고민하고 실행해봤으면 합니다. 그게 카카오가 아니더라도, 대한민국의 그 누군가 그리고 그 어떤 기업에서 먼저...

=== Also in...

반응형