저도 모릅니다. 그러니 이 글에서 너무 많은 것을 기대하지 마십시오.
분위기로는 진짜 빅데이터 시대가 도래한 것같다. 그냥 개발자들 사이에 오가던 대화/용어정도로만 생각했는데, 이제 하루가 머다하고 신문지상 (물론 IT섹션)에 빅데이터라는 말이 심심찮게 등장한다. 그리고 TV에서도 빅데이터를 다룬 다큐먼터리가 방송되었다. (참고. 시사기획 창: 빅데이터, 비지니스를 바꾸다. 1) 가끔 학교에 있는 친구/학생들이 내게도 빅데이터에 대한 자문을 구하는 경우도 있다. 트위터와 함께 실시간 실시간하던 것이, 페이스북과 함께 소셜 소셜했던 것도 까마득한 과거의 일로 느껴진다. 이제는 어디를 가든 빅데이터 빅데이터라고 재잘거리는 것같다. 지난 몇 년동안 빅데이터를 저장, 처리, 가공하기 위한 다양한 인프라들이 갖춰진 것도 사실이지만, 빅데이터라는 용어가 아직은 사람들 사이에 지금처럼 버즈될 그런 게 아니다. 여전히 실상이 없다. 섣불리 소셜이 모든 것을 대체할 거라는 그런 사회 분위기 때문에 벌써부터 소셜피로증이 생겨났듯이, 빅데이터가 모든 것을 가능케해줄 것같은 그런 핑크빛 -- 그래서 무책임한 -- 예언들 때문에 빅데이터가 제대로 꽃 피우기도 전에 사람들의 인식에서 빅데이터가 사라질 것같다. 기술용어가 마케팅용어로 변질되면 감당할 수가 없다.
기술 측면에서 빅데이터는 진짜 많이 성숙했다. 오래 전부터 분산처리나 병렬처리 (distributed computing, parallel processing)에 대한 연구가 많이 진행되었지만 (SETI (Search for Extra-Terrestrial Intelligence)는 진짜 전설의 프로젝트다), 실제 분산처리가 산업계에 안착하기 시작한 것은 구글이 맵리듀스 Map-Reduce 및 빅테이블 등을 소개하면서부터인 듯하다. 구글의 맵리듀스에 자극받아 야후에서 시작한 하둡 Hadoop은 빅데이터를 대중화시켰다고 봐야할 듯하다. 이후에 대용량 데이터를 저장, 관리하기 위한 몽고DB, 카우치DB, 카산드라 등의 NoSQL 제품들, 하이브 Hive와 피그 Pig와 같은 맵리듀스를 쉽게 구현하기 위한 스크립팅 언어들, 빅데이터를 위한 머신러닝 기술은 Mahout이라던가 분산처리시스템을 관리하기 위한 ZooKeeper 등과 같은 다양한 기술들이 우후죽순 생겨나고 있다. 불과 2~3년 전만 하더라도 맵리듀스, 빅테이블, 하둡 등과 같은 대표적인 몇몇 기술만 알고 있어도 뭔가 전문가가 된 듯한 기분이었는데, 이제는 어떤 기술/인프라가 있는지를 나열하는 것도 힘들 지경에 이르렀다. 5년, 10년 전보다는 확실히 빅데이터에 대한 다양한 기술들이 나왔고, 또 어떤 것들은 성숙했다고 생각한다.
그렇지만 본인은 여전히 빅데이터를 믿지 못한다. 회사에서 데이터를 가공, 처리하는데 수시간에서 며칠 걸리던 작업들이 하둡으로는 수분 내에 결과를 만들어내는 것을 보면서 놀랍기도 하고, 그래서 많은 데이터 분석요청을 하둡으로 대신하기는 했지만 여전히 빅데이터에 대해서 회의적이다. 빅데이터 기술 자체에 회의적이라기보다는 빅데이터를 바라보는 시선과 기대에 회의적이라 말하는 것이 더 맞을 듯하다. 빅데이터라는 열매가 제대로 익기 전에 먼저 따먹을 생각부터 하는 부류들이 너무 많다. 어떤 경우에는 그냥 빅데이터라는 상상 속의 결과물을 판매하고 있는 것같기도 하다.
빅데이터 기술을 사용하고 싶어 하는 이들에게 전하는 현실적인 충고는 이렇다.
기존에 데이터 처리 및 분석 업무가 한계에 부딪혔다면 빅데이터 기술을 전향적으로 도입할 것을 추천한다. 그러나 빅데이터가 모든 것을 해결해주는 마술봉이라는 기대를 가지고 빅데이터 처리/분석을 위한 시스템을 갖추는 우는 절대 범하지 마라. 무엇을 어떻게 왜하는지를 명확히 정리하기 전에는 빅데이터는 그냥 무용지물이고 비용만 지불하게 될 것이다.
그리고 더 이상적인 충고를 이렇다.
빅데이터가 아니라 빅인사이트를 가져야 한다. 사람들이 '빅데이터, 빅데이터'라고 말하지만, 실제 빅데이터에서 가장 필요한 것은 데이터가 아니라, 인사이트다. 수집/가공된 데이터에서 의미를 찾아내고 가치를 부여할 수 있는 인사이트가 더 중요하다. 그런 능력도 없이 모은 빅데이터는 그냥 빅가비지일 뿐이다.
기술의 시대에도 여전히 지혜가 필요하다. 지혜를 가져라. 그러면 데이터와 기술은 따라온다. 데이터 엔지니어링이나 데이터 사이언스에 앞서 데이터 필로소피를 가르쳐야 하는데...
- 페이스북에 해당 동영상을 소개시켜주면서 '쓰레기 다큐가 하나 더 만들어졌다'라고 코멘트를 단 이유를 곰곰히 생각해보기 바랍니다. [본문으로]