'데이터과학'에 해당되는 글 1건

  1. 2013.03.06 빅데이터 시대는 갔다.
Share           Pin It

VentureBeat의 기사를 읽고 글을 적습니다. (참고. Big data is dead. What's next?)

언제나 기술용어가 마케팅용어로 변하는 시점이 되면 죽음 death이라는 단어가 등장합니다. 마케팅의 탄생 시점이 늘 기술의 사망 시점과 묘하게 겹치는 것같다. 인터넷만 국한시켜 생각해보면, 한 때 웹2.0이 기술용어인가 마케팅용어인가를 두고 논쟁이 벌어졌습니다. 그런 논쟁은 기술이 번성하고 이제 마케팅이 시작되는 시점에 벌어졌습니다. 그리고 최근에는 소셜이 그런 과정을 거쳤고, 이제는 클라우드나 빅데이터가 같은 운면에 접어들었습니다. 늘 그랬습니다. Geek의 손을 떠난 새로운 제품/서비스는 결국 마케터들의 손에 전달됩니다. 그 순간 매번 기술의 죽음이 언급됩니다. 마케팅이야 말로 기술과 인물의 결합에서 만들어진 것이고, 기술이 뿌리면 마케팅이 거두는 것입니다. 그러나 마케팅이 시작되는 시점에 기술이 힘을 잃게 됩니다. 그러나/그래서 또 다른 새로운 기술이 등장합니다.

기사에서도 바로 이 점을 말합니다. 많은 회사들과 서비스들이 빅데이터라는 이름 아래 모임으로서 빅데이터의 본래적 의미가 사라졌습니다. 사실 빅데이터라는 말 자체에 -- 데이터를 제외하고는 -- 특별한 기술적 향기가 전혀 없었습니다. 대용량처리, 분산처리 또는 병렬처리에서 느껴지던 기술적 향기가 클라우드 컴퓨팅이나 빅데이터라는 이름으로 불려지면서 이미 사라진지 오래입니다. 일반인들이 이해하는 과정에서 클라우드니 빅데이터라는 말이 마케터들에 의해 만들어진 점을 부인할 수가 없습니다. 실제 많은 이들이 클라우드나 빅데이터를 입에 달고 다니지만 그 본질과 속성을 제대로 알고 말하는 이들이 과연 몇이나 될까?가 항상 궁금했습니다. 10%로 잡는다면 제가 너무 긍정적인 사람일 것입니다.

저자는 빅데이터 이후를 스마트데이터 Smart Data, 데이터 사이언스 Data Science, 뉴에스큐엘 NewSQL, 그리고 예측분석 Predictive Analytics 등에 주목하라고 말합니다. SQL의 관계형 데이터가 최근 NoSQL이라는 비정형 데이터로 변해가고 있고, 더 복잡한 데이터를 위한 새로운 SQL의 필요성은 생길 듯합니다. 그러나 SQL은 너무 기술적인 부분이라 제가 더 자세히 언급할 엄두가 나지 않습니다. 그리고 최근에 종종 듣는 데이터 과학도 기존의 데이터 수집, 분석, 활용을 아우르는 총체로써의 메타포를 제공해주기 때문에 짧게 다루기가 어려운 주제입니다. 제가 처음 기사를 보면서 스마트데이터라는 표현이 눈에 띄었고 (그런데 이것도 너무 마케팅 냄새가 납니다), 오래전부터 스스로 선제적 대응이라 부른 예측 분석은 늘 주목하고 있던 부분입니다. 그런데 스마트데이터와 예측분석을 굳이 따로 떼어서 설명하는 것이 맞지 않다고 생각합니다.

구슬이 서말이라도 꿰어야 보배다라는 속담이 있습니다. 우리에게 많은 데이터가 있지만 그 속의 의미를 찾아내고 서로 연결시키는 정보화 과정이 없으면 데이터는 그저 널부러진 구슬에 불과합니다. 그리고 정보에 가치를 부여하지 못하면 지식으로 진화하지 못하고, 그런 지식을 실생활에 적용해야지 그제서야 삶의 지혜가 됩니다. 데이터를 정보로, 지식으로, 지혜로 만드는 것이 데이터 처리 data processing, 데이터 분석, data analysis, 그리고 데이터 마이닝 data mining입니다. 이런 과정이 없으면 데이터는 그냥 메모리/디스크 공간만 차지합니다. 빅데이터가 대용량 다양성 속도 등에서 장점이 있지만, 가공과 분석의 과정이 없으면 빅데이터도 그저 많은 공간만 차지하는 애물단지입니다. 빅데이터를 분석해서 실서비스에 반영되고 그 서비스를 통해서 사용자들에게 가치를 제공해주는 것이 스마트 데이터입니다.

데이터 분석이 그저 과거의 트렌드와 패턴만 확인하는 것이라면 이 또한 -- 그저 자기 만족일 뿐 -- 큰 의미가 없습니다. 과거는 미래를 가리킵니다. 미래가 항상 과거에 있다는 말이 아니라, 미래에 대한 많은 힌트를 준다는 의미입니다. (그리고, 어떤 미래는 분명 과거에 있습니다.) 데이터 마이닝은 과거를 보지만 항상 미래를 염두에 두고, 모든 결과는 미래의 액션을 위한 것입니다. 기사에 언급된 다양한 추천엔진이라든가 사기방지시스템 등이 모두 미래의 액션을 촉진 또는 억제시키는 것입니다. 데이터를 통해서 미래를 예측하는 것이 예측분석이고, 이를 통해서 사용자의 미래 행동/판단을 지원하는 것이 스마트데이터입니다. 그러나 항상 염두에 둬야하는 점은 '예측분석은 당위성이 아니라 가능성을 제공한다'는 것입니다. 모든 미래가 과거에 있지 않다는 말의 의미입니다. 소위 말하는 블랙스완은 많은 데이터나 정교한 알고리즘으로 찾지 못할 수도 있습니다.

빅데이터 시대는 갔다라고 적었지만 여전히 빅데이터는 스마트데이터와 예측분석의 기저/인프라를 제공합니다. 그 인프라 위에 어떤 알고리즘/창의성을 올려놓을 것인가가 어떤 새로운 시대를 맞을 것인가?를 결정해줍니다. 향후에도 데이터의 양은 더더욱 늘어날 것이고 데이터의 종류도 더더욱 다양해질 것이고, 또 그것들을 가공하고 피드백하는데 필요한 시간은 더더욱 짧아질 것입니다. 이런 환경적 추세에 우리 인간의 지능/창의성을 더하여 미래를 대비하는 것이 미래예측이고 스마트 데이터입니다. 빅데이터 시대에는 '할 수 있다'를 내세웠다면, 스마트 데이터 시대에는 '이룩했다'고 자랑할 수 있어야 합니다. 빅데이터를 잘 활용하면서도 회의적으로 보는 이유가 많은 이들이 그저 '이것도 할 수 있다'만 말하기 때문입니다. 그것을 띄어넘어서 실생활에 진정한 가치를 줄 때 진정한 스마트 데이터 시대가 열립니다.

...

글을 적는 중에 재미있는 그림이 있어서 공유합니다. 데이터마이닝책을 찾아보다가 "Data Mining: Practical Machine Learning Tools and Techniques, 3rd Edition"을 발견했습니다. 2nd 에디션에 서는 녹색 나뭇잎 사이에 있는 녹색 도마뱀 사진을 표지로 삼았는데, 3rd 에디션에서는 아래와 같이 황금들판에 한마리 맹수 사진을 담고 있습니다. 만약 녹음이 우거진 숲속의 누른 맹수라든가 누른 벌판의 초록색 도마뱀이라면 눈에 잘 뛰었을 것입니다. 데이터 속의 의미라는 것이 때로는 그렇게 쉽게 발견되기도 하지만, 많은 경우 아래의 표지와 같이 우리 눈에 쉽게 띄지 않습니다. 아래의 사진과 같이 모호함에서 조금 덜 모호함을 만드는 과정이 데이터마이닝입니다. 집단지성이라는 이름으로 빅데이터가 모든 것을 해결해줄 것같지만, 때로는 더 많은 데이터가 그저 모호함만 가중시킬 수도 있습니다. 그래서 스마트함이 필요합니다. 아래의 맹수는 나의 행동을 경계하는 것일까요 아니면 나를 잡아먹으려고 준비하는 것일까요? 맹수를 발견하는 것이 데이터마이닝이었다면 맹수의 다음 행동을 예측해서 대비하는 것이 스마트 데이터마이닝입니다.

Data Mining: Practical Machine Learning Tools and Techniques, 3rd Edition

이번 글은 어느 때보다 더 두서없이 적었습니다.
(2013.02.25 작성 / 2013.03.06 공개)

댓글을 달아 주세요