최근 모바일/스마트폰, SNS, 클라우드, 빅데이터 등의 용어가 IT뉴스에 자주 등장한다. 모두가 하나의 새로운 시대를 가르키고 있다. 완전히 기술용어도 아니고 그렇다고 아직은 마케팅용어도 아닌 빅데이터의 시대를 가르킨다. IT업계에 종사하고 데이터마이닝으로 밥을 먹고 살고 있지만 빅데이터라는 용어에 대한 감이 별로 없다. 누가 빅데이터라는 말을 처음 사용했는지 모르겠으나 그/그녀도 빅데이터를 뭘 의미하는지 제대로 이해를 하고 사용했을까?라는 의문도 든다.
피상적으로 말해서 빅데이터는 데이터의 크기가 상상을 초월할만큼 커야하고, 구성하는 데이터의 종류가 다양해야 한다. 뿐만 아니라, 그런 크고 다양한 데이터를 실제 애플리케이션/서비스에 사용할 수 있어야 하며, 그것도 거의 실시간으로 활용가능해야 한다. 내 느낌을 말하자면 주변의 사람들 특히 이 업에 종사하는 사람들도 빅데이터에 대한 감이 없다. 아니면 자신들의 관점에서 빅데이터를 이해하고 있다. 스토리지나 클라우드 정도를 다루는 사람들은 데이터 사이즈가 커기만 하면 그냥 빅데이터라고 부르는 것같다. 조금 더 기술적인 업을 다루는 사람들은 그저 Hadoop이나 NoSQL 등의 언어나 플랫폼을 사용하면 그저 빅데이터에 입문했다고 생각한다. 어떤 사람들은 -- 특히 분석 쪽에 있는 -- 그저 SNS에 유통되는 다양한 데이터들을 분석해서 가시적인 결과를 얻기만 하면 빅데이터를 제대로 활용한다고 말한다. 그 누구도 틀리지 않았지만 그 누구도 소위 빅데이터의 핵심이나 전체에는 접근하지 못한 것같다. 그리고 나는 여전히 빅데이터에 대한 감이 없다.
최근에 영어공부를 다시 한답시고 미드를 보기 시작했다. <LOST> 마지막 시즌을 시작으로 해서 <The Big Bang Theory>를 거쳐서 지금은 <Lie To Me>를 보고 있다. 라이투미는 무의식적으로 행하는 사람의 미세한 표정변화나 몸짓으로 그 사람이 현재 어떤 심리상태에 있는지를 파악하는 사람의 이야기다. 특히 겉으로 표현하는 말과 다른 행동, 또는 얼굴에 표현되는 속임표현/행동과 대비되는 속마음을 파악해내는 것이 핵심이다. 이런 능력을 실제 사건 해결에 얼마나 활용하고 있는지 또는 그것이 드라마에서 말하는대로 완벽한 과학인지는 모르겠다. 그런데 일부 정보만으로 전체 상황를 파악할 수만 있다면 그건 큰 의미가 있는 것같다.
앞서 말한 빅데이터라는 거창한 용어 아래에서 무조건 많은 데이터가 좋은/바른 결과를 얻는다는 미신이 생겼다. 수단과 방법을 가리지 않고 많은/다양한 데이터를 모아두기만 하면 순도 100%의 순금을 얻을 수 있다는 그런 믿음이 생겨났다. 성경 출애굽기에 보면 모세가 시내산에서 하나님과 대면하는 동안, 아래에서는 사람들이 금송아지를 만들어서 경배하기 시작했다. 나중에 모세가 아론을 책망할 때 아론은 '사람들이 금붙이를 가져왔길래 그걸 불 속에 던졌더니 금송아지가 나왔다'라고 변명한다. 지금 빅데이터를 대하는 우리의 인식이 아론의 변명과 똑같다. 무조건 많은 데이터를 얻기만 하면 정답 (또는 정답에 가장 가까운 답)을 얻을 수 있다는 그런 이상한 믿음이 생겼다.
그런데 라이투미에서 얼굴 표정의 일부분이나 행동의 일부분의 부자연스러움에서 힌트를 얻듯이 많고 다양한 데이터 중에서 핵심이 되는 부분만을 파악해서 그것에서부터 답을 유도할 수 있어야 된다. 물론 미세한 변화가 모든 것을 말해주지는 않는다. 여러 미세 표정/행동들을 종합해서 사람의 심리상태를 파악하듯이 빅데이터 분석에서도 부분부분들에서 힌트를 얻더라도 그것을 종합하고 의미를 부여하는 능력은 여전히 필요하다. 그리고 특정 미세한 표정이 바로 특정한 심리상태로 연결지을 수 없고 왜 그런 심리가 표현되었는지에 대한 원인을 찾을 수 없듯이 힌트 이면의 심연을 밝혀내는 더 깊은 과정이 필요하다. 겉으로 드러나는 미세한 표정이나 행동의 변화는 결국 피부 속에 감춰진 근육운동/긴장의 결과를 보여준다. SNS 등에서 표현된 기쁨이나 분노의 감정을 유발시킨 그 근육은 무엇일까?에 대한 구조적 접근도 요한다. 요는 표면적으로는 빅데이터의 시대지만 실상은 더 마이크로한 측면에서의 접근 또는 분석이 필요한 것같다는 거다.
예전에는 단순히 검색 쿼리량과 주식시장의 주가변동을 연동시킬 수 있을까?를 고민했던 적이 있다. 최근에는 SNS에서 언급되는 업종이나 기업명의 볼륨과 주가연동을 시도하는 것도 보게 된다. (실제 트위터에서 언급되는 업종/기업의 주가가 연동되었다는 분석결과 있음) 그런데 쿼리량이나 소셜멘션량이 많다는 것은 바로 확인할 수 있는데, 그걸 가지고 해당 업종/기업의 주식을 사양할지 말아야할지는 판단할 수가 없다. 호재에 대한 반응 뿐만 아니라 악재에 대한 반응도 있을테니, 볼륨이라는 숫자에서는 그 방향을 알려주지는 못한다. 그래서 최근에는 오피니언마이닝이라 불리는 Sentiment Analysis를 통해서 소셜멘션의 긍정부정을 파악해서 긍정멘션에서는 주식을 사고, 부정멘션에서는 주식을 되파는 전략을 세우는 것도 봤다. (참고. 기존의 주식시장에서도 단순히 주가의 변동만을 분석해서 전략투자하는 statistical arbitrage 방식이 사용되고 있다. 대수의 법칙과 평균으로의 회귀를 가정한 기법이다. 그런데 2000년대 초중반에 큰 호응을 얻었지만 2008년도 경기침체 때 많은 투자은행들이 큰 화를 입기도 했던 기법이다.) 멘션의 긍정부정을 분석하는 것이 조금 어렵다면, 쿼리/멘션 볼륨과 실제 주가의 미세변동을 연동시켜서 투자전략을 세우는 것은 어떨까? 쿼리/멘션 보륨이 증가했을 때, (짧은 시간 내에) 실제 주가가 조금 상승했는지 하강했는지를 바로 파악해서 다른 사람들보다 먼저 행동에 나서는 방법을 고려해 봄직하다.
보통 더 많으면 더 정확하다. 노이즈가 아닌 시그널이 더 많아졌을 때의 얘기다. 그러나 빅데이터는 시그널의 증가와 함께 노이즈의 증가를 함께 내포한다. 그렇기에 모든 데이터를 하나의 멜팅팟에 넣어서 음식을 만들어낼 것이 아니라, 시그널만을 골라서 넣고 끓일 필요성이 더 크지고 있다. 더 많이 더 많이를 외치면서 정작 왜 그런 데이터를 필요로 했는지에 대한 근원적인 이해가 사라지는 것같다. 클수록 작은 것에 더 집중할 필요가 있다. 그래서 마이크로데이터분석이라는 이상한 말을 만들었다.
(처음에 글을 적을 때의 의도만큼 깔끔한 글은 아닙니다. .. 그저 오늘 저의 기분이 그렇습니다. 새누리는 4년을 새롭게 누리게 되었네요.)