본문 바로가기

DM ML AD

2011에 하고 싶은 분석업무 Preparing Year 2011 (My Dauming in 2011)

 이제 2010년도 열흘정도밖에 남지 않았다. 2008년 3월 11일에 다음에 입사했으니, 조만간 만 3년을 채우게 된다. 데이터마이닝팀에 들어와서 여러 업무들을 소화했지만, 이제까지의 많은 업무들이 위에서 내려오는 것들이 많았다. 물론, 주어진 업무라고 해도 그걸 분석하고 구현하는데는 개인적인 의지가 많이 들어갔고, 또 주어진 업무에 항상 +알파하기 위해서 좀 다른/다양한 시도들을 해왔던 것도 사실이다. 그래도, 전체적인 틀에서 보면 위에서 정한 범위 내에서 운신의 폭이 결정되었던 것같다. 조만간 지난 3년간의 업무들에 대한 정리하는 포스팅을 따로 올릴 예정이다. 지난 일을 정리하기에 앞서, 내년을 미리 준비하는 작업을 먼저 해볼까 한다. 2011년도 지난 3년과 크게는 다르지 않겠지만, 그래도 개인적으로 분석해/만들어보고 싶은 일들이 있으니, 크게 두가지만 적어보려고 한다.

 1. 키워드맵 Keyword Map
 키워드맵이라는 용어는 내가 만들었지만, 실제 다른게 사용될 수도 있다. 어쨌던 난 그냥 키워드맵이라 부르기로 했다. 이미 비슷한 업무가 언어처리 또는 음성인식 쪽에서 많은 연구가 진행된 걸로 알고 있다. 그런데, 내가 여기에 굳이 발을 들여놓을 이유는 없지만, 순전히 그냥 가능성이 있을 것같아서 시작해보고 싶다. 물론, 기존의 음성인식/언어처리에서 다루는 데이터나 방법론과 동떨어진 접근을 할 수도 있고, 어쩌면 그들이 이미 해놓은 일들을 답습하는 일일 수도 있다. 그러나, 지난 몇달 동안 내 머리 속에서는 이 일에 대한 가능성과 확장성을 의심하지 않았다.

 그래서, 뭘 해보고 싶다는 거냐? 키워드맵이 뭔데?라는 질문이 나올 것같다. 기존에 존재하는 모든 정의나 방법론은 잊어버리고 그냥 백지 위에서 내 말을 그려보았으면 한다. 단순히 생각해서 특정 한 단어 A에 대해서 연관 또는 연결되는 단어 B를 찾아보고 싶다. 그렇게 확장해서 A > B > C > D.. 식으로 전체 단어체인을 만들고 또 그렇게 단어네트워크, 즉 단어지도 (키워드맵)을 만들어 보고 싶다. 앞서 말했지만, 음성인식/언어처리에서는 음소나 음절단위에서 많은 연구가 진행된 걸로 안다. (터치스크린을 활용한 버츄얼키보드에서 사용자의 타이핑에 반응해서 다음 알파벳을 추천해주는 인텔리전트 키보드도 이런 음소/음절 단위의 통계작업을 거쳐서 이뤄진 것이다.) 그러나 나는 어절/단어 단위에서 유사한 작업을 해보고 싶다. 지난 주에 구글에서 발표한 NGram 프로젝트 (Books NGram Viewer)는 내가 하고 싶은 일에 대한 더욱 강한 자극을 주었다. 구글이 사용한 것은 단순히 이제껏 출판된 많은 (전세계 51억권) 책들에서 NGram (한단어로 이뤄지 1-Gram, 두단어로 이뤄진 2-Gram/Bigram, 3단어로 이뤄진 3-Gram/Trigram 등)을 년도별로 모아서 보여주는 것이지만.. 내가 하려는 작업도 간단하게는 이런 Bigram/Trigram을 만드는 작업이고, 더 깊게 보면 더 복잡한 작업이 될 수도 있다. 가장 간단하게는 단순히 Markov Network를 만드는 작업이지만, 마코프체인 또는 Stochastic Process에서는 이전 상태와 트랜지션 확률에만 관심이 있지만, 실제 키워드체인에서는 그 이전의 상태들에 대한 히스토리도 필요하기 때문에 더 복잡한 작업이 될 수도 있다. 그리고, Bi-/Tri-gram에서처럼 바로 인접한 Adjacent 단어들에 대한 체인만을 고려하는 것도 아니다.

 또, 그래서 이걸 어디에 쓸건데? 단순히 학교에서 연구차원이 아니라, 회사에서의 업무의 연장선상에서 이를 진행한다면 기존 서비스들과의 연계성을 무시할 수도 없는 노릇이다. 단순히 내 흥미를 채워주기 위해서 이 회사가 내게 박봉이지만 월급을 주는 것은 아니니.. 음소/음절 단위에서의 연구라면 현재 진행중인 음성검색이나 오탈자보정 등에도 활용될 수 있을것이고, 내가 하려는 단어/어절 단위에서는 검색서제스트나 관련검색어와 같은 단순한 작업에서부터 (현재의 서제스트 및 관련검색어는 사용자들의 입력 회수, 순서 등에 많이 좌우받았음) 새로 유입되는 검색어/키워드들에 대해서 확장된 이슈를 뽑아낸다거나 클러스터링된 문서/뉴스에서 제목을 정하는 작업 등을 진행할 수도 있다. 그리고, 더 깊게 들어가면 주어진 문서의 품질도 측정이 가능하다. 더 자세한 이야기는 앞으로 일을 진행해가면서 그리고 결과가 나온 이후로 미뤄겠다.

 2. 쿼리예측 Query Predictive Control
 말/타이틀을 좀 어렵게 적어놨지만, 현재까지의 많은 검색쿼리의 분석 및 활용에서 항상 과거데이터만을 사용했다는 점이다. 물론, 데이터마이닝이라는 게 어쩔 수 없는 것이지만... 그렇지만, 여러 연구들을 통해서 검색쿼리 (Query Volume)을 활용해서 다양한 제품의 판매량이나 주식거래량 등을 예측하고, 신종플루의 확산도 예측했다. 그리고 더 나아가 앞으로 개봉할 영화의 흥행도 등에 대한 예측도 가능하다는 연구결과가 나오고 있다. 그래서, 먼저 과거와 현재의 쿼리볼륨을 이용해서 미래의 쿼리볼륨을 예측해보는 작업을 해보는 것이 1차 목표이고, 2차 목표는 이를 이용해서 실제 제품의 판매량, 주가의 흐름, 제품/서비스의 흥행도 등과 같이 검색쿼리를 실물경제와 연결해보는 작업을 해보고 싶다. 특히, 검색쿼리를 이용한 브랜드 인지도라는 걸 만들어서 제공하는 것도 가능하다. 현재까지의 검색쿼리의 분석은 대부분 1차원적인 분석에 머물렀고, 또 1.5차 활용 정도까지 밖에 못 나가갔던 것같다.

 다음검색에서 트렌드차트 기능을 활용해서 '봄 vs 여름 vs 가을 vs 겨울'을 검색하면 해당 단어가 특정 계절에 많이 등장하는 것을 볼 수가 있다. Seasonal Effect (계절효과)를 볼 수가 있다. 이렇듯이 쿼리들도 특정 계절이나 요일에 따라서 수요가 달라진다. 그렇다면 단순히 이런 cyclic 데이터를 활용하더라도 쿼리예측에서 중요한 힌트를 얻을 수가 있다. 그리고, 특정한 제품을 생산해서 TV광고를 했을 때, 이들 제품/브랜드에 대한 인지도를 측정하는 방법에서도 검색결과를 활용할 수가 있다. 적당한 예제는 아닐 수 있지만, '갤럭시탭 트렌드차트'로 검색하면 갤럭시탭의 검색어 추이를 볼 수가 있다. 이렇게 특정 시점을 중심으로 쿼리가 증가했다는 것은 그 시점에 제품이 출시되었거나 또는 사용자들이 그것을 인지하기 시작했다는 반증이다. 트렌드차트의 저장기간이 약 6개월밖에 안 되어서 지금은 확인할 수가 없지만, '로드뷰 트렌드차트'의 경우 '로드뷰'라는 브랜드/서비스를 런칭한지 수개월 동안에는 로드뷰에 대한 검색이 전혀 이뤄지지 않다가 지난번 다음에서 로드뷰를 광고한 이후에 갑자기 검색이 증가했던 것도 검색쿼리변화를 통해서 확인할 수가 있었다. (2~3개월 전에 검색을 했다면 쿼리가 변한 시점과 로드뷰 TV광고 시점과 일치한다는 것을 확인할 수가 있었다.) 이렇게, 마케터들이 광고를 한 이후에 효과가 있는지를 측정하는 방법으로도 이런 쿼리볼륨의 변화를 조사해보는 것이 가능하다. 이런 작업에 대해서 좀더 체계적으로 서비스를 만들어 보고 싶은 게 지난 몇달간의 욕심이었지만,... 단순히 다음/검색이라는 측면에서는 단기적 ROI가 나오지 않은 작업이라 그냥 묻혀진... 제대로 활용하면 새로운 수익모델로도 가능한데... 아쉬운... ... 추가. 심형래감독의 '라스트갓파더 트렌드차트'가 브랜드인지도에 대한 좋은 예제가 될 듯해서 추가합니다. 그전에는 라스트갓파더에 대한 것을 모두 알고 있었지만, 실제 예고편이 나오고 광고가 실리기 시작하면서 검색이 급증했다는 것을 트렌드차트를 통해서 쉽게 확인할 수 있습니다.

 관련 연구

 3. 기타...
 이런 것들 외에도 기존의 소셜네트워크 데이터를 활용한 더 심도깊은 분석이나 서비스화에 대한 욕구는 항상 있었다. 그리고 늘 밝히지만, 'Network'라는 용어는 항상 내 심장을 띄게 한다. 늘 좀더 체계적인 네트워크에 대해서 공부해보고 싶고, 또 더 깊은 연구와 분석을 해보고 싶었다. 내년에 또 어떤 업무가 내게 주어질지에 대해서는 난 모른다. 그래도, 나도 나 자신에게 선물을 준다면 내년에는 네트워크에 대해서 더 공부/연구하는 해가 되었으면 한다.


반응형