본문 바로가기

DM ML AD

(128)
(빅) 데이터 마이너가 되고 싶어요. 트위터를 통해서 질문을 받았습니다. 그 질문에 대한 답장을 보냈습니다. 앞으로 데이터마이닝 및 빅데이터 분석에 관심이 있는 이들이 많이 있을 것같아서 그 내용을 그냥 옮겨 적습니다.질문. 저는 XX대학교 정보통계학과 2학년 재학중인 학생입니다. 통계학을 전공하고 있는 저로서는 Data Philosopher가 저의 이상이라 생각이 들었습니다. 무엇을 어떻게 준비해야 경쟁력이 생길까요..? 빅데이터시대에 데이터 분석가로서의 자질을 갖추기 위해서는 어떠한 것들을 준비해야할지 여쭙고 싶습니다. (개인정보 및 부가적인 부분은 삭제했습니다.)답변. 저의 이전 글들도 읽어보셨는지 모르겠지만 (데이터마이닝 카테고리), 저의 학문적인 백그라운드는 데이터마이닝과 거리가 있고 회사에서는 데이터마이닝팀에 속해있지만 현업에서의..
지금 새로운 관점이 필요하다. 여전히 업무방황기를 거치고 있습니다. 어떤 일을 시작해야지 내년을 더욱 재미있고 알차게 보낼 것인가를 아직 정하지 못하고 있습니다. 주변에서 오고 가는 얘기들이 있지만 아직 정해진 것도 없고, 더우기 제가 마음 속으로 꼭 해봐야겠다는 일이 잘 생각나지 않습니다. 때가 되면 일이 생기고 또 길이 생겨서 이런 걱정을 거의 하지 않았는데 최근 1년동안은 간헐적으로 계속 같은 고민에 빠집니다. 현재는 데이터마이닝팀에 소속되어있기 때문에 이 글에서는 데이터분석에 초점을 맞춰서 글을 적을 예정입니다. 다음에 입사한지도 이제 만 5년이 다 되어갑니다. 5년 전에 입사를 위해서 지원서를 내고 면접을 볼 때는 어떤 생각을 가졌었는지 기억도 가물가물합니다. 당시에는 인터넷 회사에 들어와서 만들어보고 싶었던 것들이 몇 가지..
빅데이터 시대에 살아남는 법. 저도 모릅니다. 그러니 이 글에서 너무 많은 것을 기대하지 마십시오.분위기로는 진짜 빅데이터 시대가 도래한 것같다. 그냥 개발자들 사이에 오가던 대화/용어정도로만 생각했는데, 이제 하루가 머다하고 신문지상 (물론 IT섹션)에 빅데이터라는 말이 심심찮게 등장한다. 그리고 TV에서도 빅데이터를 다룬 다큐먼터리가 방송되었다. (참고. 시사기획 창: 빅데이터, 비지니스를 바꾸다.) 가끔 학교에 있는 친구/학생들이 내게도 빅데이터에 대한 자문을 구하는 경우도 있다. 트위터와 함께 실시간 실시간하던 것이, 페이스북과 함께 소셜 소셜했던 것도 까마득한 과거의 일로 느껴진다. 이제는 어디를 가든 빅데이터 빅데이터라고 재잘거리는 것같다. 지난 몇 년동안 빅데이터를 저장, 처리, 가공하기 위한 다양한 인프라들이 갖춰진 것..
마이크로 데이터 분석 최근 모바일/스마트폰, SNS, 클라우드, 빅데이터 등의 용어가 IT뉴스에 자주 등장한다. 모두가 하나의 새로운 시대를 가르키고 있다. 완전히 기술용어도 아니고 그렇다고 아직은 마케팅용어도 아닌 빅데이터의 시대를 가르킨다. IT업계에 종사하고 데이터마이닝으로 밥을 먹고 살고 있지만 빅데이터라는 용어에 대한 감이 별로 없다. 누가 빅데이터라는 말을 처음 사용했는지 모르겠으나 그/그녀도 빅데이터를 뭘 의미하는지 제대로 이해를 하고 사용했을까?라는 의문도 든다.피상적으로 말해서 빅데이터는 데이터의 크기가 상상을 초월할만큼 커야하고, 구성하는 데이터의 종류가 다양해야 한다. 뿐만 아니라, 그런 크고 다양한 데이터를 실제 애플리케이션/서비스에 사용할 수 있어야 하며, 그것도 거의 실시간으로 활용가능해야 한다. 내..
데이터마이닝과 데이터마이너. 이 글은 아주 간단한 의문에서 시작했습니다. 고민에 고민을 거듭하고 생각에 생각을 더하다보니 애초의 질문과는 다른 방향으로 생각이 진행되었습니다. 아직 명확한 결론에 이르지는 않았습니다. 그리고 이 글을 전개하면서 또 어떤 모르는 힘에 의해서 글이 쓰여질지도 모르겠습니다. 최초의 의문은 "우리는 간단한 데이터에서 충분한 정보를 얻고 있는가?"입니다. 먼저 저는 다음 커뮤니케이션의 데이터마이닝팀에 속해있습니다. 당연히 업무는 검색 및 포털 서비스를 위한 데이터분석입니다. 입사한지도 4년이 지났는데 (오는 일요일인 3월 11일이면 5년째를 시작합니다.) 그동안 저 다음으로 입사해서 먼저 퇴사한 (예정된) 사람만 벌써 4명에 이릅니다. 그들의 공통된 지적은 '우리가 하는 일은 데이터마이닝이 아니다'입니다. 그..
데이터 정보 지식 그리고 지혜 데이터, 정보, 지식 그리고 지혜를 어떻게 설명할 것인가? 통상적으로 데이터를 요약정리하면 정보가 되고, 그런 정보가 다시 정제되면 지식이 되고, 그런 지식이 누적되고 재활용되면 지혜가 된다고 들한다. 데이터를 깊이 파고드는 기술을 데이터마이닝 Data Mining이라하고, 정보를 찾는 과정을 정보탐색 Information Retrieval이라하고, 지식을 찾는 과정을 지식발견 Knowledge Discovery라고 한다. 그런데 지식의 다음 단계인 지혜를 얻는 방법에 대한 표현은 아직 없는 것같다. 통상적으로 이렇게 데이터, 정보, 지식, 그리고 지혜를 이해해도 무관하다. 그러나 더 쉬운 도식을 만들어보고 싶다. 정보는 데이터에서 나온다고 말했다. 그러나 데이터에서 나온 모든 것이 정보가 아니다. 일명..
2011에 하고 싶은 분석업무 Preparing Year 2011 (My Dauming in 2011) 이제 2010년도 열흘정도밖에 남지 않았다. 2008년 3월 11일에 다음에 입사했으니, 조만간 만 3년을 채우게 된다. 데이터마이닝팀에 들어와서 여러 업무들을 소화했지만, 이제까지의 많은 업무들이 위에서 내려오는 것들이 많았다. 물론, 주어진 업무라고 해도 그걸 분석하고 구현하는데는 개인적인 의지가 많이 들어갔고, 또 주어진 업무에 항상 +알파하기 위해서 좀 다른/다양한 시도들을 해왔던 것도 사실이다. 그래도, 전체적인 틀에서 보면 위에서 정한 범위 내에서 운신의 폭이 결정되었던 것같다. 조만간 지난 3년간의 업무들에 대한 정리하는 포스팅을 따로 올릴 예정이다. 지난 일을 정리하기에 앞서, 내년을 미리 준비하는 작업을 먼저 해볼까 한다. 2011년도 지난 3년과 크게는 다르지 않겠지만, 그래도 개인적으..
열개의 문제 열개의 방법... in Data Mining 2005년과 2006년에 열린 IEEE International Conference on Data Mining (ICDM)에서 참가자들을 대상으로 설문조사를 한 것이 있습니다. 설문의 주 내용은 현재 또는 앞으로 데이터마이닝에서 가장 중요하게 다루어질 또는 다루어져야할 문제는 무엇이며, 현재 가장 중요한 또는 영향도가 있는 데이터마이닝 알고리즘은 어떤 것인가에 대한 것입니다. 설문을 바탕으로 10가지 데이터마이닝 문제와 10가지 데이터마이닝 알고리즘을 뽑았습니다. 아래의 각각의 문제 및 알고리즘에 대한 설명을 적기에는 공간도 부족하고, 본인의 능력도 부족하기 때문에 글의 마지막에 제시된 사이트 (특히, pdf 문서)를 참조하세요. 10 Challenging Problems in Data Mining 데이..