DM ML AD (134) 썸네일형 리스트형 빅데이터 시대에 살아남는 법. 저도 모릅니다. 그러니 이 글에서 너무 많은 것을 기대하지 마십시오.분위기로는 진짜 빅데이터 시대가 도래한 것같다. 그냥 개발자들 사이에 오가던 대화/용어정도로만 생각했는데, 이제 하루가 머다하고 신문지상 (물론 IT섹션)에 빅데이터라는 말이 심심찮게 등장한다. 그리고 TV에서도 빅데이터를 다룬 다큐먼터리가 방송되었다. (참고. 시사기획 창: 빅데이터, 비지니스를 바꾸다.) 가끔 학교에 있는 친구/학생들이 내게도 빅데이터에 대한 자문을 구하는 경우도 있다. 트위터와 함께 실시간 실시간하던 것이, 페이스북과 함께 소셜 소셜했던 것도 까마득한 과거의 일로 느껴진다. 이제는 어디를 가든 빅데이터 빅데이터라고 재잘거리는 것같다. 지난 몇 년동안 빅데이터를 저장, 처리, 가공하기 위한 다양한 인프라들이 갖춰진 것.. 마이크로 데이터 분석 최근 모바일/스마트폰, SNS, 클라우드, 빅데이터 등의 용어가 IT뉴스에 자주 등장한다. 모두가 하나의 새로운 시대를 가르키고 있다. 완전히 기술용어도 아니고 그렇다고 아직은 마케팅용어도 아닌 빅데이터의 시대를 가르킨다. IT업계에 종사하고 데이터마이닝으로 밥을 먹고 살고 있지만 빅데이터라는 용어에 대한 감이 별로 없다. 누가 빅데이터라는 말을 처음 사용했는지 모르겠으나 그/그녀도 빅데이터를 뭘 의미하는지 제대로 이해를 하고 사용했을까?라는 의문도 든다.피상적으로 말해서 빅데이터는 데이터의 크기가 상상을 초월할만큼 커야하고, 구성하는 데이터의 종류가 다양해야 한다. 뿐만 아니라, 그런 크고 다양한 데이터를 실제 애플리케이션/서비스에 사용할 수 있어야 하며, 그것도 거의 실시간으로 활용가능해야 한다. 내.. 데이터마이닝과 데이터마이너. 이 글은 아주 간단한 의문에서 시작했습니다. 고민에 고민을 거듭하고 생각에 생각을 더하다보니 애초의 질문과는 다른 방향으로 생각이 진행되었습니다. 아직 명확한 결론에 이르지는 않았습니다. 그리고 이 글을 전개하면서 또 어떤 모르는 힘에 의해서 글이 쓰여질지도 모르겠습니다. 최초의 의문은 "우리는 간단한 데이터에서 충분한 정보를 얻고 있는가?"입니다. 먼저 저는 다음 커뮤니케이션의 데이터마이닝팀에 속해있습니다. 당연히 업무는 검색 및 포털 서비스를 위한 데이터분석입니다. 입사한지도 4년이 지났는데 (오는 일요일인 3월 11일이면 5년째를 시작합니다.) 그동안 저 다음으로 입사해서 먼저 퇴사한 (예정된) 사람만 벌써 4명에 이릅니다. 그들의 공통된 지적은 '우리가 하는 일은 데이터마이닝이 아니다'입니다. 그.. 데이터 정보 지식 그리고 지혜 데이터, 정보, 지식 그리고 지혜를 어떻게 설명할 것인가? 통상적으로 데이터를 요약정리하면 정보가 되고, 그런 정보가 다시 정제되면 지식이 되고, 그런 지식이 누적되고 재활용되면 지혜가 된다고 들한다. 데이터를 깊이 파고드는 기술을 데이터마이닝 Data Mining이라하고, 정보를 찾는 과정을 정보탐색 Information Retrieval이라하고, 지식을 찾는 과정을 지식발견 Knowledge Discovery라고 한다. 그런데 지식의 다음 단계인 지혜를 얻는 방법에 대한 표현은 아직 없는 것같다. 통상적으로 이렇게 데이터, 정보, 지식, 그리고 지혜를 이해해도 무관하다. 그러나 더 쉬운 도식을 만들어보고 싶다. 정보는 데이터에서 나온다고 말했다. 그러나 데이터에서 나온 모든 것이 정보가 아니다. 일명.. 2011에 하고 싶은 분석업무 Preparing Year 2011 (My Dauming in 2011) 이제 2010년도 열흘정도밖에 남지 않았다. 2008년 3월 11일에 다음에 입사했으니, 조만간 만 3년을 채우게 된다. 데이터마이닝팀에 들어와서 여러 업무들을 소화했지만, 이제까지의 많은 업무들이 위에서 내려오는 것들이 많았다. 물론, 주어진 업무라고 해도 그걸 분석하고 구현하는데는 개인적인 의지가 많이 들어갔고, 또 주어진 업무에 항상 +알파하기 위해서 좀 다른/다양한 시도들을 해왔던 것도 사실이다. 그래도, 전체적인 틀에서 보면 위에서 정한 범위 내에서 운신의 폭이 결정되었던 것같다. 조만간 지난 3년간의 업무들에 대한 정리하는 포스팅을 따로 올릴 예정이다. 지난 일을 정리하기에 앞서, 내년을 미리 준비하는 작업을 먼저 해볼까 한다. 2011년도 지난 3년과 크게는 다르지 않겠지만, 그래도 개인적으.. 열개의 문제 열개의 방법... in Data Mining 2005년과 2006년에 열린 IEEE International Conference on Data Mining (ICDM)에서 참가자들을 대상으로 설문조사를 한 것이 있습니다. 설문의 주 내용은 현재 또는 앞으로 데이터마이닝에서 가장 중요하게 다루어질 또는 다루어져야할 문제는 무엇이며, 현재 가장 중요한 또는 영향도가 있는 데이터마이닝 알고리즘은 어떤 것인가에 대한 것입니다. 설문을 바탕으로 10가지 데이터마이닝 문제와 10가지 데이터마이닝 알고리즘을 뽑았습니다. 아래의 각각의 문제 및 알고리즘에 대한 설명을 적기에는 공간도 부족하고, 본인의 능력도 부족하기 때문에 글의 마지막에 제시된 사이트 (특히, pdf 문서)를 참조하세요. 10 Challenging Problems in Data Mining 데이.. 이전 1 ··· 14 15 16 17 다음