본문 바로가기

빅데이터

(15)
[사이트] 트윗핑 TweetPing Wired에 재미있는 사이트가 하나 소개되었습니다. (Wired 기사 링크) Tweetping이라는 서비스입니다. 이름 (Tweet + Ping)이 의미하듯이 전세계에서 올라오는 트윗의 활동성을 실시간으로 분석해서 보여주는 서비스입니다. 지역별로 트윗수나 단어수, 최근에 사용한 해쉬태그 등을 보여줍니다. 기능면에서는 특별할 것도 없지만, 이렇게 트위터의 활동성을 시각화해서 보여준다는 아이디어가 참 좋습니다. 이정도 데이터라면 빅데이터 플랫폼을 이용했을 법하고, 하단에 명시되었듯이 Node.js 등의 최근에 많이 사용하는 오픈소스를 사용해서 보여주고 있습니다. 2013년 2월 4일 (월요일), 오후 2시경에 화면을 캡쳐했는데, 트윗의 절반 이상이 북미 (NA)에서 발생하고 있다는 것도 바로 확인할 수 있습..
빅데이터 분석을 위해 알아야할 것들 지난 글에서 (빅데이터) 분석 플랫폼에 대한 생각을 적었습니다. (참고. 데이터 분석 플랫폼에 대한 고민) 그냥 잊어버리려했지만 계속 머리 속에서 생각이 더 구체화되고 있습니다. '아키텍트가 필요하다' 글에서도 밝혔듯이 현실적으로 어려운 여건들이 많이 있지만, 전체 퍼즐을 완성하기 전에 부분 그림은 맞출 수 있을 것같다는 느낌이 옵니다. 데이터를 준비하는 과정은 서비스나 도메인에 따라서 최적화시켜야하는 부분이어서 지금 시점에서 구체적인 안을 제시할 수가 없고, 또 분석된 결과를 해석해서 더 가치있는 인사이트로 전개하는 것은 단기간에 해결될 수 있는 것도 아닙니다. 그리고 빅데이터를 위한 하드웨어 및 소프트웨어 인프라를 설계하고 개발하는 것도 제 영역/능력을 벗어난 일입니다. 그렇다면 현시점에서 당장 할 ..
(빅) 데이터 분석 플랫폼에 대한 고민 주의. 구체적인 그림이나 내용을 적으려는 것이 아닙니다. 그냥 순간적으로 떠오른 생각들만 두서없이 나열합니다. 심도있는 글을 원하신다면 그만 읽으세요. 다양한 출처에서 다양한 사람들이 다양한 이야기/글을 적기 때문에 중요한 글도 놓쳐버리는 경우가 잦습니다. 대선 이후에는 정서가 불안해서 IT/트렌드 관련 글들을 제대로 챙겨보지도 못했는데, 우연히 '데이터 시각화'를 검색해보다가 2012년 12월 11일에 IT월드에 올라온 '빅 데이터 시각화를 통해 직원 통찰력을 증대시켜라... 이베이의 과제'라는 글을 읽게 되었습니다. 이 글을 읽는 순간, 현재까지 제 업무 또는 일해왔던 방식에 회의감이 들었습니다. 지금껏 너무 단순하게 분석 업무요청에 수동적으로 대처했던 것은 아닌가?라는 생각이 들었습니다. 현재 바쁘..
데이터 시각화 도구들 최근에 빅데이터가 주목을 받고 있습니다. 보통 빅데이터는 하드웨어 인프라 영역, 소프트웨어 인프라 영역, 빅데이터 분석 영역, 빅데이터 서비스화 영역으로 나뉠 수 있습니다. 인프라 영역은 저의 관심 및 전문 분야가 아닙니다. 지금 당장은 갖춰진 인프라를 이용해서 몇 가지 단순한 분석업무를 더 빠르고 안정적으로 할 것인가?에만 중점을 두고 있지만, 더 장기적인 관점에서는 그런 분석결과를 서비스에 어떻게 이용할 것인가?가 더 관심이 갑니다. 빅데이터를 서비스에 접목하기에 앞서서 필요한 작업이 분석된 결과를 가지고 관련된 기획자나 개발자들을 설득하는 과정이 필요합니다. 그렇기 위해서 다양한 결과 리포팅 기술이 크리티컬합니다. 다양한 수치와 글로써 된 기획서나 뜬 구름잡는 듯한 개념도를 가지고 관련된 사람들을 ..
(빅) 데이터 마이너가 되고 싶어요. 트위터를 통해서 질문을 받았습니다. 그 질문에 대한 답장을 보냈습니다. 앞으로 데이터마이닝 및 빅데이터 분석에 관심이 있는 이들이 많이 있을 것같아서 그 내용을 그냥 옮겨 적습니다.질문. 저는 XX대학교 정보통계학과 2학년 재학중인 학생입니다. 통계학을 전공하고 있는 저로서는 Data Philosopher가 저의 이상이라 생각이 들었습니다. 무엇을 어떻게 준비해야 경쟁력이 생길까요..? 빅데이터시대에 데이터 분석가로서의 자질을 갖추기 위해서는 어떠한 것들을 준비해야할지 여쭙고 싶습니다. (개인정보 및 부가적인 부분은 삭제했습니다.)답변. 저의 이전 글들도 읽어보셨는지 모르겠지만 (데이터마이닝 카테고리), 저의 학문적인 백그라운드는 데이터마이닝과 거리가 있고 회사에서는 데이터마이닝팀에 속해있지만 현업에서의..
빅데이터 시대에 살아남는 법. 저도 모릅니다. 그러니 이 글에서 너무 많은 것을 기대하지 마십시오.분위기로는 진짜 빅데이터 시대가 도래한 것같다. 그냥 개발자들 사이에 오가던 대화/용어정도로만 생각했는데, 이제 하루가 머다하고 신문지상 (물론 IT섹션)에 빅데이터라는 말이 심심찮게 등장한다. 그리고 TV에서도 빅데이터를 다룬 다큐먼터리가 방송되었다. (참고. 시사기획 창: 빅데이터, 비지니스를 바꾸다.) 가끔 학교에 있는 친구/학생들이 내게도 빅데이터에 대한 자문을 구하는 경우도 있다. 트위터와 함께 실시간 실시간하던 것이, 페이스북과 함께 소셜 소셜했던 것도 까마득한 과거의 일로 느껴진다. 이제는 어디를 가든 빅데이터 빅데이터라고 재잘거리는 것같다. 지난 몇 년동안 빅데이터를 저장, 처리, 가공하기 위한 다양한 인프라들이 갖춰진 것..
마이크로 데이터 분석 최근 모바일/스마트폰, SNS, 클라우드, 빅데이터 등의 용어가 IT뉴스에 자주 등장한다. 모두가 하나의 새로운 시대를 가르키고 있다. 완전히 기술용어도 아니고 그렇다고 아직은 마케팅용어도 아닌 빅데이터의 시대를 가르킨다. IT업계에 종사하고 데이터마이닝으로 밥을 먹고 살고 있지만 빅데이터라는 용어에 대한 감이 별로 없다. 누가 빅데이터라는 말을 처음 사용했는지 모르겠으나 그/그녀도 빅데이터를 뭘 의미하는지 제대로 이해를 하고 사용했을까?라는 의문도 든다.피상적으로 말해서 빅데이터는 데이터의 크기가 상상을 초월할만큼 커야하고, 구성하는 데이터의 종류가 다양해야 한다. 뿐만 아니라, 그런 크고 다양한 데이터를 실제 애플리케이션/서비스에 사용할 수 있어야 하며, 그것도 거의 실시간으로 활용가능해야 한다. 내..