본문 바로가기

데이터분석

(7)
숫자에서 자유롭자 데이터 분석은 수놀음이다. 하지만 수만의 게임은 아니다. 여러 선택지 중에서 어떤 알고리즘 (모델)을 취할 것인가?라는 아주 흔한 상황을 생각해보자. 트레이닝 데이터로 모델들을 학습하고, 테스트 데이터로 각 모델의 정확도를 측정해서 가장 좋은 성능의 모델을 최종 선택할 거다. 원칙적으로 틀린 건 없지만 전적으로 옳은 것도 아니다. 숫자가 가장 객관적이지만 객관성만으로 모든 결정이 이뤄지는 건 아니다. A가 B보다 10% 낫다는 것이 과연 A가 답이다라는 걸 의미하는 걸까? 보통은 그렇다. 보통은… 숫자가 잘 작동할 때는 다른 여러 근거가 있는데 화룡점정으로 수치가 그 결정을 뒷받침해줄 때다. 아니면 어떤 수치를 얻었는데 그걸 제대로 해석하거나 다른 근거가 함께 동반될 때다. 게임이 복잡할수록 숫자 하나만..
데이터 매니페스토: 데이터 기반의 실행조직 (새벽에 문득 잠에서 깨어 이 글을 적는다.) 최근 데이터 또는 데이터 기반 접근법에 대한 관심이 뜨겁다. 어쩌면 내가 밥벌어먹고 살려고 또 내 몸값을 올리려고 이런 표현을 사용/전파하고 있는지도 모르겠다. 관련 뉴스를 보면서 과연 데이터 기반의 실행조직이라는 것이 실체가 있는 것인지? 아니면 그들도 자기들을 세일즈하기 위해서 억지로 기사를 쏟아내고 있는 것은 아닌지? 또는 구글이나 몇몇 잘 나가는 기업들이 데이터를 가지고 돈을 잘 벌고 있으니 그걸 부각시키고 과대포장하고 있는 것은 아닌지? 등에 대한 의문이 들기는 한다. 그런 의심은 일단 뒤로 하고, 데이터가 공기처럼 편재하고 있다는 것은 사실이다. 많은 기업들이 스스로 좀 더 가치있는 데이터를 생산해내거나 고객들로부터 그런 데이터를 수집하려고 노력중..
빅데이터, 하둡을 넘어... 며칠 전에 VectureBeat에 Guy Harrison이 적은 Why Hadoop projects fail -- and how to make yours a success라는 기사를 간단하게 정리했습니다. 전체를 번역하는 데는 무리가 있어, 큰 흐름에서 의역 및 생각을 추가했습니다. 자세한 내용은 원문을 참조하시기 바랍니다.--- 클라우드 컴퓨팅이 각광을 받으면서 빅데이터, 특히 하둡은 기업IT의 메인스트림으로 들어왔지만, 무분별한 실행은 애초의 기대/약속을 충족시키지 못하고 값비싼 실패, 소위 하둡행오버 Hadoop Hangover를 경험할 가능성이 높다. 빅데이터는 구글이나 아마존의 성공을 가능케했다. 단순히 차트나 레포트를 통한 실행결정을 하는 것이 아니라, 사용자 경험을 증진시키는 비즈니스 프로세..
제 3의 길 2004년도에 미국에 잠시 체류할 때 출석하던 교회 게시판에 올라온 이야기가 있다. 실화인지 아니면 꾸며진 상황인지, 그리고 정확한 워딩은 기억나지 않지만 이런 글이 올라왔다는 것만은 정확히 기억한다. (어쩌면 2005년도에 한국에 돌아온 후에 읽었던 글인지도 모르겠다.) 어떤 사람이 일을 의뢰받았다고 한다. 예를들어, 듀데이트가 10일이고 수고비로 100만원정도 받는 일이다. 그런데 좀 열심히 하면 일주일만에 끝낼 수 있는 일이라고 한다. 바로 이 지점에서 고민이 시작된다. 만약 일주일만에 일을 끝내고 결과물을 전달해주면 일을 의뢰한 사람이 그 일이 10일이나 걸릴만큼 어려운 일도 아니었고 계약맺었던 100만원의 수고비가 과하다고 생각할 수도 있고, 또 다음에 일을 의뢰할 때는 더 나쁜 조건으로 계약을..
(빅) 데이터 분석 플랫폼에 대한 고민 주의. 구체적인 그림이나 내용을 적으려는 것이 아닙니다. 그냥 순간적으로 떠오른 생각들만 두서없이 나열합니다. 심도있는 글을 원하신다면 그만 읽으세요. 다양한 출처에서 다양한 사람들이 다양한 이야기/글을 적기 때문에 중요한 글도 놓쳐버리는 경우가 잦습니다. 대선 이후에는 정서가 불안해서 IT/트렌드 관련 글들을 제대로 챙겨보지도 못했는데, 우연히 '데이터 시각화'를 검색해보다가 2012년 12월 11일에 IT월드에 올라온 '빅 데이터 시각화를 통해 직원 통찰력을 증대시켜라... 이베이의 과제'라는 글을 읽게 되었습니다. 이 글을 읽는 순간, 현재까지 제 업무 또는 일해왔던 방식에 회의감이 들었습니다. 지금껏 너무 단순하게 분석 업무요청에 수동적으로 대처했던 것은 아닌가?라는 생각이 들었습니다. 현재 바쁘..
데이터 시각화 도구들 최근에 빅데이터가 주목을 받고 있습니다. 보통 빅데이터는 하드웨어 인프라 영역, 소프트웨어 인프라 영역, 빅데이터 분석 영역, 빅데이터 서비스화 영역으로 나뉠 수 있습니다. 인프라 영역은 저의 관심 및 전문 분야가 아닙니다. 지금 당장은 갖춰진 인프라를 이용해서 몇 가지 단순한 분석업무를 더 빠르고 안정적으로 할 것인가?에만 중점을 두고 있지만, 더 장기적인 관점에서는 그런 분석결과를 서비스에 어떻게 이용할 것인가?가 더 관심이 갑니다. 빅데이터를 서비스에 접목하기에 앞서서 필요한 작업이 분석된 결과를 가지고 관련된 기획자나 개발자들을 설득하는 과정이 필요합니다. 그렇기 위해서 다양한 결과 리포팅 기술이 크리티컬합니다. 다양한 수치와 글로써 된 기획서나 뜬 구름잡는 듯한 개념도를 가지고 관련된 사람들을 ..
(빅) 데이터 마이너가 되고 싶어요. 트위터를 통해서 질문을 받았습니다. 그 질문에 대한 답장을 보냈습니다. 앞으로 데이터마이닝 및 빅데이터 분석에 관심이 있는 이들이 많이 있을 것같아서 그 내용을 그냥 옮겨 적습니다.질문. 저는 XX대학교 정보통계학과 2학년 재학중인 학생입니다. 통계학을 전공하고 있는 저로서는 Data Philosopher가 저의 이상이라 생각이 들었습니다. 무엇을 어떻게 준비해야 경쟁력이 생길까요..? 빅데이터시대에 데이터 분석가로서의 자질을 갖추기 위해서는 어떠한 것들을 준비해야할지 여쭙고 싶습니다. (개인정보 및 부가적인 부분은 삭제했습니다.)답변. 저의 이전 글들도 읽어보셨는지 모르겠지만 (데이터마이닝 카테고리), 저의 학문적인 백그라운드는 데이터마이닝과 거리가 있고 회사에서는 데이터마이닝팀에 속해있지만 현업에서의..