본문 바로가기

하둡

(3)
추천 시스템을 위한 하둡 마훗 사용하기 (PR시리즈.13) 빅데이터를 위한 하둡 Hadoop이나 머신러닝 라이브러리인 마훗 Mahout의 디테일한 것을 설명하려는 것이 아닙니다. 그냥 마훗의 추천 알고리즘을 실행해본 수준에서 경험했던 프랙티스에 대한 간단한 리마크만 하겠습니다. 하둡이나 마훗에 대한 상세 설명이나 설치/설정 방법에 대해서는 다른 문서들을 찾아보시기 바랍니다. 특히 마훗의 아이템기반CF의 상세한 사용방법은 위키페이지를 참조하세요. 먼저 마훗CF를 사용하기 위한 입력데이터는 {UserID, ItemID, Rating} 페어로 된 CSV 파일이 필요합니다. 마지막 값인 Rating은 암묵점수에서는 넣을 필요없이 하둡/마훗을 실행할 때 옵션 --booleanData를 활성화시키면 됩니다. 여기서 중요한 점은 UserID와 ItemID가 모두 Long i..
빅데이터, 하둡을 넘어... 며칠 전에 VectureBeat에 Guy Harrison이 적은 Why Hadoop projects fail -- and how to make yours a success라는 기사를 간단하게 정리했습니다. 전체를 번역하는 데는 무리가 있어, 큰 흐름에서 의역 및 생각을 추가했습니다. 자세한 내용은 원문을 참조하시기 바랍니다.--- 클라우드 컴퓨팅이 각광을 받으면서 빅데이터, 특히 하둡은 기업IT의 메인스트림으로 들어왔지만, 무분별한 실행은 애초의 기대/약속을 충족시키지 못하고 값비싼 실패, 소위 하둡행오버 Hadoop Hangover를 경험할 가능성이 높다. 빅데이터는 구글이나 아마존의 성공을 가능케했다. 단순히 차트나 레포트를 통한 실행결정을 하는 것이 아니라, 사용자 경험을 증진시키는 비즈니스 프로세..
빅데이터 분석을 위해 알아야할 것들 지난 글에서 (빅데이터) 분석 플랫폼에 대한 생각을 적었습니다. (참고. 데이터 분석 플랫폼에 대한 고민) 그냥 잊어버리려했지만 계속 머리 속에서 생각이 더 구체화되고 있습니다. '아키텍트가 필요하다' 글에서도 밝혔듯이 현실적으로 어려운 여건들이 많이 있지만, 전체 퍼즐을 완성하기 전에 부분 그림은 맞출 수 있을 것같다는 느낌이 옵니다. 데이터를 준비하는 과정은 서비스나 도메인에 따라서 최적화시켜야하는 부분이어서 지금 시점에서 구체적인 안을 제시할 수가 없고, 또 분석된 결과를 해석해서 더 가치있는 인사이트로 전개하는 것은 단기간에 해결될 수 있는 것도 아닙니다. 그리고 빅데이터를 위한 하드웨어 및 소프트웨어 인프라를 설계하고 개발하는 것도 제 영역/능력을 벗어난 일입니다. 그렇다면 현시점에서 당장 할 ..