본문 바로가기

Hadoop

(2)
추천 시스템을 위한 하둡 마훗 사용하기 (PR시리즈.13) 빅데이터를 위한 하둡 Hadoop이나 머신러닝 라이브러리인 마훗 Mahout의 디테일한 것을 설명하려는 것이 아닙니다. 그냥 마훗의 추천 알고리즘을 실행해본 수준에서 경험했던 프랙티스에 대한 간단한 리마크만 하겠습니다. 하둡이나 마훗에 대한 상세 설명이나 설치/설정 방법에 대해서는 다른 문서들을 찾아보시기 바랍니다. 특히 마훗의 아이템기반CF의 상세한 사용방법은 위키페이지를 참조하세요. 먼저 마훗CF를 사용하기 위한 입력데이터는 {UserID, ItemID, Rating} 페어로 된 CSV 파일이 필요합니다. 마지막 값인 Rating은 암묵점수에서는 넣을 필요없이 하둡/마훗을 실행할 때 옵션 --booleanData를 활성화시키면 됩니다. 여기서 중요한 점은 UserID와 ItemID가 모두 Long i..
구글을 지탱하는 기술 (Google Wo Sasaeru Gijyutsu), by Keisuke Nishida 4/5, 오늘날 IT 분야에 종사한다거나 관심이 있는 사람들에게 빼놓을 수 없는 회사가 구글일 것이다. 이제껏 구글의 서비스나 사업 측면에서의 스토리나 분석내용을 담은 책들은 많이 있었지만, 구글의 페이지랭크를 제외하고는 구글의 기반기술들에 대해서 다룬 책들은 별로 없었다. 꾸준이 구글에서 간단한 논문의 형태로 그들의 기술들을 발표해오고 있으며 여러 그룹에서 그 내용을 바탕으로 비슷한 기술을 개발한 사례들이 있어왔다. 본 도서도 구글이 발표한 몇 편의 논문들을 바탕으로 기반기술 - 특히 분산처리 - 에 대해서 흥미롭게 적고 있다. 물론 기술적인 내용이 많기 때문에 비IT 종사자들이나 또는 이런 기술에 별로 감흥이 없는 이들에게는 짜증나는 내용이 될 수가 있겠지만... 앞으로 IT를 통해서 먹고 살고 싶다..