DM ML AD (131) 썸네일형 리스트형 추천 시스템 (PR시리즈 A/S) 일전에 PR시리즈라는 타이틀로 20 차례에 걸쳐서 추천 시스템 및 알고리즘에 대한 다양한 글을 적었었습니다. 이후로도 계속 추천 관련 업무를 진행하고 있기 때문에 그 이후에 추천에 관한 생각을 정리할 필요가 있을 것같아서 글을 적습니다. 예전 글과 반복되는 내용도 있지만, 이 글을 처음 읽는 분들을 위해서 중복된 내용도 간략히 다시 적겠습니다. 초기의 추천 시스템은 아이템 Item 자체 또는 그것의 메타데이터를 이용해서 관련성을 맺어서 추천해줬습니다. 그래서 이름도 CBF, 즉 Content-based Filtering입니다. 보통 추천 알고리즘에서는 Recommendation보다는 Filtering이라는 용어를 많이 사용하는데, 필요한 것만 걸러서 보여준다 정도로 이해하면 될 것같습니다. Filteri.. 데이터 분석을 위한 로그 시스템 설계 제목은 좀 거창하게 적었지만, 데이터 분석을 편하게 하기 위해서 원본 로그를 어떻게 적제할 것인가?에 대해서 간략히 글을 적으려 합니다. 오래 전부터 적고 싶었지만 기회가 나지 않아서 미루던 것인데, 완벽하지는 않겠지만 떠오르는대로 적겠습니다. 더 필요한 사항은 추후에 업데이트하겠습니다. 새로운 서비스를 오픈하면 다양한 시스템 히스토리나 사용자 사용 이력이 남습니다. 이를 로그 log라고 부릅니다. 그런데 이런 로그들은 대부분 그냥 시스템의 안정성/성능을 측정하거나 단순히 장애가 발생했을 때 어떤 원인으로 발생했는지 등과 같은 1차원적인 기록 및 대응을 위한 경우가 많습니다. 최근 데이터 분석이 주목을 받으면서 원본 데이터, 즉 로그에 대한 관심도 많습니다. 그런데 실상 로그를 분석해보려고 하면 당장 사.. 서비스와 데이터마이닝 과학자는 자신이 가진 솔루션을 적용할 문제를 찾고 엔지니어는 자신의 문제를 해결할 솔루션을 찾는다라는 말로 과학(자)과 엔지니어링을 구분한 글을 본 적이 있다. 적절한 구분인 것같다. 데이터 분석/마이닝도 같은 관점에서 구분할 수 있을까? 문제에 맞는 솔루션을 찾는 사람은 데이터 마이너고, 알고리즘에 맞는 문제를 찾는 사람은 데이터 사이언티스트라고 부를 수 있을까? 별로 좋은 구분인 것같지 않다. 최근 빅데이터나 데이터 사이언스 등에 관심이 조금 쏠리고 데이터 기반의 무엇 (Data-driven X)이라는 표현을 자주 접하게 된다. 선무당이 사람잡는다는 말도 있지만, 데이터와 연결된 용어들이 범람하면서 데이터 선무당들도 많이 늘고 있는 것같다. 간혹 지난 몇 년동안 엄청나게 많은 데이터를 모아놓았는데 이.. '나를 위한 추천 뉴스' A/S 낮에 프로젝트 마플방 (그래요. 바로 그 비운의 메신저입니다. 이것 때문에 어수선한데, 판교(서울)로 가게 된다면 굳이 이 회사에 다닐 필요가 없다며 협박 아닌 협박을 하고 다닙니다. 혹시 판교로 강제 이주하게된다면 FA로 나올테니 제가 필요한 분은 미리 귀뜸이라도...)에 링크 하나가 공유됐다. '다음, 모바일 뉴스 페이지 개편 성공할까?'라는 글인데, 본문 중에 주소는 공개하지 않겠다고 밝혔지만 내 글의 일부를 인용해놨다.기대했던 수치만큼의 PV/UV가 나지 않아서 실망했던 솔직한 그러나 과장해서 표현한 당시 심정을 적었던 부분을 인용했다. (참고. '나를 위한 추천 뉴스' 후에)솔직하게 적을 수 밖에 없었고 또 과장할 수 밖에 없었던 이유가 있다. 굳이 밝힐 필요는 없을 듯 하지만... 어쨌던 인용.. '나를 위한 추천 뉴스' 후에 사람들은 5월 초에 있었던 다음 카카오 합병 소식에는 관심을 가지지만, 5월 말에 있었던 어떤 서비스 오픈에는 별로 관심을 보이지 않고 있다. 그도 그럴 것이 그게 현재 다음의 처지를 그대로 보여준다. 완전히 새로운 서비스도 아니고 기존의 페이지에서 한 구좌에 조금 노출되는 수준이니 열혈 사용자가 아니면 (지금은 그런 사용자도 많지 않다) 눈치를 못 챘을 가능성도 높다. 트위터에 해당 서비스명으로 검색해봐도 서비스 개발자는 아니었지만 그 팀에 속한 어떤 분이 간단히 소개하는 정도의 트윗이 올라와있고, 다른 하나는 고맙게도 다음과 같은 글이 올라와있다. 다음 앱에서 '나를 위한 추천 뉴스'라고 알려주는데, 이게 무섭고 두렵군.— 안녕... (@qsnail) May 31, 2014 여러 측면에서 이게 무서운.. 데이터 매니페스토 -- Make Data Open & Mining Public 사내 게시판에 올린 데이터 마이닝 학습 모임을 위한 글입니다. 모든 데이터는 공개가 원칙이고 마이닝 능력은 보편 지식이 돼야 합니다. === 모든 법의 존재 목적이 사문화돼 폐기되는 것이듯, 모든 조직의 존재 이유도 더 이상 필요의 이유가 사라지는 것이다. 스스로 파괴해서 증식할 것이냐 아니면 파괴당해서 사라질 것이냐의 차이만 존재할 뿐 현재의 모습과 역할이 변해야 하는 것에는 전혀 변함이 없다. 데이터 또는 그것을 다루는 조직의 운명도 다르지 않다. 데이터는 더 이상 소수의 권력이 되어서는 안 되고, 그것을 읽고 해석하는 능력이 전문성이 되어서도 안 된다. 데이터 기반 조직 Data-driven organization이란 단순히 데이터/수치에 의해서 의사결정을 내리는 조직이 아니라, 구성원 모두가 나름.. [책소개] 초보자들을 위한 통계학습 (An Introduction to Statistical Learning with Applications in R) (한글 번역본 나옴. http://book.daum.net/detail/book.do?bookid=KOR9791186710050)연초부터 옆 팀에서 Kevin P. Murphy의 "Machine Learing: A Probabilistic Perspective"라는 책으로 스터디를 한다는 얘기를 들었다. 여러 이유로 제한된 일부를 제외하고는 타팀의 청강을 허용하지 않는다고 해서, 그냥 인터넷에서 책을 구해서 읽어나갔다. (구글링하면 PDF 파일을 얻을 수 있음.) 약 1000페이지의 방대한 양에 머신러닝과 관련된 -- 최근 핫한 이슈를 포함한 -- 대부분의 주제를 다루고 있어서 이것만 마스터하면 머신러닝에 조금 더 익숙해질 수 있으리라는 기대를 가지고 막무가내로 읽어나갔다. 그런데 양도 많지만 너무 어려.. 데이터 매니페스토: 데이터 기반의 실행조직 (새벽에 문득 잠에서 깨어 이 글을 적는다.) 최근 데이터 또는 데이터 기반 접근법에 대한 관심이 뜨겁다. 어쩌면 내가 밥벌어먹고 살려고 또 내 몸값을 올리려고 이런 표현을 사용/전파하고 있는지도 모르겠다. 관련 뉴스를 보면서 과연 데이터 기반의 실행조직이라는 것이 실체가 있는 것인지? 아니면 그들도 자기들을 세일즈하기 위해서 억지로 기사를 쏟아내고 있는 것은 아닌지? 또는 구글이나 몇몇 잘 나가는 기업들이 데이터를 가지고 돈을 잘 벌고 있으니 그걸 부각시키고 과대포장하고 있는 것은 아닌지? 등에 대한 의문이 들기는 한다. 그런 의심은 일단 뒤로 하고, 데이터가 공기처럼 편재하고 있다는 것은 사실이다. 많은 기업들이 스스로 좀 더 가치있는 데이터를 생산해내거나 고객들로부터 그런 데이터를 수집하려고 노력중.. 이전 1 ··· 11 12 13 14 15 16 17 다음