본문 바로가기

Messages from Bahn

(1184)
추천 시스템과 머신러닝 (PR시리즈.15) 14편의 글로 추천시스템을 마무리하려고 했었는데, 하나가 더 생각나서 글을 적습니다. 깊게 들어가면 어려워지는 문제지만, 이 그레서는 아주 피상적으로만 적겠습니다. 데이터마이닝하면 머신러닝이 같이 떠오른데 그러면 머신러닝은 추천 시스템에서 어떤 역할을 하느냐?라는 질문을 할 수 있습니다. 그래서 준비했습니다. 그러나 모든 디테일은 생략합니다. 구체적으로 어떤 머신러닝 알고리즘들이 추천시스템에 활용되고 있는지는 Netflix에서 나온 Mining Large Streams of User Data for Personalized Recommendations을 참조하세요. Collaborative Filtering 알고리즘을 설명하면서 모델기반 CF를 잠깐 언급한 적이 있습니다. 여기서 모델이란 머신러닝을 통해서..
[Q&A] 경제학과 학생의 데이터마이너 되기.? 경제학을 전공하는 1년차 대학생께서 데이터마이너가 되고 싶다는 문의를 해주셨습니다. 저와 백그라운드가 다른 쪽 (문과 계열)은 조금 조심스럽습니다. 제 경험이 아닌 상상에 맞춰서 — 그리고 어떤 면에서는 선입견에 따라서 — 불필요한 조언이 될 수도 있기 때문입니다. 지난 번에 문과 고등학생도 질문을 주셨지만, 그 분은 아직 대학/과를 정하지 않은 상태였고, 지금은 경제학과로 진학한 경우라서 조금 느낌이 다를 수 있습니다. 그리고 학교마다 개설되는 수업 이름이 다르기 때문에 정확한 수업명은 다시 확인하시기 바랍니다. 안녕하세요? 경제학과에 재학중인 학생입니다. 아직 1학년 밖에 마치지 않았지만 데이터마이너가 되고싶다는 생각이 들어 이렇게 여쭈어 보게 되었습니다. 구체적으로 어떤 과목을 공부해야하는지 알고 ..
연구자의 길을 걷기를 원하는 이들에게... 짧으나마 제 경험을 공유합니다. 수요일에 휴가를 내고 집에서 쉬면서, 학교 후배 (과도 다르고 직접 만나서 얘기한 적도 없으니 그냥 동문정도겠지만... 다른 큰 종합대학교들과 다른 포스텍만의 분위기에서는 과가 다르더라도 일면식이 없더라도 선후배로 불러도 별 무관하다)가 학부생들을 위해서 준비한 강연 '효율적이고 능동적인 대학원 생활을 위한 연구 길잡이'를 보게 되었습니다. 1시간 30분으로 다소 길지만, 연구자의 길을 걷겠다고 마음먹은 분들에게는 유익한 정보라 생각되어 공유합니다. 7학기만에 석사, 박사과정을 모두 마치고, 주저자로 논문 11편을 쓴 강연자의 노하우가 우리같은 일반 학생들에게 얼마나 큰 도움이 될까?라는 생각도 할 수 있겠지만,... 강연자의 발표자료와 발표자료에도 인용되었고, 이미 늘리 회자되었던 비슷한 조언들은 다음..
추천 시스템에 대해서 여전히 남은 이야기들 (PR시리즈.14) 추천 시스템에 대한 웬만한 내용은 다 다룬 듯합니다. 그래도 남은 짜투리 생각들을 정리합니다. 추천의 형태/대상별 분류에서 그룹추천을 설명했습니다. 그룹추천은 그룹을 대상으로 공통된 아이템을 추천해주는 의미도 있지만, 더 상세한 개인추천/개인화의 중간단계 역할도 합니다. 여러 측면에서 고려될 수 있지만, 우선 떠오르는 생각은 추천 대상이 너무 많고 광범위해서 1차로 segmentation하고, 각 세그먼테이션 내에서 개인화를 진행할 수 있습니다. 성연령이나 문화권에 따라서 소비자들의 행동패턴은 분명히 다를 것입니다. 그렇기에 인위적으로 성별이나 연령대, 국가별로 나눠서 각 그룹 내의 행동패턴을 상세 분석하는 것은 의미가 있습니다. 미국의 소비자와 한국의 소비자를 하나의 데이터에 넣고 추천 알고리즘을 돌린..
당연함과 인숙함과의 결별 일주일이 지나고 이제서야 몇 자 적어봅니다. === 지금 우리는 그동안 침묵하던 불편한 물음과 대면하고 있다. 누군가가 아닌 우리 모두가 답을 해야할 물음이다. 대학에 들어가면 안녕할 수 있을까요? 학점을 잘 받으면 안녕할 수 있을까요? 취직을 하면 안녕할 수 있을까요? 승진을 하고 연봉이 오르면 안녕할 수 있을까요? 결혼을 하고 애를 낳으면 안녕할 수 있을까요? 우리는 그 답을 모르면서 그저 다음 단계로 넘어가기에 바쁘다. 폭력에 시달리고 성적을 비관해서 죽어가는 친구들이 옆에 있는데도, 취업을 못해 졸업도 미루고 고시촌을 전전하는 친지가 옆에 있는데도, 비정규직, 해직으로 신음하는 동료가 옆에 있는데도, 아파도 병원, 약국도 제대로 못 가는 이웃이 옆에 있는데도, 우리는 그저 다음 단계로 넘어가기만 ..
추천 시스템을 위한 하둡 마훗 사용하기 (PR시리즈.13) 빅데이터를 위한 하둡 Hadoop이나 머신러닝 라이브러리인 마훗 Mahout의 디테일한 것을 설명하려는 것이 아닙니다. 그냥 마훗의 추천 알고리즘을 실행해본 수준에서 경험했던 프랙티스에 대한 간단한 리마크만 하겠습니다. 하둡이나 마훗에 대한 상세 설명이나 설치/설정 방법에 대해서는 다른 문서들을 찾아보시기 바랍니다. 특히 마훗의 아이템기반CF의 상세한 사용방법은 위키페이지를 참조하세요. 먼저 마훗CF를 사용하기 위한 입력데이터는 {UserID, ItemID, Rating} 페어로 된 CSV 파일이 필요합니다. 마지막 값인 Rating은 암묵점수에서는 넣을 필요없이 하둡/마훗을 실행할 때 옵션 --booleanData를 활성화시키면 됩니다. 여기서 중요한 점은 UserID와 ItemID가 모두 Long i..
추천 시스템에 대한 잡다한 생각들 (PR시리즈.12) 총 11번에 걸쳐서 추천 시스템과 관련된 다양한 알고리즘, measure, 고려사항 등을 다뤘습니다. 이 글에서는 미쳐 다루지 못했던 내용이나 그외 추천 시스템에 대한 잡다한 생각들을 두서없이 적으려고 합니다. 외국의 경우 아마존이나 넷플릭스, 구글유튜브 등이 추천으로 유명한 회사/서비스들이지만, 국내에는 여전히 추천 또는 데이터기반이 여전히 미약합니다. 최근에 영화 추천 서비스인 왓차, 그리고 그것을 만든 프로그래밍스가 조금 유명세를 타고 있습니다. 이전의 모든 글의 공통된 밑바탕은 추천 알고리즘 및 서비스는 별개 아니다 입니다. 현존하는 데이터마이닝 방법 중에서 추천보다 더 쉬운 것은 없다는 것이 저의 기본 가정입니다. (물론 엄청 잘하는 것은 매우 어렵습니다.) 왓차 서비스도 전혀 새로운 것이 없는..
(미국) 온라인 쇼핑과 오프라인 쇼핑 비교 MIT Technology Review에 The Shopping Decision Tree라는 인포그래픽스가 올라와서 공유합니다. 아래의 그림을 보시면 바로 이해가 될 거라서 따로 정리할 내용도 없지만,온라인 쇼핑이 많이 성장했지만, 매출액 기준으로 여전히 오프라인 쇼핑의 1/10에도 못 미치고 있다. ($200B vs $2.8T)그러나 매출액의 40%정도는 온라인/웹의 정보에 의존하지만, 특별한 경우가 아니면 그냥 상점에서 물건을 구매한다.모바일 판매는 아직은 온라인 판매에서 큰 부분을 차지하지 못하고 있다. ($13B vs $190B)온라인 쇼핑몰이 미국의 Top 5 리테일에 속하지 못 한다. (Walmart, Kroger, Target, Costco, Home Depot)온라인 매출의 1/5은 아마존..