본문 바로가기

데이터마이닝

(21)
알고리즘에 따른 추천 시스템의 분류 (PR시리즈.4) 앞으로 다양한 주제의 글이 남아있지만, 이번 포스팅이 추천 시스템에서는 가장 핵심이 되는 추천 알고리즘에 대한 글입니다. 본격적으로 추천 알고리즘이 개발된 것은 20여 년 밖에 되지 않지만, 실 서비스에서 쉽게/바로 적용이 가능하고 그 효과도 즉각적으로 측정이 가능하기 때문에 다양한 방법들이 개발되었습니다. 밑에서 자세히 설명하겠지만 대부분의 알고리즘들이 매우 간단하여, 데이터마이닝에 큰 지식이 없는 이들도 쉽게 구현, 적용할 수 있어서 다양한 분야의 전문가들이 추천 알고리즘에 살을 붙여서 개념의 간단성에 비해서 매우 다양한 방법들이 존재합니다. 가장 원시적인 추천 알고리즘은 컨텐츠 기반의 필터링 (CBF)이 될 듯합니다. 아이템의 속성/메타데이터를 이용해서 연관 아이템을 묶어주기 때문에 별로 어렵지 않..
추천대상에 따른 추천 시스템의 분류 (PR시리즈.3) 이번 글에서 추천 알고리즘에 따른 분류는 아닙니다. CF, 유저기반, 아이템기반 등의 일반적인 알고리즘의 설명은 다음 글에서 자세히 다룰 예정입니다. 이 글에서는 -- 적당한 표현이 떠오르지 않는데 -- 추천대상 또는 형태상의 분류를 다루고 있습니다. (아래는 그냥 '하다'체로 적겠습니다. 처음에 그렇게 적어놨었었네요.) 추천 시스템을 크게 나누면 전체추천, 그룹추천, 개인추천 (개인화), 및 연관아이템추천으로 나눌 수 있을 것같다. 전체추천은 말 그대로 불특정 다수에게 추천하는 형태다. 일반적으로 다음이나 네이버에 접속했을 때 첫화면에 보여지는 무수한 글/이미지/상품들이 전체추천이다. 일반적으로 에디터 또는 운영자들이 그날의 이슈에 따라서 선별해서 보여준다 (보통 featuring한다고 표현함). 조금..
추천 시스템을 위한 데이터 준비 (PR시리즈.2) 두번째로 추천에 사용되는 데이터에 대해서 간단히 설명하겠습니다. 추천방식에 따라서 필요한 데이터가 달라지지만, 가장 일반적인 내용을 설명하고 추후에 특정 알고리즘이나 방식에 맞는 데이터는 별도로 설명하겠습니다. (특정 용어가 특정/다른 상황에서 적절하지 않을 수도 있습니다.) 추천의 기본 원리는 과거는 곧 미래다입니다. 그렇기에 추천을 위해서 필요한 데이터는 유저들의 행위 behavior 기록입니다. 상품 구매 이력, 이벤트 참석 이력, 기사를 공유했거나 like를 한 이력, 영화나 드라마를 보거나 평점을 남긴 이력 등의 모든 것들이 추천시스템에서 활용합니다. 그런 모든 이력들이 제품이나 컨텐츠에 대한 사용자의 선호/관심을 나타내는 지표로 사용합니다. 좀 더 구체적으로 쇼핑 추천을 예로 들겠습니다. A라..
문과생이 데이터마이너되기? 아래와 같은 질문이 들어왔습니다. 요약하자면, 현재 고등학교 문과생인데, 빅데이터 또는 데이터마이닝에 관심이 생겨서 이 분야로 진로/진학을 하고 싶은데 어떻게 하면 좋을까요?입니다. (전략) 지금 수시원서접수를 코앞에 둔 서울인문계고등학교 재학중인 문과 고3여학생인데, 글을 읽어보면 컴공을 추천하셨는데 문과에서는 현실적으로 가기 힘듭니다... 그렇다면 대안책으로 심리학과를 추천하시나요? 심리학보다는 통계학이 나을까요?(통계학이 문과에 있는 학교가 무척 제한적이고 그중엔 학부의 입시특성상 제가 지원하기 힘든 학교도 있어서, 다른과를 더 찾아보고 있습니다.) (중략) 만약 흥미로 이쪽 분야로 가려고 한다면 문과계열 중 어느학과를 추천하시고, 이후 어떤 식으로 공부해나가는걸 추천하시는지. 이런 막연한 환상섞인..
데이터마이닝을 전공하고 싶은데... 적고 싶은 글이 있었지만 일주일 넘게 글을 적지 못하고 있었는데, 페이스북에 누군가 데이터마이닝 전공에 대한 질문을 해봤길래 그 답변을 먼저 적습니다. 일전에도 '데이터마이너가 되고 싶어요'라는 글에서도 비슷한 답변을 해줬고, '데이터마이닝과 데이터마이너'라는 글에서도 좀 적었던 내용입니다. 그 외에도 몇 번 언급은 했던 것같은데 다시 질문에 맞게 글을 적습니다. 당장 어떤 내용이 적힐지 모르겠지만, 일부 내용은 일부에게 상처를 줄 수도 있습니다. 솔직한 답변을 위해서 냉혹한 현실을 그대로 말하려는 것이니 너른 이해를 바랍니다. (아래에 글을 편하게 적다보니 딱딱한 문체가 되었는데 바꾸기가 귀찮으니 그대로 놔두겠습니다. 이해바랍니다.) -- (질문) (전략) 22살 지방에서 학교를 다니다 휴학하고 공익근..
데이터마이너에 대한 소회 매주 화, 금요일을 기다렸던 이유는 윤태호님의 미생 때문이었는데, 지난주로 1부가 마감되었습니다. 그 빈자리를 이제 강풀님께서 '마녀'로 채워주셨고 그래서 이제는 월, 목요일을 기다리게 됩니다. 오늘 (어제) 연재된 9화 (만화속세상 마녀 9화) 에서 주인공이 전공을 살려서 데이터마이너가 되었다라는 표현이 등장합니다. 그래서 (아래처럼) 블로그 유입키워드로 '데이터마이너'가 급증했습니다.위의 티스토리 유입로그를 보면서 가장 먼저 떠오른 생각은 마녀는 다음 Daum의 만화속세상에서 연재 중인데, 검색쿼리는 네이버에서 대부분 발생했다는 점입니다. 단순히 네이버에서는 내 글을 잘 찾아줬고, 다음에서는 그러지 못했을 수도 있다는 생각을 할 수도 있지만, 아래의 캡쳐화면서 보여지듯이 네이버에서는 제 글이 3개가 ..
빅데이터 시대는 갔다. VentureBeat의 기사를 읽고 글을 적습니다. (참고. Big data is dead. What's next?) 언제나 기술용어가 마케팅용어로 변하는 시점이 되면 죽음 death이라는 단어가 등장합니다. 마케팅의 탄생 시점이 늘 기술의 사망 시점과 묘하게 겹치는 것같다. 인터넷만 국한시켜 생각해보면, 한 때 웹2.0이 기술용어인가 마케팅용어인가를 두고 논쟁이 벌어졌습니다. 그런 논쟁은 기술이 번성하고 이제 마케팅이 시작되는 시점에 벌어졌습니다. 그리고 최근에는 소셜이 그런 과정을 거쳤고, 이제는 클라우드나 빅데이터가 같은 운면에 접어들었습니다. 늘 그랬습니다. Geek의 손을 떠난 새로운 제품/서비스는 결국 마케터들의 손에 전달됩니다. 그 순간 매번 기술의 죽음이 언급됩니다. 마케팅이야 말로 기술과..
(빅) 데이터 분석 플랫폼에 대한 고민 주의. 구체적인 그림이나 내용을 적으려는 것이 아닙니다. 그냥 순간적으로 떠오른 생각들만 두서없이 나열합니다. 심도있는 글을 원하신다면 그만 읽으세요. 다양한 출처에서 다양한 사람들이 다양한 이야기/글을 적기 때문에 중요한 글도 놓쳐버리는 경우가 잦습니다. 대선 이후에는 정서가 불안해서 IT/트렌드 관련 글들을 제대로 챙겨보지도 못했는데, 우연히 '데이터 시각화'를 검색해보다가 2012년 12월 11일에 IT월드에 올라온 '빅 데이터 시각화를 통해 직원 통찰력을 증대시켜라... 이베이의 과제'라는 글을 읽게 되었습니다. 이 글을 읽는 순간, 현재까지 제 업무 또는 일해왔던 방식에 회의감이 들었습니다. 지금껏 너무 단순하게 분석 업무요청에 수동적으로 대처했던 것은 아닌가?라는 생각이 들었습니다. 현재 바쁘..