DM ML AD (134) 썸네일형 리스트형 딥 개인화 Deep Personalization 워드임베딩과 팩토라제이션을 설명한 지난 글에서 http://bahnsville.tistory.com/1139 저는 그 기술들을 크고 다양한 데이터 기반의 개인화 추천 data-rich personalization에 적용하는 것에 관심있다고 밝혔습니다. 이번에는 어떻게 개인화 추천에 활용할 수 있을 것인가?에 대해서 아이디어 차원의 글을 적습니다. 좀 naive할 수도 있음을 미리 밝힙니다. 불가능한 것은 아니지만 word2vec같은 워드임베딩 기술이나 SVD, NMF같은 팩토라이제이션 기술을 바로 개인화 추천에 이용하는 데는 한계가 있습니다. 유저별로 조회했던 아이템을 시간순으로 나열하고, 아이템을 word/vocabulary로 가정해서 아이템의 벡터를 만들 수 있습니다. 아이템 벡터의 cosine 유사.. Regularization: 복잡도를 다스리는 법 개인적으로 전문용어가 어색하게 한글화되는 것을 별로 좋아하지 않는데, regularization도 그런 경우에 속합니다. 적당한 한글 용어를 찾기가 어렵습니다. 인터넷에 검색해보면 '규제화'라고 번역한 경우를 봤는데 페널티로 모델 복잡도를 제어하는 방식에는 유효하지만 다른 방식에는 조금 어색한 표현입니다. '일반화'는 그냥 generalization를 번역한 것 같지만 또 한편으론 학습오류와 테스트오류를 합친 generalization error를 줄인다는 의미처럼 보여서 나름 합당한 면이 있습니다. '정규화'라고 번역한 경우도 있는데 개발자들이 많이 사용하는 regular expression을 정규식이라고 부르니 정규화도 타당한 번역이지만 데이터를 정규 분포를 따르도록 만드는 normalization,.. 워드 임베딩과 팩토라이제이션, 그리고 개인화 Word Embedding, Factorization, and Personalization 여러 가지 개념이 혼재돼있습니다. 단어의 원래 뜻과 다르게 해석한 여지가 있습니다. 이 글에서 설명한 것이 절대적으로 맞다고 생각하면 위험합니다. 저는 제게 필요한 것으로 아전인수격으로 정의, 사용했을 개연성이 높음을 미리 경고합니다. 한글화된 용어를 별로 좋아하지 않지만 필요에 따라서 (국내에서 통상적으로 사용하는 경우) 일부 용어는 한글화했습니다. 2017년은 나름 공부하는 해로 정하고 그동안 미뤄놨던 논문들을 읽기 시작했습니다. 벌써 4주차가 됐는데도 여전히 논문을 읽고 있으니 지금의 흐름은 나름 오래 갈 것 같습니다. 한동안은 업무에 필요하거나 주목받은 논문 한두편을 짧게 읽은 적은 있지만, 연구실에 있을 .. 자기강화와 GAN: 부족한 정답세트를 극복하는 방법 데이터 마이닝이나 머신러닝, 인공지능 AI 등에 관한 심도깊은 얘기는 다루지 않는다. 내가 그런 심도깊은 일을 하고 있지 않기 때문이기도 하거니와 그런 내용은 학교에서 정식으로 배우거나 많은 연구 논문을 읽으면서 터득해야할 영역이다. 개인적인 요청이 있다면 그걸 위해서 가이드해줄 수는 있지만 이 티스토리에서 그걸 해결해줄 수는 없다. 하지만 2017년에는 공부 좀 하기로 마음을 먹었으니 필요하면 특별한 주제에 맞춰서 또는 머신러닝 알고리즘의 전반적인 것에 대해서 종종 다루려 한다. 계획이 그렇다는 것이지 몇 번을 다룰지는... 최근이라 적고 작년 2016년에 가장 큰 이슈가 됐던 강화학습과 GAN (Generative Adversarial Networks)에 대한 소개 또는 개념적 이해를 돕기 위해서 글.. [Q&A] 빅데이터 전공과 전망 블로그 방명록을 통해서 또 질문이 들어왔습니다. 개별적으로 답변할 수도 있지만 비슷한 고민/의문을 가진 분들을 위해서 공개적으로 글을 적습니다. 질문을 요약하면 아래와 같습니다. 1. 빅데이터 분야로 진출하기 위해서 인문학부생으로서 컴퓨터공학과와 통계학(수학) 중에서 어느 쪽으로 전과/복수전공하면 좋을까요? 2. '빅데이터'에 대한 부정적 시각도 많은데 관련된 미래 직업/산업에 대해서 어떻게 전망하시나요? 한줄 답변컴퓨터 공학과표지가 바뀐 고전인지 세련된 표지의 잡지인지는 책자을 열어봐야 안다. 그리고 고전도 시대정신을 따른다. 개인이 처한 모든 상황과 배경을 모르기 때문에 원하는 답변이 아닐 수도 있고, 또 여러 생각으로 길게 적다보니 중언부언할 수 밖에 없음을 양해바랍니다. 철저한 계획이 아닌 어쩌다.. 공부하자 (나 논문 좀 읽어봤어요) 새해가 되면 으레 없던 새해결심이 생기기 마련입니다. 현실성이 없지만 가장 현실적인 소망으로 운동하자 (다이어트, 금연, 금주 등 포함)와 공부하자 (기술, 취미, 경력 등 포함)일 것입니다. 오늘은 두번째 특히 연구와 관련해서 어떤 것을 어떻게 읽을 것인가에 대해서 적으려 합니다. 기술직군에 속하지만 프로그래밍은 제 전문 영역이 아니니, 더 구체적으로 일단 데이터마이닝이나 머신러닝을 공부하는 것이라고 가정하고 글을 적습니다. 어떤 것을 읽어야할까? 또는 어떤 것을 읽지 말아야할까? 지극히 주관적인 생각입니다. 1. 한글 문서는 피한다. 블로그 등에 소개된 가벼운 글이나 급하게 한글문서를 찾아볼 수는 있지만, 장기적으로 한 분야를 마스터하는 것이 목표라면 어렵고 지루하더라도 가급적이면 영문 (논문이나 책.. 데이터 비즈니스에 실패하는 회사들...(2) 1편이 예상 외로 반응이 좋았다. 그럴려고 적은 글은 아니었는데... 의외의 반응을 얻으면 우쭐해서 다음 글을 적고 싶어지는데, 보통 그렇게 적은 글은 호응이 없다. 어쨌든, 1편에서는 데이터 비즈니스를 하려는 기업들이 의미있는 데이터를 가지지 않았거나 인력과 인프라가 부족하거나 장기적인 전략으로 꾸준하지 못해서 -- 즉, 준비가 제대로 안 돼서 -- 결국 실패한다고 적었다. 오늘은 약간 다른 관점에서 적을 적는다. (참고 링크: 데이터 비즈니스에 실패하는 회사들) 데이터 비즈니스를 한다는 것은 결국 데이터를 비즈니스로 연결한다는 의미가 된다. 그러면 역으로 데이터 비즈니스에 실패한다는 것은 데이터를 비즈니스로 제대로 연결하지 못한다는 것과 같다. 어떤 단계 (관점)을 거쳐서 데이터가 비즈니스로 연결되는.. 데이터 비즈니스에 실패하는 회사들 빅데이터의 시대를 지나 스마트 데이터 시대로 접어들고 있다. 주변에서 데이터가 중요하고 데이터 비즈니스를 하겠다고 하는 회사들은 많지만 정작 데이터 비즈니스에 성공한 회사들은 손에 꼽을만하다. 구글, 페이스북, 아마존 같은 세계적인 기업들이나 겨우 데이터 비즈니스에 성공했다. 아니면 아주 특수한 케이스나 기술에 두각을 보이는 잘 알려지지 않은 데이터/기술 스타트업정도만 생각날 뿐이다. 국내에서는 네이버가 그나마 앞서있는 축에 속하지만 기술에 의한 것인지 아니면 마켓파워 때문인지 구분이 조금 어려운 것도 사실이다. 카카오는 네이버에 비하면 데이터 비즈니스를 한다는 말을 꺼내는 것도 민망하다. 카카오가 다른 큰 회사들보다는 데이터 비즈니스를 위한 최소한의 여건을 갖춘 것은 맞지만, 데이터 비즈니스를 한다고 .. 이전 1 ··· 9 10 11 12 13 14 15 ··· 17 다음