본문 바로가기

DM ML AD

(131)
[진로 상담] 데이터 분석가를 꿈꾸는 러시아어 전공자입니다. 오랜만의 진로상담. 그리고 티스토리 포스팅.ㅎㅎ 질문 정리. 현재 러시아어를 전공하는 20대 중반입니다. 스타트업에 관심을 가져서 여러 컨퍼런스에 참가했는데 어떤 강연에서 데이터 사이언스라는 분야를 접한 후로, 직접 해보니 흥미가 있고 적성에 맞아서 데이터 분석가를 희망하며 컴퓨터공학을 복수전공으로 신청했습니다. 파이썬과 라이브러리를 이용한 기본 코딩은 가능한 수준입니다. 공모전에도 나가봤고 ADSP를 공부해서 자격증 시험도 봤습니다. 그런데, 러시아어 전공이 데이터 분석가로 일하는데 도움이 될까요? 기업체에서 데이터 분석 업무는 석사 학위 이상을 요구하는데 굳이 진학을 해야 하나요? 석사를 진학할 의사는 없는데 이를 대신할 다른 방법은 없는 걸까요? 실무자가 생각하기에 이 분야의 직업 (채용) 전망은 ..
인문계열 졸업생인데 데이터사이언스를 하고 싶어요. 올해 들어, 특히 판교로 이주한 후로 블로깅을 포함해서 외부 활동을 거의 못하고 있어서 하반기부터는 운신의 폭을 넓혀갈 계획이었는데, 마침 고민 상담이 들어와서 글을 적습니다. 점점 이런 글이 두려워지는데 내가 과연 바른 조언자인가에 대한 두려움, 그리고 각자가 가진 특수성을 무시하고 일반화된 얘기 또는 제 경험에 편향된 얘기를 할 것 같아서 두려움이 앞섭니다. 개인적 편향을 감안해서 읽어주셨으면 합니다. 더 복잡한 사정이 있겠지만, 질문 들어온 것만을 요약하면... ‘인문계열 (사범대) 졸업생으로 현재 스타트업에서 기획을 하고 있는데, 데이터사이언스를 하고 싶어요. 산업공학 대학원 진학도 염두에 두고 있지만, 현재 기초가 없어서 패스트캠퍼스의 데이터사이언스 과정도 고려하고 있어요.’ 정도입니다. 산업공..
딥러닝을 제대로 이해하기 위해서 필요한 배경지식맵 장면 1. 최근 카카오 광고 OBT를 시작하면서 'AI 기반의 광고 플랫폼'이라는 보도자료가 재생산됩니다. 광고 랭킹을 위해서 클러스터링, 베이지언 추론, 회귀분석, 톰슨샘플링 등의 다양한 머신러닝 기술을 활용하고 있지만, 일반인들이 생각하는 AI, 즉 딥러닝을 명시적으로 활용하고 있지는 않습니다. (참고. 카카오 AI 리포트글 참조 https://brunch.co.kr/@kakao-it/84) 그런데 저런 류의 기사들이 양산되는 것이 부담이 돼서 내년에는 본격적으로 다양한 분야에 딥러닝 기술을 적용할 계획입니다. 그래서 파트 내에 딥러닝 기술에 대한 공통된 지식이 필요하다고 판단했고, 강의/공유를 위한 자료를 미리 만들어두면 좋겠다고 결론지었습니다.장면 2.페이스북 등에 AI 관련 다양한 커뮤니티/페이..
현재의 딥러닝을 가능케한 기술들 Deep Learning Breakthroughs 데이터 분석 및 알고리즘 개발을 업으로 하면서 딥러닝 Deep learning은 늘 관심의 대상이었다. 하지만 알고리즘을 실제 구현해보거나 여러 라이브러리를 이용해서 실제 문제에 적용하는 것을 시도하지 않았기에 그런 의미에서 딥러닝에 문외한이라 할 수도 있다. 그럼에도 -- 빅데이터 기술을 어느 순간부터 결국 업에 적용했던 때와 같이 -- 딥러닝 기술도 언젠가는 내가 담당하는 업에 적용해야할 때가 올 것을 알았기에 알고리즘의 기본 지식을 공부하거나 딥러닝 발전의 주요 논문을 빼놓지는 않고 찾아보곤 했다. 딥러닝의 가능성이 일반에 알려지기 시작한 2013년도부터 계속 지켜봐왔기에 딥러닝 전문가는 아니지만 딥러닝의 발전 과정을 어느 정도 꿰뚫고 있다고 생각하기에 어떤 기술들이 현재의 딥러닝을 가능케했는지를 ..
딥 개인화에서 해결해야할 문제들... 지난 글에서 워드임베딩에 대한 생각을 정리하고 딥러닝과 결합해서 개인화 추천에 어떻게 적용할 것인가에 대한 간단한 스케치를 올렸습니다. (참고. 워드임베딩: http://bahnsville.tistory.com/1139, 개인화 추천: http://bahnsville.tistory.com/1141) 오늘은 그런 기술을 딥 개인화 시스템에 적용할 때 예상되는 문제점들에 대해서 생각나는대로 정리하려 합니다. 지난 글에 제시한 딥 개인화 아키텍쳐를 간단히 설명하면 다음과 같습니다. 텍스트, 이미지, 또는 웹로그 등의 유저 및 아이템 정보/이력에 포함된 개별 항목들을 워드임베딩 기술로 벡터화한다. 유저/아이템의 정보를 RNN이나 CNN 등으로 정형화된 벡터로 압축한다.정형화된 유저벡터와 아이템벡터의 관계를 유저..
딥 개인화 Deep Personalization 워드임베딩과 팩토라제이션을 설명한 지난 글에서 http://bahnsville.tistory.com/1139 저는 그 기술들을 크고 다양한 데이터 기반의 개인화 추천 data-rich personalization에 적용하는 것에 관심있다고 밝혔습니다. 이번에는 어떻게 개인화 추천에 활용할 수 있을 것인가?에 대해서 아이디어 차원의 글을 적습니다. 좀 naive할 수도 있음을 미리 밝힙니다. 불가능한 것은 아니지만 word2vec같은 워드임베딩 기술이나 SVD, NMF같은 팩토라이제이션 기술을 바로 개인화 추천에 이용하는 데는 한계가 있습니다. 유저별로 조회했던 아이템을 시간순으로 나열하고, 아이템을 word/vocabulary로 가정해서 아이템의 벡터를 만들 수 있습니다. 아이템 벡터의 cosine 유사..
Regularization: 복잡도를 다스리는 법 개인적으로 전문용어가 어색하게 한글화되는 것을 별로 좋아하지 않는데, regularization도 그런 경우에 속합니다. 적당한 한글 용어를 찾기가 어렵습니다. 인터넷에 검색해보면 '규제화'라고 번역한 경우를 봤는데 페널티로 모델 복잡도를 제어하는 방식에는 유효하지만 다른 방식에는 조금 어색한 표현입니다. '일반화'는 그냥 generalization를 번역한 것 같지만 또 한편으론 학습오류와 테스트오류를 합친 generalization error를 줄인다는 의미처럼 보여서 나름 합당한 면이 있습니다. '정규화'라고 번역한 경우도 있는데 개발자들이 많이 사용하는 regular expression을 정규식이라고 부르니 정규화도 타당한 번역이지만 데이터를 정규 분포를 따르도록 만드는 normalization,..
워드 임베딩과 팩토라이제이션, 그리고 개인화 Word Embedding, Factorization, and Personalization 여러 가지 개념이 혼재돼있습니다. 단어의 원래 뜻과 다르게 해석한 여지가 있습니다. 이 글에서 설명한 것이 절대적으로 맞다고 생각하면 위험합니다. 저는 제게 필요한 것으로 아전인수격으로 정의, 사용했을 개연성이 높음을 미리 경고합니다. 한글화된 용어를 별로 좋아하지 않지만 필요에 따라서 (국내에서 통상적으로 사용하는 경우) 일부 용어는 한글화했습니다. 2017년은 나름 공부하는 해로 정하고 그동안 미뤄놨던 논문들을 읽기 시작했습니다. 벌써 4주차가 됐는데도 여전히 논문을 읽고 있으니 지금의 흐름은 나름 오래 갈 것 같습니다. 한동안은 업무에 필요하거나 주목받은 논문 한두편을 짧게 읽은 적은 있지만, 연구실에 있을 ..