본문 바로가기

data science

(7)
데이터 과학자와 머신러닝 개발자 별로 대수롭지 않은 주제지만 타임라인에 왕왕 등장해서 그냥 짧게 적는다. 평소에 나는 데이터 과학자 (Data Scientist)인지 아니면 머신러닝 개발자 (ML Enginerr)인지를 궁금해한 적이 별로 없었다. 데이터 과학자가 머신러닝 개발자인 듯하고 머신러닝 개발자가 데이터 과학자인 듯하고 그게그거라 생각했다. 데이터 과학을 오래 하다 보면 머신러닝 개발자가 돼있고 반대로 머신러닝 개발을 오래 하다 보면 자연스럽게 데이터 과학자가 돼있다고 본다. 그럼에도 굳이 구분을 해야 하는 걸까? 데이터 과학자든 머신러닝 개발자든 공통적으로 수학 지식, 프로그래밍 스킬, 그리고 도메인 이해가 필요하다. 이것에 이견을 갖는 사람은 거의 없을 거다. 기본 기술 세트가 같으니 '데이터 과학자 = 머신러닝 개발자'인..
라떼의 텍스트 마이닝 Text Mining for Dummy 텍스트 마이닝이란 표현도 이젠 좀 올드해 보인다. NLP는 이미 수십 년 전부터 있던 건데 여전히 유효하고 딥러닝 이후 더 중요해졌다. 랭귀지 모델이란 용어는 언제부터 사용된 걸까? 어쨌든 요즘 자연어 연구의 방법은 다소 획일화된 듯하다. 일단 단어를 Word2Vec이나 GloVe 등으로 워드 임베딩을 하고, 이를 문장 (등의) 단위로 연결해서 RNN 또는 이후 등장한 여러 딥러닝 기반 모델에 넣으면 그냥 끝난다. 자연어처리와는 다소 무관한 경력을 쌓긴 했지만 그래도 키워드와 텍스트는 늘 조금씩 다뤄왔기에 전통적인 텍스트 마이닝 기법들을 정리, 소개하려 한다. 최근에 입문한 분들은 요즘 방식이 더 친숙하겠지만, 과거의 방식에서 여전히 유효한 것들이 많으니 참고 삼아 읽으면 보면 좋을 거다. 텍스트 마이닝..
현업 데이터 과학자가 되려는데 굳이 이런 것까지 공부해야 합니까? 답글로 달기에는 글이 길어질 듯해서... (극히 개인적인 의견이니 그냥 참고만...) 딥러닝 기술을 바이오 데이터에 적용하는 걸로 석사를 졸업했다. 나는 취업해서 그냥 데이터 사이언티스트가 되고 싶다. 실무자가 되기 위해서 굳이 알고리즘의 수식을 유도하고 코드를 구현하는 걸 공부해야 하나? 머신러닝 이론이 실무에 그대로 활용되는가? 그냥 데이터 다루는 법이 더 중요하지 않나? 소프트웨어 엔지니어 수준의 개발 지식과 기술이 필요한가? 첫 줄 요약. 당장은 필요 없다. (일단 취업된다는 가정 하에) 하지만 레벨업을 위해선 미리미리 준비해야 한다. (언젠가 해야 한다면 어릴 때… == 취업 후에라도) 데이터 과학자도 여러 종류가 있다. 가장 하드코어 하게는 인공지능 연구실로 진학해서 더 나은 새로운 알고리즘을..
[Q&A] 개발팀인데 데이터 분석으로 성과를 내야하는 미션이 떨어졌습니다. 어느 기업에서 컴공/전자과 출신 8명으로 구성된 개발팀에 있습니다. 모두 데이터 지식이 전무합니다. 1. 모두 비전공자라서 수식이 아닌 개념과 실습 위주로 스터디를 하려 합니다. 좋은 방법일까요 아니면 다른 방법을 추천해주세요. 2. 리더없이 스터디가 잘 진행될까요? 온라인 강의를 함께 듣고 토의하면서 공부할 수 있을까요? 3. 속성으로 공부해서 최소 POC 구현정도라도 소기의 성과를 낼 수 있을까요? 4. 판교에서 Q&A를 진행해주실 수 있나요? (평일) 진로를 고민하는 비슷한 질문을 여럿 받았지만, 이번이 가장 상황이 좋아 봅입니다. 흔히 말하는 데이터 분석 또는 머신러닝을 배우고 적용하는에 필요한 3가지 중에 최소 2가지를 이미 갖췄습니다. 이미 회사에 속했기 때문에 도메인/비즈니스 지식과 데이터가..
데이터 과학자를 위한 윤리/행동강령 (Code of Confuct) 최근 데이터 과학자의 직업윤리에 관심을 갖기 시작했습니다. 나름 회사에서 10년 넘게 데이터를 다뤄왔고 대학, 대학원을 포함하면 20년의 세월을 데이터 속에서 살아왔지만 최근처럼 강하게 직업윤리를 고민했던 적은 없습니다. 주변에 일어나는 이상한 일들, 데이터와 알고리즘을 잘 알고 있는 사람부터 그저 최종 수치만 보고 받는 사람에 이르기까지 데이터와 그 결과 수치를 다루는 방식에 의문을 갖었습니다. 어떤 직업이든 그 직업을 행함에 있어서 윤리와 행동을 제한, 정의한 행동강령/윤리강령이 있을 거라는 생각이 들었습니다. 대표적으로 히포크라테스 선서로 알려진 의료 윤리강령이 유명합니다. 비슷하게 데이터 과학자를 위한 윤리강령도 어딘가에, 누군가에 의해 정리됐을 거라고 생각해서 찾아봤습니다. 윤리강령/행동강령이 ..
워드 임베딩과 팩토라이제이션, 그리고 개인화 Word Embedding, Factorization, and Personalization 여러 가지 개념이 혼재돼있습니다. 단어의 원래 뜻과 다르게 해석한 여지가 있습니다. 이 글에서 설명한 것이 절대적으로 맞다고 생각하면 위험합니다. 저는 제게 필요한 것으로 아전인수격으로 정의, 사용했을 개연성이 높음을 미리 경고합니다. 한글화된 용어를 별로 좋아하지 않지만 필요에 따라서 (국내에서 통상적으로 사용하는 경우) 일부 용어는 한글화했습니다. 2017년은 나름 공부하는 해로 정하고 그동안 미뤄놨던 논문들을 읽기 시작했습니다. 벌써 4주차가 됐는데도 여전히 논문을 읽고 있으니 지금의 흐름은 나름 오래 갈 것 같습니다. 한동안은 업무에 필요하거나 주목받은 논문 한두편을 짧게 읽은 적은 있지만, 연구실에 있을 ..
'데이터 사이언스' 다시 생각하기 데이터 과학 Data Science 또는 데이터 과학자 Data Scientist에 대해서 검색해보면 아래의 다이어그램 또는 비슷한 설명을 필히 보게 된다. 데이터 과학자는 프로그래밍 능력과 수학과 통계에 대한 지식과 도메인/비즈니스에 대한 이해가 있어야 한다는 내용이다. 물론 이 세가지 영역에서 모두 또는 특정 영역에서 확연히 뛰어나면 좋겠지만 전문 개발자들보다 프로그래밍에 능할 수 없고 수학만 파고든 사람들이나 한 분야에서 수년간의 경험을 쌓은 이들보다 더 뛰어날 수가 없다. 그러나 이 세분야에서 고른 지적 능력을 가져야 함을 부인할 수 없다. 데이터 과학에 대해서 더 자세히 알고 싶은 이들은 다음의 Quora 쓰레드를 참조하면 된다. https://www.quora.com/What-is-a-data..