DM ML AD (131) 썸네일형 리스트형 데이터 과학자와 머신러닝 개발자 별로 대수롭지 않은 주제지만 타임라인에 왕왕 등장해서 그냥 짧게 적는다. 평소에 나는 데이터 과학자 (Data Scientist)인지 아니면 머신러닝 개발자 (ML Enginerr)인지를 궁금해한 적이 별로 없었다. 데이터 과학자가 머신러닝 개발자인 듯하고 머신러닝 개발자가 데이터 과학자인 듯하고 그게그거라 생각했다. 데이터 과학을 오래 하다 보면 머신러닝 개발자가 돼있고 반대로 머신러닝 개발을 오래 하다 보면 자연스럽게 데이터 과학자가 돼있다고 본다. 그럼에도 굳이 구분을 해야 하는 걸까? 데이터 과학자든 머신러닝 개발자든 공통적으로 수학 지식, 프로그래밍 스킬, 그리고 도메인 이해가 필요하다. 이것에 이견을 갖는 사람은 거의 없을 거다. 기본 기술 세트가 같으니 '데이터 과학자 = 머신러닝 개발자'인.. 라떼의 텍스트 마이닝 Text Mining for Dummy 텍스트 마이닝이란 표현도 이젠 좀 올드해 보인다. NLP는 이미 수십 년 전부터 있던 건데 여전히 유효하고 딥러닝 이후 더 중요해졌다. 랭귀지 모델이란 용어는 언제부터 사용된 걸까? 어쨌든 요즘 자연어 연구의 방법은 다소 획일화된 듯하다. 일단 단어를 Word2Vec이나 GloVe 등으로 워드 임베딩을 하고, 이를 문장 (등의) 단위로 연결해서 RNN 또는 이후 등장한 여러 딥러닝 기반 모델에 넣으면 그냥 끝난다. 자연어처리와는 다소 무관한 경력을 쌓긴 했지만 그래도 키워드와 텍스트는 늘 조금씩 다뤄왔기에 전통적인 텍스트 마이닝 기법들을 정리, 소개하려 한다. 최근에 입문한 분들은 요즘 방식이 더 친숙하겠지만, 과거의 방식에서 여전히 유효한 것들이 많으니 참고 삼아 읽으면 보면 좋을 거다. 텍스트 마이닝.. 미래의 데이터 과학자 인턴 파투 이후로 준비했던 과제를 직접 구현해서 실험해야 했다. 전에도 적었지만 데이터 과학자로서 나의 결정적인 단점은 프로그래밍에 능하지도 않고 즐기지도 않는다는 거다. 잘하지 못하니 즐기지 않는 것인지 아니면 즐기지 않으니 잘하지 못하는 것인지는 구분하기 어려우나 현재는 잘하지도 못하고 즐기지도 못한다. 평소에는 여러 문제 상황에서 머리로만 검토해서 해결 방법을 제시하거나 필요한 데이터만 간단히 SQL과 엑셀 잡으로 분석하고, 더 정교한 실험이나 프로덕션은 더 잘하는 담당자에게 넘겨주면 된다. 그럼에도 1년에 한두 번 꼴로 직접 더 복잡한 프로그램을 코딩해야 할 때가 가끔 있다. 모두 바빠서 손이 없을 때도 있고 이전 업무와는 결이 다른 POC 작업일 때도 있고 아주 가끔은 아직 서비스와는 조금 먼 .. 데이터 과학자의 글쓰기 글쓰기 테크닉에 관한 글이 아니다. 내가 글을 수려하게 잘 적는다는 의미도 아니다. 그냥 데이터 과학자를 포함한 모든 지식 노동자는, 아니 누구나 평소에 글 적는 걸 즐기고 연습해야 한다는 취지다. 생각은 글로 표현되고 글에서 행동이 나온다. 여름 인턴 멘토링을 준비하면서 멘티들에게 책을 추천, 선물하는 과정이 있었다. 정리 문서에 '개발자의 글쓰기'란 책이 중복 추천되는 걸 봤다. 팀의 다른 멘토가 이 책을 언급했지만 다른 개발자들도 글쓰기의 필요성과 중요성에 공감하고 있는 듯하다. 물론 해당 책은 개발자들이 주로 다루는 네이밍 방식, 소스 코드나 커밋 로그에 주석이나 릴리즈 노트 적는 법, 위키나 지라 작성 법, 제안서 적기 등 Technical Writing을 다루기는 하지만, 적어도 개발자에게 글.. 데이터 과학자의 생각법 원래는 지난 면접들을 통해서 '얘네들이 아직은 데이터 문제를 해결하는 프로세스 또는 프랙티스가 약하구나'라는 발견에 기반해서 '데이터 문제 해결하기'라는 글을 적으려 했었다. 그런데 이미 달고나 초기에 '데이터 문제 해결 프로세스' (https://brunch.co.kr/@jejugrapher/219)라는 글을 적었다는 깨달았다. 그럼에도 생각은 늘 상황에 따라서 바뀌는 거라서 지난 인터뷰에서 느낀 감정과 생각으로-- 1~2주를 쉰 후에 -- 같지만 다른 글을 적어야겠다고 마음먹었는데, 지난밤에 우연히 봤던 글을 함께 공유하면 좋을 것 같아서 짧게 적는다. 인터뷰에서 느꼈던 감정은 큰 부분이 결국 생각하는 방법에 관한 거였다. 요즘 데이터 과학이나 ML 개발자를 하겠다는 친구들의 스킬은 분명 내가 그네들.. 좋은 데이터 과학자란? 인턴십 인터뷰가 거의 끝나갈 무렵 현타가 왔다. 지원자에 대한 나의 평가는 온당한가?라는 의문이 문득 들었다. 아무리 객관적이려고 해도 평가라는 게 완전한 객관성을 담보할 수 없다. 나는 괜찮게 봤는데 다른 면접관들은 별로라고 한다. 그 반대의 경우도 흔하다. 모두가 좋다고 하거나 모두가 아니다고 하는 경우는 마음이 편한데, 의견이 엇갈리면 심적으로 미묘한 갈등이 생긴다. 내 돈으로 월급을 준다거나 직급이라도 있어서 내가 책임질 수 있으면 내 주장을 더 강하게 내세우겠지만, 그렇지 않기 때문에 의견을 포기하는 경우가 흔하다. 나를 아는 또는 같이 면접에 들어간 이들이 이걸 보면 동의하지 않을지도 모르겠으나 누군가 이 지원자를 합격시켜야 한다고 했을 때 탈락 의견을 내지도 않았고, 탈락시키려는 걸 굳이 합.. (인터뷰에서) 갑이 되어라 여름 인턴십 면접이 이어지고 있다. 다양한 지원자들을 보면서 면접관들로부터 어떤 평가를 받는 것이 지원자에게 가장 치명적일까?를 생각해봤다. 최근 인터뷰 탈락 이유를 알려줘야 한다는 취지의 법제화도 논의되고 있는데, 만약 이런 법이 이뤄지고 탈락자가 자신의 탈락 이유를 받아봤을 때 어떤 평가가 가장 치명적일까? 바로 지난 글에서도 적었지만 기술적인 부족함보다 태도나 인성적인 평가가 더 치명적일 거라 생각한다. 실력이 부족하다거나 기대치에 못 미친다는 평가는 냉정하게 생각하면 탈락자도 수긍할 수 있다. 면접관들이 대체로 정확하고 면접에서 특별한 실수가 없는데도 '실력 부족'이라고 하면 객관적으로 실력이 부족하거나 면접관들이 지원자에게 갖은 기대치가 더 높았다는 걸 의미한다. 면접관들이 실수했을 수도 있지만.. 태도가 실력이다 (인터뷰) 독자들에게는 다소 미안하지만 '달고나' 카테고리에 최근에는 인터뷰 관련해서 글을 더 자주 올리고 있다. 특정 데이터 분석 또는 머신러닝 기술/알고리즘에 대한 소개나 설명은 이미 다른 레퍼런스가 많기에 굳이 내가 더 자세히 적을 필요가 적다. 때론 나만의 다른 관점으로 알고리즘을 해석하는 경우도 있겠지만, 기술적인 내용을 원한다면 다른 자료를 참고하기 바란다. 이 분야에서 커리어를 시작하는 이들에게 특정 기술을 하나 더 소개해주는 것보단 관련 업계에 어떻게 진입할 수 있는지에 관한 조금의 힌트를 주는 게 더 나을 수도 있다는 판단에서다. 어떤 기술은 궁할 때 찾아보면 된다. 늘 이직이 잦은 업계에서 일하다 보니 최근 인터뷰에 자주 들어가게 되고, 특히 이번 주는 하계 인턴 채용을 위한 면접이 꽉 차있다. .. 이전 1 ··· 3 4 5 6 7 8 9 ··· 17 다음