본문 바로가기

전체 글

(1181)
라떼의 텍스트 마이닝 Text Mining for Dummy 텍스트 마이닝이란 표현도 이젠 좀 올드해 보인다. NLP는 이미 수십 년 전부터 있던 건데 여전히 유효하고 딥러닝 이후 더 중요해졌다. 랭귀지 모델이란 용어는 언제부터 사용된 걸까? 어쨌든 요즘 자연어 연구의 방법은 다소 획일화된 듯하다. 일단 단어를 Word2Vec이나 GloVe 등으로 워드 임베딩을 하고, 이를 문장 (등의) 단위로 연결해서 RNN 또는 이후 등장한 여러 딥러닝 기반 모델에 넣으면 그냥 끝난다. 자연어처리와는 다소 무관한 경력을 쌓긴 했지만 그래도 키워드와 텍스트는 늘 조금씩 다뤄왔기에 전통적인 텍스트 마이닝 기법들을 정리, 소개하려 한다. 최근에 입문한 분들은 요즘 방식이 더 친숙하겠지만, 과거의 방식에서 여전히 유효한 것들이 많으니 참고 삼아 읽으면 보면 좋을 거다. 텍스트 마이닝..
미래의 데이터 과학자 인턴 파투 이후로 준비했던 과제를 직접 구현해서 실험해야 했다. 전에도 적었지만 데이터 과학자로서 나의 결정적인 단점은 프로그래밍에 능하지도 않고 즐기지도 않는다는 거다. 잘하지 못하니 즐기지 않는 것인지 아니면 즐기지 않으니 잘하지 못하는 것인지는 구분하기 어려우나 현재는 잘하지도 못하고 즐기지도 못한다. 평소에는 여러 문제 상황에서 머리로만 검토해서 해결 방법을 제시하거나 필요한 데이터만 간단히 SQL과 엑셀 잡으로 분석하고, 더 정교한 실험이나 프로덕션은 더 잘하는 담당자에게 넘겨주면 된다. 그럼에도 1년에 한두 번 꼴로 직접 더 복잡한 프로그램을 코딩해야 할 때가 가끔 있다. 모두 바빠서 손이 없을 때도 있고 이전 업무와는 결이 다른 POC 작업일 때도 있고 아주 가끔은 아직 서비스와는 조금 먼 ..
데이터 과학자의 글쓰기 글쓰기 테크닉에 관한 글이 아니다. 내가 글을 수려하게 잘 적는다는 의미도 아니다. 그냥 데이터 과학자를 포함한 모든 지식 노동자는, 아니 누구나 평소에 글 적는 걸 즐기고 연습해야 한다는 취지다. 생각은 글로 표현되고 글에서 행동이 나온다. 여름 인턴 멘토링을 준비하면서 멘티들에게 책을 추천, 선물하는 과정이 있었다. 정리 문서에 '개발자의 글쓰기'란 책이 중복 추천되는 걸 봤다. 팀의 다른 멘토가 이 책을 언급했지만 다른 개발자들도 글쓰기의 필요성과 중요성에 공감하고 있는 듯하다. 물론 해당 책은 개발자들이 주로 다루는 네이밍 방식, 소스 코드나 커밋 로그에 주석이나 릴리즈 노트 적는 법, 위키나 지라 작성 법, 제안서 적기 등 Technical Writing을 다루기는 하지만, 적어도 개발자에게 글..
데이터 과학자의 생각법 원래는 지난 면접들을 통해서 '얘네들이 아직은 데이터 문제를 해결하는 프로세스 또는 프랙티스가 약하구나'라는 발견에 기반해서 '데이터 문제 해결하기'라는 글을 적으려 했었다. 그런데 이미 달고나 초기에 '데이터 문제 해결 프로세스' (https://brunch.co.kr/@jejugrapher/219)라는 글을 적었다는 깨달았다. 그럼에도 생각은 늘 상황에 따라서 바뀌는 거라서 지난 인터뷰에서 느낀 감정과 생각으로-- 1~2주를 쉰 후에 -- 같지만 다른 글을 적어야겠다고 마음먹었는데, 지난밤에 우연히 봤던 글을 함께 공유하면 좋을 것 같아서 짧게 적는다. 인터뷰에서 느꼈던 감정은 큰 부분이 결국 생각하는 방법에 관한 거였다. 요즘 데이터 과학이나 ML 개발자를 하겠다는 친구들의 스킬은 분명 내가 그네들..
좋은 데이터 과학자란? 인턴십 인터뷰가 거의 끝나갈 무렵 현타가 왔다. 지원자에 대한 나의 평가는 온당한가?라는 의문이 문득 들었다. 아무리 객관적이려고 해도 평가라는 게 완전한 객관성을 담보할 수 없다. 나는 괜찮게 봤는데 다른 면접관들은 별로라고 한다. 그 반대의 경우도 흔하다. 모두가 좋다고 하거나 모두가 아니다고 하는 경우는 마음이 편한데, 의견이 엇갈리면 심적으로 미묘한 갈등이 생긴다. 내 돈으로 월급을 준다거나 직급이라도 있어서 내가 책임질 수 있으면 내 주장을 더 강하게 내세우겠지만, 그렇지 않기 때문에 의견을 포기하는 경우가 흔하다. 나를 아는 또는 같이 면접에 들어간 이들이 이걸 보면 동의하지 않을지도 모르겠으나 누군가 이 지원자를 합격시켜야 한다고 했을 때 탈락 의견을 내지도 않았고, 탈락시키려는 걸 굳이 합..
(인터뷰에서) 갑이 되어라 여름 인턴십 면접이 이어지고 있다. 다양한 지원자들을 보면서 면접관들로부터 어떤 평가를 받는 것이 지원자에게 가장 치명적일까?를 생각해봤다. 최근 인터뷰 탈락 이유를 알려줘야 한다는 취지의 법제화도 논의되고 있는데, 만약 이런 법이 이뤄지고 탈락자가 자신의 탈락 이유를 받아봤을 때 어떤 평가가 가장 치명적일까? 바로 지난 글에서도 적었지만 기술적인 부족함보다 태도나 인성적인 평가가 더 치명적일 거라 생각한다. 실력이 부족하다거나 기대치에 못 미친다는 평가는 냉정하게 생각하면 탈락자도 수긍할 수 있다. 면접관들이 대체로 정확하고 면접에서 특별한 실수가 없는데도 '실력 부족'이라고 하면 객관적으로 실력이 부족하거나 면접관들이 지원자에게 갖은 기대치가 더 높았다는 걸 의미한다. 면접관들이 실수했을 수도 있지만..
태도가 실력이다 (인터뷰) 독자들에게는 다소 미안하지만 '달고나' 카테고리에 최근에는 인터뷰 관련해서 글을 더 자주 올리고 있다. 특정 데이터 분석 또는 머신러닝 기술/알고리즘에 대한 소개나 설명은 이미 다른 레퍼런스가 많기에 굳이 내가 더 자세히 적을 필요가 적다. 때론 나만의 다른 관점으로 알고리즘을 해석하는 경우도 있겠지만, 기술적인 내용을 원한다면 다른 자료를 참고하기 바란다. 이 분야에서 커리어를 시작하는 이들에게 특정 기술을 하나 더 소개해주는 것보단 관련 업계에 어떻게 진입할 수 있는지에 관한 조금의 힌트를 주는 게 더 나을 수도 있다는 판단에서다. 어떤 기술은 궁할 때 찾아보면 된다. 늘 이직이 잦은 업계에서 일하다 보니 최근 인터뷰에 자주 들어가게 되고, 특히 이번 주는 하계 인턴 채용을 위한 면접이 꽉 차있다. ..
이 광고가 왜 내게? 한 달 동안 글이 없어서 이번에는 수많은 광고들 중에서 왜 이 광고가 지금 내게 노출됐고 또는 어떤 광고는 노출되지 않았는지에 관해서 가볍게 적는다. 기술적으로 어떤 과정을 거치고 어떤 알고리즘이 적용됐는지는 배제하고 적당히 상식선에서의 광고가 선택되는 이유를 적는다. (더 자세한 기술적인 얘기는 이전 글 참조. https://brunch.co.kr/@jejugrapher/216) 회사마다 광고 랭킹 로직은 다소 차이가 있지만 가장 공통적이고 기본이 되는 것은 eCPM이다. eCPM에 관해서는 언젠가 다시 다룰 기회가 있을 거고, 오늘은 정성적인 내용을 다룬다. 평소 인터넷 사용자로서 왜 이 광고가 지금 노출됐을까?를 궁금했던 분들의 이해를 돕기 위한 글이다. 복잡/자세한 건 모두 배제하고 개념적으로 설..