본문 바로가기

데이터 과학

(13)
데이터 분석의 비기술적 측면 회사에서 미션 중 하나는 팀 소속 주니어 분석가들의 역량을 강화하는 거다. 한동안 어떤 프로그램으로 어떻게 운영할지를 많이 고민했지만, 그들의 현재 상태를 파악하는 게 우선이었다. 그래서 공개된 데이터를 각자의 방식대로 분석한 결과를 정리해서 제출하게 했다. 30여 개의 결과 자료를 보면서 생각이 많아졌다. 여러 자료에서 공통된 부분도 있고, 나름 독특한 관점으로 데이터에 접근한 것도 있었다. 결론부터 말하면 기대치를 충분히 만족시킨 건 없었다. 기술적인 부분(technical skills)은 대부분 나보다 오히려 낫지만 분석이라는 게 기술만으로 완성되지 않는다. 이전 면접 과제 글에서도 적었듯이 데이터 과학자들의 모델 학습을 위한 분석은 정형화된 EDA 과정을 거치면 다소 해결되지만, 사람들을 위한 분..
데이터 분석가를 위한 면접과제 이전 글 ‘면접과제의 기대와 현실 https://brunch.co.kr/@jejugrapher/258'은 엄밀히 말해서 데이터 과학자를 위한 면접과제를 설명한 거다. 데이터 분석과 데이터 과학이 다르다고 생각하지 않았는데, 최근 다른 일 때문에 찾아보니 데이터 분석은 그 자체로 완결된 태스크로써 데이터에서 인사이트를 찾아서 사람에게 전달하는 것인 반면 데이터 과학은 자동화를 위한 모델을 만드는 과정으로써 데이터 분석을 이용해서 결과물을 기계 (모델)에 전달하는 것으로 구분해서 사용하고 있었다. 그런 측면에서 ‘기대와 현실’ 글에선 EDA로 명시한 데이터 분석 과정이 매우 평면적이었고, 그 정도의 기초 역량만을 보면 됐다. 즉, 데이터를 불러와서 분포를 확인한다거나 결측치나 아웃라이어를 찾아서 제거 또는 ..
데이터감(感)을 갖자 대기업의 연말은 임원 인사와 조직 개편으로 언제나 분주하다. 대화도 몇 번 못했지만 수년간 팀을 이끌던 전무님이 갑작스럽게 퇴사하시고 옆 랩의 랩장은 외국 주재원으로 발령이 나면서 팀 소속 두 개의 랩 간의 경계를 허물고 — 원래 같은 팀이었지만 — 하나의 팀으로 합쳐졌다. 그리고 남은 랩장이 새로운 팀장으로 내정되는 과정이 순식간에 지나갔다. 어느 이른 저녁에 신규 팀장님이 지나가다가 — 신생 팀에 주니어 분석가들이 많아서 — ‘B님, 데이터 분석 역량을 강화하려면 어떻게 해야 해요?’라는 물음을 남겼다. 짧은 시간이지만 생각했던 것들과 나름 정리한 커리큘럼은 기회가 되면 다음에 공유하고 오늘은 그사이 고민 중에 계속 꼬리에 꼬리를 문 생각인 데이터감에 관해서 적는다. 비슷한 용어가 있는지 모르겠으나 ..
최적화 알고리즘 누군가 '인생은 속도보다 방향이 중요하다'라고 말하면 이과생이 등장해서 '속도는 벡터로 이미 방향을 포함한 값이므로 속도가 아니라 속력이다'라고 정정할 거다. 정의상 속도는 힘의 방향과 힘의 크기가 결합된 벡터, 즉 '속도 = 방향 + 속력'이다. 늦더라도 언젠가는 원하는 목표를 이루는 사람들을 보면 인생에서 방향이 중요한 듯하다가도 속력이 크면 더 빨리 성공하거나 실패하더라도 아직 젊으니 새로운 도전을 할 수 있어 속력이 더 중요한 듯하기도 하다. 사람마다 가치관과 방식이 모두 다르니 방향이니 속력이니 하는 논쟁은 각자의 사정에 맞게 잘 조절하면 된다. 어쨌든 인생에서 방향과 속력이 모두 중요하듯이 최적화도 방향과 속력이 중요하다. 머신러닝 모델을 최적화하는 방법은 "An Overview of Grad..
SOTA와 휴리스틱 매우 다양한 사람들이 데이터 과학이나 기계학습에 참여하고 있다. 그 다양성을 모두 나열할 수 없지만 아주 단순화해서 양 극단의 두 부류의 데이터 과학자가 있다. 많은 문제를 감으로 해결하려는 휴리스틱파와 무조건 최고의 알고리즘을 사용해야 한다는 소타파가 있다. 쉽게 예상하듯이 나는 휴리스틱파 쪽이다. Beyesian vs Frequentist 논쟁도 아니고, 어느 쪽이 낫다/맞다를 논하려는 건 아니다. 휴리스틱 Heuristic은 '복잡하고 불확실한 상황에서 문제를 가능한 한 빨리 해결하기 위해 쓰는 직관적 판단 또는 추론' 정도로 정의한다. 어떤 사전은 '주먹구구식 셈법'이라고 소개하기도 했지만 본 글의 취지와는 맞지 않아 보인다. 어쨌든 복잡하고 불확실한 상황에서 명확한 답을 찾기 어려울 때 상황적 ..
라떼의 텍스트 마이닝 Text Mining for Dummy 텍스트 마이닝이란 표현도 이젠 좀 올드해 보인다. NLP는 이미 수십 년 전부터 있던 건데 여전히 유효하고 딥러닝 이후 더 중요해졌다. 랭귀지 모델이란 용어는 언제부터 사용된 걸까? 어쨌든 요즘 자연어 연구의 방법은 다소 획일화된 듯하다. 일단 단어를 Word2Vec이나 GloVe 등으로 워드 임베딩을 하고, 이를 문장 (등의) 단위로 연결해서 RNN 또는 이후 등장한 여러 딥러닝 기반 모델에 넣으면 그냥 끝난다. 자연어처리와는 다소 무관한 경력을 쌓긴 했지만 그래도 키워드와 텍스트는 늘 조금씩 다뤄왔기에 전통적인 텍스트 마이닝 기법들을 정리, 소개하려 한다. 최근에 입문한 분들은 요즘 방식이 더 친숙하겠지만, 과거의 방식에서 여전히 유효한 것들이 많으니 참고 삼아 읽으면 보면 좋을 거다. 텍스트 마이닝..
파알못의 데이터 과학을 위한 파이썬 라이브러리 올해 초에 가천대학교 최성철 교수가 ‘데이터 과학을 위한 파이썬 프로그래밍’이란 책을 냈다. 아직 오프라인에서 만나진 못했지만, 옆 연구실에서 함께 한 대학원 후배의 책이기에, 그리고 제목이 ‘이건 네가 찾던 바로 그거야’라고 어필해서 책을 구입했다. (물론 회사의 도서구입비로…) 이 글은 저 책에서 내가 바랐던 점, 그래서 가장 실망했던 점 때문에 적는다. 좀 더 일찍 적었거나 아니면 다른 경로로 저자에게 피드백을 줬어야 하는 부분이다. 어쩌면 저자가 이미 새 책을 준비하고 있을지도 모르니 빠른 시일 내에 두 번째 책이 나오길 바란다. (압박이다.) 나는 파이썬을 잘 모른다. 소위 파알못이다. 취직 전에 2000년대 후반부터 학교 서점에 파이썬을 소개한 책들이 많이 진열돼있었다. 프로그래밍에 별로 흥미..
데이터 과학자를 준비하는 이들에게 주는 실질적 조언 Practical Advices for Future Data Scientists 전공자에게도 다소 도움은 되겠지만 비전공자를 위한 글이다. 이미 데이터 과학자를 양성하는 커리큘럼/학과 (수학, 통계, 컴공/컴사, 폭을 넓히면 산공, 전자 등)에서 공부하는 재학생이나 졸업생, 또는 그런 학과로 진학을 모색하는 고등학생을 위한 글이 아니란 의미다. 정식으로 데이터 과학 과정을 이수하지 못한 비전공자들, 특히 이미 졸업해서 (동영상 강의 외에) 관련 학과 수업도 듣기 어려운 이들을 위한 글이다. 주변 도움과 조언 없이 데이터 과학자가 되려니 어떻게 준비해야 할지 막막해하는 이들을 위한 주제넘은, 그렇지만 현실적이고 실질적인 조언을 적는다. 다소 무리한 조언일 수도 있지만, 반드시 이루겠다는 의지가 있다면 그리..