본문 바로가기

DM ML AD

(131)
실험과 성능 비교 (랜덤은 정말 아니잖아요) 회사 아지트 (게시판)를 보다 보면 간혹 아래와 같이 실험 결과를 적은 글을 보게 된다. 데이터 분석이나 알고리즘 개발에 경험이 전무/부족한 기획자나 개발자들이 적은 경우가 많다. (때로는 악의적이고 의도적으로 이렇게 적는 사람들도 있다. 이런 사람은 조심해야 한다.) 랜덤 대비 50% 상승 놀랍게도 새로운 알고리즘의 성능을 랜덤과 비교해서 ‘우리는 잘 해요’라고 적고 있는 거다. 랜덤과 비교하는 것은 '그냥 뭐라도 했더니 효과가 있었어요’라고 말하는 것과 같다. 즉, 아무것도 모르는데 그냥 하니 효과는 있어요인 셈이다. 결국 뭘 했는지도 왜 효과가 있는지도 모른다는 얘기다. 개인적으로 알고리즘 — 이라 적고 휴리스틱이라 읽는 — 을 설계할 때 랜덤을 사용하는 걸 좋아하는 편이다. 이는 대조군을 랜덤으로..
파알못의 데이터 과학을 위한 파이썬 라이브러리 올해 초에 가천대학교 최성철 교수가 ‘데이터 과학을 위한 파이썬 프로그래밍’이란 책을 냈다. 아직 오프라인에서 만나진 못했지만, 옆 연구실에서 함께 한 대학원 후배의 책이기에, 그리고 제목이 ‘이건 네가 찾던 바로 그거야’라고 어필해서 책을 구입했다. (물론 회사의 도서구입비로…) 이 글은 저 책에서 내가 바랐던 점, 그래서 가장 실망했던 점 때문에 적는다. 좀 더 일찍 적었거나 아니면 다른 경로로 저자에게 피드백을 줬어야 하는 부분이다. 어쩌면 저자가 이미 새 책을 준비하고 있을지도 모르니 빠른 시일 내에 두 번째 책이 나오길 바란다. (압박이다.) 나는 파이썬을 잘 모른다. 소위 파알못이다. 취직 전에 2000년대 후반부터 학교 서점에 파이썬을 소개한 책들이 많이 진열돼있었다. 프로그래밍에 별로 흥미..
[상담] 데이터과학 대학원에 가고 싶은데 어떻게 하면 좋을까요? 아래처럼 (제가 요약한 것임) 현재 의용공학 4학년생의 고민글을 페메로 받았습니다. 원하는 바를 짧게 해결해줄 수는 없겠지만 나름 제 생각을 적겠습니다. 순전히 저의 개인적인 경험과 지식을 바탕으로 적는 글이니 각자의 상황에 맞게 취사선택하기 바랍니다. 의용공학과 4학년생입니다. 졸업과제로 질병 발생 예측 분석을 하면서 데이터과학에 관심을 갖게됐습니다. 확률통계는 수강했고 코딩은 원래 좋아해서 분석 프로그래밍에 별 어려움은 없습니다. 1년 정도 유급해서 통계, 분석 과목을 더 수강해서 학사 학점을 높여 대학원에 진학하고 싶습니다. 학교 경영학과에 데이터마이닝을 하는 연구실이 있다고 해서 알아보고 있고, 현재 학점으로 다른 학교 대학원에 진학할 수 있을지 의문입니다. 학교 내에 적당한 연구실/교수님이 없다..
데이터 과학자를 준비하는 이들에게 주는 실질적 조언 Practical Advices for Future Data Scientists 전공자에게도 다소 도움은 되겠지만 비전공자를 위한 글이다. 이미 데이터 과학자를 양성하는 커리큘럼/학과 (수학, 통계, 컴공/컴사, 폭을 넓히면 산공, 전자 등)에서 공부하는 재학생이나 졸업생, 또는 그런 학과로 진학을 모색하는 고등학생을 위한 글이 아니란 의미다. 정식으로 데이터 과학 과정을 이수하지 못한 비전공자들, 특히 이미 졸업해서 (동영상 강의 외에) 관련 학과 수업도 듣기 어려운 이들을 위한 글이다. 주변 도움과 조언 없이 데이터 과학자가 되려니 어떻게 준비해야 할지 막막해하는 이들을 위한 주제넘은, 그렇지만 현실적이고 실질적인 조언을 적는다. 다소 무리한 조언일 수도 있지만, 반드시 이루겠다는 의지가 있다면 그리..
과학적 방법과 실험 설계 과학 이론을 정립하는 과정/방법은 크게 반복되는 관찰을 일반화해서 이론을 만드는 귀납법과 사고실험으로 구축된 이론을 가설검증과 재현실험을 통해서 확인하는 연역법이 있다. 그래서 지난 글에서 과학 또는 과학적 방법은 재현성과 반복성에 있다고 적었다. 오늘은 실험에 대해서 좀더 자세히 적으려 한다. 가설검증에서 자주 등장하는 개념이 '통계적 유의성 significant'이다. 이는 관측된 데이터가 어떤 분포를 따른다고 가정했을 때 두 분포가 통계적으로 같지 않음을 확인한다. 흔히 정규분포 (가우시안분포, N)를 따른다고 가정하고 자주 들었던 p-value라는 게 등장한다. 최근 들어 p-value에 대한 회의론이 많기는 하지만 여전히 과학적 방법 또는 통계적 유의성을 판별하는데 p-value는 (강력한) 필..
[Q&A] 개발팀인데 데이터 분석으로 성과를 내야하는 미션이 떨어졌습니다. 어느 기업에서 컴공/전자과 출신 8명으로 구성된 개발팀에 있습니다. 모두 데이터 지식이 전무합니다. 1. 모두 비전공자라서 수식이 아닌 개념과 실습 위주로 스터디를 하려 합니다. 좋은 방법일까요 아니면 다른 방법을 추천해주세요. 2. 리더없이 스터디가 잘 진행될까요? 온라인 강의를 함께 듣고 토의하면서 공부할 수 있을까요? 3. 속성으로 공부해서 최소 POC 구현정도라도 소기의 성과를 낼 수 있을까요? 4. 판교에서 Q&A를 진행해주실 수 있나요? (평일) 진로를 고민하는 비슷한 질문을 여럿 받았지만, 이번이 가장 상황이 좋아 봅입니다. 흔히 말하는 데이터 분석 또는 머신러닝을 배우고 적용하는에 필요한 3가지 중에 최소 2가지를 이미 갖췄습니다. 이미 회사에 속했기 때문에 도메인/비즈니스 지식과 데이터가..
[애드테크] 전환율 (CVR) 예측은 왜 어려운가? 샤내 게시판에 적은 글을 가져옵니다. 이전 글들을 공개하지 않아서 맥락이 빠졌습니다. 광고 — 일반 추천에서도 마찬가지 — 에서 사용자의 반응을 예측하는 게 중요합니다. 구글의 검색광고 이후 거진 10년동안 클릭률 CTR 예측이 가장 중요했지만, 이후에는 전환율 CVR 예측이 더 중요해졌습니다. 클릭률은 노출 impression 대비 클릭량을 계산/예측하는 거고 전환율은 클릭 대비 전환량을 예측하는 것으로 기본적인 메카니즘은 똑같습니다. 그래서 같은 알고리즘으로 계산하면 끝날 것 같지만 전환율 예측은 그리 만만치가 않습니다. 아래에 기술한 것이 모두는 아니지만, 많은 부분을 설명합니다. 작년 9월에 있었던 IF 카카오에서 발표했던 슬라이드에서 전환예측이 어려운 이유를 설명한 것을 가져왔습니다. 1. 전환..
데이터 과학자를 위한 윤리/행동강령 (Code of Confuct) 최근 데이터 과학자의 직업윤리에 관심을 갖기 시작했습니다. 나름 회사에서 10년 넘게 데이터를 다뤄왔고 대학, 대학원을 포함하면 20년의 세월을 데이터 속에서 살아왔지만 최근처럼 강하게 직업윤리를 고민했던 적은 없습니다. 주변에 일어나는 이상한 일들, 데이터와 알고리즘을 잘 알고 있는 사람부터 그저 최종 수치만 보고 받는 사람에 이르기까지 데이터와 그 결과 수치를 다루는 방식에 의문을 갖었습니다. 어떤 직업이든 그 직업을 행함에 있어서 윤리와 행동을 제한, 정의한 행동강령/윤리강령이 있을 거라는 생각이 들었습니다. 대표적으로 히포크라테스 선서로 알려진 의료 윤리강령이 유명합니다. 비슷하게 데이터 과학자를 위한 윤리강령도 어딘가에, 누군가에 의해 정리됐을 거라고 생각해서 찾아봤습니다. 윤리강령/행동강령이 ..