본문 바로가기

DM ML AD

(135)
과학적 방법과 실험 설계 과학 이론을 정립하는 과정/방법은 크게 반복되는 관찰을 일반화해서 이론을 만드는 귀납법과 사고실험으로 구축된 이론을 가설검증과 재현실험을 통해서 확인하는 연역법이 있다. 그래서 지난 글에서 과학 또는 과학적 방법은 재현성과 반복성에 있다고 적었다. 오늘은 실험에 대해서 좀더 자세히 적으려 한다. 가설검증에서 자주 등장하는 개념이 '통계적 유의성 significant'이다. 이는 관측된 데이터가 어떤 분포를 따른다고 가정했을 때 두 분포가 통계적으로 같지 않음을 확인한다. 흔히 정규분포 (가우시안분포, N)를 따른다고 가정하고 자주 들었던 p-value라는 게 등장한다. 최근 들어 p-value에 대한 회의론이 많기는 하지만 여전히 과학적 방법 또는 통계적 유의성을 판별하는데 p-value는 (강력한) 필..
[Q&A] 개발팀인데 데이터 분석으로 성과를 내야하는 미션이 떨어졌습니다. 어느 기업에서 컴공/전자과 출신 8명으로 구성된 개발팀에 있습니다. 모두 데이터 지식이 전무합니다. 1. 모두 비전공자라서 수식이 아닌 개념과 실습 위주로 스터디를 하려 합니다. 좋은 방법일까요 아니면 다른 방법을 추천해주세요. 2. 리더없이 스터디가 잘 진행될까요? 온라인 강의를 함께 듣고 토의하면서 공부할 수 있을까요? 3. 속성으로 공부해서 최소 POC 구현정도라도 소기의 성과를 낼 수 있을까요? 4. 판교에서 Q&A를 진행해주실 수 있나요? (평일) 진로를 고민하는 비슷한 질문을 여럿 받았지만, 이번이 가장 상황이 좋아 봅입니다. 흔히 말하는 데이터 분석 또는 머신러닝을 배우고 적용하는에 필요한 3가지 중에 최소 2가지를 이미 갖췄습니다. 이미 회사에 속했기 때문에 도메인/비즈니스 지식과 데이터가..
[애드테크] 전환율 (CVR) 예측은 왜 어려운가? 샤내 게시판에 적은 글을 가져옵니다. 이전 글들을 공개하지 않아서 맥락이 빠졌습니다. 광고 — 일반 추천에서도 마찬가지 — 에서 사용자의 반응을 예측하는 게 중요합니다. 구글의 검색광고 이후 거진 10년동안 클릭률 CTR 예측이 가장 중요했지만, 이후에는 전환율 CVR 예측이 더 중요해졌습니다. 클릭률은 노출 impression 대비 클릭량을 계산/예측하는 거고 전환율은 클릭 대비 전환량을 예측하는 것으로 기본적인 메카니즘은 똑같습니다. 그래서 같은 알고리즘으로 계산하면 끝날 것 같지만 전환율 예측은 그리 만만치가 않습니다. 아래에 기술한 것이 모두는 아니지만, 많은 부분을 설명합니다. 작년 9월에 있었던 IF 카카오에서 발표했던 슬라이드에서 전환예측이 어려운 이유를 설명한 것을 가져왔습니다. 1. 전환..
데이터 과학자를 위한 윤리/행동강령 (Code of Confuct) 최근 데이터 과학자의 직업윤리에 관심을 갖기 시작했습니다. 나름 회사에서 10년 넘게 데이터를 다뤄왔고 대학, 대학원을 포함하면 20년의 세월을 데이터 속에서 살아왔지만 최근처럼 강하게 직업윤리를 고민했던 적은 없습니다. 주변에 일어나는 이상한 일들, 데이터와 알고리즘을 잘 알고 있는 사람부터 그저 최종 수치만 보고 받는 사람에 이르기까지 데이터와 그 결과 수치를 다루는 방식에 의문을 갖었습니다. 어떤 직업이든 그 직업을 행함에 있어서 윤리와 행동을 제한, 정의한 행동강령/윤리강령이 있을 거라는 생각이 들었습니다. 대표적으로 히포크라테스 선서로 알려진 의료 윤리강령이 유명합니다. 비슷하게 데이터 과학자를 위한 윤리강령도 어딘가에, 누군가에 의해 정리됐을 거라고 생각해서 찾아봤습니다. 윤리강령/행동강령이 ..
[진로 상담] 데이터 분석가를 꿈꾸는 러시아어 전공자입니다. 오랜만의 진로상담. 그리고 티스토리 포스팅.ㅎㅎ 질문 정리. 현재 러시아어를 전공하는 20대 중반입니다. 스타트업에 관심을 가져서 여러 컨퍼런스에 참가했는데 어떤 강연에서 데이터 사이언스라는 분야를 접한 후로, 직접 해보니 흥미가 있고 적성에 맞아서 데이터 분석가를 희망하며 컴퓨터공학을 복수전공으로 신청했습니다. 파이썬과 라이브러리를 이용한 기본 코딩은 가능한 수준입니다. 공모전에도 나가봤고 ADSP를 공부해서 자격증 시험도 봤습니다. 그런데, 러시아어 전공이 데이터 분석가로 일하는데 도움이 될까요? 기업체에서 데이터 분석 업무는 석사 학위 이상을 요구하는데 굳이 진학을 해야 하나요? 석사를 진학할 의사는 없는데 이를 대신할 다른 방법은 없는 걸까요? 실무자가 생각하기에 이 분야의 직업 (채용) 전망은 ..
인문계열 졸업생인데 데이터사이언스를 하고 싶어요. 올해 들어, 특히 판교로 이주한 후로 블로깅을 포함해서 외부 활동을 거의 못하고 있어서 하반기부터는 운신의 폭을 넓혀갈 계획이었는데, 마침 고민 상담이 들어와서 글을 적습니다. 점점 이런 글이 두려워지는데 내가 과연 바른 조언자인가에 대한 두려움, 그리고 각자가 가진 특수성을 무시하고 일반화된 얘기 또는 제 경험에 편향된 얘기를 할 것 같아서 두려움이 앞섭니다. 개인적 편향을 감안해서 읽어주셨으면 합니다. 더 복잡한 사정이 있겠지만, 질문 들어온 것만을 요약하면... ‘인문계열 (사범대) 졸업생으로 현재 스타트업에서 기획을 하고 있는데, 데이터사이언스를 하고 싶어요. 산업공학 대학원 진학도 염두에 두고 있지만, 현재 기초가 없어서 패스트캠퍼스의 데이터사이언스 과정도 고려하고 있어요.’ 정도입니다. 산업공..
딥러닝을 제대로 이해하기 위해서 필요한 배경지식맵 장면 1. 최근 카카오 광고 OBT를 시작하면서 'AI 기반의 광고 플랫폼'이라는 보도자료가 재생산됩니다. 광고 랭킹을 위해서 클러스터링, 베이지언 추론, 회귀분석, 톰슨샘플링 등의 다양한 머신러닝 기술을 활용하고 있지만, 일반인들이 생각하는 AI, 즉 딥러닝을 명시적으로 활용하고 있지는 않습니다. (참고. 카카오 AI 리포트글 참조 https://brunch.co.kr/@kakao-it/84) 그런데 저런 류의 기사들이 양산되는 것이 부담이 돼서 내년에는 본격적으로 다양한 분야에 딥러닝 기술을 적용할 계획입니다. 그래서 파트 내에 딥러닝 기술에 대한 공통된 지식이 필요하다고 판단했고, 강의/공유를 위한 자료를 미리 만들어두면 좋겠다고 결론지었습니다.장면 2.페이스북 등에 AI 관련 다양한 커뮤니티/페이..
현재의 딥러닝을 가능케한 기술들 Deep Learning Breakthroughs 데이터 분석 및 알고리즘 개발을 업으로 하면서 딥러닝 Deep learning은 늘 관심의 대상이었다. 하지만 알고리즘을 실제 구현해보거나 여러 라이브러리를 이용해서 실제 문제에 적용하는 것을 시도하지 않았기에 그런 의미에서 딥러닝에 문외한이라 할 수도 있다. 그럼에도 -- 빅데이터 기술을 어느 순간부터 결국 업에 적용했던 때와 같이 -- 딥러닝 기술도 언젠가는 내가 담당하는 업에 적용해야할 때가 올 것을 알았기에 알고리즘의 기본 지식을 공부하거나 딥러닝 발전의 주요 논문을 빼놓지는 않고 찾아보곤 했다. 딥러닝의 가능성이 일반에 알려지기 시작한 2013년도부터 계속 지켜봐왔기에 딥러닝 전문가는 아니지만 딥러닝의 발전 과정을 어느 정도 꿰뚫고 있다고 생각하기에 어떤 기술들이 현재의 딥러닝을 가능케했는지를 ..