본문 바로가기

Messages from Bahn

(1184)
전환 예측은 왜 어려운가? 달고나 19에서 불확실성이 과금 방식의 변화를 이끌었다고 설명했다. 광고주의 불확실성을 해소하기 위해서 전환 중심의 광고가 나올 수밖에 없지만, 플랫폼은 오히려 확실한 트래픽에서 불확실한 전환으로 전이됨으로써 큰 공경에 빠질 수 있다. 만약 플랫폼이 전환을 정확하게 예측할 수 있다면 광고주의 불확실성과 플랫폼의 불확실성을 모두 해소할 수 있다. 하지만 정확한 전환 예측이 어렵기 때문에 문제다. (노출 후) 클릭 (CTR)은 거의 정확히 예측하고 있으니 개념적으로 보면 (클릭 후) 전환 (CVR)도 쉽게 예측할 수 있으리라 오인할 수 있다. 이 글에선 왜 전환 예측이 어려운지 대략적으로 설명한다. 2018년도 If Kakao에서 발표한 슬라이드를 가져왔다. (참고로 상단의 Imp/Click/Conv 그림은..
어떤 유튜브 채널을 보면서 느낌 단상 다른 곳에 생각나는 대로 그냥 적은 글을 가져옴. === 최근에 본 조금 흥미로운 유튜브 채널 중에 하나는 MBC(?)에서 운영하는 '오느른'이란 채널이다. - https://www.youtube.com/channel/UCqOmWSVk2LChbt15-Ie2tiw 이걸 MBC에서 운영한다고는 적었지만 MBC 소속의 한 PD가 전북 김제에 폐가/농가를 구입해서 고쳐서 사는 모습을 vlog로 담은 채널이다. MBC에서 기획한 것도 아니고 순전히 PD 개인이 구입한 건데 처음엔 고치는 과정을 vlog로 찍어서 올리겠다는 회사에 허락을 받고 주말에만 내려갔는데 어느 순간부터 구독자가 늘어나면서 그리고 수리 비용이 늘어나면서 서울 전셋집을 빼서 수리비에 보태고 회사에서는 소속을 바꾸고 그냥 김제에 눌어붙어살면서 v..
2020년 카드 사용 내역 정리 아침에 연말 정산을 했습니다. 예전보다 점점 더 편해집니다. 국세청에서 서류를 다운로드하고, 기부금 영수증은 사진으로 찍어서 시스템에 등록하면 끝납니다. 교회 헌금 (십일조)를 시골 고향 교회로 보내기 때문에 정산 철이 되면 매번 전화해서 왜 빨리 안 보냈냐고 성화였는데, 이젠 그냥 사진 파일로 받아서 그걸 첨부하기만 하면 됩니다. 예전에는 작성한 서류로 모두 프린트해서 사인 또는 도장으로 서명해서 제출했는데, 이젠 그런 불필요한 작업을 하지 않아서 더 편해졌습니다. 이렇게 우리 삶은 온라인에서 편해지고 있는데 여전히 불편한 곳도 많습니다. 늘 연망 정산을 할 때면 지난 1년 동안 사용한 카드 내역을 정리하는 시간을 갖았습니다. 매번 카드를 사용할 때마다 아끼려고 노력하고 그리고 매달 카드값을 갚을 때마..
수비드 머신을 사다 Sous Vide 문득 수비드 (Sous Vide) 기계를 구입하고 싶어서 열흘간의 열병 후에 구입했다. 다른 사람들이 에어플라이어를 사는데 나는 수비드에 꽂혔다. 사람들이 공기라 할 때 나는 물이라 답한다. 갖고 싶다고 그냥 충동구매할 수도 없으니 사고 싶다는 욕구, 어떤 요리가 가능한지에 대한 궁금증, 그리고 산다면 어떤 걸 구매할지에 대한 결정 등의 복합적인 생각으로 열흘을 보냈다. 구매하고 싶다는 욕구가 든 그날 고향집으로 내려가서 4일 동안은 그저 갖고 싶다는 생각만 했을 뿐 자세히 조사하지 못했다. 그러면서 욕구는 더 커졌다. 그리고 주중을 무사히 보내고 주말을 보내면서 어차피 구매할 거니 그냥 구매하자고 마음먹었다. 하지만 결제까진 쉽지 않았다. 유명한 격언 '망설임은 배송만 늦춘다'는 진리다. 어차피 구매하..
논문읽기 My Style of Reading Papers 다른 분야도 비슷하겠지만 데이터 과학, 머신러닝 및 인공지능 관련 연구/업무를 하다 보면 논문을 읽어야 할 때가 종종 있다. 단순히 최신 동향이나 기술을 익히기 위함도 있지만, 새로운 분야, 문제, 데이터를 만날 때마다 기존의 지식, 경험, 휴리스틱만으론 부족하거나 해결하지 못하는 경우가 있다. 잘 정리된 텍스트북이 있으면 좋겠지만 업데이트/리비전에 시차가 있어서 최신 기술이나 문제를 다루지 못하는 경우도 많다. 뿐만 아니라 텍스트북은 그 분야 전체를 종합적으로 다루는 경향이 있어서 당장 알고 싶은 내용이 부실하거나 책의 여러 파트에 쪼개져 기술돼있어서 빠르게 기술을 습득하기 어렵기도 하다. 물론 처음부터 끝까지 완독 하면 좋겠지만... (ㅠㅠ) 어렴풋이 알고 있는 개념을 확인하기 위해서 예전에 읽은 책..
Exploration과 Multi-Armed Bandit 기계학습 (Machine Learning)의 최대 장점은 배운 대로 잘 한다는 점이다. 하지만 최대 단점은 배운 것만 잘 한다는 점이다. 즉 학습데이터가 커버하는 영역 내의 샘플은 잘 예측하는데, 영역 밖의 샘플은 보통 예측에서 많이 벗어난다. 학술 용어로 -- 학술 용어같지 않지만 -- Explorarion-Exploitation Tradeoff라 한다. 영어 사전에서 Exploration과 Exploitation을 찾아보면 탐험, 탐색, 개척, 개발 등으로거의 비슷하게 번역돼있고, 어떤 한글책에는 '탐험과 이용'이라고 표현한 것도 봤다. '탐험'은 맞는데 '이용'은 다소 부족한 느낌이다. 어쨌든 Exploitation (탐색?)은 우리가 알고 있는 영역 내를 샅샅이 훑어보는 조사라면, Explora..
내맘대로 알고리즘의 분류 Remark. 이 글은 이해를 돕기 위한 지극히 개인적인 관점에 의해 작성한 것이므로 일반화하지 말기 바람 개별 알고리즘의 상세한 설명은 다른 텍스트북이나 리소스를 참조하기 바람 일반적으로 기계학습 알고리즘은 크게 Unsupervised (비지도) 학습과 Supervised (지도) 학습으로 나뉜다. 최근에는 여기에 Reinforcement (강화) 학습을 추가해서 3개고 분류하는 경향이 있다. 좀 더 깊이 들어가면 정답 데이터 (Y)를 얻기 힘든 현실을 반영해서 Unsupervised와 Supervised의 특성을 결합한 Semi-supervised 학습이 추가될 수 있다. 정답은 아니지만 바람직한 방향으로 가이드하는 Reinforcement도 Supervised의 일종으로 봐야 한다는 게 저 개인의 ..
모델 복잡도 제어하기 무료하게 시간을 보내다 정신을 차리니 일요일 저녁이다. 1편에 이어 2편을 바로 적어야 할 것 같은 압박감에 급하게 적는다. 이 글은 모델 복잡도를 다루는 방법들을 종합/정리하는 차원에서 적기 때문에 개념적으로 설명한다. 개별 알고리즘의 상세 내용은 다른 레퍼런스를 참조하기 바란다. 작년에 팀에 새로 합류한 친구들과 약 스무 개의 모델 복잡도를 다루는 방법을 나열한 적이 있다. 모든 방법을 다 수긍한 것은 아니지만 일반적으로 활용하는 방법들은 대부분 정리된 듯하다. 당시에 논의했던 리스트는 지금 없어서 지금 당장 생각나는 방법들만 몇 개의 카테고리로 나눠서 적는다. 1편에서 적었듯이 모델 복잡도는 모델의 변수가 많고 차수가 높아서 복잡해지는 경우도 있고, 사용되는 데이터의 차원이 너무 크거나 데이터가 부..