본문 바로가기

DM ML AD

(131)
온라인 A/B 테스트 새로운 알고리즘/모델을 실 서비스에 적용하기 전에 다각도로 실험을 반복해서 검증하고 확인하는 게 중요하다. 과거의 이력 (LOG) 데이터로 오프라인 테스트를 통과하면 다시 서비스 적용 전에 온라인 테스트를 거친다. 오프라인 테스트는 모델 자체의 적합도를 검증하는 과정과 이를 통한 서비스의 성능 (e.g., 광고에서는 CTR이나 매출 등)을 시뮬레이션하는 과정으로 나뉜다. 모델 적합도 검사는 보통의 데이터 과학에서 수행하는 학습과 검증/테스트 데이터를 분리해서 강건하고 정확한 모델을 구축하는 것이고, 성능 시뮬레이션은 가상의 환경에서 LOG를 replay 하며 신규 모델이 기존보다 더 나은지를 체크한다. 오프라인 시뮬레이션은 많은 제약이 있다. 실제 환경을 완벽하게 모사하지 못할 뿐만 아니라, LOG 기록..
학습, 테스트 그리고 추론 멘티의 인턴 과제는 도달수 (Reach)를 예측하는 모델의 개선이었다. 도달수 예측이란 광고주가 설정한 타게팅 조건과 일 예산에 따른 광고가 노출될 유니크 사용자수를 추정하는 거다. 타게팅 모수는 타게팅 조건에 부합하는 모든 사용자의 규모를 알려주는 정적인 수치임에 반해, 도달수는 실제 광고를 본 사용자수를 의미하며 광고가 전달되는 환경에 따른 동적인 수치다 (도달수
데이터 과학자의 발표 자료 지난 금요일, 인턴들이 과제를 수행한 결과를 발표했다. 멘티가 발표 준비하는 걸 가이드하고 또 다른 인턴들의 발표를 들으면서 발표자료를 만드는 것에 관해서 짧게 적어야겠다고 마음먹었다. 하수-중수-고수, 초보자-중급자-전문가 등 여러 방식으로 어떤 기술(자)의 등급을 매길 수 있다. 데이터 과학자도 비슷하게 상중하를 굳이 나눌 수 있지만, 다른 관점에서 역량과 역할이 바뀜에 따라서 ‘분석 - 해석 - 소통’으로 등급을 나눌 수 있다고 생각한다. 소통 단계가 최상의 데이터 과학자를 뜻하지는 않는다. 분석 단계에서도 최고의 기술을 갖은 고수가 있을 수도 있고, 소통을 잘 하지만 기본 데이터 과학 역량을 제대로 갖추지 못한 경우도 있다. 하지만 일반적으로 데이터 과학자라는 업을 시작해서 경력이 쌓이면서 자연스..
데이터 문제 해결 프로세스 이전 글은 다소 즉흥적이었다. 데이터 과학자는 상황과 문제에 맞게 사고와 반응이 유연해야 함을 강조한 것이지, 일반적인 절차나 방법론이 없다는 의미는 아니다. 이글에 관심 있는 독자들이라면 이미 그런 명시적 또는 암묵적 방법론에 관한 여러 글들을 봤을 것이고 또 완전히 같진 않지만 유사한 형태/방식으로 자신의 임무를 수행하고 있다고 짐작한다. 그럼에도 이 글을 다시 적는 이유는 모두가 데이터 과학에 익숙한 것도 아니고, 또 나만의 관점에서 이걸 정리하는 게 의미가 있기 때문이다. iF카카오2018 발표자료에 러프하게 그렸던 그림을 가져왔다. 막상 그림을 가져온 뒤 글을 적으려니 어쩌면 오해를 줄 수 있을 듯해서 좀 막막하다. 이전 글에서 데이터 과학자는 문제를 정의하고 방법을 찾는 이로 묘사했기 때문에 ..
데이터 사이언스? 데이터 과학은 '데이터 문제를 해결'하는 것이 아니다. '데이터로 문제를 해결'하는 것이다. 편의상 ‘데이터 문제’라는 표현을 종종 사용했지만, 이는 데이터를 이용하고 그 속에 숨은 의미를 찾기 위해서 수학이나 논리, 알고리즘을 적용해서 해결하는 문제를 뜻한 것이지, 단지 잘 알려진 알고리즘을 잘 정제된 데이터에 적용해서 어떤 수치를 얻어내는 문제를 뜻한 것이 아니다. 크게 보면 잘 정리된 방법론이 존재하는 듯하지만 또 문제와 상황을 자세히 검토하면 정해진 순서라는 게 존재할 수 없는 게 데이터 과학이다. 주변에 스스로 데이터 과학자라 칭하면서 그저 잘 정의, 정리된 데이터에 유명한 알고리즘을 기계적으로 적용하는 이들을 간혹 본다. 특히 state-of-the-art 방법론을 매우 좋아햐는 경향이 있다...
광고 경매 (Auction)의 이해 세 번째는 가볍게 경매에 대해서 적으려 합니다. 경매는 과금과 연결되지만 과금은 다음으로 미룹니다. 흔히 경매라 하면 소더비나 크리스티 경매에서 미술품을 판매하는 것을 떠올릴 겁니다. 대략 시나리오를 적으면 다음과 같습니다. 경매 진행자: 작품 번호 ABC는 피카소가 XXXX년에 그린 작품으로 시작가는 100만 달러고, 10만 만덜씩 올리겠습니다. 100만 달러 계십니까? 청중 1: (손을 들어 경매에 참여한다.) 경매 진행자: 100만 달러 나왔습니다. 110만 달러 있을까요? 청주 2: (손을 들어 경매에 참여한다.) 경매 진행자: 110만 달러 나왔습니다. 120만 달러 있을까요? ... 경매 진행자: 200만 달러 나왔습니다. 이제부턴 20만 달러씩 올리겠습니다. 220만 달러 있을까요? 청중 1..
광고 선택 프로세스 개괄 두 번째 글은 사용자가 지면에 방문해서 광고가 노출될 때까지의 약 1~200ms 동안 어떤 과정을 거치는지를 개괄합니다. 이전 글에서 광고 선택 프로세스는 '지면 - SSP - DSP - SSP - 지면’ 순이라고 했는데, 이번 글은 DSP의 애드 서빙 (Ad Serving)에 초점을 맞춥니다. 글에서 자세히 다루지 못하는 부분은 추후에 좀 더 깊게 다룰 예정입니다. (언젠가는 적겠죠? 힘을 모아주세요.ㅎㅎ). 광고 선택 (Ad Selection)은 크게 필터링과 랭킹으로 나뉩니다 (아래 그림 참조). 개인적으로 필터링을 그냥 Binary ranking이라 보지만 기능상의 차이와 카카오에서 처리 방식의 차이 등으로 개념상 분리했습니다. 참고로 글에서 광고라할 때는 디스플레이 광고를 가정합니다. 검색 광고..
(RTB를 위한) 광고 시스템의 이해 제주를 떠난 후로 브런치에 글을 거의 올리지 못하고 있었는데 그냥 방치할 수는 없기에 달고나 (DALGONA: Data, Algorithms & Applications)로 명명한 새로운 매거진을 개설해서 적당한 주제가 있고 의욕이 생길 때마다 글을 적을 예정입니다. 어제저녁에 급하게 첫 글을 올렸는데, 티스토리에도 계속 함께 업데이트하겠습니다. (티스토리에는 애드센스도 있어서ㅎㅎ) === 아래는 브런치 글과 동일 (맞춤범 제외ㅎㅎ) == 시작했으니 첫글은 남겨야겠기에 일단 적습니다. 첫 글부터 데이터나 알고리즘을 다루는 것보다는 최근 저의 주요 애플리케이션인 광고 시스템을 개괄적으로 소개하는 글을 적기로 했습니다. 이미 카카오 AI리포트에도 적었고 iF카카오에서도 비슷한 내용을 발표했지만 — 그리고 팀에..