Messages from Bahn (1184) 썸네일형 리스트형 서비스를 위한 알고리즘 선택 기준 다양한 이유로 사용 중인 모델/알고리즘을 개선해야 한다. 보통은 환경이 바뀜에 따라서 예측 성능이 저하되거나 조금 더 정확도를 높이고 싶은 욕심에서 모델 개선 작업을 한다. 단순히 에이징 된 모델을 버리고 새로 학습하는 것에서부터 새로운 데이터를 추가하거나 새로운 최신 알고리즘을 적용하는 것까지 알고리즘 개선의 형태도 다양하다. 모델 개선의 가장 큰 목적이 예측 정확도를 높이는 거지만, 섣불리 진행하면 낭패를 볼 수 있다. 학계 연구는 모델의 정확도를 개선하는 것을 주목적으로 한다. 기존 모델보다 정확도가 1%, 아니 단 0.1%만 높여도 논문을 작성해서 발표할 거다. 특히 정확도가 95%이상을 넘긴 분야에선 더더욱 그러하다. 산학 과제가 아닌 이상은 프로덕션 과정을 제대로 고려하지 않는 측면이 있다. .. 데이터 문제 해결 프로세스 이전 글은 다소 즉흥적이었다. 데이터 과학자는 상황과 문제에 맞게 사고와 반응이 유연해야 함을 강조한 것이지, 일반적인 절차나 방법론이 없다는 의미는 아니다. 이글에 관심 있는 독자들이라면 이미 그런 명시적 또는 암묵적 방법론에 관한 여러 글들을 봤을 것이고 또 완전히 같진 않지만 유사한 형태/방식으로 자신의 임무를 수행하고 있다고 짐작한다. 그럼에도 이 글을 다시 적는 이유는 모두가 데이터 과학에 익숙한 것도 아니고, 또 나만의 관점에서 이걸 정리하는 게 의미가 있기 때문이다. iF카카오2018 발표자료에 러프하게 그렸던 그림을 가져왔다. 막상 그림을 가져온 뒤 글을 적으려니 어쩌면 오해를 줄 수 있을 듯해서 좀 막막하다. 이전 글에서 데이터 과학자는 문제를 정의하고 방법을 찾는 이로 묘사했기 때문에 .. 데이터 사이언스? 데이터 과학은 '데이터 문제를 해결'하는 것이 아니다. '데이터로 문제를 해결'하는 것이다. 편의상 ‘데이터 문제’라는 표현을 종종 사용했지만, 이는 데이터를 이용하고 그 속에 숨은 의미를 찾기 위해서 수학이나 논리, 알고리즘을 적용해서 해결하는 문제를 뜻한 것이지, 단지 잘 알려진 알고리즘을 잘 정제된 데이터에 적용해서 어떤 수치를 얻어내는 문제를 뜻한 것이 아니다. 크게 보면 잘 정리된 방법론이 존재하는 듯하지만 또 문제와 상황을 자세히 검토하면 정해진 순서라는 게 존재할 수 없는 게 데이터 과학이다. 주변에 스스로 데이터 과학자라 칭하면서 그저 잘 정의, 정리된 데이터에 유명한 알고리즘을 기계적으로 적용하는 이들을 간혹 본다. 특히 state-of-the-art 방법론을 매우 좋아햐는 경향이 있다... 광고 경매 (Auction)의 이해 세 번째는 가볍게 경매에 대해서 적으려 합니다. 경매는 과금과 연결되지만 과금은 다음으로 미룹니다. 흔히 경매라 하면 소더비나 크리스티 경매에서 미술품을 판매하는 것을 떠올릴 겁니다. 대략 시나리오를 적으면 다음과 같습니다. 경매 진행자: 작품 번호 ABC는 피카소가 XXXX년에 그린 작품으로 시작가는 100만 달러고, 10만 만덜씩 올리겠습니다. 100만 달러 계십니까? 청중 1: (손을 들어 경매에 참여한다.) 경매 진행자: 100만 달러 나왔습니다. 110만 달러 있을까요? 청주 2: (손을 들어 경매에 참여한다.) 경매 진행자: 110만 달러 나왔습니다. 120만 달러 있을까요? ... 경매 진행자: 200만 달러 나왔습니다. 이제부턴 20만 달러씩 올리겠습니다. 220만 달러 있을까요? 청중 1.. 광고 선택 프로세스 개괄 두 번째 글은 사용자가 지면에 방문해서 광고가 노출될 때까지의 약 1~200ms 동안 어떤 과정을 거치는지를 개괄합니다. 이전 글에서 광고 선택 프로세스는 '지면 - SSP - DSP - SSP - 지면’ 순이라고 했는데, 이번 글은 DSP의 애드 서빙 (Ad Serving)에 초점을 맞춥니다. 글에서 자세히 다루지 못하는 부분은 추후에 좀 더 깊게 다룰 예정입니다. (언젠가는 적겠죠? 힘을 모아주세요.ㅎㅎ). 광고 선택 (Ad Selection)은 크게 필터링과 랭킹으로 나뉩니다 (아래 그림 참조). 개인적으로 필터링을 그냥 Binary ranking이라 보지만 기능상의 차이와 카카오에서 처리 방식의 차이 등으로 개념상 분리했습니다. 참고로 글에서 광고라할 때는 디스플레이 광고를 가정합니다. 검색 광고.. (RTB를 위한) 광고 시스템의 이해 제주를 떠난 후로 브런치에 글을 거의 올리지 못하고 있었는데 그냥 방치할 수는 없기에 달고나 (DALGONA: Data, Algorithms & Applications)로 명명한 새로운 매거진을 개설해서 적당한 주제가 있고 의욕이 생길 때마다 글을 적을 예정입니다. 어제저녁에 급하게 첫 글을 올렸는데, 티스토리에도 계속 함께 업데이트하겠습니다. (티스토리에는 애드센스도 있어서ㅎㅎ) === 아래는 브런치 글과 동일 (맞춤범 제외ㅎㅎ) == 시작했으니 첫글은 남겨야겠기에 일단 적습니다. 첫 글부터 데이터나 알고리즘을 다루는 것보다는 최근 저의 주요 애플리케이션인 광고 시스템을 개괄적으로 소개하는 글을 적기로 했습니다. 이미 카카오 AI리포트에도 적었고 iF카카오에서도 비슷한 내용을 발표했지만 — 그리고 팀에.. 루저들의 시대의 해복 이른 출근길에 종종 목격하는 현상이 있다. 이미 미디어에도 소개될 만큼 대부분 알고 있을 거다. 스타벅스 레디백 얘길 하려는 거다. 지난주까지는 매주 목요일만 출근하다가 이번 주 화요일부터는 매일 출근하고 있다. 여러 이유로 아침 6시 전후에 집을 나선다. 그러면 회사에는 6시 반이나 7시경에 도착한다. 지난 몇 주 동안도 목격했던 거지만, 오늘 더더욱 눈에 띄어서 적는다. 오늘은 6시20분 경에 판교역에 도착해서 30분경에 회사에 도착했다. 판교역에서 큰길을 건너면 스타벅스 매장이 있는데 이른 아침부터 십여 명이 줄을 서서 매장 오픈을 기다리고 있었다. 스타벅스 커피에 미친 사람들이 아니라 순전히 레디백을 받기 위한 사람들이다. 참 대단하단 생각이 들었다. 2~30대의 젊은 층만 열광하는 줄 알았는데 .. 생활 속 포스트 코로나 담론 코로나 Covid19가 장기화되면서 코로나 이후, 즉 포스트 코로나에 대한 예측들이 많이 쏟아진다. 물론 사태의 초기부터 사회가 어떻게 바뀔 거라는 크고 작은 예측들이 있었지만 이젠 단순히 맞추고 틀리고의 수준을 넘어서 실생활에서 어떻게 적용되고 적응해야 하는가로 양상이 바뀌었고, 더 근본적인 변화가 일어날 것인가를 걱정해야 한다. 그런데 미디어를 통해 전해지는 많은 전망들은 거시적인 거대 담론인 경우가 많다. 위기는 기회라는 말처럼 그런 거대 담론을 잘 파악해서 사업적으로 성공하는 케이스가 있을 거다. 하지만 그런 경우는 극히 드물 것이고 우리 주변에는 코로나 이후로 망한 기존 산업이나 어려움을 겪는 이웃, 어쩌면 큰 변화를 못 느낀 많은 시민들이다. 큰 흐름을 읽는 것도 중요하지만 우선 우리 생활에서.. 이전 1 ··· 7 8 9 10 11 12 13 ··· 148 다음