Messages from Bahn (1184) 썸네일형 리스트형 랭킹에 관하여 Run-to-King 우리 일상의 많은 것이 랭킹과 관련 있다. 어쩌면 삶의 모든 것이 랭킹이다. 왕좌를 향해 달려가듯이 피라미드의 가장 높은 곳으로 올라가는 경쟁이 한편으론 우리를 각성케 한다. 속되게 말해서 줄세우기와 줄타기가 결국 랭킹이다. 비교나 연결도 랭킹으로 해결할 수 있다. 얼마나 가까운가 또는 먼가를 측정하고 붙일 것인가 뗄 것인가를 고민하는 것이 랭킹인 거다. 특히 데이터 분석이나 인공지능에선 업무의 대부분이 랭킹이고, 더 좋은 랭킹 알고리즘을 찾으면 레벨업하는 거다. 운 좋게도 Daum의 검색 본부로 입사해서 검색 랭킹의 극히 일부를 담당하기도 했었고 이후 추천 서비스들을 만들 때도 많은 아이템들을 줄 세운 후에 Top N개를 골라내는 일을 했고, 광고 분야로 옮긴 후는 Top 1을 선택하는데 기여했다. 신.. SHAP 이해하기 아직은 인간의 시간이다. 지금은 기계가 지배하는 시기인가? 딥러닝이 다른 모든 알고리즘들을 평정하기 시작한 지도 10년의 시간이 지났다. 더 많은 사람들이 관심을 갖고 자금이 몰리면서 하루가 다르게 발전하는 인공지능 기술을 눈으로 확인한다. 여전히 실생활과는 조금 동떨어진 측면이 없진 않지만 변화 속도는 놀랍다. 터미네이터의 ‘스카이넷’이 내일 등장해도 놀랍지 않다. 하지만 인공지능 기술이 더 발전할수록 아직은 인간의 한계를 벗어나지 못하고 있다. 성능적 한계가 아니라, 아직은 사람이 이해, 설명할 수 없으면 기술을 쉽게 받아들이지 않으려 한다는 거다. 더 복잡하게 진화할수록 사람들은 내부 메커니즘을 이해하고 싶은 욕구는 더 커질 거다. 적어도 나는 그렇다. 이 글을 읽는 이들이라면 XAI (Explai.. 숫자에서 자유롭자 데이터 분석은 수놀음이다. 하지만 수만의 게임은 아니다. 여러 선택지 중에서 어떤 알고리즘 (모델)을 취할 것인가?라는 아주 흔한 상황을 생각해보자. 트레이닝 데이터로 모델들을 학습하고, 테스트 데이터로 각 모델의 정확도를 측정해서 가장 좋은 성능의 모델을 최종 선택할 거다. 원칙적으로 틀린 건 없지만 전적으로 옳은 것도 아니다. 숫자가 가장 객관적이지만 객관성만으로 모든 결정이 이뤄지는 건 아니다. A가 B보다 10% 낫다는 것이 과연 A가 답이다라는 걸 의미하는 걸까? 보통은 그렇다. 보통은… 숫자가 잘 작동할 때는 다른 여러 근거가 있는데 화룡점정으로 수치가 그 결정을 뒷받침해줄 때다. 아니면 어떤 수치를 얻었는데 그걸 제대로 해석하거나 다른 근거가 함께 동반될 때다. 게임이 복잡할수록 숫자 하나만.. 미래를 위한 준비: Asking & Prototyping 50번째 글이다. 옛날 개발자답게 0부터 시작해서 50번째가 맞다. 아이러니지만 50번째는 데이터나 알고리즘에 관한 글이 아니다. 모두를 위한 글이지만 또 그 누구를 위한 글도 아니다. 귀 있는 자는 들을 것이고 그렇지 않으면 그냥 괘변으로 무시해도 좋다. 많은 책을 읽고 매일 새로운 정보를 듣지만 머릿속에 계속 여운이 남는 경우는 흔하지 않다. 집중하지 않고 의무감으로 글을 읽어나갔기 때문이라고 자책도 하지만 나를 감동시키지 못한 저자들의 잘못도 없지 않다. 그렇게 위로한다. 지난 긴 시간 동안 나의 관심 주제는 과거와 현재와 미래를 연결하는 흐름 (트렌드)였다. 역사와 전기, 트렌딩 기술과 서비스, 그리고 미래의 먹거리를 다룬 책이라면 어김없이 구매해서 읽는 편이다. 물론 관심의 폭이 넓은 편은 아니.. 그때는 맞고 지금은 틀리다. 나쁜 습관이란 게 있다. 데이터 분석가 또는 과학자가 갖는 나쁜 습관에 관한 글을 적으려 몇 개 아이템으로 정리하려 했다. 표현의 뉘앙스가 실패했음을 보여준다. 성공했으면 이미 몇 주 전에 글을 공개했을 거다. 여러 가지가 떠올랐지만 과연 그게 나쁜 습관인 건가?라는 의심도 들었고, 아이템 간의 레벨 차가 컸고 또 포괄적이지 못했다. 그런 고민이 이어진 끝에 내로남불 수준의 제목에 이르렀다. 문제와 데이터를 엄밀히 살펴보기 전에 알고리즘부터 생각한다라고 뽑았지만, 어쩌면 경험이 많은 전문가일수록 오히려 더 그러는 경향이 있고 처음 선택한 알고리즘이 답에 가까운 경우가 많다. 내가 이 문제를 딱 봤을 때 ‘이런 알고리즘을 적용하면 된다’라고 말하면 경험 많은 전문가의 소견이 되고, 주니어 개발자가 ‘이런 .. 프로젝트L 회고 내용을 자세히 밝힌 순 없지만 최근 사이드 프로젝트로 오랜만에 데이터를 분석할 일이 있었다. 아직 완결한 건 아니지만 현재 상황으론 더 이상 진행은 어려워 보인다. 여전히 결과가 깔끔하지 못해서 미련이 남아서 더 해야 하는 또는 다른 시야로 봐야 하는 건 없는지 계속 되뇌지만 뚜렷한 실마리가 없다. 데이터 분석이라는 게 항상 원하던 결과를 얻는 건 아니다. 이런 찜찜/찝찝함도 분석가 과정의 일부다. 세계 정세나 경제에 관심 있는 분들이라면 작년 연말에 미국 주요 항구에 수많은 화물선들이 하역을 기다리며 무기한 정박한 뉴스나 사진을 봤을 거다. 코로나 초기에 락다운 등으로 실업이 증가했는데, 상황이 호전된 후로도 트럭 기사들이 예전의 직장으로 돌아오지 않아서 물류 대란이 발생했고, 그와 함께 인플레이션도 .. 데이터 분석의 비기술적 측면 회사에서 미션 중 하나는 팀 소속 주니어 분석가들의 역량을 강화하는 거다. 한동안 어떤 프로그램으로 어떻게 운영할지를 많이 고민했지만, 그들의 현재 상태를 파악하는 게 우선이었다. 그래서 공개된 데이터를 각자의 방식대로 분석한 결과를 정리해서 제출하게 했다. 30여 개의 결과 자료를 보면서 생각이 많아졌다. 여러 자료에서 공통된 부분도 있고, 나름 독특한 관점으로 데이터에 접근한 것도 있었다. 결론부터 말하면 기대치를 충분히 만족시킨 건 없었다. 기술적인 부분(technical skills)은 대부분 나보다 오히려 낫지만 분석이라는 게 기술만으로 완성되지 않는다. 이전 면접 과제 글에서도 적었듯이 데이터 과학자들의 모델 학습을 위한 분석은 정형화된 EDA 과정을 거치면 다소 해결되지만, 사람들을 위한 분.. 데이터 분석가를 위한 면접과제 이전 글 ‘면접과제의 기대와 현실 https://brunch.co.kr/@jejugrapher/258'은 엄밀히 말해서 데이터 과학자를 위한 면접과제를 설명한 거다. 데이터 분석과 데이터 과학이 다르다고 생각하지 않았는데, 최근 다른 일 때문에 찾아보니 데이터 분석은 그 자체로 완결된 태스크로써 데이터에서 인사이트를 찾아서 사람에게 전달하는 것인 반면 데이터 과학은 자동화를 위한 모델을 만드는 과정으로써 데이터 분석을 이용해서 결과물을 기계 (모델)에 전달하는 것으로 구분해서 사용하고 있었다. 그런 측면에서 ‘기대와 현실’ 글에선 EDA로 명시한 데이터 분석 과정이 매우 평면적이었고, 그 정도의 기초 역량만을 보면 됐다. 즉, 데이터를 불러와서 분포를 확인한다거나 결측치나 아웃라이어를 찾아서 제거 또는 .. 이전 1 2 3 4 5 6 7 ··· 148 다음