본문 바로가기

데이터 사이언스

(8)
알고리즘 소개: Product Quantization 오랜만에 알고리즘을 소개하는 글을 적는다. 몇 달 전에 처음 Product Quantization (PQ)를 접하고 재미있어서 — 간단하지만 효과 있어서 — 간단한 소개글을 적으려 했으나, 페이스북에서 이 알고리즘을 제안한 논문 (Optimized Product Quantization for Approximate Nearest Neoghbor Search)을 제출한지도 벌써 10년이 더 지났고 FAISS: a library for efficient similarity search라는 오픈소스도 공개돼있어서 굳이 이제야 글을 적어야 할까?를 오래 고민했지만, 최근에 너무 가벼운 글들만 적었고 또 이 글을 통해서 PQ라는 알고리즘을 처음 접할 이들도 있을 것 같아 글을 적기로 했다. 알고리즘 자체는 매우 간..
인텔리전트 시스템 딥러닝, AI, 빅데이터, IoT, 오토파일럿 (자율주행) 등과 같은 개념이나 기술이 일반화되면서 이들이 종합적으로 적용된 인텔리전트 시스템 (Intelligent System)도 최근에 등장한 개념으로 생각할 수 있다. 하지만 인텔리전트 시스템에 관한 연구는 꽤 오래전부터 진행됐고 개념이 — 물론 새로운 아디이어가 나오면서 꾸준히 진화하고 있지만 — 정립된지도 꽤 오래됐다. 나중에 산업경영공학과로 개명했지만 학부 전공은 산업공학이었고, 자연스레 대학원은 생산공학 연구실로 진학했다. 이후 인터넷 환경이 일반화되고 데이터 마이닝 관련 커리큘럼이 학과에 보강되면서 인터넷과 머신러닝이 주 연구 주제가 됐다. 정확한 교과목 명은 기억나지 않지만 2000년도에 대학원에 들어갔을 때 지도교수님은 인텔리전트 시스템에..
[진로 상담] 데이터 분석가를 꿈꾸는 러시아어 전공자입니다. 오랜만의 진로상담. 그리고 티스토리 포스팅.ㅎㅎ 질문 정리. 현재 러시아어를 전공하는 20대 중반입니다. 스타트업에 관심을 가져서 여러 컨퍼런스에 참가했는데 어떤 강연에서 데이터 사이언스라는 분야를 접한 후로, 직접 해보니 흥미가 있고 적성에 맞아서 데이터 분석가를 희망하며 컴퓨터공학을 복수전공으로 신청했습니다. 파이썬과 라이브러리를 이용한 기본 코딩은 가능한 수준입니다. 공모전에도 나가봤고 ADSP를 공부해서 자격증 시험도 봤습니다. 그런데, 러시아어 전공이 데이터 분석가로 일하는데 도움이 될까요? 기업체에서 데이터 분석 업무는 석사 학위 이상을 요구하는데 굳이 진학을 해야 하나요? 석사를 진학할 의사는 없는데 이를 대신할 다른 방법은 없는 걸까요? 실무자가 생각하기에 이 분야의 직업 (채용) 전망은 ..
딥 개인화 Deep Personalization 워드임베딩과 팩토라제이션을 설명한 지난 글에서 http://bahnsville.tistory.com/1139 저는 그 기술들을 크고 다양한 데이터 기반의 개인화 추천 data-rich personalization에 적용하는 것에 관심있다고 밝혔습니다. 이번에는 어떻게 개인화 추천에 활용할 수 있을 것인가?에 대해서 아이디어 차원의 글을 적습니다. 좀 naive할 수도 있음을 미리 밝힙니다. 불가능한 것은 아니지만 word2vec같은 워드임베딩 기술이나 SVD, NMF같은 팩토라이제이션 기술을 바로 개인화 추천에 이용하는 데는 한계가 있습니다. 유저별로 조회했던 아이템을 시간순으로 나열하고, 아이템을 word/vocabulary로 가정해서 아이템의 벡터를 만들 수 있습니다. 아이템 벡터의 cosine 유사..
'데이터 사이언스' 다시 생각하기 데이터 과학 Data Science 또는 데이터 과학자 Data Scientist에 대해서 검색해보면 아래의 다이어그램 또는 비슷한 설명을 필히 보게 된다. 데이터 과학자는 프로그래밍 능력과 수학과 통계에 대한 지식과 도메인/비즈니스에 대한 이해가 있어야 한다는 내용이다. 물론 이 세가지 영역에서 모두 또는 특정 영역에서 확연히 뛰어나면 좋겠지만 전문 개발자들보다 프로그래밍에 능할 수 없고 수학만 파고든 사람들이나 한 분야에서 수년간의 경험을 쌓은 이들보다 더 뛰어날 수가 없다. 그러나 이 세분야에서 고른 지적 능력을 가져야 함을 부인할 수 없다. 데이터 과학에 대해서 더 자세히 알고 싶은 이들은 다음의 Quora 쓰레드를 참조하면 된다. https://www.quora.com/What-is-a-data..
데이터마이닝과 데이터마이너 다음 검색에서 '데이터마이너'라는 검색어가 갑자기 많이 들어온 날이 있었다. 강풀 작가의 '마녀'라는 작품 속에서 PC 캡쳐 화면과 함께 주인공이 데이터마이너가 됐다라는 짧은 문구가 등장했던 때다. 해당 캡쳐 화면에는 SAS라는 데이터분석툴 아이콘도 있었고 지금은 없어진 마이피플 아이콘도 등장했다 (유료화로 화면캡쳐는 생략. 9화였음.). 강풀 작가님이 웹툰을 그리기 위해서 예전 같은 팀의 팀원에게 자문을 얻었는데, 그 분의 (의도된) PC화면으로 유추된다. 당시에 내가 서울에서 근무했다면 미팅에 함께 참석했지 않을까?라는 생각도 해본다. 빅데이터, 데이터 사이언스, 인공 지능, 딥러닝, 머신러닝 (기계학습) 등의 많은 용어/개념들이 버즈buzz되고 있지만 관련 분야의 사람들이 아니라면 여전히 데이터마이..
서비스와 데이터마이닝 과학자는 자신이 가진 솔루션을 적용할 문제를 찾고 엔지니어는 자신의 문제를 해결할 솔루션을 찾는다라는 말로 과학(자)과 엔지니어링을 구분한 글을 본 적이 있다. 적절한 구분인 것같다. 데이터 분석/마이닝도 같은 관점에서 구분할 수 있을까? 문제에 맞는 솔루션을 찾는 사람은 데이터 마이너고, 알고리즘에 맞는 문제를 찾는 사람은 데이터 사이언티스트라고 부를 수 있을까? 별로 좋은 구분인 것같지 않다. 최근 빅데이터나 데이터 사이언스 등에 관심이 조금 쏠리고 데이터 기반의 무엇 (Data-driven X)이라는 표현을 자주 접하게 된다. 선무당이 사람잡는다는 말도 있지만, 데이터와 연결된 용어들이 범람하면서 데이터 선무당들도 많이 늘고 있는 것같다. 간혹 지난 몇 년동안 엄청나게 많은 데이터를 모아놓았는데 이..
빅데이터 시대는 갔다. VentureBeat의 기사를 읽고 글을 적습니다. (참고. Big data is dead. What's next?) 언제나 기술용어가 마케팅용어로 변하는 시점이 되면 죽음 death이라는 단어가 등장합니다. 마케팅의 탄생 시점이 늘 기술의 사망 시점과 묘하게 겹치는 것같다. 인터넷만 국한시켜 생각해보면, 한 때 웹2.0이 기술용어인가 마케팅용어인가를 두고 논쟁이 벌어졌습니다. 그런 논쟁은 기술이 번성하고 이제 마케팅이 시작되는 시점에 벌어졌습니다. 그리고 최근에는 소셜이 그런 과정을 거쳤고, 이제는 클라우드나 빅데이터가 같은 운면에 접어들었습니다. 늘 그랬습니다. Geek의 손을 떠난 새로운 제품/서비스는 결국 마케터들의 손에 전달됩니다. 그 순간 매번 기술의 죽음이 언급됩니다. 마케팅이야 말로 기술과..