Share           Pin It
지난 글에서 워드임베딩에 대한 생각을 정리하고 딥러닝과 결합해서 개인화 추천에 어떻게 적용할 것인가에 대한 간단한 스케치를 올렸습니다. (참고. 워드임베딩: http://bahnsville.tistory.com/1139, 개인화 추천: http://bahnsville.tistory.com/1141) 오늘은 그런 기술을 딥 개인화 시스템에 적용할 때 예상되는 문제점들에 대해서 생각나는대로 정리하려 합니다.

지난 글에 제시한 딥 개인화 아키텍쳐를 간단히 설명하면 다음과 같습니다.
  1. 텍스트, 이미지, 또는 웹로그 등의 유저 및 아이템 정보/이력에 포함된 개별 항목들을 워드임베딩 기술로 벡터화한다.
  2.  유저/아이템의 정보를 RNN이나 CNN 등으로 정형화된 벡터로 압축한다.
  3. 정형화된 유저벡터와 아이템벡터의 관계를 유저-아이템 interaction log로 학습한다.
  4. 학습된 Latent Vector로 유저-유저, 아이템-아이템, 유저-아이템의 연관도/유사도를 측정한다.
유저-아이템 행렬을 팩토라이즈하는 것이 가능하지만 그것보다 풍부한 유저/아이템 정보를 이용해서 바로 유저/아이템 벡터를 만들 수 있다면 1과 2는 하나의 과정으로 봐도 무관합니다.

위의 과정에서 3과 4는 통상의 ANN 학습방법이나 유사도 연산으로 쉽게 해결되는 부분입니다. 특히 3의 학습에 대한 아이디어는 지난 글에 간략히 언급했습니다. 하지만 1과 2의 Knowledge Representation은 오랫동안 고민했지만 쉽게 답이 나오지 않았습니다. 예전부터 워드임베딩 기술을 사용하면 될 것 같다는 막연한 생각을 가지고 있었지만 따로 공부하지 않아서 더이상 진도가 안 나갔는데, 최근 관련 분야를 공부하면서 가능성을 확인했습니다. 하지만 실제 문제에 적용하는 데는 여전히 해결해야할 장애물들이 많이 있습니다. 공부하면서 여러 힌트는 얻었지만 유저/아이템 벡터로 컨볼루셔한하는 실용적인 방법을 찾지 못했습니다. 워드임베딩 부분과 컨볼루션 부분을 나눠서 예상되는 문제를 정리합니다. 짧은 식견으로 떠오른 어려운 점들이지만 저보다 띄어난 분들은 별로 문제될 것이 없다고 보실 수도 있고 또 많은 연구자들이 관련된 해결책을 이미 내놓은 경우도 많습니다.

워드임베딩
기계학습이라는 것이 최초의 학습데이터로 모델을 만들어두면 영구적으로 사용할 수 있는 것이 아닙니다. 실제 운영하면서 새로 추가되는 데이터로 주기적으로 모델을 업데이트해줘야 합니다. 새로운 데이터가 추가될 때 모델의 구조가 바뀌지 않으면 단순히 (hyper-)파라메터들만 업데이트해주면 되겠지만, 워드임베딩의 경우 모델의 구조가 함께 바뀌기 때문에 전체 모델을 새롭게 빌딩하고 관련된 시스템 전체를 바꿔줘야 합니다. 새로운 텍스트에는 기존 학습 데이터에는 없던 신조어가 있습니다. 보통 OOV (out-of-vocabulary)라는 특수한 태그로 처리하지만, 데이터 양이 많아지면서 모든 신조어를 OOV로 처리할 수도 없고 중요한 신조어는 새롭게 사전에 추가해야 합니다. 기존 사전에 10,000개의 단어가 있었는데, 여기에 한개의 단어를 더 추가하는 것은 별 문제가 안 될 것 같지만, one-hot encoding에서 데이터 차원을 1만큼 증가시켜야 하고 그에 따라서 전체 가중치 W를 재계산해야 합니다.

일반적인 텍스트 문서 분석의 경우 몇달, 몇년치의 데이터를 모으더라도 추가되는 신조어의 수가 기존 사전 사이즈에 비해서 별로 크지 않아서 오랜 기간동안 OOV로 처리해도 시스템의 예측력에 큰 해를 주지 않습니다. 하지만 대형 쇼핑몰에서 상품을 추천해주는 경우라면 매년 추가되는 신상품의 수도 많을 뿐더러, 핫한 추천 대상이 돼야할 신상품을 사전에 추가하지 않을 수가 없습니다. 일반적인 텍스트 컨텐츠로 확대해서 유저의 검색쿼리나 방문했던 사이트를 기반으로 추천하겠다고 가정한다면, 매일 기존에 없던 수많은 새로운 패턴의 검색어가 등장하고 뉴스 기사만 하더라도 매일 수천건 이상이 새로 생깁니다. (새로운 문서 = 새로운 URL) 해외의 뉴스도 포함하고 블로그 등의 소셜미디어를 고려한다면 매일 추가되는 신종 아이템이 넘쳐납니다. 즉 사전 사이즈가 감당할 수 없을만큼 커지고, 그에 따라서 매번 모델을 새로 구축해야 합니다.

컴퓨팅 파워가 받쳐주더라도 학습 데이터를 무작정 누적해서 사용할 수도 없습니다. 오래된 것은 버리고 새로운 데이터로만 학습할 필요가 생깁니다. 신조어가 생기듯이 필요없어지는 단어가 생깁니다. 즉, 사전에서 빼주는 작업이 발생합니다. 사전의 구조가 바뀌면 당연히 모델을 새로 학습해야 합니다. 그리고 미리 정의된 사전이 아니라 매번 학습 데이터 (텍스트)에서 사전을 동적으로 구축하는 경우라면 모델 재구축은 필수입니다. 모델을 학습하는 것은 모델을 기반으로 예측하는 것에 비해서 리소스가 많이 들어가는 작업입니다. 그래서 재구축 주기를 너무 짧게 가져갈 수도 없습니다. 또 주기가 길어지면 OOV가 증가합니다. 상품이나 컨텐츠 추천에서는 OOV에 해당하는 신상이나 최신글이 가장 중요할텐데, 업데이트 주기를 기다리는 동안에는 유저의 프로필 (관심사)에 반영하지 못하는 어처구니없는 상황이 발생합니다.

그리고 이건 실제 작업해봐야 알겠지만, 사전 사이즈를 어느 수준까지 크게 가져가도 컴퓨팅이나 전체 시스템 성능에 영향을 주지 않을 것인가도 고민이 됩니다. 옥스포드 영어 사진에 약 17만건의 영단어가 등록돼있다고 합니다. 인터넷에서의 유저가 한 행동 이력으로 유저 프로파일을 만든다면 다양한 조합의 검색어, 접속했던 문서 (URL), 웹에서의 다양한 활동 등을 모두 사전에 추가한다면 세상의 모든 언어가 가진 단어의 수보다는 가늠할 수 없을만큼 훨씬 많아질텐데, 과연 그런 규모의 사전을 워드임베딩하는데 저비용으로 가능할까에 대한 의문도 듭니다. 여지껏 전체 웹 단위에서 상상을 펼쳤기 때문에 무모한 논쟁이기도 합니다. 각자 서비스 내에서의 추천/개인화를 위해서 데이터의 종류와 양을 잘 제한하면 이건 그저 기우일 뿐입니다. (학교에 있을 때는 웹 전체의 문서를 클러스터링해보고 싶다는 막연한 생각을 했었는데, 여전히 그런 버릇에서 못 벗어난 듯...)

사전에 색인된 단어 순서가 바뀌지 않고 상대적으로 적은 양의 신조어가 추가만 된다면 (또는 일부 불필요한 단어가 색인 순서는 그대로 둔 채 제외한다면) 가능한 기존의 워드임베딩 결과를 유지하면서 새로운 사전을 학습시킬 수 없을까에 대한 고민도 있습니다. 예를 들어, 원래 사전이 {A, B, C, D, E, F, G, H, I, J}로 총 10개의 단어로 구성됐는데, 신조어 K가 추가돼서 {A, B, ..., J, K}로 11개로 변경됐다고 가정합니다. 원래 사전에서 A는 [1 0 0 0 0 0 0 0 0 0]' (0이 9개)로 one-hot 인코딩으로 표현할 수 있고, 이를 워드임베딩했을 때 결과가 [0.7 0.5 0.9]가 된다면, 새로운 사전에서 A는 [1 0 0 0 0 0 0 0 0 0 0]' (0이 10개)로 표현하고 그 워드임베딩 결과가 기존의 [0.7 0.5 0.9]와 크게 다르지 않게 학습시킨다면 어느 정도의 신조어가 사전에 추가되더라고 굳이 기존의 모든 단어들을 재계산할 필요가 없어지고, 기존 단어들로만 구성된 유저/아이템 벡터는 별도 업데이트가 필요치 않을 수도 있겠다는 생각도 듭니다. 하지만, 어차피 신조어의 벡터를 구하기 위해서 전체 단어의 재학습 및 결과는 함께 진행되기 때문에 조금 불필요한 고민이었던 것 같습니다. 하지만 외부 환경이 조금 변경됐을 때 굳이 전체 시스템에 영향을 주지 않는 robust한 방법에 대한 고민은 여전히 필요합니다.

컨볼루션
지난 글에서 소개했던 Collobert의 논문을 보면서 처음에는 컨볼루션으로 유저 및 아이템 벡터를 쉽게 만들 수 있겠다는 생각을 했습니다. (참고 논문: http://www.jmlr.org/papers/volume12/collobert11a/collobert11a.pdf하지만 텍스트 문장에 적용했던 기술을 유저 및 아이템 프로파일에 그대로 적용하는 데는 문제가 있음을 바로 깨달았습니다. 텍스트 문장 (문서가 아님)은 보통 1~20단어로 구성돼있고, 많아봤자 100단어를 넘지 않습니다. 일단 단어의 개수가 많지 않고 개수의 분포도 (상대적으로) 일정하다고 볼 수 있습니다. 추천할 아이템 (컨텐츠)의 프로파일은 다소 길겠지만 길이에 제한이 있습니다. 하지만 유저 프로파일의 경우 쉽게 가늠이 되지 않습니다. (사용자가 입력한 검색쿼리, 접속한 URL 등을 모두 한 단어로 가정함) 두가지 포인트를 지적했는데, 프로파일의 길이가 길다는 것과 길이의 편차가 크다는 것입니다. 길이가 길더라도 편차가 적다면 복잡하더라도 하나의 scheme으로 압축할 수 있을텐데, 길이가 천차만별이면 고민이 깊어집니다. 큰 이미지라면 강제로 사이즈를 줄이고 원하는 비율로 crop해서 사용하면 되는데, 텍스트 문서는 이런 방식이 불가합니다.

앞의 논문에서는 인접한 단어 벡터 (워드임베딩)들을 컨볼루션하고, 컨볼루션된 것들 중에서 각 열의 최대값 (max-pooling)을 취합니다. 단어의 수가 별로 많지 않기 때문에 max-pooling을 하더라도 다양한 결과값이 만들어집니다. 하지만 단어가 많아지면 각 행의 max값들이 모두 비슷해질 가능성이 높아집니다. 예를 들어, [0 1] 사이의 랜덤 넘버 10개 중에서 max값은 1.0이 될 수도 있지만 0.7이나 0.8, 심지어 0.1도 될 가능성도 꽤 있습니다. 하지만, 10,000개의 랜덤 넘버 중에서 max값을 취하면 대부분 0.9 ~ 1.0이 될 것입니다. 문장 단위에서 convolution+max-pooling이 잘 동작하더라도 문서 (유저의 행동 이력) 단위에서는 불가능하다는 것입니다. 즉, 결과 유저 벡터들이 모두 유사해지고, 추천의 variance가 없어진다는 의미입니다. 문서의 길이가 길더라도 길이가 일정하면 동일한 조건으로 큰 컴볼루션 window 사이즈를 취하거나 여러 겹의 컴볼루션 레이어를 두는 식으로 해결책이 존재하겠지만, 길이가 일정하지 않으면... 어떤 논문을 보면 varying-size convolution filter를 사용하는 경우가 있어서 컨볼루션을 잘 설계하면 돌파구가 있을 듯도 합니다. (참고. https://arxiv.org/pdf/1604.06338.pdf) 부트스트랩하듯이 그냥 임의의 벡터를 선택해서 컨보루션 & 풀링하는 것도 생각해봤지만 이건 그냥 애초에 입력 데이터를 랜덤하게 선택해서 진행하는 것이 더 나을 것이고, 알고리즘의 일관성을 확보할 수가 없습니다. (역으로 짧은 입력 데이터를 임의로 확장하는 것도 별로...) Pooling층에서 같은 위치의 벡터 엘리먼트 sequence를 time series로 가정하고 wavelet (Fourier Transformation)으로 pooling하는 것도 가능하지 않을까?라는 생각도 듭니다.

유저의 행동 이력을 시간순으로 나열해서 RNN을 이용하는 방법도 생각해봤습니다. RNN이 CNN보다는 길이의 가변성에 더 유연합니다. 하지만 RNN도 문장이 아닌 문서 단위에서도 제대로 동작할지 의문이 듭니다. RNN은 개념적으로 이전까지의 결과 (이전의 모든 단어의 sum)과 현재 단어를 일종의 weighted sum하는 것입니다. (개념적으로 설명하면 그렇다는 것임) 이런 추론에 따르면 최신 행동 이력에 가중치를 부여하는 방식이라는 장점이 있지만, 역으로 과거 이력을 무시해버릴 가능성도 있어 보입니다. 예를 들어, 어떤 유저가 '제주도, 제주도 맛집, 제주도 펜션, ...., 제주도 항공권' 등의 키워드로 95회 검색하고 가장 마지막에 '포켓몬 고' 관련해서 5회 검색했다면 이 유저의 관심사가 제주도 여행보다 포켓몬 고로 표현될 가능성이 있습니다. 실제 RNN이 이런 식으로 작동하지 않겠지만, 통상의 RNN의 구조로 유추하면 그렇다는 것입니다. 최근 RNN에서 많이 사용하는 LSTM을 사용하면 또 다른 가능성이 있지 않을까라는 또 기대를 걸어봅니다. (LSTM을 설명한 번역글: http://whydsp.org/280) LSTM를 포함한 텍스트 또는 시퀀스 데이터를 위한 딥러닝 기술을 좀더 공부해봐야겠습니다. 아직 읽어보지는 않았지만 word2vec을 만든 Mikolov가 공저자로 참여한 논문 (http://cs.stanford.edu/~quocle/paragraph_vector.pdf)은 문장/문서의 paragraph vector를 만드는 걸 제안했고, Weinberger et al.은 feature를 hashing하는 방법도 소개했습니다 (https://arxiv.org/pdf/0902.2206.pdf). 여러 논문들을 훑어봤지만 아직 만족스럽지가 않습니다. 만족할 솔루션을 찾았다면 이런 글을 적지도 않았겠지만...

길이가 다소 일정한/제한적인 아이템 벡터보다는 가변적이고 긴 유저 벡터를 만드는 것이 고민이라고 적었습니다. 그런데 문제가 되는 유저는 전체 중에서 극히 일부 (10%미만?)에 해당하는 헤비 유저들 가능성이 큽니다. 이들 일부 유저 데이터만 제한하면 전체 시스템 측면에서는 이점이 있을 수 있습니다. 가장 쉬운 방법으로는 최근의 T기간 또는 N개의 최근 데이터만 사용할 수 있습니다. 추천에서는 최신 데이터에 대한 민감도가 중요하기에 쉽지만 괜찮은 방법입니다. 하지만 헤비유저의 과거 이력에 나타난 오래된 관심사를 반영하지 못할 수도 있다는 우려도 있지만, 오래된 관심사라면 최근 행동에도 반영됐을 가능성도 높고 또 고정 관심사와 연관된 새로운 행동을 통해서 빠르게 업데이트된다면 freshness를 고려하면 헤비유저의 반감이 적을 수도 있겠다는 생각이 듭니다. 그리고 만약 고정된/오래된 관심사라면 이 글에서 제시한 방법에 더해서 별도의 필터링을 위한 유저 관심사 (또는 성별, 연령과 같은 고정된 정보)를 구축해서 하이브리드/퓨젼으로 추천 및 필터링하는 것도 가능합니다.

랜덤 샘플링을 통해서 제한된 정보만 사용하는 것도 고려할 수 있습니다. 모든 물고기를 잡을 수 없다면 큰 물고기라도 잡아야 한다. (어차피 다양한 오프라인 테스트와 온라인 A/B 테스트를 통해서 generalization error가 적은 방식을 택하면 됩니다.) 앞서 소개한 Phan et al.의 논문에서 varying-size 컨볼루션 필터 방식 등을 더 고민해보면 좋은 해결책이 나오리라고 봅니다. 그리고, session이나 period (day-by-day)를 나눠서 별도의 컨볼루션을 만들고 그것들을 다시 컨볼루션해서 최종 벡터를 만들어내는 방식 (또는 세션 단위로 recurrent하는 방식)도 가능성이 있습니다. 또는 임베딩 벡터로 유사도 계산, 클러스터링, 및 topic modeling 등을 통해서 데이터를 축소하는 것도 좋은 접근법입니다. 작은 문제에서 은닉층을 2개 이상 가져가는 것도 버거웠던 시절이 있었지만 지금은 입력 데이터의 차원도 훨씬 커졌고 은닉층의 개수도 훨씬 많아져도 딥러닝을 성공하게 만든 breakthrough가 있었듯이, 이 문제/해결책도 좀 복잡해졌지만 조만간 깔끔하게 해결되리라 봅니다.

그리고, 저는 광고랭킹을 염두에 두고 가능한 유저의 모든 정보와 이력을 모아서 활용하겠다는 관점에서 생각하고 있지만, 특수한 서비스를 위한 추천이라면 데이터의 종류와 양이 충분히 다룰 수 있을만할 거라 봅니다. 광고에서는 유저가 어떤 서비스에서 어떤 활동을 했고 또 어떤 컨텐츠를 조회했는지 등의 모든 정보를 바탕으로 유저 프로파일을 만들어 활용하겠지만, 일반 쇼핑몰에서 상품을 추천하는 경우라면 기존의 CF 등에서 활용하는 수준의 유저별로 조회한 상품 목록만으로도 충분합니다. 자신이 속한 비즈니스 도메인 및 가용 데이터에 따라서 손쉬운 해결책이 존재하고, 이상의 고민이 불필요할 수도 있으니 새로운 접근법을 지나치게 거부할 필요가 없습니다. 서비스/비즈니스 도멘인을 한정하듯이 유저 정보의 종류를 한정하는 것도 방법이 될 수 있습니다. 유저가 검색한 쿼리만으로 유저벡터를 만들겠다거나, 개별서비스에서 정의한 카테고리 (공통의 카테고리일 필요는 없음)의 리스트만 활용하겠다거나, 긴글을 조회한 경우나 댓글 등의 조회 이상을 한 액션이뤄진 URL만을 대상으로 삼는다거나 등의 여러 제약 조건을 데이터를 한정할 수도 있습니다. 제가 이 글에 적었다고 해서 모든 방법이 유효하다는 것은 아닙니다. 단지 생각나는 것을 나열한 것입니다.

지금 바로 내 눈 앞에 보이지 않을 뿐이지 나와 비슷한 문제로 고민했던 수많은 연구/개발자들이 존재하고 있으니 일부는 이미 깔끔한 해결책을 찾아서 알려주고 있습니다. 미래는 이미 우리 곁에 와있지만 인식하지 못할 뿐이다라는 문구와 같이 많은 경우에 우리가 가진 문제의 해결책도 이미 누군가가 풀어놨는데 제대로 인지하지 못하고 있을 뿐입니다. 아직 검증하지도 않은 이런 아이디어를 글로 적는 것도 누군가에게 해결의 실마리를 줄 수 있지 않을까?라는 기대 때문이고, 이를 바탕으로 더 좋은 아이디어로 문제를 해결하고 그 과정과 결과를 논문이나 코드 등으로 공개한다면 조금은 더 좋은 세상이 되리라 기대합니다. 제 생각은 완벽한 해결책도 아니고 논의의 시작점도 아닙니다. 그저 이런 논의의 과정으로 더 많은 문제들의 해결책이 나왔으면 하는 바람일 뿐입니다. 그래서 때론 어리석은 생각도 적고 또 공개/공유하는 것입니다.

===
B: https://brunch.co.kr/@jejugrapher
F: https://www.facebook.com/unexperienced


신고

댓글을 달아 주세요

Share           Pin It
워드임베딩과 팩토라제이션을 설명한 지난 글에서 http://bahnsville.tistory.com/1139 저는 그 기술들을 크고 다양한 데이터 기반의 개인화 추천 data-rich personalization에 적용하는 것에 관심있다고 밝혔습니다. 이번에는 어떻게 개인화 추천에 활용할 수 있을 것인가?에 대해서 아이디어 차원의 글을 적습니다. 좀 naive할 수도 있음을 미리 밝힙니다.

불가능한 것은 아니지만 word2vec같은 워드임베딩 기술이나 SVD, NMF같은 팩토라이제이션 기술을 바로 개인화 추천에 이용하는 데는 한계가 있습니다. 유저별로 조회했던 아이템을 시간순으로 나열하고, 아이템을 word/vocabulary로 가정해서 아이템의 벡터를 만들 수 있습니다. 아이템 벡터의 cosine 유사도를 구해서 관련 아이템을 찾아내는 식으로 아이템 기반의 개인화 추천에 이용할 수가 있습니다. 또는 유저-아이템 행렬을 바로 팩토라즈해서 유저간, 아이템간, 또는 유저-아이템간의 연관도를 측정해서 추천하는 방식이 (추천 알고리즘 중에서) MF방식으로 알려져있습니다. 단순히 유저-아이템 sequence 또는 co-occurrence를 이용해서 추천에 사용할 수 있지만, 한정된 정보를 이용하는 데서 오는 한계가 명확히 존재합니다.

아래 그림은 워드임베딩과 딥러닝 기술을 이용해서 개인화 추천에 어떻게 적용할지를 설명하는 모델입니다. 그림에는 표시하지 않았지만 레이어 사이에 여러 은닉층이 있을 수도 있습니다. 이 모델의 핵심은 사용자와 아이템의 정보를 수치 벡터로 우선 표현하고, 다시 공통의 Latent Vector로 만드는 것입니다. 그렇게 만들어진 LV를 이용해서 유저간, 아이템간, 또는 유저-아이템간의 연관성을 계산합니다. 

유저 및 아이템 정보를 같은 체계인 Latent 벡터로 표현하는 네트워크 모델

** OUV/OIV, CUV/CIV, LUV/LIV: Original/Compressed/Latent + User/Item + Vector

첫번째 단계는 일단 사용자의 정보와 활동 이력 User History나 아이템의 설명 Item Description을 숫자 벡터 Original Vector로 표현하고, 다시 정형화한 Compressed Vector로 정제하는 것입니다. 먼저 사용자 정보는 사용자의 성별이나 연령, 거주지 등의 부가정보나 서비스에서의 행동 이력 (검색쿼리, 봤던 글이나 사진, 댓글, 좋아요활동, 구매 등)을 포함합니다. 텍스트나 ID로 표현되는 정보는 워드임베딩 기술로 벡터화, 사진/이미지는 CNN으로 벡터화 (또는 이미지에서 객체를 인식한 후 워드임베딩할 수도...), 또는 다른 형태의 정보도 수치벡터화 합니다. 아이템 정보도 비슷한 과정으로 Origina Vector를 만듭니다. 단순히 짧은 광고나 상품정보 뿐만 아니라, 장문의 컨텐츠나 관련 이미지 등을 벡터로 만든다면 벡터의 길이가 천차만별일 것입니다. 그래서 모든 유저 벡터 또는 모든 아이템 벡터의 길이를 맞춰주기 위해서 Original Vector를 Compressed Vector로 정형화할 필요가 있습니다. 압축된 CUV나 CIV의 길이가 같을 필요는 없지만 data loss가 크지 않다면 같게 만들어주는 것이 좋고, CV는 수백차원 이상으로 적당히 길어도 무관합니다. 짧을수록 실시간 연산에 용이하겠지만 정보 손실 information loss는 감내해야 합니다. 유저의 이력에서 시간이 중요한 요소라면 RNN을 사용하는 것도 괜찮고, 그저 전체를 스냅샷처럼 요약하는 것이라면 CNN으로 압축하는 것도 고려할 수 있습니다. (참고. 텍스트 convolution 방법: http://www.jmlr.org/papers/volume12/collobert11a/collobert11a.pdf Compressed Vector/Layer를 Convolution Vector/Layer로 불러도 될 듯.)
솔질히 말씀드리면, 이 부분에 대해서 구체적으로 어떤 기술을 어떻게 사용하면 좋을지를 고민/연구하지 못했습니다. 어쨌든 비수치형 데이터인 유저 및 아이템 정보를 간결한 수치벡터 CV로 표현합니다. 이번 글은 다음 단계에 초점을 맞췄지만 대부분의 기계학습에서 인풋을 어떻게 잘 정의/표현하느냐 (knowledge representation)는 기계학습의 성패에 결정적인 부분입니다.

위에서 CUV와 CIV의 길이를 같게 만들었만, CUV와 CIV의 내적 또는 코사인 유사도로 유저-아이템의 관계를 파악할 수 없습니다. 각 CV는 unsupervised로 구축했기 때문에 서로 간의 (CV벡터의 각 엘리먼트 간의) 연관성이 없습니다. 유저-아이템 행렬을 MF한 경우라면 사용자벡터와 아이템벡터의 내적이 곧 사용자와 아이템의 관계를 암시하지만, 위의 관계에서는 그렇지 않습니다. 즉, 사용자와 아이템을 표현하는 벡터의 길이만 같지 벡터의 각 element를 이루는 구성요소/방식이 서로 다릅니다. Bi-linear regression 모델을 이용해서 모든 '유저x아이템'의 계수를 측정할 수도 있지만, 앞서 말했듯이 CV는 수백차원의 벡터이기 때문에 데이터 차원 폭발 dimension explosion이 발생합니다. CUV과 CIV가 각각 100차원이라 하더라도 10,000개의 계수를 예측해야하는 문제가 됩니다. (처음에 유저 및 아이템 벡터를 만들려고 생각했을 때는 bi-linear regression을 고려했었지만 차원 폭발 문제가 우려돼서 포기함) 그래서, CUV와 CIV를 같은 조건으로 표현한 Latent Vector로 만드는 것이 다음 단계입니다.

CV는 여느 차원축소 dimension reduction 기술이 그렇듯이 unsupervised로 만들면 됩니다. 단 새로운 정보가 들어왔을 때도 기존의 변환 구조/결과를 크게 훼손하면 안 됩니다. 비슷한 정보를 가진 사용자는 결과 CUV가 비슷해야 합니다. A라는 사용자의 현재 CUV와 며칠 후 (행동 이력이 조금 추가/변경된)의 CUV가 크게 달라지면 안 됩니다. 데이터가 업데이트되면서 CV가 달라지겠지만 일관적이어야 한다는 것입니다. 한편, CV를 LV로 만드는 것은 이미 확보한 유저-아이템 관계를 이용한 supervised 방식으로 학습시킵니다. 즉, 어떤 사용자 U가 아이템 I를 구매했다는 정보를 이용해서 U의 CV를 LV로 변환 encoding하고 그 LV를 다시 CIV로 변환 decoding한 결과가 I의 CV가 되도록 학습시킵니다. word2vec처럼 LV가 유일한 은닉층일 수도 있고, 통상의 auto-encoder처럼 은닉층이 여러 겹일 수도 있습니다. word2vec의 skip-gram에서 입력 단어 벡터는 CUV가 되고 출력 맥락(단어) 벡터는 CIV가 되는 형태, 또는 번역할 언어의 문장을 CUV로 보고 번역될 언어의 문장을 CIV로 가정했을 때는 번역 시스템의 구조와 같습니다. 유저-아이템 네트워크를 처음 생각했을 때 NMT (Neural Machine Translation)과 개념상 구조가 같다고 봤습니다. NMT의 구조는 auto-encoder나 word2vec의 그것도 개념적으로 같습니다. 앞의 설명에서는 CUV-LV-CIV 순으로 학습시켰지만, 역순(CIV-LV-CUV)으로도 함께 학습시켜서 유저와 아이템이 동일한 LV체계를 갖도록 학습시킵니다. 그래서 CUV와 CIV의 차원을 같게 만들어야 한다고 적었습니다. (굳이 따를 필요는 없음)

중간을 많이 생략했지만, 사용자의 정보 및 이력을 LUV로 만들고, 아이템의 정보를 LIV로 표현했다면 추천 및 개인화에 필요한 모든 것이 끝났습니다. LUV1과 LUV2의 유사도를 구하면 사용자 U1과 U2의 유사도가 나옵니다. 즉, 나와 비슷한 취향의 사용자를 바로 확인할 수 있습니다. 비슷하게 LIV1과 LIV2의 유사도를 구해서 유사 아이템도 구할 수 있습니다. (유저-유저 또는 아이템-아이템 유사도는 그냥 CV의 연산으로 처리해도 됨) LUV와 LIV을 같은 식으로 표현했기 때문에 LUV와 LIV의 유사도를 이용해서 유저에게 가장 적합한 아이템들을 바로 선별할 수 있습니다. 그리고 한 가지 더 장점이 있습니다. 이제껏 단순히 유저-아이템 관계라고 설명을 했지만, 종류가 다른 아이템을 한꺼번에 학습시킬 수가 있습니다. 즉, 사용자 U는 컨텐츠 C도 봤고 광고 A를 봤다면 U-C, U-A의 관계로 학습시켜서 C와 A의 유사도도 측정할 수 있습니다. (설명을 많이 생략했지만...) 그래서 컨텐츠 C가 노출되는 화면에 다른 종류의 컨텐츠인 광고 A를 함께 노출시켜줍니다. 기존에는 단순히 사용자 U가 어떤 페이지에 접속했을 때 'U'의 정보만 고려해서 컨텐츠 C의 추천과 광고 A의 노출이 독립적으로 이뤄졌는데, 새로운 scheme에서는 C와 A가 같은 공간에서 LV로 만들어져서 LVc와 LVa의 유사도를 계산해서 문맥(현재 보는 컨텐츠)에 맞는 광고나 관련 상품 등을 노출할 수 있습니다. (유저와 무관한 맥락 광고를 제공. 물론 사용자를 고려했을 때 효과가 더 높겠지만...)

학습 Training
위에서 설명한 프레임워크가 제대로 작동한다는 것을 증명하기 위해서 어쨌든 CV-LV-CV (CLC)로 이어지는 네트워크를 supervised 방법으로 학습시켜야 합니다. OV에서 CV로 차원을 축소해서 정형화하는 바른 방법은 존재한다고 일단 가정합니다. CLC 네트워크의 구조나 가중치W 업데이트 방법 등은 보통의 ANN (MLP, auto-encoder, word2vec 등)과 동일해서 별도의 설명은 생략합니다. 관건은 어떤 데이터로 학습시키느냐입니다. 번역에서는 번역할 문장과 (인간이 번역한) 정답 문장이 존재하기 때문에 입력층에 번역할 문장을 넣고 출력층에 정답문장을 넣어서 W를 업데이트합니다. 추천에서는 이런 매핑 관계는 결국 유저-아이템 간의 interaction 유무를 정답세트로 봐야합니다. 예를 들어, 유저 U가 컨텐츠 A, B, C를 조회했다면 (U, A), (U, B), (U, C) [그리고, (A, U), (B, U), (C, U)]를 학습데이터로 보는 것입니다. 기존의 추천에서 사용하던 유저-아이템 행렬과 동일한 데이터입니다.

하지만 우려되는 점은 도메인마다 어느 수준까지를 유저-아이템 사이에 관계가 있다고 볼 것인가입니다. 광고를 예로 들면, 사용자 U가 광고 A, B를 클릭해서 광고주 페이지로 이동했을 때, 그 중에서 광고 B와 연결된 상품만을 구매(전환발생)했습니다. 광고를 클릭한 것만으로도 유저-광고를 연결해도 되는가 아니면 전환이 발생한 B만이 U에게 유효한 광고인가의 문제가 있습니다. 몇 년전까지만해도 트래킹 이슈가 있어서 클릭을 광고의 주요 지표로 봤지만 최근에는 실제 전환을 더 중시하기 시작했고 또 그에 따라서 다양한 트래킹 업체들이 등장했습니다. 하지만 전환 데이터는 여전히 수집의 어렵고 또 실제 전환 발생 빈도가 낮아서 데이터 양이 부족한 경우가 많습니다. 정답세트가 부족하다면 아무리 우수한 모델이 있더라도 제대로 학습시키지 못해서 좋은 성능을 기대하기 어렵습니다. 역으로 클릭 정보는 다소 많이 있지만 어뷰징을 포함해서 실제 매핑 관계가 아닐 가능성이 높습니다. ... 현실적으로 클릭과 전환을 모두 정답 세트로 사용하는 것입니다. 전환이 발생했다는 것은 이전에 클릭이 존재한다는 의미입니다. 그래서 클릭은 가중치가 1이 되고, 전환은 (클릭 1 + 전환 1) 가중치가 2가 됩니다. 전환에 더 fit한 모델을 만들면서 부족한 부분은 클릭으로 어느 정도 커버하는 형태입니다.

(바라건대 제대로 작동한다고 가정하고...) 일반적인 상품이나 컨텐츠 추천에서는 위에서 설명한 방법이 별로 문제될 것이 없는데 (제대로 동작한다면), 제가 지금 맡고 있는 광고는 추천과 결이 조금 다릅니다. 추천에서는 그저 1등 또는 상위 N개의 아이템만 선별해서 순서에 맞게 노출시켜주면 되는데, 광고에서는 예상CTR (Clickthrough rate)를 계산해야 합니다. 유저-아이템의 연관도가 높을수록 pCTR이 높게 나옵니다. 이는 보통 광고는 ecpm (expected cost per mille) 순으로 랭킹하는데, ecpm = pCTR * BA (Bidding Amount)로 계산되기 때문입니다 (보통 CPC광고에 한함). 즉, 유저와 아이템 (광고)의 연관도가 높거나 광고주가 높은 값으로 광고기회를 구매한 광고를 우선 노출시켜줘서 광고 플랫폼의 기대 수익을 높이는 방식입니다. 그리고 보통 과금액을 정할 때 Dutch auction으로 알려진 second-price로 과금합니다. 그래서 정확한 기대 CTR을 예측하는 것이 광고 사업에서 매우 중요합니다. (기대수익 계산과 과금액 산정이 일반 추천과 조금 상이할 수 있음) 그런데 앞서 설명한 방식에서는 CTR 수치를 얻지 못해서 기존 광고 시스템과 어긋나는 부분이 있습니다. 그런데 CTR이 유저와 아이템 간의 연관도 (즉 순서와 정도)를 나타내는 지표라면, 그냥 Sim(LUV, LIV)를 CTR의 대체제로 사용해도 크게 문제될 소지가 없지 않을까?라는 확신이 강하게 듭니다.

요즘은 기-승-전-딥러닝입니다. 이미지 객체 인식, 음성 인식, 자연어처리 등의 분야에서 딥러닝이 괄목할만한 성과를 냈습니다. 세계의 어딘가에선 딥러닝을 이용한 추천 시스템도 개발해서 활용하고 있으리라 봅니다. 논문이나 연구결과를 별로 못 봤는데, 글을 적으면서 좀 찾아보니 논문이 전혀없는 것은 아닙니다. 기존의 여러 알고리즘을 딥러닝에 맞게 변형한 것이나 딥러닝의 구조에 입력층만 잘 끼워맞춘 것 등의 논문들이 눈에 띕니다. 제가 구상한 것과 비슷한 구조의 논문도 눈에 띕니다. (참고. https://arxiv.org/pdf/1701.04783.pdf CV를 만드는 것까지는 유사하나 유저와 아이템 관계를 학습하는 부분에서 상이함) 직접 구현해서 테스트해보기 전까지는... 학교 다니면서 ANN을 야매로 공부했고, 3년 전에 딥러닝을 주목했고, 2년 전에 서베이 수준에서 딥러닝을 공부했는데, 추천에 딥러닝을 활용하는 방안에 대한 고민은 있었지만 팀을 옮기고 생각의 발전이 별로 없었습니다. 올해는 다시 공부하는 해로 정하고 이것저것 훑어보면서 다시 오래된 고민을 정리하고 있습니다. 실마리는 거의 다 찾았고 이젠 구현해서 테스트만 해보면...

... 직접 코딩해서 테스트해보기가 참 싫다. 내가 프로그래밍을 조금만 더 좋아하고 소질이 있었더라면 세상이 약간은 더 바뀌지 않았을까? 이게 글의 결론은 아닌데...

===
B: https://brunch.co.kr/@jejugrapher
F: https://www.facebook.com/unexperienced


신고

댓글을 달아 주세요

Share           Pin It
개인적으로 전문용어가 어색하게 한글화되는 것을 별로 좋아하지 않는데, regularization도 그런 경우에 속합니다. 적당한 한글 용어를 찾기가 어렵습니다. 인터넷에 검색해보면 '규제화'라고 번역한 경우를 봤는데 페널티로 모델 복잡도를 제어하는 방식에는 유효하지만 다른 방식에는 조금 어색한 표현입니다. '일반화'는 그냥 generalization를 번역한 것 같지만 또 한편으론 학습오류와 테스트오류를 합친 generalization error를 줄인다는 의미처럼 보여서 나름 합당한 면이 있습니다. '정규화'라고 번역한 경우도 있는데 개발자들이 많이 사용하는 regular expression을 정규식이라고 부르니 정규화도 타당한 번역이지만 데이터를 정규 분포를 따르도록 만드는 normalization, 특히 N(0, 1) 분포로 만드는 standardization을 뜻하는 것 같은 느낌이 강합니다. 적당한 한글 용어가 뭔지는 모르겠지만 이번 글에서는 regularization을 다루려고 합니다.

Occam's Razor (오캄의 면도날)라는 유명한 관용구가 있습니다. 일반인들에게는 조디 포스터가 출연한 <콘택트>라는 영화에 언급되면서 유명해진 용어입니다 (물론 일반인들은 인식하지 못하고 놓쳤을 가능성이 높겠지만...). 어떤 현상을 설명하는 두개이상의 주장이 있다면 간단한 쪽을 선택하라, 즉 복잡한 것을 잘라내라는 의미입니다. 다른 많은 분야에서 유용한 원칙이듯이 기계학습에서도 매우 중요한 원칙입니다. 예를 들어, y = ax + b정도의 몇 개의 변수와 간단한 선형식으로 표현이 가능하다면 굳이 더 많은 변수와 다항식이나 log, exp 등의 복잡한 항을 추가하지 않는 것이 바람직합니다. 그렇지만 적은 변수와 간단한 수식으로 표현이 불가능하다면 더 많은 변수와 다양한 표현력을 가진 항을 추가해서 모델의 설명도를 높여야 합니다. 하지만 충분한 설명도를 가지는 모델을 더 이상의 개선없이 복잡하게 만드는 것은 지양해야 합니다.

이런 상황에서 보통 등장하는 이슈가 'bias vs variance', 'training error vs test error', 또는 'underfitting vs overfitting' 논쟁입니다. 세가지가 모두 다른 것을 나타내지만 또 결국 하나로 귀결합니다. 모델이 얼마나 심플하면서 설명력이 있는가의 이슈입니다. 보통 편차bias가 낮은 모델은 학습오류가 낮고 overfitting됐을 가능성이 높고, 역으로 분산variance가 낮은 모델은 학습오류는 다소 높더라도 테스트오류가 낮고 덜 overfitting된 경우입니다. Underfitting인 경우에는 학습오류과 테스트오류가 비슷하겠지만 둘다 일정 수준 이상으로 높을 가능성이 많고 특별한 경우가 아니면 평균과 분산 모두 높을 가능성이 있습니다. 어쨌든 기계학습에서 편차와 분산, 학습과 테스트 오류, 피팅(학습)의 정도를 따지는 것은 너무 복잡하지 않으면서 설명도가 좋은 (낮은 평균과 분산, 작은 학습 및 테스트 오류) 모델을 찾겠다는 의지(?)입니다. 비슷한 성능을 보이는 모델이라면 구조가 간단한 것이 일반적으로 generalization error가 더 적을 가능성이 큽니다. 그리고 그런 모델을 찾는 것이 오캄의 면도날이자 기계학습자들의 목표입니다.

이렇게 모델의 설명도를 유지하면서 모델의 복잡도를 줄이는 것이 regularization이라고 보면 됩니다. 아래에는 일반적인 복잡도를 다스리는 regularization 방식에 대해서 간단히 설명하려 합니다.

1. Early stopping
모델이 복잡해지기 전에 막겠다는 것입니다. 즉, 모델을 만드는 초기 단계부터 계속 검증하면서 모델이 급격하게 복잡해지는 것을 막는 것입니다. 기계학습에서 보통 전체 데이터를 학습데이터 training data와 테스트데이터 test data로 나눠서, 학습데이터로 모델을 학습시키고 테스트 데이터로 학습된 모델을 평가합니다. 하지만 early stopping에서는 전체 데이터를 학습데이터, 검증데이터 validation data, 테스트데이터로 나눕니다. 학습데이터로 모델을 학습시킨 후에 검증데이터로 모델이 너무 복잡한지를 계속 체크하면서 검증데이터의 분산을 낮게 유지시킵니다. 그렇게 학습 및 검증된 모델을 최종적으로 테스트데이터로 모델의 예측력을 평가합니다. 하지만 이 방법의 문제라면 학습, 검증, 평가 데이터로 3등분(보통 7:2:1정도)해야 하기 때문에 데이터량이 조금더 많아야 합니다. 데이터량이 많아서 3등분하더라도 어떻게 나뉘느냐에 따라서 최종 모델의 예측력에 편차가 생길 수 있습니다. 어쨌든 모델을 만드는 초기부터 다양한 반례를 들어가면서 모델이 한쪽으로 치우치지 않도록 만드는 방법입니다.

2. Noisy input
Early stopping에서는 데이터를 3등분할만큼 충분해야 한다는 조건이 있습니다. 하지만 정답이 있는 데이터는 늘 부족합니다. 기계학습 발전 방향의 한축은 부족한 데이터를 극복하는 거였습니다. Bootstrap으로 랜덤 샘플링으로 cross-validation하는 것도 방법이지만, 가용한 데이터에 일부러 노이즈를 줘서 다양한 데이터로 뻥튀기하는 방법도 있습니다. 정답(Y)가 있는 데이터(X)에 약간의 노이즈를 붙여서 X'를 만들었을 때, 노이즈가 크지 않다면 X'의 답은 여전히 Y입니다. 이미지 데이터가 인풋이라면 이미지의 전체 중에서 일부만 crop한다거나 상하좌우로 뒤틀리게 만든다거나 역전 및 회전시킬 수도 있고, 이미지 전체에 랜덤 노이지를 추가할 수 있습니다. 이미지 데이터가 조금 손상됐지만 여전히 그 이미지가 가리키는 객체에는 변함이 없습니다. 이렇게 다양하고 풍성한 noisy 학습데이터(인풋스페이스)로 학습을 시키면 더 전체 데이터로 학습시키는 것과 비슷한 효과를 주게 됩니다. 신생아를 해롭지 않은 세균에 노출시켜서 면역력을 키우는 것과 같은 원리입니다. 하지만 오답 또는 오분류되는 샘플이 뻥튀기됐다면...
 
3. drop-out
복잡한 모델에서 일부 파라메터를 의도적으로 제거하는 방법도 있습니다. 변수가 100개인데, 학습할 때마다 일부 변수의 학습데이터에 null값을 준다거나 일부 모델 파라메터를 0으로 강제하는 방식입니다. 즉, 특정 변수나 일부 파라메터가 없더라도 모델 전체의 설명력은 떨어지지 않도록 학습시키는 것입니다. 인공망에서 일부 은닉층의 몇몇 노드를 불용화해서 다른 남은 노드들만으로도 괜찮은 결과를 만들어내도록 의도적으로 모델을 불구로 만드는 것입니다. (좋은 비유는 아니지만) 100명이 해야할 일을 일부러 평소에 가끔 90명에게 주고 훈련시켜서 갑작스레 몇 명의 결원이 발생해도 시스템은 정상적으로 작동하게 만드는 것과 비슷합니다. 단점이라면 여러 drop-out 조건에서 모델을 학습시켜야 하므로 학습에 소요되는 회수/시간이 늘어난다는 점입니다. 적당히 작은 모델이면 큰 문제가 아니지만 수백 수천대의 컴퓨터를 이용해서 며칠동안 학습시켜야하는 크고 복잡한 모델이라면 모델링 비용이 만만치가 않을 것입니다.

4. 복잡도 패널티
가장 많이 사용하는 방법으로 복잡도에 페널티를 주는 것입니다. 즉, 모델이 복잡해질수록 페널티가 커져서 목적식 loss function이 다시 커지도록 만드는 것입니다. 학습 효과가 페널티 때문에 다시 커지지 않는 범위까지 학습을 시키는 것입니다. 기계학습을 공부하면 L1 regularization과 L2 regularization이라는 용어가 종종 등장하는데, 이것이 모델 복잡도에 대한 페널티를 부여하는 것입니다. 회귀분석 regression에서 L1은 계수의 절대값의 합을 페널티로 제공하는 Lasso regression이고 L2는 계수의 제곱의 합을 페널티로 부여하는 ridge regression이 있습니다. 이런 shrinkage 방식으로 모델을 단순하게 만듭니다. 새로운 변수나 파라메터가 추가될수록 페널티가 커지기 때문에 무제한 늘리지 않는 선에서 모델 복잡도를 결정하게 됩니다. 참고로, 보통의 경우 미분가능 등의 이유로 제곱항을 많이 사용하지만, regression에서 절대값을 사용한 lasso는 때론 feature selection이라는 부가 효과도 있습니다. 

5. Pruning 및 feature selection
이걸 regularization이라고 부르는 것이 맞을지는 살짝 고민되지만, 불필요한 복잡한 가지나 변수 등을 쳐냄으로써 모델의 복잡도를 관리하는 것이니 포함합니다. Pruning은 보통 decision tree에서 많이 사용하는 방식입니다. 즉, decision tree를 100% 분류하도록 leaf node까지 모두 만들면 tree가 매우 커고 복잡해집니다. 그래서 오분류가 별로 크지 않는 선에서 중간 node로 합쳐서 아래쪽의 가지들을 쳐내는 방식입니다. 다른 모델에서도 feature selection 방식을 통해서 불필요한 또는 덜 중요한 변수들을 제거해서 모델을 만듦으로써 모델의 설명도를 어느정도 유지하면서 심플하게 만드는 것입니다.

6. Ensemble 
이건 regularization 방식은 아니지만, 복잡도를 다루는 한 방식이기 때문에 함께 적습니다. 위에서는 모두 복잡도를 줄이는 방식을 설명했는데, 앙상블은 오히려 복잡도를 더 증가시키는 방식입니다. 복잡도를 증가시켜서 복잡도를 낮춘다는 좀 아이러니한 방식입니다. 앙상블은 여러 모델을 만들어 합쳐서 하나의 큰 모델을 만드는 방식입니다. 배깅 bagging이나 부스팅 boosting도 큰 틀에서 앙상블이라 볼 수 있습니다. 앙상블은 개별 모델은 복잡해서 특수한 케이스에 대해서 틀릴 수도 있지만 여러/많은 모델들이 합의해서 결론을 짓기 때문에 틀릴 가능성을 낮추는 것입니다. 개인은 틀려도 집단은 틀리지 않는 일종의 집단지성입니다. 실제 decision tree를 배깅한 random forrest가 classification에서 state-of-the-art가 된 것은 우연이 아닙니다. 그리고 요즘 가장 핫한 deep learning도 매우 많은 선형/비선형 regression을 스태킹 및 앙상블한 것입니다. 모델의 복잡도를 잡는다는 것은 예상치 못한 실패를 막겠다는 것인데, 일부가 실패하더라도 더 많은 나머지가 실패하지 않으리라는 믿음이 앙상블을 만듭니다. 개별 모델의 복잡도는 잡는 것이 아니라 많은 모델을 이용함으로써 개별 모델의 복잡도를 무시하는 것입니다. 하지만, 앙상블의 개별 모델 및 전체 모델도 위에서 설명한 다양한 방식으로 regularization합니다. Deep learning에서도 모델의 강건성 robustness를 높이기 위해서 drop-out하면서 학습시키거나 의도적으로 노이즈를 준 adversarial sample을 이용해서 학습시키는 등의 regularization에 대한 여러 연구가 있습니다.

또 다른 방법들이 더 있겠죠...

Regularization이 모델을 깔금하게 만들면서 일반 오류 (학습오류 + 테스트오류)를 줄이는 좋은 방법입니다. 하지만 이것도 data-poor 시대의 유물이기도 합니다. 최적화 문제에서 가능한 모든 공간을 빠른 시간 내에 탐색할 수 있다면 -- 현실적으로 불가능하지만 -- 복잡한 최적화 알고리즘이 필요없습니다. 학습데이터가 표본 샘플이 아니라 전체 population이라면 오버피팅되는 것에 문제가 없습니다. 어차피 테스트할 샘플도 이미 학습데이터에 포함됐을 것입니다. 앞서 일부러 노이즈 데이터를 만들어내서 모델의 강건성을 높인다고 했듯이 전체 스페이스를 커버할 수 있는 데이터가 있다면 regularization이 필요없습니다. 데이터 디멘즌과 사이즈가 다르면 경험적 직관과 달라질 수 있습니다. 그럼에도 generalization error를 최소화하도록 모델을 regularize하는 것이 여전히 필요합니다.

Regularization를 뜻하는 가장 좋은 한글 용어가 뭔지는 여전히 모르겠으나 현재 문제가 변수 한두개로 해결되는 선형 문제가 아니라면 이 부분에 대해서 미리 공부해두는 것이 좋습니다. 

===
B: https://brunch.co.kr/@jejugrapher
F: https://www.facebook.com/unexperienced

신고

댓글을 달아 주세요

Share           Pin It
Word Embedding, Factorization, and Personalization
여러 가지 개념이 혼재돼있습니다. 단어의 원래 뜻과 다르게 해석한 여지가 있습니다. 이 글에서 설명한 것이 절대적으로 맞다고 생각하면 위험합니다. 저는 제게 필요한 것으로 아전인수격으로 정의, 사용했을 개연성이 높음을 미리 경고합니다. 한글화된 용어를 별로 좋아하지 않지만 필요에 따라서 (국내에서 통상적으로 사용하는 경우) 일부 용어는 한글화했습니다.

2017년은 나름 공부하는 해로 정하고 그동안 미뤄놨던 논문들을 읽기 시작했습니다. 벌써 4주차가 됐는데도 여전히 논문을 읽고 있으니 지금의 흐름은 나름 오래 갈 것 같습니다. 한동안은 업무에 필요하거나 주목받은 논문 한두편을 짧게 읽은 적은 있지만, 연구실에 있을 때처럼 그냥 손에 잡히는 논문이나 엮인 논문들을 계속 읽어가는 것은 참 오랜만입니다. 아무래도 딥러닝이나 AI와 관련된 논문들을 많이 읽고 또 오픈소스나 라이브러리를 내려받아서 실행해보는 것을 한동안 계속할 예정입니다.

최근에 관심있게 보고 있는 논문은 워드 임베딩 Word Embedding 관련 논문입니다. 더 구체적으로 2013년에 처음 소개된 후로 많은 연구자들과 개발자들의 주목을 받은 Word2Vec과 후속의 관련 논문들입니다. Word2Vec은 딥러닝 커뮤니티에서 자주 언급되는데, 학습 구조상으로 인공신경망 ANN을 닮았지만 엄밀히 딥러닝의 범주에 넣기에는 구조가 매우 간단합니다. 사전 (또는 vocabulary) 사이즈의 one-hot 인코딩을 인풋으로 받기 때문에 통상의 딥러닝의 인풋에 견줄만하지만 은닉층 hidden layer이 하나뿐인 매우 간단한 shallow 네트워크입니다. 그리고 인닉층의 activation function도 통상의 sigmoid나 ReLU 등의 비선형 함수가 아닌 그냥 선형함수를 사용하는 가장 심플한 MLP의 구조를 따르는, 그리고 딥러닝에서 pre-training에 많이 사용하는 auto-encoder를 많이 닮았습니다.

Word2Vec은 CBOW continuous bag of words나 skip-gram으로 학습을 하는데, 이것에 대한 자세한 설명은 생략합니다 (다음의 링크 참조). 그리고 word2vec의 메커니즘을 자세히 알고 싶은 분들은 word2vec을 처음 제안했던 Mikolov의 2013년 논문을 찾아보기 보다는 이후에 나왔던 Xin Rong의 'word2vec Parameter Learning Explained http://www-personal.umich.edu/~ronxin/pdf/w2vexp.pdf'를 찾아서 읽어볼 것을 권합니다. word2vec의 구조와 parameter update 방법/수식 등을 친절히 설명해놨습니다. (배경 지식없이 Mikolov의 논문을 보면 좀 욕 나옴.)

word2vec이 word embedding을 효과적으로 구현해서 많은 이들의 주목을 받은 후에, GloVe라는 알고리즘도 등장했습니다. (참고. GloVe: Global Vectors for Word Representation http://www-nlp.stanford.edu/pubs/glove.pdf) 자료를 찾아보면 GloVe가 단어를 벡터로 표현하는데 word2vec보다 낫다는 평도 있습니다. 일반적인 입장에서 볼 때 word2vec과 glove는 큰 차이는 없는 것같고, 필요하다면 둘 다 테스트해보고 자신의 문제에 더 맞는 것을 선택하면 됩니다. 이 둘이 어떤 차이가 있을까?를 조사하면서 'don't count, predict! http://www.aclweb.org/anthology/P14-1023'라는 논문을 읽었는데, 이 논문에서 word embedding 또는 word representation의 두가지 방식을 잘 설명해줍니다. (논문의 결론은 GloVe의 counting보다는 word2vec의 predictive가 더 낫다고...)

전통적으로 word embedding은 counting에 기반합니다. 보통 VSM vector space model로 알려진 N x M의 word-document matrix나 word co-occurrence를 표현한 N x N matrix를 만드는 것은 counting방식입니다. NM행렬은 문서로 단어를 표현하고, NN 행렬은 다른 단어로 단어를 벡터로 표현한 것입니다. 그런데, 이런 단어벡터는 보통 수십만 이상의 고차원으로 정의되기 때문에 데이터를 저장한다거나 벡터 연산을 하는데 실효성/실용성이 떨어집니다. 그래서 dimension reduction 기법을 사용해서 고차원 벡터의 의미를 최대한 유지하면서 저장공간도 줄이고 연산도 쉽게하는 저차원 벡터로 만듭니다. 그렇게 저차원의 단어 벡터가 통상 말하는 word embedding입니다.

저차원으로 줄이는 방식은 단어를 특정 카테고리로 매핑해서 카테고리 벡터로 표현하는 syntactic 방식이 생각하기에 가장 쉬운 방식일 듯합니다. 하지만 인위적으로 카테고리를 정하는 것이 만만치가 않고, 또 단어를 카테고리로 매핑하는 방식도 쉽다고는 말하기 어렵습니다. 물론 분류 classification 알고리즘을 사용하면 된다라고 설명하면 되지만... 서비스를 기획/개발하면서 카테고리 작업을 해보신 분들은 카테고리를 잘 정의하면 여러모로 좋다는 것은 잘 알지만, 그걸 깔끔하게 잘 만들기가 매우 어렵다는 것을 압니다. 처음에는 카테고리를 잘 정의했다고 생각하지만, 나중에 이상한 새로운 데이터가 출현했을 때 기존 카테고리와 맞지 않는 문제도 있고, 카테고리를 어느만큼 세밀하게 정의할 것인가 등의 많은 이슈들이 터져나옵니다.

Supervised 분류가 어렵다면, unsupervised를 고려할 수 있습니다. 그래서 클러스터 방식을 사용해서 군집화합니다. 그렇게 만들어진 클러스터1부터 클러스터c까지 매핑하면 c차원의 벡터를 만들 수 있습니다. 하지만, 클러스터 방식은 만들어진 벡터의 robustness에 의문이 생깁니다. 학습데이터가 바뀔 때마다 각각의 데이터가 다른 클러스터로 군집되면 같은 데이터가 다른 벡터로 표현될 수가 있다는 의미입니다. 그래서 기존의 클러스터 구조를 유지하면서 새로운 데이터를 수용할 수 있는 방식이 필요합니다. 그리고 클러스터는 분류와 개념상 더 비슷한/연결고리가 있는 것이라서 먼저 설명했지만, 가장 일반적인 방식은 PCA principle component analysis입니다. PCA는 행렬에서 고유값/고유벡터를 찾아서  분해하는 SVD singular value decomposition 메커니즘을 기본적으로 따릅니다. 이 SVD를 텍스트 마이닝에 바로 적용한 것이 보통 LSA/LSI Latent Semantic Analysis/Indexing입니다. PCA에서 principle과 SVD애서 singular,  LSA의 latent, 그리고 행렬의 eigen(고유)이 결국 같은 걸 의미합니다. 이를 통해서 고차원의 행렬을 저차원의 행렬들로 분해합니다.

SVD와 같이 행렬을 저차원으로 행렬의 곱으로 분해하는 것을 보통 matrix factoriztion이라고 합니다. 즉 행렬을 인수분해하는 것입니다. SVD는 3개의 행렬로 분해하지만, 최근에는 그냥 2개의 저차원 행렬로 분해하는 여러 방식도 많이 제안됐습니다. 대표적으로 Non-negative Matrix Factorization인데, 이는 원래 고차원 행렬과 저차원 행렬 모두 음수가 아닌 값으로 채워지도록 분해하기 때문에 붙여진 이름입니다. 어쨌든 NMF를 사용하면 고차원 행렬을 2개의 저차원 행렬의 곱으로 표현할 수 있습니다. Word-document matrix를 SVD로 인수분해하든 NMF로 인수분해하든 word 쪽의 저차원 매트릭스를 단어 벡터로 볼 수 있습니다. 이렇게 여러 가지 방법으로 저차원의 단어벡터를 만들 수 있습니다.

다시 counting vs predictve로 돌아가서, 이상에서 길게 설명한 word-document matrix 또는 word-co-occurrence matrix를 factorization하든 카테고리로 매핑하든 클러스터로 묶든 이런 co-occurrence 데이터로 단어벡터를 만드는 것이 counting 방식입니다. 반대로 word2vec은 알고 싶은 단어의 주변 context 단어들의 벡터로 표현하는 것이 predictive 방식입니다. 즉 컨텍스트로 의미를 유추/예측한다는 뜻입니다. 그런데, counting 방식에서 co-occurrence의 카운팅을 문서나 문장 단위가 아니라, word2vec처럼 로컬의 컨텍스트 단어로 window를 축소해서 계산한다면 counting방식이 predictve방식과 큰 차이가 날까?라는 의심이 듭니다. Co-occurrence를 카운팅할 때 global하게 볼 것인가 아니면 local로 볼 것인가의 차이인 듯도 한데... 실제 co-occurrence matrix를 로컬의 context만으로 표현할 수 있습니다. Window 사이즈를 어떻게 잡느냐에 따라서 로컬 정보만을 취할 수도 있고 글로벌 정보를 취할 수도 있습니다. 이건 k-NN에서 k의 값을 어떻게 잡느냐에 따라서 민감도가 달라지는 것과 크게 달라보이지 않습니다. 물론 연산방식이 달라서 결과가 다르게 나올 것 같지만, word2vec에서 사용하는 context만으로 co-occurrence를 구해서 MF든 GloVe든 구하면 결과가 얼마나 많이 다를지 살짝 의문이 듭니다.

... 제가 이런 고차원의 단어 벡터를 저차원의 단어 벡터로 표현하는 것에 관심을 가지는 것은 본격적으로 NLP나 텍스트 마이닝을 하겠다는 것보다는 예전부터 계속 해왔던 추천 그리고 광고랭킹에 이런 기술을 적용해서 효과를 낼 수 있다는 가능성 때문입니다. 단순히 사용자가 봤던 상품/컨텐츠 ID의 시퀀스를 word2vec이든 GloVe 알고리즘에 인풋으로 넣으면 상품/컨텐츠ID의 벡터가 나오고, 그 벡터의 유사도 계산을 통해서 관련상품 또는 관련 컨텐츠는 쉽게 추천해줄 수 있습니다. 기존에 사용하든 CF나 MF 방식도 결국 이걸 구현했던 것이니 별반 차이가 없습니다. 컨텐츠ID를 벡터로 표현해서 바로 적용하는 것도 있지만, 사용자의 벡터화를 통해서 개인화 추천에 바로 적용할 수도 있습니다. 첫째는 유사 사용자를 벡터 연산으로 바로 찾아낼 수도 있고, 사용자 벡터와 컨텐츠 벡터의 관계를 Neural Translation에서 사용한 것과 유사한 방식으로 찾아낼 수도 있습니다. 그리고, MF 추천 방식에서 원래 사용자 벡터와 컨텐츠 벡터의 곱으로 연관성을 측정했습니다.

현재 추천이나 광고랭킹 시스템이 고도화됐더라도 한 사용자의 모든 활동 이력을 raw data 수준으로 활용하는 곳은 별로 없다고 봅니다. 성별이나 연령, 또는 관심사 등으로 뭉뚱그려서 (앞서 설명한 카테고리 방식) 개인을 설명합니다. 그러다 보면 추정이 잘못된 경우도 빈번하고 카테고리에서 설명했듯이 개인의 히스토리가 온전히 카테고리로 매핑되지도 않습니다. 그리고 역으로 raw 데이터를 그대로 활용해서 추천에 이용하는 것이 가능하더라도 raw 데이터에는 outlier가 포함돼서 어느 정도는 데이터를 뭉게는 과정이 필요합니다. 사용자의 이력을 엄청나게 긴 벡터라고 생각한다면 이를 적절히 짧은 벡터로 만들 수 있다면 활용성은 무궁무진해집니다.

사람이든 객체든 그걸 설명하는 데이터를 앞으로 엄청나게 많아 질 것입니다. 하지만 데이터가 많아진다고 해서 그걸 모두 적절히 활용한다는 것은 아닙니다. 빅데이터라는 신드롬에 편승해서 데이터가 모이기만 하면 가치가 만들어지는 것 같은 신기루에 빠졌습니다. 하지만 모든 데이터는 적절히 관리돼고 또 처리될 수 있는 수준으로 압출돼야 비로소 가치적 행위로 이어집니다. 물론 고차원의 데이터를 그대로 활용할 수 있다면 문제가 없겠지만, 아직은 많은 곳에서는 적절한 양으로 요약해야 제대로 사용할 수 있습니다. 고차원의 데이터가 손실없이 저차원으로 표현된다면... 그런 측면에서 계속 word embedding 기술도 탐독했고 각종 factorization이나 dimension reduction 기술을 공부하고 있습니다. (하지만, 전 그걸 코드화하는 것에 참 부족해서... 그냥 늘 머리 속으로 공부만... 다행히 요즘은 오픈소스가 잘 돼있어서 직접 구현할 필요가 많이 줄어들었습니다. 하지만 가끔은 그걸 이용하는 게 더 귀찮을 때도... 최근 움직임 중 하나는 클라우드를 AIaaS로 활용하는 것도 있지만 좀 경계는해야 할 듯...)

오랫동안 여러 논문들을 읽으면서 여러 번 글을 적고 싶었지만 오늘 다양한 주제를 하나의 글로 만들었습니다. 여러 개념들이 일반적으로 통용되는 것과 다른 식으로 표현돼거나 또는 곡해한 부분이 있을 수 있습니다. 제 나름의 시각에서 해석한 것들이 많기 때문에, 이걸 원래 가지고 있던 의미를 다시 확인해보거나 자신의 문제나 시각에 맞도록 재해석하는 것이 필요합니다. 그것까지 제가 해줄 수는 없습니다. 물론 관련해서 도움을 요청한다면 또 다른 저의 시각에서 조언은 해줄 수는 있을지도...

word2vec을 다루는 많은 글들이 있습니다. 하지만 참 부족하다고 느꼈습니다. 단순히 word2vec의 결과로 벡터 연산을 할 수 있다느니 아니면 단순히 word2vec 오픈소스를 사용하는 방법만을 설명해놓은 중복된 정보가 너무 많습니다. 제가 늘 아쉬웠던 것은 실제 word2vec이 어떤 메커니즘/수식을 통해서 도출되는지였는데, 다행히 앞서 언급했던 논문 (word2vec explained)에서 많은 궁금증을 해결했습니다. 뿐만 아니라, word2vec을 통해서 단순히 단어의 벡터 연산 이상으로 어떤 곳에 어떻게 활용했는지를 정리한 글도 별로 보지 못했습니다. 인터넷이라는 공간이 긍정적인 면도 많지만, 때로는 너무 한쪽에 치우친 정보만이 넘쳐나는 공간이 돼는 듯도 해서 안타까움도 있습니다. 제가 많이 알지도 못하고 글재주도 부족하지만 조금은 다른 측면에서 글을 적으려는 이유도 이런 안타까움이 한몫했습니다.

다시 경고하지만, 제가 틀린 것을 적었을 수도 있습니다. 제가 이해한 것을 적은 것이니 잘못된 것은 걸러들으시고 또 알려주시면 감사하겠습니다.

===
B: https://brunch.co.kr/@jejugrapher
F: https://www.facebook.com/unexperienced


신고

댓글을 달아 주세요

Share           Pin It
데이터 마이닝이나 머신러닝, 인공지능 AI 등에 관한 심도깊은 얘기는 다루지 않는다. 내가 그런 심도깊은 일을 하고 있지 않기 때문이기도 하거니와 그런 내용은 학교에서 정식으로 배우거나 많은 연구 논문을 읽으면서 터득해야할 영역이다. 개인적인 요청이 있다면 그걸 위해서 가이드해줄 수는 있지만 이 티스토리에서 그걸 해결해줄 수는 없다. 하지만 2017년에는 공부 좀 하기로 마음을 먹었으니 필요하면 특별한 주제에 맞춰서 또는 머신러닝 알고리즘의 전반적인 것에 대해서 종종 다루려 한다. 계획이 그렇다는 것이지 몇 번을 다룰지는...

최근이라 적고 작년 2016년에 가장 큰 이슈가 됐던 강화학습과 GAN (Generative Adversarial Networks)에 대한 소개 또는 개념적 이해를 돕기 위해서 글을 적는다. 남들이 이해하도록 돕는다기보다는 스스로 정리하고 넘어가고 싶었다.

알파고 AlphaGo가 이세돌 9단을 4대1로 꺾은 이후로 가장 떠오른 단어 또는 개념은 강화학습 Reinforcement learning이다. 물론 알파고가 딥러닝 Deep learning에 기반한 인공지능 AI Artificial Intelligence지만, 딥러닝이나 AI라는 단어는 그전부터 언론에도 많이 등장했었다. 단지 알파고 충격 전에는 이런 용어에 대한 소비 니즈가 없었기 때문에 일반인들은 무시했을 뿐이다. 다른 것보다 강화학습이 더욱더 부각됐다는 의미다.

그런데 강화학습이라는 게 전혀 새로운 개념이 아니다. 사실 기계학습 Machine learning이라 부르는 대부분의 알고리즘 (또는 학습법)은 강화학습에 기반을 두고 있다. 강화학습은 어떤 액션에 대한 반응에 따라서 그 액션의 정당성을 얻느냐 못 얻느냐가 판별하고, 정당성을 얻은 액션은 향후에도 계속 하도록 장려받도록 훈련받는 것이다. 애완견에서 '앉어'라고 말한 후에 개가 실제로 앉으면 '간식'을 준다. 처음에 개는 앉어 명령어와 간식 사이의 연관성을 모른다. '앉어' 명령어에 우연히 앉아서 간식을 얻었다면, 그리고 반복적으로 '앉어' 후에 간식을 계속 받아먹는다면 개는 '앉어'와 '간식' 사이의 인과성을 발견한다. '앉어' 명령어에 앉으면 간식을 얻는다를 학습한 것이다. '앉어'는 액션이고 '간식'은 리워드다. 역으로 어떤 액션을 피하게 하는 페널티도 비슷한 메커니즘이다.

기계학습에서는 이런 과정을 데이터로 한다. 특히 지도학습 Supervised learning이 그렇다. Y = f(X)에서 f() 함수 (또는 모델)을 유추할 때, 주어진 X에 대해서 정답 Y를 뱉어내면 f() 함수를 제대로 유추한 것이고 그렇지 못하면 해당 유추를 무시하면 된다. 정답 Y가 있는 많은 학습데이터 training data을 가지고 적절한 f() 함수의 형태나 파라메터를 얻어내는 과정이 보상과 벌로 애완견의 액션을 인지시키는 훈련 과정과 같고 이것이 강화학습이다. 기계학습이란 것이 학습데이터를 잘 설명하는 모델을 만드는 (또는 기계를 학습하는) 것이고, 즉 학습된 기계는 학습데이터에 따라 움직인다. 그래서 학습데이터로 기계를 학습시킨다는 모든 알고리즘이 강화학습이라고 볼 수가 있다. 특히 딥러닝의 기초가 되는 인공신경망 Artificial Neural Networks의 학습과정을 강화학습이라고 말하지만, 다른 기계학습을 강화학습이 아니라고 말하는 것은 좀 이상하다.
** 강화학습에 관해 더 자세한 것은 다음의 텍스트북을 참고하기 바란다. https://webdocs.cs.ualberta.ca/~sutton/book/bookdraft2016sep.pdf

강화학습이라는 것이 기계학습에서 일반적인 것이라면 왜 알파고 이후에 강화학습이 주목을 받은 것일까? 단순히 기계를 학습하는 방법보다는 기계를 학습시키는 정답세트를 얻는 전략적인 과정에서 비롯했다고 본다. 그래서 그냥 강화학습이라고 말하기보다는 자기강화 Self-reinforcement라는 용어를 쓰는 게 맞지 않나?라는 생각을 한다. 기계학습이 결정적으로 실패할 때는 적당히 많은 정답세트가 없을 때다. 아무리 이론적으로 뛰어난 알고리즘이더라도 그걸 학습시킬 데이터가 없다면 기계학습은 실패한다. 기계학습의 승패는 정답세트를 얻느냐의 여부에 달려있다. 알파고가 수십년동안 수집한 대국기보를 가지고 학습했다지만, 그것만으로 인간을 이길 전략을 완벽히 마스터하는 것은 사실상 불가능하다. 현재까지 학습한 것을 바탕으로 사람과 직접 대국하면서 전략을 시험해보고 전략을 수정할 수도 있겠지만, 그럴려면 시간도 많이 걸리고 탑랭크 바둑기사들이 불완전한 기계를 상대해줄 가능성도 낮다. 이 부분에서 딥마인드 DeepMind는 자기강화라는 훌륭한 전략을 사용했다.

알파고 이전에 딥마인드는 오래된 아타리 Atari라는 게임을 학습시키면서 (자기)강화전략을 선택했다. 랜덤이든 어떤 규칙에 따른 것이든 아타리게임의 커서cursor를 이리저리 수없이 많이 옮기면서 점수를 얻는 법을 터득해 나갔다. 즉, 커서를 적당히 옮겨서 떨어지는 볼을 되받아쳤더니 그 볼이 위로 올라가서 벽돌을 부수면서 점수를 얻고, 커서가 볼을 되받아치지 못했을 때는 게임이 끝나버린다. 이런 무수한 임의의 움직임을 통해서 볼을 위로 보내면 점수를 얻고 떨어뜨리면 점수를 얻지 못한다는 것을 학습하고, 커서를 유효하게 움직이는 방법을 터득한 것이다. 수많은 시행착오 끝에 사람보다 더 뛰어난 점수를 얻게 된 것이다. 게임의 최종 점수, 즉 목적 함수가 있었기에 가능한 방법이다. 같은 전략을 바둑에도 적용시켰다. 단 바둑에서는 고득점이 아니라 고승률을 얻도록 목적함수를 설정했다.

기본적으로 사람들의 기보를 통해서 합습한 알파고와 그것의 클론을 만들어서 둘 사이에 대국을 펼친다. 완벽한 계산에 따라서 움직일 수 없으니 적당히 임의의 움직임도 가지는 전략을 갖는다. 그 둘의 대국에서 승리한 쪽의 전략은 받아들이고 패한 전략은 약화시킨다. 그렇게 한번더 승리한 전략을 가진 새로운 알파고가 만들어진다. 새로운 알파고는 이전 버전과 다시 대국을 펼친다. 새 버전의 알파고도 여러 전략으로 자신과 싸워서 이기는 전략을 취하고 지는 전략은 버린다. 이런 과정을 수만번, 수십만번 반복하면서 이기는 또는 빈틈없는 전략을 찾아가는 과정이 (자기)강화학습과정이다. 사람과 직접 대국하지 않고 (정답세트 데이터가 없이) 바둑에서 이기는 전략을 찾아간 것이다. 알파고에서 자기강화의 개념을 빼버리고 단순히 강화학습이라고 설명하면 안된다는 걸 말하고 싶었다.
** 알파고의 강화학습은 알파고 논문을 보면... http://airesearch.com/wp-content/uploads/2016/01/deepmind-mastering-go.pdf

여담. (일반적인) 강화학습에서 초기값와 임의성은 전역최적화 Global optimization 때문에 매우 중요하다.

2016년도 초반에는 자기강화학습이 유명해졌다면 후반에는 GAN이라는 게 주목받았다. 2016년 12월에 열린 NIPS 학회에서 GAN이 튜토리얼로 소개됐는데, 앞서 설명한 알파고의 자기강화전략과는 또 다른 재미있는 전략으로 정답세트 없이 (또는 적은 정답세트로) 기계를 효과적으로 학습시키는 전략을 소개했다. GAN은 Generative Adversarial Networks의 약어인데, 각각이 중요한 의미를 가진다. 먼저 Network는 그냥 신경망이나 아니면 일반 모델정도로 이해해도 충분한 것 같다.

기계학습에서 Generative라는 용어가 등장하면 Discriminative라는 용어도 함께 등장한다. 이 두 용어의 개념을 여러 번 찾아보고 이해하려 했지만 논문을 읽을 때는 '아 이런 개념이었구나'라고 하다가 또 금새 '두개의 차이가 뭐지?'라고 하곤 했다. 모든 기계학습은 generative거나 discriminative다. 그냥 사전을 찾아보면 '생성적인'과 '식별하는'정도의 뜻을 가졌는데, 이것만으로 무슨 개념인지 이해하기 어렵다. 앞서 설명했듯이 기계학습은 주어진 데이터를 바탕으로 학습한다. Discriminative는 주어진 그 데이터의 현상만을 가지고 판별하는 것이라면, generative는 그 데이터 이면에 현재 이런 현상을 만든 이유 (또는 모델, 함수)가 있다고 가정하고 그 이유를 찾는 것이다. 설명이 좀 거시기하다. 예를 들어, 주어진 데이터만으로 'X > 5이면 Y = 1이고 X <= 5이면 Y = 0이다' 식으로 규칙 (바운더리)를 찾아내면 discriminative 방식이다. 하지만 generative는 X가 어떤 함수 -- 보통은 분포 distribution -- g(z)에 따라서 생성됐다고 가정하고 g(z)의 모형과 파라메터를 찾는 것이다. 클러스터링에서 가장 기본이 되는 k-means 알고리즘은 discriminative이고, 보통 gaussian 분포로 가정해서 EM expectation maximization 알고리즘으로 그 분포의 파라메터를 찾아가는 알고리즘은 generative다.
** GAN의 generative의 의미가 일반적으로 기계학습에서 사용하는 generative인지 여부는 좀 헷갈린다. (좀더 공부한 후에...)

마지막으로 adversarial이 GAN의 핵심이다. Adversarial은 반대의 또는 대립관계가 있는 등으로 해석할 수 있다. 알파고의 강화학습은 똑같은 목적을 가진 알파고와 알파고 클론 간의 경쟁을 통해서 더 나은 전략을 찾아가는 과정인데, GAN은 서로 다른 목적을 가진 기계끼리 경쟁하면서 더 나은 전략을 찾아가는 과정이다. 대표적으로 위조범G과 위작감별사D다. 예를 들어, 피카소의 그림은 매우 비싸게 팔린다. 만약 명화위조범이 피카소의 화풍으로 왁벽히 똑같은 그림을 그려서 그걸 피카소가 직접 그린 그림이라고 판매를 한다면 어떻게 될까? 반대편에서는 구입하기 전에 그 그림이 진품인지 위작이지를 알고 싶어할 것이다. 그래서 GAN은 위작을 만드는 generator G와 위작을 판별하는 discriminator D를 별도로 학습시켜서, G는 D를 속이도록 D는 G의 속임수를 찾아내도록 만드는 것이다. 자기강하학습에서는 자기 자신과 싸우면서 더 좋은 전략을 찾아가지만, GAN에서는 자신과 경쟁 관계가 있는 상대방과 경쟁하면서 전략을 향상시키는 것이다. 게임이론에서 말하는 내쉬평형을 찾는 일이라서 어렵다고 한다. 그리고 아직은 초기라서 연구하고 해결해야할 것들이 많고, 새로운 아이디어가 쏟아져나오고 있다고 한다.
** GAN에 대한 더 자세한 설명은 NIPS 2016 Tutorial 논문 참조: https://arxiv.org/abs/1701.00160

기계학습의 승패는 양질의 정답세트를 얻느냐 못 얻느냐에 달려있다. 하지만 양질의 정답세트를 얻는 것이 때로는 불가능하고 가능하더라도 리소스가 많이 들어간다. 그래서 제한된 학습데이터로 더 좋은 알고리즘을 만드는 것이 많은 연구자들의 목표였다. 아니면 비지도학습 unsupervised learning처럼 애초에 정답세트가 없이 제한된 범위 내에서 문제를 해결하려고 노력중이다. 중간에 semi-supervised learning이 존재해서 적은 양의 정답세트로 나름 괜찮게 작동하도록 학습시키는 방법도 있다. 하지만 결국 더 많은 정답세트를 이길 수는 없다. 그런 측면에서 알파고가 채택한 자기 자신과 싸우면서 더 좋은 전략을 찾아가는 방식이나 GAN이 채택한 경쟁 관계의 상반된 모델을 만들어서 전략을 수정해가는 방식이 참 흥미롭다.

강화학습이나 GAN까지는 아니더라도 부족한 정답세트를 극복하기 위한 다른 여러 방법들이 있다. Semi-supervised 중에 하나인 active learning (다른 의미로 사용되는 경우도 있음)도 일종의 앙상블 방법인데, 두개의 다른 learner가 서로 다른 결과를 예측하면 어느 예측이 맞는지 사람에게 확인받아서 모호한 케이스에 대해서 정답세트를 추가하는 방식이다. 위에서 설명한 것보다는 좀더 아날로그적인 방식이지만 액티브러닝을 소개받았을 때도 참 재미있다고 생각했었다. 일반적으로 두개의 classifier가 같은 답을 내놓으면 그게 정답이겠거니라고 생각하겠지만, 역으로 둘다 틀린 답변을 내놓았을 가능성도 있다. 그래서 둘이 다른 판정을 내린 사안에 대해서만 다시 슈퍼바이저 (인간)이 투입돼서 정답 여부를 가늠하는 겁니다. (처음 적을 때 이 문단은 없었지만, 함께 언급해도 괜찮을 것 같아서 추가함)

당장 내가 하고 있는 업무에서 자기강화방식이나 GAN방식을 사용할 수 있을지? 또는 어떻게 사용할 수 있을지는 아직 잘 모르겠다. 내가 앞으로 머신러닝 분야에서 더 깊은 연구를 하거나 새로운 알고리즘을 개발할 가능성은 낮지만, 다른 차원의 문제에서 이런 비슷한 전략으로 문제를 해결하는 실마리를 얻을 수 있지 않을까?라는 생각에서 좀 길게 글을 적었다.

===
B: https://brunch.co.kr/@jejugrapher
F: https://www.facebook.com/unexperienced


신고

댓글을 달아 주세요

  1. Favicon of http://jyyang.tistory.com BlogIcon acon 2017.04.24 14:12 신고 Address Modify/Delete Reply

    흔히 기계학습에서는 Supervised Learning, Unsupervised Learning, Reinforcement Learning으로 나누는걸로 알고 있는데요, RL은 엄밀히 말하면 지도학습이나 비지도학습과는 다른 분류로 나눠야 하는 것 아닌가요?

    • Favicon of http://bahnsville.tistory.com BlogIcon Bahniesta 2017.04.24 15:20 신고 Address Modify/Delete

      일반적으로 RL을 별도의 분류로 보는 건 맞지만, 그냥 RL을 리워드(함수)도 결국 슈퍼바이즈드의 라벨과 큰 차이가 없을 수도 있습니다. 관점의 차입니다. 특히 말하고 싶었던 것은 강화 프로세스가 요즘 언급되는 RL만을 의미하는 것은 아니라는 것입니다.

Share           Pin It

블로그 방명록을 통해서 또 질문이 들어왔습니다. 개별적으로 답변할 수도 있지만 비슷한 고민/의문을 가진 분들을 위해서 공개적으로 글을 적습니다. 질문을 요약하면 아래와 같습니다.

1. 빅데이터 분야로 진출하기 위해서 인문학부생으로서 컴퓨터공학과와 통계학(수학) 중에서 어느 쪽으로 전과/복수전공하면 좋을까요? 

2. '빅데이터'에 대한 부정적 시각도 많은데 관련된 미래 직업/산업에 대해서 어떻게 전망하시나요?

한줄 답변

  1. 컴퓨터 공학과
  2. 표지가 바뀐 고전인지 세련된 표지의 잡지인지는 책자을 열어봐야 안다. 그리고 고전도 시대정신을 따른다.


개인이 처한 모든 상황과 배경을 모르기 때문에 원하는 답변이 아닐 수도 있고, 또 여러 생각으로 길게 적다보니 중언부언할 수 밖에 없음을 양해바랍니다. 철저한 계획이 아닌 어쩌다 보니 지금에 이른 (데이터 분석업을 하는) 사람으로서 제 경험만으로 진로상담해주는 것은 부적합하다고 보지만...

데이터 과학을 하기 위해서 컴퓨터 기술과 수학/통계 지식이 중요하다는 것을 알고 있다는 것에서 매우 고무적입니다. (개인적으로는 도메인 경험을 더 중시하는 입장이지만, 현장의 문제를 확인한 후에 그것을 해결하기 위해서 다시 필요한 기술과 지식을 익히는 것이 자연스러우나 현실적으로 불가능한 구조입니다.) 어쨌든 데이터과학자가 된다는 것은 적당한 컴퓨터를 다루는 기술이 있고 (일반적으로 프로그래밍을 의미함) 적절한 수학 지식을 갖췄다는 의미입니다. 여기서 자신의 진로 방향에 따라서 수학을 잘 아는 컴퓨터공학자가 되느냐 아니면 컴퓨터를 잘 다루는 수학자가 되느냐에 따라서 데이터 과학자로서의 자신을 정의할 수 있습니다.

데이터 과학을 위해서 컴퓨터와 수학이 필요하지만, 모든 컴퓨터 기술이 데이터 과학에 필요한 것도 아니고 모든 수학 커리큘럼이 데이터 과학의 기초가 되지도 않습니다. 모든 학문이 서로 연결됐기 때문에 많이 알수록 다양한 측면에서 도움이 되겠지만, 현실적으로 컴퓨터 공학의 일부와 수학/통계학의 일부를 접목한 것이 데이터 과학입니다. 데이터 과학이라는 별도의 학과가 없는 상황에서 -- 이론적 연구자가 되기를 희망하는 것이 아니라면 -- 수학/통계학을 잘 아는 컴퓨터 공학자가 되는 것이 데이터 과학자가 되는 길이라고 봅니다. 회사에 취직해서 실생활의 문제를 해결하는 것이 진로 방향이라면 컴퓨터공학과로 진학해서 필요한 수학/통계학과 과목을 수강하는 것을 추천합니다. 특히 대학원 진학도 염두에 두고 있다면 데이터 과학을 하는 수학연구실은 (거의) 들어본 기억이 없습니다.

컴퓨터 사이언스가 수학의 한 분야에서 시작했고 다시 데이터 과학은 컴퓨터 공학의 큰 부분이 돼고 있습니다. 결국 데이터 과학은 수학을 기반으로 한 컴퓨터 공학의 분야로 보는 게 맞을 듯합니다. 수학/통계 지식이 데이터 과학을 하는데 중요하지만 컴퓨터 기술은 오늘 날의 데이터 과학에 필수불가결한 요소입니다. 쉽게 사용할 수 있는 많은 통계 패키지와 데이터 라이브러리들이 흔해졌지만... 실질적으로 오늘날과 같이 데이터를 활용하는 분야에서는 수학/통계학자보다는 컴퓨터 공학자의 역할이 더 적합하다고 봅니다. 왜 통계학자가 빅데이터에 실패했는가?와 같은 류의 글들이 몇 년 전에 여럿 있었다는 것만으로도 데이터 과학에서의 사고의 틀 및 기술세트가 무엇인가를 잘 설명해준다고 봅니다.

오늘날 데이터 과학이 주목을 받는 것은 실생활의 문제와 밀접하게 연결되면서 부터입니다. 이론이 연구실을 벗어나서 실용이 되는 과정에서 데이터 과학이 빛을 발하고 있습니다. 정보 지식 사회에서 '실용'이라는 것은 결국 컴퓨터화를 뜻하고, 그걸 달리 말해서 프로그래머블 programable을 뜻한다고 봅니다. 생각을 컴퓨터 언어로 표현할 수 있어야 한다는 뜻입니다. 데이터 과학도 결국 수학이 컴퓨터 언어로 번역됐기 때문에 가능한 분야입니다. 그리고 두번째 질문과 연결이 되는 부분이기도 한데, 지금은 데이터 과학과 관련한 수많은 오픈 소스와 라이브러리들이 넘쳐나고 있고 그걸 어떻게 잘 활용하느냐라는 엔지니어링의 문제가 됐습니다. 순수 수학자가 되는 것이 꿈이 아니라면, 그런데 데이터 과학이란 게 학문보다는 실용의 X라는 점을 고려한다면...

길게 적었지만, 지금 구체적으로 어떤 상황에 처해있고 개인적으로 어떤 계획을 가지고 있는지를 잘 모르지만... 두개의 선택지만 존재한다면 컴퓨터 공학을 추천합니다. 대부분의 데이터 및 인공지능 관련 연구 및 발전은 컴공과에서 나오고 있습니다. 아주 심도깊은 연구 (새로운 알고리즘을 개발한다거나...)를 하기 위함이 아니라면, OR/최적화 관련 교수님이 여럿 있는 산업공학과도 인문학과생에게는 더 편할 수도 있습니다. (산업공학이 데이터과학을 위해서 좋다는 것이 아니라, '현재 학교의 산업공학과에서 OR/최적화 등에 강점이 있다면'을 뜻함.)

'빅데이터'가 마케팅 용어라는 점에는 저도 전적으로 동의합니다. 하지만 빅데이터라는 용어가 탄생될 수 있었던 사회적(?) 환경을 봐야 합니다. 1~20년 전에도 데이터 분석이라는 분야는 존재했지만 왜 갑자기 빅데이터라는 이름을 불리게 됐을까?를 생각해봐야 합니다. 말 그대로 '빅' 데이터라 부를만한 데이터들이 생겨나고 있고 또 적절히 그걸 다룰 수 있어졌고, 그래서 과거에는 상상도 할 수 없었던 것을 이제 할 수가 있게 됐습니다. 데이터의 종류와 양이 기하급수적으로 늘어났고 또 그걸 처리할 수 있는 다양한 기술과 인프라를 갖게 됐습니다. 별로 섹시하지도 않은 '빅데이터'라는 용어가 등장했다는 것은 -- 물론 일부에서는 자신의 기술세트에 대한 생명연장인 경우도 존재하고 거짓 데이터 에반젤리스트들이 존재하지만 -- 단순히 포장지를 바꾼 것만은 아닙니다. 물론 빅데이터라는 용어는 이제 식상해져서 또 새로운 용어를 찾을 것이고, 최근에는 인공지능과 결합해서 새로운 포장지를 찾고 있는 것도 사실입니다. 하지만 이는 역설적이게도 데이터 및 그걸 활용하는 것은 몇 십년 전 과거부터 오늘날, 그리고 앞으로도 계속 필요하다는 것을 보여주는 것입니다. 마케팅을 위해서 책 표지를 항상 바꾸는 것은 잘못된 관행이라 할 수 있지만, 표지가 바뀌었다고 해서 내용이 쓰레기라고 부를 수는 없습니다.

사실 저도 나름 데이터 과학을 하고 있다고 말하지만 -- 최근에는 조금 다른 업무를 하고 있지만 -- 이 분야의 전망, 더 정확히 말해서 직업적 안정성에 대한 미래는 잘 모르겠습니다. 예전에는 그냥 코딩만 하면서 서비스를 구축하던 친구들이 최근 쏟아지는 데이터 관련 오픈소스를 이용해서 데이터 분석 또는 데이터 기반의 서비스를 쉽게 만드는 모습을 보면서 과연 나는 앞으로 무얼 할 수 있을까?를 매일 고민합니다. 데이터 업무가 점점더 쉬워지면서 소위 일반 개발자들이 데이터 개발자가 되는 이 시대에, 내가 지금 다시 프로그래밍 기술을 더 익혀서 그들보다 더 나은 데이터 과학자가 될 수 있을까?라는 의심이 듭니다. 데이터 과학자라는 저의 입지보다 어쩌면 데이터 개발자라는 그들의 입지가 더 커지고 있는 것을 부인할 수 없습니다. (<== 이 현상에 문제가 없다는 것은 아님) 일반론으로 돌아가서 지금 각광을 받고 있는다고 해서 미래가 안전한 것은 아닙니다. 그건 지금은 없어진 많은 과거의 직업이 증명해줍니다. 원론적으로 돌아가서 '과연 내가 뭘 하고 싶은가?', 즉 꿈이 무엇인가의 문제이지 이 직업에 미래가 있는가?의 문제가 아닙니다. 산업이 무너져도 장인은 남을 수 있습니다. 직업의 측면으로 데이터 과학을 보는 것이라면 -- 세상의 모든 다른 직업들과 마찬가지고 -- 이 직업은 미래가 없습니다. 직업은 도구일 뿐입니다.

냉정하게 생각해보시기 바랍니다. 이미 인문학부생이라고 밝혔습니다. 즉, 나이는 20대에 접어들었고 고등학교 때는 이과가 아니었을 가능성이 큽니다. 문과였다면 더 어렸을 때부터 수학이나 과학을 싫어했을 가능성이 큽니다. 지난 5년 또는 10년 동안 수학이나 과학보다 인문학을 더 좋아했던 20대 초반의 인문학과 학생과 어릴 때부터 과학영재라는 소리를 들으면서 자라나서 지금 컴공과나 수학과에 진학한 학생이 있는데, 둘다 데이터 과학자 -- 직업의 안정성을 떠나서 -- 가 되고자 한다면 누가 더 잘 할 수 있을까요? 후자가 더 유리할 수 밖에 없습니다. 하지만, 무엇을 위해서 데이터 과학자가 될 것인가?라는 질문 why으로 돌아가서 생각한다면 결과는 다를 수 있습니다. 예를 들어, 전자의 학생이 소설가가 꿈이었는데 데이터 기반의 인공지능 소설창작 기계를 만들기 위해서 데이터 과학자의 길로 접어든다면 얘기는 달라지지 않을까요?

새로운 포장지를 계속 만들고 있다는 것은 최후의 발악일 수도 있지만 책 표지만 바꿔도 여전히 유효하기 때문일 수가 있습니다. 데이터 과학은 아직은 후자에 가깝습니다. 하지만 직업적 안정성이라는 측면으로 데이터 과학을 선택하겠다면 더 잘 할 수 있고 더 좋아하고 더 자신만이 해야하는 직업을 찾는게 낫습니다. 언론에서 '미래의 유망 직업' 등의 소개글도 그걸 적은 사람이 한번 더 기자 코스프레를 할 수 있게 해주는 것 뿐이지, 그걸 읽는 독자나 그들의 자식들의 미래 먹거리를 걱정하고 알려주는 것이 절대 아닙니다. 로봇과 인공지능이 시대에 안정적인 직업은 없습니다. Absolutely.

저는 당신의 꿈을 응원합니다.


=== Also in...

F: https://www.facebook.com/unexperienced

신고

댓글을 달아 주세요

Share           Pin It
새해가 되면 으레 없던 새해결심이 생기기 마련입니다. 현실성이 없지만 가장 현실적인 소망으로 운동하자 (다이어트, 금연, 금주 등 포함)와 공부하자 (기술, 취미, 경력 등 포함)일 것입니다. 오늘은 두번째 특히 연구와 관련해서 어떤 것을 어떻게 읽을 것인가에 대해서 적으려 합니다. 기술직군에 속하지만 프로그래밍은 제 전문 영역이 아니니, 더 구체적으로 일단 데이터마이닝이나 머신러닝을 공부하는 것이라고 가정하고 글을 적습니다.

어떤 것을 읽어야할까? 또는 어떤 것을 읽지 말아야할까? 지극히 주관적인 생각입니다.

1. 한글 문서는 피한다.
블로그 등에 소개된 가벼운 글이나 급하게 한글문서를 찾아볼 수는 있지만, 장기적으로 한 분야를 마스터하는 것이 목표라면 어렵고 지루하더라도 가급적이면 영문 (논문이나 책)으로 공부하기를 권합니다. 한글 무시가 아니라 이걸 제1원칙으로 둔 이유는 용어 때문입니다. 용어가 개념입니다. 한글로 제대로 표현된 전문용어가 적습니다. 순수 한글 용어는 거의 없기도 하고, 번역하더라도 (일본식) 한문 용어가 대부분입니다. 어설픈 한자 용어를 접하는 것보다는 처음부터 영어 용어에 익숙해지는 것이 좋습니다. 적절한 예는 아니지만, 고등학교 때까지 파동이 중첩되는 현상을 '간섭'이라고 배웠습니다. 그런데 대학에서 원서로 일반물리를 다시 배울 때 interference라는 용어를 사용했습니다. 한동안 둘 사이에 연결하는 것이 쉽지 않았습니다. 한글로 바꾸면 쉽게 이해되는 경우도 종종 있지만, 가능하면 원어 그대로의 개념을 흡수하는 것이 장기적으로 좋습니다. 프로그래밍 스킬이나 노하우, 또는 단순 읽을거리는 한글/번역 문서도 많지만 심도있는 연구결과는 대부분 영어로만 제공돼서 결국 영어 문서/논문을 읽게 될 가능성이 큰데 초반에 한글로 습득한 지식이 오히려 학습에 장애가 될 여지가 있습니다.

2. 너무 짧은 논문은 피한다.
새로운 분야를 처음 접하면서 두꺼운 논문이나 책은 좀 부담스럽습니다. 그래서 2~3 페이지짜리 짧은 논문으로 시작하는 경우가 있습니다. 하지만 제가 볼 때 이건 별로 바람직한 방법은 아닙니다. 단순히 문서 길이가 짧으면 빨리 읽을 수 있다고 생각하겠지만, 논문이 짧다는 것은 내용이 축약됐다는 의미입니다. 해당 분야에서 일반화된 개념이나 용어에 대한 설명을 생략하거나 진행 및 풀이 과정 없이 결론만 제시하는 경우가 많습니다. 나름의 기승전결을 가진 논문이더라도 초보자들에게는 논리적 비약이 심할 수 있습니다. (보통 매거진에 소개되는) 쉽게 쓰여진 짧은 글들도 많겠지만, 개념과 내용이 압축된 결과가 짧은 논문입니다. 결국 그걸 이해하기 위해서 몇 배나 많은 다른 논문들을 읽어야 합니다. 그래서 적당히 긴 (10 페이지 전후) 논문들을 먼저 읽어으면서 읽기 연습을 하는 것도 중요합니다. 길다고 무조건 쉽게 풀어 적었다는 의미는 아닙니다.

3. 리뷰 페이퍼를 활용한다.
보통 리뷰 논문은 좀 길어서 (2~30 페이지 이상) 초보자들을 기죽이기도 합니다. 하지만 한 분야를 마스터하기 위해서는 그 분야 전체를 아루르는 지식을 가져야 하는데, 한명의 개인이 관련된 모든 연구를 진행 및 리뷰할 수 없기 때문에 먼저 그 분야에 오래 몸담았던 분들이 적어놓은 리뷰 페이퍼를 읽어야할 때가 옵니다. 논문이 길고 많은 개념들이 제한된 공간에 꽉 차있기 때문에 극초보자들은 어려움을 겪을 수도 있지만, 한 분야의 역사 및 발전 방향을 저자의 관점에서 체계화해놓은 것이어서 그 분야의 전체를 조망하는데 큰 도움이 됩니다. 이런 리뷰 페이퍼를 읽으면서 그 논문에서 소개하는 주요 엮인 논문들을 읽어가면 이 분야가 어떻게 발전해왔고 현재 부족한 점은 어떤 것이고 앞으로 어느 분야에 더 집중해야하는지를 알게 되고, 그러는 과정 속에 자신만의 체계를 갖춰갑니다. 조금 길게 느껴질 수 있지만 그 분야를 잘 소개한 리뷰 페이퍼 몇 편은 어느 순간에는 잘 습려해두면 도움이 됩니다.
리뷰 논문이 그 분야를 집대성해놓은 것은 맞지만 한두편의 논문에 지나치게 편중되면 안 됩니다. 그 논문이 전체를 아우를 수도 없고 그 저자들의 생각과 체계가 완벽하다고 볼 수도 없습니다. 과학 논문이더라도 하나의 검증된 의견으로 보는 게 더 맞습니다. 특히 머신러닝 분야에서 절대적으로 옳은 알고리즘이 없고 늘 새로운 도전에 직면하기 때문입니다. 학문이라는 것은 넓게 보지 못하면 깊게 볼 수가 없고 또 깊게 보지 못하면 넓게 볼 수가 없습니다.

4. Text book을 활용한다.
최신 기술을 연구하는 사람들이 흔히 하는 실수 중에 하나가 최신 논문만을 찾아읽는다는 점입니다. 거인의 어깨 위에 서지 않고는 더 멀리 볼 수가 없습니다. 최신의 연구 트렌드도 지금까지의 누적된 연구 결과 위에서 해석됩니다. 텍스트북이 리뷰페이퍼와 비슷한 역할을 하겠지만, 텍스트북은 더 기초적인 것부터 시작해서 그 분야를 종합해서 정리해주기 때문에 수백 페이지의 텍스트북을 한두권 마스터하는 것이 전체 연구의 틀을 잡아줘서 결국에는 큰 도움이 됩니다. 다만, 텍스트북의 단점이라면 당장 필요하지 않을 것 같은 내용을 많이 포함해서 길다는 것도 있지만, 최신 개정판이더라도 최신의 모든 기술을 두루 다루지 못한다는 점은 있습니다. 그래서 텍스트북과 최신 논문을 함께 읽어가면서 기술의 과거와 현재, 그리고 스스로 연구할 미래를 거시적으로 확립해야 합니다.

5. 유명한 것은 피한다.
조금 이상하게 들릴 수도 있습니다. 유명한 연구소/회사에서 내놓은 논문, 유명한 저자가 적은 논문, 또는 유명한 저널에 기재된 논문을 보면 좋을 거라고 생각하겠지만 초보자들한테는 오히려 독이 될 수 있습니다. 잘 쓰여졌거나 아니면 필독해야하는 유명한 논문이 아니라, 단지 저자가 유명하거나 유명한 회사에서 기여를 했거나 또는 네이처나 사이언스와 같은 유명한 저널에 기재됐기 때문에 유명해진 논문은 앞서 설명한 '짧은 논문'과 같습니다. 군더더기는 모두 쳐내고 많은 지식을 축약/압축해서 적었을 가능성이 많거나 해당 회사의 기술에 종속된 논문일 가능성이 많습니다. 오히려 덜 유명한 저자들이 적은 논문이 작은 개념도 이해하기 쉽게 잘 설명해주고 친절한 경우가 많습니다. (하지만 쉬운 논문이 때론 개념을 오해해서 적었을 가능성도...) 그런 단련 후에 유명한 논문을 마스터하는 것을 권합니다. 비슷하게 최신 논문도 그 분야를 어느 정도 마스터한 후에 읽어나갈 것을 권합니다. 물론 자신감을 갖기 위해서 상징적인 논문을 읽어보는 것도 나쁘지는 않습니다.

6. 다양하게 많이 읽는다.
앞서 여러 가지를 얘기했지만 결국 결론은 많이 읽어라는 것입니다. 쉬운 것도 읽고 어려운 것도 읽고 짧은 것도 읽고 긴 것도 읽고 기초적인 것도 읽고 최신 트렌드도 읽어야 합니다. 위에서 몇 가지 가이드는 적었지만 결국 어떤 문서든 많이 그리고 꾸준히 읽어서 그 분야에 친근해지는 것 외에 다른 길이 없습니다. 그리고 나름의 지식 체계를 만들어야 합니다. 주변에 도움을 받을 사람이 있으면 적당히 도움을 받거나 함께 공부하는 것도 유용하고, 또 나중에 스스로 다른 이들에게 도움을 주는 역할을 해가면서 지식을 발전시킬 수 있습니다. 

그러면 어떻게 읽으면 될까? 기본적으로 많이 읽어라지만... 케바케지만 어느 정도 이해할 때까지 읽어야 합니다. 보통의 단편 논문인 경우 논문의 세세한 것까지 모두 이해할 필요는 없이 저자가 핵심적으로 말하려는 바만 잡아내면 됩니다. (어차피 비슷한 것들을 계속 읽었거나 읽어야할 테니...) 그 말하는 바를 도와주는 개념들도 함께 이해해야 하지만, 다른 논문들을 꾸준히 읽다보면 자연스레 습득되기도 합니다.
논문을 충분히 이해하기 위해서 개인적으로 3회정도 반복해서 읽을 것을 권합니다. 첫번째는 논문의 전체 흐름을 이해하기 위해서 그냥 읽어나갑니다. 읽어나간다고 표현했듯이 세부 내용을 이해하려 하지 말고 그냥 한번에 쭉 읽어보겠다는 생각으로 모르는 단어나 개념은 그냥 무시하면서 처음부터 끝까지 읽습니다. 세부 개념을 이해하지 못하더라도 흐름 또는 감만 알면 됩니다. 그리고 다시 논문을 읽으면서 처음에 이해 못했던 개념을 다시 확인하고 참고 논문도 함께 읽어가면서 세부 내용을 이해하면 됩니다. 그리고 마지막으로 한번 더 읽으면서 전체 내용과 세부 내용을 함께 자신의 지식의 틀 안에 넣으면 됩니다. 논문의 난이도나 경험/숙련도에 따라서 1~2회만 읽어도 될 때도 있고 3회 이상을 읽어야할 때도 있습니다. 그건 그때그때 다릅니다.
저널에 출판하기 전에 peer review라는 걸 하는데 마치 지금 읽는 논문을 피어리뷰를 하는 것처럼 읽어보면 좋습니다. (제가 보통 피어리뷰를 하면 3회정도 읽음) 그래서 전체의 흐름을 파악하고, 각 파트의 개념과 연결의 완결성을 파악하고, 그런 후에 세부적으로 잘된 또는 잘못된 개념/부분을 잡아내서 논문의 장단점 및 보강해야할 것을 정리해서 저자에게 알려줍니다. 한편의 논문(연구)를 제대로 이해하기 위해서 이런 과정을 거칩니다. 그리고 직접 구현하거나 서비스에 바로 적용할 것이 아니라면 논문에 등장하는 수식 하나하나에 너무 집중할 필요는 없습니다.

한편의 논문을 읽으면서 참고논문을 모두 읽을 필요는 없지만 중요한 것은 북마킹해놨다가 나중에라도 읽어두는 게 좋습니다. 전문분야파기 (논문읽기)는 마치 고구마 캐기와 비슷해서 마스터하고 싶은 논문을 정해서 그 논문과 참조한 레퍼런스를 따라 들어가면서 읽다보면 어느 순간 그 분야의 전체 맥을 잡을 수 있습니다.
...
이런 글을 적고 있다는 것은 올해는 매주 최소 1~2편의 논문은 읽어야겠다는 현실성없는 희망을 가져보고, 또 항상 하는 운동과 다이어트를 목표로 삼겠다는 의지의 표현이랄까...

===
B: https://brunch.co.kr/@jejugrapher
F: https://www.facebook.com/unexperienced
신고

댓글을 달아 주세요

Share           Pin It
1편이 예상 외로 반응이 좋았다. 그럴려고 적은 글은 아니었는데... 의외의 반응을 얻으면 우쭐해서 다음 글을 적고 싶어지는데, 보통 그렇게 적은 글은 호응이 없다. 어쨌든, 1편에서는 데이터 비즈니스를 하려는 기업들이 의미있는 데이터를 가지지 않았거나 인력과 인프라가 부족하거나 장기적인 전략으로 꾸준하지 못해서 -- 즉, 준비가 제대로 안 돼서 -- 결국 실패한다고 적었다. 오늘은 약간 다른 관점에서 적을 적는다. (참고 링크: 데이터 비즈니스에 실패하는 회사들)

데이터 비즈니스를 한다는 것은 결국 데이터를 비즈니스로 연결한다는 의미가 된다. 그러면 역으로 데이터 비즈니스에 실패한다는 것은 데이터를 비즈니스로 제대로 연결하지 못한다는 것과 같다. 어떤 단계 (관점)을 거쳐서 데이터가 비즈니스로 연결되는지를 알면 데이터 비즈니스 성패의 실마리를 알 수 있으리라 생각한다. 말은 이렇게 거창하게 하지만, 실은 지난 주말에 문득 떠오른 데이터 (엔지니어링), 서비스, 그리고 비즈니스의 단계/연결을 과하게 포장하기 위해서 글을 적는다. 그렇다. 데이터를 정의하고 수집하고 통계자료를 뽑아보는 엔지니어링이 데이터 비즈니스의 첫 단계이고, 이를 서비스로 연결하는 것이 둘째고, 마지막으로 그런 서비스에서 돈을 버는 것이 비즈니스 단계다. -- 끝 --

엔지니어링 단계.
1편에서 좀 터무니없이 적긴했지만, 데이터 비즈니스를 하겠다는 회사들은 기본적으로 인적 및 물적 인프라를 갖추고 있고 데이터를 모을 서비스들이 존재한다고 가정해야 한다. 데이터의 (또는 데이터의 가치에 대한) 개념이 부족할 때는 주먹구구식으로 데이터를 남기고 제대로 활용하지 못했던 것도 사실이다. 뿐만 아니라 당장 활용하지도 못하는 데이터를 쌓아두기 위해서 데이터 스토리지 등의 비싼 하드웨어에 투자를 할 수 없었던 적도 있다. 하지만 오늘날에는 스토리지 가격도 많이 저렴해졌고 웬만한 스타트업들도 카프카 Kafka를 통해서 데이터를 수집하고 HDFS에 분산 저장해서 스톰 Storm이나 스파크 Spark를 이용해서 실시간으로 데이터를 처리한다. (사실 저에게 좀 약한 분야ㅠㅠ)

이렇게 수집한 데이터를 가지고 기초 통계 자료를 뽑아보거나 보기 편하게 각종 시각화 도구를 이용해서 화면에 예쁘게 그래프를 그려준다. 그런데 보통 여기서 끝이다. 기초 통계치를 뽑아보는 것은 단순히 현재 우리 서비스의 트래픽만을 확인하고 '잘 돌아가고 있군'하는 식으로 만족하는데서 끝나고, 실시간 트래픽 그래프를 그려보면서 그저 시스템에 장애는 없는지정도를 확인하는 것을 위한 것이다. 데이터는 결국 서비스를 운영하는 보조적인 열할에 거친다. ** 데이터 엔지니어링의 가치를 낮게 보는 것이 아니라, 추가 분석 등의 작업을 통해서 다음 단계로 넘어가지 못하거나 그걸 어려워한다는 의미다.

서비스 단계.
데이터를 수집한다는 것은 데이터를 -- 데이터 분석을 -- 통해서 서비스를 개선하거나 새로운 서비스를 만든다는 의미다. 데이터 기반으로 서비스를 개선/만드는데 머신러닝이나 인공지능과 같은 거창한 기술을 요하는 것도 아니다. 딥러닝이 대중화(까지는 아니지만)되면서 고급 기술을 사용하는 것만이 데이터 기반의 서비스라고 오해를 하지만, 기본 통계치와 간단한 로직만으로 서비스의 가치를 끌어올릴 수 있다. 데이터에서 인사이트를 얻어서 서비스에 다시 반영하는 사이클을 만드는 것이 서비스 단계다.

기본 통계치를 사용자에게 보여주는 것, 가장 많이 본 (Most Popular) 컨텐츠를 피쳐링해서 보여주는 것과 같은 간단한 것이 데이터의 서비스화의 첫 걸음이다. (그리고 이걸로 충분한 경우도 많다.) 사용자들이 의외로 많이 보는 컨텐츠의 카테고리를 찾아내서 새로운 섹션이나 독립 서비스로 만들 수도 있다. 어려운 기술이 아니다. 이젠 더 적절한 컨텐츠를 어떻게 더 빨리/즉시/적시에 보여줄 수 있을까를 해결해가면 된다. 고급 기술은 필요에 따라서 사용하면 된다. 그렇게 데이터와 알고리즘으로 서비스가 완성되면 이젠 그 기반 위에서 비즈니스가 쉬워진다.
** '대용량 데이터 + 고급 인공지능 기술'이 데이터를 서비스로 만드는 힘이라는 생각이 오히려 데이터를 활용한 서비스의 걸림돌이다. 데이터 서비스도 과유불급이다. 필요한만큼의 데이터와 적정 기술.

비즈니스 단계.
이젠 비즈니스다. 서비스가 데이터 위에서 잘 돌아간다면 비즈니스는 -- 쉽진 않겠지만 -- 어렵지 않다. 보통 '인터넷 비즈니스 = 광고'이므로 광고를 그냥 또 하나의 컨텐츠로 보면 된다. 기본적으로 그렇지만, 이게 쉽지는 않다. 서비스 쪽에선 광고가 서비스의 질을 떨어뜨린다고 반목하고, 광고 쪽에선 서비스가 광고에 우호적이지 않다고 불평한다. 애초에 (어떤 형태로든) 광고가 없는 서비스보다 광고가 붙은 서비스가 질이 떨어지는 것은 일반적이지만, 데이터 비즈니스를 제대로 했다면 광고가 서비스에 방해를 주지도 않으면서 오히려 서비스의 일부로 인식시키거나 가치를 더하는 것으로 만들었을 것이다.

예를 들어, 서비스에서 개인화/추천 기술을 사용했다면 그 속에 광고 컨텐츠를 녹이면 된다. 구글이나 페이스북이 광고를 광고 같지 않게 서비스에 넣은 것이 그들의 성공 요인이다. 의식하지 않으면 광고와 일반 컨텐츠를 구분하기 어렵다. (그래서 광고가 아닌 비즈니스를 해야 한다고 주장하지만, 어렵다.) 스폰서 컨텐츠지만 필요한 사용자에게 전달한다면 그건 컨텐츠로서 가치가 있다. 친구와 주말에 제주도 여행을 가기로 했는데 아직 항공권을 구하지 못했다고 가정해보자. 이 사용자에게 제주도행 항공권을 가지고 있는 여행사를 알려주는 광고가 제주에서 먹고 놀았던 수많은 사진과 게시글 UGC보다 더 낫다. 어떤 상황에서 어떤 컨텐츠를 보여줄 것인가가 결국 데이터 비즈니스의 승패를 좌우한다.
** 플랫폼 기반의 중계 (수익) 모델도 광고BM으로 봐도 무관하다.

광고 컨텐츠의 관점에서 비즈니스를 해석했지만, 더 넓게는 데이터에서 찾은 비즈니스의 가치를 제안하는 것이 비즈니스 단계다. B2C 관점에서 글을 적으니 광고BM이 거의 유일한 데이터 비즈니스처럼 적고 있다. 그러나 B2B에서는 서비스 자체가 BM인 되기도 하고, 데이터 전문 회사는 데이터 및 처리 기술이 비즈니스다. 다양한 데이터나 API를 오픈해서 라이센스를 받거나 기술지원을 하는 것도 비즈니스가 될 수도 있고, (보통 크지 않은) 전문 회사들은 트렌드 보고서를 판매하거나 강연을 통해서 돈을 벌기도 한다.

제목을 좀 자극적으로 '데이터 비즈니스에 실패하는 회사'라고 적었지만, 정상적으로 데이터 비즈니스를 하는 회사는 엔지니어링 단계에서 데이터를 잘 정의해서 수집하고, 기본 통계치 및 고급 분석을 통해서 인사이트를 얻고, 이를 서비스에 녹여서 차원 높은 서비스로 만들고, 그 흐름에서 비즈니스 모델이 잘 동작하게 만든다. 이 흐름이 잘 동작한다면 당장은 큰 이득을 얻지 못하더라도 장기적으로 성공하는 (적어도 실패하지 않는) 회사가 되지 않을까? 물론, 기반이 되는 서비스가 폭망했다면...ㅠㅠ

** 개인정보나 데이터 보호와 같은 이슈는 논외로 한다.
===
B: https://brunch.co.kr/@jejugrapher
F: https://www.facebook.com/unexperienced


신고

댓글을 달아 주세요

Share           Pin It

빅데이터의 시대를 지나 스마트 데이터 시대로 접어들고 있다. 주변에서 데이터가 중요하고 데이터 비즈니스를 하겠다고 하는 회사들은 많지만 정작 데이터 비즈니스에 성공한 회사들은 손에 꼽을만하다. 구글, 페이스북, 아마존 같은 세계적인 기업들이나 겨우 데이터 비즈니스에 성공했다. 아니면 아주 특수한 케이스나 기술에 두각을 보이는 잘 알려지지 않은 데이터/기술 스타트업정도만 생각날 뿐이다. 국내에서는 네이버가 그나마 앞서있는 축에 속하지만 기술에 의한 것인지 아니면 마켓파워 때문인지 구분이 조금 어려운 것도 사실이다. 카카오는 네이버에 비하면 데이터 비즈니스를 한다는 말을 꺼내는 것도 민망하다. 카카오가 다른 큰 회사들보다는 데이터 비즈니스를 위한 최소한의 여건을 갖춘 것은 맞지만, 데이터 비즈니스를 한다고 명함을 내밀만한 수준이 아니다. 단적으로 말해서 카카오가 데이터 비즈니스를 제대로 했다면 지금보다는 배이상의 매출이나 이익을 냈어야 한다고 본다.

원래는 조금 추상적인 수준에서 데이터 과학자 또는 조직이 필요한 것이라는 주제로 글을 적으려 했지만 생각을 전개하다보니 데이터 비즈니스를 제대로 못하는 것으로 생각이 바뀌었다. 그리고 이 글에서는 개인정보 보호나 보안과 같은 법적 외부요인은 고려하지 않는다.

어쨌든, 많은 회사들이 데이터 비즈니스를 하겠다고 선언하지만 가시적인 성과를 내지 못하고 흐지부지 시간만 허비하고 실패하는 것일까? 그런 회사들의 모든 사정을 소상히 알 수는 없지만 몇몇 사례들로 일반화해보려 한다. 왜 데이터 비즈니스에 실패하는 것일까?

첫째는 데이터가 없기 때문이다. 데이터 비즈니스에 필요한 데이터도 없으면서 데이터 비즈니스를 하겠다고 선언만하는 경우가 종종 있다. 데이터가 없다는 것은 말 그대로 아무런 데이터도 없는 경우도 있고, 의미있는 데이터가 없는 경우도 있고, 또 데이터 연동이 제대로 안 되는 경우도 있다. 데이터의 중요성을 간과해서 데이터를 남기는 것 자체가 부재했던 시절이 있었다. 데이터 분석할 사람은 뽑았는데 정작 분석할 데이터가 없는 웃지못할 일이 벌어지는 거다. 데이터가 없거나 어떤 데이터를 어떻게 수집할지 등의 대책없는 시작은 필패를 예약한 거나 다름없다.

그게 뭐냐면 여러분들은 데이터가 없어요 (이미지: 마리텔 캡쳐)


그러나 그동안 데이터가 중요하다고 많이들 떠들고 비즈니스 성공 사례들이 알려지면서 어떻게든 데이터를 남기고 있다. 그러나 막상 비즈니스에서 필요한 의미있는 데이터가 없는 경우가 다반사다. 그저 아파치 서버가 남기는 로그가 데이터의 전부인 경우도 허다하다. 이걸로는 방문자수 카운트 이외의 사실상 할 수 있는 것이 아무 것도 없다. 때로는 어디에 어떻게 사용할지도 모르면서 그냥 데이터를 쌓아두는 경우도 있다. 일단 쌓아두면 나중에 어딘가에는 쓰겠지라는 생각이다. 없는 것보다 있는 게 낫지만 고민없이 남긴 데이터는 결국 나중에 사용될 가능성이 낮다. 속된 말로 똥이다. 의미없이 데이터를 남기다 보면 관리가 허술해지고 또 빈 데이터만 남게 된다. (RDB처럼) 데이터 포맷이 정적이었던 시절에는 스키마 변경이 어려우니 처음 만들 때 일단 모을 수 있는 모든 데이터 필드를 만들고, 또 혹시 모르니 extra 필드를 여러 개 미리 만들어두던 것이 별로 오래전 얘기가 아니다. 분석이나 마이닝이 데이터 더미에서 의미를 찾아내는 것이지만, 무의미한 데이터에서 의미를 찾는 것은 마이닝의 할애비가 와도 안 된다.

의미있는 데이터를 남긴다고 해서 모든 게 해결된 것은 아니다. 여러 팀으로 나뉘어 다양한 서비스를 다루는 큰 회사의 경우 데이터 연동이 안 되는 경우가 많다다. 개별 서비스의 니즈에 맞도록 데이터를 남기다보니 형식이나 의미가 제각각인 데이터 사일로들만 존재한다. 그리고 물리적으로 개별 서비스의 로그를 한 곳에 모으는 것도 쉽지 않다. 주기적으로 데이터 허브 프로젝트를 시작하지만 몇몇 대표 서비스의 데이터는 연동하지만 마이너한 것들까지 싱크를 맞추지는 못한다. 그 사이에 새로운 기술과 서비스가 등장하면서 기존의 데이터와 호환되지 않는다. 설마 그렇기야 하겠어라고 생각하겠지만 이거 우리 이야기네라고 동감하는 사람들도 많을 거다. 데이터가 없거나 의미가 없거나 연동이 안 돼서 결국 데이터를 사용하지 못하는 회사는 데이터 비즈니스를 할 수 없다는 것은 자명하다.

두번째로 데이터를 다룰 사람이 없다. 데이터 엔지니어링 관점에서 각종 서비스에서 데이터를 수집하고 저장하는 인력이 부족한 경우도 있고, 수집된 데이터를 가공해서 의미를 찾아내는 데이터 분석가/사이언티스트가 없는 경우도 있고, 분석 이상의 해석이 부재하거나 분석 결과를 바탕으로 의사를 결정하고 실행하는 사람이 없는 경우도 있다. 다행인 점은 기술이 발전하면서 데이터를 수집하고 저장하는 것을 도와주는 다양한 오픈 소스들이 많이 나왔고 관련 기술이 나날이 발전하고 있다. 그럼에도 각자의 상황에 맞게 그런 기술과 오픈 소스를 자유자재로 다룰 수 있는 전문 인력은 여전히 부족하다.

이 단계를 넘어가면 분석할 사람이 없다. (개인적 생각으론) 분석을 굳이 학위를 가진 사람이 해야하는 것도 아니고, 다양한 분석 기술은 결국 인간의 공통된 사고 방식 heuristic을 정형화한 것에 불과하다. 분석 인력이 부족하다는 것은 결국 분석 기술을 가진 사람이 부족하다는 것보다는 자유로운 데이터 사고를 하는 사람이 부족하다는 뜻에 가깝다. 다행히 여러 데이터 분석 도구들이 개발돼서 일반인들도 쉽게 사용할 수 있게 됐다. 그러나 가장 우려되는 점은 선무당이 사람을 잡는다는 속담처럼 (쉬운) 분석툴들이 제공하는 기능과 속성의 의미를 모르고 기계적으로 데이터를 블랙박스에 넣어서 결과를 얻고선 모든 게 해결됐다고 생각하는 거다. 상황에 맞는 적정 도구를 선택하고 설정하는 것이 중요한데, 예를 들어 단순 선형회귀를 위해서 레이어가 10개가 넘는 인공망 (딥러닝)을 만드는 일이 벌어지지 않으라는 보장이 없다. 기술의 사용이 더 쉬워질수록 그것의 기저에 있는 기술과 의미를 더 잘 알아야 한다.

분석 인력이 보강돼든 분석 소프트웨어를 사용하든 데이터 (수치)가 주는 함의를 해석해야 한다. 해석은 공학이나 과학을 넘어선 영역이다. 그리고 결정을 내려야 하고, 결정에 따라서 실행해야 한다. 원했던 효과가 바로 나오지 않더라도, 다시 데이터를 모으고 분석/해석해서 결정을 내리고 실행해야 한다. 조금 개선이 되면 다른 방법으로 더 나은 것을 찾아야 한다. 하고 또 하고 또 하고… 데이터를 수집하고 분석하고 해석하는 전문 인력이 꼭 필요하지만, 결국에는 그걸 바탕으로 결정해서 실행하는 사람이 결정적이다. 비즈니스 레벨에서는 결국 권한을 가진 사람들의 역할이다. 여기서 세번째 이유와 연결된다.

셋째, 데이터 비즈니스가 실패하는 결정적인 이유는 많은 회사(경영진)들이 데이터 비즈니스를 지속시킬 의지가 없다는 거다. 아닌 말로 데이터가 없으면 지금부터 수집하면 되고 인력과 기술이 부족하면 채용하거나 오픈소스를 잘 이용하면 된다. 하지만 데이터 비전과 의지는 다른 차원의 문제다. 데이터 비즈니스는 겉절이 김치가 아니라 1~2년 묵힌 김치다. 단기간에 가시적인 성과를 내지 못할 수도 있다는 얘기다. 그리고 계속 실패하면서 방향을 수정하고 다른 시도를 계속해야 한다. 데이터 과학이라고 말하지만 똑부러진 법칙과 이론이 존재하는 과학이 아니라 실험과 검증의 지나한 과정을 거치는 방법론적 과학이다.

데이터 비즈니스를 하겠다고 선언을 했으면 지원을 하고 (인력을 보강해서 팀을 꾸리고 인프라를 구축하는 등), 그리고 인내해야 한다. 퀀텀 점프하듯이 바로 눈에 띄는 효과를 보이는 경우도 있지만, 대부분은 등락을 거듭하면서 서서히 점진적으로 효과가 나온다. 보통 경영진들도 계약직으로 단기 성과를 내야하는 사람들이기 때문에 짧게는 분기나 반기, 길게는 1~2년 내에 성과를 보여줘야 한다. 그러나 데이터 비즈니스는 그렇게 번개로 콩을 구워먹는 게 아니다. 의지를 가지고 장기적인 플랜에 따라서 하나씩 해결해야 겨우 성과가 나온다. 물론 얼마나 스마트하냐에 따라서 성과의 시기와 크기에 영향을 주겠지만…

데이터 비즈니스가 중요하다는 것은 이제 모두가 잘 안다. 하지만 그걸 성공하는 기업은 여전히 소수다. 데이터 비즈니스를 하겠다는 회사들은 먼저 의미있는 데이터를 확보하고 적정 기술을 가진 인력을 보강했다면, 의지와 인내를 가지고 멀리 보면서 실행하기 바란다. 현재는 직원으로서 카카오가 그랬으면 하는 것이 개인의 바람이고, 카카오를 떠나서 (Beyond Kakao, not leaving Kakao) -- 여전히 내가 데이터 과학을 하는 사람인지는 모르겠으나 오랫동안 데이터를 보는 것을 업으로 했던 사람으로서 -- 그런 조직의 일부가 된다면 기쁠 거다.


=== Also in...

F: https://www.facebook.com/unexperienced

신고

댓글을 달아 주세요

Share           Pin It
데이터 과학 Data Science 또는 데이터 과학자 Data Scientist에 대해서 검색해보면 아래의 다이어그램 또는 비슷한 설명을 필히 보게 된다. 데이터 과학자는 프로그래밍 능력과 수학과 통계에 대한 지식과 도메인/비즈니스에 대한 이해가 있어야 한다는 내용이다. 물론 이 세가지 영역에서 모두 또는 특정 영역에서 확연히 뛰어나면 좋겠지만 전문 개발자들보다 프로그래밍에 능할 수 없고 수학만 파고든 사람들이나 한 분야에서 수년간의 경험을 쌓은 이들보다 더 뛰어날 수가 없다. 그러나 이 세분야에서 고른 지적 능력을 가져야 함을 부인할 수 없다. 

데이터 과학자는 어떤 능력이 필요한가? (출처. Quora, 아래링크)


데이터 과학에 대해서 더 자세히 알고 싶은 이들은 다음의 Quora 쓰레드를 참조하면 된다.

오늘 글을 적는 것은 단순히 위의 다이어그램을 소개하거나 각 영역에 대해서 자세히 알려주기 위함이 아니다. 페이스북을 통해서 수학을 전공하는 어느 대학생이 금융공학에서 데이터마이닝을 해보고 싶다는 진로 상담을 해왔는데, 질문을 제대로 읽지 않고 바삐 출근하는 길에 잠시 생각했던 생각을 적으려는 것이다.

질문을 제대로 읽기 전에는 이 세 영역의 중요성을 말해주면서 지금 어차피 수학을 전공하고 있으니 어떻게 해서라도 프로그래밍 언어 하나 정도는 마스터하라는 조언을 해줄 참이었다. 그리고 비즈니스/도메인 지식을 습득하는 것이 가장 중요하지만, 이것은 학부 과정 학생이 쉽게 얻을 수 있는 것도 아니고 나중에 대학원에 진학하거나 취직을 해서 여러 프로젝트에 참여하고 경력을 쌓다보면 자연히 얻게 되는 것이다정도로 조언을 해줄 참이었다. 물론 질문의 요지는 이게 아니었기 때문에 다른 대답을 해줬지만...

그런데, 프로그래밍, 수학/통계, 그리고 도메인 지식… 이 세 영역의 의미를 다시 생각하면서 데이터 과학에 대한 생각이 좀더 발전했다. 첫째, 수학/통계 지식은 데이터 과학의 원리나 기초를 제공해주는 것 같다. 소위 말하는 데이터 분석 또는 마이닝에서 (고급) 수학이 핵심이 되지 않는 경우가 많기는 하지만 -- 특히 데이터가 충분히 많은 경우 --, 적어도 데이터에 내재한 패턴/의미를 이해하는데 기초 수학과 통계는 원리적 가이던스를 제공하다.

둘째, 프로그래밍은 데이터 과학의 실행을 담당한다. 요즘은 많은 통계 및 분석 패키지나 오픈소스가 존재하기는 하지만, 여전히 많은 경우 코딩이라는 행위가 이뤄져야 한다. 수학 지식만으로 많고 다양한 데이터 속의 패턴과 의미를 밝혀낼 수가 없고, 많은 도메인 경험은 중요한 인사이트를 주지만 인사이트가 결론이 될 수가 없다. 결국 인사이트를 검증하기 위해서 데이터를 하나하나 캐나가는 과정이 필요한데 그 과정이 결국 코딩/프로그래밍의 도움없이 이뤄지지 않는다. 멋진 툴들이 이런 과정을 쉽게 해주기도 하지만, 아직 만능의 툴은 없다. 손으로 직접 해봐야 한다. 코드를 한 줄씩 짜가면서 실행해야 한다는 거다.

세째, 도메인 또는 비즈니스 지식은 경험이다. 이 경험이라는 것이 문제 (도메인)에 대한 경험일 수도 있고, 방법(분석/마이닝)에 대한 경험일 수도 있다. 그리고 앞서 말했듯이 경험은 인사이트라는 결실을 맺는다. 뛰어난 추론 능력과 실행 능력이 있더라도 인사이트가 없으면 삽질의 연속이다. 물론 그런 삽질을 통한 경험이 유능한 데이터 과학자를 만들어낼 수도 있지만… 내가 풀어야 하는 문제를 잘 이해하는 것 그리고 그걸 풀어가는 과정을 빨리 파악하는 것은 경험이 주는 귀한 선물이다.

위의 다이어그램은 데이터 과학을 설명하는데 유용하지만, 한가지 빠진 게 있다. ‘데이터’에 대한 직접적인 내용이 없다는 점이다. 도메인이 데이터를 약간 내포하고 있지만 명시적으로 데이터의 중요성이 그림에 나타나지 않는다는 거다. 데이터를 다루는 수학, 데이터를 다루는 프로그램밍, 데이터를 다루는 경험은 그냥 수학과 코딩과 도메인과 다를 수가 있다.

그리고, 수학/통계와 프로그래밍이 만나서 — 다이어그램에서는 ‘머신러닝'이라 표현했지만 — 알고리즘이 나온다. 데이터 분석 업무에서 (고급) 알고리즘이 불필요한 경우가 허다하지만 어쨌든 수학과 프로그래밍 양쪽을 마스터해야지 제대로된/쓸만한 알고리즘을 만들 수 있다. 그리고 이 알고리즘과 도메인 지식이 결합해서 일종의 지혜가 된다. 뭐, 그냥 데이터 지식이라고 말해도 된다. 데이터 과학은 결국 원리와 실행과 경험이 만나서 지혜를 구축해나가는 학문이다. 끊임없이...

===
F: https://www.facebook.com/unexperienced


신고

댓글을 달아 주세요

티스토리 툴바