본문 바로가기

DM ML AD

(131)
자기강화와 GAN: 부족한 정답세트를 극복하는 방법 데이터 마이닝이나 머신러닝, 인공지능 AI 등에 관한 심도깊은 얘기는 다루지 않는다. 내가 그런 심도깊은 일을 하고 있지 않기 때문이기도 하거니와 그런 내용은 학교에서 정식으로 배우거나 많은 연구 논문을 읽으면서 터득해야할 영역이다. 개인적인 요청이 있다면 그걸 위해서 가이드해줄 수는 있지만 이 티스토리에서 그걸 해결해줄 수는 없다. 하지만 2017년에는 공부 좀 하기로 마음을 먹었으니 필요하면 특별한 주제에 맞춰서 또는 머신러닝 알고리즘의 전반적인 것에 대해서 종종 다루려 한다. 계획이 그렇다는 것이지 몇 번을 다룰지는... 최근이라 적고 작년 2016년에 가장 큰 이슈가 됐던 강화학습과 GAN (Generative Adversarial Networks)에 대한 소개 또는 개념적 이해를 돕기 위해서 글..
[Q&A] 빅데이터 전공과 전망 블로그 방명록을 통해서 또 질문이 들어왔습니다. 개별적으로 답변할 수도 있지만 비슷한 고민/의문을 가진 분들을 위해서 공개적으로 글을 적습니다. 질문을 요약하면 아래와 같습니다. 1. 빅데이터 분야로 진출하기 위해서 인문학부생으로서 컴퓨터공학과와 통계학(수학) 중에서 어느 쪽으로 전과/복수전공하면 좋을까요? 2. '빅데이터'에 대한 부정적 시각도 많은데 관련된 미래 직업/산업에 대해서 어떻게 전망하시나요? 한줄 답변컴퓨터 공학과표지가 바뀐 고전인지 세련된 표지의 잡지인지는 책자을 열어봐야 안다. 그리고 고전도 시대정신을 따른다. 개인이 처한 모든 상황과 배경을 모르기 때문에 원하는 답변이 아닐 수도 있고, 또 여러 생각으로 길게 적다보니 중언부언할 수 밖에 없음을 양해바랍니다. 철저한 계획이 아닌 어쩌다..
공부하자 (나 논문 좀 읽어봤어요) 새해가 되면 으레 없던 새해결심이 생기기 마련입니다. 현실성이 없지만 가장 현실적인 소망으로 운동하자 (다이어트, 금연, 금주 등 포함)와 공부하자 (기술, 취미, 경력 등 포함)일 것입니다. 오늘은 두번째 특히 연구와 관련해서 어떤 것을 어떻게 읽을 것인가에 대해서 적으려 합니다. 기술직군에 속하지만 프로그래밍은 제 전문 영역이 아니니, 더 구체적으로 일단 데이터마이닝이나 머신러닝을 공부하는 것이라고 가정하고 글을 적습니다. 어떤 것을 읽어야할까? 또는 어떤 것을 읽지 말아야할까? 지극히 주관적인 생각입니다. 1. 한글 문서는 피한다. 블로그 등에 소개된 가벼운 글이나 급하게 한글문서를 찾아볼 수는 있지만, 장기적으로 한 분야를 마스터하는 것이 목표라면 어렵고 지루하더라도 가급적이면 영문 (논문이나 책..
데이터 비즈니스에 실패하는 회사들...(2) 1편이 예상 외로 반응이 좋았다. 그럴려고 적은 글은 아니었는데... 의외의 반응을 얻으면 우쭐해서 다음 글을 적고 싶어지는데, 보통 그렇게 적은 글은 호응이 없다. 어쨌든, 1편에서는 데이터 비즈니스를 하려는 기업들이 의미있는 데이터를 가지지 않았거나 인력과 인프라가 부족하거나 장기적인 전략으로 꾸준하지 못해서 -- 즉, 준비가 제대로 안 돼서 -- 결국 실패한다고 적었다. 오늘은 약간 다른 관점에서 적을 적는다. (참고 링크: 데이터 비즈니스에 실패하는 회사들) 데이터 비즈니스를 한다는 것은 결국 데이터를 비즈니스로 연결한다는 의미가 된다. 그러면 역으로 데이터 비즈니스에 실패한다는 것은 데이터를 비즈니스로 제대로 연결하지 못한다는 것과 같다. 어떤 단계 (관점)을 거쳐서 데이터가 비즈니스로 연결되는..
데이터 비즈니스에 실패하는 회사들 빅데이터의 시대를 지나 스마트 데이터 시대로 접어들고 있다. 주변에서 데이터가 중요하고 데이터 비즈니스를 하겠다고 하는 회사들은 많지만 정작 데이터 비즈니스에 성공한 회사들은 손에 꼽을만하다. 구글, 페이스북, 아마존 같은 세계적인 기업들이나 겨우 데이터 비즈니스에 성공했다. 아니면 아주 특수한 케이스나 기술에 두각을 보이는 잘 알려지지 않은 데이터/기술 스타트업정도만 생각날 뿐이다. 국내에서는 네이버가 그나마 앞서있는 축에 속하지만 기술에 의한 것인지 아니면 마켓파워 때문인지 구분이 조금 어려운 것도 사실이다. 카카오는 네이버에 비하면 데이터 비즈니스를 한다는 말을 꺼내는 것도 민망하다. 카카오가 다른 큰 회사들보다는 데이터 비즈니스를 위한 최소한의 여건을 갖춘 것은 맞지만, 데이터 비즈니스를 한다고 ..
'데이터 사이언스' 다시 생각하기 데이터 과학 Data Science 또는 데이터 과학자 Data Scientist에 대해서 검색해보면 아래의 다이어그램 또는 비슷한 설명을 필히 보게 된다. 데이터 과학자는 프로그래밍 능력과 수학과 통계에 대한 지식과 도메인/비즈니스에 대한 이해가 있어야 한다는 내용이다. 물론 이 세가지 영역에서 모두 또는 특정 영역에서 확연히 뛰어나면 좋겠지만 전문 개발자들보다 프로그래밍에 능할 수 없고 수학만 파고든 사람들이나 한 분야에서 수년간의 경험을 쌓은 이들보다 더 뛰어날 수가 없다. 그러나 이 세분야에서 고른 지적 능력을 가져야 함을 부인할 수 없다. 데이터 과학에 대해서 더 자세히 알고 싶은 이들은 다음의 Quora 쓰레드를 참조하면 된다. https://www.quora.com/What-is-a-data..
데이터 과학자의 실체 지난주 금요일에 제주에서 대한인간공학회 춘계학술대회가 있었습니다. 프로그램을 준비하시는 분께서 '전문가 세션 > 빅데이터'에 발표해줄 연사가 필요하다고 해서 흔쾌히(?) 수락했습니다. 처음에는 단순히 다음이나 카카오에서 했던 다양한 분석 사례정도만 모아서 '카카오에서의 빅데이터 분석 및 활용' 정도로 발표하면 쉽게 될 거라 생각했습니다. 그런데 청자들이 데이터 분석을 담당하거나 적어도 프로그래머/개발자라면 쉬울 수 있는데, 대부분 인간공학 전공자들이라서 단순히 사례들만 모아서 장광설을 펼치면 죽도 밥도 안 될 것 같다는 두려움이 생겼습니다. 발표자료를 준비할 시간이 겨우 한달정도밖에 없었는데, 여러 고민을 하다가 인간공학을 전공하는 학생들에게도 도움이 될 수 있는 테스팅 방법론을 중심으로 준비하기로 마음..
데이터마이닝과 데이터마이너 다음 검색에서 '데이터마이너'라는 검색어가 갑자기 많이 들어온 날이 있었다. 강풀 작가의 '마녀'라는 작품 속에서 PC 캡쳐 화면과 함께 주인공이 데이터마이너가 됐다라는 짧은 문구가 등장했던 때다. 해당 캡쳐 화면에는 SAS라는 데이터분석툴 아이콘도 있었고 지금은 없어진 마이피플 아이콘도 등장했다 (유료화로 화면캡쳐는 생략. 9화였음.). 강풀 작가님이 웹툰을 그리기 위해서 예전 같은 팀의 팀원에게 자문을 얻었는데, 그 분의 (의도된) PC화면으로 유추된다. 당시에 내가 서울에서 근무했다면 미팅에 함께 참석했지 않을까?라는 생각도 해본다. 빅데이터, 데이터 사이언스, 인공 지능, 딥러닝, 머신러닝 (기계학습) 등의 많은 용어/개념들이 버즈buzz되고 있지만 관련 분야의 사람들이 아니라면 여전히 데이터마이..