Share           Pin It
다음 검색에서 '데이터마이너'라는 검색어가 갑자기 많이 들어온 날이 있었다. 강풀 작가의 '마녀'라는 작품 속에서 PC 캡쳐 화면과 함께 주인공이 데이터마이너가 됐다라는 짧은 문구가 등장했던 때다. 해당 캡쳐 화면에는 SAS라는 데이터분석툴 아이콘도 있었고 지금은 없어진 마이피플 아이콘도 등장했다 (유료화로 화면캡쳐는 생략. 9화였음.). 강풀 작가님이 웹툰을 그리기 위해서 예전 같은 팀의 팀원에게 자문을 얻었는데, 그 분의 (의도된) PC화면으로 유추된다. 당시에 내가 서울에서 근무했다면 미팅에 함께 참석했지 않을까?라는 생각도 해본다.

빅데이터, 데이터 사이언스, 인공 지능, 딥러닝, 머신러닝 (기계학습) 등의 많은 용어/개념들이 버즈buzz되고 있지만 관련 분야의 사람들이 아니라면 여전히 데이터마이닝 또는 데이터마이너라는 용어가 생소한 것 같다. 그래서 데이터마이닝/너에 대한 지극히 개인의 의견을 적으려 한다.

데이터마이너는 무엇을 하는 사람인가? 데이터를 보는 사람이다. 왜 데이터를 보는가? 데이터에 내재한 패턴 pattern을 찾거나 규칙 rule을 만들기 위해서다. 그런 패턴이나 규칙은 왜 찾고 만드는가? 문제를 해결하기 위해서다. 그렇다. 내가 생각하는 데이터마이닝은 여러 문제와 관련된 데이터를 관찰함으로써 규칙을 찾고 적용해서 문제를 해결하는 것이다. 문제를 해결하는 접근법은 다양하겠지만 데이터에 근거를 둔다는 점에서 다른 것들과 차별점이다. 물론 데이터가 데이터마이너만의 것은 아니다.

문제를 해결하기 위해서 데이터를 본다라고 표현했지만 때로는 문제를 찾아내기 위해서 데이터를 보는 경우도 종종 있다. 즉, 주어진 문제를 해결하기 위해서 근거 데이터를 수집하고 추론하는 것도 마이너의 일이지만, 이미 가진 데이터에서 시스템에 내재된 문제점을 찾아내는 것도 마이너의 역할이다. 그래서 단순히 수학적, 공학적 기술/기법 뿐만이 아니라, 다양한 경험과 (잡) 지식이 마이너에게 요구된다. 마이너가 활용할 수 있는 데이터는 단순히 시스템 구동에 필요한 데이터 (보통 DB나 텍스트 형태)나 시스템이 찍어내는 로그에만 한정된 것이 아니다. 

머신러닝 (또는 인공지능)은 데이터마이닝과 밀접한 관계가 있지만 같다라고 말하기는 어렵다. 밴다이어그램을 그린다면 상당한 공통 영역이 존재하지만 또 다른 영역이 분명 있다. 머신러닝은 특정 미션을 완수하기 위해서 근거 데이터로 학습시켜서 모사하는 것이 목적이다. 주어진 데이터 이상의 추론이 가능하다면 인공지능이라고 불러도 좋다. (Exploitation vs Exploration) 머신러닝/인공지능은 '기계를 사람처럼'이 모토이자 목적이다. 데이터마이닝은 많은 머신러닝 기술을 활용하지만 엄격함을 요구하지는 않는다. 인간 친화적이라고 표현하면 좋을 듯하다. 머신러닝에 일부러 모호함을 추가하는 연구도 진행되고 있지만...

데이터마이닝을 잘 하기 위해서 다양한 수학, 통계 지식이 필요하고, 고도의 알고리즘들도 만들어졌다. 그러나 그런 지식이나 알고리즘은 데이터를 잘 보기 위한 보조 기능을 하는 것일 뿐이다. 많은 지식과 알고리즘을 알고 있다고 뛰어난 데이터마이너가 되지는 않는다. 데이터를 잘 보는 능력과 그걸 돕는 기술을 많이 아는 것은 분명 같지 않다. 원시적이지만 -- 한계도 분명한 -- 텍스트나 엑셀의 테이블에 펼쳐진 (적은/제한된 양의) 수치나 데이터를 눈으로 확인해서 패턴/규칙을 발견할 수 있다면 HDFS에 쌓인 수 테라바이트의 데이터를 고도의 알고리즘으로 확인하는 것보다 더 낫다. 좀 극단적으로 표현했지만, 데이터마이닝은 기계가 이해하는 규칙이 아나라 사람이 이해하고 설명가능한 규칙을 찾는 것에 더 가깝다고 생각한다. (엄격함을 덜 요구한다는 의미도 이의 연장선에서 말한 것이다.)

R이나 SAS 등의 통계분석툴이나 파이썬이나 자바같은 프로그래밍 언어, 또는 Mahout이나 Spark MLlib 같은 (오픈소스) 라이브러리에 능한 것도 데이터마이너의 필수 덕목이 됐지만, 데이터를 보는 눈이 없다면 무용지물이다. 파리를 잡기 위해서 소잡는 칼을 휘두르는 모양새다. 수학이나 알고리즘 지식, 그리고 프로그래밍 스킬보다 도메인 지식 또는 비즈니스 로직을 개인적으로 더 중요하게 생각하는 이유도 데이터가 만들어지고 활용되는 곳을 잘 알아야지 데이터를 더 잘 볼 수 있기 때문이다. 물론, 때론 도메인 지식 (또는 지식 편향)이 데이터를 객관적으로 보는 것에 장애가 된다. 수학/통계/알고리즘과 프로그래밍 스킬, 그리고 도메인 지식은 데이터마이너가 되기 위한 일종의 트리니티라서 고른 역량이 필요하지만, 그렇지 않다면 각각의 능력을 가진 사람들을 모은 그런 팀을 구성하는 것이 필요하다. (그리고 모든 개발자들이 그렇듯이 영어를 읽고 이해하는 능력인 필수다. 유학 또는 취업으로 외국에 가지 않는 이상 영어를 듣고 말하고 쓸 기회는 별로 없지만 영어 문서를 읽어야할 일은 흔하다.)

수학이나 프로그래밍보다 도메인 지식이 더 중요하다고 얘기하는 가장 큰 이유는 우리가 일상에서 만나는 마이닝 문제 또는 해결책이 그렇게 복잡하지 않다는 점이다. 아주 간단한 연산으로 해결되는 경우가 많다. 물론 음성 인식이나 이미지 처리, 기계 번역과 같이 복잡한 태스크를 해결하기 위해서 사용되는 다양한 딥러닝 및 관련 기술들을 온전히 이해하고 구현하기 위해서는 수학과 프로그래밍 스킬이 필요하다. (딥러닝이 구조적으로 복잡해 보이지만 요소요소를 보면 사실 복잡한 연산은 아니다.) 하지만 일상에서 데이터를 가지고 하는 문제들은 그저 데이터를 연결하고 순위를 매기는 것에 불과한 경우가 허다하다. 대표적으로 추천 및 개인화 시스템이라는 것도 아이템과 아이템, 사용자와 아이템, 그리고 사용자와 사용자를 잘 연결시켜서 기준에 따라서 정열해서 상위 N개를 보여주는 것에 불과하다. 특히 독립적인 데이터 샘플이 많아지는 경우라면 더더욱 그렇다. 정성적인 추천의 품질을 가르는 것은 결국 도메인 지식이다. (정량적 지수는 다를 수 있다.) 흔히 말하는 클러스터링, 클래시피케이션 및 레그레션 등의 모든 개념들도 결국 데이터를 연결하고 나열하는 것, 또는 이를 잘 하도록 돕는 것 그 이상도 이하도 아니다.

야구 투수에 비유하면, 데이터마이너의 특기는 강속구가 아니라 제구력이다 (Control Artist). 데이터마이너는 데이터를 보는 사람이고 데이터에서 규칙을 찾는 사람이라는 정의의 연장선에서 생각하면 된다. 완벽한 모델을 찾고 모든 파라메터를 자동으로 최적화하려는 것도 연구의 한 축이겠지만, 여전히 대부분의 알고리즘들이 사람의 손을 타기 마련이다 (Human Intervention). 만능의 인공지능이 등장하지 않은 이상, 어떤 모델 또는 방법론을 선택하고 필요한 다양한 파라메터를 얼마나 잘 설정하느냐가 평범한 마이너와 좋은 마이너의 차이를 가른다. 도메인 지식과 경험이 중요하다는 이유도 제어 능력의 차이를 주기 때문이다. 딥러닝과 같은 강력한 한방 (강속구)를 가졌더라도 제어 능력이 없으면 의미가 반감된다.

데이터 엔지니어도 아닌 사이언티스타라는 사람의 입에서 경험 (또는 경험에 따른 감 — 고급지게 표현해서 인사이트)이 중요하다고 말하는 것이 참 이상할 법하다. 그건 내가 사이비라서 그렇기도 하지만, 실제 그렇기 때문이다. 문제 상황에서 가설을 세우고 데이터로 검증하기 때문에 데이터 사이언스라 불린다. 문제를 인식하고 적절한 가설을 세우고 실험 계획을 통해서 필요한 데이터를 모으고 분석 및 검증으로 얻은 결과를 해석해서 액션을 취하는 일련의 과정이 필요하다. 매우 간단한 과정이지만 이를 어떻게 실행하느냐에 따라서 투입되는 비용과 시간, 반복 그리고 승패가 결정된다. 이때 필요한 것이 -- 천재가 아닌 이상 -- 경험이다. 어차피 초보 마이너나 베테랑 마이너가 가지고 있는 기본 기술셋은 비슷하다.

이전 글에도 적었지만 데이터 문제가 아주 정확한 모델과 설정값을 요구하는 것 같지만 대부분의 경우 설명하기 쉬운 단조로운 모델과 설정하기 쉬운 근사값이 필요한 경우가 많다. 그리고, 경험이 쌓인다는 것 그리고 감이 생긴다는 것은 그저 오랜 시간동안 많은 데이터를 다뤘다고 해서 얻어지는 것은 아니다. 어쩌면 내가 이 글을 적으면서 그냥 데이터마이너라고 적었지만 실제 의미는 시니어 데이터마이너를 뜻했던 것 같다. 그냥 기계적으로 데이터를 분석하는 사람이 아니라 데이터로 생각하고 데이터와 함께 숨쉬는 사람을 생각했던 것이다. 오해를 막기 위해서 경험은 깊은 수학적 지식과 다양한 프로그래밍 연습 위에 쌓인다.

훌륭한 데이터마이너는 데이터를 잘 보는 사람이다. 특별한 재능과 기술을 가진 사람이 아니라 그저 데이터 위에 노는 사람이다.

P.S., 딱 4년 전인 2012년 3월 9일에도 같은 제목의 글을 적었습니다. http://bahnsville.tistory.com/546

===
B: https://brunch.co.kr/@jejugrapher
F: https://www.facebook.com/unexperienced


댓글을 달아 주세요

Share           Pin It

경제학을 전공하는 1년차 대학생께서 데이터마이너가 되고 싶다는 문의를 해주셨습니다. 저와 백그라운드가 다른 쪽 (문과 계열)은 조금 조심스럽습니다. 제 경험이 아닌 상상에 맞춰서 — 그리고 어떤 면에서는 선입견에 따라서 — 불필요한 조언이 될 수도 있기 때문입니다. 지난 번에 문과 고등학생도 질문을 주셨지만, 그 분은 아직 대학/과를 정하지 않은 상태였고, 지금은 경제학과로 진학한 경우라서 조금 느낌이 다를 수 있습니다. 그리고 학교마다 개설되는 수업 이름이 다르기 때문에 정확한 수업명은 다시 확인하시기 바랍니다.

안녕하세요? 경제학과에 재학중인 학생입니다.
아직 1학년 밖에 마치지 않았지만
데이터마이너가 되고싶다는 생각이 들어 이렇게 여쭈어 보게 되었습니다.
구체적으로 어떤 과목을 공부해야하는지 알고 싶습니다.
단순히 경제학만으로는 묻지마취업밖에 길이 없다는 사실을 깨닫고 좀더 전문성이 있는 길을 가고싶어서 질문드립니다.
구체적으로 어떤 과목을 공부해야하는지 테크트리좀 알려주세요.

굳이 데이터마이너가 되지 않더라도 경제학 분야에서도 수리경제나 개량경제 등에서 수학분석 및 컴퓨터 시뮬레이션 등이 필요한 분야가 많이 있습니다. 이 말은 데이터마이닝은 데이터마이너만의 영역이 아니라는 뜻을 내포하고 있으며, 특히 최근에는 데이터 기반의 전략수립, 의사결정, 실행 등의 트렌드가 있기 때문에 누구나 기초적인 데이터마이닝 수업 등은 들어두면 좋습니다.

데이터마이닝을 하면 기본적으로 수학과 컴퓨터를 빼놓을 수 없습니다. 그래서 아래의 수업들은 대부분 수학이나 컴퓨터 관련 과목들입니다. 그리고 저도 기본적인 수학만 이수했기 때문에 수학과에서 배우는 전체 과목을 잘 모릅니다. 그리고, 컴사/컴공도 아니라서 컴퓨터 쪽도 고등 advanced 과목은 잘 모릅니다. 감안하시고 읽어주시기 바랍니다.

수학쪽 과목은 기본적으로 공대에 진학하면 1학년 때 ‘Calculus’ (타학교에서는 ‘공학수학' 정도로 개설될 듯함) 라는 과목을 듣습니다. 수학의 전반을 다루는데 고등학교 수준 또는 그 이상의 다룹니다. 수학의 기본을 배우는 과목이니 이수를 할 필요가 있습니다. 두번째로는 당연히 '확률과 통계 Probability and Statistics’는 데이터마이닝의 기본입니다. 실제 애플리케이션에서는 이 문제는 확률, 통계문제다라고 정의하지 않더라도 기본 개념들이 늘 사용되기 때문에 익숙해질 필요가 있습니다. 세번째로 응선대라고 불리는 ‘응용선형대수 Linear Algebra’가 필요합니다. 고등학교 때 배우는 행열 matrix의 심화과정입니다. 데이터의 표현방식에 따라서 조금씩 달라지겠지만, 기본적으로 모든 데이터는 matrix 형태로 표현이 가능하기 때문에 행열에 대한 기본 연산에는 익숙해질 필요가 있습니다. 그리고 고급 머신러닝이나 알고리즘을 배우게 되면 행열이나 벡터가 기본 데이터 구조로 사용되기 때문에 필수적입니다.

다음으로 컴퓨터 사이언스 또는 컴퓨터 공학 (컴사/컴공)과의 과목들입니다. 당연히 프로그래밍 언어 하나 정도는 배워둬야 합니다. 제가 학교 다닐 때는 C언어가 기본이었지만, 최근에는 Java를 CSE101로 수강하는 곳도 많을 것입니다. 프로그래밍 랭귀지마다 문법이 조금씩 다르지만, 기본 개념은 비슷비슷하기 때문에 한가지 언어를 잘 배워두면 다른 언어를 쉽게 배울 수 있습니다. 단지 웹기반의 프로그래밍만 필요하다면 최근에는 그냥 Python, PHP, Scala, Ruby 같은 언어는 좀 더 배우기 쉬울 것입니다. 그래도 제대로 배우겠지만 시작은 역시 C 언어입니다. 다음으로는 데이터 구조 Data structure나 알고리즘 Algorithm 수업을 들어두면 프로그래밍을 하는데 도움이 됩니다. 그리고 세번째는 데이터베이스 과목인데, 그런데 컴사/컴공의 데이터베이스는 너무 low level까지 다루기 때문에 (프로젝트로 데이터베이스의 기능을 실제 구현해본다와 같은 것이 나올 수 있음) 문과생들에게는 다소 어려울 수 있습니다. 그렇기 때문에 산업공학과나 다른 과에서 다루는 좀더 애플리케이션에 치중한 데이터베이스 수업을 들으면 됩니다. 기본적으로 컴퓨터를 전공한다면 이산수학 Discrete mathematics 수업도 듣습니다. 오래 되어서 정확히 기억나지 않지만, 집합에서 다루는 개념들을 컴퓨터의 원리에 맞게 맞춘 과목입니다.

당연히 컴공과에서 머신러닝 Machine Learning이나 인공지능 Artificial Intelligence 과목도 들어야겠지만, 대부분은 대학원 과목입니다. 머신러닝/AI 과목은 전기전자과에서도 개설되는 경우가 많습니다. 정확히 같지는 않겠지만 산업공학, 생명공학, 화학공학 등의 과에서도 그 과에 맞는 다양한 수학 또는 데이터마이닝 수업들이 존재합니다. (교수님/연구실의 존재에 따라서 달라지겠지만..) 단, 학과마다 그 학과에 맞는 수업을 진행하기 때문에 무턱대고 수강신청을 하면 나중에 피곤할 수도 있으니 잘 알아보고 신청하셔야 합니다.

그외의 과들에서는… 기본적으로 각 과의 개론 (101) 수업들은 들어두면 좋습니다. 산업공학과에서는 최적화 OR, 산업응용통계, 실험계획법 등의 수업이 존재합니다. 전에도 말씀드렸는데, 데이터마이닝 알고리즘들이 자연의 현상에서 영감을 받아서 구현된 것들이 많으니 물리학이나 화학의 기초도 필요할 수도 있고 (근데 굳이 수업까지는…), 자신이 원하는 응용분야에 맞게 생명이나 화공 등의 수업을 들어두면 좋습니다. 질문자는 이미 경제학을 선택했기 때문에, 굳이 이런 쪽 분야의 수업은 필요치 않을 듯합니다.

C나 Java 등의 프로그래밍 언어를 배우기가 힘들다면, 다양한 수학, 통계 관련 분석툴들에 익숙해질 필요가 있습니다. 가장 간단하게는 MS오피스에 포함된 Excel입니다. 개발자가 아닌 경우라면 회사에서 가장 많이 사용하는 프로그램 중에 하나가 엑셀이기 때문에 미리 고급 기능을 익혀두면 나중에 편하게 사용할 수 있습니다. 조금 더 전문적으로 데이터 분석을 하겠다면 SAS, R, Matlab, Mathematica, Minitab 등의 수많은 분석툴들이 있습니다. (R은 프리소프트웨어이고 학계에서도 많이 사용하기 때문에 R을 배워두면 좋습니다. 최근 빅데이터 붐과 함께 R의 사용빈도도 늘어났기 때문에 미리 공부하고 익혀두면 좋습니다.) 그외에도 특정 도메인/데이터에 맞는 또는 기능에 맞는 다양한 분석툴들이 존재하기 때문에 어떤 것들이 필요한지 미리 확인해보시기 바랍니다.

처음이라면 각 관련 과의 개론 수업, 공학수학, 프로그래밍 언어부터 시작하시고, 다음으로는 확률통계, 응선대, 이산수학, 데이터구조, 다음으로는 응용산업통계나 데이터베이스 등의 수업으로 차곡차곡 들으면 될 듯합니다. 어차피 학년 (난이도)에 맞는 1XX, 2XX 이렇게 수업이 설계되었기 때문에 아래쪽부터 차곡차곡 수업을 들으면 큰 어려움은 없을 것입니다. 이런 공학수업뿐만 아니라, 영어 (특히 독해)는 꾸준히 연습해두는 것이 좋습니다. 분석이나 개발 관련 기술문서들은 대부분 영어로 되어있기 때문에 (보통 번역서는 6개월, 1년 정도 늦게 나옴) 최근 트렌드나 기술을 익힐려면 영어는 필수입니다. (토플/토익점수는 필요치 않아요.) 무엇보다 인터넷과 게임 외의 컴퓨터와 친해지는 것이 가장 우선입니다.

충분히 답변이 되었는지 모르겠으나, 처음에는 막막해 보일 수 있지만 한 발을 일단 내딛고 나면 길이 보일 수도 있습니다.

==

페이스북 페이지: https://www.facebook.com/unexperienced

댓글을 달아 주세요

Share           Pin It

아래와 같은 질문이 들어왔습니다. 요약하자면, 현재 고등학교 문과생인데, 빅데이터 또는 데이터마이닝에 관심이 생겨서 이 분야로 진로/진학을 하고 싶은데 어떻게 하면 좋을까요?입니다.

(전략) 지금 수시원서접수를 코앞에 둔 서울인문계고등학교 재학중인 문과 고3여학생인데, 글을 읽어보면 컴공을 추천하셨는데 문과에서는 현실적으로 가기 힘듭니다... 그렇다면 대안책으로 심리학과를 추천하시나요? 심리학보다는 통계학이 나을까요?(통계학이 문과에 있는 학교가 무척 제한적이고 그중엔 학부의 입시특성상 제가 지원하기 힘든 학교도 있어서, 다른과를 더 찾아보고 있습니다.)
(중략) 만약 흥미로 이쪽 분야로 가려고 한다면 문과계열 중 어느학과를 추천하시고, 이후 어떤 식으로 공부해나가는걸 추천하시는지. 이런 막연한 환상섞인 관심같은 것을 가지고 가도 괜찮은건지(일단 가서 공부하다보면 알수있겠죠?), 가서 내가 이 길로 가야겠다는건 어떻게 알수있는지 막연하게 여쭤봅니다.

(이상적으로) 불가능하지는 않지만 (현실적으로) 쉽지도 않다는 말부터 해줄 수 밖에 없습니다.

데이터마이닝을 전공하기 위해서는 기본적으로 수학과 컴퓨터와 친해져야 합니다. 이 부분에는 큰 이견이 없으리라 생각합니다. 그런데 문과생이 진학할 수 있는 쪽은 대부분 인문학이나 예체능 쪽입니다. 아시듯이 인문 및 예체능에서 수학이나 컴퓨터를 제대로 다루는 학과가 거의 없습니다. 질문을 듣고 생각해봤는데, 그나마 수학 (통계)이나 컴퓨터와 관련이 있는 학과는 사회학이나 수리경제학, 계량경제학정도가 떠올랐습니다. 그렇다고 그냥 사회학과나 경제학과로 진학하라고 쉽게 말씀드릴 수 없습니다. 왜냐하면 사회학이나 경제학의 극히 일부에서 수학과 컴퓨터를 활용하기 때문입니다. 그래서 학과보다는 해당 학교/학과의 교수님들의 구성을 잘 보셔야 합니다. 교수님들 중에서 사회 현상을 수리적으로 분석하고 컴퓨터 프로그램으로 모델링하는 분이 계셔야 하고, 또 경제학과에서도 그런 분이 계셔야 합니다. 그런데 그런 분이 계신다 하더라도 대학원이 아닌 학부 과정에서 자신의 연구 분야를 (계론 이상으로) 강의하는 경우가 흔치 않습니다.

제가 다른 글에서 심리학 얘기를 꺼낸 적이 있는데, 이는 심리학을 전공하면 데이터마이너가 될 수 있다는 얘기는 아닙니다. 데이터마이너가 된 이후에 더 성공적인 데이터마이너가 되는데 도움이 될 수 있다는 얘기를 한 것입니다. 데이터마이닝이 크게 (여러 소스에서) 데이터를 뽑아내고/수집하고 그 데이터에서 패턴을 찾아내는 분석의 과정과 뽑혀진 패턴에서 의미를 찾아서 가치를 덧붙이는 해석의 과정으로 이뤄졌습니다. 수학/통계나 컴퓨터 (알고리즘 및 구현)에 능통하면 앞의 분석의 과정은 그나마 쉽게 해결할 수 있지만, 여전히 해석의 과정은 미궁에 남습니다. (많은 문제들에서) 해석의 과정에서 인간이나 사회에 대한 이해가 필요한 경우가 많기 때문에 인문학이 중요하다고 말하는 것입니다. 그리고 실제 데이터마이닝을 전문으로 하는 업체들도 최근에는 수학 및 컴퓨터 전공자들보다 -- 이미 수학 및 컴퓨터 베이스를 구축한 상태이므로 -- 인문학 전공자들을 채용해서 해석 파트를 맡기는 것도 일종의 추세입니다. 그런데 비율상으로 수학/컴퓨터 전공자들이 데이터마이닝 업체에 입사하는 것보다 인문학 전공자들이 입사하는 비율이 극히 작기 때문에 특정 업체의 현상/트렌드를 일반화시킬 수가 없습니다. (즉, 이공계 전공자 100명 중에 10명이 데이터마이닝 업체에 취직할 수 있다면/한다면, 인문학 전공자들은 100명 중에 1명도 취직하지 못 하고 있다는 의미정도로 받아들이면 됩니다.)

전혀 불가능한 것이 아니라면, 통계학과나 산업공학과정도에는 지원을 해보는 것도 좋을 것같습니다. 통계학이 그나마 수학 분야에서, 그리고 산업공학이 공학 분야에서 가장 소프트하기 때문에 문과생들도 쉽게 적응할 수가 있습니다. 그것도 아니면, 전과나 편입을 하는 것도 당장 고려해볼 수 있습니다. 학부과정에서 수강, 청강 또는 (인터넷) 강의 등을 통해서 기본 수학 (선형대수, 확률통계 정도) 지식을 쌓고, 컴퓨터 관련 수업 (프로그래밍, 데이터구조, 알고리즘 정도)을 들으면서 기초 지식을 쌓은 후에 데이터마이닝 관련 대학원에 진학하는 것도 방법입니다. 그러나 쉽지는 않습니다. (부전공이나 복수전공을 하는 것도 좋지만, 인문학과 공학을 동시에 마스터하는 것은 개인의 노력이 많이 필요합니다. 현실적으로 전과를 하는 것이...)

대학/학부에서는 기초적인 지식만 배우기 때문에 학부를 졸업해서 당장 데이터마이너로 커리어를 이어가기가 힘듭니다. 수학이나 컴퓨터 전공자라하더도 특출난 재능이 없다면 처음부터 데이터마이닝 관련 팀으로 채용될 가능성도 매우 희박합니다. 실제 커리어의 시작은 관련 대학원에 진학하거나 아니면 관련 업계에 취직해서 몸으로 배우는 것밖에 없습니다. (다음을 기준으로) 주변에 문헌정보학과를 졸업한 분들이 좀 있습니다. (일부를 제외하면 대부분 기획자지만...) 그리고 개발자 분 중에서 영문학과를 졸업 후에 개인적으로 프로그래밍을 마스터해서 개발자로 전향하신 분도 계십니다. 데이터마이닝이 컴퓨터 분야에서도 조금 특수하지만, 개인의 의지와 노력에 반해서 접근불가능한 영역도 아닙니다.

그리고, 스티븐 레빗의 <괴짜 경제학>이나 댄 애리얼리의 <경제 심리학> 등의 책을 보면 실험 및 수치데이터를 이용한 행동경제학을 다루고 있습니다. 혹시 지금 관심사가 단순히 데이터마이닝/빅데이터를 해보겠다는 것이 아니라, 이상의 책에서 소개된 경제, 사회 현상에 대한 수리적 분석 및 해석에 관심이 있는 것은 아닌지도 잘 생각해봐야 합니다. 다른 글에서도 밝혔듯이 데이터 (& 분석) 자체에 대한 관심이 아니라, 데이터 분석을 이용한 다양한 사회현상을 검토, 검증해보는 것 (책에서처럼 특정 현상을 비교한다거나 다양한 트렌드를 찾아낸다거나)이라면 데이터마이닝 트랙보다는 문과를 선택했을 때에 가졌던 인문학에 대한 관심을 더 살리는 것이 바람직할 수도 있습니다.

좀더 기술적인 내용도 처음에는 적으려 했지만, 당장 그런 내용을 다루는 것은 적합해보이지 않아 보여서 생략합니다. 혹시 진로가 결정되고 또 그 때에도 여전히 데이터마이닝에 관심이 있고 커리어를 준비한다면 다시 요청하시면 더 기술적인 내용 (어떤 과목이나 도구, 알고리즘 등을 공부해야하는가 등)을 알려드리겠습니다. 여러 이야기를 적고 있지만, 이상은 모두 저의 개인적인 경험과 견해를 말하는 것이지 일반적인/공통된 해법을 제시하는 것은 아닙니다. 인문학자가 데이터 분석가가 되는 것은 현실적으로 많은 장벽이 존재합니다. 그러나 데이터 해석가가 되는 것은 어떤 측면에서 수학이나 공학을 전공한 기술적인 사람들보다 더 좋은 조건을 가졌다고 생각합니다. 이것 아니면 안 돼라는 생각보다는 더 다양하고 엉뚱한 상상과 경험을 하고 식견을 넓히는데 더 많은 노력을 투자하세요.

** 질문은 언제든지 환영합니다. 단, 원하는 답변을 얻지 못할 수는 있습니다.

페이스북 페이지: https://www.facebook.com/unexperienced

---

  • 댓글 하나. 국문학 또는 언어학 하다가 linguistic statistics나 NLP쪽 거쳐서 mining으로 넘어가는 테크트리가 가능하겠네요.
  • 댓글 둘. 제가 거의 이런 테크를 탄 거 같은데..(저는 데이터마이너라고 하기도 좀 어렵지만요) 문과생이라고 하더라도 결국은 수학이나 통계와 친해야할 것 같습니다. 제 주변엔 문헌정보학과로 석사까지 하고 데이터마이닝이나 개발 분야에서 일하는 분이 몇분 정도 계신데, 데이터마이닝을 하기 위해 문헌정보학을 전공하는 것은 추천하지 않습니다.(전공자 중에 이 분야에서 일할 확률이 1%나 될까 싶습니다.)


댓글을 달아 주세요

Share           Pin It

매주 화, 금요일을 기다렸던 이유는 윤태호님의 미생 때문이었는데, 지난주로 1부가 마감되었습니다. 그 빈자리를 이제 강풀님께서 '마녀'로 채워주셨고 그래서 이제는 월, 목요일을 기다리게 됩니다. 오늘 (어제) 연재된 9화 (만화속세상 마녀 9화) 에서 주인공이 전공을 살려서 데이터마이너가 되었다라는 표현이 등장합니다. 그래서 (아래처럼) 블로그 유입키워드로 '데이터마이너'가 급증했습니다.

위의 티스토리 유입로그를 보면서 가장 먼저 떠오른 생각은 마녀는 다음 Daum의 만화속세상에서 연재 중인데, 검색쿼리는 네이버에서 대부분 발생했다는 점입니다. 단순히 네이버에서는 내 글을 잘 찾아줬고, 다음에서는 그러지 못했을 수도 있다는 생각을 할 수도 있지만, 아래의 캡쳐화면서 보여지듯이 네이버에서는 제 글이 3개가 노출중이고, 다음에서는 같은 글 2개가 노출중입니다. 물론 네이버에서는 블로그 컬렉션이 최상단에 노출되지만, 다음에서는 두번째 노출되는 것에 차이가 있습니다. 어쨌든 웹툰은 다음에서 보고 굳이 불편을 감내하면서까지 네이버에서 검색하는 것은 현재 (적어도 검색에서) 다음과 네이버의 (사람들이 생각하는 인식) 차이를 그대로 보여주는 듯합니다. 다음 검색에 어느 정도 역할을 하는 사람으로써 스스로 부끄러움을 느낍니다.

데이터마이닝 관련글
- 데이터마인이과 데이터마이너
- (빅) 데이터 마이너가 되고 싶어요
- 데이터마이닝 관련 카테고리


그런데 더 근본적으로 사람들이 '데이터마이너'를 검색해봤다는 점입니다. IT 쪽에 관심이 있는 사람들은 빅데이터나 데이터마이닝 등의 용어를 들어봤겠지만, 일반인들에게 '데이터마이너'라는 용어가 아직 생소한가 봅니다. 나에게는 아무렇지도 않은 그저 직업 타이틀일 뿐인데, 비전공자나 비관련자들에게는 완전히 새로운 세상의 직업으로 인식되는 것같습니다. 그래서 또 내 직업을 제대로 알리지도 못했던 것에 미안함을 느낍니다.

데이터마이너는 무엇일까요? 쉽게 말해서 마이너 miner가 땅 속에서 석탄이나 금 등의 광물을 캐내듯이 데이터마이너는 데이터라는 더미 속에서 의미있는 정보를 찾아내고 가치있는 서비스로 연결시켜주는 사람입니다. 최근에는 빅데이터가 인기를 끌면서 데이터마이너보다는 데이터사이언티스트 scientist로 불려지기 시작했습니다. 2~3년 전부터는 저는 제 직업 타이틀에 데이터마이너나 사이언티스트로 적지 않고, 데이터 필로소퍼 philosopher로 적고 있습니다. 그냥 데이터마이너/사이언티스트로 적으면 지나치게 공학적 또는 과학적인 측면만 부각되는 것같았습니다. 저는 단순히 데이터에서 현상적 패턴을 찾거나 그런 알고리즘을 개발하는 것을 뛰어넘어서 데이터 속의 당위성까지 보고 싶어졌기 때문입니다.

그냥 어감에서 오는 느낌일 뿐이지만, 데이터마이너 또는 데이터분석가라고 부르면 그저 주어진 데이터를 분석툴에 넣어서 결과를 뽑아내고 정리하는 사람이라는 느낌을 받습니다. 간단한 ANOVA나 회구분석 등을 배운 후에 세상의 모든 데이터를 분석할 수 있을 것같았던 적이 있었습니다. 일반의 인식에서는 이렇게 Data How에만 치우치는 사람들이 데이터분석가로 인식될 듯합니다. 이후에 다양한 기계학습 Machine Learning이나 인공지능 AI/Artificial Intelligence 등의 습득하면서 더 고차원인 데이터분석을 시도하게 됩니다. 많은/다양한 데이터를 관찰하면서 인사이트를 얻고 그것에 적합한 새로운 알고리즘을 개발하는, 즉 Data What을 추구하는 사람들이 데이터사이언티스트로 보여집니다. 이런 데이터하우나 데이터왓의 단계보다는 더 근본적인 데이터의 당위성, 즉 Data Why에 대한 고민을 해보고 싶었고 그래서 그런 사람을 데이터필로소퍼라는 타이틀을 묶을 수 있겠다는 생각을 했습니다. 엔지니어링이나 과학에 대한 경시가 아니라, 개인적인 철학에 대한 동경의 표현입니다.

데이터마이너를 이런 식으로 구분한다는 것 자체가 넌센스고 자기교만/연민이면서 또 허세라는 것을 잘 알고 있습니다. 그래도 기능적인 데이터마이닝에서 좀더 개념적인 데이터마이닝으로 발전하기를 바라는 염원입니다. 직업적 자부심은 가지지만 다음 인생에서는 조금 다른 삶을 살고 싶기도 합니다.

페이스북 페이지: https://www.facebook.com/unexperienced

댓글을 달아 주세요