본문 바로가기

DM ML AD

데이터마이닝과 데이터마이너.

이 글은 아주 간단한 의문에서 시작했습니다. 고민에 고민을 거듭하고 생각에 생각을 더하다보니 애초의 질문과는 다른 방향으로 생각이 진행되었습니다. 아직 명확한 결론에 이르지는 않았습니다. 그리고 이 글을 전개하면서 또 어떤 모르는 힘에 의해서 글이 쓰여질지도 모르겠습니다. 최초의 의문은 "우리는 간단한 데이터에서 충분한 정보를 얻고 있는가?"입니다.

먼저 저는 다음 커뮤니케이션의 데이터마이닝팀에 속해있습니다. 당연히 업무는 검색 및 포털 서비스를 위한 데이터분석입니다. 입사한지도 4년이 지났는데 (오는 일요일인 3월 11일이면 5년째를 시작합니다.) 그동안 저 다음으로 입사해서 먼저 퇴사한 (예정된) 사람만 벌써 4명에 이릅니다. 그들의 공통된 지적은 '우리가 하는 일은 데이터마이닝이 아니다'입니다.

그래서 데이터마이닝이 뭘까?도 고민하게 됩니다. 지금 데이터마이너라는 타이틀로 회사생활을 하고 있지만, 저의 학문 배경은 데이터마이닝과 거리가 있습니다. 어학보다는 수학을 더 좋아했던 이과생이었고, 오랫동안 물리학을 꿈꿔왔지만 정작 대학은 산업공학을 택했습니다. 대학원과정도 데이터마이닝을 주로 하는 연구실을 택하지 않았습니다. 석사과정은 생상공학을 전공했고, 박사과정은 이종/다양한 시스템간의 상호운용성에 대한 연구였습니다. 물론 대학원 과정 중에 생산 프로세스 최적화/품직향상를 위해서 회귀분석 Regression, PLS (Partial Least Square), ANN (Artificial Neural Network), GA/SA (Genetic Algorithm / Simulated Annealing) 등의 여러 수학/통계/마이닝기법들을 사용해봤고, 박사학위 논문으로 여러 데이터마이닝 기법들을 이용해서 XML 문서들간의 유사도 Similarity와 그 활용에 대한 논문도 준비했고, 박사후과정 중에는 협업필터링 Collaborative Filtering이나 Kernel Method (특히 String Kernel)을 이용한 논문도 몇 편 적기도 했습니다.

결론적으로 말해서 저는 수학/통계학과만큼의 수학 및 통계적 백그라운드가 없고, 물리학과만큼의 이론적 백그라운드 (엔트로피 등의 개념)도 없고, 컴퓨터공학과만큼의 기본적인 프로그램적 소양도 없고, 전자과나 생명과, 화학공학과만큼의 데이터마이닝의 응용에 대한 경험도 없습니다. 그러나 공학의 피라미와 같은 산업공학을 전공했기 때문에 위의 분야들을 대부분 맛보기는 경험할 수 있었고, 더 중요한 문제해결 Problem-Solving이라는 마인드셋을 구축할 수 있었습니다. 보통 산업공학을 하면 최적화나 효율성제고를 떠올리지만 저는 그것보다는 문제해결능력이 산업공학의 정수라고 생각합니다. 전공자나 전문가만큼의 문제해법의 정석을 가지고 있지 않지만, 어떤 상황에서도 그럴듯한 해 Feasible Solution을 찾아내는 능력을 가지게 되었다는 의미입니다. 저는 데이터마이닝이 고도의 수학적 지식과 물리학적 이론을 바탕으로 복잡한 자연현상을 분석/해석하는 것이라면 저는 전통 데이터마이너가 아닙니다. 그러나 저는 현상의 문제를 주어진 데이터를 가지고 해결을 한다는 의미로 데이터마이닝을 정의해야 된다고 생각합니다. 이론보다는 실용성에 초점을 맞춰야 합니다.


처음 의문으로 돌아가봅니다. '우리는 간단한 데이터에서 충분한 정보를 얻고 있는가?' 사람들은 데이터마이닝이라면 뭔가 거창한 것을 떠올립니다. 복잡한 수식이나 다양한 테크닉을 자유자재로 구사하는 사람으로 생각합니다. 일반인들 뿐만 아니라 데이터마이닝 업에 종사하는 사람도 그런 사람으로 비춰져야 된다고 생각하는 듯합니다. '우리가 하는 일은 데이터마이닝이 아니다'라는 이야기는 우리는 지금 충분히 멋있어 보이는 일을 하지 않고 있다는 의미입니다. 내가 이렇게 허접하게 일을 하고 있다는 것을 남들이 절대 알면 안 된다는 생각인지도 모르겠습니다. 나는 데이터와 수에 대한 전문가이고 권위자다라는 생각을 가지고 남들도 그렇게 봐주기를 바라는 듯합니다. 이런 생각에 빠지게 되면 아주 간단한 데이터를 가지고 그것이 가지는 함의를 충분히 보지 않습니다. 어떻게 하면 더 복잡한 수식과 테크닉을 가지고 그럴듯한 데이터를 뽑아서 보여줄까?만을 골몰합니다. 정작 사람들이 필요한 것은 데이터 분포의 평균과 분산인데,... 그리고 정작 현장에서 사용하는 최고의 복잡한 기법은 회귀분석 Regression입니다. 그 이상의 복잡한 ANN 등의 기법은 잘 활용되지도 않는 듯합니다. (<슈퍼크런처>에 등장하는 데이터마이닝도 결국은 회귀분석에서 끝.)

일전에 이런 질문을 받았습니다. '간단한 데이터를 복잡한 방법으로 해결할 것인가?' 아니면 '복잡한 데이터를 간단한 방법으로 해결할 것인가?' 중에 어느 것을 택할 것인가? 저는 이렇게 대답했습니다. '간단한 데이터를 간단한 방법으로 해결한다.' 데이터마이닝이란 데이터가 가지는 함의를 찾아내는 과정입니다. 그걸 위해서 때로는 복잡한 방법이 필요하기도 합니다. 그러나 복잡한 방법이 옳은 해답을 보장해주는 것이 아닙니다. 복잡한 방법으로 특정 해를 구하는 것보다는 간단한 방법으로 나온 결과가 가지는 의미를 더 잘 해석하고 설명해주는 것이 필요합니다. 물론 현실 여건에서는 데이터가 간단하지도 않고 간단한 방법으로 해결가능하지 않을 때가 많습니다. 우리가 빠지기 쉬운 오류는 더 많은 데이터가 있으면 더 정확한 분석이 가능할테고, 더 고도의 테크닉을 활용하면 더 정확한 해답을 얻을 수 있다라는 생각입니다. 컴퓨터사이언스에는 'Garbage In Garbage Out'이라는 유명한 말이 있습니다. 데이터마이닝도 주어진 데이터가 쓰레기인지를 먼저 판단해야지, 그 쓰레기를 가지고 어떻게 재활용할 것인가?를 먼저 고민하면 안 될 듯합니다.

(페이스북에 올린 내용/각색) '우리는 간단한 데이터에서 충분한 정보를 얻고 있는가?' 흔히 더 많은 데이터는 더 정확한 정보를 암시한다고 믿고 있습니다. 그러나 의미는 모든 데이터에 존재합니다. 데이터의 많고 적음의 문제도 아니고, 데이터의 복잡/간단함의 문제도 아닙니다. 그저 모든 데이터가 나름의 의미를 내포합니다. 그것을 찾는 것이 데이터마이닝입니다. 그러기 위해서는 더 많은 데이터나 더 복잡한 테크닉이 필요한 것이 아니라, 더 유연한 사고와 접근법 그리고 데이터에 대한 인사이트가 필요합니다. 그래서 저는 감히 말합니다. '데이터마이닝의 시대는 갔다.' (참 아이러니하죠? 최근에 많은 신문기사들이 이제 빅데이터의 시대가 왔고,데이터마이닝의 시대가 되었다라고 홍보하는데... 정작 저는 그런 시대는 갔다고 말하니..) '마이닝'이라는 용어가 가지는 한계를 벗어나야 합니다. 무조건 파고든다고 해서 데이터 속에 깊이 숨어있던 의미가 나타나지 않습니다. 상상 그 이상이 필요합니다. 상상할 수 없는 것을 상상할 때 데이터가 가지는 진정한 함의를 얻을 수 있습니다.

그런 의미로 저는 이제 데이터마이닝의 시대가 아니라 데이터미닝 DataMeaning의 시대다라고 말합니다. 이제는 단순히 데이터를 깊이 파고들어가는 것에는 한계가 있습니다. 이제는 개별 데이터의 의미를 파악하고, 데이터 간의 의미를 연결하고, 때로는 데이터에 새로운 의미를 부여하는 기술이 필요한 시점입니다. Data Mapping & Meaning의 시대입니다. 물론 그런 의미를 찾기 위해서는 기존과 같이 손발이 수고해서 마이닝을 해야 합니다. 그러나 그렇게 얻은 것에 만족할 것이 아니라, 그렇게 얻은 1차 의미를 더 가공해서 새로운 2차, 3창의 부가가치를 실현시켜야 합니다. 그러기 위해서는 데이터를 더 깊이 더 포괄적으로 더 다양하게 관찰하는 눈이 필요하고, 혼자만의 전문성이 아니라 주위에서 들려주는 다양한 조언들을 들어주는 귀가 필요합니다. 그리고 겉으로 드러나지 않은 것을 상상하는 그 (어린이의) 순진함도 필요합니다. 데이터미닝은 기법이 아니라 상상에서 나옵니다.

(업데이트) 최근에 저의 직업타이틀을 변경했습니다. 공식적으로는 여전히 데이터분석가 또는 데이터마이너로 되어있지만, 페이스북의 직업란을 변경했습니다. 오랫동안 Data Analyst & Researcher로 적어놨던 것을 이제는 Data Philosopher로 변경했습니다. 단순히 데이터에 내재한 의미를 발견하는 것만큼이나, 데이터가 가져야할 당위성을 제시하는 것도 필요한 시점입니다.
 
반응형