3.5 / 5 데이터마이닝/데이터분석및적용의 인트로덕션으로는 좋으나 내 기대는 완전히 충족시키지 못했다.
한마디로 표현해서 무조건 전문가의 (오류를 내포한) 직관에만 의존하지 말고, 데이터에서 밝혀진 검증된 결과도 함께 활용하라 정도로 요약할 수 있을 듯하다. 수학이나 데이터 분석에 별관심이 없었거나 비전공자라면 이런 방법이 있구나라고 생각할 수 있겠지만, 사실 책에서 말하는 것은 회귀분석, DOE (Design of Experiments 또는 Experimental Design) 중에서 Random Sample, 좀더 나아가서 신경망 Neural Network, 평균과 표준편차, 그리고 베이지언 확률 정도의 내용만을 다루는 아주 심플하고 간단한 책이다. 나름 데이터마이닝을 담당하고 있는 입장에서 소개된 기법들이 너무 기본적인 것들이라 시시한 면도 있지만, 저자의 분야에서 적용하는 다양한 사례들을 읽으면서 다른 가능성을 발견할 수가 있었다. 법학대학원의 교수로써 저자가 가지는 데이터마이닝의 한계는 충분히 이해가 가능하고, 실제 산업현장에서 회귀분석 및 실험계획 이상의 복잡한 것들은 사용되지 않는다는 측면에서 저자의 한계보다는 현실을 반영한 결과로 볼 수도 있다. 저자의 주요 주장은 전문가의 조건/직감을 무시하라는 것은 절대 아니다. 그것보다는 더 나은 판단을 내기리 위해서 데이터에 반영되어 있는 숨은 그리고 객관적인 규칙을 최종 판단에 포함시켜야 한다는 것이다. 실제 책에서는 데이터 분석이 전문가들의 직관을 이긴 사례들을 들고 있지만, 그 반대의 경우도 많이 있다는 측면에서 전문가의 직관과 데이터 분석결과는 상보적인 관계에 있다. ... 책에 그래프는 몇 개가 나오지만 수식 등은 등장하지 않기 때문에 수학 비전공자/흥미가 없는 이들도 쉽게 읽을 수 있다. 그리고 이런 개론 서적을 통해서 수학에 흥미를 가지는 것도 의미가 있다. 여담이지만, 유명한 과학자의 말인데, 세상에는 세가지 거짓말, 즉 거짓말, 새빨간 거짓말, 그리고 통계가 있다라고 말했다고 한다. 현재의 데이터 분석/슈퍼크런칭은 기본적으로 확률과 통계를 기본으로 하기 때문에 데이터 분석 결과가 모든 것을 말해주지는 않는다. 즉, 거짓 판단을 내리게 만들 수도 있기 때문에 분석된 결과를 실무에 적용하기 전에 까다로운 검증 작업을 거쳐야 한다.
함께 읽을 책들은... 수학, 확률 및 통계, 그리고 다양한 데이터마이닝 서적들을 읽으면 좋겠지만 전공학생들이 아닌 이상에야 쉽게 다가가기는 힘들 것같다.