본문 바로가기

DM ML AD

[책소개] 초보자들을 위한 통계학습 (An Introduction to Statistical Learning with Applications in R)

(한글 번역본 나옴. http://book.daum.net/detail/book.do?bookid=KOR9791186710050)

연초부터 옆 팀에서 Kevin P. Murphy의 "Machine Learing: A Probabilistic Perspective"라는 책으로 스터디를 한다는 얘기를 들었다. 여러 이유로 제한된 일부를 제외하고는 타팀의 청강을 허용하지 않는다고 해서, 그냥 인터넷에서 책을 구해서 읽어나갔다. (구글링하면 PDF 파일을 얻을 수 있음.) 약 1000페이지의 방대한 양에 머신러닝과 관련된 -- 최근 핫한 이슈를 포함한 -- 대부분의 주제를 다루고 있어서 이것만 마스터하면 머신러닝에 조금 더 익숙해질 수 있으리라는 기대를 가지고 막무가내로 읽어나갔다. 그런데 양도 많지만 너무 어려웠다. 처음 3챕터정도는 토시 하나 빼지 않고 다 읽었는데, 점점 한계에 부딪혀서 점점 대강 읽어나가다가 어느 순간에는 목차와 본문의 볼드체 글씨만 확인하고 넘겼다. 수학/확률 전공자가 아니면 쉽게 이해하기 어려운 너무 하드코어 텍스트북이다. 전공자가 아니라면 읽지 않는 것이 정신 건강에 좋다.

그렇게 1000페이지를 거의 넘겨가는 시점에 페이스북에서 새로운 책이 소개된 글을 보게 되었다. '그대안의 작은 호수'라는 타이틀의 사이트에 책 제목과 같은 "An Introduction to Statistical Learning with R"이라는 글을 보게 되었고, 지금 무료로 책을 다운로드 가능하다고 해서 바로 받아서 읽기 시작했다. 책 PDF는 글 속의 링크 또는 구글링을 통해서 얻을 수 있다.

이 책은 수학/통계 또는 컴퓨터 공학이 전공이 아닌데, 데이터마이닝/머신러닝에 관심이 있는 초보자들에게 유용하다. 특히 산업공학이나 화학공학, 바이오인포메틱스 등의 응용분야에서 데이터 분석을 하는 이들에게 적합하다. 학부 수준의 교육을 받았다면 (처음에는 조금 익숙치 않을 수도 있으나) 충분히 이해할 수 있다. 모든 챕터에서 개념을 설명하는 것에 더해서, 챕터 말미에는 그 챕터에서 다룬 내용을 R을 이용해서 분석하는 예제도 함께 수록되었기 때문에, 수식이나 이론을 도출하는 수학/통계학자 또는 새로운 알고리즘/애플리케이션을 구현해야하는 컴사/컴공 전공자가 아닌, 응용분야의 공학자들에게 안성맞춤이다.

물론 단점도 있다. Murphy의 책에서 다루듯이 이 분야의 거의 전체를 다루는 지는 않는다. 심화학습이 필요한 이들에게는 별로 추천하지 않는다. 그리고 책이 지나치게 Supervised, Regression, 선형성에 초점을 맞춰져있다. 즉, unsupervised나 비선형성 문제/해법은 많이 다루지 않는다. (초보자들에게는 이게 더 큰 장점일 수도 있다.) 물론 이를 베이스로해서 더 학습하면 좋은 결과를 얻을 수 있으리라 믿는다. 보통의 데이터마이닝 책이 분류 classification을 베이스 다루는데, 회귀분석 regression을 베이스로 다루는 것이 조금 특이하다. 그리고 회귀분석에서 최근에 나온 Ridge regression과 Lasso를 다뤄서 (궁금했었는데) 개인적으로 많은 도움이 되었다. 일부 알고리즘은 더 자세히 다뤄줬으면 좋겠다는 생각이 들지만, R을 이용해서 실전에서 해당 알고리즘을 사용하는데는 전혀 문제가 없다.

수학/통계 및 컴퓨터공학 비전공자들 중에서 데이터마이닝/데이터분석에 관심이 있다면 시작하기에 안성맞춤인 책이다. 더 공부학 싶으면 머피 책이나 다른 책들을 참조하면 된다.

===

업데이트.

한글 번역본이 나왔습니다.

http://book.daum.net/detail/book.do?bookid=KOR9791186710050

==

페이스북 페이지: https://www.facebook.com/unexperienced

반응형