Share           Pin It

(한글 번역본 나옴. http://book.daum.net/detail/book.do?bookid=KOR9791186710050)

연초부터 옆 팀에서 Kevin P. Murphy의 "Machine Learing: A Probabilistic Perspective"라는 책으로 스터디를 한다는 얘기를 들었다. 여러 이유로 제한된 일부를 제외하고는 타팀의 청강을 허용하지 않는다고 해서, 그냥 인터넷에서 책을 구해서 읽어나갔다. (구글링하면 PDF 파일을 얻을 수 있음.) 약 1000페이지의 방대한 양에 머신러닝과 관련된 -- 최근 핫한 이슈를 포함한 -- 대부분의 주제를 다루고 있어서 이것만 마스터하면 머신러닝에 조금 더 익숙해질 수 있으리라는 기대를 가지고 막무가내로 읽어나갔다. 그런데 양도 많지만 너무 어려웠다. 처음 3챕터정도는 토시 하나 빼지 않고 다 읽었는데, 점점 한계에 부딪혀서 점점 대강 읽어나가다가 어느 순간에는 목차와 본문의 볼드체 글씨만 확인하고 넘겼다. 수학/확률 전공자가 아니면 쉽게 이해하기 어려운 너무 하드코어 텍스트북이다. 전공자가 아니라면 읽지 않는 것이 정신 건강에 좋다.

그렇게 1000페이지를 거의 넘겨가는 시점에 페이스북에서 새로운 책이 소개된 글을 보게 되었다. '그대안의 작은 호수'라는 타이틀의 사이트에 책 제목과 같은 "An Introduction to Statistical Learning with R"이라는 글을 보게 되었고, 지금 무료로 책을 다운로드 가능하다고 해서 바로 받아서 읽기 시작했다. 책 PDF는 글 속의 링크 또는 구글링을 통해서 얻을 수 있다.

이 책은 수학/통계 또는 컴퓨터 공학이 전공이 아닌데, 데이터마이닝/머신러닝에 관심이 있는 초보자들에게 유용하다. 특히 산업공학이나 화학공학, 바이오인포메틱스 등의 응용분야에서 데이터 분석을 하는 이들에게 적합하다. 학부 수준의 교육을 받았다면 (처음에는 조금 익숙치 않을 수도 있으나) 충분히 이해할 수 있다. 모든 챕터에서 개념을 설명하는 것에 더해서, 챕터 말미에는 그 챕터에서 다룬 내용을 R을 이용해서 분석하는 예제도 함께 수록되었기 때문에, 수식이나 이론을 도출하는 수학/통계학자 또는 새로운 알고리즘/애플리케이션을 구현해야하는 컴사/컴공 전공자가 아닌, 응용분야의 공학자들에게 안성맞춤이다.

물론 단점도 있다. Murphy의 책에서 다루듯이 이 분야의 거의 전체를 다루는 지는 않는다. 심화학습이 필요한 이들에게는 별로 추천하지 않는다. 그리고 책이 지나치게 Supervised, Regression, 선형성에 초점을 맞춰져있다. 즉, unsupervised나 비선형성 문제/해법은 많이 다루지 않는다. (초보자들에게는 이게 더 큰 장점일 수도 있다.) 물론 이를 베이스로해서 더 학습하면 좋은 결과를 얻을 수 있으리라 믿는다. 보통의 데이터마이닝 책이 분류 classification을 베이스 다루는데, 회귀분석 regression을 베이스로 다루는 것이 조금 특이하다. 그리고 회귀분석에서 최근에 나온 Ridge regression과 Lasso를 다뤄서 (궁금했었는데) 개인적으로 많은 도움이 되었다. 일부 알고리즘은 더 자세히 다뤄줬으면 좋겠다는 생각이 들지만, R을 이용해서 실전에서 해당 알고리즘을 사용하는데는 전혀 문제가 없다.

수학/통계 및 컴퓨터공학 비전공자들 중에서 데이터마이닝/데이터분석에 관심이 있다면 시작하기에 안성맞춤인 책이다. 더 공부학 싶으면 머피 책이나 다른 책들을 참조하면 된다.

===

업데이트.

한글 번역본이 나왔습니다.

http://book.daum.net/detail/book.do?bookid=KOR9791186710050

==

페이스북 페이지: https://www.facebook.com/unexperienced

댓글을 달아 주세요

Share           Pin It

BBC에서 The Age of Big Data라는 제목의 다큐먼터리를 제공해서 공유합니다.

 


동영상에 대한 설명은 다음 URL에서 확인할 수 있습니다. http://www.onepointiq.com/bbc-horizon-the-age-of-big-data-058/

아래쪽에 태깅된 관련 기사 'BBC - The Joy of Statistics'도 볼만하겠네요.


===

페이스북 페이지: https://www.facebook.com/unexperienced

댓글을 달아 주세요

Share           Pin It
2005년과 2006년에 열린 IEEE International Conference on Data Mining (ICDM)에서 참가자들을 대상으로 설문조사를 한 것이 있습니다. 설문의 주 내용은 현재 또는 앞으로 데이터마이닝에서 가장 중요하게 다루어질 또는 다루어져야할 문제는 무엇이며, 현재 가장 중요한 또는 영향도가 있는 데이터마이닝 알고리즘은 어떤 것인가에 대한 것입니다. 설문을 바탕으로 10가지 데이터마이닝 문제와 10가지 데이터마이닝 알고리즘을 뽑았습니다. 아래의 각각의 문제 및 알고리즘에 대한 설명을 적기에는 공간도 부족하고, 본인의 능력도 부족하기 때문에 글의 마지막에 제시된 사이트 (특히, pdf 문서)를 참조하세요.

10 Challenging Problems in Data Mining
  • 데이터 마이닝의 통일장 이론 개발 (Developing a unifying theory of data mining)
  • 고차원 데이터 처리 및 빠른 데이터 스트림 처리 (Scaling up for high dimensional data and high speed data streams)
  • 시계열 및 순차 데이터 처리 (Mining sequence data and time series data)
  • 복잡도 데이터/지식 처리 (Mining complex knowledge from complex data)
  • 네트워크 데이터 처리 (Data mining in network setting)
  • 분산처리 데이터 마이닝 (Distributed data mining and mining multi-agent data)
  • 생체 및 환경 데이터 마이닝 (Data mining for biological and environmental problems)
  • 데이터 마이닝 프로세스 (Data-mining-process related problems)
  • 데이터 보안 및 프라이버시 (Security, privacy and data integrity)
  • 동적 고비용 데이터 처리 (Dealing with non-static, unbalanced and cost-sensitive data)
평소에 중요하게 생각했던, 대용량 데이터 처리 (Large-scale data), 시계열 데이터 처리 (Time-series data), 그리고 실시간 데이터 처리 (Real-time application)이 모두 포함되어있습니다. 그리고, 네트워크 문제도 항상 관심을 가지고 고민중이고, 어떻게 대용량 데이터를 분산처리할 것인가를 항상 고민중이었는데 이것들도 모두 포함되어 있네요. 데이터마이닝을 하시는 많은 분들이 공통된 문제를 가지고 고민하고 있음을 확인할 수 있었습니다. 이들의 작은 생각들이 한곳에 제대로 모인다면 엄청난 시너지가 발생할 것같습니다.

10 Most Influential Algorithms in Data Mining
C4.5, k_Means, SVM, EM, PageRank, kNN, Naive Bayes, CART 등은 평소에 조금 알고 있었는데... 제가 아직도 잘 모르는 많은 분야들이 포함되어 있네요. 저의 지식 부족으로 wikipedia나 다른 검색결과를 링크 걸어두었습니다. 나열된 10+8 알고리즘들이 대부분 앞서 기술된 10가지 데이터마이닝 문제들과 많이 연관되어 있습니다. (Graph 기반 알고리즘, assocaition rule 등)

이와 관련된 자세한 내용은 다음의 사이트를 참조하세요.

댓글을 달아 주세요