본문 바로가기

DM ML AD

열개의 문제 열개의 방법... in Data Mining

2005년과 2006년에 열린 IEEE International Conference on Data Mining (ICDM)에서 참가자들을 대상으로 설문조사를 한 것이 있습니다. 설문의 주 내용은 현재 또는 앞으로 데이터마이닝에서 가장 중요하게 다루어질 또는 다루어져야할 문제는 무엇이며, 현재 가장 중요한 또는 영향도가 있는 데이터마이닝 알고리즘은 어떤 것인가에 대한 것입니다. 설문을 바탕으로 10가지 데이터마이닝 문제와 10가지 데이터마이닝 알고리즘을 뽑았습니다. 아래의 각각의 문제 및 알고리즘에 대한 설명을 적기에는 공간도 부족하고, 본인의 능력도 부족하기 때문에 글의 마지막에 제시된 사이트 (특히, pdf 문서)를 참조하세요.

10 Challenging Problems in Data Mining
  • 데이터 마이닝의 통일장 이론 개발 (Developing a unifying theory of data mining)
  • 고차원 데이터 처리 및 빠른 데이터 스트림 처리 (Scaling up for high dimensional data and high speed data streams)
  • 시계열 및 순차 데이터 처리 (Mining sequence data and time series data)
  • 복잡도 데이터/지식 처리 (Mining complex knowledge from complex data)
  • 네트워크 데이터 처리 (Data mining in network setting)
  • 분산처리 데이터 마이닝 (Distributed data mining and mining multi-agent data)
  • 생체 및 환경 데이터 마이닝 (Data mining for biological and environmental problems)
  • 데이터 마이닝 프로세스 (Data-mining-process related problems)
  • 데이터 보안 및 프라이버시 (Security, privacy and data integrity)
  • 동적 고비용 데이터 처리 (Dealing with non-static, unbalanced and cost-sensitive data)
평소에 중요하게 생각했던, 대용량 데이터 처리 (Large-scale data), 시계열 데이터 처리 (Time-series data), 그리고 실시간 데이터 처리 (Real-time application)이 모두 포함되어있습니다. 그리고, 네트워크 문제도 항상 관심을 가지고 고민중이고, 어떻게 대용량 데이터를 분산처리할 것인가를 항상 고민중이었는데 이것들도 모두 포함되어 있네요. 데이터마이닝을 하시는 많은 분들이 공통된 문제를 가지고 고민하고 있음을 확인할 수 있었습니다. 이들의 작은 생각들이 한곳에 제대로 모인다면 엄청난 시너지가 발생할 것같습니다.

10 Most Influential Algorithms in Data Mining
C4.5, k_Means, SVM, EM, PageRank, kNN, Naive Bayes, CART 등은 평소에 조금 알고 있었는데... 제가 아직도 잘 모르는 많은 분야들이 포함되어 있네요. 저의 지식 부족으로 wikipedia나 다른 검색결과를 링크 걸어두었습니다. 나열된 10+8 알고리즘들이 대부분 앞서 기술된 10가지 데이터마이닝 문제들과 많이 연관되어 있습니다. (Graph 기반 알고리즘, assocaition rule 등)

이와 관련된 자세한 내용은 다음의 사이트를 참조하세요.

반응형