며칠 전에 VectureBeat에 Guy Harrison이 적은 Why Hadoop projects fail -- and how to make yours a success라는 기사를 간단하게 정리했습니다. 전체를 번역하는 데는 무리가 있어, 큰 흐름에서 의역 및 생각을 추가했습니다. 자세한 내용은 원문을 참조하시기 바랍니다.
---
클라우드 컴퓨팅이 각광을 받으면서 빅데이터, 특히 하둡은 기업IT의 메인스트림으로 들어왔지만, 무분별한 실행은 애초의 기대/약속을 충족시키지 못하고 값비싼 실패, 소위 하둡행오버 Hadoop Hangover를 경험할 가능성이 높다.
빅데이터는 구글이나 아마존의 성공을 가능케했다. 단순히 차트나 레포트를 통한 실행결정을 하는 것이 아니라, 사용자 경험을 증진시키는 비즈니스 프로세스에 직접적으로 연결된 데이터 기반의 알고리즘이다. 현재 많은 기업들이 단순히 다양한 출처의 원본 데이터를 수집, 저장하는 단계에 머무르고 있다. 데이터를 수집하고 그것의 의미를 파악하는 것만으로는 충분치 않다. 그렇기에 빅데이터 분석이 필요한데, 많은 데이터가 모일수록 덜 복잡한 알고리즘이 필요하다. (개인적으로 더 정확한 알고리즘보다 더 간단하면서 빠르면서 적응적인 알고리즘이 빅데이터 시대에 더 적합하다고 생각함) 그리고 머신러닝과 결합하여 더 많은 데이터는 더 정확한 예측 및 실행모델을 만들지만, 여전히 가장 좋은 답을 얻기 위해서는 인간의 경험과 지능이 필요하다. 데이터 수집은 빅데이터의 단지 시작일 뿐이고, 옳은 질문에 바른 대답을 제시하는 스마트 알고리즘이 필요하다.
구글이나 아마존이 성공한 이유는 많은 데이터를 수집했기 때문만이 아니라, 우수한 인재들이 모여있기 때문이다. 그들은 프로그래밍 스킬이 띄어날 뿐만 아니라, 복잡한 통계 분석 능력, 비즈니스 인사이트, 인지과학 및 창의적 문제해결 능력을 갖춘 인재들, 즉 데이터 과학자들이다. 불행히도 그런 다양한 기술 (통계, 알고리즘, 분산컴퓨팅 등)을 갖춘 인재는 늘 부족하고, 학교에서는 학위 이수정도의 커리큐럼만 가지고 있을 뿐이다. 데이터 과학자들이 늘어나겠지만, 그들은 적어도 경쟁적 비즈니스 전략, 머신러닝 알고리즘, 그리고 대용량 분산/패러렐 데이터 프로그래밍이라는 3가지 분야에 두루 전문성을 가지고 있어야지만이, 기업이 빅데이터 기반으로 미래를 예측하는데 일조할 수 있다. (즉, 기업에서 필요한 인재는 데이터 과학자이고, 그들은 전략, 알고리즘, 프로그래밍(의 조합)에 전문성을 가져야 한다.)
그리고 데이터 과학자들이 활용할 충분한 빅데이터툴도 여전히 부족하다. 맵리듀스 프로그래밍만으로는 빅데이터를 제대로 활용하는 실용적인 방법이 아니다. 빅데이터에서 빅밸류/빅인사이트를 얻기 위해서는 데이터 과학자들이 다양한 통계가설을 테스트하고, 예측모델을 만들고, 결과를 리포팅하고 비쥬얼라이즈해줄 수 있는 도구들이 필요하다. Mahout, Weka, R 등의 오픈소스들이 존재하지만, 여전히 사용하기 쉽지 않고 때로는 기업이 가진 빅데이터를 충분히 수용할만큼 스케일러블하지도 않다. 그래서 기업에서 빅데이터를 제대로 활용하기 위해서는 하둡 및 하둡에코 이상의 빅데이터 분석플랫폼 및 툴킷이 필요하다.
하둡이 많은 데이터를 경제적으로 저장, 처리할 수 있을 뿐만 아니라, 다양한 형태의 데이터를 수용할 수 있기 때문에 성공했다. 그런데 그런 다양한 포맷의 데이터가 제대로 활용되기 위해서는 포맷변경이 필요하다. 하둡은 schema on read를 허용해서 다양한 원본 데이터를 처리할 수 있지만, 여전히 적절한 데이터 스키마를 작성해야 한다. 그러나 자동으로 수집되는 데이터들은 구조가 자주 바뀌고 나중에는 구조를 제대로 파악하기가 힘들어진다는 위험도 내재한다. 그리고 데이터 생성시에 발생한 오류가 너무 늦게 발견되기도 한다. 그래서 데이터 디자인 및 수집 단계에서부터 데이터의 품질과 구조에 많은 주의를 기울일 필요가 있다.
하둡이 복잡한 분석능력을 제공해주지만 여전히 내재된 문제점들이 존재한다. 하둡의 보안성이 여전히 취약하고, 데이터 백업이 어렵고, 기업 내의 기존 모니터링 시스템과의 통합이 부족하고, 리소스 관리가 초보적이고, 실시간 쿼리가 불가능하다. 이런 점들을 고려해서 하둡 프로젝트를 진행해야 한다.
빅데이터는 많은 기업들에게 분명 복잡하지만 잠재력을 가진 파괴적 도전이다. 이제 가격경쟁력이나 애향심만으로는 부족하다. 개인화, 타게팅, 예측추천모델 등의 경쟁적인 차별화가 필요하다. 데이터 기반의 결정 및 실행 능력을 획득하는 것이 생존에 필수적이다.
---
읽으면서 스마트한 빅데이터 분석을 위해서는 결국 기술 지식, 도메인/비즈니스 로직, 그리고 사람에 대한 이해가 필요하다는 것을 느꼈습니다.
페이스북 페이지: https://www.facebook.com/unexperienced