본문 바로가기

DM ML AD

데이터 매니페스토 -- Make Data Open & Mining Public

사내 게시판에 올린 데이터 마이닝 학습 모임을 위한 글입니다.
모든 데이터는 공개가 원칙이고 마이닝 능력은 보편 지식이 돼야 합니다.

===

모든 법의 존재 목적이 사문화돼 폐기되는 것이듯, 모든 조직의 존재 이유도 더 이상 필요의 이유가 사라지는 것이다. 스스로 파괴해서 증식할 것이냐 아니면 파괴당해서 사라질 것이냐의 차이만 존재할 뿐 현재의 모습과 역할이 변해야 하는 것에는 전혀 변함이 없다. 데이터 또는 그것을 다루는 조직의 운명도 다르지 않다.

데이터는 더 이상 소수의 권력이 되어서는 안 되고, 그것을 읽고 해석하는 능력이 전문성이 되어서도 안 된다. 데이터 기반 조직 Data-driven organization이란 단순히 데이터/수치에 의해서 의사결정을 내리는 조직이 아니라, 구성원 모두가 나름의 데이터를 가지고 분석하고 해석해서 현실 문제에 적용할 수 있는 조직이다. 그런 조직에서 데이터 뿐만 아니라 그것을 읽고 해석하는 능력, 즉 데이터빌러티 Datability는 공공재가 돼야 한다.

데이터빌러티의 공유화를 위해서 최소 1. (모든) 데이터를 수집/처리/배포하는 공개 저장소, 2. 누구나 쉽게 데이터에 접근해서 가공할 수 있는 범용 분석 도구, 그리고 3) 분석 행위 및 분석 결과의 의미를 해석하고 필요에 따라 추가 분석할 수 있는 알고리즘 지식이 필요하다. 하드 플랫폼 (데이터 + 도구)에 대해서는 이미 많은 분들이 고민하고 있고 공개된 것들도 존재하지만, 오히려 소프트 플랫폼 (지식 + 사람)에 대한 고민과 여력은 여전히 부족하다.

모두가 데이터 분석 (마이닝)에 전문가가 될 필요는 없지만 모두가 자신의 영역에서 필요한 최소한의 실험과 검증, 분석은 할 수 있어야 한다. 최소한의 지식과 프랙티스도 없이 데이터나 플랫폼을 가지는 것은 면허없이 운전하는 것보다 — 경우에 따라서 — 더 위험할 수 있다. 최소한의 요구조건을 어떻게 갖출 것인가? 말로써 누군가를 변화시키려는 교육의 기본 전제를 믿지 않으며, 입에서 입으로 전해지지 않고 글로만 남겨진 지식도 죽은 지식이다. 결국 스스로 학습하고 유기적으로 엮이는 조직만이 스스로를 파괴하고 변화에 안티프래질하다.

아직 구체적인 실행 방안을 구상한 것은 아니지만 지금 실행하지 않으면 그만큼 계속 늦어질 수 밖에 없다는 결론에 이른다. 어쨌든 실패하기 위해서 시도는 해봐야 한다. 데이터와 마이닝에 관해서 관심과 수요가 높아졌지만, 이제껏 그런 기대치를 충족시켜준 솔루션도 변변치 않았다. 먼저 나서지 못했던 본인+의 과오이긴 하지만, 그래서 계획을 구체화시키고 실행하기에 앞서 실제 요구사항이나 수요가 어느 정도인지 확인이 필요하다.

데이터와 마이닝에 대한 소규모 학습 모임네트워크를 조직했으면 하는 바람이다. 다양한 백그라운드를 가진 5명 내외의 소규모 학습 모임을 만들면 좋겠다. 필요시에는 개념 설명이나 가이드 정도는 해줄 수도 있으나 일방적인 강의 형식은 취하지 않는다. 비슷한 시작점을 갖는 것도 중요하기에 데이터 관련 팀에 소속된 경우는 가급적 배제하고, 제도권 하에서는 자유를 누릴 수 없다. 모임을 통해서 다양한 데이터 문제에 대한 토의 및 컨설팅도 가능하다. 이런 원칙에 동의하고 동참을 원하는 이들이 여전히 있는지 궁금하다. 일단, 한 두 사이클이 돌고 나면 좀 더 다양한 사람들과 다양한 실험이 가능할 듯하다. 그리고 실험의 최종 목표는 '직접 해보니 별 것 없네'를 증명하는 것이다. 유수의 대학 data science 과목의 syllabus를 확인해봐도 별거 없다는 증거는 이미 많다.

그냥 실험을 해보려 합니다. 성공과 실패를 넘어서 후회하지 않고 책임을 피하기 위해서...

==
페이스북 페이지: https://www.facebook.com/unexperienced


반응형