본문 바로가기

데이터 마이닝

(8)
데이터 과학자를 위한 윤리/행동강령 (Code of Confuct) 최근 데이터 과학자의 직업윤리에 관심을 갖기 시작했습니다. 나름 회사에서 10년 넘게 데이터를 다뤄왔고 대학, 대학원을 포함하면 20년의 세월을 데이터 속에서 살아왔지만 최근처럼 강하게 직업윤리를 고민했던 적은 없습니다. 주변에 일어나는 이상한 일들, 데이터와 알고리즘을 잘 알고 있는 사람부터 그저 최종 수치만 보고 받는 사람에 이르기까지 데이터와 그 결과 수치를 다루는 방식에 의문을 갖었습니다. 어떤 직업이든 그 직업을 행함에 있어서 윤리와 행동을 제한, 정의한 행동강령/윤리강령이 있을 거라는 생각이 들었습니다. 대표적으로 히포크라테스 선서로 알려진 의료 윤리강령이 유명합니다. 비슷하게 데이터 과학자를 위한 윤리강령도 어딘가에, 누군가에 의해 정리됐을 거라고 생각해서 찾아봤습니다. 윤리강령/행동강령이 ..
[진로 상담] 데이터 분석가를 꿈꾸는 러시아어 전공자입니다. 오랜만의 진로상담. 그리고 티스토리 포스팅.ㅎㅎ 질문 정리. 현재 러시아어를 전공하는 20대 중반입니다. 스타트업에 관심을 가져서 여러 컨퍼런스에 참가했는데 어떤 강연에서 데이터 사이언스라는 분야를 접한 후로, 직접 해보니 흥미가 있고 적성에 맞아서 데이터 분석가를 희망하며 컴퓨터공학을 복수전공으로 신청했습니다. 파이썬과 라이브러리를 이용한 기본 코딩은 가능한 수준입니다. 공모전에도 나가봤고 ADSP를 공부해서 자격증 시험도 봤습니다. 그런데, 러시아어 전공이 데이터 분석가로 일하는데 도움이 될까요? 기업체에서 데이터 분석 업무는 석사 학위 이상을 요구하는데 굳이 진학을 해야 하나요? 석사를 진학할 의사는 없는데 이를 대신할 다른 방법은 없는 걸까요? 실무자가 생각하기에 이 분야의 직업 (채용) 전망은 ..
테스트 및 평가 자동화 지난 글 '데이터 문제 접근하기'에서 마지막 단계인 테스트가 중요하다고 적었습니다. 테스트와 관련해서 팀내에 공유했던 글이 있어서, 블로그/일반에 맞게 조금 수정해서 올립니다.=== 최근 구글의 데이터 사이언스에서 개설한 Unofficial Google Data Science 블로그에 가장 최근에 올라온 Experiment Design and Modeling for Long-term Studies in Ads의 주요 논문과 이 논문에 엮인 참조논문들을 보면서 (모든 논문을 제대로 읽은 것은 아님^^) (온라인) 테스트를 이해하는 도움글이 필요할 것같아서 간단히 글을 남깁니다. Focus on the Long-Term: It's better for Users and BusinessOverlapping Ex..
데이터 문제 접근하기 데이터마이닝, 빅데이터, 머신러닝 (기계학습), 인공지능 (AI), 딥러닝 등의 용어가 요즘처럼 친숙했던 적은 없었습니다. 이런 용어가 더 이상 학계나 첨단 산업분야에만 머물지 않고, 일반인들도 각종 언론이나 소셜미디어 통해서 자주 접합니다. 많은 회사들의 잡포스팅에도 이런 종류의 지식 및 스킬을 요구하는 것이 더 이상 낯설지도 않습니다. 빅데이터 같은 경우는 조금 마케팅 용어로 사용되는 경향이 있지만, 데이터 및 컴퓨팅 기술이 확실히 다양한 분야에서 임팩트를 주고 있습니다. 이런 용어들의 기저에는 '데이터 기반의 문제 해결'이 내포돼있습니다. 데이터 기반의 문제 해결을 간단한 프로세스로 정형화할 수는 없습니다. 다루는 사람에 따라서, 풀어야하는 문제에 따라서 매번 다릅니다. 이 분야에 오래 일했던 분들..
서비스와 데이터마이닝 과학자는 자신이 가진 솔루션을 적용할 문제를 찾고 엔지니어는 자신의 문제를 해결할 솔루션을 찾는다라는 말로 과학(자)과 엔지니어링을 구분한 글을 본 적이 있다. 적절한 구분인 것같다. 데이터 분석/마이닝도 같은 관점에서 구분할 수 있을까? 문제에 맞는 솔루션을 찾는 사람은 데이터 마이너고, 알고리즘에 맞는 문제를 찾는 사람은 데이터 사이언티스트라고 부를 수 있을까? 별로 좋은 구분인 것같지 않다. 최근 빅데이터나 데이터 사이언스 등에 관심이 조금 쏠리고 데이터 기반의 무엇 (Data-driven X)이라는 표현을 자주 접하게 된다. 선무당이 사람잡는다는 말도 있지만, 데이터와 연결된 용어들이 범람하면서 데이터 선무당들도 많이 늘고 있는 것같다. 간혹 지난 몇 년동안 엄청나게 많은 데이터를 모아놓았는데 이..
데이터 매니페스토 -- Make Data Open & Mining Public 사내 게시판에 올린 데이터 마이닝 학습 모임을 위한 글입니다. 모든 데이터는 공개가 원칙이고 마이닝 능력은 보편 지식이 돼야 합니다. === 모든 법의 존재 목적이 사문화돼 폐기되는 것이듯, 모든 조직의 존재 이유도 더 이상 필요의 이유가 사라지는 것이다. 스스로 파괴해서 증식할 것이냐 아니면 파괴당해서 사라질 것이냐의 차이만 존재할 뿐 현재의 모습과 역할이 변해야 하는 것에는 전혀 변함이 없다. 데이터 또는 그것을 다루는 조직의 운명도 다르지 않다. 데이터는 더 이상 소수의 권력이 되어서는 안 되고, 그것을 읽고 해석하는 능력이 전문성이 되어서도 안 된다. 데이터 기반 조직 Data-driven organization이란 단순히 데이터/수치에 의해서 의사결정을 내리는 조직이 아니라, 구성원 모두가 나름..
데이터 마이너의 판단 기준 데이터 마이닝의 좋은 점을 하나 꼽으라면 늘 새롭다는 거다. 새로운 도메인의 새로운 문제를 만나기도 하고, 늘 담당하던 서비스지만 새로운 출처의 데이터나 새로운 종류/포맷의 데이터를 만나기도 하고, 그도 아니면 새로운 알고리즘을 배우고 적용하기도 한다. 파라메터를 새롭게 추가하거나 내용을 변경하는 것만으로도 새로운 경험이 된다. 그래서 현재 업무가 지치거나 지루해지면 새로운 서비스를 담당하거나 새로운 데이터를 공급받거나 새로운 알고리즘을 적용하거나 등의 방법으로 매너리즘을 돌파하는 경우가 많다. 물론 이런 과정이 반복되면 새로운 문제가 전혀 새롭지도 않고 새로운 데이터도 전혀 새롭지도 않고 또 하늘 아래 새로운 알고리즘도 없는 것같은 무력감에 빠지지 않는다는 법도 없다. 어쨌든 데이터 마이닝은 늘 새로운..
열개의 문제 열개의 방법... in Data Mining 2005년과 2006년에 열린 IEEE International Conference on Data Mining (ICDM)에서 참가자들을 대상으로 설문조사를 한 것이 있습니다. 설문의 주 내용은 현재 또는 앞으로 데이터마이닝에서 가장 중요하게 다루어질 또는 다루어져야할 문제는 무엇이며, 현재 가장 중요한 또는 영향도가 있는 데이터마이닝 알고리즘은 어떤 것인가에 대한 것입니다. 설문을 바탕으로 10가지 데이터마이닝 문제와 10가지 데이터마이닝 알고리즘을 뽑았습니다. 아래의 각각의 문제 및 알고리즘에 대한 설명을 적기에는 공간도 부족하고, 본인의 능력도 부족하기 때문에 글의 마지막에 제시된 사이트 (특히, pdf 문서)를 참조하세요. 10 Challenging Problems in Data Mining 데이..