본문 바로가기

데이터 분석

(13)
데이터 과학자의 실체 지난주 금요일에 제주에서 대한인간공학회 춘계학술대회가 있었습니다. 프로그램을 준비하시는 분께서 '전문가 세션 > 빅데이터'에 발표해줄 연사가 필요하다고 해서 흔쾌히(?) 수락했습니다. 처음에는 단순히 다음이나 카카오에서 했던 다양한 분석 사례정도만 모아서 '카카오에서의 빅데이터 분석 및 활용' 정도로 발표하면 쉽게 될 거라 생각했습니다. 그런데 청자들이 데이터 분석을 담당하거나 적어도 프로그래머/개발자라면 쉬울 수 있는데, 대부분 인간공학 전공자들이라서 단순히 사례들만 모아서 장광설을 펼치면 죽도 밥도 안 될 것 같다는 두려움이 생겼습니다. 발표자료를 준비할 시간이 겨우 한달정도밖에 없었는데, 여러 고민을 하다가 인간공학을 전공하는 학생들에게도 도움이 될 수 있는 테스팅 방법론을 중심으로 준비하기로 마음..
데이터 미신 하나. 데이터는 엄격해야 한다. 오랫동안 데이터 관련 업무를 해왔지만, 관련된 모든 것을 완벽하게 알고 있는 것은 아니다. 그저 일을 하면서 느낀 의견일 뿐이고, 어쩌면 다른 많은 데이터 분석가들은 동의하지 않을지도 모른다. 많은 일반인들은 데이터는 매우 정확한 것이다라는 인식을 가진 것같다. 특히 일반 개발자들과 일을 하다보면 대략적인 데이터 관련 로직/알고리즘을 스케치해서 알려주면 세세한 부분까지 내가 알려줬던 내용을 그대로 구현하려는 경향이 있다. 데이터 관련 전문성/경험의 부족에 따른 것일 수도 있고, 그냥 시각의 차이일 수도 있다. 데이터 분석의 결과는 매우 정확하고 그것을 반드시 따라야 한다는 생각을 가졌는지도 모른다. 그런데 분석 업무를 하다보면 엄격하게 정확한 데이터에 기반해서 의사를 결정하기도 하지만, 많은 경우 분석가..
데이터 문제 접근하기 데이터마이닝, 빅데이터, 머신러닝 (기계학습), 인공지능 (AI), 딥러닝 등의 용어가 요즘처럼 친숙했던 적은 없었습니다. 이런 용어가 더 이상 학계나 첨단 산업분야에만 머물지 않고, 일반인들도 각종 언론이나 소셜미디어 통해서 자주 접합니다. 많은 회사들의 잡포스팅에도 이런 종류의 지식 및 스킬을 요구하는 것이 더 이상 낯설지도 않습니다. 빅데이터 같은 경우는 조금 마케팅 용어로 사용되는 경향이 있지만, 데이터 및 컴퓨팅 기술이 확실히 다양한 분야에서 임팩트를 주고 있습니다. 이런 용어들의 기저에는 '데이터 기반의 문제 해결'이 내포돼있습니다. 데이터 기반의 문제 해결을 간단한 프로세스로 정형화할 수는 없습니다. 다루는 사람에 따라서, 풀어야하는 문제에 따라서 매번 다릅니다. 이 분야에 오래 일했던 분들..
데이터 분석을 위한 로그 시스템 설계 제목은 좀 거창하게 적었지만, 데이터 분석을 편하게 하기 위해서 원본 로그를 어떻게 적제할 것인가?에 대해서 간략히 글을 적으려 합니다. 오래 전부터 적고 싶었지만 기회가 나지 않아서 미루던 것인데, 완벽하지는 않겠지만 떠오르는대로 적겠습니다. 더 필요한 사항은 추후에 업데이트하겠습니다. 새로운 서비스를 오픈하면 다양한 시스템 히스토리나 사용자 사용 이력이 남습니다. 이를 로그 log라고 부릅니다. 그런데 이런 로그들은 대부분 그냥 시스템의 안정성/성능을 측정하거나 단순히 장애가 발생했을 때 어떤 원인으로 발생했는지 등과 같은 1차원적인 기록 및 대응을 위한 경우가 많습니다. 최근 데이터 분석이 주목을 받으면서 원본 데이터, 즉 로그에 대한 관심도 많습니다. 그런데 실상 로그를 분석해보려고 하면 당장 사..
슈퍼클런처 Super Crunchers, by Ian Ayres 3.5 / 5 데이터마이닝/데이터분석및적용의 인트로덕션으로는 좋으나 내 기대는 완전히 충족시키지 못했다. 슈퍼크런처 카테고리 경제/경영 지은이 이언 에어즈 (북하우스, 2009년) 상세보기 책에 대해서... 한마디로 표현해서 무조건 전문가의 (오류를 내포한) 직관에만 의존하지 말고, 데이터에서 밝혀진 검증된 결과도 함께 활용하라 정도로 요약할 수 있을 듯하다. 수학이나 데이터 분석에 별관심이 없었거나 비전공자라면 이런 방법이 있구나라고 생각할 수 있겠지만, 사실 책에서 말하는 것은 회귀분석, DOE (Design of Experiments 또는 Experimental Design) 중에서 Random Sample, 좀더 나아가서 신경망 Neural Network, 평균과 표준편차, 그리고 베이지언 확률 ..