본문 바로가기

DM ML AD

(131)
데이터 미신 하나. 데이터는 엄격해야 한다. 오랫동안 데이터 관련 업무를 해왔지만, 관련된 모든 것을 완벽하게 알고 있는 것은 아니다. 그저 일을 하면서 느낀 의견일 뿐이고, 어쩌면 다른 많은 데이터 분석가들은 동의하지 않을지도 모른다. 많은 일반인들은 데이터는 매우 정확한 것이다라는 인식을 가진 것같다. 특히 일반 개발자들과 일을 하다보면 대략적인 데이터 관련 로직/알고리즘을 스케치해서 알려주면 세세한 부분까지 내가 알려줬던 내용을 그대로 구현하려는 경향이 있다. 데이터 관련 전문성/경험의 부족에 따른 것일 수도 있고, 그냥 시각의 차이일 수도 있다. 데이터 분석의 결과는 매우 정확하고 그것을 반드시 따라야 한다는 생각을 가졌는지도 모른다. 그런데 분석 업무를 하다보면 엄격하게 정확한 데이터에 기반해서 의사를 결정하기도 하지만, 많은 경우 분석가..
테스트 및 평가 자동화 지난 글 '데이터 문제 접근하기'에서 마지막 단계인 테스트가 중요하다고 적었습니다. 테스트와 관련해서 팀내에 공유했던 글이 있어서, 블로그/일반에 맞게 조금 수정해서 올립니다.=== 최근 구글의 데이터 사이언스에서 개설한 Unofficial Google Data Science 블로그에 가장 최근에 올라온 Experiment Design and Modeling for Long-term Studies in Ads의 주요 논문과 이 논문에 엮인 참조논문들을 보면서 (모든 논문을 제대로 읽은 것은 아님^^) (온라인) 테스트를 이해하는 도움글이 필요할 것같아서 간단히 글을 남깁니다. Focus on the Long-Term: It's better for Users and BusinessOverlapping Ex..
데이터 문제 접근하기 데이터마이닝, 빅데이터, 머신러닝 (기계학습), 인공지능 (AI), 딥러닝 등의 용어가 요즘처럼 친숙했던 적은 없었습니다. 이런 용어가 더 이상 학계나 첨단 산업분야에만 머물지 않고, 일반인들도 각종 언론이나 소셜미디어 통해서 자주 접합니다. 많은 회사들의 잡포스팅에도 이런 종류의 지식 및 스킬을 요구하는 것이 더 이상 낯설지도 않습니다. 빅데이터 같은 경우는 조금 마케팅 용어로 사용되는 경향이 있지만, 데이터 및 컴퓨팅 기술이 확실히 다양한 분야에서 임팩트를 주고 있습니다. 이런 용어들의 기저에는 '데이터 기반의 문제 해결'이 내포돼있습니다. 데이터 기반의 문제 해결을 간단한 프로세스로 정형화할 수는 없습니다. 다루는 사람에 따라서, 풀어야하는 문제에 따라서 매번 다릅니다. 이 분야에 오래 일했던 분들..
'나를 위한 추천 뉴스' A/S 2 다음의 모바일 시작 페이지(이하, 엠탑)에 노출되는 '나를 위한 추천 뉴스'라는 서비스를 오픈한지도 이제 약 10개월이 다 되어 갑니다. 서비스를 오픈한 후에 서비스를 준비하면서 그리고 오픈하면서 느꼈던 소감을 조금 우울하게 적었고 (참고. '나를 위한 추천 뉴스' 후에), 약 두달 후에 이 글을 참조한 블로그 글을 본 후에 조금 방어적인 글을 다시 적었습니다. (참고. '나를 위한 추천 뉴스' A/S) 서비스를 운영한지 1년정도 된 시점에 다시 서비스를 리뷰해보는 것도 좋을 것같습니다라고 글을 적었지만, 어제 서비스 장애가 발생해서 뉴스 추천 또는 개인화가 효과가 있는가?에 대한 답을 얻은 것같아서 공유하려고 합니다. 뉴스 추천 또는 뉴스 개인화를 준비하면서 주변에서 가장 많이 들은 내용은 뉴스는 개인..
딥러닝 Deep Learning 발표자료 팀 내에 공유했던 딥러닝 Deep Learning 발표자료를 공유합니다. 수식을 포함한 아주 상세한 내용을 다루지는 않고, 그저 개념적인 설명을 위한 자료입니다. 인공신경망 ANN의 기초적인 이해부터 다양한 애플리케이션에 적용된 DL의 구조를 보여주는 것이 목적입니다. 발표를 위한 자료라서 그저 슬라이드만으로는 이해가 부족할 수도 있습니다. 그저 참고용으로 활용하시기 바랍니다. Deep learning - Conceptual understanding and applications from Buhwan Jeong ==페이스북 페이지: https://www.facebook.com/unexperienced
초보자가 딥러닝 접근하기 요즘 IT 쪽에서 가장 뜨거운 이슈 중에 하나는 분명 딥러닝 Deep Learning 일 듯하다. 마치 몇 년 전에 빅데이터 Big Data 기술들이 처음 소개되고 성공 스토리들이 언론에 회자되던 때를 회상하게 만든다. 그러나 일반인들에게 딥러닝이 빅데이터만큼 쉽게 받아들려지고 확대될 수는 없을 것같다. 그 이유는 분명하다. 어렵기 때문이다. 물론 다양한 오픈소스가 만들어지고 최적화된 방법론이 소개되겠지만, 그걸로는 충분치가 않다. 소수의 선택된 자들 외에는 딥러닝은 그저 그림의 떡이다. 어렵기 때문이다. 빅데이터는 단편적인 기본 지식만 있어도 (실제 적용까지는 힘들더라도) 현상을 이해하기에 충분하지만, 딥러닝은 언론이나 컨퍼런스에 소개되는 내용만으로 이해하기란 거의 불가능하다. 최근에 몇 편의 논문이나..
[Q&A] 산업공학과 대학원에서 데이터마이닝을 전공하고 싶은 학생입니다 오랜만에 블로그 방명록을 통해서 들어온 질문에 대한 답변을 적어 봅니다. 질문을 대략 요약하면 다음과 같습니다. 인천에 있는 대학에서 경영학과 4학년으로, 산업경영공학을 복수전공해서 졸업할 예정이다. 제조업 물류 쪽에서 일하고 싶지만, (이런 쪽으로 진로를 정하기 위해서 컴공과보다는) 산업공학과 대학원에 진학해서 데이터마이닝을 전공하고 싶다. 실험계획이나 통계 관련 수업은 이미 들어서 기초적인 지식은 있지만, 겨우 MS SQL만 사용할 정도로 프로그래밍 쪽은 기초가 거의 없다. 그래서, 대학원에서 다뤄야할 기본 프로그래밍 언어는 어떤 것이 있고, 빨리 배우려면 어떻게 해야 할까요? 질문을 대략 요약한 것이라서 제가 답글로 남긴 내용은 위의 요약만으로는 조금 이해하기 어려울 수도 있지만, 짧게 남긴 답글을..
Deep Learning의 첫인상 그리고 하소연 최근 Deep Learning에 대한 관심이 뜨겁습니다. 딥러닝에 대한 얘기를 처음 들은 것은 작년 이맘 때였던 것같은데, 몇몇 기사들만 읽어볼 뿐 애써 외면했습니다. 처음에 딥러닝을 소개하는 두꺼운 논문을 한편 프린트해서 조금 읽어본 후에, 내가 관여해야할 것이 아니다라는 감을 잡고 깊이 파고 들지 않았습니다. 주변에서 공부를 시작하거나 실제 문제에 적용한 케이스도 봤지만 굳이 관여는 피했습니다. 그런데 차츰 내가 직면한 문제의 나름 해결책이 딥러닝이 아닐까?라는 생각을 하게 되면서 다시 관련된 논문을 찾아서 읽거나 온라인 강좌 비디오를 보기 시작했습니다. 이제 시작 단계지만 딥러닝에 대한 첫인상을 적어볼까 합니다. 처음 딥러닝을 알게된 시점에는 단순히 기존의 뉴럴네트워크의 단순 확장판, 즉 히든 레이..