본문 바로가기

데이터

(13)
데이터 vs 모델 (알고리즘) Between data and model, which is more important in AI era? 이런 류의 질문은 누군가 내게 직접 물어봤으면 좋겠지만 아무도 묻지 않으니 자문자답한다. AI 관련 글이나 동영상에 AI 시대에 데이터와 모델 (또는 알고리즘)의 중요성에 관한 설명을 종종 보곤 한다. 직접적으로 내게 '뭐가 더 중요해?’라고 묻는다면 당연히 ‘듈다’라고 답하겠지만, 기술의 발전 단계 상에서 둘 간의 경중이 계속 변해왔음을 볼 수 있다. 굳이 현시점을 기준으로 답한다면 다시 데이터가 더 중요해졌다고 본다. 더 많은 데이터보다는 정제되고 신뢰할 수 있는 데이터가 중요해지고 있다. 이전 글에서 밝혔듯이 이젠 이런 류의 질문은 먼저 ChatGPT의 답을 보고 계속 설명을 이어가자. (Kor..
오픈 데이터를 제공하는 회사를 꿈꾼다. 회사(카카오)는 요즘 고민이 많습니다. O2O를 시작하면서 예견된 일이지만 O2O에서 서비스적 성과는 냈지만 가시적인 비즈니스 성과는 제대로 내지도 못하고 이리저리 치이다보니 카카오라는 브랜드 이미지마저 나빠집니다. 많은 스타트업에 투자하고 인수를 해서 진행한 일도 카카오라는 이름으로 리브랜딩하는 순간 과거의 모든 것은 사라집니다. 대기업의 골목상권 침해라는 프레임으로 기술과 서비스를 평가하는 것에 억울함은 있지만, 그럴수록 상생과 공생, 그리고 번영이라는 어쩌면 시대의 화두에 대해서 더 고민하게 됩니다. 카카오는 카톡이라는 메신저 플랫폼도 가지고 있고 다음이라는 포털도 가지고 또 다른 많은 브랜드와 서비스를 가지고 있습니다. 그러나 매출은 결국 소위 말하는 트래픽 장사로 벌어들입니다. 즉, 광고입니다...
데이터 비즈니스에 실패하는 회사들 빅데이터의 시대를 지나 스마트 데이터 시대로 접어들고 있다. 주변에서 데이터가 중요하고 데이터 비즈니스를 하겠다고 하는 회사들은 많지만 정작 데이터 비즈니스에 성공한 회사들은 손에 꼽을만하다. 구글, 페이스북, 아마존 같은 세계적인 기업들이나 겨우 데이터 비즈니스에 성공했다. 아니면 아주 특수한 케이스나 기술에 두각을 보이는 잘 알려지지 않은 데이터/기술 스타트업정도만 생각날 뿐이다. 국내에서는 네이버가 그나마 앞서있는 축에 속하지만 기술에 의한 것인지 아니면 마켓파워 때문인지 구분이 조금 어려운 것도 사실이다. 카카오는 네이버에 비하면 데이터 비즈니스를 한다는 말을 꺼내는 것도 민망하다. 카카오가 다른 큰 회사들보다는 데이터 비즈니스를 위한 최소한의 여건을 갖춘 것은 맞지만, 데이터 비즈니스를 한다고 ..
'데이터 사이언스' 다시 생각하기 데이터 과학 Data Science 또는 데이터 과학자 Data Scientist에 대해서 검색해보면 아래의 다이어그램 또는 비슷한 설명을 필히 보게 된다. 데이터 과학자는 프로그래밍 능력과 수학과 통계에 대한 지식과 도메인/비즈니스에 대한 이해가 있어야 한다는 내용이다. 물론 이 세가지 영역에서 모두 또는 특정 영역에서 확연히 뛰어나면 좋겠지만 전문 개발자들보다 프로그래밍에 능할 수 없고 수학만 파고든 사람들이나 한 분야에서 수년간의 경험을 쌓은 이들보다 더 뛰어날 수가 없다. 그러나 이 세분야에서 고른 지적 능력을 가져야 함을 부인할 수 없다. 데이터 과학에 대해서 더 자세히 알고 싶은 이들은 다음의 Quora 쓰레드를 참조하면 된다. https://www.quora.com/What-is-a-data..
데이터마이닝과 데이터마이너 다음 검색에서 '데이터마이너'라는 검색어가 갑자기 많이 들어온 날이 있었다. 강풀 작가의 '마녀'라는 작품 속에서 PC 캡쳐 화면과 함께 주인공이 데이터마이너가 됐다라는 짧은 문구가 등장했던 때다. 해당 캡쳐 화면에는 SAS라는 데이터분석툴 아이콘도 있었고 지금은 없어진 마이피플 아이콘도 등장했다 (유료화로 화면캡쳐는 생략. 9화였음.). 강풀 작가님이 웹툰을 그리기 위해서 예전 같은 팀의 팀원에게 자문을 얻었는데, 그 분의 (의도된) PC화면으로 유추된다. 당시에 내가 서울에서 근무했다면 미팅에 함께 참석했지 않을까?라는 생각도 해본다. 빅데이터, 데이터 사이언스, 인공 지능, 딥러닝, 머신러닝 (기계학습) 등의 많은 용어/개념들이 버즈buzz되고 있지만 관련 분야의 사람들이 아니라면 여전히 데이터마이..
데이터 미신 하나. 데이터는 엄격해야 한다. 오랫동안 데이터 관련 업무를 해왔지만, 관련된 모든 것을 완벽하게 알고 있는 것은 아니다. 그저 일을 하면서 느낀 의견일 뿐이고, 어쩌면 다른 많은 데이터 분석가들은 동의하지 않을지도 모른다. 많은 일반인들은 데이터는 매우 정확한 것이다라는 인식을 가진 것같다. 특히 일반 개발자들과 일을 하다보면 대략적인 데이터 관련 로직/알고리즘을 스케치해서 알려주면 세세한 부분까지 내가 알려줬던 내용을 그대로 구현하려는 경향이 있다. 데이터 관련 전문성/경험의 부족에 따른 것일 수도 있고, 그냥 시각의 차이일 수도 있다. 데이터 분석의 결과는 매우 정확하고 그것을 반드시 따라야 한다는 생각을 가졌는지도 모른다. 그런데 분석 업무를 하다보면 엄격하게 정확한 데이터에 기반해서 의사를 결정하기도 하지만, 많은 경우 분석가..
기술과 인간 "길게 잡아서 2년 내에 당신이 하고 있는 일의 절반 이상을 자동화시킬 수 있어야 한다." 최근 함께 일하고 있는 친구에게 한 말입니다. 미디어다음에서 뉴스를 편집운영하면서 뉴스추천 프로젝트를 메인으로 기획한 친구입니다. 제대로 된 뉴스 편집 및 운영은 끊임없이 쏟아지는 모든 뉴스를 읽고 미담이나 다음탑에 노출시킬 것인가 말것인가를 계속 판단해야 하는 사람손을 많이 타는 일입니다. 그럼에도 불구하고 이 활동의 절반 이상을 단기간 내에 자동화시키고 그 친구는 다른 더 창의적인 생각에 집중해야 한다는 말입니다. 비단 이 친구에게만 들려주고 싶은 말은 아닙니다. 지난 글(참고. 기획에 대해서)에서처럼 함께 일하고 있는 모든 기획자들에게 같은 조언을 해주고 싶습니다. 물론 개발자라고 해서 예외는 아닙니다. 성격..
서비스와 데이터마이닝 과학자는 자신이 가진 솔루션을 적용할 문제를 찾고 엔지니어는 자신의 문제를 해결할 솔루션을 찾는다라는 말로 과학(자)과 엔지니어링을 구분한 글을 본 적이 있다. 적절한 구분인 것같다. 데이터 분석/마이닝도 같은 관점에서 구분할 수 있을까? 문제에 맞는 솔루션을 찾는 사람은 데이터 마이너고, 알고리즘에 맞는 문제를 찾는 사람은 데이터 사이언티스트라고 부를 수 있을까? 별로 좋은 구분인 것같지 않다. 최근 빅데이터나 데이터 사이언스 등에 관심이 조금 쏠리고 데이터 기반의 무엇 (Data-driven X)이라는 표현을 자주 접하게 된다. 선무당이 사람잡는다는 말도 있지만, 데이터와 연결된 용어들이 범람하면서 데이터 선무당들도 많이 늘고 있는 것같다. 간혹 지난 몇 년동안 엄청나게 많은 데이터를 모아놓았는데 이..