그때는 맞고 지금은 틀리다.

나쁜 습관이란 게 있다. 데이터 분석가 또는 과학자가 갖는 나쁜 습관에 관한 글을 적으려 몇 개 아이템으로 정리하려 했다. 표현의 뉘앙스가 실패했음을 보여준다. 성공했으면 이미 몇 주 전에 글을 공개했을 거다. 여러 가지가 떠올랐지만 과연 그게 나쁜 습관인 건가?라는 의심도 들었고, 아이템 간의 레벨 차가 컸고 또 포괄적이지 못했다. 그런 고민이 이어진 끝에 내로남불 수준의 제목에 이르렀다.
문제와 데이터를 엄밀히 살펴보기 전에 알고리즘부터 생각한다라고 뽑았지만, 어쩌면 경험이 많은 전문가일수록 오히려 더 그러는 경향이 있고 처음 선택한 알고리즘이 답에 가까운 경우가 많다. 내가 이 문제를 딱 봤을 때 ‘이런 알고리즘을 적용하면 된다’라고 말하면 경험 많은 전문가의 소견이 되고, 주니어 개발자가 ‘이런 알고리즘을 적용하면 될 것 같아요’라고 말하면 경험 없는 어린노무새끼가 겉멋만 들었다라며 질책하는 것은 이치에 맞지 않다. 경험이 많고 적음을 떠나서 늘 새로운 문제와 데이터를 접하면 그 본질을 우선 파악해서 그것에 가장 적합한 솔루션을 찾아가는 게 정석인 건 맞지만, 무턱대로 알고리즘부터 적용하는 것이 그렇게 욕먹을 짓도 아니다. 때론 돈키호테가 문제를 더 잘 해결하기도 한다. 다만 면밀히 살피기 전부터 확정적으로 단정 짓지는 말았으면 한다.
오랜 시간을 투자한 분석 결과가 영 시원치 않을 때는 유혹을 받을 때도 있다. 결과를 살짝만 손질하면 깔끔해질 것 같다. 그래서 간혹 데이터 마사지를 시도하는 사람들도 보게 된다. 그런데 없는 걸 추가하거나 있는 걸 제외하는 수준의 조작이 아니라면 효과적인 커뮤니케이션을 위해서 마사지가 필요할 때도 있다. 특히 시각화와 요약 테이블에서 그런 경우가 종종 있다. 예를 들어, 차트의 Y축이 0에서 시작하는 게 가장 바람직하긴 하지만, 때론 차이를 명확히 보이기 위해서 중간값부터 시작해야 할 때도 있다. 물론 이럴 경우에는 0에서 시작하지 않음을 명확히 해야 한다. 뿐만 아니라, 데이터 (테이블과 차트)를 읽는 사람도 그저 선의에 기반해서 으레 0부터 시작하겠거니라고 가정만 하지 말고, 주변의 수치를 면밀히 살펴야 한다. 사기가 아닌 강조 수준의 마사지는 가끔 필요하다.
문제를 파악하기 전에 솔루션부터 고민한다거나 결과를 다소 조작하려는 것은 결국 ‘답정너’에서 시작하는 것 같다. 답을 정해놓고 문제와 데이터를 보기 때문에 처음부터 솔루션부터 찾게 되고 예상치에 맞게 결과를 바꾸려는 거다. 그렇다고 답정너가 무조건 나쁘다고 단정 짓지도 못하겠다. 때론 ‘답’이란 게 의지치의 반영이다. 예전의 넷플릭스 프라이즈의 10% 개선과 같이 답이 일종의 목표가 되니 어떻게든 그 목표치를 달성한 경우도 있다. 그래서 유일한 답이 아닌 여러 가지 답들(즉 가능성과 가설)을 정해야 한다고 타협안을 낸다. 그냥 짧은 설명만 듣고 떠오른 생각이 좋은 솔루션일 수도 있으니 그건 그것대로 시도해 보고, 그게 틀렸을 때의 백업플랜을 포함해서 다른 가능성도 함께 시도해보고 더 나은 걸 찾아야 한다. 데이터 마사지도 처음부터 하나를 정해놓고 시작하면 결과가 그것과 다를 때 유혹받는 거다. 마사지를 하다 보면 그 다른 결과가 함의하고 있을 수 있는 더 큰 인사이트를 놓칠 수가 있다.
우리네 삶에서 경험은 참 소중하다. 그런데 상황은 늘 변한다. 문제가 다르고 데이터가 다르다. 소중한 경험이 덫이 되면 안 된다. 그때는 맞았지만 이번에는 틀릴 수도 있으니 다른 가능성도 열어둬야 하고, 그때는 틀렸지만 지금은 맞을 수도 있으니 여건이 되면 재검토해볼 가치가 있다. 데이터 과학의 기본 가정이 과거의 것이 비슷한 미래로 이어진다 (모델 학습 --> 예측)는 거지만, 데이터 과학자에게는 과거는 하나의 인스턴스일 뿐 미래의 다양한 가능성을 모두 내포할 수는 없다.

저작자표시 (새창열림)

nthought

그때는 맞고 지금은 틀리다.

티스토리툴바

그때는 맞고 지금은 틀리다.

'DM ML AD' Related Articles

티스토리툴바