본문 바로가기

DM ML AD

대체 데이터와 다크 데이터

** 주의. 소개하는 대체 데이터와 다크 데이터를 제대로 공부해서 개념을 완벽히 이해한 상태로 글을 적는 것이 아니고, 이런 개념을 소개한 유튜브 영상과 책을 소개하기 위해서 적는다. 더 자세한 내용은 직접 찾아보고 익히길 바란다.

주식하는 분들에게 유명한 3프로TV에 11월 1일에 두 개의 영상이 올라왔다. 명지대학교 박정호 특임교수의 라이브 영상을 2 편으로 쪼갠 것인데, 대체 데이터를 이용한 투자 사례를 다룬 것이다. 부끄러운 고백인데, 데이터 과학자란 업에 오래 몸담고 있지만 대체 데이터 (alternative data)란 용어를 처음 접했다. 그동안 업무/서비스와 관련된 직접적인 데이터들이 많았기 때문에 굳이 불확실성이 높은 데이터, 즉 대체 데이터에 관한 생각을 할 필요가 없었는지도 모르지만, 좀 더 폭넓은 시각으로 주변 세상을 더 면밀히 검토하지 못한 것을 반성한다.

그냥 영상을 시청하면 대체 데이터의 개념이나 적용 사례를 쉽게 이해할 수 있기 때문에 먼저 영상 링크부터 공유한다. 두 개 합쳐서 50분, 그냥 2배속으로 시청하면 30분이면 충분하기 때문에 이 글을 다 읽는 것보다 먼저 영상을 시청할 것을 권한다.

https://youtu.be/s1l2p56HlG8

 - https://youtu.be/Y6h8wYNbt2s

 

영상을 다 보셨을 거라 가정하고, 이제 대체 데이터의 개념을 굳이 더 설명할 필요는 없을 것 같다. 그냥 영상에도 나왔지만 인공위성을 이용해서 국제유가를 추정하는 사례가 참 특이했고 재미있었다. 혹시 이해를 못했을 분들을 위해서 부연 설명하자면… 1) 인공위성이 많아져서 인공위성에서 찍은 사진 데이터의 가격이 낮아졌다. 2) 해당 인공위성에 달린 카메라의 해당도를 알고 있으면 저장소의 넓이를 계산할 수 있다. (지름을 얻은 후에 원의 넓이 공식에 넣으면 된다.) 3) 저장소의 위치 (위도)와 사진을 찍을 시간을 알고 있으면 태양의 입사각을 알 수 있고, 그림자 길이와 입사각을 이용해서 저장소의 높이를 계산할 수 있다. 2)와 3)을 합치면 저장소의 전체 부피, 즉 저장 용량을 계산할 수 있다. 마지막으로 4) 저장소 내에 그림자 길이를 측정해서 저장소에 남은 (사용한) 기름의 양을 확인할 수 있다. 같은 저장소에 대해서 매일 같은 작업을 하면 기름을 사용하는 패턴이나 미래의 추가 주문 등을 쉽게 예측할 수 있다. 그래서 전 세계의 저장소에 보관 중인 기름양이 적어진다면 기름 요구량이 많아질 거고 곧 유가가 상승할 것이라고 유추할 수 있다. 이런 과정을 거쳐서 원유 선물을 활용해서 돈을 번다는 거다.

생각해볼 점은… 먼저 지금 내가 하고 있는 업무에서 직접적인 데이터가 없거나 부족할 때 대체 데이터를 구해서 사용할 수 있을까? 와 내가 가진 데이터를 다른 분야의 대체 데이터로 어떻게 활용할 수 있을까?를 고민해보면 좋을 것 같다.

다음은 다크 데이터를 소개한 책이다. 다크 데이터는 그냥 저자가 만들어낸 용어 같은데 어떤 데이터를 분석하기에 앞서 이런 다크 데이터 여부를 미리 잘 검토하는 게 필요하다. 우리 눈에는 보이지 않지만 우주의 95% 정도는 암흑 에너지와 암흑 물질로 이뤄져 있다고 천체 과학자들이 말하고 있다. 여기에서 암흑, 즉 Dark를 가져와서 눈에 보이지 않는 데이터란 의미로 다크 데이터로 명명한 거다. 아직 책의 시작부만 읽은 상태여서 책에 대해서 자세히 설명하지는 못하지만 데이터 과학자라면 모두 읽어봤으면 해서 책을 소개한다. 우연히 페이스북에 올라온 광고를 보고 구매한 책이지만 읽으면 업무를 할 때뿐만 아니라 일상에서 세상을 보는 방식에도 많은 도움이 될 것 같다.

책: https://www.aladin.co.kr/shop/wproduct.aspx?partner=daum&itemid=280889215

 

다크 데이터

우리가 누락된 데이터를 알아차리지 못하게 되는 과정들, 그리고 그로 인해 우리가 어떻게 잘못되고 위험하고 심지어 파국에 이를 수도 있는 결론과 행위에 이르게 되는지 다각도에서 탐사한다

www.aladin.co.kr

책에선 15가지 유형의 다크 데이터를 소개하고 있다. ‘빠져 있는지 우리가 아는 데이터’나 ‘빠져 있는지 우리가 모르는 데이터’가 처음 두 가지 유형이다. 그 외에도 시간에 따라서 변하는 데이터, 서빙 바이어스를 말하는 것 같은 ‘자기 선택’ 유형, 측정 오차나 불확실성, 의도된 또는 조작된 데이터 등의 유형을 소개하고 있다. 요즘은 워낙 데이터 양이 많아서 주어진 데이터에만 함몰되는 경우가 많은데 데이터에 압도될수록 더더욱 정신을 차려서 데이터를 제대로 봐야겠다는 결심도 생긴다.

반응형