콘텐츠 바로가기
본문 바로가기


블로그 전체검색
다크 데이터

[도서] 다크 데이터

데이비드 핸드 저/노태복 역

내용 평점 5점

구성 평점 5점



 

 

 

요즘 많은 기업에서 기업 의사결정과 시장예측 등에 데이터를 활용하고 있습니다. 감에 의존하던 이전보다, 정확한 의사결정을 내릴 수 있기 때문이죠. 일반 기업에서도 기본적인 데이터 핸들링은 필수 역량이 되었는데요, 외부에서 데이터는 '신'이라고 바라보는 시선만큼 현실은 쉽지 않습니다. 의사결정자들은 데이터가 있기만 하면 모든 것이 해결될 것처럼 생각합니다. 하지만 기업에서 가지고 있는 데이터는 정말로 '의사결정에 사용할 수 있는' 데이터일까요? 통계학에서 쓰이는 아주 유명한 말 중에 garbage in, garbage out이라는 말이 있습니다. 신뢰할 수 없는 데이터 (쓰레기)가 들어가면 신뢰할 수 없는 결과(쓰레기)가 나온다는 이야기지요. 즉 분석 방법을 결정하기 이전에, 어떤 데이터를 가지고 분석하느냐가 데이터 기반 의사결정에 가장 중요한 요소라고 할 수 있겠습니다.

영국 왕립통계학회 회장을 지낸 데이비드 핸드가 쓴 이 책은, 데이터에 대한 우리의 무한한 믿음을 400페이지에 걸쳐 박살내주는 책입니다. 사람이 모으고 해석하는 데이터는 실제 세계를 완벽히 담아내기 어렵습니다. 데이터의 왜곡이 발생하는 겁니다. 그런 왜곡 이유 중 하나가 데이터의 누락입니다. 단순히 말해 현실세계가 A와 B라는 특성을 가진 사람들로 이루어져 있다면, 기업이 가진 데이터가 A 밖에 없는 상황입니다. 그러나 모종의 이유로 그 기업은 B라는 데이터를 얻을 수 없거나, 혹은 B라는 성질의 데이터가 없다는 사실조차 모를 수 있습니다. 데이비드 핸드는 B와 같은 데이터를 '다크 데이터'라고 부릅니다. 정확한 분석을 위해 필요하지만 우리가 가지고 있지 않은 데이터들입니다.


 

 

데이비드 핸드는 이런 다크 데이터를 총 15개의 유형으로 분류했습니다. 빠져 있는지 우리가 아는 데이터, 빠져 있는지 우리가 모르는 데이터, 일부 사례만 선택하기, 자기 선택, 중요한 것이 빠짐, 존재했을 수도 있는 데이터, 시간에 따라 변하는 데이터, 데이터의 정의, 데이터의 요약, 측정 오차 및 불확실성, 피드백과 게이밍, 정보 비대칭, 의도적인 다크데이터, 조작된 합성 데이터, 데이터 너머로 외삽하기가 바로 그 유형들입니다. 이렇게 유형의 이름으로 보면 어려워보이지만, 실질적인 예를 여러가지 들어 설명해주기 때문에 이해하기에 어렵지는 않았습니다. 아마 이 책을 읽으실 분들은 대부분 데이터를 직접 만지시거나 관련된 기획을 하시는 분일 것 같은데요, 데이터에 대한 이해가 있다면 책에 어려운 부분은 없을 것 같아요.

책의 말미에서는 현실 데이터를 15가지 다크데이터 유형으로 나누는 방법과 다크데이터 극복방법을 설명합니다. 여기에는 대치법이나 패턴을 이용한 예측 결측값 예측, 반복 실험 같이 전통적인 통계학에서 연구하는 결측값 처리 방법들을 이야기합니다. 다크데이터를 그대로 두면서 의미있는 결과를 이끌어내는 방법도 소개합니다. 시뮬레이션이나 기계학습, 피실험자에게 의도적으로 정보를 차단한 실험 등이 그 예시라고 할 수 있습니다. 이 책은 기획자나 컨설턴트들이 데이터에 대해 이해하고자 할 때 아주 좋은 레퍼런스로 사용할 수 있는 책입니다.

(서평단으로 책을 수령받아 개인적인 감상을 쓴 글입니다)

 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 0

댓글쓰기
첫 댓글을 작성해주세요.

PRIDE1