콘텐츠 바로가기
본문 바로가기


블로그 전체검색
다크 데이터

[도서] 다크 데이터

데이비드 핸드 저/노태복 역

내용 평점 5점

구성 평점 4점

이 책 <다크데이터>에서는 데이터를 크게 두 가지의 범주로 구분한다. 행정데이터와 다크데이터가 바로 그것이다.
행정데이터는 측정되어서 어떤 결과를 얻는데 사용되는 데이터를 의미한다.
혹은 어떤 (의도된) 의미를 찾는데 사용되는 데이터가 행정데이터이다.
다크데이터는 제외되거나 측정되지 않은 데이터를 의미한다. 여기서 제외되거나 측정되지 않는 이유는 의도적일 수도 혹은 의도하지 않았지만 예기치 못하 제외 혹은 측정되지 않았을 수도 있다.

예를 들어 시골 외진 곳에 위치하고 있는 우체국 혹은 우편취급소를 폐쇄해야 한다고 하는 의사결정에 사용되는 데이터나, 이른 새벽 혹은 심야에 대중교통을 줄이자는 의사결정에 사용되는 데이터에 대한 왜곡이 발생하는 경우이다. 왜냐하며 시골 외진 곳에 사는 사람은 여기도 사람이 사는 곳이니 우편물 배달을 받을 수 있는 수단이 필요하다고 하겠고, 또한 이른 새벽이나 심야에 대중교통을 이용하는 사람 역시 대중교통 수단이 유지되어야 한다고 하겠지만, 이를 경험하지 않는 사람들은 왜 그런 곳에 혹은 왜 그 시각에도 서비스가 제공되어야 하는지 이해하지 못하게 되는 것인데, 이 때 사용되는 데이터가 다크데이터라는 것이다.

이 책의 서두에 보면 코끼리 가루에 대한 에피소드가 실려 있다.
어떤 사람이 공원을 지나다니면서 열심히 어떤 가루를 뿌려대는 것이다.
이에 그 사람에게 그 가루가 무엇이냐고 물어보았더니 이가루는 코끼리 가루라는 것인데 이 가루 때문에 여기에 코끼리가 접근하지 못한다는 것이다. 
그러자 그 사람에게 "여기에는 코끼리가 없는데요"라고 말하자 그 사람이 바로 이렇게 말하더라는 것이다.
"바로 그것예요! 얼마나 효과가 좋은지 모른다니까요."

보지 못했으니 누가 알겠는가.
바로 이것이 어쩌면 다크데이터라는 것이 아닐까.

이 책에서는 꼭 다크데이터가 아니더라도 우리가 수집하고 취급하는 많은 데이터의 사용에 있어서의 오류 사례에 대해 다루고 있어 그러한 사례로부 터 어떻게 하면 그러한 오류를 피하여야 하는지 생각을 하게 한다.

<다크 데이터>의 저자 데이비드 핸드는 뛰어나고 유명한 통계학자로서 이미 우리에게 잘 알려진 <신은 주사위 놀이를 하지 않는다>의 저자이다.

끝으로 이 책에서 저자가 다크데이터 유형으로 제시한 15가지를 서술하면 다음과 같다

DD 유형 1 : 빠져 있는지 우리가 아는 데이터
DD 유형 2 : 빠져 있는지 우리가 모르는 데이터
DD 유형 3 : 일부 사례만 선택하기
DD 유형 4 : 자기 선택
DD 유형 5 : 중요한 것이 빠짐
DD 유형 6 : 존제헸을 수 있는 데이터
DD 유형 7 : 시간에 따라 변하는 데이터
DD 유형 8 : 데이터의 정의
DD 유형 9 : 데이터의 요약
DD 유형 10 : 측정 오차 및 불확실성
DD 유형 11 : 피드백과 게이밍
DD 유형 12 : 정보 비대칭
DD 유형 13 : 의도적인 다크 데이터
DD 유형 14 : 조작된 합성 데이터
DD 유형 15 : 데이터 너머로 외삽하기 



 

 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 0

댓글쓰기
첫 댓글을 작성해주세요.

PRIDE1