콘텐츠 바로가기
본문 바로가기


다크 데이터

[도서] 다크 데이터

데이비드 핸드 저/노태복 역

내용 평점 5점

구성 평점 5점

사실 이 시대는 과학과 데이터를 신앙하는 시대가 아닐까 한다. 사람들이 죽어가도 통계적인 범위 내에서 사망할 사람은 소수이니 나는 괜찮을 거라는 생각으로 감염성 질병에 대처하거나 예방 접종에도 그런 판단으로 대응한다. 확진을 받고 나서도 회복한 사람들에게는 맞는 말일 것이다. 그리고 백신 접종을 하고도 이상반응도 없고 사망하지 않은 사람에게 역시 그런 신앙은 나름 괜찮은 판단이었다고 생각될 것이다. 그럼 죽은 사람들과 그 유가족들에게는 어떨까?

 

데이터는 이렇게 숫자로 가장 귀중한 것을 치환하게도 만드는 무엇보다도 무서운 신앙이라고 생각한다. 

 

그리고 그 데이터라는 것이 항상 정직하고 보편타당한 것이리라는 기대 역시 사람들의 무의식에 새겨져 있는 상식이자 편향이 아닌가 싶다. 문재인 정부에서는 급증하는 실업난에도 불구하고 취업자 숫자가 유의미하게 늘었다고 주장했다. 무서운 기세로 상승한 부동산가에도 불구하고 부동산가는 10 여 % 정도 증가했을 뿐이라고 호기롭게 주장하기도 했다. 어떻게 현실을 이토록 왜곡할 수 있었던 걸까? 그것이 바로 데이터의 마력이다. 기준만 재설정한다면 의도된 조작이나 설정치의 재조정만으로도 대중에게 제시할 결과값이 달리 나올 수 있는 것이다. 그들의 입장에서는 그것이 거짓도 아니지 않은가? 자신들이 재설정한 기준에서는 그런 결과가 나올 수밖에 없으니 말이다.

 

데이터가 이토록 악용되고 진실을 호도할 수 있는 마녀 같은 것이라면 우리는 이 데이터라는 것을 외면하고 부정해야 하는 것인가? 아니 이 시대 상황에서 그런 선택은 상식 밖이고 제정신이랄 수 없는 선택일 것이다. 우리는 데이터에 대한 상식의 폭을 확장함으로써 데이터가 오류이거나 데이터로 거짓말을 하는 경우의 수에 대한 상식을 재정비함으로써 이 데이터가 일으키는 거짓의 난에 대처할 수밖에 없다.

 

본서 다크데이터는 데이터의 오류와 착오를 일으키는 데이터의 맹점을 다크데이터라 정의한다. 이를 크게 누락한 것을 인지한 데이터와 누락한 것조차 알지 못하는 데이터로 분류하고 이를 다시 데이터를 의도적으로 조작한 경우와 의도하에 오류를 불러오는 방식까지를 두루 분류하여 총 15가지 유형으로 정의하고 있다.

 

데이터 전문가가 쓴 저작이다 보니 저자의 표현으로는 '수많은 데이터'를 언급하고 있고 체감상 적어도 100 여 개 이상의 데이터를 언급한 듯한 느낌이다. 저작이 전문가가 대중적으로 쓰기 위해 최대한 대중의 호기심과 궁금증을 유도하고 그를 지속할 수 있는 데이터 중심으로 언급하고 있다. 하지만 데이터 정보와 그리 가깝지 않은 사람이자 이공계열 사고 회로를 갖추지 못한 (리뷰를 쓰고 있는) 본인에게는 독서에서 호기심과 몰입도가 지속되다 끊기고 다시 일어나 지속되다 끊기는 상황이 반복되었다. 여러모로 흥미로운 주제임에도 (인문학적 서술이라지만) 숫자가 난무하는 데이터에 관련된 저작이다 보니 처음의 관심과 호기심이 저작의 끝까지 일관되게 유지되는 저작은 아닌 것 같다는 감상이 든다.

 

표지의 띠지에서도 기록되어 있듯 본서에서 언급되는 데이터 사례로는 의료 통계, 금융 설계, 인구조사, 실험 설계, 금융 사기 감지, 투자 예측, 질병 진단, 개인 정보 보호뿐만이 아니라 그 이상의 헤아리기 쉽지 않은 분량의 데이터 사례가 언급되고 있다. 이 모두를 기억하는 것은 천재적인 지능이 아니라면 쉽지 않을 것이다. 그리고 이 모두에서 일관된 흥미와 관심과 집중력을 드러내는 것 또한 천재이거나 데이터 전문가 거나 이공계열적 사고에 익숙한 이들이 아니라면 불가능할 거라고 생각된다.

 

나로서는 사례로든 데이터 중 챌린저호 공중폭발 사고에서 발단이 된 오링에 대한 데이터의 다크데이터가 다크데이터로 야기될 수 있는 문제를 민감한 사안으로 인식하도록 해주어 기억에 남고 영국 경찰들과 범죄예방(?)부서에서의 범법행위에 대한 분류의 오차가 100% 이상이나 오차가 있는 것도 데이터의 기준을 어떻게 설정하느냐에 따라 결과값이 달라질 수 있으며 데이터를 제시하는 주체가 의도적으로 그를 이용(악용)하고 있다는 것을 제삼 확인할 수 있어서 인상 깊었다. 

 

그 외에는 타이타닉호의 구조자 중 승무원과 승객의 생존 비율과 승무원 중 남성 생존자와 승객의 남성 생존자 비율, 여성 승무원과 여성 승객의 생존자 비율에서 어이없는 숫자 장난 같은 역설적인 결과가 나오는 것도 인상적이었다. 그리고 체중 감소 지수를 산출하는 데이터에서 나이, 성별, 키 몸무게를 기록하는데 여기서 각각이나 교차 누락하는 경우까지도 신뢰도를 높이기 위해 경우의 수를 대입하여 데이터를 산출하려는 저자의 논리 전개에 놀랄 수밖에 없었다. 나이는 체중 감소 효과에서 큰 영향을 미치는 지수이기는 해도 굳이 무시하겠다면 할 수도 있을 것 같았고 성별이야 50:50 의 확률이니 편차가 있다 해도 큰 무리가 없다고 생각되었지만 체중 감소 지수를 산출하는데 키와 몸무게가 누락된 정보를 추정하려 하는 것이 전문가로서 올바른 태도인가 하는 생각이 들었다. 그리고 과거에 있었다는 미국에서의 남편 나이와 부인 나이 비율을 따져 미국인 아내들의 평균 나이를 산출하려는 데이터에서도 남편의 나이를 누락했거나 아내의 나이를 누락했거나 둘 다 누락한 경우에도 이것을 데이터 상에서 무조건 배제하는 것이 아니라 추정치를 잡으려는 것을 보고 데이터라는 것이 무당 놀음인가 하는 생각이 들기도 했다.

 

무엇보다 과학계에 만연했다는 데이터 사기 사례도 상식의 폭이 넓어지는 것 같은 정보였다고 생각한다. 과학자들과 심리학자들이 이전 과학자와 심리학자의 실험을 재현해본 결과 같은 결론에 도달하는 경우가 저자가 이야기하듯 이렇게까지 희소한지 미쳐 알지 못했다. 과학저널《네이처》의 설문조사에서 1,576명의 응답자 중 70% 이상이 다른 과학자의 연구를 재현하려고 시도했지만 실패했다고 대답했다는 것이다. 심리학계 역시 2008년 심리학 문헌에 발표된 100건을 재현하려 했지만 통계적으로 유의미한 결론을 내놓은 97건의 연구 중 오직 37건에서만 똑같은 결과를 얻었다고 한다. 과학계에서 전문 과학저널 중 저명한 몇몇을 제외하고는 검증하려 시도하지 않을 거라는 기대로 많은 실험 사례들이 올라오는데 이 또한 검증을 거치면 사기로 판명되는 수가 많다는 것이다. 물론 이러한 과정을 모두 거친 이후의 객관적인 자료가 훗날 정당한 과학적 발견으로 역사에 남게 되는 것이기는 하나 전두엽 절제술이라는 사이비 의학도 노벨 의학상을 수상한 전적이 있는 만큼 당시대에는 그런 사기 행각에 놀아날 수 있는 것이다. 본서에서 보여주는 과학 분야의 사기행각의 방식을 조목조목 분류한 대목은 그 정의만큼 인상적이지는 않았지만 과학에 대한 맹신을 깨뜨리는 역할을 해주지 않나 생각된다.

  

무엇도 신앙하지 않겠지만 과학이라고 맹신하는 것도 종교적 신앙과 다를 바 없다는 생각이 들었다. 데이터 역시 마찬가지이다. 숫자는 거짓말을 하지 않는다고 맹신하기보다는 그 숫자를 착각하고 실수하고 야비하기까지 한 인간이라는 생명체가 다루었다는 것을 잊어선 안될 것 같다. 

 

본서는 착각하고 실수하고 야비한 인간의 특성이 그대로 드러나는 것이 바로 데이터라는 것을 증거하는 저작이라는 데서도 의의가 있지 않나 싶다. 많은 데이터들이 제시되고 있으므로 독자의 성향에 따라 금융 범죄 데이터가 또는 투자예측 데이터가 의학진단 데이터가 각기 더 기억에 남을 수도 있다고 생각한다. 자신의 기호에 맞는 감상을 안겨줄 수 있으니 폭넓은 독자의 사랑을 받을만한 저작이 아닐까 싶다.

 

 

 

YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.

 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 0

댓글쓰기
첫 댓글을 작성해주세요.

PRIDE2