콘텐츠 바로가기
본문 바로가기


데이터 과학을 위한 통계

[도서] 데이터 과학을 위한 통계

피터 브루스, 앤드루 브루스, 피터 게데크 저/이준용 역

내용 평점 5점

구성 평점 5점



 

통계를 분석하는 툴에는 여러 가지가 있다. 대학원생이나 통계학자라면 주로 엑셀이나 SPSS, SAS와 같은 통계 패키지를 활용할 것이다. 그렇다면 프로그래밍 언어로 코딩하는 방법은 무엇일까?

 

이 책은 바로 여기에 관한 것이다. R과 파이썬 프로그래밍 언어를 사용하여 통계 분석을 자유자재로 다루는 기법에 대해 설명한다. 책이 아우르는 범주도 고전 통계학에서 머신 러닝까지 광범위하다. 이번 개정판에서는 R 이외 파이썬 언어와 코드를 추가했다.

 

책의 특징은 다음과 같이 두 가지다.

 

1. 데이터 과학과 관련된 통계의 핵심 개념들을 소화하기 쉽고, 따라하기 쉽게 소개하며, 참조할 만한 읽을거리를 정리한다.

2. 데이터 과학의 관점에서 어떤 개념들이 정말 중요하고 유용한지, 어떤 개념들이 덜 중요하고 그 이유는 무엇인지 설명한다.

 

집필에는 모두 세 사람이 참여했다. 먼저 피터 브루스(Peter Bruce)는 스태티스틱스닷컴(Statistics.com)을 설립해 100여 개 통계 전문 강의를 제공하고 있다. 데이터 과학에 대한 노하우가 상당하다.

 

앤드루 브루스(Andrew Bruce)30년 이상 학계·정부·기업에서 통계학과 데이터 과학을 연구했다. 이에 업계에서 발생하는 폭넓은 문제에 대한 통계기반 솔루션을 개발했다. 그 역시 데이터 과학 전문가로 인정받고 있다.

 

피터 게데크(Peter Gedeck)는 대학에서 화학과 수학을 전공했다. 현재 IT 회사 컬래버레이티브 드럭 디스커버리(Collaborative Drug Discovery)’에서 근무하며 약물 후보 물질의 생물학적, 물리화학적 특성을 예측하기 위한 머신러닝 알고리즘을 개발하고 있다.

 

책 구성을 보면 759항목으로 돼 있다.

 

1장은 데이터 과학의 첫걸음이라고 할 수 있는 탐색적 데이터 분석(Exploratory Data Analysis, EDA)’에 대해 설명한다. 2장은 데이터와 표본분포에 관해 알아본다. 표본분포는 정규분포, t분포, 이항분포, 카이제곱분포, F분포, 푸아송 분포 등 통계학에서 다루는 영역을 대부분 포함한다. 3통계적 실험과 유의성 검정에서 가설검정, 표본추출, p, t검정, 다중검정, 분산분석, 카이제곱검정, 표본크기와 자유도 등을 다룬다.

 

4회귀와 예측에서 단순·다중 선형 회귀분석, 회귀방정식과 회귀를 이용한 예측 그리고, 다형회귀·스플라인 회귀 등을 다룬다. 5장은 판별분석, 로지스틱회귀, 분류모델 평가 등 분류를 설명한다. 6통계적 머신 러닝에서 k-최근접 이웃, 트리 모델, 배깅과 랜덤 포레스트, 부스팅 등을 알아본다.

 

이상 4~6장은 예측변수로부터 어떤 응답변수(목표값)를 예측하는 모델을 만드는 지도 학습(Supervised Learning)에 속한다. 회귀 방정식이 대표적이다.

 

이에 반해 7장은 비지도 학습(Unsupervised Learning)을 다룬다. 비지도 학습은 목표값을 찾는 것이 아니라 주어진 데이터가 어떻게 구성되었는지와 같이 데이터로부터 의미를 끌어내는 통계적 기법을 말한다. 7장에서는 주성분분석, k-평균 클러스터링, 계층적 클러스터링, 모델 기반 클러스터링과 이와 관련된 변수 등을 설명한다.

 

책의 개요를 한 마디로 요약하면 ‘R과 파이썬을 활용한 데이터 과학이다. 데이터 과학은 통계학, 컴퓨터 과학, 정보 기술, 도메인 특화 영역 등 여러 분야가 융합된 학문이다.

 

책에 나오는 데이터 집합과 프로그래밍 코드는 다음 누리집에서 다운받을 수 있다.

https://github.com/gedeck/practical-statistics-for-data-scientists

 

한글로 옮긴 이준용 선생은 한국과학기술원(KAIST)에서 전자공학을 전공하고, 일본과 미국에서 연수했다. 현재 미국 퍼시픽 노스웨스트 국립연구소에서 재직 중이다. 그간 R과 파이썬에 대한 책을 여러 권 번역했다.


우리는 이 책을 통해 R과 파이썬이라는 프로그래밍 언어를 활용하여 통계를 분석하고, 머신 러닝 알고리즘을 짤 수 있다. 이는 곧 통계와 데이터를 다루는 스킬을 한층 더 업그레이드한다는 뜻이다.

 

*YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.

 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 0

댓글쓰기
첫 댓글을 작성해주세요.

PRIDE1