콘텐츠 바로가기
본문 바로가기


블로그 전체검색
데이터 과학을 위한 통계

[도서] 데이터 과학을 위한 통계

피터 브루스, 앤드루 브루스, 피터 게데크 저/이준용 역

내용 평점 5점

구성 평점 5점

YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.

한빛미디어에서 프로그래밍 관련 서적들이 많다고 해서 관심가졌던 출판사인데 이번에 서평단이 되어 데이터과학에 관련된 책을 서평할 수 있게 되었다. 책의 앞페이지에서 이 서적은 어떤 독자들에게 알맞은지 또 관통하는 주제가 무엇인지를 간략하게 설명해주고 있다.

데이터과학과 소프트웨어 엔지니어링 중에 전공을 고민하고 있는 사람이다보니 기본적인 프로그래밍 언어가 데이터과학 분야에서 어떻게 쓰이고 있는지를 알아야 한다는 생각이 항상 있었고 또 진로결정을 위해 이 책을 꼭 읽어보고 싶었다. 기본적인 통계는 너무 오래전에 배웠던 거라 평균이나 standard deviation 같이 얕은 개념만 얼핏기억하고있어서 책을 훑어보면서 많인 복습이 됬다.

 

책의 내용

책은 크게 7챕터로 나뉘어 있다:

1. 탐색적 데이터 분석
2. 데이터와 표본 분포
3. 통계적 실험과 유의성검정
4. 회귀와 예측
5. 분류
6. 통계적 머신러닝
7. 비지도 학습

각 챕터또한 서브챕터로 분류되어있다. 서브챕터안에는 중요한 용어들을 한눈에 볼 수 있게 정리되어있고, 용어들을 영어로 표시해놓았다. 

첫 장은 데이터에 필요한 용어와 기본적인 분류법, 정보정리가 나와있다. 습득한 데이터를 분류하고 정리하는 일을 R이나 파이썬에서 어떻게 구현할 수 있는지 코딩과함께 설명되어있다. 아무래도 통계학에서 빠질 수 없는게 그래프이다보니 뒷장으로 넘어갈수록 설명 중간중간 그래프나 분포도의 빈도가 높아진다. 또한 각장의 마지막에는 더 읽을거리로 참고서적들을 알려주어 독자가 흥미를 더 느끼거나 더 깊은 이해가 필요하다고 느낄 때 참고할 수 있는 서적을 가이드 해주는게 좋았다.

이 책의 가장 큰 장점은 코딩과 통계를 함께 입문할 수 있다는 점이다. 정말 기본적인 통계 개념으로 시작해서 심화로 차근차근, 충분한 설명과 예시로 독자들에게 이해시키려고 하고 그 후 R이나 python으로 데이터를 어떻게 시각화 혹은 데이터추출을 할 수 있는지를 보여주는 예시들이 아주 많다.  


실제로 데이터과학 워크샵을 우연히 듣게 되었는데 거기서 타겟(target)이라는 용어를 쓰면서 통계학에서는 dependent variable로 불리지만 데이터과학에서는 타겟이라는 용어를 쓴다는 말을 했었다. 그 워크샵을 듣기전 책에서 한번 읽어봤던 부분이라 신기하고 재밌었다. 본문보다도 큰 부분을 차지하는 용어정리와 추가설명들이 왜 중요한지 알게되는 부분이었다.


책의 7쪽에 나와있듯이 책은 R이나 python에서 첫시작에 대한 가이드는 없다. 어떠한 데이터를 어떻게 불러올 것인가 혹은 어떤 라이브러리를 사용할 것인가에 대한 코딩의 시작부분은 건너뛰고 바로 데이터 출력으로 넘어간다. 그래서 책에 나오는 모든 코딩은 기본적인 세팅을 하고난 후에만 직접 응용해 볼 수 있어 이 책은 독자들에게 통계개념->코딩응용으로 넘어가는 느낌이 강하다. 그치만 기본적인 세팅은 사실 인터넷에 검색만하면 충분히 할 수 있기때문에 코딩에 대한 욕심이 있거나 관심이 있는 사람이라면 충분히 이 책을 읽으며 직접 해 볼 수 있다. 

5장까지는 통상적인 통계를 다뤘다면 6장에서는 머신러닝을, 7장에서는 비지도학습을 다룬다. 통계적 머신러닝에 대해 설명하고 통계와 머신러닝의 차이점도 다룬다. 1장부터 5장까지는 그냥 페이지를 넘기며 훑어보는 정도로 스캔했다면 6장을 좀 더 꼼꼼히 읽어보았다. k근접이웃에 대한 설명을 쭉 읽고 파이썬으로 KNN구현 방법을 이해하고 그 다음쪽에 있는 시각화한 KNN을 보며 저 원과 도형들이 의미하는 바를 이해하고 나니 훨씬 이해하기 쉬웠다. 배깅, 랜덤포레스트 등의 다양한 머신러닝 방법들을 소개한다. 

7장 또한 다양한 방법의 클러스터링을 통해 최소한의 차원을 이용해 예측모델을 만드는 방법을 설명한다. 

 

책의 구성

다소 복잡할 수 있는 내용의 책이다 보니 너무 밀도가 높지 않게 문단간의 간격도 넓고 그래프와 테이블도 시원시원하게 나와있다. 코딩예문들도 가독성이 좋다. 부동산, 주식, 마케팅등 실제로 응용이 가장많이되는 분야면서도 너무 전문적이지 않은 데이터들로 예시를 넣어 이해하기 쉬웠다. 

 

리뷰를 마치며

책을 읽으며 느꼈던 점은 응용 해볼 수 있는 데이터 하나만 있어도 이 책의 대부분을 실제로 연습해보고 응용할 수 있게 해 두었다는 점이다. 책의 뒤에 설명되어 있듯이 "필수 통계 지식을 빠르게 흡수할 수 있다"는 장점을 최대한 살린 책이다. 

코딩을 어느정도 알고있고 데이터과학으로 입문하려는 독자에게 큰 도움이 될 책 같다. 그리고 각각의 서브토픽이 끝날 때 그 토픽을 더 깊이 다루는 사이트들과 서적들을 알려주기 때문에 기본적인 핸디북의 개념으로 이 책을 소장하기 좋은 것 같다. 


http://blog.yes24.com/blog/blogMain.aspx?blogid=reviewers
 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 0

댓글쓰기
첫 댓글을 작성해주세요.

PRIDE1