콘텐츠 바로가기
본문 바로가기


블로그 전체검색
데이터 과학을 위한 통계

[도서] 데이터 과학을 위한 통계

피터 브루스, 앤드루 브루스, 피터 게데크 저/이준용 역

내용 평점 5점

구성 평점 5점

[나의 한줄 추천사]

파이썬으로 데이터 분석부터 머신러닝까지 깊게 배우고 싶다면 이책을 보라!

[책 추천 이유]

데이터 분석관련 책들은 대부분 R 로 작성되는 경우가 많은데 이책은 'R' 과 '파이썬' 동시에 제공해준다. 무엇보다도 통계학을 바탕으로 깊이있게 이야기해줌으로써 왜 이렇게 동작하는지에 대한 궁금증을 해소시켜 준다.

[내가 찾고자 했던 질문과 대답들]

1. 데이터 분석을 잘하려면 무엇을 알아야하는가?

- 데이터 분석을 하면서 계속 막히는 부분이 통계의 복잡한 용어와 실행된 결과의 해석 부분일것 같다. 이책에서는 데이터 분석을 하기위한 EDA 부터 비지도 학습까지 꼭 필요한 부분에 대해서 깊게 짚어주고 있다.

2. EDA(탐색적 데이터 분석) 할때 무엇이 중요한가?

- 데이터 형태 및 분포가 중요하다. 데이터 형태는 수치형, 연속형, 이산, 범주형, 이진, 순서형의 데이터 형태를 파악해야 한다. 그 다음 데이터의 평균, 중간값, 특잇값등을 확인하여 데이터 의 도수분포표, 히스토그램, 상관관계를 파악한다.

3. 표본추출은 왜 필요한가, 어떤 방법으로 가능한가?

- 데이터의 질과 적합성을 일정 수준 이상으로 담보할수 없으면서 데이터 크기만 늘어나는 상황이다. 오히려 데이터를 효과적으로 다루기 위해서는 "데이터 편향"을 최소화하기 위한 방법으로 임의표본추출이 더 필요하다. 방법으로 "표본분포","부트스트랩(관찰된 데이터로부터 복원추출하는 방법)","정규분포", 통해서 가능하다.

4. 데이터 분석을 위한 실험은 어떻게 하는가?

- 가설을 세우고, 실험을 설계, 데이터를 수지바 추론 및 결론을 돌출한다. 직관적인 "재표본추출(부트스트랩)" 과정을 거쳐 우연에 의한 변이가 어느 정도까지 영향을 미치는 측정할수 있다.

5. 좀더 알고 싶다면?

- 코드 예제를 직접 실습하면서 하나씩 코드로 보면서 책을 보면 좀더 효과적이다.

https://github.com/gedeck/practical-statistics-for-data-scientists

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


https://github.com/gedeck/practical-statistics-for-data-scientists
 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 0

댓글쓰기
첫 댓글을 작성해주세요.

PRIDE1