[나의 한줄 추천사]
파이썬으로 데이터 분석부터 머신러닝까지 깊게 배우고 싶다면 이책을 보라!
[책 추천 이유]
데이터 분석관련 책들은 대부분 R 로 작성되는 경우가 많은데 이책은 'R' 과 '파이썬' 동시에 제공해준다. 무엇보다도 통계학을 바탕으로 깊이있게 이야기해줌으로써 왜 이렇게 동작하는지에 대한 궁금증을 해소시켜 준다.
[내가 찾고자 했던 질문과 대답들]
1. 데이터 분석을 잘하려면 무엇을 알아야하는가?
- 데이터 분석을 하면서 계속 막히는 부분이 통계의 복잡한 용어와 실행된 결과의 해석 부분일것 같다. 이책에서는 데이터 분석을 하기위한 EDA 부터 비지도 학습까지 꼭 필요한 부분에 대해서 깊게 짚어주고 있다.
2. EDA(탐색적 데이터 분석) 할때 무엇이 중요한가?
- 데이터 형태 및 분포가 중요하다. 데이터 형태는 수치형, 연속형, 이산, 범주형, 이진, 순서형의 데이터 형태를 파악해야 한다. 그 다음 데이터의 평균, 중간값, 특잇값등을 확인하여 데이터 의 도수분포표, 히스토그램, 상관관계를 파악한다.
3. 표본추출은 왜 필요한가, 어떤 방법으로 가능한가?
- 데이터의 질과 적합성을 일정 수준 이상으로 담보할수 없으면서 데이터 크기만 늘어나는 상황이다. 오히려 데이터를 효과적으로 다루기 위해서는 "데이터 편향"을 최소화하기 위한 방법으로 임의표본추출이 더 필요하다. 방법으로 "표본분포","부트스트랩(관찰된 데이터로부터 복원추출하는 방법)","정규분포", 통해서 가능하다.
4. 데이터 분석을 위한 실험은 어떻게 하는가?
- 가설을 세우고, 실험을 설계, 데이터를 수지바 추론 및 결론을 돌출한다. 직관적인 "재표본추출(부트스트랩)" 과정을 거쳐 우연에 의한 변이가 어느 정도까지 영향을 미치는 측정할수 있다.
5. 좀더 알고 싶다면?
- 코드 예제를 직접 실습하면서 하나씩 코드로 보면서 책을 보면 좀더 효과적이다.
https://github.com/gedeck/practical-statistics-for-data-scientists
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
https://github.com/gedeck/practical-statistics-for-data-scientists