요즘 대기업에서는 A.I 및 IoT를 위해 머신러닝에 대해 개발을 추진하는 추세입니다. 머신러닝이란 기술은 인간의 뇌구조를 묘사한 뉴럴 네트웍에 기반한 기술이고 굉장히 다양한 일들을 하고 있는데 예전에는 단순히 로봇에 학습을 시켜서 사람을 따라하게 만들었지만 이제는 로봇뿐만 아니라 스피커, 청소기등등이 자신들이 가지고 있는 학습 데이터에 기반해서 판단을 내리고 행동하는 초연결시대로 나아가기 위한 기술이기 때문입니다. 그래서 구글, 삼성같은 IT관련 대기업들은 이미 머신러닝에 관련된 기술자들을 교육해서 키워내는 등 첫번째 선두로 등장하기 위해 엄청난 경쟁을 벌이고 있을 정도로 21세기의 핵심 기술중 하나입니다.
제가 이 책을 선택한 이유는 이러한 머신러닝 기술 중에서도 유망성이 높은 그레이디언트 부스팅이라는 기술을 실용적으로 배울 수 있기 때문입니다. 그레이디언트 부스팅은 랜덤 포레스트의 알고리즘이 가진 여러 결점에 대한 우아한 대안이며, 예측 분석 도구 상자 안에 있는 강력한 기술임으로 입증되었습니다. 그 중에서도 XGBoost는 빠르고 효육적으로 수십억 개의 데이터 포인트에 적용하기 위한 그레이디언트 부스팅 프레임워크로 업계에서 이미 입증된 오픈 소스 소프트웨어 라이브러리입니다.
이 책의 특성은 그레이디언트 부스팅에 대한 이론을 설명하기 전에 사이킷런으로 머신러닝과 XGBoost를 소개하여 결정 트리를 다루고 머신러닝 관점에서 배경을 분석하며 XGBoost까지 확장되는 하이퍼파라미터를 배울 수 있습니다. 밑바닥부터 그레이디언트 부스팅 모델을 구축해보고 그레이디언트 부스팅을 빅 데이터로 확장하면서 속도의 중요성을 설명합니다. 그리고 속도 향상 및 수학적인 이론에 초점을 두고 XGBoost의 세부 사항을 알아봅니다. 자세한 사례 연구를 이용하여 사이킷런 API와 원본 파이썬 API방식으로 XGBoost 분류 모델과 희귀 모델을 만들고 튜닝하는 방법을 연습합니다. 또한, XGBoost 하이퍼파라미터를 활용하여 성능 개선, 누락된 값 수정 및 불균형 데이터 세트 적용, 그리고 다른 기본 학습기를 튜닝합니다. 마지막으로 상관관계가 낮은 앙상블과 스태킹 모델을 만들어보고, 모델 배포를 위해 희소 행렬과 사용자 정의 변환기, 파이프라인과 같은 고급 XGBoost 기술을 적용한다는 점입니다.
구성
Chapter 0: 코딩 환경 설정
PART 1: 배깅과 부스팅
Chapter 1: 머신러닝 개요
Chapter 2: 결정 트리
Chapter 3: 배깅과 랜덤 포레스트
Chapter 4: 그레이디언트 부스팅에서 XGBoost까지
PART 2: XGBoost
Chapter 5: XGBoost
Chapter 6: XGBoost 하이퍼파라미터
Chapter 7: XGBoost로 외계 행성 찾기
PART 3: 고급 XGBoost
Chapter 8: XGBoost 기본 학습기
Chapter 9: 캐글 마스터에게 배우기
Chapter 10: XGBoost 모델 배포
APPENDIX A: 다른 그레이디언트 부스팅 라이브러
파트별로 나누어 봤을때 1~4장은 XGBoost에서 사용하는 파라미터 및 기본적인 부스팅에 대해 설명하고 있고, 5~7장은 본격적인 XGBoost 내용 및 실습에 대해, 8~10장은 XGBoost 심화과정에 대해 설명하고 있습니다.
개인적인 생각으로 학습은 데이터 과학 전문가, 데이터 분석가, 빅 데이터를 빠르고 정확하게 처리하는 머신러닝 관련 소프트웨어 개발자로 취업을 희망하시거나 이제 막 개발자로 시작한 초보자이신 분들께서는 파이썬에 관련된 도서를 먼저 학습하셔서 리스트 슬라이싱과 함수 작성, 메서드 호출 방법을 아신 후에 1장부터 시작하시면 좋을 것 같고 어느정도 경험이 있으신 분들(2년차~)부터는 1장은 쭉 보시면서 머신러닝의 개념 및 머신러닝 개발방법에 대해 숙지한다는 방식으로 보시고 2장부터 학습하시는 것이 좋을것 같습니다.
개인적으로 약간의 단점이 어쩌면 욕심일수도 있는게 좀더 많은 실습 예제 및 비즈니스 케이스가 담겨있으면 더 좋았지 않았을까라는 아쉬움이 있습니다.
저의 리뷰를 읽어주셔서 감사합니다. 다음에는 좀더 유용하고 좋은 책으로 더 나은 리뷰를 통해 여러분께 책을 소개시켜드릴 수 있도록 더 노력하겠습니다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."