콘텐츠 바로가기
본문 바로가기


블로그 전체검색
XGBoost와 사이킷런을 활용한 그레이디언트 부스팅

[도서] XGBoost와 사이킷런을 활용한 그레이디언트 부스팅

코리 웨이드 저/박해선 역

내용 평점 5점

구성 평점 5점

[나의 한줄 추천사]

XGBoost 와 LightGBM Kaggle 에서 우승하는 알고리즘으로, 제대로 사용하고 싶은 분께 추천드린다.

 

 

[책 추천 이유]

실제 코랩 예제와 어떻게 알고리즘을 써야하는지 한땀 한땀 설명해준다. Kaggle 대회에 관심 있는 분들한테는 정말 좋은 지침서가 될듯 싶다.

 

 

[내가 찾고자 했던 질문들]

1. Kaggle 대회에서 우승하려며 어떻게 해야하는가?

- 우승자의 말을 빌리자면, 알고리즘은 1개로는 안되고, 앙상블을 통해서 접근해야하는데, 앙상블 모델을 20개 정도는 결합시켜야 된다고 한다. 이말을 듣고 충격을 먹긴 했는데, 일단 앙상블 했다고 성능이 좋아지는것은 아니다. 앙상블을 통해서 모델의 결과가 상관관계가 높게되면, 결국 똑같은 결과만 나옴으로 서로 상호 보완적인 모델을 선택하는게 좋은 성능을 낸다. 그렇다면 상호 보완적인 모델을 20개를 결합했다는 건데, 이 부분 정말 0.0001의 정확도를 올리기 위한 노력으로 보여진다.

 

 

2. 결정 트리 계열의 알고리즘은?

- 결정 트리 계열의 대표적인 알고리즘은 RandomForest 이다. 하지만 RandomForest 의 유연성은 정말 좋지만, 성능이 일반적으로 좋지 않다. 오버피팅 되는 경우가 많아서 Robust 한 부분이 취약한 것이다. 그것을 보완한 알고리즘이 "XGBoost" 이며, 학습 속도으로 GPU 를 활용할 수 있고 성능적으로 추가로 개선된 것이 MS 에서 "LightGBM" 만들었다. 둘다 사용해보면, 대체적으로 "LightGBM" 이 잘 나오나, 학습 속도 이슈로 GPU가 없을 경우 "XGBoost" 썼었다.

 

3. 챕터 실습을 하고 싶다면?

https://github.com/rickiepark/handson-gb

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."


https://github.com/rickiepark/handson-gb
 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 0

댓글쓰기
첫 댓글을 작성해주세요.

PRIDE2