콘텐츠 바로가기
본문 바로가기


블로그 전체검색
캐글 메달리스트가 알려주는 캐글 노하우

[도서] 캐글 메달리스트가 알려주는 캐글 노하우

김태진,권순환,김연민,김현우,명대우,안수빈,이유한,정성훈 저

내용 평점 5점

구성 평점 5점


 

책내용을 읽기에 앞서 캐글 홈피에 들어가서 현재 진행중인 것중의 최고액이 걸린 캐글 경진대회를 보니

google에서 종료를 얼마 남기지 않은 경진대회가 20만 달러다.

 

* 이글 작성 몇주후 대회 종료이후 최종 순위를 보니 금매달 리스트 중 3명이 한국인이고

이중 한명은 최종 2위 였다

 

환산해보니 2.6억 ? ㅎ 대단하다.

뭐 로또 1등 액수보단 현재 걸린 최고액이 작긴하지만...

 


더 자세히 보니 1등은 10만달러 즉,

1.3억 정도 된다...

그래도 어딘가...

 

이책은 


 

책 제목이 너무 자세히 써있어 설명않해도 될듯

8명이 공저한책이다.


 

쟁쟁한듯.

1장에선 캐글의 기본에 대해서 자세히 소개 한다

이렇게 자세히 소개한 책은 처음인듯 하다

그림에서 처럼 친절하다



다른 캐글책에선 본적이 없는 위 같은 꿀팁도 있다 

꿀팁이 상당히 많다.


 

위같은 것은 직접해보지 않으면 알수 없는 중요한 정보다.


 

전반적으로 가장 큰 그림이다 이책에서

캐글링을 크게 어떻게 진행해야 되는지


EDA 에 대해 설명하는데

문제의 근간인 데이타를 어떻게 어떤 방식으로 바라보고 특성을 분석해야 되는지 설명하고 있다


초보 캐글러 팁중 정말 중요한 팁을 정리해주었다.

경험에서 우러나온 액기스 인듯


위의 내용은 노트북을 생성하더라도 여러 방법중 제일 효과적인 방법을 추천해준다.


웹에디터 방식으로 진행 되기 때문에 제약사항이 있는데 저렇게 

유용한 꿀팁을... 쉽게 이해 할수 있게 요약 정리 설명해준다.


서버에 있는 스펙의 사용상 제약을 표로 깔~!끔히 정리 설명해준다.


계정을 여러개 사용하는것도 않되며


위처럼 금지된 사항에 대해서 효과적인 해결책을 알려주기도 합니다.


이책의 저자들은 액스퍼트 부터 그랜드 마스터까지 있다. 대부분 컴피티션 부분이며

노트북 그랜드 마스터가 마지막 8장에서 노트북 작성 팁을 알려준다.

 

2장부터 7장까지는 솔루션 장으로 실제 캐글 컴피티션을 소개한다.

 

여러장중 2장을 보면

2장은 컴피티션 마스터가  총상금 5000달러 의  컴피티션으로 캐글이 code completion 을 적용전에 대회가 원활히 진행되는데 테스트 하고 참가자들의 피드백을 얻기 위한것으로

캐글이 2단계 컴피티션을 방식을 도입 추진하면서 

공개 테스트 셋, 두번째 단계 비공개 테스트셋 점수 계산 순위 결정을 하는데 

이 시스템이 괜찮은지 시험하기 위한 컴피티션으로 

아래와 같은 데이타가 주어졌다.

열의 의미가 익명이고  이것을 분석하여

비공개 테스트 셋을 올바르게 이진 분류 해내는 컴피티션이다.


김연민 컴피티션 마스터의 캐글 해법 절차는 위와 같다.

참고로 위에서 나온 여러 용어들에 대해선 별도 설명이 없다.

 

주어진 데이타를 보고 어떤 기준으로 분류 되었는지 규칙을 찾아 내기 위햇

데이타의 특성을 분석해야 되는데

훈련, 테스트 데이터 개수, 정답 값의 비율등을 확인하고

훈련데이타가 골고루 분포하는지도 아래와 같이 그래프로 확인해본다.


 Null 항목별로 얼마나 존재하는지 , 존재 하지 않더라도 특정 값이 몰려 있는지, 왜냐면 null을 특정값으로

대체 했을수 있다는 가정하에, 

데이타가 범주형 변수 인지, 수치형 변수 형인지 확인해보고

 

판다스 함수를 활용하여 각 항목별로 고유 값 개수를 확인해본다 던지...


판다스의 함수를 이용하여 그림으로 아래와 같이 이상치가 분포하는지 등을 분석해본다.

또는 히스토그램을 활용하여 정답값에 따른 분포 달라지는 열을 확인하기도 한다.

 


이 캐글러의 EDA 과정을 위처럼 요약 해준다.

 

1장은 캐글 공통부분 기초를 상세한 꿀팁과 함께 설명하고

2장~7장은  컴피티션별 각각의 저자들이 자기의 노하우를 설명하고 있다

특히 7장의 경우엔 Tensor  Process Unit 을 활용한 컴피티션 내용도 있다.

8장은 캐글 노트북 작성을 위한 팁을 설명하고있다

영상데이타, 도메인데이타, 텍스트 데이타등 다양한 데이타를 다루는 컴피티션으로 구성되어 있다.

 

때로는 큰 데이타 파일이 잇는 경우도 있어 캐글 노트북에서 실행이 어려워 

코드를 깃허브에 공개하는 경우도 있고

파이토치로 진행하는 컴피티션도 있다.

사정상 솔루션을 코드파일로 제공하지 못하는 경우도 있다.

 

이책은 파이썬 코딩은 기본이고

나아가

Pandas, Numpy, 

Matplotlib, Seaborn, Plotnine,

및 딥러닝, 머신러닝 프레임 워크인

Pytorch, Tensorflow, Scikit-learn 등을 알고 있어야 됩니다.

 

예제는 캐글 노트북과 깃허브를 통해 제공하고 있다.

 

어느정도 캐글의 기초를 학습하신 분들중

다른 고수들은 어떻게 캐글을 해결했는지 기출문제 해설집 처럼

해결 노하우를 배우고 싶은, 좀더 깊이 들어 가고 싶은 분들에게 유용할듯 하다.

 

 

 

 <YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.> 

 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 0

댓글쓰기
첫 댓글을 작성해주세요.

PYBLOGWEB3