콘텐츠 바로가기
본문 바로가기


블로그 전체검색
파이썬으로 웹 크롤러 만들기

[도서] 파이썬으로 웹 크롤러 만들기

라이언 미첼 저/한선용 역

내용 평점 5점

구성 평점 5점

[나의 한줄 추천사]

웹에서 실시간으로 정보 수집 / 변경되는 부분을 자동으로 찾고자 할때 필요한 기술이 바로 웹 스크래핑이다. 웹 스크래핑을 제대로 알고 싶으면 이 책을 보라.

[책 추천 이유]

웹 스크래핑 관련 내용들을 A-Z 까지 잘 정리된 책이다. 이 책 한권이면 궁금한 내용들을 다 해소할 수 있다.

[내가 찾고자 했던 질문과 대답들]

1.내가 찾고자 하는 부분을 모를 경우 전체 웹 사이트에 대한 "웹 크롤링" 가능한가?

    - '케빈 베이컨의 여섯다리' 이론으로 연결된 링크를 통해서 무작위 검색을 통해서 해당 웹사이트의 내용들을 크롤링이 가능하다.

2.웹 크롤링은 법적으로 문제가 없는가?

    - robots.txt 파일을 정의된 부분으로 데이터 수집시 문제가 없다. 크롤링은 구글에서 검색엔진 데이터베이스로 사용하는 기본 기술이기 때문에 문제가 있다면 검색 사이트 자체가 문제가 되는 것이다.

 

3.웹 크롤링하다가 막힌다면?

    - 사람처럼 보이게끔 하는 "크롤링 체크리스트" 통해서 문제점을 확인 할 수 있다. 가령 사람처럼 액션을 취할때 딜레이가 있는데 딜레이 방법 또한 time.sleep(3) 방법으로 흉내내는 것이다.

4.샘플 코드로 코딩하고 싶다면?

    - https://github.com/REMitchell/python-scraping


https://github.com/REMitchell/python-scraping
 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 0

댓글쓰기
첫 댓글을 작성해주세요.

PRIDE1