콘텐츠 바로가기
본문 바로가기


블로그 전체검색
잡아라! 텍스트 마이닝 with 파이썬

[도서] 잡아라! 텍스트 마이닝 with 파이썬

서대호 저

내용 평점 3점

구성 평점 3점


"텍스트 마이닝"이란 무엇이고 전체적으로 어떤 일을 어떻게 하는 지를 알아보기 위한 책이다. 작은 도서 판형에 200페이지 정도 되는 두께와 최소한의 편집, 그리고 인터넷 할인가 1.5만원이라는 가격대 역시 이 목적에 부합한다. 


내용을 살펴보면, 매우 상세하고 친절해 보이는 목차와는 달리, 본문은 전개가 상당히 빠르다. 대학교 강의자료와 비슷한 느낌이다. 


1장에서는 텍스트 마이닝이 무엇을 하는 것인지 간략하게 정의한다. 


2장은 파이썬 설치 및 pandas, numpy 라이브러리에 대한 기초 설명이 나온다. 정말 간단하다. 다 합쳐서 20페이지다. 


3장은 텍스트 데이터를 정리하는 방법이다. 즉 정규 표현식, 사전 처리, 품사 분석 등을 알려준다. 핵심만 나와있는 부분이 오히려 좋았다. 


4장에서는 텍스트 마이닝을 직접 수행해본다. 빈도 분석, 군집 분석, 토픽 모델링, 감성 분석, 연관어 분석 등을 맛볼 수 있다. 약 100페이지 정도인데 소스코드에 대한 설명이 상세하지는 않다. "17~19줄까지는 감성사전을 이용하는 내용이다."와 같은 식이다. 파이썬 기초, 혹은 최소한 다른 프로그래밍 언어를 하나라도 아는 사람만 무리 없이 이해할 수 있을 것 같다. 2~3장에 소개된 대부분의 파이썬 기초 및 관련 라이브러리 활용법을 독자가 대충이라도 미리 알고 있어야 한다는 이야기다. 


5장~6장은 실전 예제로 트위터와 소셜커머스 후기를 수집해서 앞에서 배운 텍스트 마이닝 기법을 적용해본다. 


개인적으로는 파이썬을 어느 정도 알면서 텍스트 마이닝이란 분야가 궁금했었기에 상당히 재미있게 읽었다. 설명과 내용에 군더더기가 없고 책이 가벼워서 부담이 없었다. 


예제 데이터와 코드도 깃헙에서 다운 받아서 실행해볼 수 있었다.  장별로  예제파일 정리도 안 되어있고, 소스도 좀 미묘한 상태라 이런 저런 수정을 해야 했지만 말이다. 


위와 같은 이유로 이 책은 파이썬과 데이터 과학 관련 라이브러리에 친숙하지 않은 초보자들이 도전하기에는 쉽지 않을 것으로 예상된다. 그렇지만 파이썬 유저이면서 가볍게 텍스트 마이닝을 접해보고 싶은 사람들에게는 추천할만한 도서이다. 



 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 0

댓글쓰기
첫 댓글을 작성해주세요.

PRIDE1