콘텐츠 바로가기
본문 바로가기


블로그 전체검색
파이썬 라이브러리를 활용한 텍스트 분석

[도서] 파이썬 라이브러리를 활용한 텍스트 분석

젠스 알브레히트,싯다르트 라마찬드란,크리스티안 윙클러 공저/심상진 역

내용 평점 5점

구성 평점 5점

 

NLP 분야는 Transformer 기반의 언어 모델을 필두로 빠르게 발전하고 있는 상태입니다. Hugging face를 비롯해서 온라인으로 공유되는 여러 Transformer 모델과 튜토리얼은 학습자 입장에서 무척 편리합니다. 관련 경험이 별로 없는 사람이더라도, 몇 시간만 투자하면 사전 학습된 언어 모델을 Fine-tuning하여 손쉽게 본인에게 필요한 Task를 수행하는 모델을 구축할 수 있습니다.

 

당장 모델 구축이 필요한 상황이라면 이 책은 그리 큰 도움이 되지 않을 수도 있습니다. 한, 두개의 작업을 진득하게 설명하는 책이 아니기 때문입니다. 대신, 이 책은 보다 폭넓은 수많은 자연어 처리와 텍스트 분석 케이스에 대한 해답과 해결 과정을 제시합니다. 즉, 자연어 처리 전반에 대한 지식과 활용 케이스를 익히고자 하는 학습자에게 큰 도움이 될 수 있는 책입니다.

 

약 100페이지 이상을 할애하여 데이터셋 구축과 관련된 내용을 다루는 점은 특히 인상적이었습니다. 자주 등장하는 웹 스크래핑 라이브러리 뿐만 아니라, Tweepy를 비롯해 다양한 상황에서의 데이터셋 수집과 구축을 위한 라이브러리를 소개하고, 그 외의 대안까지 제시합니다. 이 과정에서 기본적인 전처리 과정까지 다루고 있기에, 5~6장까지 진행하면 학습자는 기본적인 자연어 처리 지식을 습득할 수 있습니다.

 

이후에는 기성 자연어 처리 모델들부터 시작하여, Transformer 모델까지, 일반적인 자연어처리 관련 도서와 비슷한 구성을 취합니다. 하지만 여기서도 분명한 차별점은 존재합니다. 예를 들어, 11장의 텍스트 데이터를 이용한 감성 분석 파트의 경우, 기존 도서 또는 웹 상의 여러 튜토리얼은 상당수가 BERT 등의 모델을 활용하여 Fine-tuning을 통해 손쉽게 감성 분석을 해내는 모델을 구축하는 것을 다룹니다. 하지만 이 책은 케이스 별로 문제를 해결하기 위한 여러 방안을 소개합니다. 

 

해당 파트의 경우, 아마존 고객 리뷰의 감성 분석을 위해, 먼저 어휘집을 사용하는 어휘 기반 감성 분석을 이용합니다. 이후, 더 좋은 성능을 낼 수 있는 지도 학습 접근법으로 SVM을 활용하며, 마지막으로 BERT를 이용한 Fine-tuning 기반의 감성분석 모델을 훈련 시킵니다. 

즉, 주어진 문제를 해결할 수 있는 가장 강력한 방법만을 제시하는 것이 아닌, 기성 방법론까지 제시하면서 독자가 텍스트 분석의 토대를 쌓을 수 있는 콘텐츠를 충분히 제공합니다. 또한, 문제에 따라 시간과 자원이 많이 필요한 딥러닝 모델을 사용하는 것이 반드시 정답은 아닐 수 있기에, 여러 엔지니어링 기법과 방법론을 충실히 제공한다는 점이 무척 마음에 들었습니다.

 

NLP 분야에서 Transformer 모델이 이미 범접할 수 없는 성과를 내고 있기에, 아예 Transformer만을 중점적으로 다루는 책도 다수 등장하고 있습니다. 당장 필요한 SOTA 모델을 학습하는 것도 중요하지만, 이에 못지 않게 기초부터 차근차근 다져가며 관련 지식을 쌓는 것 또한 중요하다고 생각합니다. 이제 막 첫걸음을 떼어 가시는 NLP 학습자 분들, 혹은 저처럼 NLP의 기본기를 다져가며 한층 더 관련 지식을 확장할 필요성을 느끼는 기존 학습자 분들 모두에게 추천 드릴만한 좋은 교재인 것 같습니다.

 

 

본 리뷰는 한빛미디어의 도서 서평단 <나는 리뷰어다 2022> 프로그램의 일환으로, 무상으로 도서를 증정 받고 작성된 리뷰임을 고지합니다.

 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 0

댓글쓰기
첫 댓글을 작성해주세요.

PRIDE1