현시대는 오픈 AI의 ChatGPT가 인공지능 기술에 대한 대중의 이해도를 높이면서, 기업들은 물론 일반인들도 인공지능에 관심을 가지게 되었습니다. 그동안 인공지능이란 컴퓨터 과학자나 데이터 과학자의 특정한 전유물로만 여겨졌지만, 이제는 초등학생까지도 ChatGPT를 사용할 만큼 인공지능이 더욱더 친숙해졌습니다. 데이터 과학이란 비즈니스에 대한 의미 있는 인사이트를 추출하기 위한 데이터 연구로서, 수학, 통계, 인공 지능 및 컴퓨터 공학 분야의 원칙과 사례를 결합하여 대량의 데이터를 분석하는 종합적인 접근 방식입니다. 이 분석은 데이터 과학자가 무슨 일이 일어났는지, 왜 그런 일이 일어났는지, 무슨 일이 일어날지, 결과로 무엇을 할 수 있는지와 같은 질문을 하고 답하는 데 도움이 됩니다. 이 중 AWS는 클라우드의 표준을 이끌어가고 있는 제품으로 자체로 글로벌 규정을 철저하게 준수하는 보안기준을 가지고 있고 각각의 분야에 전문인력이 배치되어 있어 네트워크, 데이터베이스, 보안에 관해서 부담이 적으며 한국어 지원이 가능하고 사용자의 목적에 필요한 서비스만 골라서 사용이 가능하므로 기업 및 개인적으로 학습하기에도 매우 유용하게 사용되고 있는데 이 책에서는 이러한 AWS 클라우드에서 제공하는 세이지메이커를 활용하여 데이터 과학을 다룹니다.
제가 이 책을 선택한 이유는 AWS 기반의 AI와 ML을 구현하기 위한 데이터 과학부터 자연어 처리, AutoML, 데이터 스트리밍 분석까지 현장에서 세이지메이커를 바로 적용할 수 있도록 도와주며 보안, 데이터 엔지니어링, 모니터링, CI/CD, 비용 관리와 같은 프로덕션에서 데이터 과학을 제공하는데 필요한 아키텍처 개념을 자세히 설명합니다. 또한 데이터 과학의 가장 최신 기술인 트랜스포머 아키텍처, AutoML, 온라인 학습, 지식 종류, 컴파일, 베이지안 모델 튜닝, 밴딧과 같은 고급 개념도 포함하고 있기 때문입니다.
이 책의 특성은 데이터 수집 및 처리, 머신러닝, 배포 등의 과정을 상세하게 다루며, AWS 서비스와 도구에 대한 명확한 설명과 실용적인 예제, 모델 훈련 및 배포, 보안, 해석 가능성, MLOps 등을 포함한 모델 생성의 모범 사례를 제공하고, AWS에서 데이터 과학 프로젝트의 비용을 절감하고 성능을 향상하는 팁, 아마존 AI와 ML 스택의 실용적인 활용법과 함께 풍부한 실제 사례가 제공되며 이러한 실제 사례를 바탕으로 자연어 처리, 컴퓨터 비전, 사기 탐지, 대화형 디바이스 등 이를 다양하게 적용해볼 수 있다는 점입니다.
구성
Chapter 1: AWS 기반 데이터 과학 소개
Chapter 2: 데이터 과학의 모범 사례
Chapter 3: AutoML
Chapter 4: 클라우드로 데이터 수집하기
Chapter 5: 데이터셋 탐색하기
Chapter 6: 모델 훈련을 위한 데이터셋 준비
Chapter 7: 나의 첫 모델 훈련시키기
Chapter 8: 대규모 모델 훈련과 최적화 전략
Chapter 9: 프로덕션에 모델 배포하기
Chapter 10: 파이프라인과 MLOps
Chapter 11: 스트리밍 데이터 분석과 머신러닝
Chapter 12: AWS 보안
파트별로 나누어 봤을때 1장은 광범위하고 심층적인 아마존 AI와 ML 스택, 굉장히 파워풀하고 다양한 서비스, 오픈 소스 라이브러리 그리고 인프라를 데이터 과학 프로젝트에 접목시키는 방법에 대해 설명하고 있고, 2장은 추천 시스템, 컴퓨터 비전, 사기 탐지, 자연어 이해(NLU), 대화형 디바이스, 인지 검색, 고객 지원, 산업 예측 유지 관리, 홈 자동화, 사물 인터넷(IoT), 의료, 양자 컴퓨팅 등의 실제 사용 사례에 아마존 AI, ML 스택을 적용하는 방법에 대해, 3장은 세이지메이커 오토파일럿의 AutoML을 사용해서 구현하는 방법에 대해, 4~9장은 데이터 수집 및 분석, 피처 선택 및 엔지니어링, 모델 훈련 및 튜닝, 아마존 세이지메이커, 아마존 아테나, 아마존 레드시프트, 아마존 일래스틱 맵리듀스, 텐서플로우 파이토치, 서버리스 아파치 스파크를 활용한 모델 배포와 BERT 기반 자연어 처이(NLP)의 전체 모델 개발 라이프 사이클에 대해, 10장은 세이지메이커 파이프라인, 큐브플로우 파이프라인, 아파치 에어플로우, MLflow, TFX와 함께 MLOps를 사용해 모든 것을 반복 가능한 파이프라인으로 통합하는 방법에 대해, 11장은 아마존 키네시스와 아파치 카프카를 사용해 실시간 데이터 스트림에 대한 실시간 머신러닝, 이상 감지와 스트리밍 분석에 대해, 12장은 AWS IAM, 인증, 권한 부여, 네트워크 격리, 미사용 데이터 암호화, 전송 중 양자 내성 네트워크 암호화, 거버넌스, 감사 가능성을 포함하여 데이터 과학 프로젝트와 워크플로우에 대한 포괄적인 보안 모범 사례에 대해 설명하고 있습니다.
개인적인 생각으로 학습은 데이터 분석가, 데이터 과학자, 데이터 엔지니어, 머신러닝 엔지니어, 연구자, 애플리케이션 개발자, 데브옵스 엔지니어로 취업 및 이직을 희망하시는 분들께서는 우선 클라우드 컴퓨팅의 기본 개념, 파이썬, R, 자바, 스칼라, SQL를 사용한 프로그래밍 기본 기술, 주피터 노트북, 판다스, 넘파이, 사이킷런과 같은 데이터 과학 도구 사용 지식에 대해 학습하신 다음에 1장부터 시작하시면 좋을 것 같고 어느정도 경험이 있으신 분들(데이터 과학자 및 분석가, 엔지니어 2년차~ 또는 개발자 2년차~)부터는 1장은 쭉 훓으시면서 아마존 AI와 ML 스택 및 오픈 소스 라이브러리와 인프라를 데이터 과학 프로젝트에 접목시키는 방법에 대해 파악한다는 방식으로 보시고 2장부터 학습하시는 것이 좋을것 같습니다.
개인적으로 약간의 단점이 어쩌면 욕심일수도 있는게 좀더 많은 실습 예제 및 비즈니스 케이스가 담겨있으면 더 좋았지 않았을까라는 아쉬움이 있습니다.
저의 리뷰를 읽어주셔서 감사합니다. 다음에는 좀더 유용하고 좋은 책으로 더 나은 리뷰를 통해 여러분께 책을 소개시켜드릴 수 있도록 더 노력하겠습니다.
감사합니다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."