콘텐츠 바로가기
본문 바로가기


블로그 전체검색
R을 이용한 데이터 처리&분석 실무

[도서] R을 이용한 데이터 처리&분석 실무

서민구 저

내용 평점 5점

구성 평점 5점


흔히 프로그래밍에 관심이 있는 사람들 또는 현업 종사자라면 '빅데이터'는 큰 이슈이고 실제로 많은 사람이 뛰어드는 분야이다. 학생들 중에서도 이 분야에 종사하고 싶다고 얘기하는 사람들이 많다.


그중에서도 데이터 마이닝이란 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정을 말한다.


흔히 이런 기법은 소비자의 소비행위를 예측, 분석하기위해 실무에서 사용되고 있으며 경영, 통계, 기계학습등으로도 뻗어나간다. 현재 이러한 빅데이터를 가지고 어떻게하면 우리가 원하는 정보만 골라내거나 아니면 상관관계를 통해서 다음 정보를 예측까지 할 수 있을 까 하는 것은 화두다. 연구도 많이 진행되고 있고 이것을 처리하기위한 언어들도 많이 등장하고 있다.


지금 소개하려는 언어는 R이다. 이 책은 R에 대하여 소개를 하고 있으며 기본적으로 C C++ JAVA 또는 그 외의 언어들에대한 기본지식이 있는 사람들이 읽기에 충분한 책이다. 이 책을 읽기위해선 앞의 기본 언어들을 어느정도 습득 후 읽어보는 것을 추천한다.


R에관한 책은 국내에도 몇권 소개되어 있는데 이 책의 특징은 저자의 R습득/활용 과정을 그대로 투영하여 책을 구성했다는 점이다.


책의 추천사를 인용하자면, 실질적인 빅데이터 활용/분석에서 가장 중요한 것은 어떻게 빅데이터를 보고, 어떻게 가설 검증을 세우며, 어떻게 활용 모델을 적용하느냐의 '어떻게'에 관한 것이다.


이러한 능력을 갖추려면 기본적인 프로그래밍 언어의 습득 외에도 다양한 데이터와 분석을 직접 해보면서 답을 찾아나가는 과정을 손쉽게 해볼 수 있어야 한다. 이러한 과정을 손쉽게 해볼 수 있는 언어와 환경을 제공하는 것이 R이다.


또한, 실제 업무에 적용하기 위한 통계 분석, 데이터 마이닝 및 기계 학습에 대한 분석 모델 및 알고리즘을 소개하는 후반부에서도 기본적인 모델/알고리즘을 설명하고 실질적인 실행을 해볼 수 있도록 구성되어 있다.


자칫 지나친 분석 모델/알고리즘에 관한 이론적인 설명의 나열로 그치기 쉬운 부분을 실제 소프트웨어 엔지니어 입장에서 풀어내어 이해해야할 이론과 구현방법을 깔끔하게 소개되어있다.


실제로 이 책은 책 내용의 예제소스를 제공하고 있어 공부하는 데 있어 편리하고 이해를 돕는다. 그리고 데이터 마이닝에 관해 먼저 알고 싶은 분들을 위하여 KDnuggets(http://www.kdnuggets.com)을 들어가보는 것을 추천한다. 데이터 마이닝 관련 유명 전문 사이트로 이 사이트에서 설문조사했을 때 항상 수위를 차지하는 소프트웨어가 바로 R이다.


그렇다면 왜 R인가?? 현업 종사자분들이 아닌 학생분들을 대상으로 한마디만 덧붙이자면 C를 배웠으니 다른 언어를 한번 익혀볼까 하는 차원에서 다음 언어로 R을 선택하는 것은 추천하지 않는다.


다만 분석, 예측, 의사 결정과 같은 토픽에 관심이 있다면 R을 배워보기를 추천한다.


그 이유로 첫째, R이 데이터 분석, 통계 분석, 기계 학습, 시각화에 중점을 둔 특화된 언어이기 때문이다. R은 또한 다양한 패키지를 사용할 수 있으며 이를 이용해 분석이나 예측 문제를 좀 더 쉽게 해결할 수 있다. 그러면서도 프로그래밍 언어이므로 손쉽게 확장이 가능하고 다양한 문제에 적용할 수 있다. 

둘째, R은 공개 소프트웨어로 누구나 자유롭게 이용할 수 있다. 무료로 제공되고 소스 코드가 공개되어 있으므로 기업, 학교, 기관에서 부담 없이 사용할 수 있다.


셋째, R에는 강력한 커뮤니티가 있다. 실제로 이곳에는 많은 패키지들이 공개되어있고 유용하게 사용할수 있는 곳이다.


넷째, 펜과 종이만으로는 할 수 없는 다양한 통계 분석을 직접 눈으로 시각화 해볼 수 있다는 장점이 있다.


R은 또한 요즘 큰 인기를 끌고있는 Hive환경에서도 구동이 가능하다. 그리고 다른 언어와는 다른 강점은 기초부터 발전된 주제까지 포괄한 서적과 문서화 덕분에 이론과 실제를 동시에 배울 수 있는 환경이 가장 잘 갖춰져 있다.


전반적인 책의 내용을 살펴보자면 변수 값 할당시 <-, <<-, =을 사용하거나 함수 호출시 인자 사용에서도 변수이름을 일부만 지정하여도 사용할 수 있다. 기본적으로 R은 데이터타입으로 벡터(vector)타입을 사용하며 스칼라는 길이가 1인 배열을 사용한다고 이해할 수 있다. csv 형태의 데이터파일을 데이터 프레임으로 불러오거나 저장하고 이 책에서는 MySQL과의 연동 또한 다루어 실제 데이터베이스와의 처리 및 가공을 5장에서 다룬다. 그 중에서도 병렬처리 과정과 key를 사용한 빠른 데이터 접근은 인상 깊었다. R을 사용하여 그래프를 그려별 수 있고 통계분석 또한 함수로 구현되어있어 편리하다.

 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 0

댓글쓰기
첫 댓글을 작성해주세요.

PYBLOGWEB3