콘텐츠 바로가기
본문 바로가기


블로그 전체검색
파이썬 머신러닝 판다스 데이터 분석

[도서] 파이썬 머신러닝 판다스 데이터 분석

오승환 저

내용 평점 5점

구성 평점 5점

지금은 빅데이터 시대에 살고 있습니다. 그리고 데이터과학자가 유망한 직종으로 뜨고 있습니다.

데이터 과학자는 데이터를 연구하는 분야이고 데이터를 수집해서 정리하는 일을 합니다. 그중에서 판다스(pandas)가 최적화된 도구라고 보면 됩니다.

특히, Python 프로그래밍 언어로 숫자 테이블 및 시계열 조작을 위한 데이터 구조 및 조작을 제공합니다.

판다스는 내장 그래프 도구를 활용해서 시각적으로 표현할 수 있습니다.

판다스는 Matplotlib(파이썬에서 자료를 차트(chart)나 플롯(plot)으로 시각화(visulaization)하는 패키지) 라이브러리를 통해 간단한 그래프를 손쉽게 그릴 수 있습니다.

line

선그래프

kde

커널 밀도 그래프

bar

수직막대그래프

area

면적 그래프

barh

수평막대그래프

pie

파이 그래프

his

히스토그램

scatter

산점도 그래프

box

박스 플롯

hexbin

고밀도 산점도 그래프

그리고 요즘은 머신러닝 영역 쪽에 분석을 많이 합니다.

인간이 하나부터 열까지 직접 가르치는 것이 아니라, 학습할 거리를 일단 던져놓으면 이걸 가지고 스스로 학습하는 기계를 의미합니다.

예를 들면 주가, 환율 등 경제지표 예측을 해서 미래 대비할수 있는 정책들을 준비한다던지, 비슷한 소비패턴을 가진 고객 유형을 군집으로 묶어서 마케팅에 활용할 수 있는 방법도 생기게 됩니다.

머신러닝 알고리즘 중에서도 비교적 이해하기 쉽고, 널리 활용되는 있는 회귀분석을 많이 이용합니다.

가격,매출,주가,환율,수량 등 연속적인 값을 갖는 연속 변수를 예측하는데 주로 쓰입니다.

우선 데이터 준비를 하고 다음은 데이터에 대한 기본적인 정보를 확인합니다. 데이터의 자료형과 개수를 확인합니다.

다음으로 속성을 선택합니다. 변수로 사용될 후보 열을 선택하며 됩니다.

다음으로 훈련/검증 데이터를 분할합니다. 훈련 데이터와 검증 데이터로 나눠서 모형을 구축합니다.

다음으로 모형 학습 및 검증을 합니다. 그 과정이 마치면 결과값을 볼 수 있습니다.


 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 0

댓글쓰기
첫 댓글을 작성해주세요.

PRIDE1