콘텐츠 바로가기
본문 바로가기


블로그 전체검색
데이터 사이언티스트 실전 노트

[도서] 데이터 사이언티스트 실전 노트

이지영 저

내용 평점 4점

구성 평점 4점

 

데이터 활용이 화두다. 과거 기업의 의사결정 방식은 소수의 엘리트에 의존했다. 산업화 시대의 핵심 전략은 생산성 향상과 원가 절감에 있었지만 정보화 시대를 맞이하면서 데이터 활용을 통한 개별화된 맞춤 서비스도 가능해지고 있다. 빅데이터에 대한 관심이 지속 증가하고 있지만 데이터 사이언티스트(Data Scientist) 직업은 여전히 블루오션이다. 

 

 

블루오션 (Blue Ocean Strategy)

차별화와 저비용을 통해 경쟁이 없는 새로운 시장 혹은 그것을 창출하려는 경영전략

 

데이터 활용은 IT기업에만 국한된 것이 아니라 전방위적으로 확산되고 있지만 여전히 그 잠재력은 크다. 이에 문과 출신에서 이과로 전향해 데이터 사이언티스트로 일하는 경험을 바탕으로 데이터 분야의 맥을 짚고 데이터를 어떻게 활용하면 될지, 더 나아가 데이터 전문가가 되기 위한 노하우를 알려주는 책이 눈길을 끈다.

 

데이터가 돈이다.

디지털 신호인 데이터가 자산이 될 수 있다는 말이 이제는 낯설지만은 않다. 어느새 데이터는 석유 못지않은 돈이 되었다. 2016년 4차 산업혁명이 화두가 되고 같은 해 알파고(AlphaGo)와 이세돌의 바둑 대결은 데이터 인식에 대한 전환점이 됐다. IT기업들의 급성장은 현실이다.

실리콘밸리의 빅테크 기업은 계속 성장 중이다. 출처=trtworld

 

부익부 빈익빈의 가속화 : 빅테크 기업 전성시대 

코로나 팬데믹 시기에도 미국 주요 기업의 매출은 여전히 급증 추세다. 월가 자료에 따르면 애플의 2분기 매출은 전년 동기 대비 36% 성장한 약 814억 달러(약 94조 원), 알파벳은 61.6% 증가한 약 619억 달러(약 71조 원), MS는 21% 증가한 약 462억 달러(약 53조 원), 페이스북은 56% 늘어난 약 291억 달러(약 34조 원)를 기록했다. 

 

덩치가 커지면 매출 증가 속도가 줄어드는 것이 이른바 ‘굴뚝 산업’의 전형적 현상이지만, 플랫폼 기업들에게는 이런 현상도 나타나지 않는다. 올해 초 국제통화기금(IMF)이 금년도 세계경제 성장률을 낮췄지만 분기 이익액만 수십 조원을 훌쩍 뛰어넘으니 실리콘밸리의 질주는 각종 전망들을 비웃는 듯하다.

 

필자가 처음 빅데이터에 관심을 둔 것은 10년 전 대학교수의 여담에서였다. “요즘 빅데이터가 뜬다는 데 거기에 한 번 매진해 봐야겠어요.” 교수라는 직업 특성상 향후 연구 과제를 빅데이터로 정했다로만 받아들였다. 그 말을 듣던 당시 필자의 첫 반응은 ‘빅데이터란 말이 나온 지가 언젠데 이제 연구한다고?’였다. 지금 생각해 보면 참 어처구니없는 것 같다. 필자도 그때 관심을 넘어 매진했다면 하는 아쉬움을 떠올리기도 했다. 

 

데이터가 중요하다는 것은 알지만 어떻게 활용해야 할지 모르는 분들을 위한 책이 있다. <데이터 사이언티스트 실전 노트>는 해당 직군의 실제 업무를 알려주고, 데이터 사이언티스트가 되기 위한 필수 역량을 체크리스트로 알려준다. 현업에서 일어나는 실제 상황 속, 데이터 사이언티스트의 관점에서 해결 방법을 알려준다. 현실 직장 생활을 위한 매력적인 포트폴리오 작성법과 데이터 분석을 위한 기초 파이썬과 기본 통계 지식까지 알려주는 것이 이 책의 장점이다. 

데이터를 다루고 있다. 출처=픽사베이

 

당신은 데이터를 다룰 수 있는가?

이 책은 실제 현업에서 데이터 부석 단계마다 마주하는 문제를 사례로 해결해 가는 프로세스를 제공한다. 어떻게 코드로 구현할 것인지, 시각화할 것인지 과정 전부를 보여주며 데이터 사이언스에 대한 인기가 높아지는 만큼 적절한 난이도로 공급과 수요의 접점을 잡았다고 생각한다. 

 

수학과 통계의 구분과 같은 기초 지식뿐 아니라 내게 필요한 데이터 유형을 선택하는 법과 같은 실무 적용 가능한 노하우를 알려준다. 또 데이터에서 확인해야 할 데이터의 크기(Size), 결측치(Missing Value), 중복 데이터나 식별키에 대한 기본 지식과 직장에서 데이터 사이언티스트로서 업무 정의가 모호할 때 대처법, 업무를 제대로 이해하는 방법, 올바른 방향성을 위한 원칙 등을 짚고 넘어간다. 그래서 함정에 빠지지 않도록 도움받을 수 있다. 

 

이 지점에서 이렇게 친절한 책이 출간됐는지 필자도 궁금했다. 이지영 저자는 이화여자대학교 언론정보학과를 졸업하고 외국계 홍보 회사에서 근무했다. 데이터를 다루고 싶은 열망으로 캐나다에서 다시 응용통계학을 공부한 후, 요크 대학교에서 응용통계학 석사 과정을 거친 후 현재는 토론토에서 데이터 과학자로 일하고 있다고 한다. ‘Data Scientist 이지영’ 유튜브 채널도 운영하며 문과 출신에서 이과로 전향한 경험을 공유한다. 선도자 역할을 하는 셈이다.

데이터 사이언티스트는 장밋빛 전망이다

 

스포츠는 산업이다. ⓒ whoisdenilo, 출처 Unsplash

 

몸값이 1,000억 원이 넘는 비결은?

데이터를 활용은 스포츠 영역에도 뻗치고 있다. 스포츠 매체 스포티비 뉴스의 지난 14일 기사에 따르면 선수 컨디션 관리와 부상 방지를 넘어서 스카우팅, 연봉 협상, 전술 분석 등 데이터가 축구에 미치는 영향이 대대적으로 커지고 있다. 측위 기술의 발달로 대량의 스포츠 데이터 수집이 가능해지면서 '축구 분석'의 영역이 훨씬 넓어졌다. 데이터를 기반으로 선수 피지컬을 관리하고, 경기에서의 퍼포먼스를 평가하고, 전술적 인사이트를 제공하는 것이 가능해지게 된 것이다.

 

데이터 기업 핏투게더(Fittogether)에서 데이터 사이언스팀을 이끄는 김현성 팀장은 "축구계 데이터 바람은 이제 시작"이라면서 “원래 세계적으로 데이터 사이언티스트를 보유한 축구 구단이 거의 없었지만 최근 방대한 스포츠 데이터 수집으로 수학이나 물리학, 컴퓨터 사이언스를 전공한 비스포츠인 출신 연구원들이 스포츠 구단에 데이터 분석 직무로 영입되기 시작했다”라고 말했다.

경기 중 전술 변화를 자동으로 검출하는 핏투게더의 알고리즘 출처=핏투게더

 

또 그는 "요즘 톱 레벨 구단은 크게 세 가지 방식으로 데이터 기반 의사결정을 진행한다"면서 "첫째는 선수들 운동 부하를 수집해 개별적으로 컨디션을 관리하고 부상을 방지하는 데에 데이터를 활용하는 것이다”라고 밝혔다. 김 팀장은 “선수가 특정 액션을 통해서 득점 확률을 얼마나 증가시켰는지, 또는 피지컬적으로 얼마나 폭발적으로 움직였는지 등을 고도화된 지표로 산출하여 선수 평가 요소로 활용한다”면서 “마지막으로는 여러 선수 움직임을 동시에 분석해서 이들이 상호작용하는 패턴으로부터 전술을 검출하고, 팀과 선수가 전술적으로 적절하게 움직였는지를 판단의 근거로 삼는다”라고 덧붙였다. 

슈퍼스타 몸값은 진작 1,000억원을 돌파했다. ⓒ giorgiotrovato, 출처 Unsplash

 

축구는 세계 최고 인기 스포츠다. 노쇼를 선보인 호날두(Ronaldo)와 같은 스타플레이어 이적료가 1,000억 원을 넘기며 시장 규모는 지속적으로 상승하고 있다. 국제축구연맹(FIFA) 산하 국제스포츠연구소(CIES)가 6일(현지시각)에 따르면 2022년 기준 전 세계에서 가장 이적료가 높은 선수는 킬리안 음바페(파리 생제르맹)로 2억 560만 유로(약 2,759억 원)에 달했다. 2위는 레알 마드리드(스페인)의 비니시우스 주니오르로 1억 8,530만 유로(약 2,487억 원)다. 3위는 엘링 홀란드(맨체스터 시티)는 1억 5,260만 유로를 차지했다. 손흥민과 해리 케인은 각각 88위, 31위를 차지했다. 

 

케빈 더브라위너(맨체스터 시티)는 에이전트가 아닌 데이터 사이언티스트 도움을 받아 지난해 4월 맨시티와 재계약해 잉글랜드 프리미어리그(EPL) 최고 주급자에 올라섰다. 수당을 포함한 최대 주급이 46만 2000유로(약 6억 2000만 원)에 달한다. 연봉으로 환산하면 300억 원이 넘는다.

당신의 방향성은 미래 먹거리로 향했나? 출처=픽사베이

 

또 정부 주도의 대응책도 화두다. ‘디지털 플랫폼’ 강국이라는 정부의 미래산업 집중화 노력에 부응할 수 있도록 이를 담당할 전문 인력을 양성에 애쓰고 있다. 인공지능(AI) 기반 4차 산업 직무훈련과 현업에서의 구인난 해소에 도움이 되는 전문 영역의 일자리 매칭 성과를 만들어내는 것을 과제로 한다. 특히 AI 및 데이터 사이언스 분야 전문가 양성으로 데이터 융합 이슈에 강한 소통 역량을 겸비한 인재를 계속해서 지원하고 있다. 

 

팬데믹 때의 유동성 대잔치를 끝내고 인플레이션을 잡기 위해 곳간을 닫을 수밖에 없는 현실이지만 미래 산업에 대해서는 투자 명목으로 선택과 집중할 수밖에 없다. 향후 몇 년간 전통 산업 지원은 대거 축소되고 미래 먹거리에 몰아줄 것으로 쉽게 예상된다. 

 

당신은 데이터를 다룰 수 있는가? 데이터를 다루도록 참고서 역할을 하는 본 책을 강하게 권한다.

 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 0

댓글쓰기
첫 댓글을 작성해주세요.

PRIDE1