명불허전 서가명강 시리즈라는 것. 더이상 설명이 필요없겠지요. 그럼 바로 리뷰로 들어가겠습니다. 참 앞으로 변화할 세상에 대해 현재의 모습과 미래 예측을 이 책에서 읽을 수 있습니다. 고객이자 생산자인 독자와 밀접한 관계가 있겠지요.
사람과 사람 사이의 관계도 숫자 데이터가 된다. 우리에겐 가족과 직장 동료와 친구들이 있다. 그리고 친구들 중에는 아주 가까운 친구부터 약간 가까운 친구, 가끔 만나는 친구가 있다. 그런데 두 사람 사이가 얼마나 가까운지는 추상적이며 애매하다. 나의 머릿속에만 어렴풋이 존재하는 것이다. 그것이 지금은 숫자로 데이터화된다. 전화, 문자, 친구 맺기, 팔로잉 덕분이다. 이들 기기나 서비스를 통해 얼마나 자주 교류하는가에 따라 관계의 강도를 객관적으로 측정할 수 있다.
만약 한 번도 만난 적 없고 이야기한 적도 없고 통화한 적도 없다면, 둘 사이의 연결은 없다. ...... 이제는 수 억 명의 정량화된 관계를 가지고 연구할 수 있게 되었다.
인간관계가 넓은 소위 마당발들은 실제로 소셜미디어상에서 수 백, 수 천 명 정도의 사람과 소통한다는 것을 확인할 수 있다. 인플루언서란 소셜미디어상에서 팔로어 수가 많은 이들을 지칭하는데, 각자의 영향력도 숫자로 표시되므로 이들에 대한 순위도 매길 수 있다. 32쪽
빅데이터 -------------> 인사이트 ------------> 가치 value 분석 액션 데이터 사이언티스트 의사결정자 애널리틱스 AI 통계 시각화 등 엔지니어 마케터 투자자 인사담당자 43쪽
|
이제 우리는 새로운 관점을 가져야 한다. 양, 속도, 다양성의 관점이 아닌 비즈니스적인 관점에서 빅데이터를 볼 필요가 있다. 기업에서는 빅 데이터로 어떻게 새로운 사업을 만들고, 고객과 소통하고, 매출을 늘리고, 비용을 줄이며, 직원들을 적재적소에 배치하고, 리스크를 최소화할지 깊이 고민해야 한다. 그리고 공공기관은 어떻게 국민들의 마음을 읽고, 비용 대비 효과가 높은 고효율 정책을 시행할 수 있을지 생각해야 한다. 42쪽
엔지니어나 마케터나 현장에서 10년, 20년 일하면 실전 경험까지 생겨 이를 통해 높은 수준의 인사이트를 갖게 된다. 게다가 이들 가운데에는 남에게 없는 특별한 감 inspiration을 가지고 있는 사람들이 있다. 이 또한 인사이트의 중요한 소스다. 종합해보면 데이터는 전문가들의 이론적 이해, 경험 및 노하우, 그리고 감에 끼어드는 셈이다.
그전까지는 지금과 달리 고추가 없는 백김치만 존재했다. 우리 김치의 오랜 역사에서 빨갛게 매운 김치를 먹은 것은 정말 최근의 일인 것이다. 그러나 이제는 김치 하면 고추를 연상할 정도로 가장 중요한 요소가 되었다. 이 또한 데이터 기반의 인사이트라 할 수 있는 것이다.
인사이트의 특징
1. 객관적이다. ... 최고 수준의 전문가들도 각자의 경험이 조금씩 달라서 주관적인 인사이트를 가지고 있다는 것이다. 기존 인사이트 소스에 데이터가 더해짐으로써 인사이트의 품질이 좋아질 수 있다.
2. 대상의 개인화가 가능하다. 센서를 통해 엔진 내부의 상태를 데이터화하거나 몸속의 상태를 데이터와할 수 있다면 개인화된 서비스가 가능해진다.
3. 24시간 연속적 모니터링이 가능하다. 빅데이터로 만든 인사이트 기계는 365일 24시간 1초도 쉬거나 한눈팔지 않는다. 카드 결제의 내역 전수에 대해 사기 frud 거래 가능성 점수를 계산할 수 있는 것이다.
결국 데이터 기반의 인사이트는 기존 방법 기반의 인사이트에 비해 품질이 더 좋다는 것이다. 요리의 품질이 향상 되어서 그것을 먹은 고객의 만족도가 더 높아지는 것처럼 말이다. 48-51쪽
무슨 일이 왜 어떤 일이 우린 무엇을 일어났는가? 일어났는가? 일어날 것인가? 해야 하는가? 묘사 분석 진단분석 예측분석 처방분석
<IT 분야 컨설팅 회사 가트너의 분석 가치 에스컬레이터> 52쪽
|
아마존은 세계 최고 수준의 추천 엔진을 보유하고 있다. 전체 매출의 무려 40퍼센트가 추천에 의해서 발생한다. 실제로 추천을 받아본 사용자들이라면 얼마나 정확히 나의 필요에 맞추어져 있는지 공감할 것이다. 또한 특정 기계 장비가 고장 날 가능성이 얼마나 되는지도 축적된 과거 데이터를 가지고 예측할 수 있다. 58쪽
빅데이터와 인공지능은 어떤 관계인가? 빅데이터를 분석하는 애널리틱스의 핵심 방법론이 인공지능이다. 즉 빅 데이터는 재료이고, 인공지능은 조리법이다. 데이터 입장에서는 인공지능이 자신을 인사이트로 만들어주는 행위이자 절차이고, 인공지능 입장에서 빅데이터는 학습의 재료다. 재료가 없으면 조리 자체가 안 되기 때문에 인공지능을 구현하려면 반드시 확보되어야 하는 것이 빅 데이터다.
61쪽
최근에는 코딩 없이 클릭과 드래그로만 분석할 수 있는 소프트웨어들이 등장하여 한 달 정도 교육받으면 문과 출신들도 빅데이터 분석을 할 수 잇게 되었다. 컴퓨터처럼 빅데이터 분석도 전문가들의 영역에서 일반인들의 영역으로 들어올 것이다. 71쪽
|
소비자의 목소리는 소셜미디어에서 들을 것
_ 신제품이 나오자마자 곧바로 구매한 소비자들이 자발적으로 서로 간에 정보를 난누다. ... 아주 구체적인 사용 후기를 자신의 소셜미더어에 올린다. 해당 기업에는 알리지도 않는다.
해당 기업은 누구보다 먼저 소비자의 목소리를 듣기 위해 온라인에 접속하고 사용자 평을 체계적으로 분석해야 한다. 83쪽
_ 우리는 이 회사가 생산하는 오븐에 맞는 레시피를 인터넷에 올릴 것을 제안했다. 전자오븐을 인터넷에 연결하면 내가 레시피 사이트에서 고른 치즈케이크의 조리 세팅이 내 오븐으로 자동적으로 옮겨지게 할 수 있다. 스마트한 가전이란 이런 것이라고 생각한다. 86쪽
소비자의 관심은 제품이 아닌 서비스 87쪽
이 부분은 인사이트가 크지 싶습니다. 앞으로 자동차나 에어컨 실외기 대신 이동 서비스나 온도 조절 서비스에 모바일로 가입할 것이라는 예측이 무게감이 있다고 판단하고 동의했습니다. 생각을 바꿔야 고객을 잡을 수 있지요.
전문가는 포도 수확 후 6개월 정도 지나 어느 정도 와인이 숙성되어야만 맛을 볼 수 있지만, 공식은 수확하는 그 해 가을에 모든 값이 나오므로 6개월 먼저 품질에 대해 예측할 수 있다. 97쪽
재작업 제로는 데이터의 힘으로 99쪽
이제 농산물 도매업을 하려한다면 기후예측 데이터를 사야한다는 것은 다들 알고 있는 사항입니다. 기후를 알면 배추에 투자할 지 양파에 투자할 지 답을 알 수 있게 되니까요. 이런 노력을 하지 않으면 돈을 벌 수 없는 세상이 이미 된 것이지요.
모두를 위한 전략은 없다.
누구에게 플래티넘 카드를 팔 것인가?
현재 우수 고객 30만 명 가운데 플래티넘 회원은 대략 4800명 가까이 되었다. 1.6퍼센트로 매우 소수다. 의사결정나무를 적용했다. 특급호텔에서 11만 원 이상 사용하고 항공기를 주로 이용하는 회원 중에 플래티넘 카드 사용 비율이 무려 93.1 퍼센트를 차지했다. 카드 전체 플래티넘 회원 비율 1.8퍼센트에 비하면 매우 높은 수치다. 즉 해당 특징을 가진 회원들은 대부분 이미 플래티넘 회원들이라는 의미다. 플래티넘 회원처럼 카드를 쓰면서 정작 플래티넘 카드를 가지고 있지 않은 사람들, 이들이 바로 우리가 찾는 타깃 회원들이다. 113쪽
이게 소비자는 물어볼 대상이 아니라 관찰의 대상이다. 묻지 말고 관찰해야 한다. 그들의 글과 행동을 관찰해야 한다. 그것이 훨씬 정확한 예측을 가져온다. 마케팅에서의 소비자 연구, 그 답은 소비자의 입이 아닌 행동에 있다. 120쪽
데이터가 아는 것은 인과관계 아닌 상관관계 123쪽
최근에는 음성을 텍스트로 변환해주는 STT 소프트웨어의 성능이 좋아져서 이를 활용할 수 있다. 예를 들어 민원이라는 단어를 사용했는지 금감원이라는 단어를 사용했는지는 매우 중요한 요소가 된다.
텍스트 정보 이외에도 음성 데이터 자체도 활용할 수 있다. 이런 다양한 요소들을 모두 데이터화해서 최종적인 판단 과정을 거쳐 민원 접수 가능 스코어를 계산하는 것이다. 133쪽
돈의 흐름을 추적하는 데이터 분석의 힘
기업을 알리는 회사의 자기 소개서
지금 알고 있는 것을 그때도 알았더라면
2008년이 되면서 혼란, 압류 등의 단어가 본격적으로 대거 등장하고, 2009년이 되면 위기라는 단어가 증가하면서 리먼브라더스 증권사에 대한 이야기를 많이 하게 된다.
2010년이 되면 개혁이라는 단어가 많이 등장하는데 당연히 금융 시스템을 개혁했다는 이야기다. 그와 동시에 회복이라는 단어가 등장하는데 금융 위기로 주가가 폭락했다가 다시 회복하는 것이 2011년이다. 144쪽
새로운 인사이트를 적용해보는 일, 즉 실제 액션을 취한다는 것 자체가 바로 리스크라는 사실.
기업에서도 조금씩 데이터 인사이트의 적용 비율을 늘려가면 된다. 시범사업의 피드백을 보고 판단해서 조금씩 나아가는 게 장기적으로 기업의 이익을 가져올 수 있다. 152쪽
아무튼 자동차를 포기하고 말 타고 다니는 것이 논의의 대상이 될 수 없는 것처럼, 빅데이터를 위할 것인가 말 것인가도 논의의 대상이 될 수 없다. 155쪽
시각화, 우선 그림으로 그려야 한다.
세상의 모든 것을 명제로 만들다. 179쪽
암묵적 지식은 명제화가 불가능하다. ... 따라서 명제로 바꿀 수 없기에 기호주의 방식으로는 절대로 컴퓨터가 해낼 수 없다. 185쪽
인간지능을 따라 만든 인공지능 _우리의 일상을 지배하는 귀납적 추론
연결주의 방식은 기호주의 방식과는 다르게 명제에서 출발하지 않고 데이터에서 출발한다. 데이터 안에 담긴 지식을 습득하는 것이다. 데이터를 반복적으로 보는 과정을 통해서 명제를 만들어 낸다.
연결주의 < 머신러닝 < 인공지능 193쪽
데이터의 대부분은 이미지나 텍스트 _ 문서의 벡터화, 단어 주머니를 만들다
따라서 어떻게 텍스트를 숫자로 바꿀 것인지가 모든 문서 분석의 첫 단계다. 일단 숫자로 바꾸기만 하면 지금까지 설명한 애너리틱스를 다 적용할 수 있다. 분류도 할 수 있고, 클러스터링도 할 수 잇으며, 연관분석 등 모든 것이 가능하다.
문서를 어떻게 숫자로 바꿀 것인가? 가장 단순한 방법은 단어 주머니를 사용하는 것이다. 한 단어가 여러 번 등장하면 그 안에 등장 횟수만큼 복사된다. ...... 기술적으로 이야기하면 문서 간의 유사도를 계산하는 것이다. 이를 통해 유사한 문서들끼리의 클러스터링이 가능하다. 205쪽
1억 차원 벡터를 500차원 벡터로 _ 신경회로망을 이용해서 단어와 문서를 동시에 저차원 임베딩 벡터로 전환하는 워드투벡이나 독투벡은 문서 분석의 성능과 효율에 획기적인 향상을 이루었다. 맥락에 따라 달라지는 단어의 정서 208쪽 이와 같이 단어의 속성 tag이 무엇인지 판단하는 과정을 태깅이라고 한다. 이 단게에서 엔진을 설계하고 제조하는 현업 의사결정자들과 협의 후 각 데이터의 특성에 맞는 속성을 미리 정의하고, 사전 내의 단어들에 태그를 할당한다. 필드 클레임에서는 고장이 일어난 부품, 문제 발생 원인, 관측된 증상을 나누기도 한다. 212쪽
|
데이터의 대부분은 이미지나 텍스트이고 언어를 배우듯이 인공지능에게 귀납적으로 인식시켜야 하는 상황이라는 것을 명확히 이해했습니다. 암묵지 또한 데이터화해서 인공지능에게 학습시켜야 하고요. 물론 이것들이 시간이 걸리지만 차근차근 진행되고 있다는 것은 아마존의 10년 넘는 배송전쟁과 마켓컬리의 새벽배송 3년간의 사례를 통해 인지하고 있었지만 이 책을 통해 듣게 되는 것은 또 다르네요.
인공지능과 빅 데이터 결코 먼 곳에 있지 않아요. 진실이네요!
빅데이터 분석의 최종 목표는 인사이트가 아니다. 최종 목표는 가치 만들기다. 미리 어떠한 가치를 위해 어떠한 인사이트가 필요한지 가르쳐주지 않고 그저 데이터만 주면서 뭐든지 분석해보라고 하는 것은, 셰프에게 무얼 먹고 싶은지 말하지 않고 그냥 내가 맛있게 먹을 수 있는 것을 만들어오라는 것과 똑같다. 실패확률 100퍼센트다.
기획은 가치 인사이트 데이터 순으로 계획을 만드는 단게, 분석은 데이터로 인사이트를 만드는 단계, 확인은 인사이트의 의미를 검증하는 단계, 끝으로 인사이트를 비즈니스 가치로 만드는 단계다. 실행이 끝나면 다시 새로운 기획이 자연스럽게 떠오르게 됨으로써 4단계는 반복된다. 226쪽
좋은 기획은 수많은 브레인스토밍을 거쳐야 한다.
가치 인사이트 데이터 어떠한 비즈니스 가치를 비즈니스 액션 데이터 만들고자 하는가? 기대하는 가치를 만들려 필요한 데이터는 무엇인가 어떠한 문제를 해결하고 면 무엇을 해야 하는가? 데이터는 어떻게 확보해야 하는가 자 하는가? 발생하는 손실 또는 이 인사이트 예상 어려움/극복 방안 탈을 금액으로 추정할 데이터 분석의 결과물은 확보한 데이터가 기대하는 수 있는가? 무엇이고 어떤 형태인가? 가치 창출에 부합하는가? <가치, 액션, 인사이트, 분석 및 데이터 정리> 228쪽
|
우리에겐 빅데이터를 이해하는 리더가 필요하다 232쪽
알아야 할 수 있는 의사결정 _ 삼계탕도 맛과 모양과 효과를 알고 있어야 주문 할 수 있다. 즉 애널리틱스의 종류와 예상 결과, 그 한계 등에 대한 이해가 있어야 한다는 말이다.
기획하려면 모든 과정을 섭렵해야 한다. 237쪽
_ 데이터 사이언티스트가 사용하는 도구는 R 또는 파이선이라는 프로그래밍 언어다.
_ 브레인스토밍을 통해 스스로 문제를 풀어야 하는 단계. 업무에 대한 넓고 깊은 이해를 가지고 있고 경험도 많아서 사내에 중요한 가치로는 어떠한 것이 있고, 이 가운데 어떤 것이 데이터 분석을 통해 구현될 수 있을지 잘 이해하고 있기 때문에 부장이나 팀장급이 아주 잘 해낸다. 240쪽
미국 수십 개의 명문 대학들이 이미 10년 전부터 데이터 사이언스 석사 프로그램을 만들어 운용하고 있다. 실무형 데이터 사이언스 과정이라서 산업체 발전에 크게 기여하고 있다. 기간도 12개월에서 18개월로 제각각. 출근 첫날부터 주어진 데이터를 분석해서 인사이트를 도출할 수 있는 인재로 자란다.
245쪽
2010년부터 데이터 사이언스 석사들을 양성하고 있다는 것은 공공연한 비밀이지요. 미국 대학들이 공개 강의를 하는 이유는 공개 강의의 가치를 능가하는 교육을 이미 다른 강의에서 하고 있다는 말이 되지요. 미국과 다른 선진국을 넘어서기 위해서는 교육과 제조에 좀 더 크게 계획성 있고 장기간 -최소한 10개 년 정도의 - 투자가 필요하다고 생각하고 이를 추진해야 한다고 믿습니다.
공공데이터는 엄청난 가치의 무료 빅데이터
빅데이터 활용을 가능하게 하는 것은 제도 253쪽
혁신을 위한 사회적 합의 256쪽
데이터를 모으는 글로벌 대기업들
거스를 수 없는 일상의 데이터화 263쪽
_ 유튜브와 구글, 페이스북 그리고 인스타그램 카카오톡 모두 데주 264쪽
나의 데이타는 바로 나의 것 _ 무엇보다 내가 만든 데이터에 대해서는 나도 권리가 있다는 주인의식을 가져야 하고, 나에게 그런 권리가 주어졌을 때 그걸 어떻게 사용할지에 대한 판단을 할 수 있어야 한다. 269쪽
일상의 데이터화를 거스를 수 없다는 것을 알고 배우고 준비하는 것이 필요한 시대를 살고 있습니다. 그것을 다시 확인했을 뿐만 아니라 조금 더 자세히 들어간 느낌의 책 <세상을 읽은는 새로운 언어, 빅데이터>를 추천해준 추억책방님의 배려에 감사드리고 입문서이자 한국의 현실이 드러나있는 이 책에 대한 리뷰가 다른 독자에게 유용하기를 조금은 기대합니다.
추억책방님의 이벤트에 당첨되어 증정받은 책을 읽고 작성한 리뷰입니다.