콘텐츠 바로가기
본문 바로가기


AI의 머신러닝, 알고보니 ·인도의 값싼 노동력 덕분

 

 

인공지능(AI) 기술이 다양한 산업으로 전방위 확산하면서, 데이터 라벨링(data labeling)이란 신종 비즈니스가 떠오르고 있다. 갓 태어난 어린아이처럼 아무런 지식이 없는 AI가 각종 사물을 인식할 수 있도록 AI에 입력되는 사진이나 동영상 등에 사람이 일일이 각종 사물의 이름을 달아주는 분류, 표시 작업이다. 예컨대 거리 풍경이 찍힌 사진을 AI에 입력하기 전에 사진 속 사람과 자전거, 자동차, 건물 등의 이미지에 각각 표지를 달아주는 것이다. AI는 이러한 라벨링된 데이터를 대량으로 입력해, 그 공통점을 파악하는 머신 러닝으로 사물을 지각하는 능력을 갖추게 된다.

 

데이터 라벨링 작업AI 산업의 기본이자, AI 산업이 획기적 발전을 이루려면 언젠가는 뛰어넘어야 할 걸림돌이다. 사람이 일일이 하다 보니 비용이 많이 들고 시간이 오래 걸려서다. 영국 경제지 파이낸셜타임스(FT)자율주행차 알고리즘이 도로 표지판 등을 학습하려면 수천 시간 분량의 라벨링된 운전 동영상이 필요하다“1시간짜리 동영상에 라벨링하는 데 8시간이 걸린다고 했다. 통상 AI 학습 시간의 약 80~90%를 라벨링 작업이 차지하는 것으로 알려졌다.

 

저임금 노동자가 ‘AI 선생님

데이터 라벨링은 기업 내부에서 직접 진행하기도 하지만, 최근에는 외주나 크라우드소싱(crowd sourcing. 여럿의 손을 빌림) 등의 방식으로 이뤄지는 경우가 많다. 특히 많은 글로벌 IT 기업이 이 작업을 임금이 저렴한 제3세계 업체에 맡기는 것으로 알려졌다. 인도의 라벨링 회사 아이메리트(iMerit)’는 직원 2500명이 사진 및 동영상을 분류한다. AI에 도로 차선 색깔을 구별하는 법을 가르치기 위해 사람이 사진이나 동영상의 차선에 흰색’, ‘노란색등의 태그(tag. 표지)를 다는 식이다. 의료 진단 AI를 고도화(高度化)하기 위한 데이터는, 사람이 직접 내시경 동영상을 보면서 혹 같은 부분에 종양등의 태그를 다는 일을 한다. 이 회사는 태그 하나당 수십원 수준의 비용을 받는 것으로 알려졌다. 또 다른 라벨링 업체 사마소스(Samasource)’는 아프리카 케냐의 수도 나이로비, 우간다의 굴루 등에 센터를 두고 있다. 월마트, 구글, 마이크로소프트, 글라스도어 등 쟁쟁한 글로벌 IT(정보기술) 기업이 이 회사의 고객이다.

 

미국의 아마존웹서비스(AWS)AWS를 이용하는 다양한 고객을 위해 아마존 메커니컬 터크(Amazon Mechanical Turk)’라는 라벨링 작업을 위한 크라우드소싱 플랫폼을 운영 중이다. 이 플랫폼에 업무를 맡기면, 여기 등록된 근로자가 지원해 일을 처리한다. 하지만 시간당 평균 임금이 2달러(2334)에 불과하고, 시간당 7.25달러(8500) 이상 소득을 올리는 비율도 4%에 불과한 것으로 알려져 논란이 일고 있다.

 

인해전술AI 기술 끌어올린 중국

현재 데이터 라벨링 산업에서 가장 앞서 나가는 나라는 중국이다. 방대한 인구가 뿜어내는 막대한 데이터, 허술한 개인 정보 보호 규제, 중국 정부의 AI 산업 지원에 풍부한 저임금 인력이 더해진 덕분이다.

 

중국의 데이터 라벨링 산업 전초기지는 베이징이나 선전 같은 IT 산업이 흥한 대도시가 아니라 농촌 지역이다. 임차료가 싼 농촌에 사무실을 차리고, 중국 제조업 둔화로 고용 사정이 악화되고 있는 농민공(농촌 출신 도시 근로자) 출신을 고용한다. 허난(河南)성에서 공장을 개조해 데이터 라벨링 공장을 운영하는 이야커씨는 우리는 디지털 세계의 건설노동자라고 말했다.

 

이미 중국은 2017컴퓨터 비전(computer vision. 이미지로 포착한 정보를 컴퓨터로 처리하는 것) 분야에서 글로벌 시장의 3분의 1을 점유하면서 미국을 앞질렀다. 미국 뉴욕타임스는 데이터 라벨링 능력은 미국이 따라갈 수 없는 중국의 AI 분야 경쟁력이라고 평했다.

 

AIAI를 가르치는 시대로

하지만 자타공인 AI산업 최강자인 미국은 기술력으로 중국에 맞서고 있다. 데이터 라벨링을 자동화하는 AI 기술을 내놓고 있는 것이다. AWS는 지난해 12월 라벨링 작업을 자동화하는 세이지 메이커 그라운드 트루스라는 서비스를 선보였다. 이를 이용하면 라벨링 비용을 70%까지 줄일 수 있는 것으로 알려졌다. 국내 기업 중에는 삼성SDS가 지난달 자체 개발한 ‘AI 개발 가속화 기술을 소개하기도 했다. 시장 정보 조사 회사 커그니리티카(Cognilytica)는 이처럼 다양한 양태로 발전 중인 데이터 라벨링 시장이 2018년에 5억달러(5835억원)을 넘어섰고, 2023년에는 12억달러(14000억원)에 이를 것으로 전망하고 있다.

 

 

양모듬 기자

 

- 조선일보 2019.12.19.()

 

 

 

*글의 이해를 돕기 위해 문장 부호를 첨가한 부분이 있습니다.*

-----------------------------------------------------------------------------

 

AI의 머신러닝이 값싼 노동력 덕분에 이뤄지고 있다니... 진실을 알고 나니 씁쓸한 기분이 듭니다. 라벨링 작업을 자동화하는 서비스가 생겼다고 하지만 그 이전의 단계에서 이미 많은 사람들의 시간과 노력이 소비되었다는 것을 추측할 수 있지요.

 

예전에 TV의 프로그램을 통해 접했던 이야기가 떠오릅니다. 게임의 레벨을 높이기 위해 돈을 지불하여 사람을 고용하는 경우가 종종 있다는 내용이었습니다. 비좁은 공간에서 여러 명의 사람이 게임에 몰두하는 모습이 인상적이었는데 그들이 받는 돈이 턱없이 부족해서 충격을 받았던 기억도 생생합니다.

 

AI의 편리함이 부각된 현실에서 그 이면도 살펴보고 생활해야겠다는 생각이 듭니다. 아주 작은 물건 하나에도 많은 이들의 노력과 정성이 담겨있다는 것을 기억해야겠습니다.

 
취소

댓글쓰기

저장
덧글 작성
0/1,000

댓글 수 2

댓글쓰기
  • 파워블로그 책찾사

    AI가 스스로 지식을 만들어내는 것이 아니라 방대한 데이터와 그에 대한 라벨링을 통하여 그것들을 정리하고 분석하여 동작을 하다보니 아직까지는 인간의 힘이 필요한 상황인 것 같습니다. 그러니 여전히 인간 노동력에 대한 가격 경쟁력이 AI의 비용에 큰 영향을 끼치고 있는 것 같네요. 사용하는 측면에서는 무시될 수도 있지만, AI의 동작원리를 조금만 이해하면 충분히 염두에 둘 필요는 있을 것 같습니다.
    사용 과정에서 잘 다뤄지지 않은 부분을 지적하는 유익한 글 공유 감사합니다. 이루님 ^^

    2019.12.27 15:08 댓글쓰기
    • 파워블로그 이루

      AI의 발전에 인간이 많은 기여를 하고 있음에도 불구하고 그들이 턱없이 부족한 임금을 받는 것에 대해 충격을 받았어요. 단순 작업이긴 하지만 시간이 소요되는 섬세한 작업이기에 이 일을 하는 분들은 엄청난 에너지를 소비하고 있으니까요.
      이 기사를 통해 데이터 라벨링이라는 용어의 의미와 함께 새로운 것들을 알게 되어서 뜻깊었어요. 오랜만에 정독을 하니 좋은 정보를 얻네요. 책찾사님께도 유익한 글이셨다니 감사합니다~^^

      2019.12.28 13:53

PRIDE2