빅 데이터 ≠ 빅 인사이트

4차산업혁명의 핵심으로서 한국에서 인공지능과 함께 강조되는 분야가 빅데이터(Big Data) 관련 산업이다. 빅데이터 분석이 기업이나 사회에 엄청난 수익과 효율성을 제공할 것으로 얘기되고 있다. 그러나 부작용 역시 감안해야 한다. 이 기사에서는 빅데이터와 관련된 이슈를 짚어보고 명암을 살펴본다.

Big data has to show that it’s not like Big Brother, 출처

1. 빅데이터란?

빅데이터라는 말을 처음 만든 사람은 누구일까? 구글의 창업자 래리 페이지?

정답은 존 마시(John R. Mashey)다. 실리콘 그래픽스 인터내셔널(SGI)의 수석 과학자였던 마시는 1998년 4월 25일에 발표한 'Big Data ... and the Next Wave of InfraStress' 보고서 첫장에 빅데이터란 단어를 제시했다. 과거에도 이 단어를 사용한 사람이 있지만 존 마시가 빅데이터 용어를 대중화시킨 인물로 알려져 있다. 마시는 빅메모리 빅네트워크 등의 용어도 제시했지만 현재는 빅데이터만 사용되고 있다.

아래는 이 내용을 쉽게 설명한 그림이다. 1980년대의 아날로그 저장장치는 1990년대 초반 디지털 저장장치가 등장하면서 서서히 대체되고 2000년대 초반부터는 디지털 미디어 저장용량의 폭발적 증가로 2007년에는 디지털이 전체 저장장치의 대부분을 차지하게 된다는 것이다.

인터넷의 대중화는 데이터량의 급격한 증가를 가져왔고 이것이 당시 스토리지(저장장치) 같은 하드웨어 인프라 구축에 상당한 도전이 되고 있다는 것을 이야기 하고 있다. 급격하게 증가하는 디지털 데이터, 이것이 "빅 데이터"다.

과거에 빅데이터는 기존 데이터베이스 관리도구의 능력을 넘어서 폭발적으로 증가하는 데이터 자체를 의미했지만 점차 데이터로부터 가치를 추출하고 결과를 분석하는 기술로 의미가 확장됐다. 최근에는 기술, 방식, 기업, 산업을 총칭하는 단어로 쓰이고 있다.

빅 데이터 환경의 특징 : 정용찬(2012a).빅데이터 혁명과 미디어 정책 이슈

특히 모바일의 일상화, 사물인터넷(Internet of Things)의 증가, 페이스북, 인스타그램 같은 SNS(Social Network Serivce) 서비스의 확산으로 매초마다 엄청난 양의 데이터가 쏟아지고 있다. 페이스북 이용자만 전세계 16억명이며, 유튜브 10억명, 인스타그램 4억3000만명 등이다. 페이스북 포스트는 1분에 300만개가 새로 업로드되며 왓츠앱에선 같은 시간 4천만개의 메시지가 오고간다. 정보를 잘 분석하면 곧 돈이 되는 시대다. 정보사회의 데이터는 산업사회의 원유와 같은 역할을 하게 됐다.

빅데이터중에서도 SNS와 같은 소셜미디어 상에 개인들이 올리는 글, 사진, 동영상 등을 분석하여 그들이 무엇을 좋아하고 어디를 가며 어떤 견해를 표명하는 지를 분석하여 브랜드 마케팅이나 개인화 서비스 등에 활용하는 기업들이 늘어나고 있다. 아래 사진은 링크브릭스라는 빅데이터 분석회사에서 일본관광객의 인스타그램 데이터를 분석한 결과다. 인스타그램에 일본인들이 올리는 맛집 사진 중에서 한국 관광 중 올린 사진과 위치 등의 빅데이터를 분석하여 관광산업에 활용하기도 한다.

서울시는 이동 통신사가 보유한 약 30억건의 심야 통화량을 분석하여 최적의 심야버스 노선을 찾아내 적용한 사례도 있다. (아래 사진) 이처럼 빅데이터는 땅속에 묻혀 있는 엄청난 양의 정제되지 않은 원유처럼 활용도가 무궁하다. 가공되지 않은 다이아몬드 원석으로까지 불리우고 있다.

서울시 심야 버스의 유동인구 밀집도, 유동인구 기반 노선 최적화, 유동인구 기반 배차간격 조정

2. 빅 데이터 분석은 만능이 아니다

2009년 이례적으로 구글 연구원들의 논문(Letter)이 세계적인 과학분야 저널인 네이처지에 실린 적이 있다. 요약하면 미국의 질병 통제 예방 센터(CDC)보다 일주일 빨리 빅데이터 분석만으로 독감의 유행을 예측하였다는 것이다.

구글의 검색엔진을 통해 당시 사람들이 “독감약”, “독감병원”, “마스크”, “고열” 등과 같이 감기와 상관관계가(Correlation) 있는 검색어들의 검색량이 갑자기 증가하면 독감이 유행하기 시작했다고 예측할 수 있는 것이다. 이는 다른 복잡한 분석이나 현장 실사, 전문가 조사 그리고 병원 조사 등과 같은 비용이 많이 드는 예측방법론보다 훨씬 쉽고 빠르게 예측할 수 있어 주목을 받아왔다.

구글은 논문 게재 이후에 지속적으로 구글 트랜드를 활용해서 독감 확산을 예측하는 발표를 해왔었는데 2013년 예측에서 망신을 당하게 된다.

구글은 2009년 이후 알고리즘을 정교하고 다듬었지만 과도하게 예측하는 경우가 점점 더 증가하는 경향을 보이고 있었다. 이런 오류에 대하여 구글은 논평하지 않았지만 네이처 지에 따르면 미국의 질병 통제 예방 센터(CDC)의 독감 유행과 관련된 비상 발령과 이에 대한 미디어들의 과도한 호들갑이 사람들의 검색량을 증가시켰고 결국 아프지 않은 사람도 편승효과(Bandwagon Effect)에 따라 검색을 늘렸던 것으로 판단하고 있다.

즉, 구글은 검색량으로 독감 예측을 했는데, 그 전제 조건은 독감이라는 단어와 실제 독감의 증감에 부의 관계의 있다는 것이다. 그런데 이 관계를 인과관계로 착각하면 오류가 발생한다. 독감이 증가하면서 독감에 대한 검색도 증가했다는 것이 구글 예측의 전제 조건인데, 실제 독감이 유행하지 않더라도 미디어의 영향 등 다른 이유로 독감을 검색할 수도 있는 것이다. 독감 관련 검색량의 증가는 독감의 유행과 상관관계는 있을 수 있지만 사실 검색량의 증가가 독감을 유행 시키는 인과관계는 없기 때문이다. 네이버의 실시간 검색어가 특정 사안에 따라 요동치는 것도 비슷한 이유다.

그래서 빅데이터는 분석만큼 정확한 해석이 중요하다. 데이터를 제대로 해석하고 무질서 속에서 질서를 찾는 데이터 과학자들의 역할이 갈수록 커지는 이유다. 단순한 데이터의 패턴만 보고도 그걸 관계지으려는 경향이 있는데 실제 인과관계를 도출하는 능력이 필요하다.

3. 정보 격차(Digital Divide)로 인한 데이터 왜곡

빅데이터 분석엔 항상 편향성을 감안해야 한다. 정보 격차로 인해 특정 계층에 데이터 생산이 편중되어 있기 때문에 자료 수집시 그 계층이 과대대표될 가능성이 있다. 데이터 마이닝(샘플링) 단계에서부터 주의가 요구되는 이유다. 올바른 빅데이터 해석을 위해선 샘플링 오류(sampling error)와 샘플링 편향(sampling bias)을 항상 염두에 둬야 한다.

한국정보화진흥원이 발간한 2016 디지털정보격차 실태조사에 따르면 여전히 장노년, 장애인, 농어촌 등 정보화 취약 계층이 존재한다. 올해 우리나라 대선 전에 카카오톡으로 퍼진 가짜뉴스에 장노년층이 특히 많이 현혹되었던 사례가 있다. 같은 스마트폰을 사용하더라도 카카오톡과만 이용할 줄 아는 세대와 다른 서비스를 이용하는 계층간의 정보 격차 역시도 존재하고 있다.

전승우 LG경제연구원 책임연구원에 따르면 지난 11월 8일 치러진 제45대 미국 대통령 선거는 미국 대선 역사상 가장 큰 이변 중 하나로 기록될 전망이다

지난해 미국 대선은 역사상 가장 큰 이변 중 하나로 기록될 것이다. 트럼프 본인을 포함해 극소수의 사람을 제외하곤 주요 언론은 힐러리 클린턴의 당선을 예측했기 때문이다. 그 와중에서 구글 트렌드와 인공지능은 트럼프의 당선을 예측했고 결국 이들이 맞았다. 한국대선에서도 검색량이 가장 많았던 문재인 후보가 대통령에 당선됐다. 전체적인 트렌드를 읽는데 빅데이터는 굉장히 효과적인 방법이다.

하지만 빅데이터 분석 결과를 전체 여론을 등치시키는 것은 항상 위험이 따른다. 트위터에는 정치 관련 개인 견해들이 많이 올라온다. 트위터 빅데이터 분석 결과가 여론을 대표한다고 볼 수 있을까? 트위터를 사용하는 세대가 사실 장노년층에는 많지 않은 점을 감안할 때 이는 샘플링 오류가 발생할 가능성 크다. 또한 자기 당 지지자들이 주로 사용하는 특정 커뮤니티의 견해가 대부분 주류 사회의 정치적 견해라고 할 수는 없을 것이다. 샘플링 편향을 조심해야 한다.

빅데이터 분석시 이런 정보 격차, 세대 격차 등 인구통계학적 내용들이 같이 고려되어야 순수히 데이터 그 자체만으로 판단해서는 않된다.그래서 빅데이터 분석은 컴퓨터 공학 뿐만이 아니고 정치, 사회, 문화 등의 전 분야를 망라해서 해석해야 하는 통섭의 영역으로 보는 학자들이 많다.

4. 정보 보호, 데이터 보안 그리고 데이터 차별

버나드 마르의 포브스 기고글은 빅데이터 분석은 3가지 문제를 극복해야 한다고 지적했다.

①개인정보보호
빅 데이터 분석이 활성화될수록 데이터의 한 부분인 개인 정보가 승인 없이 다른 기업의 이익 창출에 이미 활용될 가능성이 높다. 이 문제의 가장 큰 위험은 바로 내 개인 정보가 어디에 어떻게 얼마나 사용되는지 알 수 없고 통제할 수 없다는 것에 있다.

유무선 SNS서비스 개인 이용자 약관 대부분은 회원 가입시 이러한 활용에 동의한다는 내용이 들어가 있다. 그러나 대부분 약관 내용을 읽지 않을 뿐만 아니라 약관에 동의하지 않으면 아예 가입이 불가능하기 때문에 문제가 된다.

개인 정보는 단순히 주민번호, 연락처, 주소만 의미하는 것이 아니다. 어디를 가고 무엇을 좋아하며 어떤 사진을 찍고 얼마를 결재하는지 등 개인의 취향과 활동 내역이 정보로서의 가치가 커지고 있다. 이 정보를 개인이 통제할 수 있는가는 중요한 문제다.

②데이터 보안
빅데이터를 축적하고 분석하고 유통하는 과정 모두에서 중요한 정보들이 통제 없이 노출되어 악의적으로 활용될 수 있다. 특히 빅데이터를 유출하는 과정에서 담당자에 의한 보안 침해 사고는 여전히 빈번하게 벌어지고 있다.

문제는 악의적인 보안 침해인지 아니면 누구나 볼 수 있는 공개된 정보를 취합한 것인지 구분하기 점점 더 어려워진다는 것이다. 트위터의 데이터를 분석하는 업체들은 무수히 많다. 그들은 모두 누구나 접근 할 수 있는 데이터를 취합 분석한 것이라고 말하고 있다. SNS이용자들은 팔로워 수를 늘리고 좋아요 수를 늘리기 위해서 대부분 본인의 글이나 사진 등의 공개 범위를 전체 공개로 하고 있다. 여과없이 노출되는 개인 활동 정보에는 원천적으로 보안이 존재하지 않는다.

③데이터 차별
개인의 일거수일투족이 모두 데이터로서 분석되는 사회에서 이를 기준으로 사람들을 차별하는 것이 용인될 수 있을까? 그러나 이러한 데이터 분석을 통한 차별은 이미 우리 사회에서 진행되고 있다.

자동차의 운행기록계를 기준으로 누구에게는 보험료를 비싸게 청구한다면 ?
출퇴근 기록을 분석하여 급여 체계를 달리 설정 한다면 ?
의료기록을 분석하여 특정 직장에는 지원하지 못하게 한다면 ?
신용카드 사용내역을 분석하여 연체 이자율을 더 높인다면 ?

이미 진행중이거나 앞으로 가능한 시나리오들이다. 정보화 격차를 넘어 데이터를 기반으로 한 차별 사회가 향후 큰 문제가 될 것이다.

이를 극복하기 위하여 기고글은 다음 3가지를 제안 하고 있다.

알고리즘은 공정성을 최우선으로 해야 한다.
샘플링 오류와 샘플링 편향을 고려해야 한다.
전통적 통계 관행과 비교하여 빅데이터 결과를 확인해야 한다.

빅데이터 분석은 인공지능 개발의 가장 중요한 데이터 패턴과 학습의 원천을 제공해주고 있다. 그리고 그러한 기술의 발전 속도는 앞의 문제들을 해결하기도 전에 우리의 눈 앞에 현실로서 펼처질 것이다. 나를 내가 인식하는 것보다 더 빠르고 정확하게 인식당하는 초기술사회가 개인의 통제 범위 밖에서 기다리고 있다.

지윤성 기자기자의 인기기사 전체보기

빅 데이터 ≠ 빅 인사이트

마약·총기·포르노 유통되는 '다크웹'... 한국어 사이트 수 '세계 3위'

'아래아한글' 때문에 액티브엑스 퇴출 어렵다

국내 인스타그램 인플루언서 67%가 가짜