생성에서 평가까지, 올바른 방송 빅데이터 활용법은? by 수다피플

(사진=flickr. CC BY.KamiPhuc)

지금은 빅데이터의 시대다. 4차 산업혁명이라는 단어가 사방에서 들려오던 시점부터 빅데이터는 그의 단짝처럼 매일 붙어다니는 존재였다. 하지만 데이터라는 개념은 새로 만들어진 것이 아니다. 옛날부터 있었고, 앞으로도 있을 개념이다. 단지 데이터의 양이 조금 더 방대해졌고, 이를 분석하기 위한 여러가지 표준이나 기술, 품질, 포맷에 대한 논의가 진행되기 시작했다. 4차 산업혁명의 핵심 재료가 되기에 빅데이터만큼 좋은 게 없다.

googletag.cmd.push(function() { googletag.defineSlot(‘/6357468/0.Mobile_Article_intext_1_300_250’, [300, 250], ‘div-gpt-ad-1468307418602-0’).addService(googletag.pubads());googletag.pubads().collapseEmptyDivs();googletag.pubads().enableSyncRendering();googletag.enableServices();googletag.display(‘div-gpt-ad-1468307418602-0’); });

우리 사회에서 빅데이터를 그 어디보다 많이 보유하고 있는 곳은 방송 산업 분야다. 제작 환경에서 발생하는 데이터는 물론 시청자들이 미디어를 접하는 과정에서 수집되는 데이터까지 상당히 방대한 분량이다. 해당 데이터들만 활용한다 해도 상업적, 공공적으로 많은 이익을 취할 수 있다. 정부도 이에 대한 필요성을 느끼지 않은 것은 아니다. 급박하게 오픈데이터 정책을 세우고 짧은 기간 내에 꽤 많은 데이터를 수집하기는 했지만 효율적인 운영을 못 하고 있다.

세션 발표중인 이명호 상명대학교 부교수

코엑스에서 열린 ‘KOBA 2017 국제 방송기술 컨퍼런스’의 셋째 날 열린 ‘인공지능&빅데이터’ 세션에서는 AI 기술의 이해와 한국형 사업 현황 소개에서부터 방송 빅데이터 활용, AI가 변화시킬 미디어 환경 등을 다루었다. 그중에서 두 번째 세션 연사자로 나선 이명호 상명대학교 부교수는 방송 빅데이터 활용과 데이터 클리닝을 설명하며 한국의 빅데이터 환경이 나아가야 할 방향을 제시했다. 그는 약 20년간 미국과 한국을 거쳐 데이터에 대한 고민을 해왔다. 그는 한국이 데이터는 많지만 그것을 활용할 수 있는 환경이 뒷받침되지 못하고 있는 현 상황에 대해 아쉬운 점을 밝혔다.

데이터는 이제 인간이 분석할 수 있는 수준을 넘어섰다. 의미 있는 결과를 도출할 만한 데이터 분석 결과를 얻기 위해선 기계를 거쳐야만 하는 시대다. 이제 인간은 원하는 방향을 제시만 할 뿐, 대용량의 데이터 처리는 기계가 한다. 데이터 형식이 변화해야 하는 이유다. PDF, 엑셀, 아레아 한글은 인간이 보기에 좋은 형식이지 기계가 분석하기에 좋은 형식이 아니다. 이명호 부교수는 월드 와이드 웹의 아버지 팀 버너스 리 교수가 제시한 빅데이터 품질의 5가지 단계를 소개했다. PDF – XLS – CSV – RDF – LOD 순으로 이어졌다. 더 높은 단계에 위치한 ‘좋은 데이터’라는 것은 기계적으로 처리하기 쉽다는 것을 의미한다.

팀 버너스 리 교수가 제시한 빅데이터 품질의 5가지 단계

이명호 부교수는 이어 한국의 방송 빅데이터 실태를 보여줬다. 예시로 보여준 6가지 결과물 중에 CSV 파일로 공개된 자료는 절반 수준인 3건뿐이었다. 다른 자료는 대부분 엑셀 기반이었다. 심지어 JPG 파일도 있었다. 이는 거의 데이터를 쓰지 말라는 말과 비슷한 수준이다. 현재 우리나라 방송 빅데이터로 공개된 것들을 다 찾아봐도 비슷한 비율이 나왔다. 단 46%만이 CSV이고, HWP가 28%를 차지했다. 이명호 부교수는 “쓸모없는 형태로 공개될 뿐이다”라고 평가했다.

한국의 방송 빅데이터 실태 PPT 자료

현재 찾아볼 수 있는 한국의 방송 빅데이터 예시

방송 빅데이터를 평가하는 방법은 단순히 포맷에만 있지 않다. 데이터에 대한 퀄리티(품질)도 중요하다. 퀄리티 평가 기준은 8가지로 둔다. 데이터가 얼마나 정확한지, 얼마나 완성도 있는지, 계속해서 업데이트되고 있는지, 적절한지, 재사용 가능한 데이터인지, 기계가 처리할 수 있는 데이터인지 등이 있다. 이런 문제점들에 대해 철저한 평가 기준을 적용해 데이터를 이용하는 사람들이 최대한 좋은 데이터를 활용할 수 있는 환경을 조성하도록 노력해야 한다.

8가지 데이터 퀄리티 평가 기준

빅데이터 평가에 대해서는 영국이 좋은 사례를 가지고 있다. 영국은 앞서 팀 버너스 리 교수가 제시한 5가지 단계를 넘어서서 훨씬 더 세부적인 인증 시스템을 갖췄다. 하나의 오픈 데이터를 두고 해당 데이터가 법적, 실용적, 기술적, 사회적 부분을 상세하게 고려해 평가한다. 평가 결과는 4가지의 등급으로 표시된다. 브론즈-실버-골드-플래티늄 순이다. 이런 인증 방식은 빅데이터에 일종에 룰을 제공하는 역할을 함으로써 점차 양질의 데이터가 시장에 축적될 수 있도록 한다.

영국의 오픈 데이터 인증 평가항목

‘오픈 데이터 바로미터’라는 이름으로 국가별 공공데이터 평가 순위를 매겨놓는 곳도 있다. 여기서의 평가 기준은 3가지다. ‘국가의 오픈 데이터에 대한 인식’, ‘얼마나 잘 오픈되어 있는지’, ‘오픈 데이터가 시민의 삶에 영향을 줄 수 있을 만한 임팩트 있는 데이터인지’다. 1위는 영국이다. 우리나라는 처음에 12위로 시작했다가 17위로 떨어졌다가 현재 다시 8위로 올라와 있는 수준이다. 평가 항목별 우리나라의 점수를 살펴보면 맨 마지막 기준인 임팩트 부분이 현저하게 떨어진다. 데이터가 공개돼 있다 하더라도, 좋은 포맷이 아니어서 활용이 불가능하고, 오픈 데이터의 진짜 의미에 알맞은 효율성 또한 챙기지 못하고 있다는 이야기다.

오픈 데이터 바로미터 국가별 공공데이터 평가 순위

우리 손에 들려있는 스마트폰만 보더라도 얼마나 많은 앱들이 공공 데이터를 사용하고 있는지 모른다. 우리의 삶은 이미 많은 부분 오픈 데이터를 이용하고 있다. 하루에도 몇 번씩 확인하는 대중교통 앱에서는 서울시의 대중교통 빅데이터가 사용된다. 매일 날씨를 체크하는 날씨 앱에서도 날씨정보 빅데이터를 활용한 것이다. 하지만 이는 데이터를 활용할 수 있는 정말 극소수의 기능 중 하나일 뿐이다. 4차 산업혁명. 훨씬 더 다양한 데이터를 활용한 서비스의 시대가 다가오고 있다. 하지만 한국은 한참 부족하다. 세계적 흐름을 위해 기술개발에만 초점을 맞추기보단, 활용할 수 있는 수준의 제대로 된 데이터 구축이 시급한 상황이다. 이명호 부교수는 “한국은 데이터의 품질과 형식, 관리에 대한 전반적인 개선이 필요하다”라고 강조했다.

from Bloter.net http://www.bloter.net/archives/280024

Advertisements

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중