공부하는 언론인을 위한 R기반 데이터 저널리즘

저자

박찬경(경북대학교)·사영준(서강대학교)

공개

2023년 9월 3일

서문

저널리즘이 위기라는 이야기가 들려온지 벌써 십수년이 지났습니다. 그간 언론은 디지털 전환, 수용자 컨텐츠 발굴 등 여러 혁신을 시도했지만, 여러 노력들이 인터넷의 정보 유통 구조 변화를 좇는 방식으로 귀결되면서, 새로운 자생력을 얻는데 이르지 못하고, 플랫폼 기업들에게 수익 구조를 내맡겨야 하는 결과를 피하지 못했습니다. 그 때문에 해외의 많은 언론사들은 최근 미디어의 본질인 독보적 콘텐츠의 생산과 이를 통한 독자적인 수익 구조 확립을 추구하는 방식으로 회귀하는 경향을 보이고 있습니다.

독자적 수익을 창출할 수 있는 독보적 컨텐츠의 생산. 이는 산업으로서의 저널리즘의 본질이면서도, 어쩌면 그간 이어온 한국의 미디어 혁신에서 가장 간과되었던 것들 중 하나입니다. 누구나 취재와 출판, 유통이 가능한 시대에 독보적 컨텐츠는 어떻게 가능하고, 보도의 전문성은 어떻게 확보될 수 있을까요? 데이터 저널리즘은 그 대답 중 하나 입니다. 큰 자본력과 언론 조직을 보유하고 있는 리거시 미디어 뿐만 아니라, 미디어 스타트업, 지역 언론사, 제3세계 언론사, 그리고 탐사 저널리즘 등 다양한 유형의 언론사들이 스스로 표방하는 저널리즘의 가치를 성취하기 위한 방법으로 데이터 저널리즘을 채택하고 있습니다. 데이터 저널리즘은 대중들이 접근할 수 없는 사실을 발굴하여 특종을 내기보다는 이미 접근 가능한 대량의 데이터들을 연결하고 분석하고, 전달하는 과정을 통해 새로운 통찰을 전달하려고 합니다.

문제는 데이터 저널리즘이 기자, 언론조직에 새로운 전문성을 요구한다는 것입니다. 밤낮으로 뛰며 집요하게 진실을 추적하는 전통적인 기자에게 요구되는 덕목과 자질과 달리, 데이터 저널리즘은 책상 앞에서 앉아 데이터들을 발굴하고, 그 안에서 숨어있는 메시지를 찾아내는 능력을 요구합니다. 속보 경쟁을 해야하는 언론인들 대부분에게 이러한 전문성을 발휘하는 것도, 그리고 그러한 전문성을 새로이 습득하기 위한 학습 과정도 사치처럼 여겨질 가능성이 큽니다..

본 교재는 극심한 취재와 보도 경쟁에 내몰려 있지만, 위기에 빠진 언론의 다음 단계를 모색하는, 공부하는 기자들을 위한 데이터저널리즘 교재 입니다. 본 교재는 데이터 저널리즘에 경험이 없는 언론인들이 가능한 짬을 내어 독학하는 상황을 가정하여 만들었습니다. 따라서 본 교재는 다음과 같은 특징을 가지고 만들어졌습니다.

  • 첫째, 온라인으로 만들어 누구나 쉽게 접근할 수 있도록 하였습니다.

  • 둘째, 실제 보도 상황에 근접한 빅데이터, API를 통해 획득한 비정형 데이터를 이용한 데이터 분석을 바로 시작할 수 있는 예제를 최대한 반영하였습니다.

  • 셋째, 오픈소스 프로그래밍 언어인 R을 이용하였습니다. 최대한의 유연성을 제공하는 컴퓨터 언어이면서도 무료이고, 간단한 문법을 가지고 있는 데이터 저널리즘 산업의 표준적인 언어 중 하나입니다.

  • 넷째, 데이터의 분석에만 초점을 맞추지 않았습니다. 데이터 저널리즘의 필요성, 전통적 저널리즘과의 차별성에 주목하였고, 데이터 스토리텔링의 관점에서 필요한 몇 가지 영상 심리학 이론, 시각화 기법등을 구현하는 법에 대해서도 이야기하였습니다. 그리고 뉴스 배포까지 염두에 두어 바로 웹페이지를 생성할 수 있는 컴퓨팅 환경을 기본으로 사용합니다.

그렇다고 해서, 이 교재가 데이터 과학에 문외한인 언론인만을 위한 것은 아닙니다. 다양한 학습 경험이 있는 언론인들이 유연성 있게 활용할 수 있도록 하기 위해, 각 챕터를 난이도 별로 구분해서 작성하고자 노력했습니다. 이를 최대한 활용하기 위해, 다음과 같은 수준별 학습 방법을 권합니다.

  • R또는 프로그래밍이 처음인 독자: R과 Rstudio 설치에 관한 부록부터

  • R을 접해 보았고 프로그래밍에 대한 초보적인 사전지식이 있으나 거의 활용해보지 않은 독자: 첫장부터 순서대로

  • R을 실재 활용해 본 경험이 있는 독자: R 기초에 관한 4, 5, 6장 건너뛰기.

  • 이미 데이터 저널리즘을 적용해 본 경험과 관련 기술을 가지고 있지만, 데이터 저널리즘에 대한 시각을 심화하고자 하는 독자 : 데이터 저널리즘의 원론에 해당하는 1,2 장과 데이터 스토리텔링에 관한 12, 13장을 주로 학습.

그간 데이터 저널리즘에 대한 지식은 여기저기 흩어져 있어, 학습을 원하는 독자들은 조각난 지식들을 모으는데에서 부터 시작해야 했고, 따라서 기자들은 학습을 포기하기 일수였습니다. 인터넷 언론 <뉴스타파>에서 지난 2022년 좋은 교재를 발간하였으나, 정보공개 청구 등 데이터 수집을 통한 탐사 저널리즘 맥락에 초점을 두고 있다는 점, 파이썬이라는 훌륭하지만 비교적 비전공자에게 접근성이 떨어지는 프로그램 언어를 사용했다는 점, 데이터 스토리텔링, 뉴스 배포 등의 취재와 기작 작성 이외에 데이터 저널리즘의 중요 측면에 관심을 덜 두었다는 점에서 다소 아쉬운 점도 있었습니다. 교재의 부족 문제는 해외의 경우에도 크게 다르지 않아, 취재와 보도라는 특수한 맥락 보다는 프로그래밍의 측면에 주목한 한 두개의 교재 이외에는 데이터 저널리즘 전과정을 포괄하는 교재가 없어, 교수자가 필요에 따라 여러 정보를 짜깁기 해야 하는 상황이 반복되었습니다. 이러한 아쉬움을 달래보고자, 본 교재는 가능한 데이터 저널리즘의 이론, 필요성, 데이터 스토리텔링 전략과 관련된 영상 심리학과 그 구현, 데이터 저널리즘 기반 보도와 뉴스 유통을 원활하게 하기위한 문서 작성과 관리 전략까지 다양한 분야를 최대한 광범위하게 다루기 위해 노력했습니다.

또 하나 이 교재의 중요한 특징은 오픈 텍스트북을 지향한다는 것입니다. 오픈 텍스트북을 위한 첫 삽은 이 교재의 저자인 박찬경과 사영준이 뜨지만, 오픈 사이언스의 도구들을 이용해 누구든 이 교재를 무료로 사용할 수 있을 뿐만 아니라, 이를 수정, 재편집, 재구성하여 본인만의 교재를 다시 구성할 수 있도록 하고자 했습니다. 이를 위해 이 교재는 마크다운(Markdown) 문법을 이용해 작성되었으며, 모든 소스코드는 Github 저장소에 공개되었습니다. 따라서 이 교재는 완성본이 아닙니다. 앞으로 언론사, 언론인재교육 기관, 학계와의 협력을 통해 계속해서 진화하는 교재의 기반으로 사용될 수 있기를 기대합니다.

이 교재는 지난 2년간 경북대학교와 언론재단에서 미디어 커뮤니케이션 전공 대학생들과 현직 기자들을 대상으로 이루어진 강의를 바탕으로 쓰여졌습니다. 강의의 내용을 교재로 구성하고 오픈소스 프로젝트로 변환할 수 있도록 도움을 준 한국언론재단 대구지사 조윤태 지사장, 이민규 과장께 가장 먼저 감사드립니다. 또한 교재를 완성하는 과정에서 세세한 사항에 신경써 준 경북대학교 고서영, 이신애 학생에게 감사드립니다. 특히 고서영 학생은 이 교재에 포함된 많은 삽화들을 고생스럽게 그려주었습니다.

이 교재가 짧게는 데이터 저널리즘 교육에서 교재 가뭄을 해소하는데 일조하고, 길게는 더 많은, 더 좋은 교재의 바탕이 되기를 바랍니다. 그리고 무엇보다 데이터 저널리즘이 특정 전공자들만 다룰 수 있는 특수한 영역이 아니라, 조금의 노력만 기울이면 누구나 접근할 수 있는 시도라는 인식이 확산되는데 일조할 수 있기를 기대합니다.