1 데이터 저널리즘이란

1.1 데이터 저널리즘의 사례와 요소

최근 ’데이터 저널리즘’이라는 용어는 이곳 저곳에서 들어보셨을 것입니다. 그러나 데이터 저널리즘이 무엇인지 명확한 정의를 가지고 있는 분은 많지 않을 것이라고 생각합니다. 그것이 독자 여러분들의 탓은 아닙니다. 사실, ’데이터 저널리즘’에 대한 합의된 정의가 없다고 보아도 무방하기 때문입니다. 그 대신, 데이터 저널리즘을 ’데이터를 이용한 저널리즘’이라고 정의한다면, 그것이 그다지 좋은 정의가 아니라는 점은 분명한 것 같습니다. 저널리즘이 ’사실’을 전달하는 일인 이상, 사실의 증거가 되는 데이터를 이용하지 않을 저널리즘은 없을테니까요. 그것이 통계가 되었든, 인터뷰가 되었든, ’관계자’로 부터 비공식적으로 듣게된 증언이든, 기자가 수집한 증거들은 모두 데이터 입니다. 데이터를 이용하지 않는 저널리즘이 애초에 존재하지 않기 때문에, 데이터 이용 여부로 데이터 저널리즘이라는 특수한 저널리즘을 정의하기는 어렵습니다.

어떠한 대상을 정의하기 어려울 때, 우리가 흔히 취하는 방식 중 하나는 그 대상의 ’외연(外延)’을 나열하는 것입니다. 즉, 데이터 저널리즘은 이러한 것이다, 라고 단언하기 어려우니, 우리가 데이터 저널리즘이라고 여기는 사례를 죽 검토해보고, 이러이러한 요소들을 갖추어야 우리는 그것을 데이터 저널리즘이라고 여기는구나, 라는 식으로 경험적으로 접근하는 것이지요. 데이터 저널리즘이 무엇인지를 이해하기 위한 이러한 접근 방법은 어떤 데이터 저널리즘이 좋은 데이터 저널리즘인가를 생각해 보는데에도 도움이 됩니다. 그러니 데이터 저널리즘을 수행하는데 필요한 도구나 방법은 추후에 더 이야기해 보기로 하고, 먼저 데이터 저널리즘의 몇 가지 사례들을 검토해보도록 하지요.

다음 그림은 코로나 19가 여전히 맹위를 떨치던 2021년 7월, 영국 언론사 파이낸셜 타임즈에선 낸 기사입니다.

이 보도에서 푸른 색으로 표현된 그래프는 10개 국가의 일자별 코로나 감염자수를 표현하고 있습니다. 반면, 빨간색은 그래프는 사망자수를 거꾸로 표현하지요. 만약 사람들이 백신을 접종하지 않았다면, 파란색 그래프와 빨간색 그래프는 대략적으로 대칭으로 보여야 할 겁니다. 감염자가 많아지면 사망자가 많아지는 것은 당연한 이치이니까요. 실제로 그래프에 표현된 10개의 국가들에서 대부분의 기간동안 그러한 대칭성이 보입니다. 그런데, 그렇지 않은 부분분도 있습니다. 제일 처음 표현된 영국(UK)와 포르투갈(Portugal)의 7월15일 이후 그래프가 그렇습니다. 7월15일경 대부분의 위험군에게 백신 접종이 완료되었고, 그 이후에는 사망자가 줄어들면서, 더 이상 파란 그래프와 빨간 그래프가 대칭적이지 않게 되었습니다. 백신이 광범위하게 접종되지 않은 다른 나라들은 물론 그런 일이 일어나지 않았지요. 즉, 영국과 포르투갈은 위험군에 대한 백신 접종 덕분에 코로나 감염자가 늘더라도, 사망자가 그만큼 늘지는 않게 되었다는 것입니다.

왜 이런 보도가 등장했을까요? 이 때는 ‘안티백서’라고 코로나19 백신 접종에 반대하는 사람들의 주장이 특히 서구 국가들에서 기승을 부리던 시기입니다. 이들은 코로나19 백신이 국가와 제약 산업의 거대한 음모이며, 사실 코로나를 예방하는 데에는 효과가 없다고 주장하였죠. 사실 어떤 신약이 질병에 ’인과적인’ 효과가 있다는 것을 증명하는 것은 대단히 어렵고, 시간이 오래 드는 일입니다. 그리고 그러한 과정을 통해 밝혀낸 효과의 근거를 대중들에게 설명하는 것은 더욱 더 어려운 일이지요. 위의 그래프 역시 사실 뜯어보면 대단히 많은 정보들이 포함되어 있습니다. 하지만, 두 그래프를 반전시켜서 대칭성이라는 시각 요소를 활용하고, 그래프 색깔과 글자의 ‘깔맞춤’(파란색으로 표시된 ’cases’라는 글자와 빨간색으로 표시된 ’deaths’라는 글자를 주목해보세요)을 통해, 많은 양의 정보를 효율적으로 표현하여, 백신의 인과적 효과를 상당히 설득력 있게 전달하고 있지요.

다음은, 데이터 저널리즘이 대중화되는데 선구적인 역할을 한 미국 언론사 FiveThirtyEight의 스포츠 보도 사례입니다. 스포츠 보도야 말로, 데이터 저널리즘의 힘을 제대로 느낄 수 있는 분야 중 하나죠. 첫번째 그림은 이미 미국프로농구(NBA)의 레전드라고 할 수 있는 르브론 제임스(LeBron James)와 엔소니 데이비스(Anthony Davis)라는 선수가 20-21시즌 LA레이커스에서 29경기(y축) 각 48분(x축) 동안 언제 함께 뛰었고, 언제 혼자 뛰었는지를 시각화한 것입니다. 짙은 파란색은 두 선수가 같이 뛴 시간, 하늘색은 앤소니 데이비스, 분홍색은 르브론 제임스가 혼자 뛴 시간 입니다. 회색은 두 선수 모두 뛰지 않은 시간이라고 하네요. 언뜻 보아도알 수 있듯이, 생각보다 한 경기 안에서 두 명의 스타가 같이 뛰는 시간이 많지 않았습니다. 기사에 따르면, 실제로 레이커스는 전략적인 이유로 두 선수를 번갈아 기용하는 이른바 ’로테이션’을 운용할 필요가 있었다고 하네요.

다음 그림은 NBA의 또 다른 레전드, 스테픈 커리(Stephen Curry)와 드레이먼드 그린(Draymond Green)이 골든스테이트 워리어스에서 경기중 언제 함께 뛰고 언제 따로 뛰었는지를 시각화한 것입니다. LA 레이커스와는 한 눈에 보아도 확연한 차이를 느낄 수 있지요? 워리어스의 두 선수는 뛰면 함께 뛰고, 안 뛸 때는 같이 빠지고 있네요.

이 기사는 기존의 일반적인 기사들과 다음 두 가지 점에서 차이를 보입니다. 첫째, 이전에는 사용하지 않았던, 혹은 사용하지 못했던 데이터를 사용합니다. 기존의 보도가 이용했던 데이터는 이미 전문가들에 의해 가공된 데이터들이었습니다. 통계청이 되었던, 기업이 되었던, 미리 어느 정도 이해할 수 있는 형태로 재구성해서 비교적 작은 테이블에 담아둔 데이터를 마이크로소프트 엑셀과 같은 스프레드시트로 열어 그룹별 평균을 구하고, 그래프를 그리는 것이 일반적인 보도를 위한 데이터 처리 방식이었죠. 하지만 위와 같은 데이터는 가공된 데이터가 아닙니다. 선수들의 코트위에서의 행동이 그대로 기록된 ’행동 데이터’이죠. 선수가 코트에 나와서 뛰고 있다는 사실은 그 자체로 데이터가 됩니다. 이러한 데이터는 센서를 이용한 데이터 생성과 분석이 스포츠에서 광범위하게 사용되면서 이전에 비해 훨씬 흔해졌습니다. 지난 번 2022년 카타르 월드컵 포르투갈전에서 황희찬 선수가 상의를 탈의했을 때, 브라탑 형태의 센서가 부착된 조끼를 입고 있어서 화제가 된 적이 있었죠? 그러한 장치들이 운동선수의 실시간 행위를 데이터로 만들어내고 있는 것이지요. 사실 데이터의 크기와 상관 없이 이렇게 가공되지 않은 채, 유입되는 실시간 비정형 데이터가 ’빅데이터’의 정의에 가깝습니다. 이러한 데이터들은 이전에는 존재하지 않았거나, 존재했더라도 가공/분석 방법이 없어서, 컴퓨터의 성능이 모자라서, 등 여러 이유로 분석되지 않았습니다. 하지만, 위의 보도 사례를 보면, 과감하게 두 팀, 네 명의 선수들이 29경기 각48분 동안 언제 뛰었는지를 모조리 보여주고 있네요. 빅데이터의 이용이 보도로부터 그리 멀지 않다는 것을 보여주는 사례 입니다.

두 번째 차이는 시각화 입니다. 이는 앞서 이야기한대로, 이전에는 데이터가 존재했더라도, 어떻게 가공/분석할 줄을 몰라서 사용하지 않았다는 지적과 큰 관련이 있죠. 전통적인 언론 보도들이 데이터를 통한 분석을 제시하는 경우는 많았지만, 그 결과는 작은 표나, 막대 그래프, 선 그래프 등을 이용해 평균 등의 몇 가지 수치로 데이터를 단순화해 표현하는 경우가 대부분이었습니다. 그에 반해 위의 시각화는 창의적인 아이디어를 동원해서 데이터를 거의 있는 그대로 보여주고 있지요. 그럼에도 불구하고, LA 레이커스와 골든스테이트 워리어스의 차이는 시각적으로 명확하게 드러났습니다. 이것이 뒤에서 이야기 하게 될 ‘데이터 스토리텔링’의 힘입니다. 좋은 시각화 전략은 훨씬 더 많은 정보를 독자들에게 효율적으로 전달할 수 있게 해 줍니다. 그렇게 독자들에게 분석 결과를 전달할 수 있어야, ’빅데이터’를 입수했다는 사실이 비로소 의미가 있는 것이겠지요.

다음 사례는 KBS의 손흥민 선수에 대한 보도입니다. 축구에 큰 관심이 있지 않았던 분들도 손흥민 선수에 대한 보도에서 ’기대득점’이라는 용어를 사용하는 것을 들어보셨을 것입니다. 예컨대, 손흥민 선수가 골을 자주 넣는 ’손흥민존’에서 기대득점이 0.03에 불과했는데도 불구하고 골을 넣었다, 그런 식의 보도 말이죠. 그런데, ’기대득점’이 뭘까요? 사실 이건 위에서 이야기한 스포츠 빅데이터와 관련이 있습니다. 이제 워낙 많은 실시간 데이터가 쌓이다 보니, 어떤 선수가, 경기 중 어떤 시점에, 어떤 위치에서, 어떤 팀을 상대로 슛을 시도했을 때 골이 들어갈 확률이 몇%다, 이런 예측을 할 수가 있게 되었습니다. 즉, 앞서의 시나리오에서라면, 손흥민 선수가 골을 넣은 곳이 과거 데이터에 따른 예측 모형에 따르면 100번 슛을 해야 고작 3번 골이 들어갈 수 있는 지점이었는데, 그럼에도 골을 넣었다는 것이죠. 더 간단히 말해, 어지간 하면 골을 넣지 못할 상황에서 골을 넣었으니, 손흥민 선수가 대단하다, 그런 의미인 것이지요.

여기서는 통계 모형과 예측이 이용되었다는 점이 중요합니다. 과거 보도에서도 예측은 사용되기도 했지만, 다소 조심스럽게 사용되었습니다. 예컨대 어떤 증권사의 주가 예측이라던지, 부동산 전문가 여러명의 부동산 가격 추이 예측을 ’전문가 의견’으로 참조한다든지 하는 식이죠. 데이터 저널리즘에서는 예측이 조금 더 적극적으로, 객관적 전거로 사용됩니다. 행동 데이터가 다양해지고, 이를 이용한 예측 모형이 발달하면서, 모형의 성능이 훨씬 좋아졌기 때문이죠. 다만, 모든 분야에서 그런 것은 아닙니다. 안타깝게도 주가와 부동산 가격 예측은 여전히 보도에서 객관적 전거로 사용할 수 있을 정도로 정확하지 못합니다.

통계 모형 이야기가 나왔으니, 관련된 데이터 저널리즘 보도를 하나 더 보도록 하지요. 다음은 서울대 국제정치데이터센터와 MBC가 협업해서 운영하고 있는 여론M이라는 웹사이트 입니다.

이 시각화 자료들은 정당 지지도와 대통령 국정수행평가에 대한 여론조사 결과를 보여주고 있습니다. 이런 여론조사는 너무도 흔한데, 왜 이러한 보도를 데이터 저널리즘이라고 하는 것일까요? 왜냐하면, 위의 선 그래프가 나타내고 있는 것은 실제 여론조사 결과가 아니라, 여러 여론조사 결과를 통계모형을 통해 합산한 결과이기 때문입니다. 왜 그런 합산을 하냐고요? 독자들이 더 이상 여론조사 결과를 믿지 않기 때문이죠. 정치적 양극화가 극심해지면서, 꽤 많은 독자들이 자신의 정치적 성향에 따라, ‘대통령의 지지율이 낮게 나온 것은 설문조사 기관이 좌파라서’, 또는 ‘민주당 지지율이 낮게 나온 것은 설문조사 기관이 우파라서’ 그렇다고 믿는 것을 여러분들도 생활에서 경험해 보셨을 것입니다. 위의 보도는 통계 모형을 이용해 그러한 설문조사 기관의 ‘편향’¹을 감안한 ‘진짜’ 여론을 추정해서 보여주는 것입니다. 물론 이 추정된 ‘진짜’ 여론이 ‘진짜로 진짜’ 여론인 것은 아닙니다. 모든 모형은 100% 정확할 수 없기 때문지요. 하지만, 이런 말도 있지요. “모든 모형은 틀렸다. 하지만 어떤 모형은 유용하다”.

이렇게 모형을 이용한 보도를 ’유용’하게 만들기 위해서 이 프로젝트는 몇가지 툴을 동원했습니다. 첫째, 불확실성을 시각화하는 것입니다. 위의 그래프를 보면 추정된 여론이 선으로 표현되어 있지만, 그 선 주위로 투명한 색깔로 범위가 표현되어 있지요? 이는 추정 모형이 가지고 있는 불확실성을 계산하여 보여주는 것입니다. 만약 국민의힘과 더불어민주당 지지도 사이에 약간의 차이가 있더라도, 그 차이가 저 불확실성의 범위 안에 있다면, 단적으로 어떤 정당의 지지율이 더 높다, 라고 할 수는 없다는 단서조항 같은 역할을 한다고 생각하면 됩니다. 둘째, <여론M> 로고 옆에 보면 추정 모형의 세부사항에 대해 알 수 있는 링크가 있습니다. 이 링크를 따라가 보면, 전문용어로 가득한 문서가 하나 나오는데요, 모형 자체가 복잡하다보니, 그 설명도 복잡합니다. 다만, 이 문서를 이해할 수 있는 전문 지식이 있다면, 웹사이트에서 보여주는 것과 동일한 추정을 할 수 있지요. 물론, 모형의 검증도 가능합니다. 이렇게, 분석 결과만 보여주는 것이 아니라, 분석 방법까지 공개해서 투명성을 확보하는 것입니다. 더 나아가, 해외 데이터 저널리즘 프로젝트 다수는 분석 방법 뿐 아니라, 원 데이터를 공유하기도 하고, 수식 뿐 아니라, 분석, 시각화 프로그램 코드까지 공개해서 바로 재사용할 수 있는 정도로까지 공유하기도 합니다. 마치 컴퓨터 개발자들이 오픈소스 소프트웨어를 개발하는 것처럼요.

마지막으로 그래프 아래에서 추정된 여론이 아닌 원래 여론조사를 결과를 확인하는 것도 가능합니다. 대부분의 사람은 위의 그래프를 보고 전반적인 여론 추세를 아는데 만족하겠지만, 좀 더 관심이 많은 사람은 각각의 여론조사 결과를 알고 싶은 경우도 있겠지요. 그럴 때는, 각 설문조사에 해당하는 링크를 클릭하면, 중앙선거관리위원회가 확보하고 있는 각 여론조사의 구체적인 정보, 예컨대, 조사인원, 조사기간, 조사지역, 조사일시, 응답자 구성까지 알 수 있습니다. 이 모든 정보를 한 화면에 보여주면 너무도 복잡하겠지만, 월드와이드웹의 기능을 이용해 관심있는 사람은 원데이터의 세부사항을 볼 수 있도록 해 주는 것이지요.

자, 지금까지 본 사례들에서 기존 언론 보도와 다소 다르게 느껴지는 것들을 꼽아보자면 다음과 같습니다.

새로운 데이터
시각화
공개 데이터
상호작용성
공유
통계 모형과 예측
데이터 스토리텔링
Surprise!

우리가 데이터 저널리즘이 무엇인가를 정의하는 것은 너무도 어렵지만, 위의 요소들을 포함한 보도를 대체로 데이터 저널리즘이라고 부르는 것 같습니다. 이전에는 사용하지 않았던, 행동 데이터, 빅데이터를 분석한 결과를 보도합니다. 그러한 데이터를 이용할 수 있게 된 것은 여러 과학기술의 발달 때문이기도 하지만, 그것을 분석할 통계/기계학습 모형과 시각화 도구가 생겼기 때문이기도 하지요. 새로운 데이터들은 기자가 노력을 통해 단독으로 입수하는 것도 있지만, 더 많은 경우는 이미 어디엔가 공개되어 있는 것들인 경우가 더 많습니다. 데이터 저널리스트에게는 나만 아는 정보를 찾아내는 것보다 이곳 저곳에 존재하는 데이터들을 연결해서 새로운 통찰을 이끌어 내는 능력이 더욱 중요합니다. 하지만, 복잡한 데이터의 분석 결과는 그 자체로 복잡한 경우가 많습니다. 따라서 효율적인 시각화와 글쓰기를 통해 분석 결과로부터 찾아낸 스토리에 집중할 수 있도록 하는 스토리텔링 능력 역시 중요합니다. 그러한 과정에서 생략해야만 했던 세부사항들은 상호작용적 인터페이스를 통해 독자에게 따로 제공하거나, 공유플랫폼을 통해 제공하는 것이지요. 하지만 제일 중요한 것은, 이 모든 요소들을 종합해 독자들을 놀라게 하는 능력이라고 할 수 있겠습니다. 몰랐던 충격적 사실을 알아서가 아니라, 독자도 접근할 수 있었지만, 연결될 줄은 몰랐던 것들의 연결을 깨달음으로써 써 세상에 대한 이해가 넓어질 때 터져나오는 경탄, 그것이 아마도 데이터 저널리즘의 중요한 목표 중요한 목표 중 하나일 것입니다.

1.2 데이터 사이언스와 데이터 스토리텔링으로서의 데이터 저널리즘

앞서 이야기 한 것처럼, 데이터 저널리즘에 대한 명확한 정의는 없다고 보아도 무방합니다. 2010년대 후반 이후로 많은 학자들이 데이터 저널리즘을 어떻게 정의할 것인가에 대해서 많은 논쟁들을 해 왔지만, ’데이터’라는 말과 ’저널리즘’이라는 말 모두가 매우 모호한 말이다 보니, 그 합성어인 데이터 저널리즘이라는 말 역시 많은 사람들이 저마다의 방식으로 이해할 뿐입니다. 하지만, 우리가 경험적으로 ’데이터 저널리즘’은 대충 이런 것이라고 느끼고 있는 바는 있습니다. 그것을 저의 방식대로 요약하자면, ’데이터 사이언스를 이용한 보도 방식’이라고 할 수 있을 것 같습니다. 기자들의 전통적인 보도에서는 정보원과의 긴밀한 소통이 강조되었습니다. 그것이 직접 만남을 통한 것이든, 잠입을 통한 것이든, 전화 인터뷰를 통한 것이든, 기자들이 몸으로 뛰어 다니며 정보, 또는 정보원을 캐내는 그 물리적 과정이 참된 저널리스트의 미덕으로 여겨졌던 것이지요. 몸으로 뛰어서 정보를 캐내지 않고, 다른 기자나 다른 누군가가 생산한 정보를 가공해서 만들어낸 2차 보도를 낮추어 보는 것에는 아마 그런 이유도 있었을 것입니다.

하지만, 우리의 막연한 상상 속에서 데이터 저널리스트는 어떻게 보도를 하나요? 이들은 사무실에서 앉아서 글자와 숫자만 가득한 여러개의 모니터 앞에서 그래프를 만들어 내거나, 커다란 화이트 보드 앞에서 멋들어진 분석을 해내기 위한 토론을 하고 있지 않은가요? 사실 그것은 우리가 데이터 사이언티스트들에게 가지고 있는 스테레오타입 입니다. 그리고 이러한 상상은 다소 과장된 것이기는 하지만, 어느 정도는 사실입니다. 데이터 저널리즘이 막연하지만 무언가 대단히 다르게 느껴지는 이유는 정보를 얻는 방식도, 보도할 내용을 만들어 내는 방식도 전통적인 저널리즘의 그것보다는 데이터 사이언스의 그것에 대단히 가깝기 때문일 것입니다. 그리고 전통적인 저널리즘의 시각에서 보기에 이러한 방식은 ‘저널리즘’ 그 자체와 배치되는 것처럼 보일 수도 있고, 윤리적으로 옳지 않게 보일 수도 있고, 또 지나치게 ‘한가해’ 보일 수도 있겠죠. 전통적인 언론 조직에서 저널리즘이 잘 받아들여지지 않는 이유이기도 합니다.

위에서, 데이터 저널리즘이 ‘정보를 얻는 방식’과 ’기사를 생산하는 방식’에서 데이터 사이언스를 차용한다고 말했습니다. 사실 여러분들이 이 교재에서 배우게 될 핵심이죠. 그러면 데이터 사이언스에서 이 두 가지는 전통적인 보도와 어떻게 다를까요? 첫째, 데이터 사이언스는 이미 대중에게 공개되어 있는 정보를 얻습니다. 이것은 기자이기에 접할 수 있었던 정보를 수집하는 전통적인 보도 행위와 다르지요. 따라서, 데이터 저널리스트를 전통적인 의미에서 ’게이트키퍼’라고 부르기는 쉽지 않습니다. 하지만, 이미 공개되어있는 데이터를 이용한다고 그 데이터를 수집하는 것이 마냥 쉬운 것은 아닙니다. 어떤 경우에는 데이터가 분석하기 어려운 형태나 위치에 있거나, 너무 크거나(빅데이터), 또는 서로 관련이 없는 줄 알았던 이 데이터와 저 데이터가 함께 연결해야만 그 전에는 알지 못했던 함의를 도출할 수 있는 경우도 있습니다. 따라서 필요한 정보를 ’찾아서’, ‘분석할 수 있는 형태로 저장/가공하고’, ‘여러 정보를 잇는’ 작업이 필요합니다. 데이터 사이언스에서는 이를 information retrieval이라고 부릅니다. Information retrieval의 일반적인 번역어는 ’정보검색’인데요, 사실 이는 좋은 번역이라고는 할 수 없습니다. 물론 정보검색 하면 생각나는 검색창과도 관련이 있지만, 그것을 위해 필요한 웹스크레이핑, 크롤링, 인덱싱, 데이터베이싱, 추천 알고리즘 등을 모두 포괄하는 개념이기 때문이지요. 자세한 이야기는 나중에 하기로 하고, 일단 information retrieval이 전통적인 보도에서는 취재 과정에 해당한다고 볼 수 있고, 이것이 발로 뛰는 정보 수집은 아니지만, 그 나름대로 여러 난관과 그것들을 뚫어내기 위한 기술과 노력을 필요로 한다는 것 정도를 이해하면 될 것 같습니다.

둘째, 데이터 사이언스에서 전달할 내용을 생산하는 방식은 ‘시각화’와 ’데이터스토리텔링’에 의존합니다. 이는 ’글쓰기’가 중요하지 않다는 것을 의미하지는 않습니다. 대부분의 데이터 저널리즘 기반 보도에는 글과 스토리가 있어야만 합니다. 다만, 글의 핵심은 데이터 또는 데이터 분석의 의미를 잘 전달하는데 있다는 것, 그리고 그것을 달성하는데 필요한 것 이상의 텍스트는 최대한 생략하는 것이 좋다는 것이 ’데이터 스토리텔링’에서 대단히 중요한 원칙입니다. 데이터스토리텔링이 그러한 간결성을 추구하는 이유는 데이터 분석을 이용해 전달하려고 하는 정보가 이미 상당히 복잡하기 때문입니다. 여러분들 또한 독자이기에 느끼시겠지만, 독자는, 혹은 인간은 정말이지 한정된 집중력을 가지고 있습니다. 독자들은 기사를 보겠다고 스스로 기사 제목을 클릭했으면서도, 마치 조금만 지루하게 하면 그 기사로부터 도망갈 핑계를 찾고 있는 역설적인 존재들처럼 보이기도 하지요. 따라서, 아주 짧은 기사 조차 처음부터 끝까지 보도록 만드는 것이 대단히 어렵다는 것은 누구나 공감하실 것입니다. 그런 독자들에게 빅데이터를 분석한 결과를 쏟아낸다면 어떨까요? 그 기사를 처음부터 끝까지 만드는 것은 불가능하게 보이기도 합니다. 데이터 사이언스를 이용한 분석 결과는 그 결과조차 복잡한 경우가 허다하거든요. 그렇다면, 글쓰기가 기존의 기사 쓰기와 같아서는 안 될 것입니다. 애써 크고 복잡한 데이터를 훌륭하게 분석했다면, 그 분석 결과를 온젼히 전달하는데에도 많은 노력을 들여야 합니다. 그리고, 그 과정에서 글쓰기로 해결되지 않는 부분을 해결해 주는 것이 바로 ’그림’ 또는 시각화 입니다. 데이터 시각화란 언제든지 기사로부터 달아날 준비가 된 예민한 독자들을 어르고 달래 효과적으로 분석 결과를 전달하기 위한 그림 입니다. 따라서, 데이터 시각화에도 기술이 필요합니다. 물론 더 좋은 것은 간명한 글과 시각화가 잘 결합되어 복잡한 내용을 쉽게 전달하는 것입니다. 이를 ’데이터 스토리텔링’이라고 하는 것이고요.

따라서, 데이터 저널리즘은 데이터 사이언스를 이용한 저널리즘이다, 라는 정의를 조금 더 구체화하자면, 기존의 취재와 기사 쓰기를 정보검색(더 정확하게는 information retrieval)과 데이터 스토리텔링으로 대체한 저널리즘이라고 보아도 좋습니다. 다만, 이러한 저널리즘이 우리가 ’저널리즘’이라는 직종의 가치에 적합한 것인가를 따질 수는 있습니다. 여기서는 그런 복잡한 논의는 건너뛰기로 하지요. 아무튼 그러한 이유로 이 교재에서는 정보검색과 데이터 스토리텔링에 필요한 다양한 개념과 기술들을 배우게 될 것입니다.

1.3 데이터 저널리즘은 왜 필요한가

앞서 설명한 데이터 저널리즘이 갖추고 있는 요소들과 ‘데이터 사이언스를 활용한 저널리즘’이라는 일종의 정의가 데이터 저널리즘이 무엇인지를 이해하는 데에는 어느 정도 도움을 주지만, 아주 만족스러운 것은 아닙니다. 왜냐하면 그런 설명들은 데이터 저널리즘을 방법의 관점에서 바라보고 있기 때문에, 그로부터 어떤 데이터 저널리즘이 사회적으로 ’바람직한’ 데이터 저널리즘인지 이해하는 데에는 한계가 있기 때문이지요. 물론, 이 역시 정답이 있는 문제는 아니지만, 그것을 판단하기 위해서는 이제 데이터 저널리즘이 사회적 필요성에 대해서 조금 이야기해 볼 필요가 있습니다.

왜 ‘바람직한’ 데이터 저널리즘이 무엇인지 판단하기 위해서 그것의 ‘필요성’에 대해 이야기 하는 것일까요? 만약 데이터 저널리즘이라는 것이 사회적으로 그다지 필요하지 않은 일정의 기술적 유희에 불과하다면, 바람직한 데이터 저널리즘이란 것 자체가 형용 모순이기 때문입니다. 이미 기존의 저널리즘으로 충분하다면, 기자들이 데이터 사이언스를 배워야 한다는 구호는 한낱 유행이거나, 심지어 한정된 자원을 엉뚱한 곳에 쓰게 만드는 낭비에 가까울 것입니다. 만약, 그렇지 않고 데이터 사이언스가 세상의 변화로 인해 발생한 어떤 구멍을 메꾸기 위해 ’필요해진’ 것이라면, 우리는 그러한 사회적 필요성에 적합한 데이터 저널리즘을 ‘바람직한’ 데이터 저널리즘이라고 부를 수도 있겠지요.

데이터 저널리즘의 필요성으로 두 가지를 들 수 있을 것 같습니다. 첫째, 현대의 독자들은 ‘정보의 부족’이 아니라 ’정보의 과잉’ 때문에 양질의 정보를 소비하지 못하고 있다는 문제입니다. 전통적인 저널리즘은 시민들의 ‘정보의 부족’ 문제를 해결하기 위해 시민사회와 시장이 만들어낸 일종의 솔루션이었다고 볼 수 있습니다. 시민들은 접할 수 없지만, 나름의 조직과 자본을 갖추었을 때 접할 수 있는 정보, 즉, 기자만 접할 수 있는 정보가 있었던 것이지요. 따라서, 기자들은 그러한 정보들 중 독자들이 ‘읽을만 하다’라고 여기는 정보를 전달해 주는 ’게이트키퍼’ 역할을 했던 것입니다. 물론, 이러한 상황이 지금은 사라졌다고 볼 수는 없겠지마는, 최근의 독자들은 기자들이 접할 수 있는 정보에 똑같이 접할 수 있는 경우가 많습니다. 심지어 개인 유튜버들이 기자들보다 더 빨리 정보를 캐내고 기자가 이를 후속 보도하는 경우도 많지요. 하지만, 독자 입장에서 더 큰 문제는 쏟아지는 정보 중에서 어떤 정보가 의미있는 것인지 알기 어렵다는데 있습니다. 다들 먹고 사느라 바쁜데, 그 많은 정보들이 ’접근가능’하다고 해서 개개인에게 ’처리가능’한 것은 아니지요. 데이터 저널리즘이 필요한 것은 바로 이 지점 입니다. 데이터 저널리즘은 이미 접근 가능한 수많은 정보들 중 의미 있는 것들을 찾아내고, 연결해서, 숨겨져 있는 연관을 찾아내고, 그로부터 시민들이 주목해야 할 통찰을 끌어내는데 특화되어 있다는 점에서, 전통적 저널리즘과 다른 사회적 효용을 갖는 것입니다. 즉, 데이터 저널리즘은 지난 밤에 어떤 일이 일어났는지를 보도 했을 때 좋은 저널리즘이 되는 것이 아니라, 주어진 정보들이 어떤 의미를 갖는 것인지를 발견하고 이를 효과적으로 전달할 때 바람직한 저널리즘이 되는 것이라고 할 수 있습니다.

두 번쨰 데이터 저널리즘의 필요성은 과학 커뮤니케이션의 중요성이라고 할 수 있습니다. 따지고 보면, 세상이 참 많이 변해서 정치권에서 보수와 진보가 싸우는 주제가 참 많이 바뀌었습니다. 예전에는 노동정책, 복지정책, 큰 정부와 작은 정부 이런 것들이 보수와 진보를 나누는 키워드였죠. 물론 이런 주제는 여전히 중요합니다만, 최근에는 예전에는 과학만의 영역이라고 여겨졌던 주제들이 정치권에서 매우 중요한 논쟁 거리가 됩니다. 예컨대, 기후변화, 핵에너지, 환경 오염, 코로나19, 백신, 이런 것들이죠. 과학적 사실에는 옳고 그름이 있어 정쟁의 대상이 되지 않을 것 같지만, 사실은 그 반대입니다. 많은 사람들이 과학은 옳고 그름의 문제라고 생각하기 때문에, 자신이 믿는 ‘옳은’ 과학적 사실에 반대하는 상대방은 단순히 의견을 달리 하는 사람이라기 보다는 ‘바보’라고 믿기 때문이지요. 의견이 다르면 논쟁을 하면 되겠지만, 사람들은 ’바보’와 논쟁하려 하지 않습니다. 단지 배척할 뿐이지요. 이렇게 과학은 정쟁은 주요 대상으로 떠올랐습니다. 하지만, 문제는 과학적 ’사실’ 또는 ’발견’을 대중들에게 전달하는 것은 생각보다 어렵습니다. 앞서 이야기 한 백신의 효과에 대한 논쟁을 떠올려 보세요. 많은 사람들은 ’백신을 맞은 사람들 중에 코로나에 걸릴 확률’과 ’코로나에 걸린 사람들 중 백신을 맞은 사람들의 비율’의 차이를 잘 이해하지 못합니다. 이는 그것을 이해하지 못하는 사람들의 잘못이 아니라, 원래 인간의 두뇌는 과학을 이해하기 위한 그런 중요한 차이를 이해하는데 취약합니다. 이는 노벨 경제학상을 받기도 한 심리학자 다니엘 카네만(Daniel Kahneman)이 밝혀낸 사실이기도 하지요. 물론, 설명을 듣고 가만히 앉아서 5분, 10분 고민하면 누구나 이해할 수 있습니다. 하지만, 백신의 효과를 설명하는 여러분의 기사를 읽는 독자들 중에 몇이나 그런 시간과 공을 들여줄까요? 앞서 설명한 시각화, 데이터 스토리텔링 방법들은 복잡한 과학적 사실을 가능한 적은 자원을 이용하면서 이해할 수 있는 방식으로 독자들에게 전달하는 것을 목적으로 하고 있습니다. 앞서 본 파이낸셜 타이즘의 백신 보도가 그런 예이지요. 그러니, 좋은 데이터 저널리즘은 단지 멋진 시각화를 이용한 보도라기 보다는 그런 수단을 이용해 복잡한 사실을 쉽게 이해할 수 있는 방식으로 전달하는 것이라고 할 수 있겠습니다.

1.4 데이터 저널리즘의 전략

지금까지의 이야기를 종합하자면, 데이터 저널리즘은 첨단 기술의 발달로 복잡해져가는 세상을 이해하는데 도움을 중요한 역할을 할 수 있지만, 복잡한 내용을 전달하는 만큼 내용 전달에 더 큰 어려움이 따른다, 라고 할 수 있겠습니다. 따라서 데이터 저널리즘 보도를 위해서는 그 가치를 충분히 활용하기 위한 몇 가지 전략을 따르는 것이 도움이 됩니다. 기술적으로 주어진 데이터와 분석 결과를 어떻게 전달할 것인지에 대한이야기는 후에 ’데이터 스토리텔링’에 관한 장에서 하도록 하고, 어떤 스토리를 짜는 것이 데이터 저널리즘의 가치를 유용하게 활용할 수 있는가에 대한 이야기를 해 보도록 하겠습니다.

여기서 할 이야기는 앤드류 플라워(Andrew Flower)라고 하는 경제학자이자, 전 FiveThirtyEight의 데이터 사이언티스가 2017년에 한 강연을 바탕으로 해서 다소 수정, 보완을 거친 것입니다.

앤드류 플라워는 데이터 저널리즘 보도는 일반적으로 다음의 여섯가지 전략을 바탕으로 한다고 정리합니다.

새로움(Novelty)
예외성(Outlier)
전형성(Archetype)
추세(Trend)
예측(Forecast)
폭로/반박(Debunk)

첫번째, 새로움은 그 전에 보도에서는 사용하지 않았음직한 데이터를 이용하거나, 전혀 상관이 없을 것 같았던 다른 데이터들을 연결해서 새로운 통찰을 던져주는 것을 의미합니다. 데이터 저널리즘의 등장 배경에 이전에 비해 분석할 수 있는 데이터의 종류와 양의 증가와, 그러한 데이터를 분석하기 위한 분석 방법과 컴퓨팅 파워의 상승이 있다는 것을 생각해 보면, 새로움의 전략은 데이터 저널리즘의 본령, 또는 필요조건 이라고도 할 수 있습니다.

한국에서 좋은 데이터 저널리즘 보도를 지속적으로 내어놓고 있는 SBS 마부작침의 다음 기초의회 의원의 업무 추진비에 관한 기사를 볼까요? 마부작침 팀은 각 기초의회를 대상으로 정보공개청구를 하여 전국 226개 시군구 기초의회 의장단이 2년간 집행한 업무 추진비 17만 건 가량을 전수 분석했습니다. 이를 통해 몇몇 기초의회 구성원과 특정 식당 간의 유착 관계, 부당한 업무 추진비 집행, 업무 추진비 집행과 관련된 불투명성 문제들을 연속 기사로 발표했지요. 과거에는 가능할 것 같지 않았던 17만개 예산 집행 항목에 대한 보도는 정보공개청구라는 새로운 정보 수집 방법과, 데이터 과학의 방법론을 통해 가능해졌다고 할 수 있겠습니다.

마부작침 팀의 분석은 보도에 그치지 않았습니다. 제대로 감시 받지 않는 기초의원들의 회의비 지출도 문제지만, 사실 이는 지역 맛집을 알아내기 위한 매우 양질으 데이터이기도 합니다. 요즘 인터넷에서 찾을 수 있는 음식점 리뷰들은 도움이 될 때도 있지만, 젊은 사람들의 취향만을 반영하거나, 해당 서비스의 이용이 적은 지역에서는 정보의양이 적거나, 또는 음식점에서 리뷰 작성에 개입해 신뢰성이 떨어지는 경우도 많죠? 아마 숨겨져 있느 지역 맛집에 관해서 기초의원들의 회의비 지출 영수증 보다 양질의 빅데이터는 찾기 어려울 것입니다. 마부작침 팀은 이에 착안했는지, 자신이 위치한 지역 기초의원들이 가장 많이 회의비를 지출한 식당을 찾아내는 웹서비스를 제공했습니다.

두번째, 예외성 전략은 보도의 대상이 평균에서 벗어나는 예외적 현상임을 데이터를 통해 보여줌으로써 흥미로운 이야기를 만들어내는 것입니다. 다음은 FiveThirtyEight의 “리오넬 메시는 불가능의 영역에 있다(Lionel Messi Is Impossible”라는 제목의 기사에 실린 시각화 자료 입니다. 여기서 x축은 한 게임에 평균 쏘는 슛의 갯수, y축은 얼마나 많은 슛을 골로 연결했는지를 보여주고 있습니다. 각 점은 모두 한 명의 선수를 나타내고 있지요. 빨간 선은 슛을 쏘는 수와 골을 성공시키는 확률 사이의 ‘평균적인’ 인 관계를 보여줍니다. 즉, 슛을 쏘는 ‘양’이 많은 선수일 수록 슛의 ’질’도 평균적으로 높을 가능성이 크다는 이야기 이지요. 그 중에서도 기사는 두 명의 선수에 주목합니다. 바로 메시와 크리스티아누 호날두 이지요. 이 둘은 다른 선수들에 비해 그래프의 오른쪽에 뚝 떨어져 있지요? 슛을 압도적으로 많이 쏘는 선수라는 뜻입니다. 세계적인 공격수들이니 당연하지요. 그런데, 세계에서 슛을 가장 많이 쏘는 선수인 호날두는 빨간 선 아래 있지요? 이는 저만큼 슛을 쏘는 선수라면 어느 정도는 슛을 자주 성공시켜야 하는데 그에 미치지 못한다는 것입니다. 슛의 양이 높은데, 질이 그에 따라가지는 못한다, 더 안 좋게 이야기 하면 슛을 ’난사’한다고도 할 수 있겠네요. 메시는 어떤가요? 메시 역시 호날두 만큼은 아니지만 대부분의 선수들에 비해 슛을 많이 쏜다는 것을 알 수 있습니다. 그런데, 메시는 그만큼 슛을 쏘는 선수에게 기대하는 슛의 성공 확률에 비해 훨씬 더 높은 확률로 슛을 성공시키고 있습니다. 즉, 슛을 쏘는 양도 많지만, 슛의 질도 좋다는 것이지요. 즉, 메시는 아주 ’예외적인’ 존재라는 것입니다.

반대의 전략도 가능합니다. 오히려 보도의 대상이 예외가 아니라 평범한 현상임을 강조하는 세번째 전략, 전형성 전략이지요. 다음 보도 역시 FiveThirtyEight의 미국 미주리주에서 2014년 일어난 퍼거슨 소요에 대한 기사의 한 부분입니다.

퍼거슨 소요를 기억하실지 모르겠습니다. 2014년 비무장이었던 마이클 브라운 이라는 18세 흑인 청소년이경찰이 쏜 여러발의 총탄에 맞고 사망한 사건이 벌어진 후, 퍼거슨에서 격렬한 시위가 몇 주 동안 이어지고, 방화 약탈까지 일어나는 큰 소요사태였습니다. 이는 Black Lives Matter 운동의 중요한 촉매제가 되기도 했지요. 위 기사는 퍼거슨 이라는 도시에 주목하고 있습니다. 소요 사태에서 드러난 흑인들의 응축된 불만이 퍼거슨에 국한된 것인지를 보여주려는 것이지요. 위 그래프에서 x축은 각 도시의 중위 가구 소득을 의미합니다. y축은 흑인 가구의 중위 가구 소득과 와 백인 가구의 중위 가구 소득 사이의 비율 입니다. 1.0 이하의 수치는 해당 도시에서 흑인 가구가 백인 가구에 비해 적은 소득을 얻고 잇다는 뜻입니다. 흔히 알려져 있듯 그래프에 표시된 절대 다수의 도시가 1.0 아래에 있습니다. 그렇다면 퍼거슨은 어디에 있을까요? 바로 대부분의 도시가 모여있는 부분이 한 가운데에 있습니다. 즉, 퍼거슨은 미국의 다른 도시들보다 특별히 흑인이 못사는 도시도, 흑인들이 백인에 비해 상대적으로 박탈감을 느낄 도시도 아니라는 것입니다. 그야말로 미국 도시의 ’전형’에 불과하다는 것이지요. 그렇다면, 퍼거슨 소요 사태는 흑인 청년의 사망 사건을 촉발된 우연적 사건이라기 보다는 미국 사회의 구조적인 문제를 보여주는 사건이라고 할 수 있겠지요. 다른 평균적인 도시들에서도 발생할 수 있는 사태라는 점도 지적할 수 있겠네요.

네번째는 추세를 보여주는 전략입니다. 다시 말해 시간에 따른 경향성을 보여줌으로써 특정 변화가 일어나고 있다는 것을 보여주는 것입니다. 추세를 보여주는 데이터 활용 전략은 전통적인 보도에서도 자주 이용되던 전략입니다. 그러나 데이터 저널리즘은 이미 만들어진 데이터가 보여주는 추세, 예컨대 실업률, GDP 성장률, 범죄 발생 등의 추세를 보여주는데 그치지 않고, 여러 정제되지 않은 데이터 속에서 분석을 통해 추세를 발견하고 독자들에게 복잡성과 함께 단순화된 추세를 함께 전달하는 것을 지향하는 경우가 많습니다. 앞서 본 <여론M>의 기사가 좋은 예 입니다. 각 여론조사 기관들이 저마다 알려주는 추세가 너무도 다양해 독자들이 현실을 파악하기 어려우니, 각 많은 여론조사 결과가 만들어 내는 여론의 복잡성과 함께, 그들로 부터 도출한 단순화된 추세를 함께 시각화한 것이지요. 영국의 주간지 <이코노미스트>의 남극 얼음에 대한 다음 기사 역시 참조할만 합니다.

이 그래프는 위성사진 데이터를 이용해 매일매일의 남극 얼음 크기가 그날의 평균으로 얼마나 벗어나는지를 연도별로 보여줍니다. <여론M>이 보여주는 시각화처럼, <이코노미스트>의 이 시각화 역시 하루하루에 해당하는 데이터의 복잡함을 모두 보여줍니다. 이로부터 독자가 알 수 있는 것은 남극 얼음의 크기는 해마나 다르지만, 역사적으로 결국 어느 정도의 범위를 벗어나지는 않았다는 것입니다. 그러나 이 그래프에서 강조한 2022년과 2023년의 그래프는 기후에 대한 우려를 자아냅니다. 2022년의 그래프는 역사적인 변동의 ‘어느 정도의 범위’ 끝자락에 있다면, 2023년 그래프는 남극 얼음의 크기가 관측 역사에서 찾아볼 수 없을 정도로 작어져 있다는 것을 의미하기 때문이지요. 어떻게 보면, 이 시각화는 추세 전략과 예외성 전략을 동시에 사용하고 있다고 볼 수도 있겠네요.

다섯번째는 예측 전략 입니다. 예측은 과거에 일어난 일을 잘 분석하여 추세, 또는 여러 수치들이 만들어 내는 패턴을 파악해 미래를 예측하는 것입니다. 예측에 대해서는 아까 손흥민 선수의 ’기대득점’에 대해 이야기 하면서 언급했습니다. 전통적인 보도에서는 투자 전문가의 주식/부동산 가격 예측, 경제학 교수의 금리 변동 예상, 유명한 컨설팅 회사의 기술 예측 등, ’전문가 의견’을 이용하는 것이 흔히 이루어지는 예측 보도였지요. 이러한 보도들은 유용한 것도 있었지만, 사실 그 인용된 전문가의 의견이라는 것이 검증이 된 경우도 그렇지 않은 경우도 많았습니다. 또, 경제나 기술 발전에 대한 예측은 예측 모형의 복잡도도 매우 높을 뿐더러, 여전히 그 정확도가 매우 떨어집니다. 반대로 데이터 사이언티스트들이 비교적 쉽게 스스로 예측 모형을 구축할 수 있고, 그 정확도도 비교적 높은 영역이 바로 스포츠 영역 입니다. 그 때문에 최근 스포츠 보도에서는 선수의 행동 데이터와 예측 모형에 기반한 다음과 같은 예측에 기반한 보도들이 자주 이루어지고 있습니다.

마지막으로 폭로/반박 전략 입니다. 이 전략은 기존의 주장이나 편견을 반박하는 결과를 드러냄으로써 인식을 새롭게 하는 것을 노리는 전략입니다. 앞 서 언급한 것처럼, 데이터 저널리즘의 목적 중 하나가 데이터 과부하가 독자들에게 불러 일으키는 혼란스러움을 해결해 주는 것이라는 것을 상기시켜보면, 데이터 저널리즘이 증거를 통해 잘못된 지식이나 통념을 해소하려 하는 것은 자연스러운 수순이라고 할 수 있겠네요. 다음 시각화는 역시 FiveThirtyEight의 보도에서 가져온 것인데요, 우리가 흔히 보게 되는 “블루베리는 기억력 감퇴를 방지해준다”, “브로콜리는 사실상 마이너스 칼로리이다”와 같은 과학적 발견의 외양을 한 보고들이 얼마나 불안정한 측정치를 바탕으로 하고 있는지를 보여주는 기사 입니다.

식품이 신체에 미치는 영향을 과학적으로 검증하기 위해서는 관찰 대상이 되는 사람이 어떤 식품을 얼마나 먹었는지에 대해서 먼저 알아야 되겠지요? 이를 측정하는 방식에는 여러가지가 있습니다만, 가장 흔하게 사용되는 방식은 ‘식품섭취빈도법’, 또는 FFQ라고 불리는 방법입니다. 자세한 방식은 연구마다 다를 수 있지만, 기본적으로 지난 1년 또는 6개월간 해당 음식을 얼마나 자주 먹었는지를 물어보는 방식이지요. 이런 측정 방식은 사람의 장기 기억에 의존하기 때문에 대단히 부정확할 수 있을 것이라는 것은 흔히 생각해볼 수 있습니다. 그에 반해 측정이 어렵지만 더 정확한 방법이 있습니다. 식사기록법, 아래 기사에는 Food diary라고 표현되어 있는 방식이지요. 이는 조사 참여자가 일기를 적듯이 지난 24시간 동안 무엇을 먹었는지를 자세하게 적는 방식입니다. 이 방식은 더 정확하기는 하지만, 조사 참여자가 일기를 자세하게 적도록 유도하는 것도, 그 일기를 분석 가능한 숫자로 만드는 과정에도 대단히 비용이 많이 드는 방식입니다. 따라서, 현실적으로는 FFQ가 꽤 많이 사용됩니다.

위의 보도에서 폭로/반박을 위해 FiveThirtyEight은 아주 단순하게 세 명의 기자, 크리스티(Christie), 월트(Walt), 안나(Anna)에게 식품섭취빈도법과 식사기록법 두 가지를 모두 이용해 하루에 섭취한 칼로리를 계산하게 하였습니다. 세 기자 각각이 만들어낸 두 개의 측정치를 비교한 것이 바로 위의 시각화 결과 입니다. 하루 에너지 섭취량이 2,000 kcal을 언저리인데, 두 방법의 오차가 1,000 kcal까지 발생하네요. 그렇다면 FFQ에 기반한 그 많은 식품의 효과/부작용에 대한 보고들을 얼마나 믿어야 하는 것일까요?

----------------------------

여기까지 데이터 저널리즘이 무엇인지, 왜 필요한지, 그리고 데이터 저널리즘의 가치를 특별하게 하는 효과적인 전략에는 어떠한 것들이 있는지를 이야기했습니다. 하지만, 이러한 것들을 안다고 해서 데이터 저널리즘을 ‘어떻게’ 하는지를 알게 되었다고 볼 수는 없겠지요. 이 교재는 무엇보다 ’어떻게’에 관한 내용을 담으려 하고 있습니다. 따라서 다음 장부터는 데이터 저널리즘의 방법에 대한 이야기를 주로 하도록 하겠습니다.

앞서 데이터 저널리즘이 무엇인가에 대해 이야기 하면서, 데이터 저널리즘은 데이터 사이언스의 ‘방법’을 이용한 저널리즘이라는 언급을 했습니다. 하지만, ’데이터 사이언스’ 라는 용어 역시 ‘데이터 저널리즘’ 만큼이나 혹은 그 보다 더 자주 들어보았지만, 무엇인지 알 수 없는 용어이기도 하지요. 이 교재의 내용 상 그에 대해 자세히 이야기할 수는 없지만, 일반적으로 ’데이터 사이언스’는 컴퓨터 공학과 통계학 도구와 분석자의 관심 분야에 지식이 결합한 것이라고 말하는 경우가 많습니다. 이 교재의 맥락에서 분석자라고 한다면, 바로 기자일테니, 기자가 관심이 있는 사회 현상에 대한 지식과 컴퓨터 공학, 통계학의 도구를 결합한 것을 기자들의 데이터 사이언스, 즉 데이터 저널리즘이라고 할 수도 있겠네요. 비슷하게 앞서 언급한 앤드류 플라워는 데이터 저널리즘을 ’기한이 짧은 양적 사회과학 분석’이라고 정의하기도 했습니다.

따라서, 데이터 저널리즘을 잘 하기 위해서는 컴퓨터 공학, 통계학의 도구들을 잘 다루는 것이 먼저 중요합니다. 여기에 대해서는 앞으로 긴 시간을 들여 연습하게 될 것입니다. 하지만, 그 전에 사회 현상이라는 분석하고자 관심 분야를 컴퓨터 공학과 통계학이라는 과학적 도구와 연결시키는 방식 역시 알아야 합니다. 사회 현상은 아무 번역 작업 없이 컴퓨터가 분석할 수 있는 숫자로 표현할 수는 없기 때문이죠. 그래서 다음 장은 그 번역 방법에 대한 이야기를 조금 하려고 합니다. 이는 흔히 대학교 수업 시간에 <사회과학 방법론>, 또는 <사회조사 방법론>이라는 과목에서 배우는 내용과 유사한데요, 여기서는 데이터 저널리즘을 위한 최소한만을 복습한다는 느낌으로 읽어주시면 좋겠습니다.