장기 시계열 내용 분석을 위한 뉴스 빅데이터 분석의 활용 가능성 - 100만 건 기사의 정보원과 주제로 본 신문 26년
한국언론학보 | 한국언론학회 | 56 pages| 2016.11.15| 파일형태 :
조회 1276 다운로드 0
자료요약
언론학계에서는 의제설정 연구를 비롯하여 적지 않은 시계열 내용 분석 연구가 이루어졌다. 그동안 시계열 방법론 측면에서는 많은 발전이 있었지만 수작업에 의존하는 전통적 내용 분석 방법으로는 대규모 내용 분석에 난관이 많았다. 이 연구는 본격적인 장기 시계열 연구를 수행하기 위해 자연어 처리와 의미연결망 분석이 결합된 뉴스 빅데이터 분석을 활용할 것을 제안한다. 또한 26년치(1990~2015) 8개 중앙지(〈경향신문〉, 〈국민일보〉, 〈동아일보〉, 〈문화일보〉, 〈서울신문〉, 〈세계일보〉, 〈한겨레신문〉, 〈한국일보〉)의 정치와 사회면 기사 약 100만 건에 대해 분석했다. 기사는 한국언론진흥재단 뉴스 빅데이터 시스템인 ‘빅카인즈’를 활용하여 수집하고 자연어 처리한 뒤 기사의 정보원과 인용문 주제 중심으로 의미연결망 분석을 실시하여, 매체별로 정보원과 주제의 시계열적 변화를 살펴보았다. 분석 결과, 사회면 주제를 제외하면 중요도 최상위권 정보원과 주제의 매체 간 차이는 크지 않았던 반면, 시계열적으로는 2000년 전후로 가장 중요한 정보원과 인용문 주제가 전면적으로 변화하는 양상을 보였다. 기사당 정보원 수와 기사당 인용문 주제 수는 매체별로 다소 차이는 있지만 대체로 하락했다. 이 연구는 뉴스 빅데이터 분석을 활용해 수집된 온라인 기사 전수에 대해 지속적으로 모니터링하면서 자동화된 장기 시계열 내용 분석 데이터를 축적할 수 있을 뿐만 아니라, 이를 바탕으로 경제지표 등 다양한 시계열 데이터와 정교한 비교연구를 할 수 있는 토대를 마련했다는 데 의의를 갖는다.

Time series content analysis in communication studies such as agenda setting theory is increasingly popular. There have been methodological advances in time series analysis. However, it is impossible to do content analysis for a large number of news articles with traditional manual techniques. This study suggests news big data analytics for automated time series content analysis in a long term, mixing natural language processing (NLP) and semantic network analysis of news. A pilot study focusing on news sources and quotes’ topics is also conducted analyzing news about political or social issues. Around one million news articles for 26 years (1990~2015) are collected from 8 major nationwide Korean dailies including Kyunghyang Shinmun, Kukmin Ilbo, Donga Ilbo, Munhwa Ilbo, Seoul Shinmun, Segye Ilbo, Hankyoreh, and Hankook Ilbo. NLP with ‘BigKinds’, a news big data analysis database developed by Korea Press Foundation, and semantic network analysis with independent development tools are used. Studies showed that less differences among newspapers and complete time series changes between 1990s and 2000s were found in the most important sources and topics except for topics in society section. The number of sources and topics per article has decreased in general. Sophisticated automated times series content analysis in a long term enables researchers to monitor the press system as a whole and to compare other time series data such as many economic indexes.
목차
1. 문제 제기
2. 시계열 내용 분석에 대한 기존 문헌 검토
3. 뉴스 빅데이터 분석 활용 장기 시계열 내용 분석 방법의 제안
4. 분석 사례 : 100만 건 기사의 정보원과 주제 분석으로 본 신문 26년
5. 결론 및 함의
참고문헌
Abstract
자동화된 장기 시계열 내용 분석 뉴스 자연어 처리 뉴스 의미연결망 분석 뉴스 빅데이터 분석 빅카인즈 automated times series content analysis natural language processing of news semantic network analysis of news news big data analytics BigKinds
저작권 안내 및 사용범위와 규정
  • 위 정보 및 게시물 내용의 불법적 이용, 무단 전재, 배포는 법적으로 "금지되어" 있습니다.
  • 저작권 침해, 명예훼손 등 분쟁요소 발견시 하단의 “고객센터”를 이용해주세요.
  • 기타는 저작물의 등록자가 정하는 사용 범위와 규정에 준합니다.
  • 위 자료는 가 저작권을 관리하고 있습니다.