신문 기사는 이제 더 이상 솔직하고 객관적인 정보를 제공하지 못하는 경우가 많아졌습니다. 이로 인해 독자들은 특정 사건에 대한 주관적인 판단을 내리는 데 어려움을 겪고 있습니다. 일부 머신러닝 접근법은 기만적인 뉴스를 감지하는데 사용되었지만, 대부분의 방법이 검증 과정에서 인간에게 제공하는 정보가 제한적입니다. 본 논문에서는 SirenLess라는 시각화 분석 시스템을 소개합니다. 이 시스템은 언어학적 특징을 활용하여 기만적인 뉴스를 감지하고 그 구조를 탐색할 수 있는 새로운 상호작용 도구입니다. 우리는 18개의 다른 출처에서 가져온 뉴스 기사를 분석하여 기만적인 뉴스 감지를 위한 유용한 패턴을 요약했습니다. 또한 저널리즘 전문가와 대학 학생들을 대상으로 사용자 연구를 수행하여 우리의 시스템이 얼마나 효과적이고 유용한지 확인했습니다.
This paper introduces SirenLess, a new visual analytics system designed to detect misleading news articles by analyzing their linguistic features. The main issue addressed is the increasing prevalence of biased and deceptive content in news articles that makes it difficult for untrained readers to make objective judgments. While machine learning approaches have been proposed, they often provide limited human-readable evidence.
SirenLess uses various linguistic features such as sentiment distribution, article subjectivity, readability grade, and discourse mode to analyze news articles. The system provides visualizations of these features, allowing users to easily understand the content and detect misleading patterns. For instance, it shows how certain characters or topics are associated with emotional sentences, which can indicate biased reporting.
The researchers analyzed 18 news articles from different sources using SirenLess and summarized useful patterns for detecting misleading news. A user study involving journalism professionals and university students confirmed that the system is effective and useful in identifying deceptive content.
SirenLess is a valuable tool for enhancing media literacy by helping readers identify biases and detect misinformation more effectively. It can be used not only in academic research but also in journalism education and practical applications to improve news quality and public trust.
## 서론
신문 기사의 상업화와 대중화로 인해 그 권위와 신뢰성이 이제 의심받고 있습니다. 특정 목적으로 독자들을 유도하려는 의도를 가진 글을 쓰는 작가들이 드물지 않습니다. 그러나 이를 감지하고 객관적인 판단을 내리는 것은 훈련받지 않은 독자들에게 어려운 작업입니다. 학계에서는 “가짜 뉴스”, “허위 정보”, 그리고 “클릭 유도 기사"에 대한 열띤 논의가 있었지만, 이 문제를 해결하는 보편적인 방법은 아직 없습니다. 또한 시각화 연구는 이 분야에서 거의 이루어지지 않았습니다.
많은 NLP(Natural Language Processing) 연구자들이 가짜 뉴스와 속임수 정보를 감지하기 위한 선구적 작업을 수행해 왔습니다. TF-IDF(Term Frequency-Inverse Document Frequency), 확률 문맥 자유문법(PCFGs, Probabilistic Context-Free Grammars) 및 결합된 특징 집합 같은 다양한 접근법들이 자동적인 특징 추출과 분류에 초점을 맞추고 있습니다. 이러한 방법들은 대량의 정보 필터링에는 유용하지만, 수작업 라벨링 비용이 높아 작은 샘플로 제한됩니다. 또한 머신러닝 접근법은 검증 과정에서 인간에게 제공하는 정보가 제한적이기 때문에 개별 사례에서는 도움이 적습니다.
시각화 접근법은 미신 정보 감지에 효과적인 해결책일 수 있습니다. 시각화는 인간 친화적이고 명확하기 때문입니다. 그러나 이 문제의 복잡성과 계산 도구 부족으로 인해, 이를 시각적으로 다루려는 솔루션은 거의 제안되지 않았습니다.
본 논문에서는 SirenLess라는 뉴스 진실성 평가 시스템을 소개합니다. 이 시스템은 언어학적 단서를 중심으로 구성되어 있습니다. SirenLess는 뉴스 기사에서 다양한 언어학적 특징을 자동으로 추출하고 이를 시각화 채널에 인코딩합니다. 또한 주요 정보인 뉴스 캐릭터와 토픽의 분포를 보여줍니다. 이 도구는 독자가 뉴스 기사의 진실성을 쉽게 평가하고, 속임수를 감지하는 데 도움을 줄 수 있습니다.
관련 연구
가짜 뉴스와 허위 정보에 맞서는 것은 모든 문명 사회에서 중요한 작업입니다. Lazer는 가짜 뉴스의 본질과 영향에 대한 좋은 소개를 제공했습니다. 그는 가짜 뉴스의 부정적인 효과를 완화하기 위해 독자가 가짜 뉴스를 평가할 수 있도록 도와주는 기술적 솔루션이 필요하다고 제안합니다.
특히 위험한 종류의 가짜 뉴스는 독자들을 특정 뉴스 스토리에 감정적으로 유도하고 극단주의 행동으로 이끄는 것입니다. 이러한 악의적인 의도를 다루기 위해, 수사 구조와 대화 분석이 주요한 방향성을 제시합니다. 거짓 뉴스 기사는 진실된 뉴스에 비해 뚜렷하게 다른 수사 구조를 가집니다. 독자들을 행동으로 이끌기 위해 이러한 기사는 감정적으로 독자를 겨냥하며, 이를 ‘감성 미디어’라고 부릅니다. 특히 백신 거짓 정보는 자녀의 불행한 원인을 설명하고 싶어 하는 절망적인 부모들에게 매우 효과적입니다.
가짜 뉴스 확산에 대한 분석에는 많은 노력을 기울였습니다. 이를 통해 허위 정보의 확산 패턴과 그에 기여하는 요소를 포착하려고 시도했습니다. 소셜 미디어 플랫폼을 분석하면, 가짜 뉴스는 독자들이 공유하거나 답변하도록 만드는 새로운 방식으로 잘 만들어집니다. 하지만 반증되면 확산은 즉시 중단됩니다.
가짜 뉴스의 전달 과정 대신 뉴스 기사 자체의 내용을 분석하면 작성자의 악의적인 의도를 알 수 있습니다. 자동 속임수 감지에 대한 실험적 시도는 희망적인 결과를 보여주었습니다. Feng 등은 다양한 제품 리뷰 데이터셋에서 80%에서 90%의 정확도를 달성했습니다. 또한 Rubin과 Lukoianova가 수행한 연구에서는 속임수 이야기와 진실된 이야기가 수사 구조 특징 공간에서 분리될 수 있음을 보여주었습니다.
가짜 뉴스 감지에 대한 자동화 접근법 대신, 인간 독자들이 마주치는 모든 가짜 뉴스의 신뢰성을 평가할 수 있는 능력을 제공하는 것이 중요합니다. FactCheck.org와 PolitiFact 같은 사실 확인 웹사이트는 기사에서 주장한 내용을 확인하고 있으며, Ad Fontes Media는 다양한 뉴스 출처를 그들의 신뢰성과 편향성을 기준으로 평가합니다. 더욱이 교육은 오보로 인한 손상을 방지하는 가장 중요하고 효과적인 방법입니다. University of Washington에서 제공하는 코스는 이를 잘 보여주는 예시입니다.
본 연구는 의심스러운 뉴스 기사에서 왜곡 의도를 찾아내기 위해 독자에게 스타일로미트리 분석을 제시함으로써 이 부르짖음에 화답합니다.
설계 목표
본 연구의 주요 목표는 뉴스 기사에서 중요한 언어학적 특징을 탐색하여 진실성을 평가하는 것입니다. 우리의 디자인은 실제 경험과 요구사항으로부터 영감을 받았으며, Conroy 등이 수행한 자동 속임수 감지에 대한 조사로 더욱 강화되었습니다.
언어학적 특징 정보를 최대한 전달하면서 동시에 일반 사용자가 이해하기 쉬운 시각 채널을 만들기 위해 다음의 설계 목표를 설정했습니다.
G1: 뉴스 기사의 언어 사용에 대한 간략한 개요 제공.
가짜 뉴스 감지 이론에 따르면, 주관적인 작가는 언어를 전략적으로 사용하여 들키는 것을 피하려고 합니다. 뉴스 기사의 언어 사용을 공개함으로써 우리는 일반 독자가 불신용 뉴스 기사의 가능성 있는 언어 누출을 쉽게 찾아낼 수 있도록 지원합니다. 이를 통해 다음 네 가지 시각화 작업을 구현했습니다: 서술 모드, 감성, 주관성 및 가독성 수준의 시각화(T1, T2, T3, T4).
G2: 뉴스 메타데이터를 제공하여 사용자가 그 의미 구조를 이해할 수 있도록 도와줍니다.
언어 사용 정보는 일반 텍스트가 NLP 알고리즘에 의해 처리되어 추출된 2차적 정보로 간주됩니다. 독자들이 뉴스 스토리의 의미 구조와 작문 전략을 더 잘 이해할 수 있도록, 캐릭터 및 키워드 같은 추가 메타데이터도 중요한 참고 자료로 사용자에게 제공해야 합니다.
G3: 사용자가 기사 원본 텍스트에 직접 접근하고 참조하게 합니다.
연구에 따르면 스크립트의 세밀한 분석을 통해 컨텍스트 정보를 더 깊게 분석할 수 있습니다. 높은 수준의 추상적 시각 요약은 뉴스 기사 분석에 유용하지만, 궁극적으로 그것은 보조 수단일 뿐이며 최종 판단은 여전히 원본 텍스트를 바탕으로 독자가 내려야 합니다.
이러한 설계 목표와 현재 사용 가능한 NLP 기술을 바탕으로 다음의 네 가지 주요 시각화 작업을 도출했습니다.
T1: 기사의 감성 및 서술 모드 분포를 드러냅니다.
우리는 각 문장과 연관된 감성과 서술 모드를 시각화합니다. 또한 빠른 참조를 위한 집계된 보기도 제공합니다.
T2: 기사의 추정된 주관성 및 가독성 수준을 식별합니다.
본 작업에서는 Flesch 읽기 용이도 테스트를 사용하여 가독성 수준을 평가했습니다.
T3: 기사 내 캐릭터와 키워드 발생 횟수를 식별하고 비교할 수 있도록 합니다.
사용자가 선택/제외할 수 있는 기능을 제공합니다.
T4: 원본 텍스트를 제공하고 문장을 시각화 엔티티와 연결할 수 있도록 합니다.
이러한 작업들의 구현은 시스템 설계 섹션에서 자세하게 설명됩니다.
시스템 및 데이터
데이터 처리
SirenLess가 사용자에게 유용한 도구가 되도록 하기 위해, 우리는 일반 텍스트로부터 고수준 의미를 추출하는 자동 데이터 처리 파이프라인을 구축했습니다. 이는 서술 모드, 감성, 가독성, 주관성, 캐릭터 및 키워드 분석을 포함합니다. 평균적으로 원본 텍스트로부터 모든 요구되는 데이터를 생성하는 데 15-20초가 소요되지만, 기사의 길이에 따라 이 숫자는 달라질 수 있습니다.
서술 모드 분석.
일반적인 텍스트 분석에서 수사적 모드는 서술, 설명, 설명 및 논쟁으로 4개로 구분됩니다. 이러한 분류법은 일반 목적으로 적합하지만, 뉴스 기사의 범위가 좁아지면 더 나은 성능을 보이는 수정된 분류법이 필요합니다. 일반적인 분류법과 Tom Wolfe의 이론을 고려하여, 우리는 뉴스 수사 모드를 다음과 같이 5개 카테고리로 분류했습니다: (1) 서술: 이야기의 가장 중요한 부분으로 작가의 스토리 해석; (2) 논쟁: 작자의 분석 및 아이디어; (3) 인용: 개인의 발언을 직접 반복; (4) 설명: 원래 장면을 재구성하기 위한 세부적인 묘사; (5) 배경: 독자가 현재 이야기를 이해할 수 있도록 확인된 사실 정보.
우리는 상태 최신 방법을 사용하여 문장 분류 작업을 완료했습니다. 이 방법은 다중 레이블 신경 시퀀스 라벨링 모델을 사용한 수사 모드 식별에 초점을 맞추고 있습니다. 우리의 수사 모드 분류법은 해당 논문의 그것과 약간 다르지만, 신경망에서 학습해야 하는 특징이 동일하기 때문에 출력 계층을 수정하여 뉴런 수를 4개에서 5개로 증가시켰습니다. 이 모델은 평균 F1 점수가 0.7입니다.
기타 의미 분석.
우리는 gensim, NLTK 및 SpaCy와 같은 자연어 처리에 널리 사용되고 견고한 API를 사용하여 일반 텍스트로부터 기타 의미를 추출했습니다. 우리는 LDA 모델을 사용하여 기사의 가능한 주제 설명을 얻었습니다. 여기서 주제는 키워드 시퀀스로 표현됩니다.
학습 데이터
우리는 Fox News, ABC 뉴스, New York Times 및 The Economist와 같은 다양한 채널에서 312개의 뉴스 기사를 수집하여 훈련 데이터에 대한 편향을 최소화했습니다. Pew 연구 센터의 작업을 참조하여, 극단적이고 균형 잡힌 뉴스 기사가 상대적으로 고르게 분포하도록 대략적인 사전 필터링을 수행했습니다.
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.
저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.