가짜 뉴스 탐지의 새로운 지평 LLM 기반 도메인 인식 사용자 모델링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 소스 도메인의 지식을 타겟 도메인으로 전이하는 크로스 도메인 가짜 뉴스 탐지(CD-FND)에서, 타겟 도메인이 사전에 알려지지 않은 ‘미지의 도메인’인 더욱 도전적인 시나리오를 다룹니다. 기존 방법은 뉴스 콘텐츠와 사용자 참여의 고수준 의미를 충분히 모델링하지 못하고, 미지 도메인에서 레이블 데이터가 부족하다는 한계를 지닙니다. 이를 해결하기 위해 LLM의 잠재력을 활용한 ‘DAUD’ 프레임워크를 제안합니다. DAUD는 LLM을 통해 뉴스의 고수준 의미를 추출하고, 사용자의 단일 및 교차 도메인 참여를 모델링하여 도메인 인식 행동 표현을 생성합니다. 또한 원본 데이터 기반 특징과 LLM 생성 특징 간의 관계를 포착하여 더욱 신뢰할 수 있는 도메인 공유 표현을 학습함으로써, 미지 도메인으로의 지식 전이 성능을 향상시킵니다. 실제 데이터셋 실험을 통해 일반 및 미지 도메인 CD-FND 설정 모두에서 최신 기법을 능가하는 성능을 입증했습니다.

상세 분석

본 논문이 제안하는 DAUD 프레임워크의 기술적 혁신성과 핵심 통찰은 다음과 같이 분석됩니다.

첫째, LLM을 활용한 고수준 의미 추출의 전략적 적용에 있습니다. 기존 CD-FND 방법은 어휘, 스타일, 확산 패턴 등 표층적 특징에 의존하여 미지 도메인에서의 일반화에 한계가 있었습니다. DAUD는 LLM의 강력한 의미 이해 능력을 활용해 뉴스 콘텐츠를 ‘요약’하고, 사용자의 역사적 참여 기록을 바탕으로 ‘도메인 인식 사용자 프로필’을 생성합니다. 이는 “키 인물 변경”, “공중보건 위기"와 같은 추상적이고 도메인을 초월하는 고수준 주제를 포착함으로써, 표층적 언어적 차이에 덜 민감한 강건한 표현을 가능하게 합니다.

둘째, 도메인 인식 사용자 에이전트(Domain-Aware User Agent)를 통한 행동 모델링이 핵심 기여점입니다. 단순히 사용자 속성(성별, 직업 등)을 프롬프트에 입력하는 기존 LLM 방식과 달리, DAUD는 사용자가 실제로 참여(댓글, 리포스트)한 역사적 뉴스들의 LLM 생성 요약을 집계하여 개인화된 사용자 프로필 임베딩을 생성합니다. 더 나아가, 사용자의 단일 도메인 내 참여뿐만 아니라 여러 도메인에 걸친 참여(Cross-Domain Engagements)를 모두 고려합니다. 이를 통해 특정 사용자가 정치, 경제, 건강 등 다양한 분야의 뉴스에 대해 보이는 일관된 관심사나 반응 패턴(예: 권위적 출처 선호, 감정적 어조 반응)을 포착할 수 있으며, 이는 미지 도메인의 새 뉴스에 대한 해당 사용자의 참여를 예측하는 데 중요한 신호로 작용합니다.

셋째, 데이터 기반 특징과 LLM 생성 특징의 관계 모델링을 통한 신뢰성 강화 전략이 돋보입니다. LLM이 생성한 요약이나 프로필은 때때로 환각(Hallucination) 정보를 포함할 수 있어 신뢰성이 떨어질 수 있습니다. DAUD는 이 문제를 DSRA 모듈에서 정교하게 해결합니다. 뉴스 텍스트의 원본 임베딩(데이터 기반)과 LLM 생성 뉴스 요약 임베딩, 사용자 ID/메타데이터 기반 임베딩과 LLM 생성 사용자 프로필 임베딩, 실제 참여 기록과 LLM 예측 참여 특징 간의 세 가지 수준(뉴스, 사용자, 참여)에서 관계를 모델링합니다. 교차 주의(Cross-Attention) 메커니즘 등을 통해 이러한 쌍별 특징들을 정렬(Alignment)하고 융합함으로써, LLM의 창의적 추론 능력과 실제 데이터의 객관적 신호를 최적으로 결합합니다. 이는 LLM 생성 특징의 불안정성을 보완하고, 순수 데이터만으로는 포착하기 어려운 고수준 의미를 보강하는 시너지 효과를 창출합니다.

결론적으로, DAUD는 단순히 LLM을 특징 추출기로 사용하는 것을 넘어, 1) 도메인 변화에 강건한 고수준 의미 추출, 2) 사용자의 교차 도메인 행동을 포괄적으로 모델링하는 에이전트 설계, 3) 생성된 지식과 관측된 데이터의 신뢰성 균형을 맞추는 관계 기반 정렬이라는 세 가지 층위에서 미지 도메인 CD-FND 문제에 대한 체계적이고 실용적인 해법을 제시합니다. 이는 가짜 뉴스 탐지뿐만 아니라, 사용자 행동 예측, 개인화 추천 등 다른 크로스 도메인 추천 및 분석 과제에도 중요한 방법론적 통찰을 제공할 수 있습니다.

가짜 뉴스 탐지의 새로운 지평 LLM 기반 도메인 인식 사용자 모델링

초록

상세 분석

댓글 및 학술 토론

의견 남기기