LLM은 허위정보 취약성을 과대평가하고 네트워크 요인을 무시한다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 실제 설문 응답자를 모델링한 프로파일을 LLM에 입력해 허위정보에 대한 믿음·공유 의도를 시뮬레이션하고, 인간 응답과 비교한다. LLM은 전체적인 응답 분포는 어느 정도 재현하지만, 믿음과 공유 사이의 연관성을 과도하게 강조하고, 개인 네트워크 변수의 영향을 거의 반영하지 않는다. 이는 LLM이 훈련 데이터에서 태도·행동 변수에 편향된 표현을 학습했기 때문이며, LLM 기반 설문 시뮬레이션은 인간 판단을 대체하기보다 편향을 진단하는 도구로 활용하는 것이 적절함을 시사한다.

상세 분석

본 논문은 세 개의 공개 설문 데이터(공중보건, 기후변화, 팬데믹 정치)에서 수집된 1,571명의 응답자를 대상으로, 각 응답자의 인구통계·태도·행동·이그오센트릭 네트워크 정보를 구조화한 프로파일을 생성하였다. 이러한 프로파일을 LLM에 프롬프트로 제공하고, 동일한 허위 주장에 대해 ‘정확도(1‑7)’와 ‘공유 의향(1‑7)’을 물었다. 실험에 사용된 모델은 다양한 규모와 아키텍처, 공개·폐쇄형, 체인‑오브‑쓰 생각 유도 여부 등을 포함했으며, 프로파일 블록 순서와 복합 점수 제공 방식 두 가지 변형을 적용해 견고성을 검증하였다.

분석은 크게 세 단계로 진행되었다. 첫째, 인간 응답과 LLM 응답의 분포 차이를 Jensen‑Shannon Divergence와 Earth Mover’s Distance로 정량화했으며, 전반적으로 JSD는 0.12‑0.18, EMD는 0.45‑0.62 수준으로 완전 일치는 아니었지만 큰 틀에서는 유사함을 보였다. 둘째, 각 설문 항목별 인간·LLM 응답 간 Pearson 상관을 구했을 때 평균 r≈0.46으로 중간 정도의 상관관계가 있었으나, 특히 ‘공유 의향’에서는 r≈0.31에 불과해 인간과의 일치도가 낮았다. 셋째, 선형 회귀와 LASSO 모델을 각각 인간 응답과 LLM 응답에 적용해 설명력(R²)과 변수 중요도를 비교했다. 인간 데이터에서는 네트워크 변수(친구·가족 토론 비중, 이질성 지표)가 전체 R²의 22%를 차지했으나, LLM 데이터에서는 네트워크 변수 기여도가 3% 이하로 급격히 감소했다. 반면, 신뢰도·정치적 성향·건강·과학 리터러시와 같은 태도·행동 변수는 LLM 모델에서 과도하게 가중되어 전체 R²의 58% 이상을 설명했다.

이러한 차이는 두 가지 메커니즘으로 해석된다. 첫째, LLM은 사전 학습 단계에서 대규모 텍스트 코퍼스에 포함된 ‘믿음‑공유’ 연관성을 과도하게 학습했으며, 특히 “믿는 사람은 공유한다”는 단순화된 인과관계를 내재화했다. 둘째, 개인 네트워크에 관한 구체적 서술은 훈련 데이터에서 상대적으로 드물고, 구조화된 형태가 부족해 모델이 이를 무시하거나 일반화된 평균값으로 대체하는 경향을 보였다. 저자들은 LLM이 생성한 ‘추론’ 텍스트를 분석해 “사람들은 믿는 정보를 공유한다”는 문구가 빈번히 등장함을 확인했으며, 이는 모델이 인간의 복합적 동기(정체성 표현, 오락 등)를 반영하지 못하고 단순 신념 기반 판단에 머무른다는 점을 시사한다.

결론적으로, LLM 기반 설문 시뮬레이션은 거시적 분포 재현과 일부 주요 태도 변수의 추정에는 유용하지만, 네트워크 효과와 공유‑믿음 간 미세한 차이를 포착하는 데 한계가 있다. 따라서 LLM을 인간 판단의 대체 수단으로 쓰기보다는, 인간 데이터와의 편차를 진단하고 모델의 구조적 편향을 탐색하는 보조 도구로 활용하는 것이 바람직하다.

LLM은 허위정보 취약성을 과대평가하고 네트워크 요인을 무시한다

초록

상세 분석

댓글 및 학술 토론

의견 남기기