사용자 프로필을 활용한 정치적 입장 판별 정확도 향상
초록
본 연구는 정치 포럼의 비공식적 글에서 정치적 입장을 판별할 때, 사용자의 과거 게시물을 요약한 프로필을 컨텍스트로 제공하면 LLM의 정확도가 크게 상승한다는 것을 실증한다. 7개의 최신 LLM을 baseline(본문만)과 프로필‑첨가 두 조건에서 비교했으며, 최적화된 프로필(정치 신호가 강한 10~20개 게시물) 사용 시 정확도가 17.5%~38.5% 상승해 최고 74%에 도달한다.
상세 분석
이 논문은 비공식 정치 토론에서 나타나는 풍자·모호·맥락 의존적 언어를 처리하기 위해 ‘사용자 수준 컨텍스트’를 LLM 프롬프트에 삽입하는 방법을 제안한다. 데이터는 politics.com 포럼에서 수집한 77,854개 게시물 중 정치적 성향이 명확히 표시된 257명의 사용자(56,035개 게시물)를 사용했으며, 각 사용자를 LEFT·RIGHT 두 클래스로 라벨링하였다. 프로필 생성 단계에서는 Gemini 2.0 Flash를 이용해 사용자의 과거 글을 모두(또는 선택된 일부) 요약하고, 정치적 성향, 주요 토픽, 언어적 특징 등을 JSON 형태로 정형화한다.
실험은 세 단계로 구성된다. ① 전체 게시물을 이용한 ‘최대 컨텍스트’ 실험으로, 프로필이 없는 baseline 대비 정확도가 24.538.5% 상승함을 확인했다. ② ‘컨텍스트 최적화’ 실험에서는 정치 신호 점수(일반·당파·핵심 이슈 용어 가중치) 기반 선택, 무작위 선택, 논란 토픽 우선 등 다섯 가지 전략과 150개의 게시물 수를 조합해 40가지 조건을 테스트했다. 결과는 정치 신호가 높은 10~20개의 게시물이 가장 효율적이며, 게시물 수가 과도하게 늘어날 경우 토큰 제한과 잡음 증가로 성능이 포화되는 것을 보여준다. ③ ‘교차 모델’ 실험에서는 Claude 3.7 Sonnet, Grok‑2‑1212B, GPT‑4o Mini, Mistral Small‑24B, LLaMA 3.1‑70B, Qwen, Gemini 2.0 Flash 등 7개 LLM을 동일한 최적화된 프로필(PoliticalSignalSelection + 20개 게시물)으로 평가했다. 모든 모델이 프로필을 활용했을 때 정확도 상승을 보였으며, 특히 GPT‑4o Mini와 Gemini Flash가 가장 큰 개선폭(≈38%)을 기록했다.
핵심 인사이트는 (1) 사용자 수준 메타데이터가 LLM의 암묵적 추론을 보조해 풍자·모호성을 해소한다는 점, (2) 컨텍스트 양보다는 질이 중요하므로 정치적 신호가 강한 소수 게시물만 선택해도 충분하다는 점, (3) 모델 아키텍처에 관계없이 프로필 기반 프롬프트가 일관된 이점을 제공한다는 점이다. 한계로는 프로필 생성에 별도 LLM을 사용함으로써 비용이 증가하고, 개인정보 보호와 윤리적 사용에 대한 논의가 필요하다는 점을 들 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기