대형 언어 모델을 활용한 유럽 의회 투표 행동 시뮬레이션

대형 언어 모델을 활용한 유럽 의회 투표 행동 시뮬레이션
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 제로샷 퍼소나 프롬프트를 이용해 LLM이 2024년 유럽 의회 의원들의 개별 투표를 예측하도록 실험한다. Llama‑3와 Qwen 시리즈 모델을 다양한 퍼소나 구성(속성 기반 vs 위키피디아 요약)과 추론 방식(텍스트 추론 포함 vs 직접 선택)으로 테스트한 결과, 가장 큰 Llama‑3‑70B 모델이 속성 기반 퍼소나와 추론 체인을 결합했을 때 가중 F1 = 0.793을 달성하였다. 모델은 주로 ‘찬성’ 투표를 과대 예측하고, ‘기권’ 예측이 약하지만, 정당 그룹 라인 예측에서는 86 % 이상의 정확도를 보였다.

상세 분석

이 연구는 LLM이 정치적 편향을 보완하고 실제 정치인 행동을 모사할 수 있는지를 검증하기 위해, ‘퍼소나 프롬프트’라는 기법을 적용하였다. 데이터는 HowTheyVote 프로젝트에서 수집한 2024년 유럽 의회의 47개 주요 롤콜 투표와 710명의 MEP(의원) 개별 투표 기록(총 27,770건)으로 구성되었다. 각 MEP에 대해 두 종류의 퍼소나를 생성했는데, 하나는 이름·성별·연령·출생지·대표 국가·유럽 그룹·국가 정당 등 구조화된 속성을 나열한 짧은 설명이고, 다른 하나는 Llama‑3‑70B가 자동 요약한 위키피디아 기사이다.

프롬프트에는 제안서 요약 대신 각 유럽 그룹 대표의 연설문을 무작위 순서로 삽입해, 그룹 입장을 직접 밝히지 않으면서도 양측 논거를 제공하였다. 모델은 ‘FOR’, ‘AGAINST’, ‘ABSTENTION’ 중 하나를 선택하도록 요구받았으며, 추론 체인(텍스트 이유)을 포함하는 방식(r)과 직접 선택(nr) 두 가지 변형을 실험했다. 온도는 0.6, 각 퍼소나당 3회 반복하여 평균 가중 F1을 성능 지표로 사용하였다.

성능 측면에서 Llama‑3‑70B가 속성 기반 퍼소나와 추론 체인을 결합했을 때 0.793의 가중 F1를 기록, 동일 모델이 위키피디아 퍼소나와 결합하면 0.779, Qwen‑72B는 0.789, Qwen‑7B는 0.670을 보였다. 모델 크기가 클수록, 그리고 서구 기반 Llama 시리즈가 비서구 Qwen 시리즈보다 전반적으로 우수함을 확인했다. 추론 체인은 특히 Qwen‑7B에서 ‘FOR’ 과다 예측을 억제하고 ‘기권’ 및 ‘반대’ 투표를 더 잘 포착하도록 만들었다.

그룹 수준에서는 중도·진보 정당(EPP, Renew, Greens/EF A 등)의 라인 예측이 90 %에 육박했지만, 극단적 정당(ID, GUE/NGL, ECR 등)은 예측 정확도가 현저히 낮았다. 이는 모델이 기본적으로 좌우 진보 편향을 가지고 있어, 좌파·중도 정당의 입장을 더 잘 모사하지만, 보수·극우 정당의 특수한 투표 패턴을 포착하기 어렵다는 점을 시사한다.

한계점으로는 ‘기권’ 투표를 거의 예측하지 못한다는 점, 제안서 요약이 제한적이라 실제 정책 내용과의 정합성을 완전히 보장하기 어렵다는 점, 그리고 모델이 훈련 데이터에 포함된 과거 투표 기록을 일부 학습했을 가능성(데이터 누수) 등을 들 수 있다. 향후 연구에서는 보다 풍부한 정책 텍스트와 다중 라벨링, 그리고 모델의 정치적 편향을 정량화·조정하는 방법을 모색해야 할 것이다.


댓글 및 학술 토론

Loading comments...

의견 남기기