대형 언어 모델이 미국 기후 의견을 체계적으로 왜곡한다
초록
본 연구는 978명의 미국 기후 여론 조사 응답자를 프로파일링하여 6개의 대형 언어 모델(LLM)에 질문했으며, 실제 인간 응답과 비교했다. 결과는 LLM이 의견 다양성을 압축하고, 특히 흑인 응답자에서 성별에 따른 의견 차이를 잘못 재현한다는 것을 보여준다. 이러한 왜곡은 정책 설계와 공공 소통에 위험을 초래한다.
상세 분석
이 논문은 대형 언어 모델(LLM)이 공공 의견을 대변하는 과정에서 발생할 수 있는 교차적 편향을 정량적으로 검증한 최초의 시도라 할 수 있다. 연구진은 미국 전역을 대표하는 978명의 응답자를 포함한 최신 기후 의견 설문 데이터를 활용했으며, 각 응답자는 연령, 성별, 인종·민족, 교육 수준, 지역 등 7가지 인구통계 변수를 포함한 상세 프로필을 가지고 있다. 이 프로필을 그대로 텍스트 프롬프트로 변환해 GPT‑3.5‑Turbo, GPT‑4, Claude‑2, Llama‑2‑70B, Gemini‑1.5‑Flash, 그리고 최신 한국어 특화 모델인 Koala‑2 등 총 6개의 LLM에 입력하였다. 각 모델은 동일한 20개의 기후 관련 질문에 대해 “매우 동의한다/동의한다/중립/동의하지 않는다/전혀 동의하지 않는다” 형태의 5점 Likert 척도로 답변을 생성하도록 설계되었다.
응답 비교는 두 단계로 이루어졌다. 첫째, 각 질문별 평균 응답값을 인간 데이터와 LLM 출력 사이에 Pearson 상관계수와 평균 절대 오차(MAE)로 측정했다. 둘째, 교차적 차이를 파악하기 위해 인종·성별 교차표를 구축하고, 실제 인간 응답과 LLM이 예측한 응답 간의 차이를 차이점(difference‑in‑differences) 분석으로 검증했다. 결과는 전반적으로 LLM이 인간 응답과 높은 상관(r≈0.78)을 보였지만, 중요한 구조적 왜곡을 숨기고 있음을 드러냈다. 구체적으로, LLM은 ‘우려 수준’이 낮은 집단(예: 보수적 백인 남성)을 실제보다 더 높은 우려를 보이는 것으로, 반대로 ‘우려 수준’이 높은 집단(예: 진보적 히스패닉 여성)을 낮게 평가했다. 이러한 압축 현상은 모델이 학습 데이터에서 관찰한 평균적인 사회적 스테레오타입을 과도하게 적용하기 때문으로 해석된다.
특히 인종·성별 교차 분석에서 흑인 응답자에 대한 편향이 두드러졌다. 인간 데이터에서는 흑인 남성과 여성 사이에 기후 변화에 대한 우려 정도가 크게 차이나지만, LLM은 백인·히스패닉 집단에서 관찰된 ‘성별에 따른 일관된 차이’를 그대로 흑인 집단에도 적용해, 실제와 반대되는 성별 패턴을 생성했다. 이는 기존의 “인종별 평균 편향” 검증만으로는 포착되지 않는 미세한 교차적 오류이며, 정책 입안자가 특정 인종·성별 그룹을 대상으로 한 맞춤형 소통 전략을 설계할 때 심각한 오해를 초래할 수 있다.
논문은 또한 표준 감사 방법론(예: 전체 인구통계별 평균 차이)과 교차적 감사 방법론(인종·성별·연령 등 다중 교차표) 간의 차이를 강조한다. 표준 방법은 LLM이 전체 평균에서 크게 벗어나지 않는다고 결론짓지만, 교차적 분석은 특정 소수집단에서 심각한 왜곡을 드러낸다. 따라서 AI 기반 여론 분석 도구를 실제 정책에 적용하기 전, 교차적 편향 검증이 필수적임을 역설한다.
마지막으로 연구는 LLM의 훈련 데이터와 파인튜닝 전략이 이러한 압축 현상을 완화시킬 가능성을 제시한다. 예를 들어, 인구통계별 라벨링된 데이터로 추가 학습하거나, 프롬프트에 ‘특정 인구통계 그룹에 대한 편향을 최소화한다’는 지시를 삽입하는 방법이 제안된다. 그러나 현재 상용 LLM은 이러한 세밀한 조정이 제한적이며, 투명한 데이터 출처와 편향 완화 메커니즘이 공개되어야 한다는 점을 강조한다.
댓글 및 학술 토론
Loading comments...
의견 남기기