LLM의 도덕 판단은 무관한 상황 요인에 흔들린다
초록
본 논문은 인간 도덕심리학의 “상황주의” 개념을 차용해, 감정적이지만 도덕과는 무관한 시각·텍스트 자극(‘도덕 방해요소’)이 대형 언어모델(LLM)의 도덕 판단에 미치는 영향을 실험적으로 조사한다. 60개의 멀티모달 방해요소를 기존 도덕 벤치마크(MORALCHOICE, r/AITA)에 삽입한 결과, 부정적 방해요소는 모델의 친사회적 선택 확률을 최대 30% 이상 감소시키고, 긍정적 방해요소는 반대로 증가시키는 등, LLM이 인간과 유사하게 상황에 따라 도덕 판단이 변한다는 사실을 밝혀냈다.
상세 분석
이 연구는 먼저 인간 도덕 판단이 냄새, 소음, 감정적 이미지 등과 같은 도덕적으로 무관한 상황 변수에 의해 크게 변한다는 심리학적 증거를 소개하고, 이러한 “상황주의”가 LLM에도 적용될 수 있는지를 탐색한다. 저자들은 기존의 감정 텍스트 데이터베이스(IDEST)와 이미지 데이터베이스(OASIS)에서 각각 10개의 긍정·중립·부정 자극을 선정해 총 60개의 ‘도덕 방해요소’를 구축하였다. 텍스트 방해요소는 1~9점 척도의 감정 점수를 기준으로 분류했으며, 이미지 방해요소는 밸런스와 자극 강도를 고려해 사람·동물 이미지가 제외된 풍경·사물 사진으로 구성했다.
실험은 두 가지 주요 도덕 벤치마크에 적용되었다. 첫 번째는 MORALCHOICE(저자들이 제시한 687개의 저모호 시나리오와 680개의 고모호 시나리오)로, 각 시나리오에 방해요소를 앞에 붙이고 모델에게 A/B 선택을 강제했다. 모델의 선택 확률은 로짓을 통해 추정했으며, 답변 옵션 순서에 따른 편향을 최소화하기 위해 옵션 순서를 교차시켰다. 두 번째는 Reddit r/AITA에서 수집한 250개의 일상적 딜레마에 대해, 방해요소를 시스템 프롬프트에 삽입한 뒤 모델이 다섯 가지 판정(YT A, NT A, NAH, ESH, INFO) 중 하나를 제시하도록 했다. 여기서는 저온(0.2) 샘플링과 사전 훈련된 도덕 기반 분류기를 이용해 모델의 이유문에 포함된 도덕 기반어를 분석했다.
평가된 모델은 GEMMA‑3‑4B‑IT, LLaMA‑3.2‑4B‑INSTRUCT, GPT‑4.1, QWEN‑3‑4B 등 네 종류이며, 크기·훈련 방식(베이스, 인스트럭트, 리추얼) 차이를 고려했다. 결과는 두 벤치마크 모두에서 부정적 방해요소가 도덕 행동 선택 확률(MMAP)을 평균 20~30% 감소시켰으며, 특히 저모호 시나리오에서 가장 큰 효과를 보였다. 반대로 긍정적 방해요소는 MMAP을 소폭 상승시켰지만, LLaMA‑3.2‑INSTRUCT와 같은 일부 모델에서는 긍정·중립 방해요소가 오히려 선택 확률을 감소시키는 역효과가 관찰되었다. 시각적 방해요소는 GEMMA 모델에만 제한적으로 적용했지만, 부정적 이미지가 도덕 선택을 억제한다는 경향이 동일하게 나타났다.
또한, 방해요소가 모델의 이유문에 삽입된 도덕 기반어 분포에도 영향을 미쳐, 부정적 자극이 ‘해악·위험’ 관련 어휘를 증가시키고, 긍정적 자극이 ‘보호·협력’ 어휘를 강화하는 패턴이 발견되었다. 이는 LLM이 입력된 감정적 컨텍스트를 내부 의미망에 통합해 도덕 판단을 조정한다는 증거로 해석될 수 있다.
이 논문은 기존 도덕 평가가 전제하는 “모델의 도덕 선호는 상황에 독립적이다”는 가정을 깨뜨리고, LLM이 인간과 유사한 상황 의존적 편향을 보임을 실증한다. 따라서 도덕 정렬(alignment) 연구는 단순히 정답을 맞추는 것이 아니라, 모델이 놓이는 물리·감정적 환경까지 고려한 맥락적 평가 체계를 구축해야 함을 시사한다.
댓글 및 학술 토론
Loading comments...
의견 남기기