LLM 도덕 판단의 취약성: 서술 형태와 프로토콜이 결과를 뒤흔든다

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 r/AmItheAsshole 커뮤니티의 2,939개 일상적 딜레마를 대상으로, 내용·형식·프로토콜 3가지 교란을 적용해 네 종류의 대형 언어 모델(GPT‑4.1, Claude 3.7 Sonnet, DeepSeek V3, Qwen2.5‑72B)의 도덕 판단 일관성을 평가한다. 표면 교란은 낮은 전환율(7.5%)을 보였지만, 시점 전환은 24.3%로 크게 불안정했다. 특히 서술 시점이 바뀌면 모델이 내러티브 화자를 실용적 단서로 활용해 판단을 바꾸는 경향이 드러났다. 프로토콜 교란(명령 위치·순서·비구조화)은 모든 요인 중 가장 큰 변동을 일으켜, 동일 시나리오·모델라도 35.7%만이 세 프로토콜 모두에서 동일 verdict를 내렸다. 결과는 LLM 도덕 판단이 서술 형태와 인터페이스 설계에 크게 좌우되며, 재현성·공정성 위험이 존재함을 시사한다.

상세 분석

본 논문은 “도덕 판단의 안정성”이라는 질문을 두 축으로 접근한다. 첫 번째 축은 **내용 교란(content perturbations)**이며, 이는 다시 세 가지 패밀리로 나뉜다.

**표면 교란(surface edits)**은 문장 삭제·사소한 디테일 교체·무관한 문장 삽입 등 텍스트의 형태만을 변형한다. 이러한 교란은 모델의 내부 의미 파악에 큰 영향을 주지 않아, 전환율이 7.5%에 불과했고, 이는 모델 자체의 자체 일관성(self‑consistency) 범위(4‑13%)와 겹친다.
**시점 전환(point‑of‑view shifts)**는 1인칭 서술을 3인칭으로, 혹은 반대로 바꾸는 방식이다. 여기서는 화자의 관점 자체가 ‘실용적 단서(pragmatic cue)’로 작용한다는 가설을 검증한다. 실제로 전환율은 24.3%로 급증했으며, 특히 “누구도 잘못하지 않았다”(NAH)와 같은 모호한 상황에서 화자를 ‘피해자’ 혹은 ‘가해자’로 재해석하는 경향이 두드러졌다. 이는 LLM이 텍스트의 서술적 구조를 학습 데이터의 빈도와 연계해 판단을 내리는 메커니즘을 반영한다.
**설득 교란(persuasion cues)**은 최소한의 문구 삽입으로 자기 정당화, 사회적 증거, 패턴 인정, 피해자 프레이밍 등을 유도한다. 실험 결과, 사회적 증거와 패턴 인정은 ‘내가 잘못했다’(YT A) 혹은 ‘다른 사람이 잘못했다’(NT A) 판정을 각각 3‑5% 포인트씩 이동시켰다. 이는 LLM이 메타커뮤니케이션(자기‑표현) 신호에 민감하게 반응한다는 기존 연구와 일치한다.

두 번째 축은 **프로토콜 교란(protocol perturbations)**이다. 여기서는 동일 텍스트에 대해 (a) 구조화된 ‘verdict‑first’ 프롬프트, (b) ‘explanation‑first’ 프롬프트, (c) 전혀 구조를 제시하지 않는 자유형 프롬프트를 적용했다. 1,200개 시나리오를 3가지 프로토콜·4개 모델에 각각 적용한 결과, 구조화된 두 프로토콜 간 일치율은 67.6% (kappa = 0.55)였으며, 세 프로토콜 모두에서 동일 verdict를 내린 비율은 35.7%에 불과했다. 즉, 프로토콜 자체가 도덕 판단의 가장 큰 변동 요인임을 확인했다.

모델별 차이를 살펴보면, GPT‑4.1이 전체적으로 가장 높은 자체 일관성(3‑run self‑agreement ≈ 92%)을 보였지만, 프로토콜 교란에 대한 민감도는 다른 모델과 크게 차이 나지 않았다. Claude 3.7 Sonnet과 DeepSeek V3는 표면 교란에 대해 약간 높은 전환율을 보였으며, Qwen2.5‑72B는 특히 ‘explanation‑first’ 프로토콜에서 판단이 뒤바뀌는 경우가 많았다.

통계적으로는 self‑consistency(정규화 엔트로피)와 전환율 사이의 상관계수 r = 0.37‑0.71이 모델마다 크게 달라졌으며, 이는 불확실성이 높은 상황일수록 교란에 취약함을 의미한다. 특히 ‘누구도 잘못하지 않았다’(NAH)와 ‘모두 잘못했다’(ESH)와 같이 이분법적 판단이 어려운 경우 전환율이 40%를 초과했다.

설명 분석에서는 에피스테믹 스탠스(epistemic stance) 점수를 활용해 자신감·불확실성 표현을 정량화했다. 설득 교란이 가해자 편향을 유도할 때는 자신감 점수가 평균 +0.12 상승했으며, 반대로 ‘explanation‑first’ 프로토콜에서는 전반적으로 더 많은 ‘tentative’ 어휘가 사용돼 판단의 불확실성이 증가했다.

결론적으로, LLM의 도덕 판단은 (1) 텍스트의 서술 시점에 크게 좌우되고, (2) 프롬프트 설계·출력 구조에 의해 크게 변동한다는 두 축을 통해 이해할 수 있다. 이는 실제 서비스에서 사용자가 질문을 어떻게 포장하느냐에 따라 모델이 전혀 다른 도덕적 조언을 제공할 위험을 내포한다. 연구는 향후 표준화된 평가 프로토콜과 시점·프레임 인식 메커니즘을 도입해 모델의 판단을 보다 견고하게 만들 필요성을 강조한다.

LLM 도덕 판단의 취약성: 서술 형태와 프로토콜이 결과를 뒤흔든다

초록

상세 분석

댓글 및 학술 토론

의견 남기기