감정적 프레이밍에 강인한 규칙 기반 대형언어모델
초록
본 논문은 고위험 분야(보건, 법률, 금융)에서 규칙 기반 의사결정을 수행하는 지시‑튜닝된 대형언어모델(LLM)이 인간보다 110300배 정도 감정적 서술에 영향을 받지 않는 ‘견고함(paradox of robustness)’을 보인다는 사실을 실험적으로 입증한다. 162개의 시나리오와 통제된 교란 프레임워크를 통해 모델의 의사결정 편향을 정량화했으며, 모델은 거의 제로에 가까운 효과크기(Cohen’s h = 0.003)를, 인간은 0.30.8 수준의 효과크기를 보였다.
상세 분석
이 연구는 LLM의 ‘lexical brittleness’와 ‘sycophantic alignment’가 규칙‑기반 의사결정에서는 반드시 논리적 일관성 붕괴로 이어지지 않음을 실증한다. 저자들은 세 가지 핵심 교란 조건(Affect, Neutral, Evidence)을 설계했는데, A조건은 감정적 서술을, N조건은 길이와 정보량을 동일하게 맞춘 중립 서술을, E조건은 실제 증거를 변형해 정답을 바꾸는 양성 대조군을 제공한다. 각 조건은 10% 이내의 길이 매칭과 감정 강도(τ = 0, 2, 4)로 세분화돼, 길이·정보 혼동을 최소화한다.
모델 평가에서는 Decision Drift(Δ), Flip Rate(FR), Response Entropy(H) 세 가지 메트릭을 부트스트랩(BCa, B=2000)으로 신뢰구간을 추정했으며, 온도 = 0 설정으로 샘플링 변동성을 배제했다. 6개의 모델(GPT‑5‑mini, Claude‑Haiku‑4.5, DeepSeek‑v3p2, Llama‑3‑8B‑Instruct, Mistral‑7B‑Instruct, Qwen‑32B) 모두 A와 N 조건 간 Δ≈0.008, h≈0.003으로 거의 차이가 없었으며, E조건에서는 84.4% 이상의 정확한 의사결정 전환을 보였다. 이는 모델이 규칙‑기반 로직을 우선시하고 감정적 ‘노이즈’를 무시한다는 강력한 증거다.
또한, ‘instruction hierarchy theory’를 실증적으로 검증했다. 시스템 프롬프트에 규칙‑우선 지시를 명시했음에도 불구하고, 별도의 “ignore narrative” 명령이 없어도 모델은 일관된 결과를 산출했다. 이는 지시‑튜닝이 모델 내부에 규칙‑우선 순위 메커니즘을 내재화했음을 시사한다.
한편, 연구는 인간 피험자와의 비교를 통해 ‘프레이밍 효과’가 인간에게는 중등도~대형(h = 0.3‑0.8)로 나타나는 반면, 모델은 거의 무시한다는 ‘robustness gap’을 정량화했다. 베이즈 팩터(BF01 = 10⁹)는 이 차이가 통계적으로도 매우 강력함을 보여준다.
제한점으로는 감정 서술이 완전히 무관한 규칙‑기반 상황만을 다루었으며, 공감이 요구되는 상황에서의 모델 행동은 평가하지 않았다. 또한, 온도 = 0 설정이 실제 배포 환경에서의 변동성을 충분히 반영하지 못할 가능성이 있다. 향후 연구는 다양한 온도와 샘플링 전략, 그리고 감정적 요소가 합법적 증거와 겹치는 복합 시나리오를 탐색할 필요가 있다.
이 논문의 주요 기여는 (1) 인간 대비 100배 이상 높은 프레이밍 저항성 실증, (2) 지시‑튜닝이 내재화한 규칙‑우선 메커니즘 검증, (3) 감정적 교란을 통제한 새로운 벤치마크(162 시나리오) 공개, (4) 고위험 분야에서 LLM이 인간 판단을 보완·안정화할 수 있는 근거 제공이다.
댓글 및 학술 토론
Loading comments...
의견 남기기