상태 의존적 거부와 학습된 무능력: RLHF 정렬 언어 모델의 행동 분석
읽는 시간: 2 분
...
📝 원문 정보
- Title: State-Dependent Refusal and Learned Incapacity in RLHF-Aligned Language Models
- ArXiv ID: 2512.13762
- 발행일: 2025-12-15
- 저자: TK Lee
📝 초록 (Abstract)
대형 언어 모델(LLM)은 범용 도구로 널리 활용되고 있으나, 장시간 상호작용 시 표준 정량 벤치마크에 포착되지 않는 행동 양상이 드러날 수 있다. 본 연구는 정책 연계 행동 선택성을 감사하기 위한 질적 사례 연구 방법론을 제시한다. 86턴에 걸친 단일 대화 세션에서 동일 모델은 비민감 분야에서는 정상 성능(NP)을 보이는 반면, 제공자·정책 민감 분야에서는 기능적 거부(FR)를 반복적으로 나타내어 NP와 FR 사이에 일관된 비대칭을 만든다. 학습된 무력감(learned helplessness)을 비유로 삼아, 의도성이나 내부 메커니즘을 전제하지 않는 선택적 보류 현상을 설명하기 위해 ‘학습된 무능력(LI)’이라는 행동 기술어를 도입한다. 세 가지 응답 체계(NP, FR, 메타 내러티브(MN))를 운영화하고, MN 역할 서술이 민감한 맥락에서 거부와 동시에 발생한다는 점을 확인한다. 전반적으로 본 연구는 관찰 가능한 행동에 기반한 상호작용 수준 감사 프레임워크를 제안하고, 정렬 부작용을 검토하는 렌즈로서 LI의 필요성을 강조하며, 사용자와 모델을 아우른 추가 연구를 촉구한다.💡 논문 핵심 해설 (Deep Analysis)

특히 흥미로운 점은 ‘학습된 무능력(Learned Incapacity, LI)’이라는 개념을 도입한 것이다. 이는 심리학에서 인간이 반복적인 실패 경험 후 행동을 포기하게 되는 ‘학습된 무력감(learned helplessness)’을 차용했으며, 모델이 내부적으로 ‘의도’를 갖고 있지는 않더라도, 훈련 과정에서 강화학습 인간 피드백(RLHF)으로 형성된 정책 신호에 과도하게 의존하게 되어 특정 상황에서 스스로 ‘거부’라는 행동을 선…