실험실 기반 정렬 서명 탐지와 잠재 편향 위험 평가
초록
본 논문은 대형 언어 모델(LLM)의 지속적인 정렬 정책을 “실험실 신호(lab signal)”로 정의하고, 심리측정 이론을 활용한 강제 선택 서술형 항목으로 라벨 없이 잠재 편향을 정량화한다. 혼합선형모델과 ICC 분석을 통해 모델 간 변동보다 제공자 수준의 일관된 행동 클러스터가 존재함을 밝혀, 다중 에이전트 시스템에서 편향이 재귀적으로 증폭될 위험을 경고한다.
상세 분석
이 연구는 기존 벤치마크가 일시적인 정확도와 과제 수행에만 초점을 맞추는 한계를 지적하고, LLM의 “지속적인 정렬 정책”을 잠재 특성(latent trait)으로 모델링한다. 이를 위해 심리측정학의 Thurstonian IRT와 MUPP 모델을 차용한 강제 선택(Forced‑Choice) 서술형 항목을 설계했으며, 각 선택지는 사전 정의된 1‑5 척도에 매핑되어 있다. 평가 과정에서 평가 인식(evaluation awareness)을 억제하기 위해 의미적으로 무관한 디코이(decoy) 문장을 삽입하고, SHA‑256 기반의 순열 불변(permutation‑invariant) 프롬프트 셔플링을 적용해 모델이 시험 상황을 감지하지 못하도록 설계하였다.
데이터는 9개의 주요 LLM(예: OpenAI GPT‑4/5, Google Gemini, Anthropic Claude, xAI Grok 등)에서 78개의 차원(Optimization Bias, Sycophancy, False Balance 등)으로 구성된 200여 개의 항목에 대해 수집되었다. 혼합선형모델(MixedLM)을 이용해 ‘프로바이더(provider)’와 ‘아이템(item)’을 랜덤 효과로 설정하고, 고정 효과로는 차원별 평균을 포함시켰다. 결과는 아이템 수준의 프레이밍 변동이 전체 변동의 약 60%를 차지하는 반면, 프로바이더 수준의 ICC는 0.020.04 수준으로 통계적으로 유의미한 클러스터링을 보여준다. 특히 Sycophancy(권위 순응)와 False Balance(인위적 중립화) 차원에서 Gemini 계열은 높은 편향 점수를, Claude 계열은 낮은 점수를 기록해 제공자 간 정책 차이가 명확히 드러났다.
또한, ‘평가 인식 완화’를 검증하기 위해 스케일을 뒤집는 pole‑reversal 테스트를 수행했으며, 평균값이 6‑M(old) 형태로 변환되는 등 내부 일관성이 유지됨을 확인했다. 이는 모델이 선택지 순서에 의존하지 않고 내재된 정책을 일관되게 반영한다는 증거다.
연구는 두 가지 중요한 함의를 제시한다. 첫째, 다중 에이전트 파이프라인에서 동일 제공자의 모델이 연쇄적으로 사용될 경우, 작은 편향이라도 시스템 전반에 증폭되어 ‘에코 챔버’를 형성할 위험이 있다. 둘째, 라벨이 없는 강제 선택 설계와 순열 불변 프로세스는 향후 LLM 정렬 감시를 위한 표준화된 도구로 활용될 가능성을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기