모듈형 제어 토큰으로 구현하는 조합형 안전 정렬

MOSAIC은 고정된 백본 LLM 위에 학습 가능한 제어 토큰을 부착해 안전 제약을 모듈화한다. 각 토큰은 하나의 안전 규칙을 인코딩하며, 필요에 따라 조합·활성화가 가능하다. 순서 기반 작업 샘플링과 반사실(KD) 정렬 목표를 통해 토큰 간 간섭을 최소화하고, 정상 질의에 대한 과잉 거부(over‑refusal)를 억제한다. 실험 결과, 기존 파라미터‑레벨 정렬이나 프롬프트‑레벨 방식보다 높은 방어 성능과 낮은 과잉 거부율을 달성하면서도 모…

저자: Jingyu Peng, Hongyu Chen, Jiancheng Dong

본 논문은 대형 언어 모델(LLM)의 안전 정렬을 기존의 정적 파라미터 기반 접근법과 자연어 프롬프트 기반 접근법이 갖는 한계에 대해 비판한다. 파라미터‑레벨 정렬은 안전 행동을 모델 가중치에 얽어두어 새로운 규칙을 추가하거나 기존 규칙을 수정할 때 전체 모델을 재학습해야 하는 비효율성을 초래한다. 반면 프롬프트‑레벨 방식은 자연어 명령을 통해 안전 제약을 전달하지만, 명령이 확률적 해석에 의존하므로 일관된 거부를 보장하지 못하고, 다수의 제약을 동시에 적용할 경우 프롬프트 길이가 급증해 컨텍스트 제한을 초과한다. 이러한 문제를 해결하고자 저자들은 “조건부 안전 제어를 모듈형 제어 토큰으로 구현한다”는 새로운 프레임워크 MOSAIC을 제안한다. MOSAIC은 사전 학습된 LLM을 고정(frozen)하고, 각 안전 카테고리 c 에 대해 m 개의 학습 가능한 임베딩 z_{c,i} (보통 <10)를 정의한다. 입력 질의 x 앞에 활성화하고자 하는 카테고리 집합 S 에 해당하는 토큰을 순서대로 삽입하면, 모델은

모듈형 제어 토큰으로 구현하는 조합형 안전 정렬

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기