진실성 향상과 안전 정렬 사이의 숨은 균형
초록
본 논문은 사실성(진실성) 향상을 위한 모델 수정이 거부(Refusal) 행동을 약화시켜 안전 정렬에 부정적 영향을 미칠 수 있음을 실증한다. 저자들은 특정 어텐션 헤드와 잠재적 방향이 환각과 거부 정보를 동시에 인코딩한다는 메커니즘을 밝혀내고, 희소 자동인코더(SAE)를 이용해 두 특성을 분리한 뒤, 정규화된 서브스페이스 보존 기법으로 미세조정하면 환각 감소와 안전 유지가 동시에 가능함을 입증한다.
상세 분석
이 연구는 최근 LLM에서 환각 감소를 위한 다양한 접근법이 안전 정렬, 특히 유해 요청에 대한 거부 행동을 손상시킬 수 있다는 중요한 문제를 제기한다. 저자들은 두 가지 대표적인 진실성 강화 기법, 즉 “Truthful Head Steering”(ITI)와 “TruthfulX”(latent direction steering)를 실험에 적용하고, 각각이 TruthfulQA에서 정확도를 크게 향상시키는 동시에 AdvBench·StrongReject와 같은 해로운 프롬프트에 대한 공격 성공률(ASR)을 상승시킨다는 사실을 정량적으로 보여준다.
핵심 메커니즘 분석에서는 어텐션 헤드 레벨에서 환각과 거부 신호가 겹치는 서브스페이스가 존재함을 발견한다. 구체적으로, 특정 헤드가 활성화될 때 사실과 반대되는 정보를 생성하거나, 거부 토큰을 억제하는 역할을 동시에 수행한다. 이러한 헤드에 대해 LoRA 기반의 1‑rank 스티어링을 적용하면, 진실성 방향(환각 방향의 반대)으로 이동하면서 해당 헤드의 활성화 패턴이 변하고, 결과적으로 거부 경계가 흐려져 모델이 유해 요청에 더 많이 응답하게 된다.
이를 해결하기 위해 저자들은 어텐션 헤드 활성화를 입력으로 하는 희소 자동인코더(SAE)를 학습한다. SAE는 두 개의 선형 서브스페이스—‘환각 서브스페이스’와 ‘거부 서브스페이스’를 각각 추출한다. 미세조정 단계에서는 손실 함수에 거부 서브스페이스와의 정규 직교 제약을 추가해, 파라미터 업데이트가 거부 특성을 침해하지 않도록 강제한다. 이 과정은 기존 진실성 강화 기법이 갖는 부작용을 최소화하면서, 환각을 억제하는 효과는 유지한다는 점에서 혁신적이다.
실험 결과는 세 가지 주요 지표에서 일관된다. ① TruthfulQA에서 정확도는 기존 기법과 동등하거나 약간 상승한다. ② AdvBench·StrongReject에서 ASR은 기존 기법 대비 30% 이상 감소한다. ③ 일반적인 commonsense reasoning 벤치마크(예: MMLU, ARC)에서는 성능 저하가 거의 없으며, 오히려 일부 도메인에서 소폭 개선된다. 이러한 결과는 ‘특성 분리 + 서브스페이스 보존’ 전략이 LLM의 다중 목표 최적화(진실성 vs. 안전)에서 실용적인 해결책이 될 수 있음을 시사한다.
또한, 논문은 향후 연구 방향으로 (1) 더 큰 모델 규모와 다양한 아키텍처에 대한 일반화 검증, (2) 동적 프롬프트 상황에서 실시간 서브스페이스 조정 메커니즘, (3) 인간 피드백을 활용한 거부 서브스페이스의 정교화 등을 제안한다. 전체적으로, 본 연구는 LLM 개발에서 진실성 강화와 안전 정렬이 반드시 트레이드오프 관계에 있지 않으며, 적절한 내부 표현 분리를 통해 두 목표를 동시에 달성할 수 있음을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기