단조성 기반 변형으로 강화된 견고한 언어 모델 설계
초록
본 논문은 트랜스포머의 피드포워드 서브레이어에만 단조성 제약을 적용해, 주의 메커니즘은 자유롭게 유지하면서도 모델의 내부 의미 표현을 순서 보존하도록 설계한다. 이를 통해 사전학습 성능은 유지하면서도 적대적 프롬프트와 탈옥 공격 성공률을 69%에서 19%로 크게 낮추는 견고성을 달성한다.
상세 분석
이 연구는 현대 LLM이 고차원 입력 공간에서 작은 구조적 변형에 과도하게 민감한 문제를 ‘단조성(monotonicity)’이라는 구조적 편향으로 해결하고자 한다. 저자들은 의미 좌표 행렬 A를 사전에 정의하고, 각 피드포워드 서브레이어를 h → h + A† g(A h) 형태로 재구성한다. 여기서 g는 요소별 비감소 활성화와 비음수 가중치를 갖는 MLP이며, A†는 A의 고정된 오른쪽 역행렬이다. 이러한 설계는 A‑단조성을 보장하는 충분조건을 만족시키며, Lemma와 Proposition을 통해 합성 폐쇄성까지 증명한다. 중요한 점은 주의(attention) 레이어를 제약하지 않아 부정, 모순, 예외와 같은 복잡한 논리 연산을 자유롭게 구현하도록 허용한다는 것이다. 따라서 모델은 ‘논리적 부정은 입력 단계에서만 발생하고, 이후 피드포워드 단계에서는 의미가 약화되지 않는다’는 구조적 규칙을 갖는다. 실험에서는 T5‑small을 기반으로 약 40% 파라미터(FFN 부분)를 단조성 제약으로 교체했으며, 사전학습된 가중치를 손실 없이 증류(distillation)한다. 결과는 요약 BLEU/ROUGE 점수는 미세하게 감소했지만, 다양한 적대적 프롬프트와 jailbreak 공격에 대한 성공률이 크게 감소함을 보여준다. 이는 단조성 제약이 내부 표현의 불안정성을 억제하고, 외부 공격이 의미 흐름을 역전시키는 현상을 방지한다는 강력한 증거이다. 또한, 비음수 가중치와 Softplus 재파라미터화를 사용해 훈련 중에도 제약을 유지함으로써 별도의 투사 단계가 필요 없다는 구현상의 장점도 강조한다. 전체적으로 이 논문은 ‘구조적 단조성은 표현력 손실 없이 견고성을 크게 향상시킬 수 있다’는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기