텍스트 점수 모델의 적대적 견고성 통합 학습
초록
본 논문은 밀집 검색기, 재정렬기, 보상 모델 등 텍스트 점수 모델을 하나의 통합된 관점에서 살펴보고, 다양한 공격에 대한 적대적 훈련 방법들을 제안한다. 기존의 공격‑방어 연구가 애플리케이션별로 단절돼 있던 문제를 해결하고, 제안된 복합 훈련 전략이 견고성을 높이는 동시에 실제 작업 성능도 향상시킴을 실험을 통해 입증한다. 특히 RLHF에서 보상 모델을 적대적으로 훈련함으로써 보상 해킹을 완화하고 더 잘 정렬된 LLM을 얻을 수 있음을 보여준다.
상세 분석
이 연구는 텍스트 점수 모델을 “점수‑조작” 문제로 일반화함으로써, 검색, 재정렬, 보상 모델이라는 서로 다른 역할을 수행하는 모델들 사이에 공통된 취약점을 드러낸다. 기존의 생성형 LLM 공격은 목표 출력이 무한히 다양해 성공 판단이 모호하지만, 점수 모델에서는 “관련 없는 텍스트가 관련 텍스트보다 높은 점수를 받는가”라는 명확한 성공 기준을 설정할 수 있다. 이를 기반으로 저자들은 세 가지 주요 공격군을 정의한다. 첫째, Rudimentary 공격은 문자·단어 수준의 단순 삽입·삭제·교환을 수행한다. 둘째, HotFlip 기반 공격은 모델 파라미터에 접근해 그래디언트 근사로 토큰 교체를 제안한다. 셋째, Content Injection 공격은 무관한 문장을 삽입하거나 질의를 그대로 삽입해 점수를 인위적으로 끌어올린다. 각 공격은 beam search(16 beam, 512 단계)로 최적화를 진행해 성공률(ASR)과 평균 편집 단계수를 측정한다.
적대적 훈련 측면에서는 네 가지 기본 전략을 실험한다. 1) PGD는 토큰 임베딩 공간에 연속적인 노이즈를 가해 모델을 강건하게 만든다. 2) Rudimentary‑based 훈련은 단순 문자열 변형을 통해 모델이 흔히 발생하는 오탈자나 복제에 내성을 갖게 한다. 3) HotFlip‑based 훈련은 그래디언트 기반 토큰 교체를 학습 데이터에 포함시켜, 화이트박스 공격에 대한 방어 능력을 키운다. 4) Content‑injection 훈련은 삽입형 공격에 대비해 무관한 문장을 삽입한 샘플을 학습에 활용한다. 추가적으로 Paraphrasing 훈련을 도입해 동일 의미의 문장에 대해 일관된 점수를 부여하도록 유도한다. 가장 핵심적인 기여는 이들 훈련 방식을 조합한 “Combined” 전략으로, 서로 보완적인 신호를 동시에 제공함으로써 단일 방법으로는 달성하기 어려운 폭넓은 견고성을 확보한다.
실험 결과는 세 가지 모델군(밀집 검색기, 재정렬기, 보상 모델) 모두에서 나타난다. 단일 훈련 방법은 특정 공격에 대해서는 높은 방어율을 보이지만, 다른 공격에 대해서는 취약점을 드러낸다. 반면 Combined 훈련은 대부분의 공격에 대해 70% 이상 성공률 감소를 달성하고, 동시에 기존 베이스라인 대비 정확도·MRR·BLEU 등 주요 성능 지표가 소폭 혹은 중간 정도 향상된다. 특히 보상 모델에 적용했을 때, RLHF 파이프라인에서 정책 모델이 보상 모델을 악용해 높은 점수를 얻는 “보상 해킹” 현상이 현저히 감소했으며, 최종 LLM의 인간 평가 점수도 상승했다.
이 논문은 적대적 훈련이 단순히 방어를 위한 것이 아니라, 모델의 일반화와 작업 효율성에도 긍정적 영향을 미칠 수 있음을 실증한다. 또한, 공격‑방어 연구를 모델 역할에 관계없이 통합된 프레임워크로 재구성함으로써, 앞으로 새로운 공격이 등장하더라도 기존 훈련 전략을 재활용하거나 확장하기 쉬운 기반을 제공한다는 점에서 학계·산업 모두에 큰 시사점을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기