동적 백트래킹 강화학습
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
본 논문은 대형 언어 모델(LLM)의 안전성을 강화하기 위해 “백트래킹 피드백을 이용한 강화학습(RLBF)” 프레임워크를 제안한다. 모델이 실시간으로 위험한 토큰을 감지하면 “백트랙 by x tokens” 신호를 발행해 해당 구간을 삭제하고 안전한 문맥에서 생성을 이어가도록 학습한다. 이를 위해 안전 비평가(critic)를 활용한 보상 설계와, 위반 구문을 삽입한 고품질 SFT 데이터(BSAFE+)를 결합한다. 실험 결과, 다양한 공격(중간 채우기, GCG, 디코딩 파라미터 변조 등)에서 공격 성공률을 크게 낮추면서 기존 성능을 유지한다.
상세 분석
RLBF는 기존 안전 정렬 방법이 갖는 “얕은 안전” 문제를 근본적으로 해결하려는 시도로, 두 단계의 학습 파이프라인을 채택한다. 첫 번째 단계는 BSAFE+라 명명된 향상된 SFT 데이터 생성이다. 여기서는 고성능 베이스 모델이 만든 안전한 답변에, 의미적으로 일관된 위치에 의도적으로 위반 구문을 삽입한다. 삽입된 위반 구문의 길이와 주변 문맥을 기반으로 정확한 백트랙 토큰 수 X를 정의하고, 모델이
댓글 및 학술 토론
Loading comments...
의견 남기기