제어 장벽 함수 기반 안전 LLM 정렬 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM)의 출력 토큰 시퀀스에 제어 장벽 함수(CBF)를 적용한 안전 필터를 삽입함으로써, 모델 파라미터를 변경하지 않고도 사용자 정의 정렬 목표를 달성하는 방법을 제안한다. Llama 3을 기본 모델로, RoBERTa 기반 언어‑제약 함수(L‑CF)를 이용해 유해·편향 텍스트를 실시간으로 차단하고, 실험을 통해 개입 횟수를 크게 줄였음을 보인다.

상세 분석

CBF‑LLM은 기존 LLM 정렬 방법인 RLHF·SFT와는 근본적으로 다른 접근법을 취한다. RLHF는 인간 피드백을 보상 모델로 학습시켜 파라미터 자체를 수정하지만, 제안된 프레임워크는 “학습‑프리”(learning‑free) 방식으로, LLM을 블랙박스로 취급하고 토큰 확률 분포에 직접 제어 장벽을 적용한다는 점에서 차별화된다. 제어 공학에서 차량 충돌 회피를 위해 설계되는 CBF는 상태 x가 안전 집합 S에 머물도록 보장하는 제약 h(x)≥0을 정의하고, 이를 만족하도록 최소한의 제어 입력 u를 최적화한다. 논문은 이를 텍스트 생성에 매핑하여, 텍스트 x를 상태, 토큰 t를 제어 입력으로 해석한다.

핵심 구성 요소는 (1) 언어‑제약 함수(L‑CF) h(x)로, 이는 RoBERTa 기반 감성 분석 모델을 활용해 텍스트가 긍정·중립·부정 중 어느 범주에 속하는지를 점수화하고, 긍정 점수와 나머지 점수 차이로 정의된다. h(x)≥0이면 “바람직”한 텍스트, <0이면 “바람직하지 않음”으로 간주한다. (2) CBF 필터 F_CBF는 토큰 확률 P

제어 장벽 함수 기반 안전 LLM 정렬 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기