특징을 보상으로: 해석 가능성을 활용한 대규모 오픈엔드 학습
초록
본 논문은 대형 언어 모델이 내부에 학습한 의미론적 특징을 직접적인 보상 신호로 활용해, 검증 비용이 높은 오픈엔드 과제인 ‘환각 감소’를 효율적으로 학습하는 RL 파이프라인(RLFR)을 제안한다. 프로빙을 통해 추출한 ‘사실성 불확실성’ 특징을 보상으로 사용하고, 이를 기반으로 모델이 스스로 오류를 감지·수정하도록 훈련한다. Gemma‑3‑12B‑IT에 적용한 결과, 기존 모델 대비 58 % 적은 환각률을 달성했으며, 표준 벤치마크 성능은 유지한다.
상세 분석
이 논문은 두 가지 핵심 아이디어를 결합한다. 첫째, 대형 언어 모델이 학습 과정에서 형성하는 내부 특징(feature)이 “사실성”, “의도”, “해로운 정도” 등 추상적 개념을 내포한다는 기존 해석 가능성 연구를 기반으로, 이러한 특징을 직접적인 보상 함수로 전환한다는 점이다. 기존에는 특징을 모니터링이나 스티어링에만 활용했지만, 여기서는 특징을 “밀도 높은” 보상 신호로 재해석한다.
둘째, 이러한 특징 기반 보상을 활용해 강화학습(RL) 파이프라인을 설계한다. 구체적으로는 (1) 텍스트에서 사실 주장(엔티티) 스팬을 탐지하는 로컬라이제이션 프로브, (2) 해당 스팬이 사실인지 허위인지 판별하는 분류 프로브, (3) 모델이 “유지”, “철회”, “수정” 중 하나를 선택하고 실제 텍스트를 재작성하는 인터벤션 단계, (4) 인터벤션 결과를 특징 기반 보상으로 평가해 정책을 업데이트한다는 4단계 흐름이다.
특히 보상 설계에서 중요한 점은, 고가의 외부 검증기(예: 검색 기반 사실 검증)를 사용해 라벨을 만든 뒤, 동일한 라벨을 예측하도록 저비용 프로브를 학습함으로써 “보상 비용을 amortize”한다는 것이다. 이렇게 하면 훈련 시마다 외부 검증을 호출할 필요가 없으며, 테스트 시에도 동일한 특징을 이용해 Best‑of‑N 샘플링 등으로 추가적인 성능 향상을 도모한다.
실험에서는 LongFact++ 데이터셋(≈20K 질문)으로 환각 탐지를 학습하고, Gemini 2.5 Pro를 금본위 보상 라벨러로 사용했다. 프로브는 어텐션 기반 경량 네트워크로 설계돼, 기존 모델의 고정된 활성값만을 이용한다. 결과적으로 RLFR 정책은 원본 Gemma‑3‑12B‑IT 대비 환각 발생 확률을 58 % 감소시켰으며, 동일한 토큰‑레벨 정확도와 벤치마크 점수를 유지했다. 또한, 외부 검증 대비 약 90배 저렴한 비용으로 보상을 제공한다는 점에서 실용성이 높다.
이 논문의 의의는 “특징을 보상으로” 활용함으로써, 기존에 비용이 크게 소요되던 오픈엔드 행동(예: 사실성, 유용성, 친절성 등)을 대규모 RL에 적용할 수 있는 새로운 패러다임을 제시했다는 것이다. 특징이 이미 모델 내부에 존재한다는 전제 하에, 저비용·고밀도 보상 설계가 가능해져 향후 다양한 오픈엔드 과제에 확장될 여지가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기