비검증 학습을 위한 대화형 메타평가 프레임워크 CoNL
초록
CoNL은 동일 정책을 공유하는 다중 에이전트가 순차적으로 솔루션을 제시·비판·수정하는 대화를 통해, 비검증 과제에서 생성과 평가를 동시에 학습한다. 비판의 품질은 해당 비판이 다른 에이전트의 솔루션 개선을 이끌어냈는지 여부로 측정되며, 이를 ‘진단 보상’으로 활용해 메타평가 능력을 명시적으로 지도한다. 실험 결과, CoNL은 기존 자체 보상 방식보다 2.7~8.3%p 향상된 성능을 보이며, 인간 피드백 없이도 안정적인 학습이 가능함을 입증한다.
상세 분석
본 논문은 비검증 과제—예를 들어 창작, 개방형 대화, 윤리적 추론—에서 기존 LLM‑as‑Judge 접근법이 갖는 근본적인 한계를 짚어낸다. LLM‑as‑Judge는 스케일러블하지만, 평가자가 스스로 좋은 답안을 구분하지 못하면 생성 모델에 전달되는 보상이 편향될 위험이 있다. 특히 “길이가 길수록 좋은 답변”이라는 버릇이 생기는 현상이 보고되었으며, 이는 평가자의 편향이 학습 전체를 제한한다는 점에서 메타평가가 절실히 필요함을 시사한다.
CoNL은 이러한 문제를 해결하기 위해 ‘다중 에이전트 자기 놀이(self‑play)’라는 새로운 학습 패러다임을 제시한다. 핵심 아이디어는 “비판이 실제로 솔루션을 개선했는가”를 정량화함으로써 비판 자체의 품질을 보상 신호로 전환하는 것이다. 구체적으로, N명의 에이전트가 동일 정책 πθ를 공유하되, 각자 다른 페르소나(Pi)를 부여받아 초기 솔루션을 독립적으로 생성한다. 이후 1라운드에서 서로의 솔루션을 pairwise ranking 형태로 평가하고, 그 근거를 텍스트 비판으로 제시한다. 2라운드에서는 자신에게 향한 비판을 받아 수정된 솔루션을 만든다. 마지막 3라운드에서 다시 pairwise ranking을 수행해 최종 점수를 산출한다.
평가 점수는 Bradley‑Terry 모델을 이용해 latent quality V_k 로 변환된다. 초기 점수 V_init와 최종 점수 V_final 사이의 차이 ΔV_k 는 솔루션이 개선되었는지를 나타낸다. 여기서 비판을 제공한 에이전트 i에 대해, 그 비판이 대상 에이전트 k의 ΔV_k 를 양(positive)으로 만든 경우 진단 보상 r_diag_i 를 부여한다. 즉, 비판이 실제 개선을 촉진했을 때만 보상이 주어지므로, 평가자의 편향을 스스로 교정할 수 있다.
보상 설계는 세 가지 요소로 구성된다. ① 솔루션 보상: 최종 V_final이 높은 솔루션에 주어지는 직접 보상. ② 진단 보상: ΔV_k > 0을 만든 비판에 대한 보상. ③ 합의 보상: 에이전트들의 최종 ranking이 다수 의견과 일치할 때 추가 보상. 이러한 복합 보상은 생성 능력, 비판 능력, 그리고 집단 합의를 동시에 최적화하도록 유도한다.
학습 과정에서 메모리 버퍼를 도입해 대화 이력을 압축 저장함으로써 긴 컨텍스트를 효율적으로 활용한다. 또한, 페르소나 다양성은 그룹 콜루전(collusion) 위험을 감소시키고, 다양한 관점을 학습하게 만든다. 실험에서는 창의적 스토리텔링, 개방형 질문 응답, 윤리적 딜레마 등 다섯 개 비검증 벤치마크에서 기존 자체 보상 모델(예: Self‑Rewarding LLM) 대비 2.7~8.3%p의 성능 향상을 기록했다. 특히, 인간 피드백 기반 RLHF와 거의 동등한 결과를 보였으며, 훈련 안정성도 크게 개선되었다.
결과적으로 CoNL은 “평가자가 스스로를 평가한다”는 메타평가 메커니즘을 실제 학습 신호로 전환함으로써, 비검증 과제에서도 인간 라벨 없이 지속 가능한 성능 향상을 가능하게 만든다. 이는 향후 LLM이 스스로 윤리·창의성·대화 품질을 개선해 나갈 수 있는 중요한 발판이 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기