R Debater 검색 기반 논쟁 생성과 논증 메모리 활용
📝 원문 정보
- Title: R-Debater: Retrieval-Augmented Debate Generation through Argumentative Memory
- ArXiv ID: 2512.24684
- 발행일: 2025-12-31
- 저자: Maoyuan Li, Zhongsheng Wang, Haoyuan Li, Jiamou Liu
📝 초록 (Abstract)
본 논문에서는 논증 메모리를 기반으로 다중 턴 토론을 생성하는 에이전트 프레임워크인 R‑Debater를 제시한다. 토론을 과거의 주장들을 회상·재구성하여 입장을 일관되게 유지하고, 상대방에 대응하며, 증거로 뒷받침하는 과정으로 모델링한다. 구체적으로, R‑Debater는 사례‑형 증거와 기존 토론 전개의 정보를 검색하는 토론 지식베이스와, 역할에 따라 일관된 발화를 구성하는 에이전트를 결합한다. 표준 ORCHID 토론 데이터셋을 활용해 1,000개의 검색 코퍼스와 7개 분야에 걸친 32개의 검증 토론을 구축하였다. 두 가지 과제, 즉 다음 발화 생성(주관성·논리·사실성을 평가하는 InspireScore)와 적대적 다중 턴 시뮬레이션(Argument·Source·Language·Overall을 평가하는 Debatrix)에서 기존 대형 언어 모델 대비 높은 점수를 기록했다. 20명의 숙련된 토론가를 대상으로 한 인간 평가에서도 일관성·증거 활용도가 향상된 것으로 나타나, 검색 기반 근거와 구조화된 계획이 결합될 때 보다 충실하고 입장에 부합하며 연속적인 토론을 생성함을 확인하였다. 코드와 보조 자료는 공개 URL에서 확인할 수 있다.💡 논문 핵심 해설 (Deep Analysis)

둘째, 역할 기반 에이전트 설계는 토론의 구조적 특성을 반영한다. 토론은 일반적으로 ‘주장 → 반론 → 방어 → 정리’와 같은 순환적인 흐름을 갖는데, R‑Debater는 각 역할(예: 주장자, 반론자, 중재자)에 맞는 발화 전략을 사전 정의하고, 검색된 근거를 해당 역할에 맞게 재구성한다. 이는 발화의 논리적 연결성을 강화하고, 상대방의 논점을 정확히 파악해 대응하도록 만든다. 실험에서는 이러한 구조적 플래닝이 단일 턴의 InspireScore뿐 아니라 다중 턴 시뮬레이션에서의 Debatrix 점수에서도 유의미하게 향상된 것으로 나타났다.
세 번째로, 평가 설계 자체가 R‑Debater의 강점을 잘 포착한다. InspireScore는 주관성, 논리성, 사실성이라는 세 축을 동시에 측정해 ‘내용의 질’과 ‘증거 충실도’를 동시에 평가한다. 반면 Debatrix는 ‘Argument(주장 구조)’, ‘Source(출처 신뢰성)’, ‘Language(언어적 정확성)’, ‘Overall(전체적 설득력)’을 종합해 다중 턴 대화의 지속 가능성을 검증한다. 두 지표 모두에서 기존 강력한 LLM 베이스라인을 앞선 점수는, 검색 기반 근거와 역할 플래닝이 실제 토론 상황에서 얼마나 실용적인지를 입증한다.
마지막으로, 인간 평가 결과는 자동 메트릭을 넘어 실무적 가치를 보여준다. 20명의 숙련된 토론가가 R‑Debater의 발화를 평가했을 때, ‘입장 일관성’과 ‘증거 활용도’ 항목에서 현저히 높은 점수를 부여했다. 이는 시스템이 단순히 문장을 생성하는 수준을 넘어, 논리적 설득과 사실 기반 주장을 동시에 만족시키는 ‘에이전트’로서 기능함을 의미한다. 향후 연구에서는 보다 다양한 도메인(법률, 의료 등)으로 확장하고, 실시간 사용자 피드백을 반영한 동적 메모리 업데이트 메커니즘을 도입함으로써 토론 에이전트의 적응성을 더욱 강화할 여지가 있다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리