다중턴 대화에서 정보 추출과 보유의 비대칭성 평가

다중턴 대화에서 정보 추출과 보유의 비대칭성 평가
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 언어 모델(LLM)의 전략적 추론 능력을 다중턴 대화 환경에서 평가하기 위해 AIDG(Adversarial Information Deduction Game)라는 게임 이론 기반 프레임워크를 제안한다. 두 가지 과제(AIDG‑I, AIDG‑II)를 통해 정보 추출(공격)과 정보 보유(방어) 능력을 각각 측정하고, 6개 최신 LLM을 439개의 게임에 적용한 결과 방어 능력이 공격 능력보다 평균 350 ELO 포인트 뛰어남을 확인하였다. 주요 원인으로는 ‘정보 동역학’과 ‘제약 준수’ 두 가지 병목이 제시되며, 특히 사전 가설을 활용한 확인 전략이 블라인드 추론보다 7.75배 효율적이라는 점이 강조된다.

상세 분석

AIDG 프레임워크는 두 플레이어가 비대칭 정보를 가지고 대화를 진행하는 제로섬 게임으로 정의된다. 한쪽(Seeker)은 비밀 변수 S를 추론하려 하고, 다른 쪽(Holder)은 이를 숨기면서 일관된 상태를 유지한다. 논문은 이를 구체화하기 위해 AIDG‑I과 AIDG‑II라는 두 벤치마크를 설계하였다. AIDG‑I은 자유형 텍스트 대화를 통해 Holder가 자연어 형태의 비밀 정보를 어떻게 보호하는지를 평가한다. 여기서는 20개의 실제 생활에 기반한 사실을 비밀로 설정하고, Seeker는 ‘확인 모드(Mode A)’와 ‘블라인드 모드(Mode B)’ 두 전략을 사용한다. 확인 모드에서는 사전 가설을 제시하고 Holder의 확인·부정을 유도하는 방식이며, 블라인드 모드에서는 완전 무지 상태에서 순차적인 질문을 통해 엔트로피를 감소시킨다. Arbiter는 각 턴마다 명시적 누출, 확인 누출, 의미적 패러프레이즈, 암시적 인정 등 네 가지 누출 유형을 자동으로 판별한다.

AIDG‑II는 ‘20 Questions’ 형태의 제약된 대화 환경을 제공한다. 비밀 변수 S는 100개의 구체적 명사(동물, 도구, 차량 등) 중 하나이며, Holder는 ‘yes’, ‘no’, ‘maybe’ 세 가지 토큰만 사용할 수 있다. Seeker는 속성 질문을 통해 후보를 좁히고, 최종 추론 시점에만 직접적인 추측을 허용한다. 여기서는 턴‑감쇠 멀티플라이어 M(t)= (17‑t)/8을 도입해 초기 턴에 성공하면 높은 보상을, 늦은 턴에 성공하면 낮은 보상을 부여함으로써 탐색 효율성을 정량화한다.

실험에서는 GPT‑5, Gemini‑2.5‑Flash, Qwen3‑235B, DeepSeek‑V3.1, Llama‑4‑Maverick, Granite‑3.3‑8B 등 6개 모델을 선정했으며, 각 모델은 Seeker와 Holder 역할을 모두 수행하도록 설계되었다. 라운드‑로빈 토너먼트와 5번의 독립 시드(σ₁…σ₅)를 사용해 총 300개의 AIDG‑I 게임과 150개의 AIDG‑II 게임을 진행했다. 모든 모델은 온도 T=0.0(Seeker) 및 T=0.01(Arbiter)로 설정해 결정론적 출력을 확보했으며, 대화 기록은 4,403턴(평균 9.5~11.1턴)으로 수집되었다.

핵심 결과는 두 가지이다. 첫째, 방어 측면(V_ELO)이 공격 측면(C_ELO)보다 평균 350 ELO 포인트 앞섰으며, Cohen’s d=5.47이라는 거대한 효과 크기를 보였다. 전체 439게임 중 Holder가 86.6% 승리했으며, 모델 간 방어 능력의 표준 편차는 1.9 ELO에 불과해 매우 일관된 성능을 나타냈다. 반면 공격 능력은 53.3 ELO 표준 편차를 보여 모델마다 큰 차이를 보였다. 둘째, 확인 기반 공격이 블라인드 공격보다 7.75배 높은 성공률을 기록했으며(p < 0.00001), 이는 사전 가설이 대화 흐름을 크게 좌우한다는 것을 의미한다. AIDG‑II에서는 제약 위반이 주요 실패 원인으로, 전체 게임의 41.3%가 ‘직접 추측 금지’ 규칙 위반으로 실격되었다. 모델별로는 위반 비율이 0%에서 72%까지 다양했다.

이러한 결과는 LLM이 로컬한 일관성 유지와 같은 방어적 코히런스는 잘 수행하지만, 다중턴에 걸친 전역 상태 추적과 전략적 탐색에서는 한계가 있음을 시사한다. 특히, 대화 중에 복합적인 제약(예: 어휘 제한, 질문 순서)과 정보 동역학을 동시에 처리해야 할 때 모델의 지시 따름 능력이 급격히 저하된다. 논문은 이 문제를 해결하기 위해 (1) 장기 기억 메커니즘 강화, (2) 다중턴 프롬프트 튜닝, (3) 제약 기반 학습 목표 도입 등을 제안한다.


댓글 및 학술 토론

Loading comments...

의견 남기기