뉴스 인터뷰 데이터셋과 전략적 대화 평가 환경
초록
본 논문은 NPR·CNN의 4만 개 이상의 기자‑소스 인터뷰를 수집·정제한 NewsInterview 데이터셋을 공개하고, LLM이 인간 인터뷰어와 달리 인정 표현과 고차원 질문 전환을 회피한다는 사실을 실증한다. 이를 보완하기 위해 소스 페르소나와 설득 메커니즘을 포함한 시뮬레이션 게임 환경을 구축해 인터뷰어 LLM의 다중 턴 전략과 설득 능력을 평가한다. 실험 결과, 소스 역할 LLM은 인간과 유사하게 정보를 제공하지만, 인터뷰어 LLM은 질문이 답변됐는지 인식하고 설득하는 데 한계가 있어 정보 추출 효율이 낮다.
상세 분석
본 연구는 크게 세 가지 기여를 한다. 첫째, NPR·CNN에서 공개된 48 530개의 인터뷰 전사본을 자동·수동 필터링하여 4만 개 규모의 dyadic informational interview 데이터셋을 구축하였다. 필터링 단계에서는 Llama‑3.1‑70B‑Instruct를 활용해 참여자 수와 내용 유형을 분류하고, 질문 마크 수를 기준으로 인터뷰어와 소스를 자동 라벨링했다. 결과적으로 평균 7.5턴, 551 단어(소스)·270 단어(인터뷰어) 규모의 대화를 확보했으며, 주제는 문학·정치·학술·국제 문제 등 다양했다.
둘째, 인간 인터뷰와 LLM이 생성한 가상 인터뷰를 비교하기 위해 “다음 질문 생성” 태스크를 설계했다. 기존 인터뷰의 t‑1턴을 LLM에 입력하고, (1) Baseline, (2) Chain‑of‑Thought, (3) Outline, (4) Outline‑CoT 네 가지 프롬프트 변형으로 다음 질문을 생성했다. 생성된 질문을 GPT‑4o와 인간 평가자가 6가지 일치 기준(정보, 동기, 스타일, 담화, 맥락, 정확도)으로 평가하였다. 표 1에 따르면 LLM은 인간에 비해 인정(acknowledgement) 발화가 거의 없으며, 고차원(Outline‑level) 질문 비중이 현저히 낮았다. 특히 인간은 인터뷰 초반 5 %에서 말미에 20 %까지 인정 발화를 증가시키는 반면, LLM은 0 % 수준에 머물렀다. 또한 LLM은 Follow‑up 질문에 과도하게 의존하고, Opinion·Broadening 질문을 시간에 따라 점증시켜 전략적 전환이 부족함을 드러냈다.
셋째, 이러한 전략적 결함을 보완하고 장기 보상을 제공하기 위한 시뮬레이션 게임 NewsInterview 을 제안했다. 게임은 인터뷰어가 사전 정의된 목표(o)와 소스 페르소나(ϕ)를 기반으로 K턴 동안 질문을 생성하고, 소스는 사전 제공된 정보 아이템(I) 중 관련성을 평가한 뒤 설득 수준(p)에 따라 일부 아이템을 반환한다. 반환된 아이템 수가 즉시 보상(R)으로 누적되며, 설득 수준은 대화 히스토리(C)를 통해 동적으로 변한다. 실험에서는 LLM 기반 소스가 인간과 유사하게 설득 인식을 (r = 0.43, p < 0.0001) 보여 시뮬레이션의 현실성을 입증했지만, 인터뷰어 LLM은 (1) 질문이 충분히 답변됐는지 판단 못함, (2) 페르소나에 맞는 설득 전략을 구사하지 못함으로써 정보 회수율이 낮았다. 모델 규모와 능력에 관계없이 이러한 패턴이 일관되었으며, 이는 현재 LLM이 다중 턴 목표 지향 대화에서 전략적 플래닝과 감정적 연결 고리를 결여하고 있음을 시사한다.
전체적으로 본 논문은 대규모 자연스러운 저널리즘 인터뷰 데이터를 제공함으로써 grounding 및 전략적 대화 연구에 새로운 베이스라인을 마련하고, 장기 보상 기반 시뮬레이션을 통해 LLM의 대화 전략을 체계적으로 평가·개선할 수 있는 플랫폼을 제시한다. 향후 연구는 (1) 설득·공감 메커니즘을 보강한 강화학습 프레임워크, (2) 인간‑LLM 혼합 인터뷰어 설계, (3) 다양한 페르소나와 도메인으로의 확장을 통해 LLM의 전략적 대화 능력을 종합적으로 향상시키는 방향으로 진행될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기