대화 흐름과 의미를 동시에 잡는 CID GraphRAG

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

CID-GraphRAG는 고객 서비스 멀티턴 대화에서 목표 지향적 진행과 문맥 일관성을 동시에 보장하기 위해, 목표 달성 대화를 기반으로 만든 의도 전이 그래프와 의미 기반 검색을 결합한 이중 경로 검색 메커니즘을 제안한다. 의도 그래프와 의미 임베딩을 가중합해 최상위 k개의 사례를 LLM에 제공함으로써, 자동 평가와 LLM‑as‑a‑Judge, 인간 평가 모두에서 기존 의미‑전용·의도‑전용 베이스라인보다 크게 우수한 성능을 기록한다.

상세 분석

본 논문은 멀티턴 고객 서비스 대화에서 “문맥 일관성”과 “목표 지향적 흐름”이라는 두 축을 동시에 만족시키는 Retrieval‑Augmented Generation(RAG) 프레임워크를 설계하였다. 핵심 아이디어는 (1) 목표가 달성된 과거 대화를 자동으로 라벨링해 1차·2차 의도 계층을 구성하고, 이를 기반으로 의도 전이 그래프를 구축하는 단계와, (2) 현재 대화의 의도와 의미를 동시에 고려하는 이중 경로 검색 메커니즘을 도입하는 것이다.

의도 인식은 두 단계 LLM‑프롬프트(Claude 3.7 Sonnet)를 활용해 먼저 대략적인 1차 의도를, 이어서 해당 1차 의도에 속하는 세부 2차 의도를 분류한다. 이렇게 얻어진 의도는 그래프의 노드(의도 노드, 의도 쌍 노드, 대화 예시 노드)와 관계(계층, 페어링, 전이, 앵커)로 구조화된다. 그래프는 성공적인 대화 흐름을 네비게이션할 수 있는 경로망을 제공한다.

검색 단계에서는 (i) 현재 사용자의 2차 의도를 기반으로 의도 쌍을 생성하고, 그래프 내에서 동시 발생 빈도 f′를 정규화해 의도 기반 점수를 산출한다. (ii) 대화 히스토리와 그래프에 연결된 과거 대화 예시를 임베딩해 코사인 유사도 sim를 계산한다. 두 점수는 가중치 α(논문에서는 0.1이 최적)로 선형 결합해 최종 점수 S_i = α·f′ + (1‑α)·sim을 얻는다. 상위 k 개의 예시를 LLM에 few‑shot 프롬프트 형태로 제공함으로써, 생성 단계에서는 의도 정보와 의미 정보를 동시에 반영한 응답을 생성한다.

실험은 차량 스티커 발급 관련 268개의 실제 고객 서비스 대화를 사용했으며, 데이터는 1,574개의 턴으로 구성된다. 평가 지표는 BLEU, ROUGE, METEOR, BERTScore와 더불어 Claude 3.7 Sonnet을 활용한 LLM‑as‑a‑Judge, 그리고 도메인 전문가 5명의 인간 평가를 포함한다. CID‑GraphRAG는 의미‑전용(RAG)와 의도‑전용(GraphRAG) 베이스라인에 비해 BLEU‑4에서 11.4 %·ROUGE‑L에서 4.9 %·METEOR에서 5.9 % 향상을 보였으며, LLM‑as‑a‑Judge 기준 응답 품질 승률이 57.9 % 상승했다. 특히 α = 0.1(의도 10 % + 의미 90 %) 설정이 가장 높은 성능을 보였으며, 의도 가중치를 과도하게 늘릴 경우 의미 적합도가 감소해 성능이 저하되는 현상이 관찰되었다.

이러한 결과는 (1) 의도 전이 그래프가 대화 흐름을 구조적으로 제시해 의미 기반 검색의 모호성을 보완하고, (2) 의미 임베딩이 실제 문맥 적합성을 유지해 의도만으로는 잡히지 않는 세부 정보를 제공한다는 점을 시사한다. 또한, 가중치 조절을 통해 두 신호의 시너지 효과를 최적화할 수 있음을 실증하였다.

한계점으로는 (①) 의도 라벨링에 LLM에 의존함에 따라 라벨 품질이 모델에 따라 변동될 수 있고, (②) 그래프 구축 시 목표 달성 대화만을 사용함으로써 드물거나 새로운 의도 조합에 대한 일반화가 제한될 수 있다. 향후 연구에서는 라벨링 자동화 정확도 향상, 그래프 확장성을 위한 지속적 학습, 그리고 멀티도메인 적용 가능성을 탐색할 필요가 있다.

대화 흐름과 의미를 동시에 잡는 CID GraphRAG

초록

상세 분석

댓글 및 학술 토론

의견 남기기