멀티턴 고객지원 대화의 라이프사이클 인식 클러스터링

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 클라우드 서비스 제공자가 다중 서비스가 얽힌 고객 채팅을 효율적으로 관리하도록, LLM을 활용해 대화를 서비스별 이슈로 분리하고, DBI·Silhouette 지표를 실시간 모니터링하면서 품질이 저하된 클러스터만 선택적으로 재분할하는 적응형 클러스터링 프레임워크를 제안한다. 실험 결과, 기존 방법 대비 Silhouette 점수는 100 % 이상 향상되고 DBI는 65.6 % 감소하였다.

상세 분석

이 연구는 고객지원 채팅의 특수성을 세 가지 차원에서 정확히 파악한다. 첫째, 다중 서비스가 혼재하는 멀티턴 대화는 하나의 토픽으로 취급하면 의미 손실이 크다. 저자는 LLM 기반 프롬프트 설계로 대화 흐름을 감지하고, 서비스 전환점마다 새로운 “세그먼트”를 생성한다. 이 과정은 200개의 샘플 채팅에 대해 Kappa 0.79라는 높은 인간‑LLM 일치도를 보이며, 세그먼트 경계 탐지 정확도가 검증되었다.

둘째, 세그먼트 내에서 실제 사용자 요구를 “concern” 단위로 추출한다. 여기서도 LLM이 문맥을 고려해 복합 문장을 두 개 이상의 독립적인 이슈로 분리한다. 150개의 라벨링된 세그먼트에 대해 F1 0.84를 기록했으며, 이는 기존 규칙 기반 추출기보다 현저히 우수하다.

셋째, 추출된 concern에 대해 중복 제거를 수행한다. nli‑roberta‑base‑v2 임베딩을 이용해 코사인 유사도 0.95 이상을 중복으로 판단하고, 동일 대화 내 반복 발화를 제거한다. 이는 클러스터 밀도를 왜곡하지 않으면서도 동일 이슈가 여러 채팅에 걸쳐 나타나는 경우는 보존한다는 점에서 실용적이다.

클러스터링 자체는 서비스 그룹별로 HDBSCAN + UMAP 파이프라인을 적용한다. HDBSCAN은 자동 군집 수 결정과 노이즈 포인트 식별에 강점이 있어, 동적 환경에서 클러스터 구조가 자연스럽게 형성된다. 임베딩 차원 축소는 UMAP을 사용해 768 → 50 차원으로 압축, 거리 기반 군집화 효율을 크게 높인다.

핵심 혁신은 “Lifecycle‑aware” 관리이다. 각 서비스 그룹에 대해 DBI와 Silhouette를 지속적으로 계산하고, Z‑score 기반 코히전스 변화를 감지한다. DBI > 0.5 혹은 Silhouette < 0.5, 그리고 코히전스 Z ≥ 2인 경우에만 LLM을 호출해 클러스터를 분할한다. 이렇게 선택적 재분할을 함으로써 전체 재클러스터링 비용을 회피하고, 기존 클러스터 ID를 유지해 추적성을 보장한다.

또한, 새롭게 등장하는 이슈는 “unassigned pool”에 임시 저장하고, 일정량(≥10) 모이면 LLM이 자동으로 신규 클러스터를 생성한다. 클러스터 병합·폐기도 코사인 유사도(0.92)와 LLM 판단을 결합해 수행한다. 마지막으로, 각 클러스터에 “Core·Emerging·Peripheral·Deprecated” 네 가지 역할을 부여해 운영팀이 시각화·우선순위 설정에 활용하도록 설계했다.

실험은 90 000개 이상의 채팅(일 평균 500개 신규 concern) 데이터를 대상으로 진행했으며, 기존 LDA·K‑Means·HDBSCAN 단일 파이프라인 대비 Silhouette 평균 1.02배 상승, DBI 평균 0.344배 감소를 달성했다. 특히, 재분할이 필요한 클러스터 비율이 전체의 12 %에 불과했음에도 전체 품질이 크게 개선된 점이 주목할 만하다.

전체적으로 이 논문은 LLM을 전처리·클러스터링·관리 전 단계에 고르게 배치함으로써, “실시간·점진적·설명가능”이라는 세 가지 요구를 동시에 만족시키는 종합 솔루션을 제시한다.

멀티턴 고객지원 대화의 라이프사이클 인식 클러스터링

초록

상세 분석

댓글 및 학술 토론

의견 남기기