다인스HA 문서 수준 감성 분석을 위한 다중 에이전트 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

다인스HA는 문서 수준의 측면 기반 감성 강도 분석(ABSABS)을 위해 설계된 다중 에이전트 시스템으로, 긴 텍스트를 의미 단위로 분할하고, 전문화된 LLM 에이전트들이 카테고리 지정, 의견 추출, 감성·강도 판단을 수행한다. 인간‑AI 협업 매니저가 결과를 통합·검증하여 고품질 라벨을 생성하고, 이를 기반으로 만든 Inf‑ABSIA 데이터셋은 2,714개의 장문 리뷰와 23,024개의 ACOSI 튜플을 제공한다. 실험 결과 다인스HA가 기존 few‑shot CoT와 비교해 뛰어난 성능을 보이며, 지식 증류를 통해 경량 모델에도 효과를 전이할 수 있음을 확인했다.

상세 분석

다인스HA는 두 단계로 구성된 하이브리드 파이프라인을 제시한다. 첫 번째 단계인 “Dance”는 Divide‑and‑Conquer 전략을 채택해 문서를 ‘측면 기반 사고 그룹(Aspect‑Based Thought Group)’으로 분할한다. 이 과정은 ‘분할‑결합‑측면 추출’ 세 단계로 이루어지며, 각 사고 그룹은 하나의 측면에 집중된 몇 문장으로 구성된다. 이렇게 만든 사고 그룹을 바탕으로 세 종류의 전문화된 LLM 에이전트가 병렬로 작동한다. 첫 번째 에이전트는 도메인‑특화된 카테고리 리스트를 RAG(검색‑증강‑생성) 방식으로 조회해 가장 적절한 카테고리를 할당한다. 두 번째 에이전트는 원문에 그대로 존재하는 의견 표현을 추출하는데, 특히 길이 연장(‘coooool’)이나 이모지 같은 비공식적 스타일을 보존한다. 세 번째 에이전트는 추출된 의견에 대해 감성 polarity와 0‑5 Likert 스케일의 강도 점수를 부여한다. 각 사고 그룹에 대해 (측면, 카테고리, 의견, 감성, 강도) 튜플을 생성한 뒤, 규칙 기반 머지 모듈이 이를 통합해 최종 ACOSI 리스트를 만든다.

두 번째 단계인 “HA”는 자동 라벨링 결과를 인간 annotator와 매니저 에이전트가 검증·수정하는 인간‑AI 협업이다. 매니저 에이전트는 서로 다른 LLM(예: DeepSeek‑V3, GPT‑4o) 기반의 여러 Dance 팀 출력을 종합해 일관성을 확보하고, 불확실하거나 충돌하는 항목을 인간에게 전달한다. 인간 annotator는 이러한 후보 라벨을 검토·수정함으로써 높은 정확도의 라벨을 확보한다. 이렇게 구축된 Inf‑ABSIA 데이터셋은 기존 문장 수준 ABSA/ABSIA 데이터와 비교해 도메인 수(3), 문서 길이 평균(90단어), 튜플 수(문서당 평균 8.48개)에서 모두 우수하다.

실험에서는 3개 도메인(노트북, 레스토랑, 호텔)과 7가지 LLM을 대상으로 성능을 평가했으며, 다인스HA가 few‑shot CoT 기반 베이스라인보다 전반적으로 높은 F1 점수를 기록했다. 특히 비공식적 표현이 포함된 문장에서 강도 점수 예측이 크게 향상되었으며, 지식 증류(Reasoning Chain) 기법을 적용한 경량 모델(Qwen‑14B)은 GPT‑4o few‑shot 대비 모든 도메인에서 우수한 결과를 보였다. 이는 다중 에이전트 협업이 복잡한 문서 수준 ABSIA 작업을 효과적으로 분해·통합하고, 인간 검증을 통해 라벨 품질을 보장함을 입증한다.

다인스HA 문서 수준 감성 분석을 위한 다중 에이전트 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기