세일즈 리서치 에이전트와 벤치마크: AI 기반 영업 인사이트의 품질 평가
초록
마이크로소프트는 Dynamics 365 Sales에 통합된 세일즈 리서치 에이전트를 발표하고, 이를 평가하기 위한 ‘세일즈 리서치 벤치마크’를 제시한다. 200개의 실제 영업 질문을 기반으로 8가지 고객 중점 품질 차원을 가중 평균해 100점 만점의 종합 점수를 산출했으며, 에이전트는 Claude Sonnet 4.5보다 13점, ChatGPT‑5보다 24.1점 높은 78.2점을 기록했다.
상세 분석
이 논문은 기업용 AI 솔루션이 실시간 CRM 데이터를 활용해 의사결정 지원을 제공할 때, 품질을 객관적으로 검증할 수 있는 프레임워크가 필요하다는 점을 강조한다. 세일즈 리서치 에이전트는 다중 에이전트 오케스트레이션과 모델 교체가 가능한 멀티‑모델 아키텍처를 채택해, 질문을 비즈니스 언어로 파싱하고, 스키마 인텔리전스를 통해 맞춤형 테이블·컬럼을 자동 식별한다. 특히, SQL·Python 코드 자동 교정 루프를 도입해 초기에 경량 모델이 오류를 잡고, 복잡한 오류는 고성능 모델이 재검증하도록 설계돼 있다. 이러한 설계는 코드 정확도와 응답 신뢰성을 크게 향상시킨다.
벤치마크 설계는 8가지 차원을 고객 가중치에 따라 배분한다. 텍스트·차트 근거성(각 25 %)이 가장 큰 비중을 차지하는데, 이는 영업 리더가 데이터 기반 서술과 시각화가 원본 데이터와 일치하는지를 가장 중시한다는 점을 반영한다. 차원별 평가는 Azure Foundry 기본 평가기와 OpenAI GPT‑4.1을 활용한 맞춤형 평가기로 진행했으며, 점수는 20~100 사이로 정규화된다.
실험에서는 동일한 200개 질문과 맞춤형 스키마를 모든 모델에 제공했으며, ChatGPT와 Claude는 Azure SQL에 복제된 데이터를 통해 접근하도록 구성했다. 결과는 세일즈 리서치 에이전트가 모든 차원에서 우위를 보였으며, 특히 차트 관련 차원(근거성, 적합성, 명료성)에서 가장 큰 격차를 나타냈다. 이는 전용 오케스트레이션 레이어가 차트 생성 로직을 최적화하고, 데이터 매핑 오류를 최소화했기 때문으로 해석된다.
또한, 스키마 정확성 점수가 상대적으로 낮게 나타난 점은 복잡한 맞춤형 스키마에서 여전히 개선 여지가 있음을 시사한다. 논문은 향후 벤치마크를 지속적으로 업데이트하고, 다른 비즈니스 영역(고객 서비스, 재무 등)에도 적용할 계획을 밝히며, 기업 AI 신뢰성 확보를 위한 표준화된 평가 체계 구축을 목표로 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기