전문가 기반 동적 평가 프레임워크 JADE
초록
전문적이고 개방형 업무를 수행하는 AI 에이전트의 평가는 엄격성과 유연성 사이의 딜레마에 직면합니다. 정적 평가 기준은 엄격하지만 다양한 유효한 전략을 수용하지 못하고, LLM 평가자는 유연하지만 불안정하고 편향될 수 있습니다. 본 연구는 인간 전문가의 평가 방식을 모방한 JADE 프레임워크를 제안합니다. JADE는 사전 정의된 평가 기술(1층)과 보고서별 주장 수준의 동적 평가(2층)로 구성되어 안정적이면서도 적응적인 평가를 가능하게 합니다. BizBench 벤치마크 실험을 통해 JADE가 평가 안정성을 향상시키고 기존 평가자가 놓치는 중요한 실패 모드를 발견함을 입증했습니다.
상세 분석
JADE 프레임워크의 핵심 기술적 혁신은 ‘안정성-적응성 딜레마’를 계층적 분해를 통해 해결한 점에 있습니다. 기존의 정적 루브릭이나 LLM-as-a-judge 방식은 각각 유연성 부재와 불안정성/편향이라는 한계를 가졌습니다. JADE는 이를 1층(Query-Specific Checklist)과 2층(Report-Specific Checklist)으로 분리하여 극복합니다.
1층에서는 도메인 전문가가 정의한 평가 기술(Skills)을 기반으로 쿼리 특정 체크리스트를 생성합니다. 이 과정은 결정론적이며 쿼리에만 의존하므로 동일한 쿼리에 대해 항상 동일한 평가 기준이 적용되어 평가의 안정성(Stability)을 보장합니다. 2층에서는 AI 에이전트가 생성한 응답 보고서에서 구체적인 주장(Claims)을 추출하고, 이를 기반으로 보고서 특정 체크리스트를 생성합니다. 이는 응답의 다양성을 유연하게(Flexibility) 평가할 수 있는 기반이 됩니다.
가장 중요한 기술적 메커니즘은 ‘의존성 게이팅(Dependency Gating)‘입니다. 이는 논리적 주장(Reasoning Claims)이 사실적 주장(Factual Claims)에 의존할 때, 사실적 주장의 검증 결과가 부정적이면 해당 논리적 주장의 평가 점수를 무효화하는 장치입니다. 이는 잘못된 근거에 기반한 결론이 높은 점수를 받는 것을 방지하여 평가의 건전성(Soundness)을 확보합니다. 최종 점수는 ‘추론 점수’와 ‘증거 신뢰도 점수’의 곱으로 계산되므로, 탄탄한 증거 없이 훌륭한 추론을 하거나, 정확한 증거를 제시하지만 논리가 빈약한 경우 모두 패널티를 받게 됩니다.
BizBench 벤치마크 실험 결과, JADE는 LLM 단일 평가자보다 평가 결과의 안정성을 크게 향상시켰을 뿐만 아니라, 인용 환각(Citation Hallucination), 피상적 추론(Shallow Reasoning), 방법론으로 위장한 미완성(Methodology-masked Non-completion) 등 기존 평가자가 놓치기 쉬운 중요한 에이전트 실패 모드들을 효과적으로 발견했습니다. 이는 JADE가 단순한 점수 매기기를 넘어, 에이전트의 내부 추론 과정과 외부 증거의 신뢰성을 체계적으로 검증할 수 있기 때문입니다. 또한 의료 도메인 벤치마크로의 효과적인 전이 실험은 JADE 프레임워크의 도메인 독립성과 확장 가능성을 입증합니다.
댓글 및 학술 토론
Loading comments...
의견 남기기