LLM 평가자 행동 분석과 결제 위험 평가 적용
초록
본 논문은 MCC 기반 가맹점 위험 평가에서 LLM이 생성한 논리의 품질을 다중 평가자 프레임워크로 측정한다. 5가지 평가 기준과 몬테카를로 샘플링을 결합해 평가자 안정성을 정량화하고, 자체 평가 편향을 평균 동료 점수와 비교하는 컨센서스‑편차 지표를 제안한다. GPT‑5.1·Claude 4.5 Sonnet은 자기 평가에서 음의 편향을, Gemini 2.5 Pro·Grok 4는 양의 편향을 보이며, 익명화 시 편향 크기가 25.8 % 감소한다. 인간 전문가와 실거래 데이터 검증을 통해 LLM 평가가 실제 위험 패턴과 높은 상관관계를 갖는 것을 확인한다.
상세 분석
이 연구는 결제 산업에서 가맹점 위험을 판단하기 위해 Merchant Category Code(MCC)를 활용한 정형화된 프롬프트를 설계하고, 다섯 개의 최첨단 LLM(GPT‑5.1, Gemini‑2.5 Pro, Grok 4, Claude 4.5 Sonnet, Perplexity Sonar)을 논리 생성기와 평가자로 동시에 운용한다는 점에서 혁신적이다. 평가자는 ① 정확성, ② 논리 품질, ③ 일관성, ④ 완전성, ⑤ 실용성이라는 다섯 가지 기준을 0‑10 점 척도로 채점하고, 동일 논리문에 대해 온도 0.7 하에서 10번의 독립 샘플링을 수행한다. 이를 통해 각 평가자의 평균 점수(µ)와 표준편차(σ)를 산출해 평가 안정성을 정량화한다.
핵심 기여는 ‘컨센서스‑편차’ 메트릭이다. 이는 특정 평가자가 부여한 점수를 나머지 모든 평가자의 평균과 비교함으로써 평가자 고유의 편향을 순환 없이 측정한다. 양의 편향은 자기 점수가 동료 평균보다 높음을, 음의 편향은 그 반대를 의미한다. 실험 결과, GPT‑5.1과 Claude 4.5 Sonnet은 각각 –0.33점, –0.31점의 음의 자기 평가 편향을 보였으며, 이는 기존 연구에서 보고된 ‘자기 선호’와 정반대이다. 반면 Gemini 2.5 Pro와 Grok 4는 +0.77점, +0.71점의 강한 양의 편향을 나타냈다. 익명화 처리(모델 정체성 은폐) 후에도 편향 방향은 유지됐지만 평균 25.8 % 감소해, 편향이 모델 고유 특성에 기인함을 시사한다.
인간 전문가 26명을 대상으로 한 비교에서는 LLM 평가자들이 인간 합의점보다 평균 +0.46점 높게 채점했으며, 특히 음의 편향을 보인 GPT‑5.1·Claude 4.5 Sonnet이 인간 판단과 가장 근접했다. 마지막으로 결제 네트워크의 4년간 거래 데이터를 이용한 ‘ground‑truth’ 검증에서는 Claude 4.5 Sonnet, Gemini 2.5 Pro, Grok 4, GPT‑5.1이 0.56‑0.77의 스피어맨 상관계수를 기록해, LLM 기반 평가가 실제 위험 패턴을 잘 포착함을 확인했다.
이러한 결과는 LLM을 ‘판단자’로 활용할 때 모델별 편향을 사전에 파악하고, 익명화와 같은 프로토콜을 통해 편향을 완화할 필요성을 강조한다. 또한, 다중 평가와 몬테카를로 안정성 측정이 결제 위험 관리와 같은 고위험 도메인에서 LLM 신뢰성을 확보하는 실용적 방법임을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기