다중방향 메디오이드 클러스터링으로 보는 LLM‑as‑a‑Judge 편향 구조
초록
LLM‑as‑a‑Judge는 프롬프트만 바꾸면 다양한 평가 기준을 얻을 수 있지만, 평가 비용과 평가자 편향이 큰 문제다. 본 논문은 질문·답변자·평가자 3차원 점수 텐서를 대상으로 새로운 텐서 클러스터링 기법 MultiwayPAM을 제안한다. MultiwayPAM은 각 모드별 클러스터와 대표 메디오이드를 동시에 추정해 텐서 구조를 해석 가능하게 만든다. 실험에서는 Truthy와 Emerton 두 데이터셋에 적용해, 질문·답변자·평가자 간의 편향 패턴을 시각화하고, 메디오이드 기반 해석이 기존 방법보다 직관적임을 입증한다.
상세 분석
본 연구는 LLM‑as‑a‑Judge 프레임워크의 두 핵심 한계—대규모 텍스트에 대한 추론 비용과 평가자(LLM)의 내재적 편향—를 텐서 클러스터링으로 동시에 완화하고자 한다. 점수 텐서는 질문(q), 답변자(a), 평가자(e) 세 축으로 구성된 3차원 배열이며, 각 원소는 특정 질문‑답변자‑평가자 조합에 대한 점수를 나타낸다. 기존 텐서 블록 모델링 기법은 클러스터 멤버십을 제공하지만, 클러스터가 커질수록 해석이 어려워진다. 이를 해결하기 위해 저자들은 Partitioning Around Medoids(PAM)의 아이디어를 텐서 차원으로 확장한 MultiwayPAM을 설계했다.
MultiwayPAM은 두 단계 알고리즘으로 이루어진다. 첫 단계인 BUILD 단계에서는 각 모드별로 그리디하게 메디오이드를 선택하고, 각 인덱스를 가장 가까운 메디오이드 슬라이스와의 거리(제곱 L2) 최소화 기준으로 초기 클러스터를 할당한다. 여기서 슬라이스는 한 모드의 인덱스를 고정하고 나머지 모드들을 전체적으로 보는 부분 텐서이다. 두 번째 단계인 SWAP 단계에서는 현재 메디오이드와 비메디오이드 인덱스 쌍을 교환하면서 전체 텐서와 메디오이드 텐서 간의 총 손실을 감소시키는 방향으로 반복 최적화를 수행한다. 교환 후보는 모든 모드에 대해 탐색되며, 교환 후 재계산된 클러스터 멤버십은 조건부 로직을 통해 메디오이드가 실제로 해당 클러스터에 속하도록 보장한다. 이 과정은 손실이 더 이상 감소하지 않을 때까지 진행된다.
알고리즘의 핵심 강점은 (1) 메디오이드를 직접 제공함으로써 각 클러스터를 대표하는 실제 질문·답변자·평가자 인덱스를 확인할 수 있어 해석이 용이하고, (2) 텐서 전체 구조를 고려한 거리 최소화가 기존 행렬 기반 클러스터링보다 편향 패턴을 더 정밀하게 포착한다는 점이다.
실험에서는 두 실제 LLM‑as‑a‑Judge 데이터셋인 Truthy‑DPO‑v0.1과 Emerton‑DPO‑Pairs‑Judge에 적용하였다. 각각 50개의 질문, 50개의 답변자 페르소나, 50개의 평가자 페르소나를 무작위 추출해 50×50×50 점수 텐서를 구성하였다. 클러스터 수는 각 모드당 5개로 고정하고, MultiwayPAM을 실행해 얻은 메디오이드와 클러스터 멤버십을 시각화하였다. 결과는 질문 클러스터가 점수 변동을 주도하고, 평가자 클러스터가 특정 질문·답변자 조합에 대해 일관된 고·저점수를 부여한다는 구조적 편향을 드러냈다. 특히, 특정 평가자 메디오이드(E14)는 군사 관련 질문에 낮은 점수를, 다른 메디오이드(E22)는 일상 건강 질문에 높은 점수를 부여하는 등, 평가자의 배경(예: 군사·스포츠 팬)과 질문 내용 간의 상관관계를 명확히 확인할 수 있었다.
비교 실험에서는 기존 텐서 블록 모델링(예: Tucker, CP)과 대비했을 때, MultiwayPAM은 동일한 클러스터 수에서도 평균 손실이 8~12% 낮았으며, 메디오이드 기반 해석이 가능하다는 추가적인 실용적 장점을 제공한다. 한계점으로는 메디오이드 초기화가 그리디 방식에 의존해 로컬 최적에 머물 수 있다는 점과, 클러스터 수 사전 지정이 필요하다는 점을 들었다. 향후 연구에서는 자동 클러스터 수 선택 및 비유클리드 거리 함수 적용을 검토한다.
전반적으로 MultiwayPAM은 LLM‑as‑a‑Judge 점수 텐서의 구조적 편향을 정량·정성적으로 파악할 수 있는 강력한 도구이며, 대규모 평가 비용 절감과 편향 완화 전략 수립에 실질적인 기여를 할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기