법정 시뮬레이션 기반 투명 고위험 표형 데이터 의사결정
초록
AgenticSimLaw는 검사·변호·판사의 역할을 갖는 3인 멀티에이전트 토론 프레임워크로, 7턴 구조화된 논쟁을 통해 청소년 재범 예측과 같은 고위험 표형 데이터 문제에 투명하고 제어 가능한 추론 과정을 제공한다. 기존 체인‑오브‑생각(CoT) 방식과 비교해 정확도·F1 상관관계가 강화되고, 토큰 사용량은 늘어나지만 완전한 로그와 신뢰성 있는 감사가 가능하다.
상세 분석
본 논문은 고위험 표형 데이터(예: NLSY97 청소년 재범 예측)에서 대형 언어 모델(LLM)의 추론 투명성을 확보하기 위해 ‘법정 시뮬레이션’이라는 구조화된 멀티에이전트 토론(MAD) 프레임워크를 설계하였다. 핵심 설계 요소는 세 가지 역할(검사, 변호, 판사)과 7턴의 고정된 대화 흐름이다. 각 에이전트는 공개 발언 전 사적 전략을 수립하고, 판사는 각 단계마다 내부 belief state(예측, 신뢰도, 근거)를 업데이트한다. 이러한 설계는 (1) 역할 기반 조직화, (2) 전 과정 로그 기록, (3) 최종 판결에 대한 명시적 근거 제공이라는 세 축을 동시에 만족한다.
기술적으로는 Ollama 기반 4‑bit 양자화 모델들을 0.0~0.7 온도 설정으로 구동했으며, 모델군을 7–14B, 0.5–72B 파라미터 규모로 나누어 일반화 가능성을 검증하였다. 실험에서는 표준 CoT, n‑shot CoT(30예시)와 비교해 90여 가지 모델·프롬프트 조합을 평가했으며, 다중 에이전트 토론이 정확도와 F1 점수 간의 상관관계를 높여 ‘성능 안정성’과 ‘일반화’ 측면에서 우위를 보였다. 특히, 판사의 중간·최종 belief update 단계에서 신뢰도 변화를 추적함으로써 모델이 어느 특징에 의존하는지, 언제 불확실성을 보이는지를 정량화할 수 있었다.
또한 토큰 비용 측면에서 단일 샷 CoT 대비 평균 9,100 토큰이 추가 소모되지만, 이는 전 과정 로그와 토론 기록을 통해 인간 감사자가 쉽게 검증·해석할 수 있는 ‘관측 가능성’ 비용으로 해석된다. 파싱 실패 시 JSON·정규식 이중 검증 및 재시도 로직을 도입해 시스템 견고성을 확보했으며, 모든 API 메타데이터(토큰 수, 지연시간, 온도)와 타임스탬프를 포함한 완전한 감사 로그를 제공한다.
윤리적 관점에서 논문은 본 프레임워크가 실제 사법 절차에 적용되는 것이 아니라 연구·벤치마크용임을 명시하고, ‘비배포’ 제약을 두어 민감 도메인에서의 오용을 방지한다. 이는 고위험 분야에서 LLM 기반 의사결정 시스템이 책임성을 갖추기 위한 최소 기준을 제시한다는 점에서 의미가 크다.
요약하면, AgenticSimLaw는 (1) 역할 기반 구조화, (2) 전 과정 투명 로그, (3) 판단 근거 명시라는 세 가지 핵심 메커니즘을 통해 표형 데이터에 대한 LLM 추론을 인간이 이해·감시 가능한 형태로 전환한다. 이는 기존 단일 에이전트 CoT 방식이 갖는 ‘블랙박스’ 한계를 극복하고, 고위험 의사결정 상황에서 신뢰할 수 있는 AI 보조 도구로 활용될 가능성을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기