멀티에이전트 LLM 시스템의 가치 전파 측정 프레임워크

멀티에이전트 LLM 시스템의 가치 전파 측정 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

ValueFlow는 다중 LLM 에이전트 간 상호작용에서 가치 왜곡이 어떻게 퍼지는지를 정량화한다. Schwartz 가치 설문을 기반으로 56개 가치 차원을 구성하고, LLM‑as‑judge 방식을 통해 각 에이전트의 가치 점수를 추출한다. 에이전트 수준에서는 β‑susceptibility(동료 신호에 대한 민감도)를, 시스템 수준에서는 SS(system susceptibility)를 정의해 구조적 토폴로지가 전파에 미치는 영향을 분석한다. 실험 결과, 가치마다 전파 강도가 크게 다르고, 개방성 프롬프트와 네트워크 형태가 전파를 증폭하거나 억제한다는 것이 밝혀졌다.

상세 분석

ValueFlow는 멀티에이전트 LLM 환경을 유향 비순환 그래프(DAG)로 모델링하고, 각 노드를 “에이전트 인보케이션”으로 정의한다. 에이전트는 자신의 프롬프트와 선행 노드들의 응답을 입력으로 받아 답변을 생성한다. 가치 측정을 위해 Schwartz Value Survey에서 추출한 56개 가치 차원 각각에 대해 10개의 예/아니오형 질문을 설계했으며, 에이전트의 답변을 LLM‑as‑judge가 0~10 점으로 채점한다. 이렇게 얻은 점수 yᵢ,ₖ는 시간에 따라 변화하는 가치 지표가 된다.

전파 실험은 두 단계로 나뉜다. 첫 번째는 β‑susceptibility 측정이다. 목표 에이전트가 n=5개의 선행 응답을 관찰하고, 그 중 일부를 목표 가치의 극단(0 또는 10)으로 조작한 뒤, 목표 에이전트의 출력 가치 점수 yᵢ와 입력 평균 ⟨xᵢ⟩ 사이의 선형 관계를 회귀한다. 회귀 기울기 β가 클수록 에이전트는 동료의 가치 신호에 민감하게 반응한다. 실험에서는 모델 종류(Qwen‑3‑8B, LLaMA‑3.3‑70B, GPT‑3.5‑Turbo, GPT‑4o, Gemma‑3‑27B), 프롬프트에 포함된 “개방성” 성격(높음·중립·낮음), 그리고 입력 컨텍스트 변동성(고·저) 등 네 가지 요인을 교차 검증했다. 결과는 가치마다 β가 크게 달라 norm‑ative(사회적 규범) 가치(예: 사회적 권력, 진정한 우정, 자기 규율)는 β가 낮고, 상황 의존적·표현적 가치(예: 영향력, 이미지 보존, 탈착)는 β가 높다는 일관된 패턴을 보였다.

두 번째는 시스템‑레벨 Susceptibility(SS) 측정이다. 여기서는 에이전트의 β를 고정하고, 네트워크 토폴로지를 다양하게 구성한다(완전 그래프, 스타, 체인, 랜덤 등). 특정 노드에 단위 가치 교란(Δₚₑᵣₜ=1)을 삽입하고, 최종 출력 노드들의 가치 점수 변화 |yₚₑᵣₜ−y₍base₎|를 평균해 SS를 정의한다. SS는 토폴로지에 따라 크게 변동한다; 중심 노드가 교란될 경우 스타 구조에서는 전체 시스템에 강한 파급 효과가 나타나고, 체인 구조에서는 교란이 점진적으로 감쇠한다. 또한, 높은 개방성 프롬프트를 사용한 에이전트들은 전반적인 SS가 상승하는 경향을 보였으며, 입력 컨텍스트 변동성이 클수록 전파가 증폭되는 현상이 관찰되었다.

핵심 기여는 (1) 가치‑특화 교란을 생성하기 위한 CO‑PRO 알고리즘 기반 프롬프트 최적화, (2) 에이전트‑레벨 β와 시스템‑레벨 SS라는 두 단계 정량 지표 도입, (3) 다양한 모델·프롬프트·토폴로지 조합에서 가치 전파의 비균질성을 체계적으로 밝혀낸 점이다. 이 프레임워크는 기존의 정적 가치 정렬 평가를 넘어, 실제 협업·대화 시나리오에서 가치 일관성을 유지하기 위한 설계 원칙을 제시한다는 점에서 의의가 크다.


댓글 및 학술 토론

Loading comments...

의견 남기기