LLM 기반 다중에이전트 시스템의 신뢰와 견고성을 위한 프레디킨‑존슨 모델 적용
본 논문은 대형 언어 모델(LLM) 기반 다중에이전트 시스템(MAS)에서 발생할 수 있는 정보 조작 공격을 프레디킨‑존슨(Friedkin‑Johnsen) 의견 형성 모델로 정량화한다. 단일 고정견고(stubborn)하고 설득력 있는 악성 에이전트가 전체 네트워크 의견을 장악할 수 있음을 이론적으로 증명하고, 에이전트 수 확대, 고정견고성 강화, 신뢰 감소라는 세 가지 보안 강화 방안을 제시한다. 또한, 시스템 성능을 크게 손상시키지 않으면서 적…
저자: Samira Abedini, Sina Mavali, Lea Schönherr
본 논문은 대형 언어 모델(LLM) 기반 다중에이전트 시스템(MAS)이 복잡한 작업을 수행하면서 발생할 수 있는 새로운 보안 위협을 체계적으로 분석한다. 저자들은 사회과학에서 인간 의견 형성을 모델링하는 프레디킨‑존슨(Friedkin‑Johnsen, 이하 FJ) 모델을 차용해, 에이전트 간 의견 전파와 설득 메커니즘을 수학적으로 정형화한다. FJ 모델은 각 에이전트 i의 의견 x_i(t) 를 초기 선입견 b_i 와 이웃 의견의 가중 평균 w_{ij} 에 대한 신뢰 α_i와 고정견고성 γ_i 를 곱한 형태로 업데이트한다. 이때 γ_i 가 1에 가까울수록 에이전트는 자신의 초기 의견에 고정되어 외부 의견을 잘 받아들이지 않으며, α_i 는 이웃으로부터 받는 신뢰 정도를 나타낸다.
논문은 먼저 다양한 LLM(예: GPT‑4, Claude‑2, Llama‑2, Gemini)과 여러 작업(웹 자동화, 여행 일정 계획, 코드 리뷰)에서 실제 에이전트 간 대화를 수집하고, 관측된 의견 변화를 FJ 모델에 피팅한다. 실험 결과, 모델 파라미터 γ, α, w를 최적화했을 때 LLM‑MAS의 의견 다이내믹스와 FJ 모델이 0.7 이상의 상관계수로 일치함을 보인다. 이는 FJ 모델이 LLM‑MAS의 실제 동작을 충분히 설명할 수 있음을 의미한다.
이론적 분석에서는 네트워크 토폴로지와 파라미터 분포가 시스템 보안에 미치는 영향을 정량화한다. 특히, 고정견고성 γ_a 와 설득력(즉, 주변 에이전트와의 연결 가중치 w_{aj})이 높은 악성 에이전트가 존재할 경우, 시스템의 고정점 x* 는 악성 에이전트의 초기 선입견 b_a 에 크게 편향된다. 수학적으로는 고정점 해
x* = (I - (I-Γ)W)^{-1} Γ B
를 통해 증명되며, 여기서 Γ는 대각선 고정견고성 행렬, W는 신뢰 가중치 행렬, B는 초기 선입견 벡터이다. 이 식은 단일 악성 노드가 네트워크 중심에 위치하고 γ_a≈1, w_{aj}가 크면 전체 의견이 해당 노드로 수렴한다는 것을 보여준다.
보안 강화 방안으로는 세 가지 전략을 제시한다. 첫째, 에이전트 수 N 을 늘려 각 에이전트의 상대적 영향력을 감소시킨다. 둘째, 전체 에이전트의 고정견고성 γ 을 높여 외부 의견에 대한 수용성을 낮춘다. 셋째, 잠재적 악성 에이전트에 대한 신뢰 α 를 감소시켜 악성 노드와의 연결 가중치를 낮춘다. 그러나 (1)과 (2)는 시스템의 협업 효율과 합의 도달 속도를 저해하는 트레이드오프가 존재한다.
이를 해결하기 위해 저자들은 “신뢰‑적응 방어” 메커니즘을 설계한다. 방어 알고리즘은 매 라운드마다 에이전트 간 교신 내용(예: 응답 일관성, 논리적 일관성, 토큰 사용 패턴)을 평가해 α_i 값을 동적으로 조정한다. 악성 행동이 감지되면 해당 에이전트와의 신뢰를 급격히 낮추고, 정상 에이전트와의 연결은 유지한다. 이 과정은 네트워크 라플라시안 행렬을 실시간으로 재구성해 악성 노드가 구조적으로 격리되도록 만든다.
실험은 완전 연결, 스타, 그리고 실제 웹 자동화 시나리오 기반 토폴로지를 사용해 4가지 LLM과 다양한 작업을 대상으로 수행되었다. 공격 시나리오는 (i) 허브 에이전트가 고정견고·고설득력으로 악성 의견을 주입하는 경우와 (ii) 다수 리프 에이전트가 협력적으로 악성 의견을 전파하는 경우를 포함한다. 방어 적용 전에는 최종 의견 편향도가 0.6~0.8에 달했으며, 작업 성공률이 45% 이하로 급락했다. 반면, 신뢰‑적응 방어를 적용하면 최종 의견 편향도는 평균 0.12 이하로 감소하고, 작업 성공률은 92% 이상 유지돼 성능 저하가 거의 없음을 확인했다. 또한, 방어 메커니즘은 적응형 공격(악성 에이전트가 신뢰 감소에 대응해 프롬프트를 교체)에도 견고함을 보였다.
논문의 주요 기여는 다음과 같다. 1) FJ 모델을 LLM‑MAS에 적용해 의견 형성과 설득 캐스케이드를 이론적으로 분석하고, 실험적으로 검증하였다. 2) 단일 고정견고·고설득력 악성 에이전트가 전체 시스템을 장악할 수 있음을 수학적으로 증명하고, 보안 강화 방안을 제시하였다. 3) 시스템 성능을 크게 손상시키지 않는 신뢰‑적응 방어 메커니즘을 설계·평가하여, 실제 LLM‑MAS 환경에서 효과를 입증하였다. 4) 에이전트 설계 단계에서 고정견고성·신뢰 파라미터를 명시적으로 조정할 수 있는 설계 원칙을 제시함으로써, 향후 LLM‑MAS 표준화와 정책 수립에 중요한 인사이트를 제공한다.
이 연구는 LLM 기반 다중에이전트 시스템의 보안성을 수학적으로 정량화하고, 실용적인 방어 메커니즘을 제시함으로써, 현재 급속히 확산되는 에이전트 협업 환경에서 신뢰와 견고성을 동시에 확보할 수 있는 길을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기