단일 에이전트 안전을 넘어 LLM 간 상호작용 위험 분류
📝 원문 정보
- Title: Beyond Single-Agent Safety: A Taxonomy of Risks in LLM-to-LLM Interactions
- ArXiv ID: 2512.02682
- 발행일: 2025-12-02
- 저자: Piercosma Bisconti, Marcello Galisai, Federico Pierucci, Marcantonio Bracale, Matteo Prandi
📝 초록 (Abstract)
본 논문은 인간‑모델 상호작용을 위해 설계된 안전 메커니즘이 대규모 언어 모델(LLM) 간 상호작용 환경에서는 확장되지 않는 이유를 탐구한다. 현재 대부분의 거버넌스 관행은 개별 모델의 행동을 제한하는 단일‑에이전트 안전, 프롬프트, 파인튜닝, 그리고 출력 검열에 의존하지만, 이러한 접근법은 여러 모델이 연쇄적으로 입력·출력을 교환하는 에코시스템을 통제하지 못한다. 기존 메커니즘은 한 모델이 한 사용자를 응답하는 안정적인 감독 하에서만 유효하다고 가정한다. 그러나 연구와 산업 현장은 빠르게 LLM‑to‑LLM 생태계로 전환되고 있으며, 여기서는 출력이 재귀적으로 다른 모델의 입력으로 재사용된다. 이러한 시스템에서는 각 모델이 개별적으로 정렬되어 있더라도, 로컬 컴플라이언스가 누적되어 집단적 실패를 초래할 수 있다. 저자는 모델 수준 안전에서 시스템 수준 안전으로의 개념적 전환을 제안하고, 상호작용 구조 자체에서 불안정성이 발생함을 형식화하는 ‘Emergent Systemic Risk Horizon(ESRH)’ 프레임워크를 도입한다. 논문의 주요 기여는 (i) 상호작용하는 LLM에서 발생하는 집단 위험에 대한 이론적 고찰, (ii) 미시·중간·거시 수준의 실패 모드를 연결하는 위험 분류 체계, (iii) 다중 에이전트 시스템에 적응형 감독을 삽입하는 ‘Institutional AI’ 설계 제안이다.💡 논문 핵심 해설 (Deep Analysis)

논문은 위험을 미시(micro), 중간(meso), 거시(macroscopic) 수준으로 구분하는 ‘위험 분류 체계’를 제시한다. 미시 수준에서는 프롬프트 변조, 출력 변형 등 개별 교환에서 발생하는 오류가 포함되고, 중간 수준에서는 에이전트 간 협업 프로토콜, 작업 스케줄링, 그리고 재귀적 호출 구조가 문제를 일으킬 수 있다. 거시 수준에서는 전체 시스템이 목표를 왜곡하거나, 외부 악의적 행위자가 다중 모델을 조작해 사회적·경제적 파장을 일으키는 시나리오가 포함된다. 이러한 계층적 접근은 정책 입안자와 기술 설계자가 어느 수준에서 개입해야 하는지를 명확히 하는 데 도움을 준다.
‘Institutional AI’라는 설계 제안은 기존의 모델‑중심 감시를 넘어, 시스템‑중심 거버넌스 구조를 도입한다. 여기에는 동적 위험 평가 모듈, 상호작용 로그의 실시간 감사, 그리고 자동화된 ‘위험 완화 정책’이 포함된다. 특히, 적응형 감독 메커니즘은 모델 간 피드백 루프가 감지될 때 자동으로 제한을 가하거나, 의심스러운 연쇄 반응을 차단한다. 이는 현재 AI 거버넌스가 직면한 ‘스케일링 딜레마’를 해결하기 위한 실질적인 로드맵을 제공한다는 점에서 의의가 크다.
하지만 몇 가지 한계도 존재한다. ESRH를 정량화하기 위한 구체적 수학적 모델이 부족하고, 위험 분류 체계가 실제 산업 파이프라인에 적용될 때 발생할 수 있는 오버헤드에 대한 논의가 부족하다. 또한 ‘Institutional AI’ 구현을 위한 인프라 요구사항과 비용‑편익 분석이 제시되지 않아, 실무 적용 가능성을 평가하기 어려운 점이 있다. 향후 연구에서는 시뮬레이션 기반 실증 연구와, 다양한 도메인(예: 의료, 금융)에서의 파일럿 테스트가 필요하다. 전반적으로 이 논문은 LLM‑to‑LLM 상호작용 시대에 필수적인 안전 패러다임 전환을 제시하며, 학계와 산업계 모두에게 중요한 연구 로드맵을 제공한다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리