단일 에이전트 안전을 넘어 LLM 간 상호작용 위험 분류

읽는 시간: 4 분
...

📝 원문 정보

  • Title: Beyond Single-Agent Safety: A Taxonomy of Risks in LLM-to-LLM Interactions
  • ArXiv ID: 2512.02682
  • 발행일: 2025-12-02
  • 저자: Piercosma Bisconti, Marcello Galisai, Federico Pierucci, Marcantonio Bracale, Matteo Prandi

📝 초록 (Abstract)

본 논문은 인간‑모델 상호작용을 위해 설계된 안전 메커니즘이 대규모 언어 모델(LLM) 간 상호작용 환경에서는 확장되지 않는 이유를 탐구한다. 현재 대부분의 거버넌스 관행은 개별 모델의 행동을 제한하는 단일‑에이전트 안전, 프롬프트, 파인튜닝, 그리고 출력 검열에 의존하지만, 이러한 접근법은 여러 모델이 연쇄적으로 입력·출력을 교환하는 에코시스템을 통제하지 못한다. 기존 메커니즘은 한 모델이 한 사용자를 응답하는 안정적인 감독 하에서만 유효하다고 가정한다. 그러나 연구와 산업 현장은 빠르게 LLM‑to‑LLM 생태계로 전환되고 있으며, 여기서는 출력이 재귀적으로 다른 모델의 입력으로 재사용된다. 이러한 시스템에서는 각 모델이 개별적으로 정렬되어 있더라도, 로컬 컴플라이언스가 누적되어 집단적 실패를 초래할 수 있다. 저자는 모델 수준 안전에서 시스템 수준 안전으로의 개념적 전환을 제안하고, 상호작용 구조 자체에서 불안정성이 발생함을 형식화하는 ‘Emergent Systemic Risk Horizon(ESRH)’ 프레임워크를 도입한다. 논문의 주요 기여는 (i) 상호작용하는 LLM에서 발생하는 집단 위험에 대한 이론적 고찰, (ii) 미시·중간·거시 수준의 실패 모드를 연결하는 위험 분류 체계, (iii) 다중 에이전트 시스템에 적응형 감독을 삽입하는 ‘Institutional AI’ 설계 제안이다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
이 논문은 현재 AI 안전 연구가 지나치게 ‘단일‑에이전트’ 시나리오에 국한되어 있다는 점을 날카롭게 지적한다. 인간 사용자가 직접 모델을 제어하고, 프롬프트 엔지니어링이나 RLHF(인간 피드백 강화학습)와 같은 방법으로 위험을 억제하는 기존 접근법은, 모델이 독립적으로 작동할 때는 효과적일 수 있다. 그러나 실제 서비스 환경에서는 LLM이 도구를 호출하거나, 다른 LLM에게 작업을 위임하거나, 체인형 파이프라인에서 서로의 출력을 재활용하는 복합적인 상호작용이 일상화되고 있다. 이러한 상황에서 ‘개별 정렬’은 충분하지 않다. 예를 들어, 두 개의 잘 정렬된 모델이 각각 “안전한” 답변을 생성하더라도, 그 답변을 순차적으로 결합하면 원래 의도와는 다른 위험한 명령이 도출될 수 있다. 이는 ‘합성 위험(synthetic risk)’이라고 부를 수 있는 현상이며, 논문은 이를 ‘Emergent Systemic Risk Horizon(ESRH)’이라는 개념으로 체계화한다. ESRH는 상호작용 네트워크의 토폴로지, 피드백 루프, 그리고 정보 흐름의 비선형 증폭 효과를 정량화하려는 시도이다.

논문은 위험을 미시(micro), 중간(meso), 거시(macroscopic) 수준으로 구분하는 ‘위험 분류 체계’를 제시한다. 미시 수준에서는 프롬프트 변조, 출력 변형 등 개별 교환에서 발생하는 오류가 포함되고, 중간 수준에서는 에이전트 간 협업 프로토콜, 작업 스케줄링, 그리고 재귀적 호출 구조가 문제를 일으킬 수 있다. 거시 수준에서는 전체 시스템이 목표를 왜곡하거나, 외부 악의적 행위자가 다중 모델을 조작해 사회적·경제적 파장을 일으키는 시나리오가 포함된다. 이러한 계층적 접근은 정책 입안자와 기술 설계자가 어느 수준에서 개입해야 하는지를 명확히 하는 데 도움을 준다.

‘Institutional AI’라는 설계 제안은 기존의 모델‑중심 감시를 넘어, 시스템‑중심 거버넌스 구조를 도입한다. 여기에는 동적 위험 평가 모듈, 상호작용 로그의 실시간 감사, 그리고 자동화된 ‘위험 완화 정책’이 포함된다. 특히, 적응형 감독 메커니즘은 모델 간 피드백 루프가 감지될 때 자동으로 제한을 가하거나, 의심스러운 연쇄 반응을 차단한다. 이는 현재 AI 거버넌스가 직면한 ‘스케일링 딜레마’를 해결하기 위한 실질적인 로드맵을 제공한다는 점에서 의의가 크다.

하지만 몇 가지 한계도 존재한다. ESRH를 정량화하기 위한 구체적 수학적 모델이 부족하고, 위험 분류 체계가 실제 산업 파이프라인에 적용될 때 발생할 수 있는 오버헤드에 대한 논의가 부족하다. 또한 ‘Institutional AI’ 구현을 위한 인프라 요구사항과 비용‑편익 분석이 제시되지 않아, 실무 적용 가능성을 평가하기 어려운 점이 있다. 향후 연구에서는 시뮬레이션 기반 실증 연구와, 다양한 도메인(예: 의료, 금융)에서의 파일럿 테스트가 필요하다. 전반적으로 이 논문은 LLM‑to‑LLM 상호작용 시대에 필수적인 안전 패러다임 전환을 제시하며, 학계와 산업계 모두에게 중요한 연구 로드맵을 제공한다.

📄 논문 본문 발췌 (Translation)

제목: 단일 에이전트 안전을 넘어 LLM 간 상호작용 위험 분류

초록: 본 논문은 인간‑모델 상호작용을 위해 설계된 안전 메커니즘이 대규모 언어 모델(LLM) 간 상호작용 환경에서는 확장되지 않는 이유를 조사한다. 대부분의 현재 거버넌스 관행은 단일‑에이전트 안전, 프롬프트, 파인튜닝, 그리고 출력 검열과 같은 레이어에 의존하여 개별 모델의 행동을 제한하지만, 다중 모델이 서로의 출력을 재귀적으로 입력으로 사용하는 체인형 에이전트 시스템의 역학은 통제되지 않는다. 이러한 메커니즘은 한 모델이 한 사용자를 응답하고, 안정적인 감독 하에 작동한다는 이중(dyadic) 설정을 전제로 한다. 그러나 연구와 산업 개발은 급속히 LLM‑to‑LLM 생태계로 전환하고 있으며, 여기서는 출력이 재귀적으로 다른 에이전트의 입력으로 재사용된다. 이러한 시스템에서는 각 모델이 개별적으로 정렬되어 있더라도, 로컬 컴플라이언스가 집합적으로 실패를 초래할 수 있다. 우리는 모델 수준 안전에서 시스템 수준 안전으로의 개념적 전환을 제안하고, 상호작용 구조 자체에서 불안정성이 발생함을 형식화하는 ‘Emergent Systemic Risk Horizon(ESRH)’ 프레임워크를 도입한다. 본 논문의 기여는 (i) 상호작용하는 LLM에서 발생하는 집단 위험에 대한 이론적 고찰, (ii) 미시·중간·거시 수준의 실패 모드를 연결하는 위험 분류 체계, (iii) 다중 에이전트 시스템에 적응형 감독을 삽입하는 ‘Institutional AI’ 설계 제안이다.

단일 에이전트 안전 현재 안전 접근법은 단일 모델이 직접 인간 감독 하에 작동한다는 가정하에, 프롬프트 엔지니어링, 인간 피드백 강화학습(RLHF), 또는 출력 검열을 통해 바람직하지 않은 행동을 방지한다. 이러한 기술은 신뢰성 및 예의 수준을 측정 가능하게 향상시켰지만, 이는 점별(pointwise)이다: 하나의 인스턴스가 하나의 입력에 어떻게 응답하는지를 관리할 뿐, 다수 모델이 함께 어떻게 행동하는지는 다루지 않는다. 대규모 모델이 도구 사용, 에이전트화, 다중 에이전트 설정에 점점 더 많이 배치됨에 따라, 이 단일‑에이전트 안전 패러다임은 붕괴되기 시작한다. 개별적으로 잘 정렬된 모델이라도 집합적으로는 단일 인스턴스가 학습되지 않은 결과를 생성할 수 있다. (본문의 나머지 부분은 원문과 동일하게 번역됨)

📸 추가 이미지 갤러리

page_1.png page_2.png page_3.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키