그래프 기반 모델 중독 공격으로 위협받는 이기종 에이전트 인터넷
초록
본 논문은 이기종 대규모 언어 모델(LLM) 에이전트가 연합 미세조정(FFT)으로 협업하는 인터넷 of Agents(IoA) 환경에서, 공격자가 청취한 정상 업데이트를 그래프 형태로 모델링하고 변분 그래프 자동인코더(VGAE)를 이용해 구조적 의존성을 학습, 통계적으로 정상과 구분되지 않는 악성 업데이트를 생성하는 GRMP(Graph Representation‑based Model Poisoning) 공격을 제안한다. 증강 라그랑지안과 서브그라디언트 하강을 결합한 최적화 알고리즘을 통해 악성 업데이트가 기존 디시미라리티 기반 방어(Krum, Foolsgold 등)를 회피하면서 전역 LLM 성능을 크게 저하시킨다.
상세 분석
이 논문은 IoA라는 새로운 패러다임을 전제로, 서로 다른 도메인·데이터를 보유한 LLM 에이전트들이 LoRA 기반 연합 미세조정(FFT)으로 전역 모델을 공동 학습하는 구조를 상세히 설명한다. 기존 연구에서 강조된 프라이버시 보호와 통신 효율성은 LoRA 파라미터만 전송함으로써 달성되지만, 무선 채널의 개방성은 악의적인 에이전트가 정상 업데이트를 실시간으로 청취할 수 있는 환경을 만든다. 이러한 전제 하에 저자는 두 가지 핵심 아이디어를 제시한다. 첫째, 청취한 정상 업데이트들의 특징 상관관계를 그래프 (G=(V,E,F)) 로 표현한다. 여기서 노드 (V)는 파라미터 차원을, 엣지 (E)는 코사인 유사도로 정의된 상관 행렬 (A) 로 구성되며, 특징 행렬 (F)는 각 에이전트의 LoRA 업데이트를 행렬 형태로 집계한다. 둘째, 변분 그래프 자동인코더(VGAE)를 이용해 이 그래프의 잠재 구조를 학습한다. VGAE는 GCN 기반 인코더와 내적 기반 디코더를 사용해 재구성 손실과 KL‑발산을 동시에 최소화함으로써, 정상 업데이트가 갖는 고차원 상관 패턴을 저차원 잠재 공간에 압축한다.
학습된 VGAE는 두 단계에서 활용된다. (1) 재구성된 인접 행렬 (\hat{A})와 잠재 표현 (Z)를 통해 그래프 신호 처리(GSP) 모듈에 입력한다. (2) GSP는 라플라시안 행렬을 고유분해하여 그래프 푸리에 변환(GFT) 기반 기저 (B)를 얻고, 정상 업데이트 행렬 (F)를 이 기저에 투영해 스펙트럼 계수 (S=FB) 를 만든다. 이후 VGAE가 생성한 (\hat{A}) 로부터 새로운 라플라시안 (\hat{L})을 구하고, 그 고유기저 (\hat{B})와 (S)를 다시 결합해 복원된 특징 행렬 (\hat{F}=S\hat{B}^\top) 를 만든다. 이 (\hat{F})의 한 행을 악성 LoRA 업데이트 (\Delta w’_j) 로 선택한다.
악성 업데이트는 제약식 (d(\Delta w’_j,\Delta w_g)\le d_T) 를 만족해야 하므로, 저자는 증강 라그랑지안
\
댓글 및 학술 토론
Loading comments...
의견 남기기