대규모 언어 모델을 위한 서브스페이스 기반 정규화 매칭 퍼셉트론

본 논문은 대규모 언어 모델(LLM)의 연합 학습 과정에서 클라이언트가 전송하는 집계된 그래디언트(g_mix)만을 이용해 원본 텍스트를 복원하는 새로운 공격 프레임워크 SOMP(Subspace‑Guided Orthogonal Matching Pursuit)를 제안한다. 기존의 텍스트 기반 그래디언트 인버전 공격은 배치 크기가 작거나 시퀀스 길이가 짧은 경우에만 높은 복원 정확도를 보였으며, 배치가 커지고 시퀀스가 길어질수록 신호가 혼합되어 성능이 급격히 저하되는 문제가 있었다. 이러한 한계를 극복하기 위해 저자들은 변환기 모델이 갖는 두 가지 구조적 특성을 활용한다. 첫 번째 특성은 멀티‑헤드 어텐션이 각 헤드마다 독립적인 쿼리, 키, 밸류 프로젝션을 가지고 있다는 점이다. 특히 첫 번째 레이어의 쿼리 가중치 그래디언트 ∇W^{(h)}_{1,Q}는 입력 임베딩 Z₀와 백프로파게이션 신호 G^{(h)}_Q의 행렬 곱 형태(∇W^{(h)}_{1,Q}=Z₀ᵀ·G^{(h)}_Q)로 표현되며, 이는 각 헤드가 정의하는 저차원 서브스페이스에 대한 정보를 그대로 보존한다. 두 번째 특성은 변환기 선형 레이어의 그래디언트가 Xᵀ·∇Y 형태의 저‑랭크 구조를 가지며, 토큰 수준에서 희소한 활성 패턴을 나타낸다는 점이다. 이러한 헤드‑별 기하 구조와 토큰‑레벨 희소성을 결합하면, 집계된 그래디언트에서도 개별 샘플의 흔적을 효과적으로 추출할 수 있다. SOMP는 이 두 특성을 기반으로 세 단계의 파이프라인을 설계한다. **Stage I – 헤드‑구조 토큰 풀링** 각 헤드 h에 대해 서브스페이스 R^{(h)}_{1,Q}를 정의하고, 후보 토큰 임베딩 e(v, pos)를 해당 서브스페이스에 투영한다. 투영 후 남은 성분의 L2 노름을 구해 정렬 점수 s_sub(v, pos) (식 4‑5)를 계산한다. 동시에 여러 헤드에서 동일 토큰이 일관되게 높은 정렬 점수를 보이는지를 표준편차로 측정해 일관성 점수 s_cons(v, pos) (식 6)를 얻는다. 마지막으로 헤드‑별 FFN 그래디언트와의 내적을 이용해 토큰이 실제로 활성화된 차원을 얼마나 차지하는지를 평가하는 희소성 점수 s_sparse(v, pos) (식 7‑9)를 산출한다. 세 점수를 가중합한 총점 s_total(v, pos) (식 10)으로 토큰을 순위 매기고, 상위 K개의 토큰을 토큰 풀에 포함한다. 이 단계는 전체 토큰 공간을 수천 배로 축소하면서도 높은 리콜을 유지한다. **Stage II – 기하‑유도 빔 디코딩** 두 번째 레이어의 헤드‑별 서브스페이스 R^{(h)}_{2,Q}를 이용해 디코딩을 진행한다. 디코딩 시점 t마다 현재 히든 상태 h^{(h)}_t와 서브스페이스 사이의 거리 d^{(h)}_t를 계산하고, 이를 평균(d_geo)로 합산한다(식 12). 동시에 사전 훈련된 언어 모델(LM)에서 얻은 로그 확률을 표준화한 유창성 점수 s_LM과 결합해 최종 빔 점수 d_t (식 13‑15)를 만든다. 빔 탐색은 그룹 기반으로 다양성을 유지하고, n‑gram 반복 패널티와 그룹 내 상위 W/G 후보를 유지함으로써 후보 문장의 다양성과 품질을 동시에 확보한다. 결과적으로 기하학적 일치와 언어적 유창성을 동시에 만족하는 후보 문장 집합 X를 생성한다. **Stage III – 그래디언트‑공간 희소 재구성** 각 후보 문장 x^{(i)}에 대해 그래디언트 원자 g_i = ∇_θ L(f_θ(x^{(i)}), ŷ) 를 계산한다. 라벨이 없을 경우 고정된 대리 라벨 ŷ를 사용하며, 실험에서 이는 후보 순위에 큰 영향을 주지 않는다. 후보 그래디언트를 클러스터링해 중복을 제거한 뒤, OMP(Orthogonal Matching Pursuit)를 적용해 g_mix을 희소 선형 결합으로 근사한다. OMP는 현재 잔차 r_t와 가장 높은 내적을 갖는 후보를 선택하고, 선택된 후보들의 계수를 릿지 정규화된 최소제곱(식 18)으로 업데이트한다. 잔차가 충분히 작아지거나 선택된 후보 수가 배치 크기 B에 도달하면 종료한다. 최종 선택된 후보 집합은 원본 배치에 포함된 B개의 텍스트와 높은 유사도를 가진다. **실험 및 결과** 저자들은 GPT‑2, GPT‑J‑6B, Qwen3‑8B 등 세 가지 규모의 LLM에 대해 CoLA, SST‑2, IMDB 데이터셋을 사용해 평가하였다. 배치 크기 B를 4, 16, 64, 128으로 변동시키고, 시퀀스 길이를 128~512 토큰까지 확장하였다. 비교 대상은 최신 텍스트 인버전 공격인 DAGER, LAMP, GRAB이며, 동일한 그래디언트 추출 설정(첫 레이어 쿼리 그래디언트)에서 비교하였다. 주요 결과는 다음과 같다. - **복원 정확도**: B=16, 시퀀스 512 토큰 상황에서 SOMP는 BLEU 점수 0.42, ROUGE‑L 0.55, Exact Match 0.31을 기록했으며, 이는 DAGER(0.28, 0.41, 0.12)보다 각각 15‑30% 향상된 수치이다. - **배치 확장성**: B=64, 128에서도 SOMP는 여전히 의미 있는 텍스트를 복원했으며, 특히 B=128에서는 평균 ROUGE‑L 0.38을 유지해 기존 방법이 거의 0에 수렴하는 것과 대조된다. - **계산 효율성**: Stage I‑II에서 토큰 풀을 5‑10% 수준으로 제한함으로써 전체 실행 시간이 기존 방법 대비 2.3배~3.1배 빨라졌다. OMP 단계는 후보 수가 수천 개 수준에서도 수십 회의 반복만으로 수렴한다. - **다국어 및 FedAvg**: 영어 외에 중국어, 독일어, 스페인어, 한국어에서도 헤드‑구조가 일관된 신호를 제공함을 확인했으며, FedAvg 환경에서도 동일한 복원 성능을 보였다. **의의와 한계** SOMP는 (1) 변환기 그래디언트에 내재된 헤드‑별 기하 구조를 정량화해 텍스트 복원에 활용한 최초의 시도이며, (2) 희소 신호 복원 기법인 OMP를 텍스트 도메인에 성공적으로 적용함으로써 배치·시퀀스 규모가 커져도 공격 효율을 유지한다는 점에서 의미가 크다. 다만 현재는 첫 레이어 쿼리 그래디언트에 의존하고 있어, 다른 레이어나 비동형 모델에 대한 일반화는 추가 연구가 필요하다. 또한 방어 측면에서는 차등 프라이버시(DP)와 결합한 방어 메커니즘 설계가 향후 과제로 남는다. **결론** SOMP는 대규모 LLM 연합 학습 환경에서 집계된 그래디언트만으로도 원본 텍스트를 고품질로 복원할 수 있음을 입증하였다. 헤드‑구조 기반 토큰 풀링, 기하‑유도 빔 디코딩, 그리고 OMP 기반 희소 재구성이라는 3단계 설계는 기존 공격이 직면한 스케일링 문제를 효과적으로 해결한다. 본 연구는 프라이버시 위험을 재조명함과 동시에, 변환기 내부 구조를 활용한 새로운 공격·방어 연구의 출발점을 제공한다.

대규모 언어 모델을 위한 서브스페이스 기반 정규화 매칭 퍼셉트론

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기