공격적인 압축이 LLM 가중치 유출을 가능하게 한다

읽는 시간: 9 분
...

📝 원문 정보

- Title: Aggressive Compression Enables LLM Weight Theft
- ArXiv ID: 2601.01296
- 발행일: 2026-01-03
- 저자: Davis Brown, Juan-Pablo Rivera, Dan Hendrycks, Mantas Mazeika

📝 초록

AI 모델을 훈련시키는 비용이 급증하면서, 특히 고급 AI 시스템은 국가 안보 자산으로 인식되고 있습니다. 이에 따라 모델 가중치를 해킹에서 보호하려는 관심이 증가하고 있으며, 특히 가중치 유출 공격이 주요 문제로 부각되었습니다. 본 논문에서는 큰 언어 모델(Large Language Model, LLM)의 압축 기술을 이용해 가중치 유출 공격의 가능성과 방어 방법에 대해 분석하였습니다.

💡 논문 해설

1. **새로운 위협 모델 정의**: 본 연구는 가중치 유출 위험을 측정하는 새로운 위협 모델을 제시합니다. 이 모델은 기존보다 더 많은 압축이 가능하며, 이를 통해 공격자가 데이터 센터에서 가중치를 쉽게 빼돌릴 수 있다는 점을 강조합니다. 2. **극단적인 압축 가능성 발견**: 공격자들은 가중치를 빠르게 압축하고, 나중에 복원할 때 추가 학습을 통해 성능을 회복할 수 있습니다. 이는 기존의 압축 방법보다 훨씬 더 많은 압축이 가능하다는 것을 의미합니다. 3. **합리적인 방어 제안**: 본 논문은 가중치를 보호하기 위한 몇 가지 방어 전략을 검토하고, 특히 증거물 수준의 워터마킹(watermarking) 기법이 효과적일 것으로 판단하였습니다.

Sci-Tube 스타일 설명 (한국어)

  1. 새로운 위협 모델 정의: AI 모델을 훈련시키는 비용이 크게 늘면서, 이 모델들에 대한 보안 중요성이 증가했습니다. 본 연구에서는 가중치를 쉽게 빼돌릴 수 있는 새로운 공격 방법을 소개하고 있습니다.
  2. 극단적인 압축 가능성 발견: AI 모델의 가중치는 우리가 생각보다 훨씬 더 많이 압축할 수 있다는 것을 발견하였습니다. 이는 가중치 유출 공격이 실제로 가능하다는 것을 의미합니다.
  3. 합리적인 방어 제안: 모델 보호를 위해, 특히 워터마킹 기법을 사용하여 가중치에 증거물을 남기는 것이 효과적이라는 것을 발견하였습니다.

📄 논문 발췌 (ArXiv Source)

# 서론

AI 모델을 훈련시키는 비용이 급증하고 있으며, 각 새로운 모델 세대가 학습에 지수적으로 더 많은 컴퓨팅 리소스를 필요로 합니다. 고급 AI 시스템은 국가 안보 자산으로 점점 더 중요하게 인식되고 있습니다. 이러한 경제적 및 전략적인 중요성 때문에 모델 가중치의 보안이 더욱 관심을 받고 있습니다.

가중치 유출 공격

특히 우려되는 것은 가중치 유출 공격으로, 여기서는 모델 가중치를 호스팅하는 데이터 센터가 해커에 의해 침해됩니다. 이로 인해 해커는 언어 모델의 가중치를 네트워크를 통해 몰래 빼돌릴 수 있습니다. 그러나 가중치 유출 공격의 위험이 아직 잘 이해되지 않았으며, 그 가능성에 대한 불확실성이 많습니다.

표준 데이터 유출 공격에서는 네트워크 전송 이전에 데이터를 압축하여 탐지 가능성을 줄이는 것이 일반적입니다. 그러나 이러한 방법은 가중치 유출 공격의 맥락에서 충분히 연구되지 않았습니다. 기존 작업은 큰 언어 모델(LLM) 압축에 초점을 맞추었지만, 추론을 위해 최적화된 압축 방법이 가중치 유출 시나리오에서는 다르게 작용할 수 있습니다. 특히, 기존 방법은 초기 압축 후 효율적인 전방 통과를 목표로 설계되었습니다 – 이를 ‘압축 후 복원 비용’이라고 합니다 (그림 1 참조). 이러한 차이점은 가중치 유출을 위한 더욱 강력한 손실 압축 기법이 가능하며, 이는 공격 성공률을 높일 수 있음을 시사합니다.

언어 모델 가중치가 서버에서 도난당하는 것을 방지하기 위해, 우리는 LLM 압축이 가중치 유출 공격의 가능성에 미치는 영향을 조사했습니다. 먼저, 압축 비율 등 다양한 요인으로 인한 유출 성공률을 측정할 수 있는 간단한 양적 모델을 제안합니다. 다음으로, 특정 공격을 위한 최적화된 압축 기법이 유출 시간을 크게 줄이고 공격 성공 가능성을 높일 수 있음을 보여줍니다. 추론을 위해 효율적으로 실행될 필요가 있는 기존 압축 제약 조건을 완화함으로써, 우리는 이미 알려진 방법보다 훨씬 더 높은 압축률을 달성할 수 있습니다.

마지막으로 세 가지 후보 ‘모델 수준’ 방어책을 자세히 살펴봅니다. 이 방어책들은 가중치를 압축하기 어려운 상태로 만드는 것, 움직이는 표적 방어법(first proposed in), 그리고 증거물 수준의 워터마킹을 통해 적에게 대응하려고 시도합니다. 우리는 증거물 워터마킹이 가장 유망하다고 판단했습니다 – 이 방법은 실시가 쉽고 비교적 견고하기 때문입니다.

/>
기존 압축 방법은 효율적인 추론을 위해 최적화되어 있으며, 복원 비용이 작습니다. 이러한 제약 조건을 완화함으로써 우리는 훨씬 더 작은 모델 가중치를 달성할 수 있습니다. 이는 가중치 유출에 매우 관련되며, 이를 통해 유출 시간과 탐지 위험을 줄일 수 있습니다. 서버에서 도난당한 후, 모델은 복원 비용이 훨씬 적게 들면서도 성능을 회복할 수 있습니다.

요약하면 다음과 같은 기여를 합니다.

  • 새로운 위협 모델 정의: 우리는 다양한 조건 하에서 가중치 유출 위험을 측정하는 모델을 구축하고, 모델 압축 가능성이 중요한 무시된 요소임을 확인합니다. 실제로 모델 압축 가능성은 공격을 훨씬 더 가능하게 만듭니다.
  • 극단적인 압축 현상 발견: 우리는 표준 관행보다 10-100배 더 압축할 수 있다는 것을 발견했습니다. 이는 추가 학습을 통해 복원 비용이 높아지는 형태로 나타납니다. 추론 양자화에는 높은 복원 비용이 적합하지 않지만, 공격자가 가중치를 유출할 때는 가능합니다.
  • 합리적인 방어 제안: 우리는 몇 가지 기초 모델 및 시스템 수준의 방어책을 검토하고 측정했습니다. 그 중 증거물 워터마킹이 특히 매력적임을 발견했습니다.

우리의 결과는 LLM 압축이 가중치 유출 공격 위험에 중요한 요인이라는 것을 시사합니다. 몇 달 걸렸던 공격이 고급 압축 기법으로 며칠 내로 가능해질 수 있습니다. 이는 가중치 유출 위험 연구와 모델 가중치 보호를 위한 추가 투자 동기를 제공합니다.

관련 작업

모델 도용

블랙박스 모델 도용 공격은 기계 학습 서비스에 API 액세스만 있는 적대자가 배포된 모델의 기능을 도용할 수 있음을 보여주었습니다. 예를 들어, 로지스틱 분류기의 정확한 가중치를 API 액세스만으로 도용하거나, 학습 없이 모델의 최종 레이어를 도용합니다. 다른 연구는 쿼리만을 사용하여 모델의 능력을 추출하려고 시도하였습니다. 그러나 결과 모델은 일반적으로 원본 모델보다 성능이 크게 저하됩니다.

데이터 유출

보안 문헌에서는 오랜 기간 동안 데이터 유출 위협에 대해 연구해왔습니다. 특히 우리의 상황과 관련 있는 것은 지속적 고급 위협(Advanced Persistent Threats, APT)입니다. 이러한 공격은 타겟팅된 침투와 장기적인 서버 침입을 통해 고가치 데이터를 천천히 유출합니다. 이 경우, 유출할 데이터의 양이 중요한 고려사항이며 압축 기법이 사용됩니다. APT에 대한 몇 가지 방어책도 연구되었습니다. 움직이는 표적 방어는 침입 시스템의 일부를 주기적으로 변경하여 적을 방해합니다. LLM 유출의 맥락에서는, 제한적인 업로드 제한을 설정하여 고객 수요에 맞추려고 제안하였습니다. 비슷하게, 스테가노그래피를 더 어렵게 만드는 추론 검증(Inference Verification) 방어 메커니즘도 연구되었습니다.

LLM 양자화 및 압축

가중치 유출 공격의 핵심 요소는 도용하려는 가중치의 크기이며, 이를 압축을 통해 줄일 수 있습니다. 모델 가중치의 효과적인 크기에 대한 불확실성이 많으며, 일반적으로 $2\times$ 또는 심지어 $4\times$ 압축된 모델이 제공됩니다. 이는 효율적인 추론을 위한 모델 양자화 작업에 의해 가능해졌습니다. 그러나 모델의 가중치 유출 상황은 기존 연구에서 고려되지 않았습니다. 본 논문의 주요 기여 중 하나는 이러한 상황에서 더 강력한 압축을 달성할 수 있음을 보여주는 것입니다. 또한, 우리가 알고 있는 바로는 모델 가중치를 더 압축하기 어렵게 만드는 방어법에 대해 처음으로 고려하였습니다.

모델 가중치 워터마킹

신경망에 소유권 증거를 내장하는 방법은 모델 소유자의 지적 재산을 보호하는데 도움이 됩니다. 본 연구에서는 가중치 유출 후 증거물 추적을 위한 워터마킹 상황을 고려하였습니다.

가중치 유출

여기서는 우리가 고려한 특정 위협 모델에 대해 설명합니다. 공격자의 성공을 측정하는 우리의 양적 모델은 이 위협 모델에 기반하고 있습니다.

위협 모델

표준 데이터 유출 공격은 사이버 보안 문헌에서 널리 연구되었지만, 선두 AI 추론 작업 부하량은 표준 네트워크와 애플리케이션 아키텍처와 크게 다르다. 특히, 공격자는 데이터 센터로부터 큰 양의 데이터(모델 가중치)를 전송해야 합니다. 개별 고객 데이터를 획득하는 것과 같은 표준 데이터 유출 공격보다 더 어렵습니다. 우리는 먼저 공격자의 목표와 능력을 정식화합니다:

목표: 우리가 고려하는 표준의 고급 지속 위협(APT)은 텍스트, 이미지, 비디오 또는 오디오 데이터를 사용자에게 제공하는 추론 서버에서 모델 가중치를 도용하려는 목표를 가지고 있습니다. 공격자는 샘플 입력 및 출력으로부터 모델을 추출하려고 시도하지 않으며, 실제로 서비스되는 언어 모델의 가중치를 유출하고자 합니다.

능력: 공격자는 이미 모델 서버를 침해하여 암호화되지 않은 모델 가중치에 접근할 수 있습니다. 그러나 공격자는 물리적 내부자가 아니기 때문에 USB 드라이브로 무게를 업로드할 수 없습니다. 대신 공격자는 서버의 네트워크를 통해 가중치를 추출해야 합니다. 공격자는 탐지를 피하기 위해 업로드 속도가 제한되어 있습니다. 또한, 공격자는 유출된 데이터를 유효한 출력 내부에 숨기는 것이 필요합니다(예: 스테가노그래피를 통해). 방어자는 모든 외부 트래픽이 예상 형식과 일치하도록 딥 패킷 검사를 사용하므로 공격자는 이를 위해 데이터를 인코딩해야 합니다.

따라서 우리는 공격자가 가짜 계정을 생성하고 모델에서 생성된 응답을 통해 정보를 추출한다고 가정합니다(_sybil attack_의 일종). 부분적인 유출이 완전한 유출보다 훨씬 가치가 없다는 것을 가정합니다. 또한 하드웨어 보안 조치나 서버가 처음 어떻게 침해되었는지에 대한 구체적 내용은 범위에서 제외되었습니다. 다음으로, 모델 공급자의 목표와 능력을 고려합니다:

목표: 방어자는 APT 활동의 증거를 찾기 위해 서버 활동과 네트워크 트래픽을 모니터링합니다. 탐지가 보장되지는 않지만, 적의 활동이 지속될수록 공격 시도가 감지되는 확률이 높아집니다. 우리는 방어자가 단위 시간당 일정한 비율로 악성 행위를 감지할 수 있다고 가정합니다.

능력: 서버에서의 네트워크 대역폭은 예상 사용자 트래픽에 맞춰져 있으며, 모든 외부 트래픽이 예상된 형식과 일치하도록 딥 패킷 검사를 사용합니다. 이는 공격자가 스테가노그래피를 통해 데이터를 인코딩해야 함을 의미합니다.

이 위협 모델은 가능한 가정 집합 중 하나입니다. 이러한 위협 모델의 한계에 대해서는 9장에서 논의하겠습니다.

가중치 유출의 양적 모델

/>
모델 압축은 더 성공적인 가중치 유출 공격을 가능하게 합니다. 우리는 전체 모델과 가중치 유출 설정에 최적화된 우리의 방법으로 압축된 모델에 대해 무게 유출 속도(왼쪽)와 탐지 확률(오른쪽)을 계산합니다. 탐지 확률은 exfiltrate 시간에서 계산됩니다. 자세한 내용은 [3.2장](#sec:quantitative_model) 참조.

작은 압축된 가중치가 더 쉽게 도용될 수 있다는 것을 보여주기 위해, 우리는 GPT-4의 가중치 유출 공격 상황에 대략적으로 보정된 간단한 양적 모델을 사용합니다. 우리의 모델은 고정된 일일 탐지 확률을 기반으로 유출 시간과 성공 가능성을 계산합니다. 우리는 공격이 완전히 도용되기 전에 감지되면 실패했다고 가정합니다(위협 모델에 부합). 우리의 모델에는 다양한 요인과 세 가지 다른 사용 프로파일이 포함되어 있어, 다양한 공격 시나리오를 연구할 수 있습니다. 아래에서 이를 설명하겠습니다.

요인

우리의 모델은 추론 서버에서 가중치 유출이 발생한다는 가정으로 시작합니다. API는 일일 사용자를 가지고 있으며, 그 중 일부는 침해되었거나 공격자가 생성했습니다. 공격자는 네트워크를 통해 가중치를 도용하려고 시도하면서 탐지를 피해야 합니다. 아래에서 모델의 요인을 설명하겠습니다.

  • 하루에 사용자당 전송량 ($`E`$): API 사용자 당 하루 동안 보내는 비트 수입니다.
  • 침해된 일일 사용자수 ($`N`$): 공격자는 Sybil attack을 수행하고 합법적인 채널을 통해 스테가노그래피를 이용하여 데이터를 받으려고 합니다. 공격자가 하루에 사용하는 계정보다 더 많은 계정을 가질 수 있으며, 실제 사용 패턴을 모방하기 위해 계정을 교체할 수 있습니다.
  • 스테가노그래피 비율 ($`s`$): 출력 비트 중 적이 임의의 데이터를 숨길 수 있는 비율입니다. 이를 통해 모델 가중치를 도용합니다.
  • 모델 크기 ($`M`$): 압축 전 추출해야 하는 모델의 크기(비트).
  • 압축 비율 ($`c`$): 압축을 적용한 후 모델 크기가 줄어드는 배수입니다.
  • 하루당 탐지 확률 ($`p`$): 공격자의 활동이 하루 동안 감지될 확률. 간단성을 위해 이 값을 고정된 수로 가정합니다.

이 요인을 사용하여, 우리는 exfiltration까지 걸리는 시간(일 단위)을 다음과 같이 계산할 수 있습니다:

MATH
T = \frac{M \times c}{E \times N \times s}.
클릭하여 더 보기

성공적인 exfiltration의 확률은 $`(1 - p)^T`$로 계산됩니다.

사용 프로파일

우리는 LLM 추론 API의 일일 평균 사용자의 네 가지 가능성에 대해 고려합니다. 이는 현재와 미래 모드의 상호 작용을 반영합니다. 모든 경우에서, 우리는 출력이 네트워크를 통해 사용자에게 전송되기 전에 표준 미디어 형식으로 변환된다는 가정을 합니다. 이러한 사용 프로파일은 아래와 같습니다.

  • 텍스트만: 이 시나리오의 평균 사용자는 하루에 약 10페이지($500$ 영어 단어당 페이지)의 텍스트를 생성합니다. 이것은 GPT-4와 같은 모델의 현재 일일 평균 사용량과 비슷합니다.
  • 텍스트 + 이미지: 위의 텍스트 사용 뿐만 아니라, 이 시나리오에서는 사용자가 하루에 평균 1개의 이미지를 생성합니다.
  • 텍스트 + 이미지 + 음성: 위의 시나리오와 함께, 이 시나리오의 평균 사용자는 하루에 약 30분 동안 오디오 출력을 생성합니다. 이것은 LLM과 대화를 위한 대체 통신 방식일 수 있습니다.
  • 텍스트 + 이미지 + 음성 + 비디오: 이는 미래의 상호 작용 모드로, 실시간 비디오 출력이 포함되어 있으며, 챗봇 아바타와 상호 작용하기 위해 사용될 수 있습니다.

부록 D에서 우리의 모델 요인 및 다양한 사용 프로파일에 대한 추정치를 도출합니다. 일부 경우, 특정 요인에 대해 값의 범위를 고려합니다.

압축 실험

여기서는 압축 기술이 가중치 유출 상황을 위해 특별히 최적화될 수 있으며, 이를 통해 압축 비율을 개선할 수 있음을 입증하는 실험을 설명합니다. 그런 다음, 양적 모델 하에서 이가 exfiltration 시간 및 성공률에 어떻게 영향을 미치는지 평가합니다.


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



Figure 7



Figure 8



Figure 9



Figure 10



Figure 11



Figure 12



Figure 13



Figure 14



Figure 15



Figure 16



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키