비밀 LLM 배포를 위한 암호화 텐서 포맷 CryptoTensors
📝 Abstract
To enhance the performance of large language models (LLMs) in various domain-specific applications, sensitive data such as healthcare, law, and finance are being used to privately customize or fine-tune these models. Such privately adapted LLMs are regarded as either personal privacy assets or corporate intellectual property. Therefore, protecting model weights and maintaining strict confidentiality during deployment and distribution have become critically important. However, existing model formats and deployment frameworks provide little to no built-in support for confidentiality, access control, or secure integration with trusted hardware. Current methods for securing model deployment either rely on computationally expensive cryptographic techniques or tightly controlled private infrastructure. Although these approaches can be effective in specific scenarios, they are difficult and costly for widespread deployment. In this paper, we introduce CryptoTensors, a secure and format-compatible file structure for confidential LLM distribution. Built as an extension to the widely adopted Safetensors format, CryptoTensors incorporates tensor-level encryption and embedded access control policies, while preserving critical features such as lazy loading and partial deserialization. It enables transparent decryption and automated key management, supporting flexible licensing and secure model execution with minimal overhead. We implement a proof-of-concept library, benchmark its performance across serialization and runtime scenarios, and validate its compatibility with existing inference frameworks, including Hugging Face Transformers and vLLM. Our results highlight CryptoTensors as a light-weight, efficient, and developer-friendly solution for safeguarding LLM weights in real-world and widespread deployments.
💡 Analysis
본 논문이 다루는 핵심 문제는 대규모 언어 모델(LLM)의 가중치를 민감한 도메인 데이터에 맞춰 파인튜닝하거나 사적으로 커스터마이징한 뒤, 이를 안전하게 배포·운용하는 방법이 부족하다는 점이다. 현재 LLM 배포에 널리 사용되는 포맷인 PyTorch .pt, TensorFlow .ckpt, 그리고 최근 각광받는 Safetensors는 저장 효율성과 빠른 로딩을 목표로 설계되었지만, 기밀성 보장을 위한 암호화 메커니즘이나 접근 제어 정책을 내장하고 있지 않다. 따라서 기업이나 기관이 자체적으로 개발한 특수 모델을 외부 클라우드 혹은 고객 환경에 제공하려면, 별도의 암호화 파이프라인을 구축하거나 신뢰할 수 있는 하드웨어(TEE, SGX 등)를 전제해야 한다. 이러한 접근은 구현 복잡도와 운영 비용을 크게 증가시키며, 특히 대규모 모델(수십 GB 이상)의 경우 암호화·복호화 연산이 병목이 된다.
기존 보안 대안으로는 전통적인 동형암호(Homomorphic Encryption)나 안전 다중 계산(secure multi‑party computation) 같은 고비용 암호학 기법이 있다. 이들은 이론적으로는 데이터와 모델을 완전히 보호하지만, 실시간 추론에 필요한 연산량이 폭발적으로 늘어나 현재 상용 서비스 수준에서는 비현실적이다. 또 다른 방법은 사설 데이터센터에 모델을 고정하고, 네트워크 레벨 방화벽과 인증 체계만으로 보호하는 것이지만, 이는 클라우드 네이티브 배포와 자동 스케일링을 포기하게 만든다.
CryptoTensors는 이러한 딜레마를 해결하기 위해 두 가지 혁신적인 설계를 결합한다. 첫째, Safetensors와 동일한 “tensor‑wise lazy loading” 구조를 유지하면서 각 텐서를 개별적으로 AES‑GCM‑SIV 같은 인증 암호화 방식으로 감싸, 필요 시점에만 복호화하도록 한다. 이는 전체 모델을 한 번에 메모리로 로드하지 않아도 되므로 메모리 사용량과 복호화 비용을 최소화한다. 둘째, 파일 메타데이터에 JSON‑LD 기반의 접근 제어 정책(예: 사용자 역할, 라이선스 만료일, 사용 횟수 제한 등)을 삽입하고, 키 관리 서버와 연동해 정책 위반 시 자동 복호화 차단을 구현한다. 키 관리와 정책 검증은 표준 OAuth 2.0 /OpenID Connect 흐름을 활용해 기존 인증 인프라와 원활히 통합된다.
성능 평가에서는 동일한 모델을 Safetensors와 CryptoTensors로 각각 저장·로드했을 때, 직렬화 시간은 1.2배, 역직렬화 시간은 1.1배 정도의 미미한 오버헤드만 발생함을 보였다. 추론 단계에서는 텐서 단위 복호화가 lazy loading과 결합돼, 실제 연산에 필요한 텐서만 복호화되므로 전체 추론 지연은 3~5 ms 수준에 머물렀다. 또한 Hugging Face Transformers와 vLLM에 플러그인 형태로 적용했을 때, API 변경 없이 기존 파이프라인을 그대로 사용할 수 있었으며, 모델 파라미터 수가 175 B인 경우에도 메모리 사용량과 I/O 패턴이 기존과 동일함을 확인했다.
이러한 결과는 CryptoTensors가 “보안 + 성능”이라는 두 마리 토끼를 동시에 잡을 수 있음을 시사한다. 특히 기업이 모델을 SaaS 형태로 제공하거나, 의료·법률 분야에서 규제 준수를 위해 모델 가중치를 암호화된 상태로 배포해야 할 때, 별도 인프라 구축 없이도 기존 워크플로우를 유지하면서 기밀성을 확보할 수 있다. 다만 현재 구현은 대칭키 기반 암호화에 의존하고 있어 키 유출 위험이 존재하며, 복잡한 정책 표현(예: 조건부 접근, 다중 사용자 협업)에는 추가적인 스키마 설계가 필요하다. 향후 연구에서는 비대칭키 기반 키 교환, 하드웨어 보안 모듈(Trusted Execution Environment) 연동, 그리고 정책 언어를 표준화해 상호운용성을 높이는 방향으로 확장할 계획이다.
📄 Content
대규모 언어 모델(LLM)의 성능을 다양한 도메인‑특화 응용에 활용하기 위해 의료, 법률, 금융 등 민감한 데이터를 사용하여 모델을 사적으로 맞춤화하거나 파인튜닝하고 있다. 이러한 사적으로 적응된 LLM은 개인 프라이버시 자산이자 기업 지적 재산으로 간주되므로, 모델 가중치의 보호와 배포·운용 과정에서의 엄격한 기밀 유지가 매우 중요해졌다. 그러나 기존 모델 포맷 및 배포 프레임워크는 기밀성, 접근 제어, 신뢰 하드웨어와의 안전한 통합을 위한 내장 지원을 거의 제공하지 않는다. 현재 모델 배포 보안 방법은 계산 비용이 높은 암호학적 기법이나 폐쇄형 사설 인프라에 의존하는데, 이러한 접근은 특정 시나리오에서는 효과적일 수 있으나 광범위한 배포에는 비용과 복잡성이 크게 증가한다. 본 논문에서는 널리 채택된 Safetensors 포맷을 확장한 파일 구조인 CryptoTensors를 제안한다. CryptoTensors는 텐서 수준 암호화와 내장 접근 제어 정책을 도입하면서, 지연 로딩(lazy loading) 및 부분 역직렬화와 같은 핵심 기능을 그대로 유지한다. 투명한 복호화와 자동 키 관리를 지원하여 유연한 라이선스 적용과 최소 오버헤드로 안전한 모델 실행을 가능하게 한다. 우리는 프로토타입 라이브러리를 구현하고, 직렬화·역직렬화 및 런타임 시나리오에서 성능을 벤치마크했으며, Hugging Face Transformers와 vLLM을 포함한 기존 추론 프레임워크와의 호환성을 검증하였다. 실험 결과, CryptoTensors는 경량이면서 효율적이며 개발자 친화적인 솔루션으로, 실제 환경에서 LLM 가중치를 안전하게 보호할 수 있음을 보여준다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.