TOGGLE: 신호 시공간 논리로 언어 모델 압축화
📝 Abstract
Large Language Models (LLMs) deliver exceptional performance across natural language tasks but demand substantial computational resources, limiting their deployment on resource-constrained edge devices. Existing compression techniques, such as quantization and pruning, often degrade critical linguistic properties and lack formal guarantees for preserving model behavior. We propose TOGGLE (Temporal Logic-Guided Large Language Model Compression), a novel framework that leverages Signal Temporal Logic (STL) to formally specify and enforce linguistic properties during compression. TOGGLE employs an STL robustness-guided Bayesian optimization to systematically explore layerwise quantization and pruning configurations, generating compressed models that formally satisfy specified linguistic constraints without retraining or fine-tuning. Evaluating TOGGLE on four LLM architectures (GPT-2, DeepSeek-V2 7B, LLaMA 3 8B, and Mistral 7B), we achieve up to 3.3× reduction in computational costs (FLOPs) and up to a 68.8% reduction in model size while satisfying all linguistic properties. TOGGLE represents the first integration of formal methods into LLM compression, enabling efficient, verifiable deployment of LLMs on edge hardware. • We encode essential LLM properties-coherence, factual accuracy, long-range dependency, and contextual consistency-as STL specifications, enabling compressed models to meet fine-grained behavioral requirements. • We develop a robustness-guided Bayesian optimization framework that leverages STL specifications to jointly optimize quantization and pruning, systematically exploring the compression space. • We enable runtime control of inference quality, dynamically trading accuracy for energy efficiency across operating modes. • We produce compressed LLMs without retraining or fine-tuning, minimizing deployment overhead, and validate TOGGLE’s adaptability across diverse datasets for edge deployment. Key Results: We rigorously evaluated TOGGLE using four diverse LLMs (GPT-2, DeepSeek-V2 7B, LLaMA 3 8B, and Mistral 7B) across relevant NLP evaluation datasets. By formalizing linguistic properties as STL specifications, our robustness-guided optimization framework successfully generated efficient compressed models without retraining. TOGGLE achieved substantial reductions in estimated computational cost, by up to approximately 3.3× compared to baseline models, while also realizing significant model compression, reducing model size by up to nearly 68.8%. To our knowledge, TOGGLE is the first framework that successfully integrated formal methods into LLM compression, enabling the systematic generation and deployment of efficient, formally verified LLMs on resourceconstrained edge devices.
💡 Analysis
TOGGLE은 신호 시공간 논리(STL)를 활용하여 대형 언어 모델(LLMs)을 압축하는 첫 번째 프레임워크입니다. 이 연구는 LLMs의 핵심 언어적 속성을 형식적으로 지정하고 강제하는 방법을 제시합니다. TOGGLE은 계층별 양자화와 가위질 구성 요소를 체계적으로 탐색하여 재학습이나 미세 조정 없이 압축 모델을 생성할 수 있습니다. 이는 엣지 장치에서 LLMs의 효율적이고 검증 가능한 배포를 가능하게 합니다. 네 가지 다양한 LLM 아키텍처(GPT-2, DeepSeek-V2 7B, LLaMA 3 8B 및 Mistral 7B)에 대한 평가 결과는 TOGGLE이 최대 3.3배의 컴퓨팅 비용 감소와 68.8%의 모델 크기 축소를 달성할 수 있음을 보여줍니다. 이러한 성과는 기존 압축 기법들이 언어적 속성을 저하시키거나 형식적인 보증을 제공하지 못하는 문제점을 해결함으로써, 엣지 장치에서 LLMs의 효율적 배포를 가능하게 합니다.
📄 Content
대형 언어 모델(LLMs)은 자연어 처리 작업에서 뛰어난 성능을 보여주지만, 대규모 컴퓨팅 자원이 필요하여 리소스 제약이 있는 엣지 장치에 배포하는 것이 어려울 수 있습니다. 기존 압축 기법인 양자화와 가위질은 중요한 언어적 속성을 저하시키거나 모델 동작을 보장하기 위한 형식적인 보증을 제공하지 못합니다. 본 논문에서는 신호 시공간 논리(STL)를 활용하여 압축 과정에서 언어적 속성을 형식적으로 지정하고 강제하는 새로운 프레임워크인 TOGGLE(Temporal Logic-Guided Large Language Model Compression)을 제안합니다. TOGGLE은 STL 타당성 지도 베이지안 최적화를 사용하여 계층별 양자화와 가위질 구성 요소를 체계적으로 탐색하고, 재학습이나 미세 조정 없이 형식적으로 지정된 언어적 제약을 만족하는 압축 모델을 생성합니다. GPT-2, DeepSeek-V2 7B, LLaMA 3 8B 및 Mistral 7B의 네 가지 대형 언어 모델 아키텍처에서 TOGGLE을 평가한 결과, 최대 3.3배의 컴퓨팅 비용(FLOPs) 감소와 최대 68.8%의 모델 크기 축소를 달성했습니다. TOGGLE은 형식적 방법을 LLM 압축에 첫 번째로 통합한 프레임워크로서, 효율적이고 검증 가능한 엣지 장치에서의 LLM 배포를 가능하게 합니다. 본 논문에서는 중요한 LLM 속성 - 일관성, 사실적 정확성, 장기 종속성 및 문맥적 일관성을 STL 사양으로 인코딩하여 압축 모델이 미세한 동작 요구사항을 충족하도록 하였습니다. 또한, STL 사양을 활용하는 타당성 지도 베이지안 최적화 프레임워크를 개발하여 양자화와 가위질을 공동으로 최적화하고 압축 공간을 체계적으로 탐색하였습니다. TOGGLE은 추론 품질의 런타임 제어를 가능하게 하여 정확성과 에너지 효율성을 동작 모드에 따라 동적으로 교환할 수 있습니다. 또한, 재학습이나 미세 조정 없이 압축 LLM을 생성하여 배포 오버헤드를 최소화하고 다양한 데이터셋에서 엣지 배포의 적응성도 검증하였습니다. 본 논문은 네 가지 다양한 LLM(GPT-2, DeepSeek-V2 7B, LLaMA 3 8B 및 Mistral 7B)에 대해 관련 NLP 평가 데이터셋을 사용하여 TOGGLE을 철저히 평가하였습니다. 언어적 속성을 STL 사양으로 형식화함으로써 우리의 타당성 지도 최적화 프레임워크는 재학습 없이 효율적인 압축 모델을 성공적으로 생성하였습니다. TOGGLE은 기준 모델에 비해 최대 약 3.3배의 추정 컴퓨팅 비용 감소와 모델 크기의 최대 약 68.8% 축소를 달성했습니다. 우리의 지식으로는, TOGGLE이 형식적 방법을 LLM 압축에 첫 번째로 통합한 프레임워크로서, 효율적인 검증 가능한 엣지 장치에서의 LLM 생성 및 배포를 가능하게 합니다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.