테스트 시 텐서 압축과 일관성 보장을 위한 T3C 프레임워크
읽는 시간: 2 분
...
📝 원문 정보
- Title: T3C: Test-Time Tensor Compression with Consistency Guarantees
- ArXiv ID: 2601.01299
- 발행일: 2026-01-03
- 저자: Ismail Lamaakal, Chaymae Yahyati, Yassine Maleh, Khalid El Makkaoui, Ibrahim Ouahbi
📝 초록 (Abstract)
우리는 순차적인 재학습 없이 테스트 시 예산(지연·에너지·용량)에 따라 동적으로 압축 정도를 조절할 수 있는 T3C라는 프레임워크를 제안한다. T3C는 최대 랭크까지 유지되는 탄력적인 텐서 분해와 랭크에 연동된 혼합 정밀도 양자화를 결합하고, 예산 토큰을 각 레이어의 랭크·비트 할당으로 매핑하는 경량 컨트롤러를 포함한다. 이 정책은 하드웨어에 맞는 프로파일에 스냅핑되며 예산이 증가할수록 단조적으로 변한다. 또한 스펙트럼 프록시와 활성화 통계로부터 계산되는 빠른 레이어별 일관성 인증서는 로그잇 드리프트를 상한으로 제시하고 학습 시 정규화 역할을 하여 거의 비용이 들지 않는 실용적인 신뢰 신호를 제공한다. ImageNet‑1k 실험에서 T3C는 비전 분야의 파레토 프론티어를 이동시킨다. ResNet‑50의 경우 정확도 손실을 0.5 % 이하로 유지하면서 p50 지연이 1.18 ms, 모델 크기가 38 MB인 반면, 기존 8비트 PTQ는 1.44 ms·88 MB이다. ViT‑B/16에서도 T3C는 2.30 ms·59 MB를 달성해 강력한 PTQ·QAT 베이스라인을 능가한다. 따라서 하나의 T3C 체크포인트만으로도 다양한 디바이스에서 예산에 맞는 정확도·지연·용량 트레이드오프를 예측 가능하고 인증된 형태로 제공한다.💡 논문 핵심 해설 (Deep Analysis)

컨트롤러는 예산 토큰(예: 지연, 에너지, 메모리)을 입력받아 레이어별 최적의 랭크·비트 조합을 출력한다. 이때 정책이 “hardware‑aligned profiles”에 스냅핑된다는 것은, …