테스트 시 텐서 압축과 일관성 보장을 위한 T3C 프레임워크

읽는 시간: 2 분
...

📝 원문 정보

  • Title: T3C: Test-Time Tensor Compression with Consistency Guarantees
  • ArXiv ID: 2601.01299
  • 발행일: 2026-01-03
  • 저자: Ismail Lamaakal, Chaymae Yahyati, Yassine Maleh, Khalid El Makkaoui, Ibrahim Ouahbi

📝 초록 (Abstract)

우리는 순차적인 재학습 없이 테스트 시 예산(지연·에너지·용량)에 따라 동적으로 압축 정도를 조절할 수 있는 T3C라는 프레임워크를 제안한다. T3C는 최대 랭크까지 유지되는 탄력적인 텐서 분해와 랭크에 연동된 혼합 정밀도 양자화를 결합하고, 예산 토큰을 각 레이어의 랭크·비트 할당으로 매핑하는 경량 컨트롤러를 포함한다. 이 정책은 하드웨어에 맞는 프로파일에 스냅핑되며 예산이 증가할수록 단조적으로 변한다. 또한 스펙트럼 프록시와 활성화 통계로부터 계산되는 빠른 레이어별 일관성 인증서는 로그잇 드리프트를 상한으로 제시하고 학습 시 정규화 역할을 하여 거의 비용이 들지 않는 실용적인 신뢰 신호를 제공한다. ImageNet‑1k 실험에서 T3C는 비전 분야의 파레토 프론티어를 이동시킨다. ResNet‑50의 경우 정확도 손실을 0.5 % 이하로 유지하면서 p50 지연이 1.18 ms, 모델 크기가 38 MB인 반면, 기존 8비트 PTQ는 1.44 ms·88 MB이다. ViT‑B/16에서도 T3C는 2.30 ms·59 MB를 달성해 강력한 PTQ·QAT 베이스라인을 능가한다. 따라서 하나의 T3C 체크포인트만으로도 다양한 디바이스에서 예산에 맞는 정확도·지연·용량 트레이드오프를 예측 가능하고 인증된 형태로 제공한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
T3C는 “train‑once, test‑time budget‑conditioned compression”이라는 새로운 패러다임을 제시한다는 점에서 기존의 사후 양자화(PTQ)나 양자화‑인식 학습(QAT)과 근본적으로 차별화된다. 먼저, 텐서 분해를 탄력적으로 유지한다는 개념은 각 레이어의 가중치 행렬을 고정된 랭크가 아니라, 사전에 정의된 최대 랭크 이하에서 동적으로 조정할 수 있게 한다는 의미다. 이는 모델 파라미터를 저차원 공간에 투사하면서도, 필요에 따라 더 높은 차원을 활용해 정확도를 회복할 수 있는 여지를 남긴다. 특히, 랭크와 정밀도(bit‑width)를 “rank‑tied” 방식으로 결합함으로써, 랭크가 낮아질수록 양자화 비트 수를 늘려 정보 손실을 보상한다는 설계는 매우 혁신적이다.

컨트롤러는 예산 토큰(예: 지연, 에너지, 메모리)을 입력받아 레이어별 최적의 랭크·비트 조합을 출력한다. 이때 정책이 “hardware‑aligned profiles”에 스냅핑된다는 것은, …

📄 논문 본문 발췌 (Translation)

...(본문 내용이 길어 생략되었습니다. 사이트에서 전문을 확인해 주세요.)

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키