HQ‑DM: 저비트 확산 모델을 위한 단일 하다마드 변환 기반 양자화 인식 학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

HQ‑DM은 활성화 행렬에 단일 하다마드 변환을 적용해 아웃라이어를 분산시키고, 정수 기반 컨볼루션을 지원하면서 양자화 인식 학습을 수행한다. LoRA 기반 디스틸레이션과 시간 단계별 학습 가능한 스케일을 도입해 저비트(4비트 가중치·4비트·3비트 활성화)에서도 이미지 생성 품질을 크게 향상시킨다. ImageNet 256×256에서 LDM‑4 모델을 실험한 결과, W4A4에서 IS 12.8 % 향상, W4A3에서 IS 467.73 % 향상을 달성했다.

상세 분석

본 논문은 확산 모델의 양자화 시 발생하는 활성화 아웃라이어 문제를 근본적으로 해결하고자 한다. 기존 PTQ·QAT 방식은 시간 단계마다 변동하는 활성화 분포와 긴 꼬리형 특성 때문에 4비트 이하에서 급격히 성능이 저하된다. 저자들은 하다마드 변환이 직교 행렬이므로 입력 벡터를 회전시켜 값들의 분산을 고르게 만들고, 특히 큰 값(아웃라이어)을 여러 차원에 퍼뜨려 양자화 구간 내에 포함시킬 수 있음을 이용한다. 기존 연구에서 사용된 Double Hadamard 변환은 가중치 행렬에도 적용돼 정수 연산을 방해하고, 추가적인 아웃라이어를 생성한다는 단점이 있었다. 이에 반해 단일 하다마드 변환은 활성화에만 적용하고, 변환 후 역변환 없이 바로 정수 컨볼루션을 수행하도록 설계돼 INT8/INT4 연산에 최적화된다.

양자화 인식 학습 단계에서는 STE(직선 통과 추정기)를 사용해 라운딩과 클램프 연산을 미분 가능하게 만든다. 또한, LoRA(저랭크 어댑테이션)를 활용해 원본 가중치를 고정하고 저랭크 업데이트 매트릭스만 학습함으로써 파라미터 효율성을 확보한다. 중요한 점은 시간 단계별 학습 가능한 스케일 파라미터를 도입해 각 타임스텝마다 최적의 양자화 스텝을 자동으로 조정한다는 것이다. 이는 확산 과정에서 입력 노이즈의 분산이 크게 변하는 문제를 완화한다.

실험에서는 LDM‑4 기반 이미지 생성 모델을 ImageNet 256×256 데이터셋에 적용했으며, 기존 최첨단 방법인 EfficientDM과 비교했다. W4A4(가중치 4비트·활성화 4비트) 설정에서 Inception Score가 12.8 % 상승했으며, 더 공격적인 W4A3(가중치 4비트·활성화 3비트)에서는 IS가 무려 467.73 % 개선되었다. 이는 특히 저비트 활성화 양자화가 성능을 크게 저하시키는 기존 상황을 극복한 결과이다.

한계점으로는 하다마드 변환이 차원 수가 2의 거듭제곱인 경우에 가장 효율적이며, 비거듭제곱 차원에 대해서는 블록 대각 형태로 패딩이 필요해 약간의 연산 오버헤드가 발생한다. 또한, 현재는 이미지 생성에만 평가했으며 텍스트‑이미지 혹은 비디오 등 다른 도메인에 대한 일반화 검증은 부족하다.

HQ‑DM: 저비트 확산 모델을 위한 단일 하다마드 변환 기반 양자화 인식 학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기