엣지 디바이스를 위한 실시간 효율 RNN 압축 기법

본 논문은 엣지 디바이스의 제한된 연산·저장 자원과 실시간 요구사항을 만족하면서 RNN 모델을 2~4배 압축할 수 있는 새로운 매트릭스 분해 방식인 Hybrid Matrix Decomposition(HMD)을 제안한다. HMD는 가중치 행렬을 상위 전밀도 부분과 하위 랭크‑1 블록으로 나누어, 연산량과 메모리 사용을 동시에 감소시키면서도 pruning이나 저‑랭크 행렬 분해에 비해 추론 속도와 정확도 면에서 우수한 성능을 보인다.

저자: Urmish Thakker, Jesse Beu, Dibakar Gope

본 논문은 엣지 디바이스에서 RNN 모델을 효율적으로 압축하고 실행하기 위한 새로운 매트릭스 분해 기법인 Hybrid Matrix Decomposition(HMD)을 제안한다. 기존 RNN은 입력·숨김 가중치 행렬이 크고 완전 연결돼 있어 메모리와 연산량이 크게 요구된다. 특히, 모바일·IoT 환경에서는 제한된 캐시·메모리와 실시간 응답 요구 때문에 단순 압축만으로는 충분하지 않다. 따라서 논문은 압축 비율, 추론 속도, 정확도라는 세 축을 동시에 고려한 방법을 모색한다. HMD는 가중치 행렬 W∈ℝ^{m×n}을 두 부분으로 나눈다. 상위 r 행은 전통적인 dense 매트릭스 A′로 유지해 풍부한 표현력을 보장하고, 나머지 (m−r) 행은 두 개의 랭크‑1 블록 B·C와 D·E로 구성한다. 여기서 B와 D는 (m−r)×1 벡터, C와 E는 1×(n/2) 벡터이며, 각각 입력 벡터의 앞·뒤 절반에 곱해진다. 이 구조는 저장량을 \

엣지 디바이스를 위한 실시간 효율 RNN 압축 기법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기