- Title: Optimizing LSTM Neural Networks for Resource-Constrained Retail Sales Forecasting A Model Compression Study
- ArXiv ID: 2601.00525
- 발행일: 2026-01-02
- 저자: Ravi Teja Pagidoju
📝 초록
이 논문은 LSTM 압축을 통해 소매 판매 예측의 정확도를 향상시키는 방법을 연구했습니다. 특히, 128개 숨겨진 유닛에서 64개로 축소한 LSTM-64 모델이 가장 높은 성능을 보였으며, 이 모델은 기존보다 73% 더 작고 정확도는 47% 향상되었습니다. 이러한 결과는 소매업체가 제약된 컴퓨팅 자원에서도 효과적인 예측을 수행할 수 있게 해줍니다.
💡 논문 해설
1. **최적의 모델 크기 찾기**: 큰 모델이 항상 더 나은 성능을 보이는 것이 아니라는 것을 발견했습니다. 이를 위해 여러 크기의 LSTM 모델을 테스트하여 최적의 크기를 찾아냈습니다.
2. **컴프레션 효과**: 128개 유닛에서 64개로 축소한 LSTM-64 모델이 가장 높은 성능을 보였습니다. 이는 모델 크기가 줄어들었음에도 불구하고 정확도가 향상되었음을 의미합니다.
3. **실용적 가이드라인**: 소매업체가 자원 제약 조건에서도 효과적인 예측을 수행할 수 있도록 하는 실용적 가이드라인을 제공했습니다.
간단한 설명:
초보자용: 큰 모델은 때때로 필요 이상으로 복잡해져서 오히려 성능이 떨어질 수 있습니다. 이 연구는 작은 모델이 더 나은 결과를 낼 수 있음을 보여줍니다.
중급자용: LSTM 압축을 통해 소매업체가 제약된 컴퓨팅 자원에서도 정확한 예측을 할 수 있게 해주는 방법을 소개합니다. 특히, 128개 유닛에서 64개로 축소한 모델이 가장 뛰어난 성능을 보였습니다.
고급자용: 이 연구는 LSTM 압축 기법을 통해 소매 판매 예측의 정확도와 효율성을 향상시키는 방법을 제시합니다. 128개 유닛에서 64개로 축소한 모델은 기존보다 더 작은 크기로도 높은 성능을 보였습니다.
📄 논문 발췌 (ArXiv Source)
LSTM 압축, 신경망 최적화, 소매 예측, 엣지 컴퓨팅, 모델 효율성
서론
소매 판매 데이터를 예측하는 것은 일상적인 운영 계획과 재고 관리에 매우 중요하다. 소매업체는 부족한 재고와 과다한 재고로 인해 연간 매출의 약 1.75%를 손실하며, 이는 주로 부정확한 예측으로 인한 것이다. 딥러닝 모델, 특히 장단기 기억(LSTM) 네트워크는 전통적인 방법을 사용할 때보다 오류를 20-30% 줄이는 데 성공했다.
LSTM 네트워크를 배포하는 것은 도전적이다. 표준 LSTM은 128개의 숨겨진 유닛을 가질 경우 4GB에서 8GB의 메모리와 특정 하드웨어가 필요하다. 이러한 요구사항은 소규모 및 중소 규모의 가게들이 정확한 예측 데이터를 구하기 위해 필요한 컴퓨팅 파워를 갖추지 못하게 만든다. 중소기업이 전 세계 소매 시장의 65%를 차지하지만, IT 예산은 연간 $50,000에서 $100,000 사이로 제한적이다.
모델 압축은 신경망을 더 작게 만드는 동시에 동일하거나 높은 정확도를 유지함으로써 이 문제를 해결할 수 있다. 이전의 압축 연구는 컴퓨터 비전 작업에 집중되어 있었지만, 소매 예측에서는 시계열 종속성과 계절 패턴이라는 고유한 도전 과제가 존재한다. 기존 연구 중 LSTM 구조 크기와 예측 정확도 간의 상관 관계를 평가한 연구는 없다.
이 논문은 소매 판매 예측을 위한 LSTM 압축을 검토하고 있다. 다음 연구 질문에 답변한다: 최소한의 LSTM 구조로 예측 정확도를 유지하거나 향상시키려면 어떤 것이 필요할까? 우리의 기여는 다음과 같다.
16에서 128개 숨겨진 유닛까지의 실제 소매 데이터에 대한 LSTM 네트워크 크기 시스템적인 평가
중간 압축(64 유닛)이 실제로 정확도를 향상시킨다는 발견
정확도와 효율성 사이의 절충점을 기반으로 한 모델 선택 가이드라인 제공
관련 작업
소매 예측에서 LSTM
LSTM 네트워크는 시퀀스 데이터의 장기 종속성을 포착하는 데 탁월하다. Bandara 등은 LSTM 모델이 ARIMA 모델보다 25% 더 나은 예측 오류를 보였다고 보여주었다. 그들은 각 층에 128개의 숨겨진 유닛을 갖춘 아키텍처를 구축했으며, 실제 환경에서 작동하려면 GPU 가속이 필요했다.
최근 연구는 LSTM 성능을 향상시키기 위한 어텐션 메커니즘을 분석한다. Lim 등은 시계열 융합 변환기를 사용하여 가장 좋은 결과를 얻었다. 하지만 이러한 변경으로 인해 계산 요구사항이 8GB의 메모리와 각 예측에 50ms의 추론 시간으로 증가했다. 이는 제한된 리소스를 가진 가게들이 이를 사용하는 것을 더 어렵게 만들었다. 소매 예측을 위한 딥러닝 접근법은 RNN 방법론 및 M5 경쟁에서 확인되었다.
신경망 압축
모델 압축 기술을 통해 다음과 같은 방식으로 신경망 크기를 줄일 수 있다:
프루닝: Han 등에 따르면 불필요한 연결을 제거하여 모델의 크기를 60~80%까지 줄일 수 있으며, 정확도 손실이 적다. 하지만 프루닝은 빠른 희소 행렬 연산을 위해 특수 하드웨어를 필요로 한다.
양자화: Jacob 등은 32비트 부동 소수점 가중치를 8비트 정수로 변경하여 메모리 사용량을 75%까지 줄이고, 정확도는 1~2% 내에서 유지한다고 보여주었다. 이 방법은 엣지 배포에 특히 효과적이다.
아키텍처 축소: Frankle와 Carbin은 로터리 티켓 가설을 제시하여 적절하게 설정된 작은 네트워크가 큰 네트워크와 비슷한 성능을 낼 수 있음을 보여주었다. 이는 정확한 아키텍처 크기의 중요성을 의미한다.
문헌에서의 간극
압축 기술은 이미지 분류에 대해 광범위하게 연구되었지만, 시계열 예측에서는 여전히 제한적이다. 소매 판매 예측에는 계절성, 추세 및 기타 외부 요인이 포함되어 있어 최상의 모델 크기가 다른 분야와 다르게 결정될 수 있다. 기존 연구 중 소매 판매 예측을 위한 LSTM 크기 감소를 체계적으로 평가한 연구는 없다. 전통적 방법과 신경망 방법을 결합하는 하이브리드 접근법은 가능성 있는 결과를 보여주지만, 배포 제약 조건에는 대응하지 못한다.
방법론
데이터셋
이 논문에서는 Kaggle Store Item Demand Forecasting Challenge 데이터셋을 활용했습니다.
총 913,000개의 일일 판매 관측 기록
가게: 10곳의 소매 위치
품목: 50가지 다른 제품
시간 범위: 2013년부터 2017년까지 5년간
특징: 날짜, 가게 번호, 고유한 아이템 ID 및 일일 판매량.
우리는 계산이 빠르고 통계적으로 의미 있는 결과를 얻기 위해 10개의 가게와 50가지 품목 데이터를 사용합니다. 이를 통해 충분히 다양한 데이터로 강력한 결론을 도출할 수 있습니다.
LSTM 아키텍처 변형
다섯 가지 다른 숨겨진 유닛 개수의 LSTM 구성에 대해 테스트했습니다:
LSTM-128: 128개 숨겨진 유닛을 가진 표준 기준
LSTM-64: 50% 압축, 64개 유닛
LSTM-48: 62.5% 압축, 48개 유닛
LSTM-32: 75% 압축, 32개 유닛
LSTM-16: 87.5% 압축, 16개 유닛
이 모든 모델은 숨겨진 유닛 수를 제외하고는 동일한 아키텍처를 공유합니다.
입력(30일 × 7개 특징) → LSTM 레이어 →
Dropout(0.2) → Dense(16) → 출력
실험은 예상치 못한 발견을 보여주었습니다: 중간 압축이 정확도를 향상시키는 반면, 성능을 저하시키지 않았습니다. 표 I은 다양한 LSTM 크기에 대한 성능 지표를 보여줍니다.
모델
숨겨진
매개변수
MAPE
RMSE
크기
유닛
(%)
(KB)
LSTM-128
128
71,809
23.6
4.82
280
LSTM-64
64
19,521
12.4
2.94
76
LSTM-48
48
11,569
12.8
2.71
45
LSTM-32
32
5,665
12.3
2.69
22
LSTM-16
16
1,857
12.5
2.72
7
다양한 크기에서의 LSTM 성능
(a) 예측 오차 vs 모델 크기는 모델 크기와 정확도 간의 U자형 관계를 보여줍니다. (b) 저장 요구 사항은 숨겨진 유닛 수가 줄어들면서 직선으로 감소합니다.
결과는 모델 크기와 오차 사이에 U자형 관계가 있으며, 64개 유닛에서 가장 높은 성능을 보입니다. 128개 유닛 모델은 MAPE 23.6%로 가장 나쁜 성능을 보였으며, 훈련 데이터를 과적합했음을 의미합니다. 32~64개 유닛의 모델이 가장 정확한 결과를 얻었으며, MAPE는 12.3%에서 12.4%입니다.
이 결과의 맥락을 제공하기 위해 표
2에서는 최적화된 모델과 기준 구성을 비교합니다. 64개 유닛 모델은 더 복잡한 아키텍처와 동일한 정확도를 달성하면서 훨씬 적은 리소스를 필요로 합니다.
방법
MAPE (%)
매개변수
크기
Standard LSTM-128 (baseline)
23.6
71,809
280KB
Optimized LSTM-64
12.4
19,521
76KB
기준 구성과의 비교
계산 효율성
표 III은 각 모델 구성을 실행하는 데 필요한 컴퓨팅 자원을 보여줍니다.
모델
추론 시간
메모리 사용량
크기 감소
(ms)
(MB)
LSTM-128
23.0
10
-
LSTM-64
23.0
10
73%
LSTM-48
23.7
10
84%
LSTM-32
23.4
10
92%
LSTM-16
23.6
10
97%
컴퓨팅 자원 사용량
CPU에서 실행될 때 추론 시간은 모든 모델에 걸쳐 약 23ms로 일정하며, 연산의 병목 현상이 행렬 연산에서 프레임워크 오버헤드로 이동합니다. TensorFlow의 고정된 오버헤드가 메모리를 대부분 사용하며, 이는 모델 매개변수보다 높습니다.
최적 구성 분석
심도 있는 검토 후 LSTM-64가 가장 좋은 설정입니다:
최고 정확도: 12.4% MAPE (기준 대비 47% 향상)
중요한 압축: 모델 크기 73% 감소
정확성 유지: 교차 검증 폴드에 걸친 일관된 성능
LSTM-64의 샘플 예측으로 100일 동안 예상 판매량과 실제 판매량 간의 정확한 일치를 보여줍니다.
통계적 유의성
다섯 번의 독립적인 훈련 실행에 대해 쌍방향 t 검정을 수행했습니다:
LSTM-64 vs LSTM-128: t = 8.42, p < 0.001 (높은 유의성)
LSTM-64 vs LSTM-32: t = 1.23, p = 0.287 (유의미한 차이 없음)
LSTM-64 vs LSTM-16: t = 2.16, p = 0.096 (약간의 차이)
이 결과는 LSTM-64가 기준보다 훨씬 좋으며 더 작은 모델에 비해 성능이 약하지 않다는 것을 보여줍니다.
추론 속도, RAM 필요량, 기준 대비 상대 정확성 및 압축과 정확성 간의 절충을 나타내는 전체 성능 분석. LSTM-64가 가장 좋은 선택입니다.
토론
주요 발견
우리의 발견은 큰 신경망이 항상 더 나은 성능을 보인다는 일반적인 믿음을 반박한다. 다음과 같은 사실을 확인했습니다:
최적 용량 존재: LSTM-64는 모델 용량과 일반화 간에 가장 좋은 균형을 제공
큰 모델의 과적합: LSTM-128은 23.6% MAPE로 명확한 과적합을 보임
정확도 저하 최소화: 심지어 LSTM-16도 경쟁력 있는 성능 (12.5% MAPE)을 유지
이 현상을 이해하기 위해 로터리 티켓 가설과 소매 판매 데이터의 상대적으로 간단한 패턴을 고려할 수 있다. 매일의 판매는 주간 및 월간 예측에 쉽고 큰 모델 용량은 필요하지 않았다.
이 발견들은 로터리 티켓 가설과 일반적인 가정, 즉 큰 네트워크가 항상 더 나은 성능을 보인다는 가정과 대조된다.
실용적 함의
제약된 자원을 가진 소매업체에게 우리의 연구는 명확한 지침을 제공한다:
LSTM-64 배포: 정확도 향상 및 73% 크기 감소
LSTM-32 고려: 극단적인 압축이 필요할 경우, 정확성 유지와 92% 크기 감소
과적합 피하기: 큰 모델은 실제로 성능을 저하시킬 수 있다.
GPU 인프라 구현 비용은 약 $15,000에서 압축된 모델의 CPU 기반 배포로는 $1,000 미만으로 줄어들었다. 압축된 모델은 특수 하드웨어가 필요하지 않은 일반적인 비즈니스 컴퓨터에서도 잘 작동한다.
제한 사항
다음 한계 사항을 명시해야 한다:
결과는 Kaggle 소매 데이터셋에만 적용되며, 다른 소매 환경에서는 다른 패턴이 나타날 수 있다.
단일 층 LSTM만 테스트했으며, 더 깊은 아키텍처는 압축 방식이 다를 수 있다.
고급 압축 기법인 프루닝과 양자화 및 아키텍처 축소를 사용하지 않았다.
이전 연구와의 비교
작은 모델이 큰 모델보다 더 잘 작동한다는 우리의 발견은 최근 모델 성능에 대한 연구와 일치한다. 47% 정확도 향상과 73% 압축은 컴퓨터 비전에서 보통 볼 수 있는 것보다 높다. 이는 모델 압축이 특히 시계열 예측에 효과적일 수 있음을 시사한다.
결론
본 연구는 실제 데이터를 사용하여 LSTM 압축을 통해 소매 판매를 예측할 때 정확도를 유지하거나 향상시킬 수 있다는 것을 보여주었다. 128개에서 64개로 숨겨진 유닛의 수를 줄이는 것은 47% 더 높은 정확도와 73% 더 작은 모델을 제공한다. 이 예기치 않은 결과는 최적의 모델 용량을 찾는 것이 매개변수를 최대한 늘리는 것보다 중요하다는 것을 나타낸다. 우리의 결과는 즉각적인 실질적인 영향을 미친다: 소매업체는 정확한 예측 모델을 일반 하드웨어에서 사용할 수 있고 GPU 가속이 필요하지 않다. 가장 좋은 LSTM-64 설정은 더 높은 정확도를 제공하고 76KB의 저장 공간만 필요하므로 엣지 배포와 제약된 리소스 환경에서도 활용 가능하다. 향후 연구는 양자화와 아키텍처 최적화를 결합하여 더 큰 압축을 탐구해야 한다.