스케치OGD: 메모리 절감 연속 학습
초록
연속 학습에서 과거 과제의 기울기를 모두 저장하면 메모리 사용량이 급증한다. 본 논문은 행렬 스케치 기법을 이용해 과거 기울기들을 고정 크기의 요약 행렬로 압축하고, 이를 기반으로 orthogonal gradient descent(OGD)를 수행하는 SketchOGD를 제안한다. 세 가지 스케치 방식(직접 기울기 스케치, GGᵀ 스케치, 대칭 스케치)을 설계하고, 각각에 대한 근사 오차 이론을 제공한다. 실험 결과, 동일 메모리 예산 하에서 기존 OGD 변형보다 우수한 성능을 보인다.
상세 분석
본 연구는 연속 학습에서 가장 기본적인 문제인 ‘catastrophic forgetting’에 초점을 맞추고, 이를 완화하는 OGD 방법의 메모리 병목 현상을 해결하고자 한다. OGD는 이전 데이터의 기울기 집합 G 를 저장하고, 새로운 가중치 업데이트를 G 의 범위에 직교하도록 투영한다. 그러나 G 의 열 수가 학습 진행에 따라 선형적으로 증가하므로 메모리 요구량이 O(pT) ( p : 파라미터 수, T : 총 업데이트 횟수) 가 된다. 이 문제를 해결하기 위해 저자는 ‘행렬 스케치’라는 확률적 차원 축소 기법을 도입한다. 스케치는 두 개의 랜덤 정규 행렬 Ω, Ψ 를 이용해 Y = AΩ, W = ΨA 를 계산하고, 이를 통해 원본 행렬 A 의 저차원 근사 \tilde A 를 얻는다. 스케치의 핵심 장점은 (1) 고정된 메모리 크기로 온라인 업데이트가 가능하고, (2) 선형성으로 인해 전체 기울기 행렬을 한 번에 스케치한 것과 동일한 결과를 얻을 수 있다는 점이다.
논문은 세 가지 구체적인 SketchOGD 변형을 제시한다.
- SketchOGD‑1은 직접 기울기 행렬 G 을 스케치한다. Y = GΩ 를 유지하며, 새로운 기울기 g 가 들어오면 Y ← Y + g ωᵀ (ω는 새로 샘플링된 정규 벡터) 로 업데이트한다. 메모리 비용은 p k ( k : 스케치 차원) 뿐이다.
- SketchOGD‑2는 GGᵀ 를 스케치한다. 동일한 Ω 를 사용해 Y ← Y + g (gᵀΩ) 로 누적한다. 메모리 요구량은 2 p k 이지만, GGᵀ 의 대칭 구조를 활용해 더 정확한 서브스페이스 근사가 가능하다.
- SketchOGD‑3은 대칭 스케치(Ω, Ψ 동시 사용)로 GGᵀ 를 압축한다. Y와 W 를 각각 업데이트하고, QR 분해와 의사역을 통해
댓글 및 학술 토론
Loading comments...
의견 남기기