대규모 고차원 축소차원 판별분석을 위한 빠른 랜덤 카즈마 알고리즘
초록
본 논문은 관측 수보다 변수 수가 많은 고차원 데이터와 관측·변수 모두가 대규모인 경우에 적용 가능한, 추가 가정이나 튜닝 파라미터 없이 동작하는 반복형 랜덤 카즈마(RK) 기반의 축소차원 선형 판별분석(RRLDA) 알고리즘을 제안한다. 최소제곱 형태로 문제를 재구성하고, RK를 행‑열 행렬 형태로 확장함으로써 최소 노름 해에 대한 암묵적 정규화를 제공한다. 이론적 수렴 보증과 실험을 통해 기존 고차원 LDA 방법보다 계산 효율성과 분류 성능에서 경쟁력을 입증한다.
상세 분석
본 연구는 RRLDA의 핵심 목표인 “클래스 간 분산을 최대화하고 클래스 내 분산을 최소화하는 저차원 서브스페이스”를 찾는 문제를, 전통적인 고유값 해법이 비현실적인 O(d³) 연산을 요구하는 상황에서 최소제곱(Least‑Squares) 형태로 전환한다는 점에서 혁신적이다. 저차원 변환 행렬 G는 결국 X와 Y(클래스 레이블 매트릭스) 사이의 선형 회귀 해 W에 의해 정의되며, 고차원( n < d )에서는 시스템이 과소결정이므로 무수히 많은 해가 존재한다. 여기서 저노름 해(W_LN)를 선택하면, 기존의 Moore‑Penrose 역행렬을 이용한 해와 동일한 서브스페이스를 제공한다는 기존 이론(Chi 2023)을 그대로 활용한다.
알고리즘의 핵심은 Randomized Kaczmarz (RK) 방법을 행렬 회귀에 적용한 것이다. 전통적인 RK는 한 행씩 선택해 스칼라 RHS에 대해 업데이트한다. 본 논문은 RHS가 g‑차원 레이블 매트릭스 Y인 상황을 고려해, 각 반복에서 선택된 행 i에 대해 전체 열벡터 업데이트를 수행한다. 선택 확률 p_i는 행 ‖x_i‖²에 비례하도록 설계되어, 기대 수렴 속도가 κ(X)⁻²(조건수의 역수)와 직접 연관된다. 중요한 점은 RK가 과소결정이면서도 일관된 시스템(실제 데이터가 거의 완전 행렬인 경우)에서는 자동으로 최소노름 해에 수렴한다는 점이다. 이는 “implicit regularization”이라 불리며, 별도의 ℓ₁, ℓ₂ 페널티를 추가하지 않아도 과적합을 억제한다는 실용적 의미를 가진다.
이론적 측면에서 Proposition 1은 고차원·불일치·행렬 회귀 상황 모두에 대해 유한 반복 수 K에 대한 오류 상한을 제시한다. 구체적으로 ‖W_K − W_‖_F ≤ (1 − σ_min⁺(X)²/‖X‖F²)^K · ‖W_0 − W‖_F 로, 수렴률이 최소 비영특잇값에 의해 결정됨을 보여준다. 또한, 수렴 후 Burn‑in 단계에서 평균을 취하면 불일치 상황에서도 최소제곱 해의 근방에 수렴한다는 기존 연구(Needell & Tropp, 2014)를 차용한다.
복잡도 분석에서는 기존 고전적 RRLDA가 O(nd t) + O(t³) (t = min{n,d}) 연산을 요구하는 반면, 제안 알고리즘은 각 반복이 O(d g) (g는 클래스 수)만큼의 행벡터 연산으로 제한된다. 따라서 전체 K·O(d g) 연산으로 대규모 데이터에서도 메모리와 시간 효율성을 확보한다.
실험에서는 얼굴 인식, 고해상도 스펙트럼 이미지, 텍스트 분류 등 10여 개의 공개 데이터셋을 대상으로, 제안 알고리즘(RRLDA‑RK)과 기존 고차원 LDA 변형(ℓ₁‑penalized LDA, PCA‑preprocessed LDA, SVD‑based 방법)들을 비교하였다. 정확도 면에서는 대부분의 경우 차이가 0.5% 이내로 비슷했으며, 특히 n ≫ d 혹은 d ≫ n 상황에서 학습 시간은 기존 방법 대비 5배~20배 가량 단축되었다. 또한, 파라미터 튜닝이 전혀 필요 없었음에도 불구하고, 최소노름 해에 대한 암묵적 정규화 효과가 과적합을 방지하고 테스트 성능을 안정적으로 유지함을 확인하였다.
요약하면, 이 논문은 고차원·대규모 데이터 환경에서 RRLDA를 실용적으로 적용할 수 있는 “RRLDA‑RK”라는 알고리즘을 제시하고, 이론적 수렴 보증과 암묵적 정규화 메커니즘을 명확히 설명함으로써, 기존 복잡한 전처리·튜닝 기반 방법들을 대체할 수 있는 강력한 대안을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기