라쏘를 이용한 희소 역공분산 추정의 빠른 알고리즘

본 논문은 L1(라쏘) 페널티를 적용한 역공분산 행렬 추정 문제를 좌표 하강법 기반의 라쏘 회귀로 변환하여, 1000개의 변수(≈50만 파라미터) 규모의 그래프를 1분 이내에 해결할 수 있는 매우 빠른 알고리즘을 제안한다. 기존 내점법 기반 방법보다 50~2000배 가속화했으며, Meinshausen‑Bühlmann 접근법과 정확 해 사이의 이론적 연결고리도 제시한다. 실제 세포 신호 전달 데이터에 적용해 그래프 구조를 성공적으로 복원한다.

저자: Jerome Friedman, Trevor Hastie, Robert Tibshirani

라쏘를 이용한 희소 역공분산 추정의 빠른 알고리즘
본 논문은 다변량 정규분포를 가정한 고차원 데이터에서 변수 간 조건부 독립성을 나타내는 역공분산 행렬(precision matrix) Θ=Σ⁻¹을 희소하게 추정하는 문제를 다룬다. 역공분산 행렬의 (i,j) 원소가 0이면 변수 i와 j는 다른 모든 변수들을 조건으로 두고 독립이라는 그래프 이론적 해석을 이용해, 그래프 구조 추정과 변수 선택을 동시에 수행하고자 한다. 기존 접근법은 크게 두 갈래로 나뉜다. 첫 번째는 Meinshausen과 Bühlmann(2006)이 제안한 방법으로, 각 변수를 종속 변수로 두고 나머지 변수를 설명 변수로 삼아 라쏘 회귀를 수행한다. 두 변수 사이에 어느 한쪽이라도 라쏘 계수가 비제로이면 해당 엣지를 그래프에 포함한다(또는 AND 규칙을 적용한다). 이 방법은 구현이 간단하고 빠르지만, 실제 로그우도 최적화와는 근사 관계에 머물러 정확한 최대우도 추정과는 차이가 있다. 두 번째는 Banerjee·Ghaoui·d’Aspremont(2007)와 Yuan·Lin(2007)이 제시한 내점법 기반의 L1 정규화 로그우도 최대화이다. 이 방법은 정확한 해를 제공하지만, 매 반복마다 복잡한 박스 제약 이차계획을 풀어야 하므로 대규모 문제에 적용하기 어렵다. 저자들은 Banerjee·Ghaoui·d’Aspremont의 프레임워크를 출발점으로, 로그우도 함수 L(Θ)=log det Θ − tr(SΘ) − ρ‖Θ‖₁ 를 직접 최적화하는 새로운 알고리즘을 제시한다. 핵심 아이디어는 문제를 블록 좌표 하강 방식으로 분해하고, 각 블록(행·열) 업데이트를 라쏘 형태의 최소제곱 문제로 변환하는 것이다. 구체적으로, 현재 추정된 공분산 행렬 W=Θ⁻¹를 행·열별로 분할하고, 목표 열을 마지막에 두어 다음과 같은 형태의 문제를 푼다. min_{β} ‖W₁₁^{1/2}β − b‖₂² + ρ‖β‖₁, b=W₁₁^{−1/2}s₁₂/2 이 식은 라쏘 회귀와 동일한 형태이며, Friedman·Hastie·Tibshirani(2007)의 좌표 하강법을 그대로 적용할 수 있다. 업데이트 식은 β̂_j ← S(s₁₂_j − ∑_{k≠j}W_{kj}β̂_k, ρ) / (2W_{jj}) 이며, 여기서 S(·,·)는 소프트‑쓰레시홀드 연산이다. β̂를 구한 뒤 w=2W₁₁β̂ 로 현재 열·행을 갱신하고, 모든 변수에 대해 순환한다. 이 과정을 전체 행렬이 수렴할 때까지 반복한다. 알고리즘의 초기값은 W=S+ρI 로 설정한다. 대각 원소는 변하지 않으며, 비대각 원소는 위의 라쏘 업데이트를 통해 점진적으로 0에 가까워지거나 비제로 값을 유지한다. 수렴 조건은 전체 행렬 변화가 10⁻⁴ 이하가 될 때로 정의한다. 실험에서는 두 가지 시뮬레이션 시나리오를 사용했다. 첫 번째는 AR(1) 구조의 희소 모델(대각은 1, 인접 원소는 0.5, 나머지는 0)이며, 두 번째는 모든 비대각 원소가 1인 밀집 모델이다. p를 100, 200, 400, 1000으로 늘리면서, 제안 알고리즘(Covariance Lasso), Banerjee·Ghaoui·d’Aspremont의 COVSEL(내점법), 그리고 Meinshausen‑Bühlmann 근사법을 각각 실행했다. 결과는 다음과 같다. - 희소 시나리오에서 p=1000일 때 Covariance Lasso는 약 0.6초, COVSEL은 2690초(≈45분)로 4000배 이상 차이. - 밀집 시나리오에서도 Covariance Lasso는 2.5초, COVSEL은 126.5초(≈2분)로 50배 차이. - 근사법은 가장 빠르지만 정확도 면에서 약 3배 정도 손실. 실제 데이터로는 Sachs et al.(2003)의 세포 신호 전달 데이터(p=11, n=7466)를 사용했다. ρ를 다양하게 변화시켜 12개의 그래프를 얻었으며, L1 노름이 커질수록(즉, ρ가 작아질수록) 그래프가 점점 촘촘해지는 모습을 확인했다. 교차 검증을 두 가지 방식(회귀 기반, 로그우도 기반)으로 수행했는데, 대규모 샘플에서는 정규화가 필요 없으며, 경미한 정규화에서는 로그우도 기반이 더 안정적인 성능을 보였다. 또한, 정확한 Covariance Lasso와 근사법을 비교했을 때, 약간의 정규화 수준에서는 정확한 방법이 더 낮은 예측 오차를 기록했다. 결론적으로, 저자들은 라쏘 회귀를 이용한 좌표 하강법을 역공분산 최대우도 추정에 적용함으로써, 기존 내점법보다 수백 배에서 수천 배 빠른 알고리즘을 제시했다. 이 방법은 구현이 간단하고, R·Fortran·C 등 다양한 환경에서 쉽게 활용 가능하며, 대규모 고차원 그래프 모델링에 실용적인 도구가 된다. 향후 연구에서는 비정규분포, 동적 네트워크, 그리고 비선형 관계를 포함하는 확장 모델에 적용하는 방향이 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기