그룹 라쏘와 다중 커널 학습의 일관성 연구
우리는 차원이 1보다 큰 여러 공간에 대한 유클리드 노름의 합인 블록 1-노름으로 정규화된 최소제곱 회귀 문제, 즉 그룹 라쏘를 고려한다. 이 문제는 모든 공간의 차원이 1인 경우의 라쏘와 동일한 형태를 갖지만, 차원이 큰 그룹을 동시에 선택할 수 있다는 점에서 차별화된다. 본 논문에서는 실용적인 가정(예: 모델 오차 존재) 하에서 그룹 라쏘의 점근적 모델
초록
우리는 차원이 1보다 큰 여러 공간에 대한 유클리드 노름의 합인 블록 1-노름으로 정규화된 최소제곱 회귀 문제, 즉 그룹 라쏘를 고려한다. 이 문제는 모든 공간의 차원이 1인 경우의 라쏘와 동일한 형태를 갖지만, 차원이 큰 그룹을 동시에 선택할 수 있다는 점에서 차별화된다. 본 논문에서는 실용적인 가정(예: 모델 오차 존재) 하에서 그룹 라쏘의 점근적 모델 일관성에 대해 연구한다. 필요충분 조건을 도출하고, 선형 예측변수와 유클리드 노름을 함수와 재생 커널 힐베르트 노름으로 대체한 경우, 즉 다중 커널 학습(MKL) 상황에서도 동일한 일관성 결과를 함수해석(특히 공분산 연산자)을 이용해 확장한다. 또한, 비적응적 방법이 만족해야 하는 필요조건을 만족하지 않을 때도 일관된 모델 추정이 가능하도록 하는 적응적 스킴을 제안한다.
상세 요약
그룹 라쏘는 전통적인 라쏘(Lasso)가 변수 하나당 하나의 가중치를 부과하는 1‑노름 정규화와 달리, 변수들을 사전에 정의된 그룹으로 묶어 각 그룹 전체에 대한 유클리드 노름을 적용한다. 수식적으로는 ‖β‖{2,1}=∑{g=1}^{G}‖β_{g}‖{2} 형태이며, 여기서 β{g}는 g번째 그룹에 속하는 회귀계수 벡터이다. 이러한 블록‑1‑노름은 그룹 단위의 변수 선택을 가능하게 하여, 고차원 데이터에서 해석 가능성을 크게 향상시킨다.
논문은 먼저 “모델 일관성”(model consistency)을 정의한다. 이는 표본 크기가 무한대로 커질 때, 추정된 활성 그룹 집합이 실제 활성 그룹 집합과 일치하는 확률이 1에 수렴한다는 의미이다. 기존 연구는 주로 독립 변수들이 서로 독립적이거나, 설계 행렬이 특정 제한조건(예: 제한된 상관관계)을 만족할 때 일관성을 보였지만, 실제 데이터는 종종 이러한 가정을 위반한다.
본 연구는 두 가지 주요 가정을 도입한다. 첫째, 실제 데이터 생성 과정이 선형 모델에 정확히 맞지 않을 수 있는 ‘모델 오차(misspecification)’ 상황을 허용한다. 둘째, 각 그룹 내 변수들의 공분산 구조를 일반적인 양의 정부호 행렬 Σ_{g}로 두어, 그룹 간 상관관계가 존재함을 인정한다. 이러한 가정 하에서 저자들은 다음과 같은 필요충분 조건을 제시한다.
-
Irrepresentable Condition (IRC) for Groups: 비활성 그룹의 공분산이 활성 그룹의 공분산에 의해 과도하게 표현되지 않아야 한다. 구체적으로, Σ_{−g,g} Σ_{g,g}^{−1} β_{g}^{*}의 ℓ_{2} 노름이 1보다 작아야 한다. 이 조건이 만족되면, 그룹 라쏘는 활성 그룹을 정확히 복구한다.
-
Signal Strength Condition: 활성 그룹의 계수 ‖β_{g}^{}‖{2}가 정규화 파라미터 λ{n}보다 충분히 크게 설정되어야 한다. 즉, λ_{n}=o(‖β_{g}^{}‖_{2})이어야 한다.
위 두 조건이 동시에 만족될 때, 그룹 라쏘는 점근적으로 일관성을 갖는다. 반대로, IRC가 위배되면 어떤 정도의 상관관계가 있더라도 일관성을 기대할 수 없으며, 이는 기존 라쏘 연구와 일치한다.
다음으로 논문은 이 결과를 무한 차원 공간으로 확장한다. 여기서는 각 그룹을 재생 커널 힐베르트 공간(RKHS)으로 모델링하고, 블록‑1‑노름 대신 각 RKHS에 대한 힐베르트 노름을 합산한다. 이 설정은 다중 커널 학습(MKL)이라고 불리며, 서로 다른 데이터 소스(예: 이미지, 텍스트, 시계열)를 동시에 활용하거나 비선형 변수 선택을 수행할 때 유용하다. 무한 차원에서는 행렬 대신 공분산 연산자 C_{g}:𝓗_{g}→𝓗_{g}를 사용한다. 저자들은 연산자 버전의 IRC를 정의하고, 연산자 스펙트럼이 충분히 빠르게 감소한다는 가정 하에 동일한 필요충분 조건을 증명한다.
마지막으로, 실제 적용에서 IRC가 위배되는 경우가 흔히 발생한다. 이를 보완하기 위해 저자들은 적응형 가중치 스킴을 제안한다. 초기 추정 단계에서 각 그룹에 대해 역방향 가중치 w_{g}=1/‖β̂_{g}^{(init)}‖_{2}^{γ} (γ>0)를 부여하고, 이를 블록‑1‑노름에 곱한다. 이렇게 하면, 초기 추정이 작게 나온 그룹에 대해 패널티가 감소해, 실제로는 활성인 그룹이 놓치지 않게 된다. 논문은 이 적응형 방법이 기존 비적응형 방법이 요구하는 IRC 없이도 일관성을 달성함을 이론적으로 증명하고, 시뮬레이션을 통해 실험적 우수성을 확인한다.
요약하면, 이 논문은 (1) 그룹 라쏘와 MKL의 점근적 모델 일관성을 위한 명확한 필요충분 조건을 제시하고, (2) 함수해석 도구를 활용해 무한 차원으로 일반화했으며, (3) 적응형 패널티 스킴을 통해 실제 데이터에서의 적용 가능성을 크게 확대했다는 점에서 이론과 실무를 잇는 중요한 기여를 한다.