희소 파티셔닝: 이진·삼진 예측변수를 위한 비선형 회귀와 연관 연구 적용
Sparse Partitioning은 이진·삼진 형태의 다수 예측변수와 작은 표본 크기(large p small n) 상황에서, 변수 간 복잡한 상호작용까지 자유롭게 모델링할 수 있는 베이지안 회귀 방법이다. 변수들을 그룹으로 파티셔닝하고 각 그룹의 공동 효과를 추정함으로써, 사전 가정 없이도 중요한 변수와 그 상호작용을 탐지한다. 시뮬레이션 결과, 기존 방법이 가정에 부합할 때는 동등한 성능을, 가정이 위배될 때는 우수한 성능을 보인다.
저자: Doug Speed, Simon Tavare
본 논문은 이진·삼진 형태의 예측변수가 다수 존재하고 표본 크기가 상대적으로 작은 ‘large p small n’ 상황에서, 변수 간 복잡한 비선형 관계를 자유롭게 모델링할 수 있는 베이지안 회귀 방법인 Sparse Partitioning을 제안한다. 기존 회귀 방법들은 변수 간 상호작용을 허용하더라도 그룹 수, 그룹 내 변수 수, 혹은 상호작용 형태(예: 곱, 트리, 스플라인 등)에 제한을 두어 모델 공간을 크게 축소한다. 이러한 제한은 계산 효율성을 제공하지만, 실제 데이터가 이러한 가정을 위배할 경우 탐지 능력이 급격히 저하된다.
Sparse Partitioning은 이러한 제한을 없애고, 예측변수 집합을 ‘파티션’이라는 형태로 표현한다. 파티션 G 은 ‘null 그룹’ G₀ 과 하나 이상의 ‘비null 그룹’ G₁, G₂,…, G_K 으로 구성되며, 같은 그룹에 속한 변수들은 서로 상호작용한다고 가정한다. 각 그룹 Gₖ 에 대해 함수 fₖ 을 정의하고, 전체 회귀 함수는 f(X)=∑ₖ fₖ(X_{Gₖ}) 형태가 된다. 여기서 fₖ 는 사전 가정 없이 임의의 함수이며, 파라미터화된 형태(예: 다변량 정규분포를 따르는 회귀계수 α)로 표현된다.
베이지안 프레임워크 하에 파티션에 대한 사전 P(G) 은 각 변수 g 가 실제로 반응에 관여할 확률 p_g 에 기반한다. 변수 g 가 ‘null 그룹’에 속할 확률은 1−p_g 이며, 다중 복제(C > 1) 경우 최소 하나가 연관될 확률로 확장된다. 파티션이 동일한 변수 집합을 포함하면 동일한 사전 가중치를 부여한다. 함수 fₖ 에 대한 사전은 다변량 정규분포 N(0, σ²I) 를 사용한다.
데이터가 연속형이면 정규 오차 가정을, 이진이면 로짓 링크를 사용해 likelihood P(D|G, f) 를 정의한다. 파라미터 f 에 대해 적분을 수행해 주변우도 P(D|G) 를 얻고, 이를 사전과 결합해 사후 P(G|D) 를 계산한다. 파티션 공간은 조합적으로 매우 크기 때문에 전수 탐색은 불가능하다. 따라서 저자들은 두 단계 MCMC 알고리즘을 설계했다. 첫 단계에서는 각 변수의 그룹 할당 I_g 을 개별적으로 제안·수정하고, 두 번째 단계에서는 전체 파티션 G 을 한 번에 제안한다. 이 두 단계는 병렬화가 용이해 실제 구현에서 거의 선형적인 속도 향상을 얻을 수 있다. 또한, 변수 복제(C > 1)를 도입해 하나의 변수가 여러 그룹에 동시에 포함될 수 있게 함으로써, ‘하나의 변수는 하나의 그룹에만 속한다’는 제약을 완화한다.
성능 검증을 위해 10가지 시뮬레이션 시나리오를 설계했다. 각 시뮬레이션은 100개의 샘플, 1,000개의 이진 예측변수, 그 중 3개가 실제로 반응에 영향을 미치는 구조를 갖는다. 시나리오는 (i) 순수 가법적 관계, (ii) 곱셈형 상호작용, (iii) 비표준적인 비선형 상호작용(예: f(0,0)=0, f(1,0)=1, f(0,1)=2, f(1,1)=−1) 등으로 구분되며, 인과 변수의 빈도(0.05~0.4)와 무작위 배치도 변형하였다. 각 방법은 상위 3개의 변수(또는 그룹)를 선택하도록 요구받았으며, 실제 인과 변수를 얼마나 정확히 식별했는지를 평균적으로 평가했다.
결과는 다음과 같다. 가법적 관계에서는 기존 Single, Pairwise, CART, Random Forest 등과 비슷한 성능을 보였으며, 특히 변수 빈도가 낮을 때는 약간 뒤처졌다. 그러나 비선형·다중 상호작용이 존재하거나 인과 변수 빈도가 낮은 경우, Sparse Partitioning은 다른 방법들에 비해 현저히 높은 검출률을 기록했다. 특히 ‘이상한’ 상호작용 시나리오에서는 기존 트리 기반 방법이나 Lasso 계열이 거의 탐지하지 못했지만, Sparse Partitioning은 정확히 해당 그룹을 식별했다.
논문의 주요 기여는 (1) 변수 그룹화를 통한 파티션 기반 모델링이라는 새로운 관점을 제시한 점, (2) 사전 가정이 거의 필요 없는 베이지안 프레임워크를 구축한 점, (3) 대규모 p small n 문제에서도 효율적인 MCMC 구현을 제공한 점이다. 한편, 제한점으로는 MCMC 수렴 판단이 어려울 수 있고, 파티션 수가 급증하면 메모리·연산 부담이 커질 수 있다는 점, 그리고 최종 해석 단계에서 파티션만으로는 함수 형태를 완전히 설명하지 못하므로 추가적인 모델링이 필요할 수 있다는 점을 들었다.
결론적으로 Sparse Partitioning은 유전체 연관 연구와 같이 이진·삼진 변수가 많고 복잡한 상호작용이 존재할 가능성이 높은 분야에서, 기존 방법을 보완하거나 대체할 실용적인 도구가 될 가능성을 보여준다. 향후 연구에서는 파티션 탐색 효율성을 높이는 고급 샘플링 기법, 연속형·다중 범주형 변수 확장, 그리고 실제 유전체 데이터에 대한 적용 사례가 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기