고차원 매개분석을 위한 그룹 라쏘 기반 변수 선택 방법
초록
본 논문은 다수의 매개변수가 존재하는 고차원 상황에서, 그룹 라쏘와 안정성 선택을 결합한 두 단계 절차(MAHI)를 제안한다. 첫 단계에서는 노출‑매개 및 매개‑결과 관계를 동시에 고려한 그룹 라쏘 패널티로 후보 매개변수를 선별하고, 부트스트랩 기반 안정성 선택으로 선택의 신뢰성을 높인다. 두 번째 단계에서는 저차원 다중 매개분석 알고리즘을 적용해 각 매개변수의 간접효과와 직접효과를 추정·검정한다. 시뮬레이션과 실제 DNA 메틸레이션 데이터 분석을 통해 기존 방법 대비 변수 선택 정확도와 효과 추정의 안정성이 향상됨을 확인하였다.
상세 분석
본 연구는 고차원 매개분석(high‑dimensional mediation analysis)이라는 복합적인 통계 문제에 대해 체계적인 해결책을 제시한다. 핵심 아이디어는 매개변수 α₁ₖ(노출‑매개 효과)와 βₖ(매개‑결과 효과)를 하나의 그룹으로 묶어 그룹 라쏘(penalized) 최적화 문제를 정의하고, 이를 통해 두 파라미터가 동시에 0이 되는 매개변수를 제거함으로써 “거짓 매개변수”를 효과적으로 배제한다. 특히, 손실함수 f(·)에 노출‑결과 관계를 조절하는 가중치 w_Y를 도입해 α와 β의 스케일 차이를 보정하고, 다양한 w_Y 값을 그리드 탐색함으로써 다양한 효과 크기를 가진 매개변수를 포착한다는 점이 독창적이다.
그룹 라쏘 최적화는 proximal gradient 방법을 사용해 반복적으로 파라미터를 업데이트한다. 이 과정에서 λ(패널티 강도)는 “작게” 설정해 가능한 많은 진짜 매개변수를 보존하도록 설계했으며, 최종 후보 개수 K_max은 샘플 크기 n에 비례하도록 제한한다(연속형 결과는 2n/ln n, 이진 결과는 ⌊−2 + n/50⌋). 이렇게 선정된 후보군은 아직 고차원일 수 있기 때문에, 부트스트랩(N_boot) 기반 안정성 선택을 적용한다. 각 부트스트랩 샘플에 대해 동일한 그룹 라쏘 최적화를 수행하고, 변수별 선택 빈도를 집계해 상위 K_max 변수를 최종 후보로 확정한다. 이 절차는 라쏘의 불안정성을 보완하고, 실제 매개효과가 존재하는 변수는 높은 선택 빈도를 보이는 점을 이용한다.
두 번째 단계에서는 저차원 다중 매개분석 알고리즘(
댓글 및 학술 토론
Loading comments...
의견 남기기