선형·일반화선형 혼합모델에서 다항 공변량 효과 검정 가이드
본 논문은 선형 혼합모델(LMM)과 일반화선형 혼합모델(GLMM)에서 공변량의 선형 가정을 검증하기 위한 네 가지 통계 검정법(R 검정, 우도비 검정, 점수 검정, 잔차 기반 검정)을 정리하고, 특히 다항 형태의 공변량 효과를 평가하는 절차와 그 성능을 비교한다. 시뮬레이션을 통해 우도비 검정과 점수 검정의 정확도와 계산 효율성을 평가한다.
저자: Mingyan Huang, Daowen Zhang
본 논문은 선형 혼합모델(LMM)과 일반화선형 혼합모델(GLMM)에서 공변량의 선형 효과 가정이 실제 데이터에 적합한지를 검정하는 방법들을 체계적으로 정리한다. 먼저, LMM·GLMM의 기본 구조와 조건부 평균이 링크 함수 뒤에서 고정효과와 랜덤효과의 선형 결합으로 표현된다는 점을 강조한다. 이러한 구조 하에서 공변량 t에 대한 효과를 다항식 m(t,γ)=γ₀+γ₁t+…+γ_dt^d 로 가정하고, 이를 검정하기 위해 반정규화 혼합모델(SAMM) 형태인 g(μ_ij)=sᵀ_ijδ+f(t_ij)+zᵀ_ijb_i 를 대안 모델로 설정한다. 여기서 f(t) 는 비모수 스무딩 함수이며, 스플라인을 이용해 혼합효과 형태로 재표현한다.
논문은 네 가지 검정 절차를 상세히 설명한다.
1. **R 검정**은 Hastie·Tibshirani가 제안한 스무딩 파라미터 검정의 확장으로, 귀무 모델과 대안 모델의 추정값 차이를 기반으로 R 통계량을 정의한다. 이 통계량은 대체로 chi‑square 근사분포를 따르지만, 자유도 추정 편향과 유한표본에서의 분포 불일치가 문제다. 이를 보완하기 위해 부트스트랩 방법이 제안된다.
2. **우도비 검정(LR 테스트)**는 비모수 스플라인을 혼합효과 형태(Aγ+Ba)로 표현하고, 다항 차수 제한과 스플라인 랜덤 효과 분산이 0인 경우를 귀무 가설로 설정한다. 경계값 문제로 인해 검정통계량은 일반적인 χ² 혼합분포가 아니라, 더 무거운 0 자유도 질량을 가진 혼합분포를 따른다. 논문은 정확한 영분포를 얻기 위한 시뮬레이션 알고리즘(λ 그리드 생성 → χ² 변수 시뮬레이션 → 통계량 계산)을 제시한다.
3. **점수 검정**은 대안 모델을 실제로 추정하지 않고, 귀무 모델 하에서 점수 함수와 피셔 정보 행렬만 이용해 검정통계량을 계산한다. 이는 계산량을 크게 절감하지만, 스플라인 매개변수의 제약에 따라 검정력이 달라질 수 있다.
4. **잔차 기반 검정**은 Pan·Lin이 제안한 누적 잔차 합(CUSUM) 방식으로, 모델 적합도 전반을 평가한다. 특정 공변량이나 예측값에 대한 잔차 누적합이 기대값을 크게 벗어나면 비선형 효과가 존재한다고 판단한다. 이 방법은 대안 모델 형태에 구애받지 않으며, 다항뿐 아니라 임의의 비선형 형태에도 적용 가능하지만, 잔차 독립성 가정이 깨질 경우 검정 신뢰도가 저하된다.
논문은 또한 작은 규모의 시뮬레이션 연구를 수행하여 정확한 LR 검정과 점수 검정의 성능을 비교한다. 시뮬레이션 설정은 (penalized) 스플라인을 이용해 비모수 함수를 추정하고, 다양한 다항 차수와 표본 크기를 고려하였다. 결과는 두 검정 모두 제1종 오류를 적절히 제어했으며, 표본이 작을 때 점수 검정이 약간 높은 검정력을 보였다. 그러나 LR 검정은 영분포를 직접 시뮬레이션해 얻어야 하므로 계산 비용이 크게 증가한다.
마지막으로 논문은 각 검정 방법의 장단점을 정리한다. R 검정은 구현이 간단하고 직관적이지만 자유도 추정 문제와 부트스트랩 필요성이 있다. LR 검정은 이론적으로 가장 강력하지만 경계값 문제와 계산 복잡도가 있다. 점수 검정은 계산 효율성이 뛰어나지만 검정력은 상황에 따라 다를 수 있다. 잔차 기반 검정은 모델 전반에 대한 일반적인 적합도 검정으로 활용 가능하지만, 잔차 구조에 민감하다.
결론적으로, 연구자는 데이터 특성(표본 크기, 랜덤 효과 구조, 계산 자원)과 검정 목적(검정력 vs. 구현 용이성)을 고려해 적절한 방법을 선택해야 함을 강조한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기