선형 혼합 모델을 위한 심볼릭 포뮬러 설계와 구현 비교

본 논문은 선형 혼합 모델(LMM)의 소프트웨어 구현에 있어 고수준 심볼릭 포뮬러가 어떻게 사용되는지를 살펴보고, 두 대표적인 R 패키지인 lme4와 asreml의 설계 철학과 구문 차이를 상세히 비교한다. 서론에서는 통계 모델이 데이터 생성 과정을 추상화한 수학적 표현이며, 이를 실제 분석에 적용하려면 모델을 컴퓨터에 전달하는 인터페이스가 필수적이라고 강조한다. 현재 다양한 통계 패키지가 존재하지만, 입력 인자(API)가 일관되지 않아 사용자가 원하는 모델을 정확히 지정하기 어렵다는 문제점을 제시한다. 2장에서는 선형 모델에 대한 심볼릭 포뮬러의 역사와 기본 구조를 설명한다. R의 `formula` 객체는 LHS와 RHS를 `~` 기호로 구분하고, `+`, `*`, `:` 등 연산자를 통해 주효과와 상호작용을 간단히 표현한다. 인터셉트는 기본 포함되며, `-1` 혹은 `0`을 사용해 제거할 수 있다. 범주형 변수를 포함하면 자동으로 더미 변수가 생성되고, 기준 수준을 설정해 식별성을 확보한다. 이러한 변환 과정은 ANOVA 표기법과 연결해 직관성을 높일 수 있다. 3장에서는 LMM의 일반 형태인 `y = Xβ + Zb + e`를 소개하고, 랜덤 효과와 오차가 각각 다변량 정규분포를 따른다고 가정한다. 이후 lme4와 asreml의 구체적인 함수 인터페이스를 비교한다. lme4의 `lmer`는 하나의 포뮬러 안에 고정 효과와 랜덤 효과를 동시에 기술한다. 랜덤 효과는 `(효과 | 그룹)` 형태로 표기되며, 그룹 내에서 무구조 공분산을 가정한다. 이 구문은 선형 모델 포뮬러와 동일한 파싱 규칙을 사용해 사용자가 기존 `lm` 코드를 쉽게 확장할 수 있게 한다. 반면, asreml은 `fixed`와 `random`을 별도 인자로 구분하고, `random` 포뮬러 안에서 `rcov` 옵션을 통해 다양한 공분산 구조(예: AR(1), 대각선, 블록 대각선 등)를 지정한다. 따라서 복잡한 계층 구조나 공간적 상관을 모델링할 때 유연성을 제공하지만, 구문이 복잡하고 초기 학습 비용이 높다. 4장에서는 실제 농업 데이터셋을 이용해 두 패키지의 사용 예를 제시한다. 예시에서는 트리 성장 데이터와 제초제 실험 데이터를 각각 선형 모델과 LMM으로 분석한다. lme4에서는 `lmer(log(Volume) ~ 1 + log(Height) + (1|GirthGroup), data=trees)`와 같이 간단히 지정할 수 있다. asreml에서는 `asreml(fixed = log(Volume) ~ log(Height), random = ~ GirthGroup, rcov = ~ units, data=trees)`와 같이 고유한 구문을 사용한다. 두 접근법 모두 결과는 동일하지만, 모델 지정 과정에서의 가독성, 확장성, 공분산 구조 지정 가능성 등에 차이가 있다. 5장에서는 현재의 심볼릭 포뮬러 설계가 갖는 장점과 한계를 논의한다. 장점으로는 모델 구조를 직관적으로 표현하고, 변환을 포뮬러에 포함시켜 파이프라인 전체에서 일관성을 유지할 수 있다는 점을 들었다. 한계로는 인터셉트 제거 시 포뮬러와 실제 회귀 방정식 사이의 불일치, 랜덤 효과와 공분산 구조를 일관되게 표현하지 못함, 그리고 R 외 다른 언어와의 호환성 부족을 꼽는다. 마지막으로 향후 연구 방향으로는 포뮬러 파서의 표준화, 랜덤 효과와 공분산 구조를 하나의 통합 구문으로 표현하는 새로운 DSL(domain‑specific language) 개발, 그리고 다중 언어 간 모델 재현성을 높이는 인터페이스 설계를 제안한다.

선형 혼합 모델을 위한 심볼릭 포뮬러 설계와 구현 비교

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기