다변량 층화 표본 최적 배분을 위한 정수계획법

본 논문은 다변량 층화 표본조사에서 각 변수의 목표 변동계수(CV)를 만족하면서 전체 표본 크기를 최소화하는 문제를 정수선형계획(IP) 형태로 모델링하고, 이를 이진 변수와 제약식으로 구현한다. 제안된 모델은 기존의 비선형 방법보다 전역 최적해를 보장하며, R의 lpSolve 패키지를 이용한 구현과 실험을 통해 Bethel(1989) 알고리즘 대비 표본 규모를 감소시키는 효과를 입증한다.

저자: Jose Andre de Moura Brito, Gustavo Silva Semaan, Pedro Luis do Nascimento Silva

본 논문은 1934년 Neyman이 제시한 층화 표본조사의 최적 배분 문제를 출발점으로, 다변량 조사 상황에서 각 변수별 목표 변동계수(CV)를 만족하면서 전체 표본 크기를 최소화하는 새로운 최적화 접근법을 제안한다. 기존 연구는 크게 두 갈래로 나뉘는데, 첫 번째는 여러 변수의 분산을 가중 평균으로 결합해 하나의 목표 함수를 최소화하는 방식이며, 두 번째는 각 변수마다 사전에 정해진 CV 한계를 만족하도록 표본을 배분하는 방식이다. 저자들은 두 번째 접근법에 초점을 맞추어, 비선형 제약식이 포함된 기존 모델이 정수성을 보장하지 못하고 라운딩 과정에서 최적성이 손실되는 문제점을 지적한다. 이를 해결하기 위해 저자들은 표본 크기 \(n_h\) 를 각 층 \(h\) 에 대해 가능한 값 집합 \(A_h=\{1,2,\dots,N_h\}\) 중 하나로 선택하도록 이진 변수 \(x_{hk}\) 를 도입한다. 여기서 \(x_{hk}=1\)이면 층 \(h\) 에서 표본 크기가 \(k\) 로 결정된다는 의미이다. 모델의 목표 함수는 선택된 모든 \(k\) 값의 합을 최소화하는 \(\min \sum_{h=1}^{H}\sum_{k\in A_h} k\,x_{hk}\) 로 정의된다. 제약식 (14)는 각 층마다 정확히 하나의 \(x_{hk}\) 가 1이 되도록 강제함으로써, 층별 표본 크기가 유일하게 결정되도록 한다. 핵심 제약식 (15)은 다변량 CV 제한을 선형 형태로 변환한 것으로, 각 조사 변수 \(j\) 에 대해 \(\sum_{h=1}^{H}\sum_{k\in A_h} p_{hj}k\,x_{hk}\le p_{hj}\) 를 만족해야 한다. 여기서 \(p_{hj}= \frac{Y_j^2\,cv_j^2}{N_h^2 S_{hj}^2}\) 라는 상수는 전체 모집단 규모 \(Y_j\), 목표 CV \(cv_j\), 층별 표본 수 \(N_h\), 그리고 층별 분산 \(S_{hj}^2\) 로부터 사전에 계산된다. 이 선형화는 비선형 제약을 완전히 제거하고, 전통적인 정수선형계획 솔버(예: Branch‑and‑Bound, Cutting‑Plane)를 그대로 적용할 수 있게 만든다. 비용이 균일하다고 가정하면 목표 함수는 표본 수 자체가 비용을 의미한다. 만약 층별 비용 \(C_h\) 가 다르면 목표 함수를 \(\min \sum_{h,k} C_h k\,x_{hk}\) 로 바꾸어 비용 최적화도 동시에 수행할 수 있다. 또한 최소 표본 크기 제한(\(n_{\min}\))을 추가하고자 할 경우 제약식 (18) \(\sum_{k\ge n_{\min}} x_{hk}=1\) 를 각 층에 적용하면 된다. 제안된 모델을 실제 데이터에 적용하기 위해 저자들은 R 언어의 lpSolve 패키지를 이용해 BSM(Binary Sample Model) 함수를 구현하였다. 실험은 브라질의 세 가지 대규모 조사 데이터베이스(Pop_CAFE, Pop_FAZENDA_CANA, Pop_FAZENDA_GADO)를 사용했으며, 각 데이터베이스는 층 수 \(H\), 변수 수 \(m\), 전체 모집단 규모 \(N\) 가 서로 다르다. 실험 결과는 두 가지 측면에서 비교되었다. 첫째, 전체 표본 규모 \(n\) 의 절감 정도; 둘째, 각 변수별 CV가 목표값 이하인지 여부. 표 2와 표 3에 제시된 결과에 따르면, BSM은 Pop_CAFE에서 2545명, Pop_FAZENDA_CANA에서 144명, Pop_FAZENDA_GADO에서 217명의 표본을 사용했으며, 모두 목표 CV(5%, 2%, 10%) 이하를 만족했다. 반면 Bethel(1989) 알고리즘은 각각 2546명, 146명, 219명을 필요로 했으며, 일부 변수에서 목표 CV를 약간 초과했다. 즉, BSM은 평균 0.5~2명 정도의 표본을 절감하면서도 정확도는 유지했다. 논문의 마지막에서는 현재 모델이 비용이 균일하다는 가정과 최소 표본 제한을 단순히 제시한 수준에 머물러 있다는 한계를 인정한다. 또한 층 수와 각 층의 모집단 규모가 크게 증가할 경우 Branch‑and‑Bound의 계산 복잡도가 급격히 상승할 수 있음을 지적하고, 메타휴리스틱이나 분할‑정복 기법과의 혼합 접근법을 향후 연구 과제로 제시한다. 결론적으로, 이 논문은 다변량 층화 표본 배분 문제를 정수선형계획으로 정확히 모델링함으로써 전역 최적해를 보장하고, 실제 데이터에 적용했을 때 기존 베셀 알고리즘 대비 표본 규모를 효율적으로 감소시킬 수 있음을 실증하였다. 이는 조사 비용 절감과 데이터 품질 향상을 동시에 추구하는 통계기관 및 연구자들에게 실용적인 도구가 될 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기