다변량 층화 표본 최적 배분을 위한 정수계획법

본 논문은 1934년 Neyman이 제시한 층화 표본조사의 최적 배분 문제를 출발점으로, 다변량 조사 상황에서 각 변수별 목표 변동계수(CV)를 만족하면서 전체 표본 크기를 최소화하는 새로운 최적화 접근법을 제안한다. 기존 연구는 크게 두 갈래로 나뉘는데, 첫 번째는 여러 변수의 분산을 가중 평균으로 결합해 하나의 목표 함수를 최소화하는 방식이며, 두 번째는 각 변수마다 사전에 정해진 CV 한계를 만족하도록 표본을 배분하는 방식이다. 저자들은 두 번째 접근법에 초점을 맞추어, 비선형 제약식이 포함된 기존 모델이 정수성을 보장하지 못하고 라운딩 과정에서 최적성이 손실되는 문제점을 지적한다. 이를 해결하기 위해 저자들은 표본 크기 \(n_h\) 를 각 층 \(h\) 에 대해 가능한 값 집합 \(A_h=\{1,2,\dots,N_h\}\) 중 하나로 선택하도록 이진 변수 \(x_{hk}\) 를 도입한다. 여기서 \(x_{hk}=1\)이면 층 \(h\) 에서 표본 크기가 \(k\) 로 결정된다는 의미이다. 모델의 목표 함수는 선택된 모든 \(k\) 값의 합을 최소화하는 \(\min \sum_{h=1}^{H}\sum_{k\in A_h} k\,x_{hk}\) 로 정의된다. 제약식 (14)는 각 층마다 정확히 하나의 \(x_{hk}\) 가 1이 되도록 강제함으로써, 층별 표본 크기가 유일하게 결정되도록 한다. 핵심 제약식 (15)은 다변량 CV 제한을 선형 형태로 변환한 것으로, 각 조사 변수 \(j\) 에 대해 \(\sum_{h=1}^{H}\sum_{k\in A_h} p_{hj}k\,x_{hk}\le p_{hj}\) 를 만족해야 한다. 여기서 \(p_{hj}= \frac{Y_j^2\,cv_j^2}{N_h^2 S_{hj}^2}\) 라는 상수는 전체 모집단 규모 \(Y_j\), 목표 CV \(cv_j\), 층별 표본 수 \(N_h\), 그리고 층별 분산 \(S_{hj}^2\) 로부터 사전에 계산된다. 이 선형화는 비선형 제약을 완전히 제거하고, 전통적인 정수선형계획 솔버(예: Branch‑and‑Bound, Cutting‑Plane)를 그대로 적용할 수 있게 만든다. 비용이 균일하다고 가정하면 목표 함수는 표본 수 자체가 비용을 의미한다. 만약 층별 비용 \(C_h\) 가 다르면 목표 함수를 \(\min \sum_{h,k} C_h k\,x_{hk}\) 로 바꾸어 비용 최적화도 동시에 수행할 수 있다. 또한 최소 표본 크기 제한(\(n_{\min}\))을 추가하고자 할 경우 제약식 (18) \(\sum_{k\ge n_{\min}} x_{hk}=1\) 를 각 층에 적용하면 된다. 제안된 모델을 실제 데이터에 적용하기 위해 저자들은 R 언어의 lpSolve 패키지를 이용해 BSM(Binary Sample Model) 함수를 구현하였다. 실험은 브라질의 세 가지 대규모 조사 데이터베이스(Pop_CAFE, Pop_FAZENDA_CANA, Pop_FAZENDA_GADO)를 사용했으며, 각 데이터베이스는 층 수 \(H\), 변수 수 \(m\), 전체 모집단 규모 \(N\) 가 서로 다르다. 실험 결과는 두 가지 측면에서 비교되었다. 첫째, 전체 표본 규모 \(n\) 의 절감 정도; 둘째, 각 변수별 CV가 목표값 이하인지 여부. 표 2와 표 3에 제시된 결과에 따르면, BSM은 Pop_CAFE에서 2545명, Pop_FAZENDA_CANA에서 144명, Pop_FAZENDA_GADO에서 217명의 표본을 사용했으며, 모두 목표 CV(5%, 2%, 10%) 이하를 만족했다. 반면 Bethel(1989) 알고리즘은 각각 2546명, 146명, 219명을 필요로 했으며, 일부 변수에서 목표 CV를 약간 초과했다. 즉, BSM은 평균 0.5~2명 정도의 표본을 절감하면서도 정확도는 유지했다. 논문의 마지막에서는 현재 모델이 비용이 균일하다는 가정과 최소 표본 제한을 단순히 제시한 수준에 머물러 있다는 한계를 인정한다. 또한 층 수와 각 층의 모집단 규모가 크게 증가할 경우 Branch‑and‑Bound의 계산 복잡도가 급격히 상승할 수 있음을 지적하고, 메타휴리스틱이나 분할‑정복 기법과의 혼합 접근법을 향후 연구 과제로 제시한다. 결론적으로, 이 논문은 다변량 층화 표본 배분 문제를 정수선형계획으로 정확히 모델링함으로써 전역 최적해를 보장하고, 실제 데이터에 적용했을 때 기존 베셀 알고리즘 대비 표본 규모를 효율적으로 감소시킬 수 있음을 실증하였다. 이는 조사 비용 절감과 데이터 품질 향상을 동시에 추구하는 통계기관 및 연구자들에게 실용적인 도구가 될 것으로 기대된다.

다변량 층화 표본 최적 배분을 위한 정수계획법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기