샘플 크기 고정 시 3용량 설계가 2용량보다 우수한 이유
초록
**
총 환자 수를 일정하게 유지하면서 용량 최적화 연구를 설계할 경우, 세 가지 용량을 포함하는 3‑arm 디자인이 두 가지 용량만을 비교하는 2‑arm 디자인보다 통계적 검출력과 최적 용량 선택 확률이 크게 향상된다. 단, 중간 용량이 최적이 아닐 가능성이 60 % 이상일 때만 2‑arm 디자인(저·고 용량만)으로 제한할 수 있다.
**
상세 분석
**
본 논문은 고정된 총 샘플 사이즈 하에서 2‑arm과 3‑arm 용량 최적화 연구의 통계적 효율성을 수학적 근사와 시뮬레이션을 통해 비교한다. 먼저, 두 용량을 대상으로 하는 전통적 이원 검정의 Type I·II 오류를 표준 정규분포의 분위수(Φ⁻¹)와 효과크기(δ)로 근사한 식을 제시한다. 두 연구가 동일한 α 수준을 공유할 때, 각 연구의 β(제2종 오류)는 샘플 사이즈와 효과크기의 비율에 따라 선형 관계를 이루며, 특히 검정력이 25 %~75 % 구간에서는 Φ 함수와 그 선형 근사 사이의 차이가 2 % 이하로 미미함을 확인한다. 이를 바탕으로 “상대 신호 강도” r=δ·√n 의 비율이 1보다 클 경우, 3‑arm 설계의 검정력이 약 1.5배(고·저 용량 비교) 혹은 0.375배(인접 용량 비교)로 증가한다는 직관적 결과를 도출한다.
다음으로, 중간 용량이 최적이 아닐 사전 확신(λ)을 도입해 두 가지 상황을 분석한다. (1) 저·고 용량만 포함하는 2‑arm 설계가 3‑arm 설계보다 효율적이려면 λ>0.63, 즉 중간 용량이 최적이 아닐 확률이 63 % 이상이어야 한다. (2) 인접 용량(저·중 혹은 중·고)만을 비교하는 2‑arm 설계가 타당하려면 λ>0.78, 즉 78 % 이상의 강한 사전 신념이 필요하다. 이는 중간 용량을 배제할 경우 발생할 수 있는 “최적 용량 누락” 위험을 정량화한 것이다.
시뮬레이션에서는 베이지안 모델 선택 프레임워크를 사용해 네 가지 가상의 용량‑반응 곡선을 생성하고, 각 곡선에 대해 30명/용량(총 90명)인 3‑arm 설계와 동일 총 샘플을 유지하는 2‑arm 설계를 비교하였다. 선형 곡선(시나리오 4)에서는 3‑arm 설계가 최적 용량(고용량) 선택 확률(PCS)을 약 74 % 달성한 반면, 2‑arm 설계는 51 %에 머물렀다. 특히 2‑arm 설계가 고용량을 포함하지 않을 경우 PCS가 급격히 감소한다는 점이 강조된다. 평탄(플래토) 곡선에서는 두 설계가 비슷한 PCS를 보였지만, 3‑arm 설계는 용량‑반응 관계 전체를 한 번에 파악할 수 있다는 추가적인 장점을 제공한다.
실무적 적용을 위해 저자는 5‑star 평점 체계를 제시한다. 무작위화(randomization) 방식은 백필(backfill)보다 2‑star 높은 점수를 받으며, 3‑arm 설계는 2‑arm 설계보다 1‑star 높게 평가된다. 인구 동질성(동일 바이오마커 발현 등)이 확보된 경우 백필을 활용해 저용량을 추가 모집함으로써 비용과 시간을 절감할 수 있다. 또한, 두 개 이상의 적응형 적응(Indication)이나 지역을 동시에 최적화하려면 한쪽은 백필, 다른 한쪽은 무작위화를 병행하는 전략이 권장된다.
결론적으로, 중간 용량이 최적일 가능성이 60 % 이하일 때는 3‑arm 설계가 통계적 검출력과 최적 용량 선택 정확도 면에서 현저히 우수하며, 이는 선형 용량‑반응 가정 하에 수학적 근사와 시뮬레이션 결과가 일관되게 뒷받침한다. 따라서 초기 단계에서 강력한 사전 근거가 없을 경우, 가능한 한 세 용량을 포함하는 최적화 디자인을 채택하는 것이 실무적으로도 바람직하다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기