“재현성 위기? – OSC 연구의 통계적 편향과 효과 유병률(π)의 재고”
📝 Abstract
In 2015 the Open Science Collaboration (OSC) (Nosek et al 2015) published a highly influential paper which claimed that a large fraction of published results in the psychological sciences were not reproducible. In this article we review this claim from several points of view. We first offer an extended analysis of the methods used in that study. We show that the OSC methodology induces a bias that is able by itself to explain the discrepancy between the OSC estimates of reproducibility and other more optimistic estimates made by similar studies. The article also offers a more general literature review and discussion of reproducibility in experimental science. We argue, for both scientific and ethical reasons, that a considered balance of false positive and false negative rates is preferable to a single-minded concentration on false positive rates alone.
💡 Analysis
**
1. 연구 배경 및 문제 제기
- 재현성 위기라는 용어가 학계 전반에 퍼진 배경을 잘 정리하고, Baker(2016)의 설문조사 등 외부 증거를 인용해 독자에게 위기의 심각성을 설득한다.
- 그러나 **“모든 연구가 동일한 재현성 기준을 적용받아야 한다”**는 전제에 대한 비판적 고찰이 부족하다. 분야별, 실험 설계별 차이를 더 강조했어도 좋았을 것이다.
2. 통계 모델링 – π, α, β의 역할
- 재현성 모델을 통해 양성예측값(PPV) 과 관측 PPV(PPV_obs) 를 명시적으로 정의하고, 베이즈 정리를 이용해 식 (1)–(3)을 도출한다. 이는 Ioannidis(2005)와의 직접적인 연결고리를 제공하며, 기존 문헌과의 연계성을 높인다.
- π=1 가정이 실제 OSC‑RP 분석에 내재돼 있다는 지적은 핵심 통찰이다. 이는 “모든 원 논문이 진짜 효과를 가지고 있다”는 전제 하에 복제 성공률을 과소평가하게 만든다.
- 저자는 π=0.5 를 정보이론적 최적값으로 제시한다. 이는 임상 장비 균형(equipoise) 개념과 윤리적 논쟁을 연결해, 통계적·윤리적 두 축에서 설득력을 얻는다. 다만, π=0.5가 모든 분야에 보편 적용 가능한지는 추가 실증 검증이 필요하다.
3. 기존 복제 프로젝트와의 비교
| 프로젝트 | 재현성 비율 | 주요 특징 | 모델 적용 결과 |
|---|---|---|---|
| OSC‑RP (심리학) | 36% | 100편 무작위 선택, α=0.05, β≈0.1 | π≈1 가정 → 과대 추정 |
| Many Labs (심리학) | 85% | 엄격한 프로토콜, 다중 실험실 협업 | π≈0.25‑0.5 로 설명 가능 |
| ECO‑RP (경제학) | 61% | 동일 복제 절차, 표본 크기 확대 | π≈0.3‑0.4 로 모델링 가능 |
- 표를 통해 π 값에 따라 재현성 기대치가 크게 변함을 시각적으로 보여준다. 이는 독자에게 “재현성은 고정된 지표가 아니라, 가설의 실제 존재 확률에 따라 달라진다”는 메시지를 효과적으로 전달한다.
4. 방법론적 편향과 샘플 사이즈 문제
- 복제 연구의 샘플 사이즈 추정이 “예비 데이터 기반”이라는 점을 지적하고, 파라미터 추정 오차가 파워 분석에 미치는 영향을 언급한다. 이는 복제 설계 단계에서 흔히 간과되는 실무적 위험을 강조한다.
- 다만, 구체적인 수식 예시나 시뮬레이션 결과가 부족해, 실제 연구자가 어떻게 보정할 수 있는지에 대한 실용적 가이드가 약하다.
5. 윤리·정책적 함의
- 거짓 양성 vs. 거짓 음성 균형을 강조함으로써, 현재 “Ⅰ형 오류 최소화”에 치우친 출판 문화에 대한 비판을 제시한다.
- **임상 연구에서의 ‘clinical equipoise’**를 통계적 π와 연결시켜, 윤리적 판단이 통계 설계와 어떻게 상호작용하는지 설명한다. 이는 정책 입안자와 IRB(윤리심사위원회)에게 유용한 시사점을 제공한다.
6. 강점 및 한계
| 강점 | 한계 |
|---|---|
| • 명확한 수학적 모델 제시와 기존 문헌(Ioannidis, Klein 등)과의 연계 | • π 값에 대한 실증적 추정이 제한적(주로 문헌 기반) |
| • 다양한 복제 프로젝트와 비교 분석을 통해 일반화 가능성 탐색 | • 실제 데이터(예: OSC‑RP 원 데이터) 재분석이 없으며, 시뮬레이션 결과 부재 |
| • 윤리·정책 논의를 통계 모델에 통합, 다학제적 시각 제공 | • 복제 설계 시 샘플 사이즈 보정 방법에 대한 구체적 지침 부족 |
7. 향후 연구 제언
- π 추정을 위한 메타분석: 다양한 분야(심리학, 경제학, 의학)에서 실제 효과 유병률을 추정하는 메타분석을 수행해 모델 파라미터를 실증화한다.
- 시뮬레이션 기반 파워·재현성 프레임워크: π, α, β 변동성을 반영한 시뮬레이션 툴을 개발해 복제 연구 설계 시 사전 검증을 가능하게 한다.
- 정책 실험: 저널이 “거짓 양성·거짓 음성 균형”을 명시적으로 요구하도록 가이드라인을 제정하고, 그 효과를 추적한다.
**
📄 Content
연구의 가치는 결과의 재현 가능성에 달려 있습니다. “중요한 실험을 반복하거나, 원래 관찰을 복제하여 수행하는 선행 습관은, 우리가 연구하는 대상이 개별 결과가 아니라, 우리 실험을 대표하도록 최선을 다하는 가능성의 집단이라는 사실을 암묵적으로 인식하는 것”이라고 로널드 피셔는 제안합니다(피셔, 1925).
만약 어떤 연구가 비슷한 환경에서 다른 시점에 재현되지 못한다면, 그 연구는 실제 현상을 암시하는 관찰을 제공한다는 원래 목표를 실패한 것입니다. 따라서 모든 연구의 재현 가능성을 보장하는 것이 모든 과학 분야의 최우선 과제가 됩니다. 그러나 현재 과학 연구의 분위기를 조사한 여러 연구들은 발표된 결과 중 상당수가 재현되지 못하고 있음을 보여주며, 이는 해당 결과가 초기 실험 조건 밖에서는 아무 의미도 없다는 것을 시사합니다. 이 문제는 문헌에서 재현성(또는 복제) 위기라고 불리며, 중요한 우려로 떠오르고 있습니다. 실제로 베이커(2016)의 조사에 따르면 “응답자 중 52%가 재현성 위기가 ‘중대하다’고 동의했다”고 보고되었습니다. 그 결과, 재현성 실패는 대부분의 과학 분야에서 주요 문제로 인식되고 있으며, 많은 개인과 조직이 이 주장들을 조사하고 있습니다.
이를 검증하기 위해, 오픈 사이언스 콜라보레이션(OSC)이 100개의 저명한 심리학 저널 논문을 선정해 원래 조건에 가깝게 복제하는 프로젝트(OSC‑RP)를 수행했습니다(노섹 외, 2015). OSC‑RP는 원래 실험의 97%가 통계적으로 유의미한 결과(P ≤ 0.05)를 보였으나, 그 중 단 36%만이 유사한 조건에서 유의미함을 확인했습니다. 또한 원래 실험의 효과 크기 중 47%가 복제 실험의 95% 신뢰구간 안에 있었고, 39%의 효과가 주관적으로 성공적인 복제로 간주되었습니다.
OSC‑RP는 실험적·통계적 방법론에 특별한 체계적 결함을 발견하지 못했지만, 과학 공동체의 인센티브 구조에 문제가 있을 수 있다고 추정합니다. 그럼에도 불구하고 OSC‑RP는 주요 과학 저널에서 나오는 실험 데이터가 재현 불가능하고 신뢰할 수 없을 위험이 명백히 존재한다는 결론을 내며, 이는 실험 및 출판 관행에 일정 수준의 개혁이 필요함을 시사합니다.
반면, 모든 재현성 연구가 비관적인 결론을 내리는 것은 아닙니다. 에츠와 반데케르코베(2016)는 OSC‑RP 보고서의 재현성 실패가 “효과 크기의 과대평가” 때문이라고 제시합니다. 클라인 외(2014)는 많은 실험실 복제 프로젝트(ML‑RP)에서 85%라는 높은 재현성 비율을 보고했으며, 이는 엄격한 실험·통계 관행을 준수했을 때 기대할 수 있는 수준이라고 주장합니다(https://osf.io/wx7ck/k/) . 유사하게 카머 외(2016)는 경제학 분야 18개의 실험을 복제했을 때 OSC‑RP보다 높은 61%의 재현성을 얻었습니다(ECO‑RP). 또한 노섹 외(2015) 발표 이후 길버트 외(2016)와 앤더슨 외(2016) 사이의 논쟁도 참고할 만합니다.
따라서 OSC‑RP가 제시한 통계 자료를 다른 관점에서 해석할 여지가 있습니다. 이를 위해 우리는 먼저 연구자들이 기대할 수 있는 재현성 수준을 명확히 정의하고 재고해야 합니다.
우리는 재현성 모델을 구축하여 재현성 비율을 정확히 정의하고 그 추정 방법을 제시합니다. 모델 가정은 표준 관행을 벗어나지 않으며, 특히 제1종 오류(거짓 양성)와 제2종 오류(거짓 음성)의 확률이 정확히 보고된다고 가정합니다. 이 모델이 OSC‑RP가 보고한 재현성 비율을 예측한다면, 현재의 연구·출판 관행을 비난할 근거가 없다는 뜻이 됩니다.
우선 가설 검정의 전체 집합을 U라 하고, 여기에는 영가설 (H_0)와 대안가설 (H_a)가 존재합니다. 대안가설은 과학적 관심 효과를 나타내며, 따라서 저널에 게재됩니다.
전체 집합 U 중 비율 (\pi)를 **효과 유병률(effect prevalence)**이라 부르며, 이는 실제로 (H_a)가 참인 경우의 비율입니다. 제1종 오류를 (\alpha), 제2종 오류를 (\beta)라 하겠습니다. 모든 가능한 연구 결과는 그림 1에 제시된 의사결정 나무로 나타낼 수 있습니다.
(A)를 “(H_a)가 참이다”라는 사건, (E)를 “연구가 (P\le\alpha)라는 양성 결과를 낳는다”는 사건이라 하면, 양성예측값(Positive Predictive Value, PPV)은
[ \text{PPV}=P(A\mid E) ]
이며 베이즈 정리를 이용하면 다음과 같이 표현됩니다.
[ \text{PPV}= \frac{\pi(1-\beta)}{\pi(1-\beta)+(1-\pi)\alpha} ]
여기서 (\alpha=P(E\mid A^c)), (\beta=P(E^c\mid A))임을 기억하십시오. 전형적인 (\alpha=0.05), (\beta=0.1)을 대입하면, 양성 결과가 진양성일 확률은 약 18배가 됩니다. PPV는 재현성을 평가하는 공정한 척도이며, 1보다 작으면 테스트 결과가 정확하지 않을 가능성을 의미합니다. 그러나 실제 PPV 값을 직접 계산하는 것은 실무적으로 어렵습니다. 따라서 우리는 **관찰된 양성예측값(PPV(_{\text{obs}}))**을 정의합니다. 복제 연구가 모든 연구에서 유의미한 효과만을 보고한다는 가정 하에, 복제 연구가 보고하는 제1종 오류 (\alpha^)와 제2종 오류 (\beta^)를 사용하면
[ \text{PPV}_{\text{obs}} = \frac{\pi(1-\beta^)}{\pi(1-\beta^)+(1-\pi)\alpha^*} ]
가 됩니다. 여기서 중요한 점은 PPV와 PPV(_{\text{obs}})의 차이가 복제 연구 프로토콜에만 의존한다는 것입니다. 따라서 (\alpha^), (\beta^)를 통제하면 PPV를 추정할 수 있습니다. 식 (2)와 (3)을 결합하면 이상적인 재현성 비율을 정의하고, 실제와의 편차를 정량화할 수 있습니다. 만약 (\alpha^), (\beta^)가 정확히 보고된다면, 이러한 편차는 명목값과 실제값 사이의 차이, 혹은 효과 유병률 (\pi)에 대한 과도한 낙관적 추정에 기인합니다.
특히 (\pi)의 값이 가장 중요한데, 이는 OSC‑RP 원문에서 다음과 같이 강조되었습니다:
“97개의 원래 유의미한 효과의 평균 복제 파워가 [M = 0.92, median = 0.95]인 경우, 모든 원래 효과가 진실하고 정확히 추정되었다면 복제에서 약 89개의 양성 결과를 기대했을 것이지만 실제로는 35개(36.1%; 95% CI = 26.6%–46.2%)에 불과했다(맥네머 검정, χ²(1)=59.1, p < 0.001).”(Nosek et al., 2015)
식 (2)·(3)으로 보면 저자들은 PPV = 1, 즉 (\pi=1)을 가정한 것으로 보입니다. 이는 현실적이지 않으며, 만약 (\pi=1)이라면 모든 경우에 (H_a)가 참이므로 실험 자체가 필요 없게 됩니다.
그렇다면 (\pi)는 어느 정도가 타당할까요? 이를 파악하려면 가설 검정 집합 U의 정의를 명확히 해야 합니다. 1차 분석은 과학적 의미가 큰 가설을 검증하며, 여기서는 제2종 오류 (\beta)를 일반적으로 0.1 수준으로 제어합니다. 2차 분석은 1차 분석을 보강하는 효과를 보고하는 경우가 많으며, 이때 (\beta)를 엄격히 제어하는 것이 실용적이지 않을 수 있습니다. 1차 분석에 포함된 가설은 통계적·기계적 사전 증거에 의해 뒷받침되는 경우가 많으므로, (\pi)는 2차 분석보다 크게 잡을 수 있습니다. 탐색적 연구, 특히 고처리량 데이터에서 치료 효과를 찾는 경우 (\pi)는 더욱 낮을 것으로 예상됩니다.
우리 모델을 이용해 다양한 시나리오에 대한 PPV·PPV(_{\text{obs}})를 예측할 수 있습니다. 표 1은 복제 프로토콜이 (\alpha^=\alpha=0.05), (\beta^=\beta=0.1)이라고 가정한 몇 가지 예시를 보여줍니다.
| 경우 | (\pi) | PPV | PPV(_{\text{obs}}) |
|---|---|---|---|
| 1 | 1.0 (과도하게 낙관) | 0.95 | 0.95 |
| 2 | 0.5 (최대 불확실성, ‘임상 균형’) | 0.50 | 0.50 |
| 3 | 0.25 (Many Labs 결과와 일치) | 0.28 | 0.28 |
| 4 | 0.10 (탐색·2차 분석) | 0.12 | 0.12 |
표 1이 보여 주듯, PPV와 PPV(_{\text{obs}})는 (\pi)에 따라 크게 달라지므로, 보고된 재현성 비율을 해석할 때는 (\pi)에 대한 합리적인 추정이 선행되어야 합니다.
임상시험에서 (\pi) 추정
임상시험의 경우, 성공률을 통해 (\pi)를 추정할 수 있습니다. 미국에서는 모든 약물 시험이 clinicaltrials.gov에 등록되고, 완료 후 1년 이내에 결과(양성·음성 모두)를 공개하도록 규정돼 있습니다(Hsieh, 2015). FDA는 각 단계별 성공률을 보고하고, 대략 70%가 1단계, 33%가 2단계, 25~30%가 3단계에서 통과한다고 합니다(https://www.fda.gov/ …).
SWOG(전 Southwest Oncology Group)에서 수행된 임상시험은 약 30%가 양성 결과를 보였으며(Unger et al., 2016; Tompa, 2016), Prinz 등(2011)은 약물 개발 성공률이 28%에서 18%로 감소했다고 보고했습니다. 따라서 일부 주요 1차 분석에서도 (\pi)가 50% 이하일 수 있음을 시사합니다.
Djulbegovic 등(2013)은 지난 50년간 무작위 대조시험(RCT)에서 (\pi)가 약 50% 수준을 유지해 왔다고 주장합니다. “새 치료가 기존 치료보다 우수할 확률이 50~60%에 달한다”는 결과는 Chalmers(1997)와 Djulbegovic(2007)의 이론적 예측과 일치합니다.
고처리량 데이터와 데이터 중심 방법론이 늘어나면서 임상 연구가
이 글은 AI가 자동 번역 및 요약한 내용입니다.