건강한 생활습관 변수만으로는 호르몬 치료 효과를 정확히 재현할 수 없다: WHI 임상시험과 관찰연구 사이의 격차 분석
📝 Abstract
The Women’s Health Initiative randomized clinical trial of hormone therapy found no benefit of hormones in preventive cardiovascular disease, a finding in striking contrast with a large body of observational research. Understanding whether better methodology and/or statistical adjustment might have prevented the erroneous conclusions of observational research is important. This is a re-analysis of data from a case-control study examining the relationship of postmenopausal hormone therapy and the risks of myocardial infarction (MI) and ischemic stroke in which we reported no overall increase or decrease in the risk of either event. Variables measuring health behavior/lifestyle that are not likely to be causally with the risks of MI and stroke (e.g., sunscreen use) were included in multivariate analysis along with traditional confounders (age, hypertension, diabetes, smoking, body mass index, ethnicity, education, prior coronary heart disease for MI and prior stroke/TIA for stroke) to determine whether adjustment for the health behavior/lifestyle variables could reproduce or bring the results closer to the findings in a large and definitive randomized clinical trial of hormone therapy, the Women’s Health Initiative. For both MI and stroke, measures of health behavior/lifestyle were associated with odds ratios (ORs) less than 1.0. Adjustment for traditional cardiovascular disease confounders did not alter the magnitude of the ORs for MI or stroke. Addition of a subset of these variables selected using stepwise regression to the final MI or stroke models along with the traditional cardiovascular disease confounders moved the ORs for estrogen and estrogen/progestin use closer to values observed in the Women Health Initiative clinical trial, but did not reliably reproduce the clinical trial results for these two endpoints.
💡 Analysis
**
1. 연구 배경 및 목적
- WHI와 관찰연구 간 모순: WHI는 호르몬 치료가 심혈관 질환에 미치는 효과가 없거나 오히려 위험을 증가시킨다고 보고했지만, 이전 관찰연구들은 위험 감소를 주장했다.
- 핵심 질문: 관찰연구에서 ‘건강한 생활습관’ 변수를 통계적으로 조정하면 WHI와 일치하는 결과를 얻을 수 있는가?
2. 데이터와 연구 설계
| 요소 | 설명 |
|---|---|
| 연구 디자인 | 기존 케이스‑컨트롤 연구 재분석 (MI = 438쌍, 허혈성 뇌졸중 = 349쌍) |
| 대상 | 45‑74세 여성, 캘리포니아 북부 Kaiser Permanente 의료기관 10곳 |
| 노출 | 현재 에스트로겐(E) 혹은 에스트로겐/프로게스틴(E/P) 사용 여부 |
| 결과 | MI와 허혈성 뇌졸중 발생 여부 |
| 조정 변수 | 전통적 위험인자(연령, 고혈압, 당뇨, 흡연, BMI, 인종·교육·기존 심혈관 질환) + 생활습관 변수(자외선 차단제 사용, 알코올 감소 시도 등) |
| 통계 방법 | 조건부 로지스틱 회귀 → 단계별(0.2) 변수 선택 후 최종 모델 구축 |
3. 주요 결과 요약
| 모델 | MI OR (E/P) | MI OR (E) | 뇌졸중 OR (E/P) | 뇌졸중 OR (E) |
|---|---|---|---|---|
| 전통 위험인자만 조정 | 0.6 (0.4‑1.01) | 0.7 (0.4‑1.2) | 0.7 (0.4‑1.2) | 0.8 (0.5‑1.3) |
| 전통 위험인자 + 생활습관(전체) | 0.5‑0.8 범위 (대부분 <1) | 0.5‑0.9 범위 | 0.5‑0.9 범위 | 0.6‑1.0 범위 |
| 전통 위험인자 + 선택된 생활습관(단계별) | WHI와 근접(≈0.9) | WHI와 근접(≈1.0) | WHI와 근접(≈1.1) | WHI와 근접(≈1.0) |
- 생활습관 변수의 효과: 대부분 OR < 1.0이며, 특히 “자외선 차단제 사용”(OR ≈ 0.3‑0.4)와 “알코올 섭취 감소 시도”(OR ≈ 0.4)에서 강한 보호 효과가 관찰되었다.
- 전통 위험인자 조정: 전통 위험인자를 추가해도 OR 변화는 미미했으며, 이는 생활습관 변수가 기존 위험인자와 독립적으로 작용한다는 점을 시사한다.
- WHI와의 일치 정도: 생활습관 변수를 포함하면 호르몬 사용에 대한 OR가 WHI 결과(대체로 1.0에 가까움)와 더 가까워지지만, 두 사건 모두에서 일관된 재현은 실패했다.
4. 통계적·방법론적 고찰
비인과적 생활습관 변수 선택
- 연구진은 “건강에 도움이 될 것이라 생각하지만 실제 심혈관 위험과는 무관한” 변수를 의도적으로 포함했다(예: 자외선 차단제). 이는 ‘헬스케어 사용’ 자체가 건강에 대한 전반적 인식·행동을 대변한다는 가정에 기반한다.
다중공선성 및 과적합 위험
- 생활습관 변수 다수가 서로 상관관계가 높을 가능성이 있음(예: 자외선 차단제 사용 ↔︎ 규칙적인 운동). 단계별 회귀(입·퇴 기준 p ≤ 0.2)로 변수 선택을 제한했지만, 여전히 과적합 위험이 존재한다.
표본 크기와 사건 수
- MI와 뇌졸중 사건 수가 각각 438, 349쌍으로 제한적이다. 다변량 모델에 10‑12개의 조정 변수를 포함하면 통계적 파워가 감소하고, 신뢰구간이 넓어지는 현상이 관찰된다.
측정 오류와 자기보고 편향
- 생활습관 변수와 호르몬 사용 모두 자기보고에 의존한다. 특히 “자외선 차단제 사용”은 사회적 바람직성 편향에 민감할 수 있다.
케이스‑컨트롤 매칭
- 연령·진료기관 매칭은 적절했으나, 자궁절제 여부에 따라 호르몬 종류가 달라지는 점이 분석 복잡성을 증가시켰다.
5. 연구 결과의 의미
관찰연구의 한계 재조명
- 생활습관 변수를 추가해도 관찰연구가 무작위 임상시험과 동일한 결론에 도달하기는 어렵다. 이는 관찰연구에서 존재하는 잠재적 교란(unknown confounding) 혹은 선택 편향이 단순 변수 조정만으로는 보정되지 않음을 보여준다.
‘헬스케어 사용자’ 효과
- “건강에 관심이 많은 사람”이 호르몬 치료를 선택하거나 회피하는 경향이 있을 수 있다. 이런 ‘헬스케어 사용자’ 효과는 전통 위험인자와는 별개의 복합적인 사회·행동 요인으로 작용한다.
정책·임상적 시사점
- 관찰연구 결과만을 근거로 호르몬 치료를 권고하거나 금지하는 것은 위험하다. 무작위 대조시험(RCT) 결과가 최우선 근거가 되어야 함을 재확인한다.
6. 제한점 및 향후 연구 방향
| 제한점 | 설명 |
|---|---|
| 선택된 생활습관 변수의 비인과성 가정 | 실제로는 일부 변수가 미세한 인과 경로를 가질 가능성 존재 |
| 표본 크기 | 다변량 모델에 비해 사건 수가 부족, 결과의 일반화에 제한 |
| 단일 지역·인구 | 캘리포니아 북부 Kaiser Permanente 회원에 국한, 인종·사회경제적 다양성 부족 |
| 시간적 변화 미반영 | 1991‑1994 데이터이므로 현재 호르몬 제제·복용 패턴과 차이 가능 |
향후 연구
- 다중코호트 메타분석: 다양한 인구·지역에서 동일한 생활습관 변수와 호르몬 사용을 동시에 측정한 데이터를 통합.
- 잠재적 교란 변수 탐색: 유전적 요인, 환경오염, 정신건강 등 새로운 교란 요인을 포함한 구조방정식 모델링.
- 프롤로그/프리포스트 설계: 호르몬 치료 시작 전후의 생활습관 변화를 추적해 인과관계 방향성을 명확히 함.
7. 결론
본 재분석은 “건강한 생활습관” 변수를 통계적으로 조정하더라도 관찰연구가 무작위 임상시험인 WHI와 동일한 결론에 도달하기는 어렵다는 점을 명확히 보여준다. 이는 관찰연구에서 존재하는 보이지 않는 교란과 선택 편향이 단순 변수 조정만으로는 충분히 통제되지 않음을 의미한다. 따라서 폐경기 호르몬 치료와 심혈관 위험에 관한 정책·임상 판단은 여전히 고품질 RCT 결과에 기반해야 함을 강조한다.
📄 Content
arXiv:0805.2845v1 [stat.AP] 19 May 2008
IMS Collections
Probability and Statistics: Essays in Honor of David A. Freedman
Vol. 2 (2008) 142–152
© Institute of Mathematical Statistics, 2008
DOI: 10.1214/193940307000000437
건강한 생활 습관을 측정한 통계적 보정은
호르몬 치료에 대한 진실을 제공하지 못한다
Diana B. Petitti∗1 와 Wansu Chen∗2
University of Southern California 및 Kaiser Permanente Southern California
초록
Women’s Health Initiative (WHI) 무작위 임상시험은 호르몬 치료가 심혈관 질환을 예방한다는 효과가 없음을 보여 주었으며, 이는 대규모 관찰 연구 결과와는 현저히 대조된다. 관찰 연구에서 잘못된 결론이 도출된 원인이 더 나은 연구 설계·통계적 보정에 있었는지 여부를 밝히는 것은 매우 중요하다. 본 논문은 폐경 후 호르몬 치료와 심근경색(MI) 및 허혈성 뇌졸중 위험 사이의 관계를 조사한 사례‑대조 연구 데이터를 재분석한 것으로, 이전 분석에서는 두 사건에 대해 전반적인 위험 증가·감소가 없다고 보고하였다. 심근경색·뇌졸중 위험과 인과관계가 있을 가능성이 낮은 건강 행동·생활 습관 변수(예: 자외선 차단제 사용)를 전통적인 교란 변수(연령, 고혈압, 당뇨, 흡연, 체질량지수, 인종·민족, 교육 수준, 기존 관상동맥질환(심근경색 경우)·기존 뇌졸중/TIA(뇌졸중 경우))와 함께 다변량 분석에 포함시켜, 이러한 생활 습관 변수를 보정했을 때 WHI의 무작위 임상시험 결과와 얼마나 근접하게 재현될 수 있는지를 평가하였다.
심근경색과 뇌졸중 모두에 대해, 건강 행동·생활 습관을 측정한 변수들은 1.0보다 작은 승산비(OR)를 보였다. 전통적인 심혈관 질환 교란 변수만으로 보정해도 MI·뇌졸중에 대한 OR 크기는 크게 변하지 않았다. 단계별 회귀(stepwise regression)로 선정된 일부 생활 습관 변수를 전통적인 교란 변수와 함께 최종 모델에 추가하면, 에스트로겐(E) 및 에스트로겐/프로게스틴(E/P) 사용에 대한 OR가 WHI 임상시험에서 관찰된 값에 더 가까워지긴 했지만, 두 종말점(심근경색·뇌졸중)에 대해 임상시험 결과를 일관되게 재현하지는 못했다.
1. 배경
Women’s Health Initiative (WHI) 호르몬 치료 임상시험은 폐경 후 호르몬 치료가 관상동맥질환을 예방하는지를 주요 목표로 한 대규모 무작위 시험이다( Rossouw et al. [10], Anderson et al. [1]). 1990년대 초에 시작되어 2002‑2004년에 주요 결과가 발표되었으며, 18,000명 이상의 폐경기 여성을 호르몬군과 위약군으로 무작위 배정하였다. WHI는 에스트로겐·프로게스틴 복합제(E/P) 투여군에서 심근경색 위험이 약간 증가했으며, 에스트로겐 단독(E) 투여군에서는 효과가 없다고 보고하였다(Rossouw et al. [10]; Anderson et al. [1]). 반면, 이전 관찰 연구들은 관상동맥질환 위험이 절반으로 감소한다는 결과를 제시하였다(Stampfer & Colditz [12]). 또한 WHI에서는 에스트로겐·프로게스틴 및 에스트로겐 단독 모두에서 뇌졸중 위험이 증가했지만, 기존 관찰 연구에서는 호르몬 치료가 뇌졸중에 미치는 영향이 없다고 보고하였다(Psaty et al. [9]).
Prentice 등은 관찰 연구와 임상시험 사이의 불일치를 해소할 수 있는 통계적 접근법을 제안했으며(Prentice et al. [7, 8]), 이러한 접근법에 대한 평가는 엇갈렸다(Petitti & Freedman [5]; Freedman & Petitti [3]; DeMets [2]; Greenland [4]). 관찰 연구에서 잘못된 결론이 도출된 원인이 보다 나은 방법론·통계 보정에 있었는지 여부를 밝히는 일은 매우 중요하다.
우리는 이전에 사례‑대조 연구에서 현재 에스트로겐(E) 및 에스트로겐·프로게스틴(E/P) 복용자들의 심근경색·뇌졸중 위험을 전통적인 심혈관 교란 변수(연령, 인종·민족, 교육 수준, 흡연, 당뇨, 고혈압, 체질량지수)를 포함한 로지스틱 회귀로 추정하였다(Petitti et al. [6]; Sidney et al. [11]). 그 결과, 호르몬 복용자와 비복용자 사이에 위험 차이가 명확히 나타나지는 않았지만, 현재 복용자들의 상대 위험이 1.0보다 낮게 추정되었다(WHI와는 일치하지 않음).
본 논문은 동일한 사례‑대조 데이터를 재분석하여, 인과관계가 거의 없을 것으로 예상되는 건강 행동·생활 습관 변수를 추가함으로써 “건강한 생활 습관”이라는 지표가 WHI의 결과와 얼마나 근접하게 만들 수 있는지를 검증한다.
2. 방법
2.1 개요
호르몬 치료와 심근경색·뇌졸중 위험 사이의 연관성을 전통적인 교란 변수만으로 보정한 결과는 Petitti et al. [6]와 Sidney et al. [11]에 상세히 기술되어 있다. 간단히 말하면, 1991년 11월부터 1994년 11월까지 북캘리포니아 지역 Kaiser Permanente 의료기관 10곳에서 45‑74세 여성의 사망·비사망 뇌졸중·심근경색 사례를 모두 포착하려고 시도하였다. 표준화된 프로토콜에 따라 뇌졸중을 정의하고 유형별로 구분했으며, 재분석에서는 허혈성 뇌졸중만을 포함하였다. 각 사례마다 출생 연도와 진료 기관이 일치하는 대조자를 1명씩 매칭하였다. 최종적으로 550건의 허혈성 뇌졸중 사례와 685건의 MI 사례 중 각각 349·438쌍을 분석에 포함하였다(제외 기준은 아래 ‘분석’ 섹션에 기술).
2.2 자료 수집
사례·대조 모두 훈련된 면접관이 표준화된 설문지를 사용해 직접 면담하였다. 질문은 ‘지표일(index date)’을 기준으로 하였으며, 사례의 경우 증상 발현일, 대조의 경우 매칭된 날짜가 지표일이 되었다. 사망하거나 구두 응답이 불가능한 경우 대리인을 인터뷰했지만, 대리인 응답은 본 분석에서 제외하였다.
- 고혈압: 고혈압 약물 복용 여부에 “예”라고 답한 경우.
- 당뇨: 인슐린·경구혈당강하제 복용 여부에 “예”라고 답한 경우.
- 고콜레스테롤: 의사가 고콜레스테롤이라고 진단한 경우(원래 분석에서는 교란 변수로 사용되지 않음).
- 흡연: “담배를 피운 적이 있습니까?”에 “아니오”라고 답하면 비흡연자로, “예”라고 답하면 현재 정기 흡연자로 분류하였다(정기 흡연은 주 5개비 이상, 거의 매주 흡연).
- 체질량지수(BMI): 자기보고 키·몸무게를 이용해 계산.
건강 행동·생활 습관에 관한 질문은 “건강을 개선하기 위해 다음을 하시나요?”라는 서두 뒤에 각각 ‘예/아니오’로 답하도록 구성하였다. 여기에는 인과관계가 거의 없을 것으로 예상되는 항목(예: 자외선 차단제 사용)도 포함되었다.
2.3 분석
호르몬 사용 정의
- 자궁절제술을 받은 여성: 지표일 전 1개월 이내에 에스트로겐(E) 복용 시 ‘현재 사용’으로 정의.
- 자궁절제술을 받지 않은 여성: 지표일 전 1개월 이내에 에스트로겐·프로게스틴(E/P) 복용 시 ‘현재 사용’으로 정의.
- 그 외는 ‘미사용’으로 간주.
제외 기준
- 폐경 전 여성, 자궁절제술을 받은 후 E/P 복용자, 자궁절제술을 받지 않은 후 E 복용자, 프로게스틴 단독 복용자 등은 모두 분석에서 제외하였다.
통계 방법
- 심근경색·뇌졸중 위험을 추정하기 위해 승산비(OR)를 사용하였다.
- 다변량 분석은 조건부 로지스틱 회귀(conditonal logistic regression)를 이용했으며, 95% 신뢰구간(CI)을 계산하였다.
- 먼저 전통적인 심혈관 위험 요인(연령, 고혈압, 당뇨, 흡연, BMI 사분위, 인종·민족, 교육 수준, 기존 관상동맥질환·뇌졸중/TIA)만을 포함한 연령 조정 OR을 구하였다.
- 이어서 각 생활 습관 변수에 대해 (1) 연령만 조정, (2) 연령 + 전통 교란 변수 조정한 OR을 산출하였다.
- 마지막으로 단계별 로지스틱 회귀(stepwise logistic regression)를 적용해, 진입·유지 기준 p ≤ 0.2인 생활 습관 변수만을 선택하고, 전통 교란 변수는 강제로 모델에 유지하였다. 이렇게 선정된 변수들만을 포함한 최종 모델을 구축하였다(자궁절제술 여부별로 별도 분석).
3. 결과
3.1 표본 재구성
두 논문에서 제시된 제외 기준을 그대로 적용했으나, 뇌졸중 사례‑대조 6쌍과 MI 사례‑대조 4쌍을 확보하지 못했다. 표 1·2는 자궁절제술 여부에 따른 사례·대조의 특성 및 전통 교란 변수와 현재 호르몬 사용(E/P 또는 E)과의 연령 조정 OR을 보여준다. 전통적인 심혈관 위험 요인들은 기대되는 대로 MI·뇌졸중 위험과 양의 연관을 보였다.
3.2 생활 습관 변수와 OR
표 3·4는 생활 습관 질문별로 연령 조정 OR과 전통 교란 변수까지 조정한 OR을 제시한다. 대부분의 질문에 대해 “예”라고 답한 여성은 MI·뇌졸중 모두에서 OR < 1.0을 보였으며, 전통 교란 변수를 추가로 조정해도 OR 크기는 크게 변하지 않았다(다만 95% CI가 1.0을 포함하는 경우가 많았다).
특히, 자외선 차단제/선스크린을 정기적으로 사용한 비절제술 여성의 MI에 대한 완전 조정 OR은 0.3(95% CI 0.2–0.5)였으며, 음주량 감소를 시도한 경우 OR은 0.4(95% CI 0.2–0.7)였다. 자궁절제술 여성에서는 선스크린 사용이 뇌졸중에 대해 OR 0.4(95% CI 0.2–0.9)를 보였다.
3.3 호르몬 사용과 최종 모델
표 5는 전통 교란 변수만 포함했을 때와,
이 글은 AI가 자동 번역 및 요약한 내용입니다.