라운드 버튼이 클릭률에 미치는 효과는? 고전력 검증이 보여준 실험 재현성
초록
원 논문이 보고한 55% 클릭률 상승은 표본이 과소이며 통계적 검정력이 부족해 과대 추정된 결과다. 저자들은 200만~300만 명 규모의 고전력 A/B 테스트 3건과 Evidoo의 독립 복제 2건을 수행해 효과 크기를 0.1% 수준으로 추정했으며, 95% 신뢰구간은 영을 포함한다. 이 결과는 충분한 전력 분석과 실험 설계가 재현 가능하고 신뢰할 수 있는 결과를 얻는 데 필수임을 강조한다.
상세 분석
본 논문은 Biswas·Abell·Chacko(2023)의 “버튼 모서리를 둥글게 하면 클릭률이 55% 상승한다”는 주장에 대해 체계적인 비판과 재현 실험을 제시한다. 첫 번째 비판은 원 연구가 표본 크기 919명(방문자) 수준으로 전력(power)이 50% 이하였으며, 이는 ‘위너스 커스(winner’s curse)’ 현상을 야기해 통계적으로 유의미한 결과가 실제 효과보다 크게 과대평가될 가능성을 내포한다는 점이다. 또한 Study 1은 Google Ads의 비무작위 타게팅으로 인해 내적 타당성이 결여되고, 샘플 비율 불일치(SRM)가 44:56이라는 극단적인 편향을 보여 실험 설계 자체가 부적절했다.
저자들은 이러한 문제점을 보완하기 위해 세 차례의 고전력 A/B 테스트를 설계했다. 각 실험은 원 연구보다 2,000배 이상 많은 사용자(2.8 M, 2.2 M, 1.9 M)를 대상으로 하였으며, 사전 전력 분석을 통해 최소 검출 효과(MDE)를 0.5%~2% 수준으로 설정하고, 실험 기간과 샘플 크기를 사전에 고정했다. 결과는 효과 크기가 각각 0.16%, 0.29%, 0.73%에 불과했고, p‑값은 0.20, 0.60, 0.09로 통계적 유의성을 보이지 않았다. Evidoo가 수행한 두 건의 독립 복제 역시 1% 이하의 미미한 효과만을 보고했다.
논문은 또한 산업 현장에서 관찰되는 평균 효과가 0.1%~0.3% 수준임을 다양한 레포지터리(GoodUI, Evidoo)와 대기업 실험(Microsoft, Airbnb) 데이터를 인용해 제시한다. 따라서 55%라는 극단적 상승은 경험적 사전분포와 전혀 맞지 않으며, 실무에서 투자 대비 기대효과가 거의 없을 것으로 판단된다.
전력 계산식 n = 16σ²/Δ²(α,β)를 이용해 원 연구의 표본이 474·445 ≈ 900명 수준에서 10% 이상의 MDE조차 검출하기에 부족함을 수치적으로 증명한다. 또한 방문 단위가 독립이 아니므로 Delta 방법 등 적절한 분석 기법이 필요함을 지적한다.
결론적으로, 충분한 표본 규모와 사전 전력 분석, 무작위 배정, SRM 검증이 없는 실험은 신뢰할 수 없는 결과를 초래한다는 교훈을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기