AI 분석가가 만든 다중우주: 데이터 과학 불확실성의 새로운 투명성 기준
초록
본 논문은 대규모 언어 모델(LLM) 기반 AI 분석가들을 활용해 동일 데이터와 가설에 대해 수천 차례의 독립적인 분석을 자동으로 수행한다. 세 가지 도메인 데이터셋과 네 종류의 LLM, 다섯 가지 분석가 페르소나를 교차 실험함으로써 효과 크기·p‑값·결론에 큰 분산이 발생함을 보이고, 이 분산이 전처리·모델 선택·추론 방식 등 구체적인 분석 선택에 의해 설명될 수 있음을 확인한다. 또한 페르소나나 LLM을 바꾸면 결과 분포가 체계적으로 변하는 ‘조정 가능성(steerability)’을 입증한다. 저자는 이러한 현상이 증거의 남용 위험을 높이는 동시에, 다중우주(multiverse) 방식으로 분석 불확실성을 가시화하고 투명성을 강화하는 새로운 규범을 제시한다.
상세 분석
이 연구는 기존 ‘many‑analyst’ 연구가 인간 팀 간 협업 비용과 시간 소모 때문에 제한적이었다는 점을 인식하고, LLM 기반 AI 분석가를 자동화된 대안으로 제시한다. 핵심 설계는 (1) 고정된 데이터‑가설‑추정량을 제공하고, (2) 각 AI 분석가가 전처리, 변수 선택, 모델 사양, 추정 방법, 통계 검정까지 전 과정을 스스로 결정하도록 하는 것이다. 이를 위해 ReAct 기반 에이전트를 사용해 파이썬 세션, 쉘, 파일 편집기 등 실제 데이터 과학 워크플로우와 동일한 도구에 접근하게 했다. 네 종류의 최신 LLM(Claude Sonnet 4.5·Haiku 4.5·Qwen3 480B·Qwen3 235B)과 다섯 가지 페르소나(중립, 부정, 긍정, 확인 탐색, 강력 확인 탐색)를 조합해 약 5,000개의 실행을 생성하였다.
각 실행 후에는 별도의 AI 감사자(Claude Sonnet 4.5)를 통해 코드·결과·대화 로그를 검증하고, 명백한 방법론 오류(예: 추정량 오기입, 변수 정의 오류, 부적절한 통계 검정)를 필터링했다. 감사 과정을 거친 후에도 효과 크기와 p‑값은 넓은 범위에 걸쳐 분산했으며, 특히 ‘지원/비지원’ 판단이 30 %~66 % 포인트 차이로 변동했다. 이러한 분산은 전처리 방식(예: 결측치 대체 방법), 회귀 모델 선택(OLS, 로지스틱, 베이지안), 표준오차 계산(클러스터링, 부트스트랩) 등 구체적인 분석 선택과 강하게 연관돼 있었다.
특히 ‘조정 가능성’ 실험에서 페르소나를 바꾸면 동일 LLM에서도 결과 분포가 크게 이동한다는 점을 확인했다. 부정적 페르소나는 보수적인 모델링과 엄격한 변수 선택을 유도해 효과 크기를 축소시키는 반면, 강력 확인 탐색 페르소나는 p‑해킹 스타일의 변수 탐색과 다중 비교 보정을 생략해 유의미한 결과를 과대하게 도출한다. LLM 자체 교체 역시 결과에 영향을 미치는데, 더 큰 파라미터를 가진 Qwen3 480B는 복잡한 모델을 시도하는 경향이 있어 분산이 확대되었다.
이러한 결과는 두 가지 중요한 함의를 가진다. 첫째, AI 분석가가 저비용으로 방대한 ‘분석 다중우주’를 생성함에 따라, 선택적 보고와 결과 조작 위험이 증대된다. 둘째, 동일 데이터와 가설에 대해 다수의 합리적 분석을 자동으로 생성하고 그 분포를 공개함으로써, 분석 불확실성을 정량화하고 투명성을 확보할 수 있다. 저자는 이를 위해 (i) AI‑생성 분석에 대한 ‘다중우주 스타일’ 보고, (ii) 사용된 프롬프트와 LLM 버전의 완전 공개, (iii) 자동 감사 로그와 코드·데이터와 동등한 수준의 메타데이터 제공을 새로운 투명성 규범으로 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기