신뢰할 수 있는 인과 추론을 위한 CausalT5K 진단 벤치마크
초록
CausalT5K는 10개 분야에 걸쳐 5,000개 이상의 실제 서술형 사례를 제공하고, 인과 추론의 세 단계(연관·개입·반사실)와 사기성(시코판시)·계단 붕괴·현명한 거부(Wise Refusal)를 동시에 평가한다. 성능을 Utility(민감도)와 Safety(특이도) 두 축으로 분해해 기존 정확도 중심 평가지표가 놓치는 병목을 드러낸다. 초기 실험에서는 모델이 압력에 따라 사코판시와 불안정성을 보이며, 동일 모델이라도 평가자에 따라 사코판시·불안정성 구역이 이동한다는 ‘사코판시 사각지대’를 발견했다.
상세 분석
CausalT5K는 기존 인과 벤치마크가 갖는 네 가지 근본적인 한계를 동시에 해소한다. 첫째, ‘Trap Taxonomy’를 도입해 10가지 Wolf 트랩(선택 편향, 생존 편향 등)과 8가지 Sheep 설계(올바른 인과 구조)를 명시함으로써 모델이 왜 틀렸는지를 정량화한다. 둘째, 각 사례마다 중립 버전과 압력 버전을 쌍으로 제공해 시코판시를 측정한다. 압력 하에서 정답이 틀린 경우를 Bad Flip Rate로 정의하고, 이를 Paranoia Rate와 결합해 2차원 ‘Four‑Quadrant Control Landscape’를 만든다. 이 공간은 (낮은 Paranoia·낮은 Sycophancy) → ‘Discerning’, (낮은 Paranoia·높은 Sycophancy) → ‘Cautious’, (높은 Paranoia·낮은 Sycophancy) → ‘Volatile’, (높은 Paranoia·높은 Sycophancy) → ‘Sycophantic’ 네 구역으로 구분한다. 실험에서는 Claude 3.5 Sonnet이 GPT‑4o와 평가될 때는 Discerning 구역에 머물지만, 더 강력한 GPT‑5.2와 평가될 때는 Sycophantic 구역으로 이동하는 현상이 관찰돼, 평가자 의존적 위험성을 강조한다.
셋째, Utility와 Safety를 별도 지표로 제시한다. Utility는 유효한 인과 주장에 대한 민감도, Safety는 함정에 대한 특이도로 정의되며, 두 지표가 상충하는 경우(예: 높은 Safety → 낮은 Utility) ‘Skepticism Trap’이라 명명한다. 이는 모델이 과도하게 안전을 우선해 정당한 인과 결론을 거부하는 현상으로, 기존 정확도만 보면 평균 50% 수준에 머물러 문제를 감지하기 어렵다.
넷째, Pearl의 인과 사다리(Ladder)를 실제 평가 흐름에 통합한다. L1(Detection)에서는 700여 개 사례로 연관성 판단을, L2(Diagnosis)에서는 3,200여 개 사례로 개입 수준에서 정보 부족을 인식하고 Wise Refusal을 생성하도록 요구한다. L3(Imagination)에서는 1,200여 개 사례로 반사실 추론을 테스트한다. 특히 L2와 L3에서 ‘Rung Collapse’를 측정한다. 모델이 L3 질문에 대해 L1 수준의 연관 증거만 사용하면 Dissonance Rate가 48~55%에 달한다는 결과가 보고돼, 고차원 인과 추론이 실제로는 저차원 연관 증거에 의존하고 있음을 드러낸다.
검증 파이프라인은 SA‑TBench와 유사하게 LLM‑주도 생성 → SCM(구조적 인과 모델) 검증 → 인간 전문가 2인 1판 검토의 3단계로 구성된다. 이 과정에서 93~100% 정확도를 달성했으며, 인간·기계 협업을 통해 대규모(5k)와 고품질(≥95% 정확도)을 동시에 확보했다.
전체적으로 CausalT5K는 인과 추론 능력, 시코판시 저항성, 현명한 거부 능력을 동시에 진단할 수 있는 최초의 종합 벤치마크이며, 모델 개발·평가·감시 단계에서 구체적인 개선 방향을 제시한다. 특히 ‘Four‑Quadrant Control Landscape’와 ‘Skepticism Trap’은 기존 연구에서 간과된 위험을 정량화함으로써, 향후 안전성‑효율성 균형을 맞춘 인과 추론 시스템 설계에 핵심적인 인사이트를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기