BRIDGE: 모델 성능으로 인간 작업 시간 예측
초록
BRIDGE는 두 파라미터 로지스틱 아이템 반응 이론(2PL IRT) 모델을 이용해 다양한 벤치마크에서 AI 모델의 성공·실패 데이터를 기반으로 잠재적인 과제 난이도와 모델 능력을 동시에 추정한다. 이후 난이도와 인간 작업 완료 시간 사이에 로그 선형 관계가 있음을 발견해, 기존에 인간이 직접 측정한 시간 데이터를 최소화하면서 새로운 과제에 대한 인간 소요 시간을 예측한다. 이를 통해 향후 모델의 인간‑중심 작업 수행 능력을 6개월마다 두 배가 되는 지수적 성장 형태로 전망한다.
상세 분석
본 논문은 AI 모델의 실용적 능력을 인간이 이해하기 쉬운 “작업 완료 시간”이라는 단위로 전환하려는 시도이다. 핵심 아이디어는 모델‑과제 반응 행렬을 아이템 반응 이론(IRT)의 두 파라미터 로지스틱(2PL) 모델에 적합시켜, 각 과제의 난이도(b)와 모델의 능력(θ)을 잠재 공간에 매핑하는 것이다. 2PL 모델은 과제별 구분도(a)와 난이도(b)를 동시에 학습함으로써, 동일한 모델이라도 구분도가 높은 과제에서는 더 뚜렷한 성공·실패 차이를 보이고, 구분도가 낮은 과제에서는 성공 확률이 완만하게 변한다는 점을 반영한다.
논문은 먼저 METR 데이터셋(170개 과제, 인간 작업 시간 라벨 포함)을 이용해 2PL 모델을 학습한다. 이때 성공/실패는 모델이 동일 과제에 대해 50% 이상 정답을 맞춘 경우를 이진화하여 사용한다. 학습된 난이도 파라미터 b와 인간 작업 시간 h 사이에 로그 선형 관계가 존재함을 실증하였다: log h = slope × b + intercept. 이 회귀식은 인간 시간 라벨이 없는 새로운 벤치마크에 대해 b만으로 h를 추정할 수 있게 해준다.
BRIDGE는 이 캘리브레이션을 바탕으로 SWE‑bench Verified, MLE‑bench, GDPval, Cybench 등 네 개의 OOD(Out‑of‑Distribution) 벤치마크에 적용했다. 각 벤치마크에서 추정된 인간 시간은 기존 인간 라벨(가능한 경우)이나 도메인 전문가의 직관과 높은 상관성을 보였으며, 특히 복합적인 멀티스텝 추론이 요구되는 과제에서도 유의미한 예측을 제공한다.
또한, 모델 능력 θ가 시간에 따라 지수적으로 성장한다는 가정 하에, 특정 시점(예: 2개월 단위 릴리즈)에서 최고 성능 모델의 θ값을 이용해 해당 모델이 50% 성공률을 달성할 수 있는 난이도 b = θ를 계산한다. 이를 로그‑시간 변환식에 대입하면 인간 작업 시간 h를 직접 얻을 수 있다. 결과적으로, 논문은 “50% 성공 과제 시간 지평선”이 약 6개월마다 두 배가 되는 지수적 성장 패턴을 재현했으며, 이는 기존 METR 연구에서 보고된 7개월 배가와 유사하지만 더 빠른 성장률을 제시한다.
기술적 강점으로는 (1) 인간 라벨을 최소화하면서도 대규모 모델·과제 데이터에 적용 가능한 확장성, (2) IRT의 통계적 해석 가능성을 활용해 과제 구분도와 난이도를 명시적으로 파악, (3) 로그‑시간 선형 관계를 통한 직관적인 인간‑중심 해석 가능성을 들 수 있다. 반면 한계점은 (가) IRT 모델이 이진 성공/실패에 의존하므로 부분 점수나 품질 척도는 반영하기 어렵다, (나) 인간 작업 시간 라벨이 충분히 다양하고 정확히 측정된 경우에만 캘리브레이션이 신뢰성을 갖는다(라) 모델 간 능력 차이가 매우 크면 θ와 b의 스케일 정규화가 필요할 수 있다. 또한, 인간 작업 시간 자체가 과제 복잡도, 도구 사용 여부, 전문가 수준 등에 따라 크게 변동할 수 있기에, “평균 인간”이라는 가정이 실제 현장 적용 시 오차를 야기할 가능성이 있다.
전반적으로 BRIDGE는 AI 평가 패러다임을 “점수 → 시간”이라는 인간 친화적 척도로 전환하는 중요한 첫 걸음이며, 향후 인간 라벨을 자동화하거나 연속형 성공 확률을 모델링하는 확장 연구가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기