이중 강인형 군중소싱: 비용 절감과 정확도 향상

본 논문은 테스트 시 라벨 집계 문제를 통계적 추정으로 재구성하고, 작업자를 감독 학습기로 모방한 뒤 이중 강인(doubly robust) 추정 기법에 결합한다. 이를 통해 학습기가 부정확하더라도 추정 분산을 크게 감소시키고, 적은 라벨 비용으로 기존 방법과 동등한 정확도를 달성한다.

저자: Chong Liu, Yu-Xiang Wang

본 논문은 대규모 머신러닝 모델 학습에 필수적인 라벨링 작업을 비용 효율적으로 수행하기 위한 새로운 프레임워크를 제안한다. 기존 군중소싱 라벨 집계 방법은 (1) 모든 작업자를 대상으로 라벨을 수집하는 이상적인 경우는 무편향이지만 비용이 너무 많이 든다. (2) 작업자를 무작위로 샘플링하면 비용은 절감되지만 추정 분산이 커져 정확도가 떨어진다. 이러한 딜레마를 해결하고자 저자들은 라벨 집계 문제를 “예상 투표 점수 vₓ(y) = E