이미지 캡션을 위한 게임형 데이터 수집 시스템
초록
SentenceRacer는 이미지에 대한 문장 설명을 만들고 검증하는 온라인 게임이다. 플레이어가 제시어를 맞히는 과정에서 문장이 완성되며, 모든 단어가 맞히면 해당 문장은 자동으로 검증된다. 실험 결과, AMT에서 수집한 캡션보다 품질이 높고, 검증율도 우수함을 확인하였다.
상세 분석
SentenceRacer는 기존의 크라우드소싱 방식이 안고 있던 “수집 비용”과 “검증 비용”이라는 두 가지 병목을 동시에 해결하려는 시도이다. 게임 메커니즘은 ‘행맨(Hangman)’을 변형한 형태로, 라운드마다 한 명이 리더가 되어 이미지에 대한 문장을 작성하고, 나머지 플레이어들은 그 문장의 단어를 추측한다. 추측이 성공하면 해당 단어가 화면에 드러나고, 추측자와 리더 모두 포인트를 획득한다. 이 구조는 두 가지 중요한 효과를 만든다. 첫째, 리더는 자신의 문장이 쉽게 추측될수록 높은 점수를 얻기 때문에, 가능한 한 구체적이고 풍부한 설명을 작성하도록 유도된다. 둘째, 모든 단어가 맞히면 자동으로 “문장 검증 완료”가 되므로 별도의 검증 작업이 필요 없으며, 이는 인간 검증자와의 높은 일치율(87.8%)로 입증된다.
데이터 수집은 10개의 4인 그룹을 대상으로 COCO 이미지 10장을 각각 10번씩 플레이하도록 설계되었다. 결과적으로 49개의 완전 검증된 문장이 확보되었으며, 이는 동일 이미지에 대해 AMT에서 수집한 200개의 문장 대비 검증 비율이 약간 높았다(87.8% vs 85.5%). 또한, 문장 품질을 “객체 수”, “관계 수”, “속성 수”라는 세 가지 지표로 측정했을 때, SentenceRacer 문장은 각각 2.98, 1.88, 1.45로 AMT 문장(2.30, 1.02, 1.17)보다 유의미하게 높은 값을 보였다(p‑value < 0.01). 이는 게임 내 보상 구조가 더 많은 객체와 관계를 포함하도록 유도했기 때문이다.
표 1은 남은 빈칸 수와 검증 성공률 사이의 상관관계를 보여준다. 빈칸이 적을수록(즉, 문장이 더 많이 드러날수록) AMT 검증자들이 해당 문장을 정확하다고 판단할 확률이 상승한다. 이는 “빈칸 → 추측 난이도 → 문장 정확도”라는 연쇄적인 관계를 시사한다.
한계점으로는 현재 게임이 3명 이상이 동시에 참여해야 한다는 점과, 리더가 만든 문장이 지나치게 길어지면 추측 시간이 늘어나 플레이어 이탈이 발생할 가능성이 있다. 또한, 검증 기준이 “모든 단어가 맞히는 것”에 국한돼 있어, 문법적 오류나 의미적 부정확성을 완전히 걸러내지는 못한다. 향후 연구에서는 금지어 리스트를 도입해 다양성을 높이고, 라운드 사이 대기 시간을 활용해 객체-문장 매핑(grounding) 같은 부가 작업을 병행하는 방안을 제시한다.
전반적으로 SentenceRacer는 비용 효율적인 데이터 수집·검증 메커니즘을 제공하며, 게임적 요소가 참여자 만족도와 데이터 품질을 동시에 끌어올리는 사례로 평가할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기