실제 장면 속 텍스트 레이블 오류, SELECT로 정확히 잡아낸다
초록
본 연구는 실제 장면 텍스트 데이터셋의 레이블 오류를 감지하는 새로운 방법인 SELECT를 제안합니다. 이미지-텍스트 인코더와 문자 단위 토크나이저를 활용하여 가변 길이 레이블, 레이블 시퀀스 불일치, 문자 수준 오류 문제를 해결하며, 기존 방법보다 정확도와 실용성이 뛰어납니다. 또한 훈련 중 실제 오류 시나리오를 모방하기 위해 레이블에 의도적으로 오류를 주입하는 SSLC 기법을 도입했습니다. 실험 결과, SELECT는 레이블 오류 감지와 STR 정확도 향상에 효과적임을 입증했습니다.
상세 분석
SELECT 방법론의 핵심은 다중 모달(이미지-텍스트) 훈련을 통해 레이블 오류 감지 문제를 ‘매칭 문제’로 재정의한 데 있습니다. 기존 STR(Scene Text Recognition) 노이즈 감지 방법이 예측 텍스트와 어노테이션 레이블을 강제로 길이를 맞춰 정렬(token-to-token matching)해야 하는 근본적 한계를 가진 반면, SELECT는 이미지와 해당 텍스트 레이블을 이미지-텍스트 인코더에 직접 입력하여 두 정보가 서로 일치하는지(Matched/Unmatched)를 이진 분류합니다. 이 접근법은 삽입/삭제로 인한 레이블 길이 변화와 시퀀스 정렬 문제를 원천적으로 회피할 수 있습니다.
기술적 세부사항으로, SELECT는 ViT 기반의 이미지 인코더와 BLIP에서 영감을 받은 이미지-텍스트 인코더로 구성됩니다. 중요한 차별점은 WordPiece 대신 ‘문자 단위 토크나이저’를 채택했다는 점입니다. 이는 ‘i’를 ’l’로 잘못 표기하는 등의 세밀한 문자 수준 오류를 감지하는 데 필수적이며, 각 문자를 독립적인 쿼리로 사용해 이미지 특징에서 정확한 문자 정보와 위치를 포착할 수 있게 합니다. 또한 보조 학습으로 STR 디코더 헤드를 추가하여 텍스트 인식 태스크를 함께 학습함으로써 모델의 텍스트 이해와 위치 파악 능력을 강화했습니다.
SSLC(Similarity-based Sequence Label Corruption)는 SELECT의 실용성을 높이는 데 기여한 핵심 훈련 기법입니다. 기존 노이즈 생성 방법이 대체로 치환 노이즈에 국한되었다면, SSLC는 삽입, 삭제, 치환, 전치(transposition) 등 다양한 오류 유형을 시뮬레이션합니다. 특히 ‘시각적 유사성 기반 노이즈 전이 행렬’을 도입한 것이 획기적입니다. ResNet50으로 추출한 다양한 글꼴과 각도의 문자 이미지 특징 간 코사인 유사도를 계산하여, 예를 들어 ‘o’를 ‘0’으로, ‘i’를 ’l’로 치환할 확률을 높이는 등 실제 어노테이션 과정에서 발생할 법한 혼란을 정량화하여 반영했습니다. 이는 합성 데이터로 훈련된 모델이 실제 데이터의 복잡한 노이즈 패턴에 잘 적응하도록 돕습니다.
실험 결과, SELECT는 합성 데이터에서 98.45%의 높은 오류 감지 정확도를 기록했으며, 실제 데이터셋(예: Real-L)에서 검출된 상위 8.7%의 잠재적 노이즈 데이터를 제거했을 때 STR 모델의 성능이 유의미하게 향상되었습니다. 이는 방법론의 이론적 타당성뿐만 아니라 실제 데이터 정제 파이프라인에 통합할 수 있는 실용적 유용성을 동시에 입증한 것입니다. 요약하면, SELECT는 다중 모달 학습의 강점을 활용해 STR 데이터의 레이블 오류 감지 문제에 대한 새로운 패러다임을 제시했으며, SSLC를 통해 실제 노이즈의 복잡성을 효과적으로 모델링한 차별화된 연구입니다.
댓글 및 학술 토론
Loading comments...
의견 남기기