MERIT 데이터셋 학교 성적 보고서 기반 다중모달 문서 이해
초록
MERIT 데이터셋은 텍스트·이미지·레이아웃이 모두 라벨링된 33 000개의 합성 학교 성적 보고서 샘플을 제공한다. 400여 개의 세부 라벨과 통제된 편향 변수들을 포함해 Visually‑rich Document Understanding(VrDU) 과 LLM 편향 평가에 적합한 벤치마크 역할을 한다.
상세 분석
본 논문은 기존 VrDU 데이터셋이 갖는 라벨 수·레이아웃 다양성·편향 제어의 한계를 극복하기 위해 MERIT 데이터셋을 설계·제공한다. 데이터는 두 단계 파이프라인으로 생성된다. 첫 번째 단계는 템플릿 기반 텍스트·구조 생성기로, 학교 성적 보고서의 과목, 등급, 학생 이름, 성별·출신 지역 등 400여 개의 세부 라벨을 자동 할당한다. 두 번째 단계는 Blender 기반 렌더링 모듈을 통해 디지털 문서와 포토리얼리스틱 사진 두 가지 스타일의 이미지로 변환한다. 이 과정에서 조명, 배경, 스캔 노이즈 등을 파라미터화하여 실제 스캔 문서와의 도메인 격차를 최소화한다.
편향 제어 측면에서는 이름·지역·성별 정보를 의도적으로 조작함으로써 특정 그룹에 대한 성적 편차를 삽입한다. 이렇게 만든 ‘통제‑편향’ 샘플은 LLM이 학습·추론 단계에서 발생할 수 있는 사회적 편향을 정량화하고 완화 전략을 검증하는 데 활용될 수 있다.
벤치마크 실험에서는 토큰 분류(Task: 라벨별 토큰 식별) 모델들을 평가했으며, 최신 LayoutLMv3, XYLayoutLM 등 SOTA 모델조차 70 % 이하의 F1 점수를 기록해 데이터의 난이도를 입증했다. 특히 포토리얼리스틱 이미지가 포함된 경우 OCR 오류가 증가하면서 모델 성능이 급격히 저하되는 현상이 관찰되었다. 이는 기존 데이터셋이 주로 디지털 PDF 형태에 국한된 반면, MERIT은 실제 스캔·촬영 상황을 시뮬레이션함으로써 실용적인 일반화 테스트베드 역할을 함을 의미한다.
또한 사전학습 단계에 MERIT 샘플을 추가하면 기존 모델 대비 3‑5 %의 성능 향상이 보고되었으며, 이는 데이터 다양성이 모델의 레이아웃·시각적 이해 능력을 강화한다는 가설을 뒷받침한다.
한계점으로는 합성 데이터 특성상 실제 학교 보고서의 서체·디자인 변이성을 완전히 재현하지 못한다는 점과, 편향 변수 설계가 연구자 의도에 따라 주관적일 수 있다는 점을 들 수 있다. 향후 실제 교육기관 데이터와의 도메인 적응 실험이 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기