실제 환경에서도 강력한 0.9B 문서 파싱 VLM, PaddleOCR‑VL‑1.5
초록
PaddleOCR‑VL‑1.5는 0.9 B 파라미터 규모의 초소형 비전‑언어 모델(VLM)로, OmniDocBench v1.5에서 94.5 % 정확도를 달성하고, 새로 제안한 Real5‑OmniDocBench(스캔·왜곡·스크린 촬영·조명·기울기 5가지 물리적 변형)에서도 92.05 %의 최고 성능을 기록한다. 핵심 개선점은 다점 경계 상자를 지원하는 인스턴스‑세그멘테이션 기반 레이아웃 엔진 PP‑DocLayoutV3와, 시일 인식·텍스트 스포팅을 포함한 6가지 작업을 수행하는 PaddleOCR‑VL‑1.5‑0.9B이다. 효율적인 데이터 증강·대규모 사전학습·지시‑미세조정으로 파라미터 효율성을 유지하면서도 실제 문서 환경에 대한 강인성을 크게 향상시켰다.
상세 분석
PaddleOCR‑VL‑1.5는 기존 PaddleOCR‑VL‑0.9B의 경량 구조를 유지하면서, 두 가지 핵심 모듈을 전면 개편하였다. 첫 번째는 레이아웃 분석기 PP‑DocLayoutV3이다. 이 모델은 RT‑DETR 기반의 쿼리‑기반 트랜스포머 디코더에 마스크 헤드와 읽기 순서 예측 헤드를 병렬로 배치함으로써, 전통적인 축에 정렬된 바운딩 박스가 아닌 다점(주로 사각형) 마스크를 직접 출력한다. 이렇게 하면 페이지가 비틀리거나 비평면으로 휘어졌을 때도 각 레이아웃 요소를 정확히 분리할 수 있다. 읽기 순서는 글로벌 포인터 메커니즘을 이용해 객체 쿼리 간의 반대칭 관계 행렬 S를 학습하고, 시그모이드 후 투표 기반 랭킹으로 최종 순서를 도출한다. 이 설계는 레이아웃 검출과 논리 순서 예측을 별도 파이프라인으로 나누던 기존 방식보다 연산량과 지연 시간을 크게 감소시킨다.
두 번째 핵심은 PaddleOCR‑VL‑1.5‑0.9B이다. 비전 인코더는 Native Resolution Visual Encoder(NaViT)와 Adaptive MLP Connector를 사용해 고해상도 입력(최대 2048×2048)에서도 효율적인 피처 추출이 가능하도록 설계되었다. 언어 백본은 경량화된 ERNIE‑4.5‑0.3B를 채택해, 대규모 사전학습 단계에서 46 M 이미지‑텍스트 쌍(전 버전 29 M 대비 57 % 증가)과 시일·텍스트 스포팅 전용 데이터셋을 추가함으로써 시각‑언어 정렬 능력을 강화하였다. 특히 텍스트 스포팅을 위해 4점 좌표를 별도 토큰(<LOC_0>~<LOC_1000>)으로 정의하고, 텍스트와 좌표를 하나의 시퀀스로 결합해 단일 생성 단계에서 인식·위치 추정을 동시에 수행한다. 이는 기존 OCR이 텍스트만 출력하던 방식과 달리, 공간 정보를 명시적으로 학습하도록 유도한다.
학습 파이프라인은 크게 레이아웃 분석과 요소 인식/스포팅 두 단계로 나뉜다. 레이아웃 분석에서는 38 k 고품질 문서에 물리적 왜곡(스키유, 워핑, 조명 변동 등)을 시뮬레이션하는 Distortion‑Aware Augmentation을 적용해 실제 촬영 환경에 대한 강인성을 확보한다. 옵티마이저는 AdamW(β1=0.9, β2=0.999)와 2×10⁻⁴ 고정 학습률을 사용해 150 epoch 동안 전체 배치(32)로 학습한다. 요소 인식/스포팅 단계는 사전학습(46 M 이미지‑텍스트, 128 배치, LR 5×10⁻⁵, 1 epoch) → 포스트‑트레이닝(5.6 M 지시 데이터, LR 8×10⁻⁶, 1 epoch) → 최종 미세조정(특정 작업 별 1 epoch) 순으로 진행된다.
성능 평가에서 PaddleOCR‑VL‑1.5는 OmniDocBench v1.5에서 94.5 % 정확도를 기록, 기존 최고 기록(93.2 %)을 넘어섰다. Real5‑OmniDocBench에서는 스캔·왜곡·스크린·조명·기울기 5가지 시나리오를 모두 포괄한 종합 정확도 92.05 %를 달성했으며, 파라미터 0.9 B에 비해 Qwen3‑VL‑235B·Gemini‑3 Pro와 같은 수백 배 규모 모델을 능가한다. 추론 속도 측면에서도 GPU(A100)에서 45 FPS, CPU(Intel Xeon)에서 8 FPS를 유지해 실시간 서비스 적용이 가능함을 보여준다.
이 논문의 주요 기여는 (1) 물리적 왜곡을 직접 모델링한 인스턴스‑세그멘테이션 기반 레이아웃 엔진, (2) 텍스트와 좌표를 통합한 새로운 토큰화 방식으로 구현한 텍스트 스포팅, (3) 시일 인식이라는 특수 도메인 작업을 포함한 다중 작업 학습 프레임워크, (4) 실제 촬영 환경을 반영한 Real5‑OmniDocBench 벤치마크 제공이다. 한계점으로는 0.9 B 모델이 복잡한 고해상도 도표·그래프에서 미세한 디테일을 놓칠 수 있다는 점과, 다국어 지원이 현재 30여 개 언어에 국한돼 있어 더 넓은 언어 커버리지가 필요하다는 점을 들 수 있다. 향후 연구에서는 모델 스케일을 유지하면서도 멀티모달 어텐션 효율을 높이는 경량화 기법과, 실시간 모바일 디바이스 최적화를 위한 양자화·프루닝 기법을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기