경량화된 수식 인식 모델 Texo, 2천만 파라미터로 고성능 구현

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Texo는 20 M 파라미터만으로 UniMERNet‑T와 PPFormulaNet‑S 수준의 수식 인식 정확도를 달성한다. 핵심은 대규모 어휘와 토크나이저를 687개의 LaTeX 전용 토큰으로 압축한 어휘 증류·전이와, PPFormulaNet‑S의 이미지 인코더(HGNetV2‑B4)와 2‑층 MBart 디코더를 재활용한 설계이다. 파라미터 80 % 이상을 절감하면서도 CDM 점수와 추론 속도에서 경쟁력을 유지한다. 모델은 ONNX와 Transformers.js를 이용해 브라우저 내에서 완전히 실행되며, 별도 서버 없이 로컬에서 안전하게 사용할 수 있다.

상세 분석

Tex오(Texo)의 설계는 “어휘 효율성”과 “구조 재활용”이라는 두 축을 중심으로 전개된다. 기존 MER 모델들은 자연어 처리용 대형 어휘(≈50 k)를 그대로 사용해 토큰 임베딩이 파라미터의 60 % 이상을 차지한다는 구조적 비효율을 안고 있었다. Texo는 KaTeX 파서를 활용해 LaTeX 매크로를 687개의 의미 단위로 정제하고, BPE 기반 토크나이저를 규칙 기반 토크나이저로 교체한다. 이 과정에서 공백 토큰을 완전 삭제하고, 의미가 없는 서브워드를 제거함으로써 시퀀스 길이를 평균 45 % 이상 단축한다. 어휘 전이 알고리즘(Algorithm 1)은 기존 임베딩을 새로운 토큰 집합에 평균 매핑해 손실을 최소화한다. 결과적으로 임베딩 파라미터는 38 M → <1 M으로 급감하고, 전체 모델 규모는 107 M(UniMERNet‑T) 대비 80 % 이상, 58 M(PPFormulaNet‑S) 대비 65 % 감소한 20 M 파라미터에 머문다.

구조적 측면에서 Texo는 PPFormulaNet‑S의 이미지 인코더인 HGNetV2‑B4를 그대로 차용한다. HGNetV2‑B4는 경량화된 CNN이면서도 ViT‑계열 백본과 동등한 이미지 표현력을 제공한다(이미지 분류·객체 탐지 벤치마크에서 80 % 이하 파라미터로 비슷한 성능). 텍스트 디코더는 2‑layer MBart(숨은 차원 384, 컨텍스트 길이 1024)로 구성돼, 기존 6‑layer 디코더 대비 연산량을 크게 줄이면서도 교차‑어텐션 메커니즘을 유지한다.

학습 파이프라인은 UniMER‑1M 데이터셋(1 M 이미지‑LaTeX 쌍)과 UniMER‑Test(23 k 테스트 샘플)으로 구성된다. 데이터 전처리 단계에서 중복 중괄호와 동의어 LaTeX 토큰을 정규화하고, 수식 형태학적 변형·Affine·Gaussian·조명·날씨 잡음 등 8가지 증강을 적용해 일반화 능력을 강화한다. 옵티마이저는 AdamW(β₁=0.9, β₂=0.999, weight‑decay=0.05)를 사용하고, 학습률은 1e‑5에서 5 k 스텝 워밍업 후 코사인 스케줄링으로 1e‑5까지 감소한다. 총 1e⁵ 스텝을 46 GB A40 GPU에서 수행했으며, 파라미터와 옵티마이저 메모리 사용량이 230 MB에 불과해 RTX 3090 같은 소비자급 GPU에서도 학습이 가능하도록 설계되었다.

평가에서는 CDM(Character Detection Matching) 점수를 채택했는데, 이는 시각적으로 동일하지만 토큰 순서가 다를 수 있는 LaTeX 표현을 공정히 비교한다. Texo는 전체 CDM 평균 0.902를 기록했으며, 특히 복잡 인쇄식(CPE)과 손글씨(HWE)에서 0.825·0.882로 기존 대형 모델에 근접한다. 토큰 길이 평균이 50 % 이하로 감소하면서 추론 시간은 311 ms(단일 샘플, A40)로 UniMERNet‑T(2266 ms) 대비 7배 가속했다. PPFormulaNet‑S보다 약 30 % 느리지만, 멀티‑토큰 병렬 예측 기법을 사용하지 않아 정확도 손실을 최소화한다.

배포 측면에서 Texo는 ONNX 변환 후 Transformers.js와 Web‑Worker를 이용해 완전 브라우저 기반 애플리케이션을 구현했다. 사용자는 로컬 CPU/GPU에서 직접 수식을 입력하고, LaTeX·MathML·WYSIWYG 편집 결과를 즉시 확인할 수 있다. 이는 데이터 프라이버시를 보장하고, 서버 비용·네트워크 지연을 제거한다는 실용적 장점을 제공한다.

전반적으로 Texo는 “어휘 압축 + 경량 백본 + 효율 디코더”라는 설계 원칙을 통해 MER 분야에서 파라미터 효율성을 크게 끌어올렸다. 한계점으로는 여전히 PPFormulaNet‑S 대비 추론 속도가 약간 뒤처지고, 현재는 수식 인식에 특화돼 일반 문서 OCR으로 확장하려면 추가적인 레이아웃·텍스트 통합이 필요하다. 향후 연구는 이러한 경량 모델을 멀티‑모달 문서 이해 파이프라인에 통합하거나, 더 복잡한 손글씨·노이즈 환경에 대한 강인성을 강화하는 방향으로 진행될 수 있다.

경량화된 수식 인식 모델 Texo, 2천만 파라미터로 고성능 구현

초록

상세 분석

댓글 및 학술 토론

의견 남기기