마크다운 출력 포맷팅을 위한 FMBench와 적응형 정렬 파이프라인

마크다운 출력 포맷팅을 위한 FMBench와 적응형 정렬 파이프라인
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

FMBench는 마크다운 형식 준수를 평가하는 새로운 벤치마크이며, SFT와 RL을 결합한 두 단계 정렬 파이프라인을 제안한다. 실험은 OpenPangu와 Qwen 모델에 적용해 의미 정확도와 구조 적합도 사이의 트레이드오프를 분석한다.

상세 분석

본 논문은 대형 언어 모델(LLM)이 실제 서비스 환경에서 출력 형식까지 만족시켜야 하는 문제를 마크다운에 초점을 맞춰 탐구한다. 마크다운은 인간 친화적이면서도 구조적 표현이 가능해 챗봇, 기술 문서, 도구 연동 파이프라인 등에 널리 쓰이지만, 리스트 중첩 오류, 테이블 형식 불일치, 헤딩 레벨 불일치, 코드 블록 미닫힘 등 미세한 형식 오류가 downstream 시스템에 큰 영향을 미친다. 기존 연구는 프롬프트 엔지니어링, 제약 디코딩, 사후 학습 방식 등을 제시했지만, 각각이 갖는 한계(프롬프트 민감도, 추론 비용, 일반화 부족)를 지적한다.

FMBench는 이러한 한계를 보완하기 위해 마크다운 전용 벤치마크를 설계했다. 데이터 파이프라인은 (1) 다양한 도메인(학술, 공식, 기술, 법률 등)에서 문서를 수집하고, (2) 정규화·클리닝을 수행한 뒤, (3) 세 단계 난이도(구조 복잡도)와 세 가지 포맷 규칙을 적용해 자동으로 마크다운 변환 샘플을 생성한다. 이후 인간 전문가가 문법·스타일·구조 오류를 교정한다. 결과적으로 1,100개의 고품질 마크다운 문서(800 train / 300 test)를 확보했으며, 섹션 수·블록 인용은 중간값에 집중하고, 중첩 리스트 깊이와 아이템 수가 난이도 주요 축을 이룬다.

평가 지표는 의미 보존을 측정하는 BERTScore‑F1과, 구조 적합도를 측정하는 규칙 기반 보상(헤딩 레벨 일관성, 리스트 중첩 정확성, 테이블 셀 정렬, 코드 블록 균형 등)으로 구성한다.

정렬 파이프라인은 두 단계로 이루어진다. 첫 단계는 instruction‑response 쌍을 이용한 Supervised Fine‑Tuning(SFT)으로, 의미 적합성을 크게 향상시킨다. 두 번째 단계는 Reinforcement Learning Fine‑Tuning(RLFT)으로, SFT 정책을 초기화하고 의미와 구조를 동시에 최적화하는 복합 보상을 적용한다. 보상 설계는 의미 보상(예: BERTScore)과 구조 보상(규칙 위반 패널티)을 가중합한 형태이며, 가중치 조정을 통해 두 목표 사이의 트레이드오프를 제어한다.

실험 결과, SFT만 적용했을 때 의미 점수는 크게 상승했지만 구조 점수는 제한적이었다. RLFT를 추가하면 구조 점수가 평균 8~12% 상승했으며, 특히 높은 난이도(깊은 리스트, 복합 테이블)에서 강인한 성능을 보였다. 그러나 구조 보상을 과도하게 강조하면 의미 점수가 감소하는 현상이 관찰돼, 보상 가중치 선택이 핵심임을 확인했다. 두 모델군(OpenPangu, Qwen) 모두 동일한 경향을 보였으며, Qwen은 기본 SFT 성능이 더 높아 RLFT 효과가 상대적으로 작았다.

또한, 제안된 파이프라인은 하드 디코딩 제약 없이도 형식 오류를 크게 감소시켰으며, 추론 시 추가 비용이 거의 없다는 실용적 장점을 갖는다. 논문은 마크다운 외에도 다른 하이브리드 텍스트 포맷(예: reStructuredText, LaTeX)에도 확장 가능함을 시사한다.

요약하면, FMBench는 마크다운 형식 준수를 체계적으로 측정할 수 있는 벤치마크를 제공하고, SFT‑RL 연계 정렬 파이프라인은 의미와 구조를 동시에 최적화하는 실용적인 방법을 제시한다. 향후 연구는 자동화된 보상 설계, 다중 포맷 일반화, 인간 피드백 기반 보상 통합 등을 통해 정렬 효율성을 더욱 높일 수 있을 것으로 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기