도메인 특화 요약과 엔터티 태깅을 위한 파인튜닝 LLM 파이프라인

초록

본 논문은 LLaMA Factory 기반의 파인튜닝 기법을 활용해 대형 언어 모델을 정치·보안 분야의 특수 텍스트에 맞게 조정하고, 이를 NER과 결합해 요약과 엔터티 태깅을 동시에 수행하는 파이프라인을 제안한다. BLEU·ROUGE 평가에서 지시문 기반 파인튜닝이 기존 모델 대비 요약·태깅 정확도를 크게 향상시켰으며, 특히 LLaMA3‑8B‑Instruct가 중국어 전용 모델을 능가하는 교차언어 전이 효과를 보였다.

상세 요약

이 연구는 급변하는 하위문화 언어와 은어가 포함된 비정형 텍스트를 효율적으로 처리하기 위한 실용적인 솔루션을 제시한다. 핵심은 LLaMA Factory 프레임워크를 이용해 대형 언어 모델(LLaMA3‑8B‑Instruct 등)을 두 단계로 파인튜닝하는데, 첫 단계는 일반 목적 데이터(위키피디아, 뉴스 코퍼스 등)로 기본 언어 이해와 생성 능력을 강화하고, 두 번째 단계는 정치·보안 분야의 도메인 특화 데이터셋을 사용해 전문 용어, 사건 명칭, 슬랭 등을 학습한다.

파인튜닝 과정에서 ‘Instruction Tuning’ 방식을 채택했는데, 이는 모델에게 “요약해라”, “엔터티를 추출해라”와 같은 명령형 프롬프트를 제공함으로써 작업 간 전이 학습을 촉진한다. 실험 결과, 동일 모델에 지시문 없이 단순 사전학습만 적용했을 때보다 ROUGE‑1/2/L이 평균 7~9% 상승하고, BLEU 점수도 5% 이상 개선되었다. 특히 LLaMA3‑8B‑Instruct는 원래 중국어 이해도가 낮았음에도 불구하고, 도메인 파인튜닝 후 중국어 보안 문서 요약에서 Chinese‑LLaMA‑7B‑Chat보다 높은 성능을 기록했다. 이는 모델이 가진 고차원 추론 능력이 언어 장벽을 넘어 전이될 수 있음을 시사한다.

NER 모듈은 사전 학습된 한국어·중국어·영어 NER 모델을 앙상블하고, 파인튜닝된 LLM이 생성한 요약문에 직접 엔터티 라벨을 삽입하는 방식으로 구현되었다. 이렇게 하면 별도의 후처리 없이 요약과 태깅을 동시에 얻을 수 있어 실시간 모니터링 시스템에 적합하다.

한계점으로는 도메인 데이터 구축 비용이 높으며, 파인튜닝 시 과적합 위험이 존재한다는 점이다. 또한, 다언어 전이 효과는 LLaMA3‑8B‑Instruct와 같은 대규모 모델에 국한될 가능성이 있어, 소형 모델에 대한 검증이 필요하다. 향후 연구에서는 지속적인 슬랭 업데이트를 위한 자동 라벨링 파이프라인과, 프롬프트 최적화를 통한 비용 효율성을 탐구할 계획이다.

초록

상세 요약

📜 논문 원문 (영문)