저자원 언어를 위한 대규모 인스트럭션 데이터셋 생성 프레임워크 InstructLR

저자원 언어를 위한 대규모 인스트럭션 데이터셋 생성 프레임워크 InstructLR
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

InstructLR는 고자원 언어(프랑스어)에서 만든 시드 인스트럭션을 저자원 언어(Zarma, Bambara, Fulfulde)로 번역·생성하고, RAG 기반 자동 필터와 네이티브 검증자를 결합한 이중 품질 검증 과정을 통해 5만 개 규모의 고품질 멀티도메인 인스트럭션 데이터셋을 효율적으로 구축한다. 실험 결과, 해당 데이터로 파인튜닝한 오픈소스 모델은 제로샷 대비 BLEU 점수가 2030% 상승하고, 인간 평가에서 7884%의 선호도를 얻었다.

상세 분석

InstructLR는 저자원 언어(LRL)용 인스트럭션 튜닝 데이터를 생성하기 위한 파이프라인을 네 단계로 설계하였다. 첫 단계는 다중 도메인 토픽을 선정하고, 프랑스어와 같은 고자원 언어로 시드 인스트럭션을 생성한다. 여기서는 MMLU와 유사한 지식 영역을 활용해 STEM, 인문·사회 과학 등 20개 토픽을 균형 있게 배치하였다. 두 번째 단계에서는 선택된 시드 인스트럭션을 LLM에 입력해 목표 LRL로 번역·응답을 동시에 생성한다. 이때 LLM은 “기본 이해도”가 있는 모델을 사용하며, 프랑스어‑LRL 간의 용어 매핑, 고유명사 보존, 기술 용어의 음성 적응 등 언어별 규칙을 프롬프트에 명시한다.

세 번째 단계는 이중 품질 필터링이다. 자동 필터는 Retrieval‑Augmented Generation(RAG) 기반 n‑shot 프롬프트를 이용해 사전 구축된 3,000개의 청정 문장, 20개의 문법 규칙, 양언어 용어집을 참조한다. 자동 검사에서 오류가 발견되면 교정 제안을 하거나 “고우선순위”로 플래그한다. 교정이 성공하면 인간 검토 부담을 낮추기 위해 “저우선순위”로 분류한다. 네 번째 단계는 네이티브 스피커가 플래그된 샘플을 검토·수정하는 인간‑인‑루프 단계이다. 이때 Krippendorff’s Alpha가 0.793으로 높은 일관성을 보였으며, 자동 필터가 플래그한 9.1% 중 78%가 실제로는 흐름 문제였음이 확인되었다.

데이터셋 구축 결과는 ZarmaInstruct‑50k, BambaraInstruct‑50k, FulfuldeInstruct‑50k 세 가지 5만 개 규모의 멀티도메인 인스트럭션 베치마크를 제공한다. 각 데이터셋은 JSONL 형식으로 저장되며, 인스트럭션·번역·응답·추론(Chain‑of‑Thought) 등 메타데이터를 포함한다.

실험에서는 Gemma‑3, Llama‑3.1, Mistral‑7B 등 6가지 오픈소스 모델을 대상으로 세 가지 학습 시나리오(Zero‑Shot, MT‑Seed, InstructLR) 를 비교하였다. 파인튜닝에 QLoRA와 unsloth를 사용해 효율성을 높였으며, InstructLR 데이터로 파인튜닝한 모델은 BLEU 점수에서 Zarma 22.8, Bambara 30.1, Fulfulde 28.9를 기록해 MT‑Seed 대비 510배 이상의 향상을 보였다. 또한 인간 평가에서 InstructLR 출력이 MT 출력보다 7884% 높은 선호도를 얻어, 품질과 비용 효율성 모두에서 우수함을 입증하였다.

핵심 인사이트는 다음과 같다. ① 고자원 언어에서 시드 인스트럭션을 생성하고, 번역·응답을 동시에 생성함으로써 문화·도메인 일관성을 유지한다. ② RAG 기반 자동 교정은 전체 데이터의 9%만 인간 검토가 필요하도록 비용을 88% 절감한다. ③ 인간‑인‑루프 단계는 언어별 특수 규칙을 반영해 최종 품질을 확보한다. ④ 프레임워크는 언어‑agnostic하게 설계돼, 최소한의 프롬프트 수정만으로 새로운 LRL에 적용 가능하다. 이러한 설계는 저자원 언어 커뮤니티가 자체 모델을 구축하거나 기존 모델을 현지화하는 데 실질적인 가이드라인을 제공한다.


댓글 및 학술 토론

Loading comments...

의견 남기기