문서 중심 분할·CoT 추론·구조화 내보내기로 만드는 고품질 QA 데이터 자동 생성

문서 중심 분할·CoT 추론·구조화 내보내기로 만드는 고품질 QA 데이터 자동 생성
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

D‑SCoRE는 문서를 세그먼트화하고, 명시·암시 질문을 구분해 체인‑오브‑쓰(Chain‑of‑Thought) 추론을 삽입한 뒤, 근접하지만 오류가 있는 방해 선택지를 생성해 구조화된 QA‑CoT 데이터를 자동으로 만든다. 훈련 없이 LLM 프롬프트만으로 1 GPU‑hour당 1,100개 이상의 고품질 QA 쌍을 생산하며, SQuAD·SQuADShifts 기준에서 인간 주석 데이터보다 우수한 파인‑튜닝 성능을 보인다.

상세 분석

본 논문은 대규모 언어 모델(LLM)의 도메인 적응을 저비용으로 실현하기 위해, “훈련‑프리” 파이프라인 D‑SCoRE를 제안한다. 핵심은 네 단계로 구성된다. 첫 번째 단계에서는 원문을 100200단어 길이의 세그먼트로 나눈 뒤, LLM에게 명시적 질문(explicit)과 암시적 질문(implicit)을 동시에 생성하도록 프롬프트한다. 명시적 질문은 답이 원문에 그대로 존재하는 스팬이며, 암시적 질문은 다중 스팬 혹은 관계 추론을 필요로 한다. 두 번째 단계는 품질 제어로, 생성된 QA 쌍이 원문에 완전히 근거하고 있는지(Fidelity)와 질문이 명시·암시 구분에 맞는지를 검증한다. 여기서는 별도 “Critic” 모델(예: DeepSeek‑R1)을 이용해 KL‑다이버전스를 최소화하고, 불량 쌍을 재생성한다. 세 번째 단계는 반사실(counterfactual) 선택지 생성이다. 각 정답에 대해 의미적으로 근접하지만 사실적으로 틀린 세 개의 방해 선택지를 만들고, 위치를 무작위로 배치해 위치 편향을 완화한다. 마지막 단계는 구조화된 내보내기로, 질문·답·CoT·방해 선택지를 JSON 형태로 정리한다. 논문은 명시·암시 구분을 수학적으로 정의하고, 암시적 질문에 CoT 추론을 부착함으로써 정보량 I(R;Q,A)와 조건 엔트로피 H(A|Q,D)를 정량화한다. 실험에서는 SQuAD 파생 데이터와 SQuADShifts 도메인 전이 평가에서, 인간 주석 데이터보다 높은 EM·F1을 달성했으며, 특히 암시적 질문 비율을 80% 이상으로 높였을 때 추론 전이 효과가 극대화됨을 확인했다. 또한 1 GPU‑hour당 1,100개 이상의 QA‑CoT 쌍을 생성하는 효율성을 입증했으며, 이는 기존 반자동 파이프라인 대비 35배 가량 빠른 속도다. 전체적으로 D‑SCoRE는 복잡한 전처리·시드 데이터 없이도 고다양성·고품질 QA‑CoT 데이터를 대량 생산할 수 있는 실용적 솔루션으로 평가된다.


댓글 및 학술 토론

Loading comments...

의견 남기기