디자인 로직 기반 다학문 데이터 합성으로 LLM 추론 능력 강화
초록
DESIGNER는 인간 교육자가 문제를 설계할 때 따르는 일련의 절차를 ‘디자인 로직’이라 정의하고, 이를 메타 지식으로 추출한다. 120 000개 이상의 디자인 로직을 구축한 뒤, 대규모 도서·웹 코퍼스와 매칭해 75개 분야에 걸친 4.7 백만 개의 복합 추론 질문을 자동 생성한다. 난이도·다양성에서 기존 벤치마크를 크게 앞서며, Qwen‑3·Llama‑3에 SFT 적용 시 다학문 추론 성능이 현 모델의 최종 버전을 능가한다.
상세 분석
본 논문은 LLM이 다학문 복합 추론을 수행하는 데 필요한 고품질 데이터가 부족하다는 문제를 ‘디자인 로직(Design Logic)’이라는 새로운 메타 지식 프레임워크로 해결한다. 디자인 로직은 인간 교사가 시험 문제를 만들 때 거치는 단계—지식 포인트 식별, 상황 설정, 추론 경로 설계, 정답·오답 생성, 검증—를 구조화한 것으로, 이는 재사용 가능한 템플릿 형태로 추상화된다. 논문은 먼저 150 M 규모의 기존 질문 은행에서 난이도·학문별 균형을 맞춘 132 k 질문을 샘플링하고, DeepSeek‑R1‑0528을 이용해 각 질문을 디자인 로직으로 역공학한다. 추출된 로직은 Qwen‑3‑Embedding‑4B로 임베딩한 뒤, 유사도 기반 그래프 클러스터링(τ = 0.85)으로 중복을 제거해 125 k개의 고유 로직을 확보한다.
다음 단계는 두 단계 검색‑생성 파이프라인이다. (1) 코퍼스(도서·웹) 텍스트와 디자인 로직을 각각 임베딩해 코사인 유사도로 상위 5개 로직을 후보로 선정하고, (2) DeepSeek‑R1‑0528이 후보 로직을 정밀 평가해 최적 로직을 선택하고, 해당 로직의 절차를 그대로 따르는 질문을 생성한다. 이 과정은 ‘코스톤 매칭’이라고 할 수 있으며, 로직과 텍스트 간 의미적 정합성을 보장한다. 생성된 질문은 MinHash 기반 중복 제거와 13‑gram 디컨티미네이션을 거쳐 DLR‑Book(3.04 M)과 DLR‑Web(1.66 M)으로 최종 확정된다.
데이터 품질 평가는 세 가지 축에서 수행된다. 첫째, Qwen‑3‑30B‑A3B‑Instruct를 활용해 난이도 라벨링을 수행했을 때, ‘매우 어려움’ 비율이 기존 GSM8K·MMLU·GPQA 등 대비 2~3배 높았다. 둘째, 300 k 샘플에 대해 Qwen‑3‑Embedding‑4B로 고차원 벡터를 만든 뒤 평균 코사인 거리, L2 거리, 1‑NN 거리, 클러스터 관성, 반경 등 5가지 다양성 지표를 계산했으며, 모든 지표에서 기존 데이터셋을 크게 앞섰다. 셋째, Qwen‑3‑235B‑A22B‑Thinking‑2507‑FP8을 이용해 장기 CoT 답변을 생성하고, 이를 SFT 데이터로 활용해 Qwen‑3·Llama‑3에 미세조정하였다. 결과는 다학문 추론 벤치마크에서 기존 SFT 데이터(예: EvolInstruct, Self‑Instruct)보다 평균 4.2%p 상승했으며, 특히 과학·공학·인문·사회과학 영역에서 현 모델의 ‘최종’ 버전을 능가하는 성능을 보였다.
핵심 기여는 (1) 인간 문제 설계 과정을 메타화한 디자인 로직을 제시하고, 이를 대규모 자동 합성에 적용한 점, (2) 두 단계 검색‑생성 메커니즘으로 로직‑텍스트 정합성을 확보해 난이도·다양성을 제어한 점, (3) 75개 학문을 포괄하는 4.7 M 규모의 고난이도·고다양성 데이터셋을 공개한 점이다. 한계로는 디자인 로직 추출 단계에서 LLM의 편향이 반영될 가능성, 로직‑텍스트 매칭 시 연산 비용이 크게 소요된다는 점, 그리고 생성된 질문의 정답 검증이 자동화되지 않아 인간 검수가 필요하다는 점을 들 수 있다. 향후 연구는 로직 자동 평가 메트릭 개발, 멀티모달 텍스트·표·그래프와의 연계, 그리고 인간‑LLM 협업을 통한 정답 검증 파이프라인 구축을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기