그래프 댄서: 커리큘럼 강화학습으로 그래프 탐색·추론 능력을 학습하는 LLM

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

GraphDancer는 이질적인 지식 그래프에 대한 질문을 해결하기 위해 LLM이 함수 호출을 통해 그래프를 탐색하고 다단계 추론을 수행하도록 강화학습(RL)과 커리큘럼 학습을 결합한 프레임워크이다. 구조적 난이도(단일·다중 탐색 라운드)를 기준으로 쉬운 질문부터 어려운 질문까지 점진적으로 학습시키며, 3 B 규모 모델이 14 B 모델이나 GPT‑4o‑mini보다 다양한 도메인과 OOD 질문에서 우수한 성능을 보인다.

상세 분석

GraphDancer는 크게 네 가지 핵심 요소로 구성된다. 첫째, 그래프와의 인터랙션을 MDP로 정의하고, LLM이 “”, “”, “”, “” 블록을 번갈아 생성하도록 설계한 토큰 기반 인터페이스를 도입한다. 이를 통해 모델은 자연어 추론과 정형화된 함수 호출을 명확히 구분하면서도, 함수 호출 결과를 즉시 관찰(observation) 토큰 형태로 받아 상태(state)에 반영한다. 둘째, 함수 집합은 RetrieveNode, NodeFeature, NeighborCheck, NodeDegree 등 네 가지 기본 연산으로 제한한다. 이러한 제한은 그래프 스키마가 복잡해도 함수 호출만으로 정확한 관계 탐색이 가능하도록 하며, 텍스트 기반 검색(RAG)과 달리 의미적 유사도에 의존하지 않는다. 셋째, 질문 난이도를 “S‑round”(단일 노드 탐색)와 “E‑round”(다중 노드 탐색)으로 구분하고, 라운드 수와 E‑round 개수를 기준으로 Easy/Medium/Hard 세 단계의 구조적 난이도 레벨을 정의한다. 이 정의는 커리큘럼 샘플링에 직접 활용되어, 초기 학습 단계에서는 대부분 S‑round 중심의 단일 홉 질문을 제공하고, 점진적으로 다중 홉·다중 라운드 질문을 늘린다. 넷째, 커리큘럼 샘플링은 Gaussian 기반의 시간 가변 스케줄링에 고정된 편향 분포(q)와 혼합 비율 η(t)를 곱해 “biased‑mixture” 형태로 구현한다. η(t)는 학습 진행에 따라 선형적으로 증가해 초기에는 쉬운 레벨에 집중하고, 후반부에선 모든 난이도 레벨에 균등하게 노출시켜 과도한 탐색 폭발을 방지한다. 강화학습 목표는 정답 정확도 보상과 형식 보상(정해진 블록 구조 준수)을 합산한 rule‑based reward이며, KL‑regularization을 통해 사전 학습된 instruction‑tuned 모델(π_ref)과의 차이를 제한한다. 학습 과정에서 환경이 삽입한 관찰 토큰은 gradient 흐름에서 제외돼, 모델은 오직 자체 생성 토큰에 대해서만 파라미터 업데이트를 수행한다. 실험에서는 GRBench의 다도메인(학술, 전자상거래, 문학, 의료, 법률) 데이터를 활용해, 하나의 도메인(학술)만으로 학습하고 나머지 도메인과 OOD 질문 유형을 테스트했다. 3 B 백본 모델이 14 B 백본 및 GPT‑4o‑mini 대비 Hard 및 OOD 질문에서 평균 8~12%p 상승한 정확도를 기록했으며, 특히 다중 라운드 상호작용이 정상적으로 이루어진 비율(format‑valid interaction)도 크게 개선되었다. 이러한 결과는 구조적 난이도 기반 커리큘럼이 중소형 LLM에게도 복잡한 그래프 탐색·추론 스킬을 단계적으로 습득하게 함을 증명한다.

그래프 댄서: 커리큘럼 강화학습으로 그래프 탐색·추론 능력을 학습하는 LLM

초록

상세 분석

댓글 및 학술 토론

의견 남기기