KGCE 교육용 다중 플랫폼 에이전트 평가를 위한 지식강화 이중 그래프 평가자

읽는 시간: 9 분
...

📝 원문 정보

- Title: KGCE Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models
- ArXiv ID: 2601.01366
- 발행일: 2026-01-04
- 저자: Zixian Liu, Sihao Liu, Yuqi Zhao

📝 초록

다목적 대형 언어 모델(MLMs)이 자율 에이전트에 빠르게 채택되면서 교육 환경에서의 플랫폼 간 작업 수행 능력이 큰 주목을 받고 있다. 그러나 기존 벤치마크 프레임워크는 특히 학교 전용 소프트웨어(XiaoYa 지능형 어시스턴트, HuaShi XiaZi 등)를 다룰 때 플랫폼 간 작업 지원에서 눈에 띄는 부족함을 보이고 있으며, 이로 인해 에이전트의 효율성이 크게 저하되는 경우가 많다. 또한 현재 평가 방법은 목표 지향성이나 트래젝토리 일치와 같은 거친 메트릭스에 의존하여 복잡한 작업에서 에이전트의 자세한 수행과 효율성을 포착하는 데 어려움을 겪고 있다. 이러한 문제를 해결하기 위해 우리는 다목적 언어 모델을 사용한 교육용 플랫폼 간 에이전트 벤치마킹에 대한 지식 강화 이중 그래프 평가기(KGCE)라는 새로운 벤치마크 플랫폼을 제안한다. KGCE는 지식 기반 향상과 이중 그래프 평가 프레임워크를 통합한다. 우리는 윈도우, 안드로이드 및 플랫폼 간 협업 작업을 포함하는 104개의 교육 관련 작업으로 구성된 데이터셋을 구축하였다. KGCE는 작업을 여러 서브 목표로 분해하고 그 완료 상태를 검증하는 이중 그래프 평가 프레임워크를 도입하여 세밀한 평가 메트릭을 제공한다. 기존 에이전트의 학교 전용 소프트웨어 작업 수행에 대한 실행 병목 현상을 극복하기 위해 학교 전용 소프트웨어에 특화된 지식 기반을 포함하는 강화된 에이전트 시스템을 개발하였다. 코드는 https://github.com/Kinginlife/KGCE에서 확인할 수 있다.

💡 논문 해설

1. **데이터셋 구성**: 이 연구는 교육 환경에 특화된 대규모 데이터셋을 구축하였습니다. 이를 통해 다양한 학교에서 사용하는 독점 소프트웨어와 다중 장치 협업 작업이 포함되어 있습니다. 이는 마치 여러 종류의 음식 재료를 준비하여 요리를 시작하기 전에 필요한 모든 원소가 갖추어진 것과 같습니다.
  1. 지식 기반 구축: 교육 환경에서 사용되는 독점 소프트웨어에 대한 구조화된 지식을 제공하는 JSON 형식의 데이터베이스를 개발하였습니다. 이는 마치 요리사가 레시피 책을 참고하여 요리를 진행하듯, 모델은 필요한 정보를 즉시 찾아 실행 효율성을 향상시키고 있습니다.

  2. 두 가지 그래프 평가 체계: 완성도와 효율성 측면에서 작업 수행을 평가하는 두 가지 그래프 기반의 체계를 제안하였습니다. 이는 마치 운동 선수가 경기 후 훈련 분석을 통해 강점과 약점을 파악하듯, 모델의 성능을 상세하게 분석하고 있습니다.

📄 논문 발췌 (ArXiv Source)

# INTRODUCTION

다중 모달 대형 언어 모델(MLMs)의 급속한 발전은 자율 에이전트의 기능 경계를 재구성하고 있으며, 이는 단일 환경 작업 수행에서 교차 플랫폼 협업으로 변화시키고 있습니다. GPT-4o와 같은 모델들은 시각적, 언어적, 행동 추론 능력을 통합하여 크로스 디바이스 파일 전송 및 다중 애플리케이션 협업 작업과 같은 일반적인 상황에서 중요한 잠재력을 보여주고 있습니다.

기존 에이전트는 주로 과학 연구나 코드 생성과 같이 일반적인 시나리오에 초점을 맞추어 왔습니다. 그러나 교육 환경으로 전환할 때 성능이 급격히 저하되는 두 가지 주요 병목 현상이 있습니다: 특정 도메인 지식의 부족과 평가 프레임워크와의 불일치입니다. 교육 환경은 다음과 같은 고유한 과제를 제시합니다: (1) 학교별 맞춤 소프트웨어에 크게 의존하며, 인터페이스 요소와 운영 논리에서 표준화가 부족함; (2) 교차 플랫폼 작업은 Windows 및 Android와 같은 여러 장치 간의 조정을 요구하여 복잡한 프로세스 종속성과 상태 동기화를 필요로 함; (3) 작업 목표는 기능적 요구 사항과 교육적 중요성을 결합하며, 에이전트가 운영 정확도와 교육 컨텍스트에 대한 인식을 모두 보여주어야 합니다. 현재 연구는 이러한 과제들을 효과적으로 해결하지 못하고 있어, 교육용 에이전트의 실질적인 배치가 제한되고 있습니다.

style="width:90.0%" />
KGCE의 전체 프레임워크. 시스템은 교육 데이터셋에서 작업을 생성하고, 행동 예측, 실행 및 평가를 통한 파이프라인으로 이를 수행합니다. 이중 그래프 평가자는 작업 완성도와 실행 효율성을 평가합니다. 스크린샷과 OCR 피드백에 따라 시스템은 GPT-4o, Qwen-VL, Gemini와 같은 LLMs에서 외부 지식을 불러와 Windows 및 Android 환경의 에이전트에게 복잡한 작업 수행을 지원합니다.
시스템
환경 지식
플랫폼 평가
구축
작업
MetaGUI Android $`\textcolor{darkgreen}{\checkmark}`$ $`\textcolor{darkred}{\times}`$ 트래젝토리 수동 $`\textcolor{darkred}{\times}`$
AgentBench 다중 분리 $`\textcolor{darkred}{\times}`$ $`\textcolor{darkred}{\times}`$ 여러 개 수동 $`\textcolor{darkred}{\times}`$
EduAgent 다중 플랫폼 $`\textcolor{darkgreen}{\checkmark}`$ $`\textcolor{darkred}{\times}`$ 다차원 LLM+도구 $`\textcolor{darkgreen}{\checkmark}`$
WebArena $`\textcolor{darkgreen}{\checkmark}`$ $`\textcolor{darkred}{\times}`$ 목표 기반 템플릿 $`\textcolor{darkred}{\times}`$
GUICourse 데스크톱/웹 GUI $`\textcolor{darkgreen}{\checkmark}`$ $`\textcolor{darkgreen}{\checkmark}`$ 트래젝토리 서브 작업 완성 $`\textcolor{darkgreen}{\checkmark}`$
OSWorld Linux/Windows $`\textcolor{darkred}{\times}`$ $`\textcolor{darkred}{\times}`$ 목표 기반 템플릿 $`\textcolor{darkred}{\times}`$
AndroidWorld Android $`\textcolor{darkred}{\times}`$ $`\textcolor{darkred}{\times}`$ 목표 기반 템플릿 $`\textcolor{darkred}{\times}`$
EduBenchmark 코드/웹 $`\textcolor{darkred}{\times}`$ $`\textcolor{darkred}{\times}`$ 다차원 템플릿 $`\textcolor{darkgreen}{\checkmark}`$
WORFBench 다중 $`\textcolor{darkred}{\times}`$ $`\textcolor{darkred}{\times}`$ 그래프 기반 LLM 영감 $`\textcolor{darkred}{\times}`$
CRAB Linux&Android $`\textcolor{darkred}{\times}`$ $`\textcolor{darkgreen}{\checkmark}`$ 그래프 기반 서브 작업 완성 $`\textcolor{darkred}{\times}`$
KGCE Windows&Android
MATH
\textcolor{darkgreen}{\checkmark}
``` | 
``` math
\textcolor{darkgreen}{\checkmark}
``` | **이중 그래프 기반** | 서브 작업 완성 | **$`\textcolor{darkgreen}{\checkmark}`$** |

<div class="tablenotes">

$`\textcolor{darkgreen}{\checkmark}`$=지원,
$`\textcolor{darkred}{\times}`$=지원하지 않음. 교차 플랫폼은 동시에 다중 장치 작업을 요구합니다.

</div>

</div>

기존 연구는 세 가지 주요 영역에서 중요한 제한점을 보여주고 있습니다.
현재, 교육용 에이전트를 위한 맞춤형 작업 데이터셋이 부족하여 교육 시나리오에서의 연구 및 개발이 방해받습니다. 기존 지식 그래프와 GUI 작동 라이브러리는 주로 일반 목적으로 설계되어 학교별 시스템에 구조화된 지식 지원을 제공하지 못합니다. 전통적인 지표, 예를 들어 작업 완료율과 트래젝토리 유사성은 거시적 결과에만 집중하며, 역추적 작업이나 중요한 단계의 누락과 같은 미세한 문제들을 측정할 수 없습니다.

이러한 이슈들에 대응하기 위해, 우리는 지식 강화와 이중 그래프 평가를 기반으로 하는 교차 플랫폼 교육 에이전트 벤치마킹 프레임워크인 Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models을 제안합니다. 전체 프레임워크는 그림 1에 표시되어 있습니다.

**표 [tab:environments]**은 KGCE와 기존 벤치마킹 프레임워크를 비교합니다. 주요 특징들은 다음과 같이 분류됩니다: *상호 작용 환경* (시스템의 운영 컨텍스트: Web/GUI/Code); *지식* (지식 그래프나 동적 추론을 통해 구조화된 지식 관리 지원 $`\textcolor{darkgreen}{\checkmark}`$); *교차 플랫폼* (OS/device 상호 운용성을 요구하는 동시 다중 장치 작업); *평가* (목표 기반: 최종 상태 검증; 트래젝토리: 행동 순서 일치성; 그래프 기반: DAG 체크포인트 검증); *작업 구축* (템플릿: 사전 정의된 패턴; 수동: 인간이 작성한 것; 서브 작업 구성: 모듈식 구성); *교육용 작업* (교과서 통합 또는 교육적 평가를 위한 $`\textcolor{darkgreen}{\checkmark}`$).

주요 기여는 다음과 같습니다:

- Windows, Android 및 교차 플랫폼 협업을 포함하는 104개의 교육용 작업 데이터셋을 구축하였습니다. 이러한 작업은 독점 도메인 소프트웨어와 다중 장치 조정 워크플로를 포함하며, 이들의 종속성은 DAG를 사용하여 모델링됩니다.

- 독점 도메인 소프트웨어에 대한 구조화된 JSON 지식 기반을 개발하였습니다. 이러한 기반의 지식은 동적으로 검색 및 모델 프롬프트에 주입되어, 독점 도메인 작업에서 실행 효율성과 성공률을 크게 향상시킵니다.

- 완성도 그래프와 효율성 그래프를 포함하는 이중 그래프 평가 체계를 제안하였습니다. 이러한 체계는 작업 수행을 상세하게 평가하기 위한 8개의 미세한 지표를 도입합니다.

- Qwen-VL-Max-Latest, GPT-4o 및 Gemini-2.0-Flash 등 여러 모델에서 지식 기반의 효과성을 검증하여 그들이 특정 도메인 지식에 대한 의존도가 어떻게 다른지 드러냈습니다.

# 관련 연구

이전 연구를 종합적으로 맥락화하기 위해, 우리는 관련 작업을 네 가지 핵심 차원으로 구조화합니다: (1) 대형 모델로 구동되는 교차 플랫폼 에이전트, (2) 교육 시나리오에서의 작업 모델링 및 에이전트, (3) 지식 강화된 에이전트 아키텍처, (4) 에이전트 평가 방법론. 이러한 차원은 교육 환경 내에서 지능형 에이전트를 구축하는 데 필요한 과제들을 공동으로 다루고 있습니다. 이러한 측면을 분석함으로써, 기존 연구의 틈새와 우리의 기여를 명확히 할 수 있습니다.

## 대형 모델로 구동되는 교차 플랫폼 에이전트

최근 몇 년간 MLMs는 교차 플랫폼 에이전트 분야에서 큰 잠재력을 보였습니다. CRAB는 첫 번째 교차 환경 작업을 지원하는 벤치마킹 프레임워크를 소개하여 서브 작업 구성과 그래프 기반 평가자를 통해 복잡한 작업의 효율적인 생성 및 평가를 가능하게 하였습니다. AndroidWorld와 OSWorld는 각각 동적 안드로이드 환경과 오픈 컴퓨터 환경을 구축하여 에이전트 평가에 대한 다양한 플랫폼 지원을 제공합니다. 그러나 이러한 교차 플랫폼 에이전트 연구들은 교육 관련 독점 도메인 소프트웨어에 필요한 특정 지원을 다루지 않습니다. CRAB에서 제안한 방향성 아카이클 그래프 기반 작업 분해 방법은 우리의 작업 모델링에 큰 영감을 제공합니다. 그러나 그의 거시적 트래젝토리 일치 평가 접근법은 교육 시나리오에 중요한 실행 차이를 포착하는 데 부족함을 보입니다.

## 교육 시나리오에서의 작업 모델링 및 에이전트

교육용 에이전트 연구는 복잡한 환경과 도메인별 지식에 대한 강력한 의존성을 가진 이중 과제를 직면하고 있습니다. EduAgent는 다중 모달 상호 작용을 통해 작업 효율성을 높이지만, 일반적인 도구만을 대상으로 합니다. GUICourse는 GUI 고정화를 개선하지만 교차 플랫폼 상태 동기화에 무관심합니다. EduBench는 실제 벤치마크를 제공하지만 작업량이 적고 구조화된 지식이 부족합니다. 현재 연구들은 다음과 같은 주요 단점을 보여줍니다: (1) 작업 데이터셋은 대부분 일반 교육 플랫폼에 의존하고 있으며 학교별 맞춤 시스템 지원이 부족함; (2) 평가 지표는 거시적 지표에 초점을 맞추고 있어 실행 경로의 최적화 수준을 측정하기에는 충분하지 않음. 이러한 한계들은 교육 환경의 특정 요구사항에 맞춘 전용 평가 프레임워크를 필요로 하는 중요성을 강조합니다.

## 지식 강화 에이전트 아키텍처

지식 기반 증강은 도메인 간 에이전트 적응성 향상을 위한 효과적인 패러다임으로 부상하고 있습니다. GAT는 그래프 내 노드의 중요도를 동적으로 계산하는 주의 메커니즘을 제안하며, 이는 지식 아틀라스에서 노드 우선 순위 정렬에 적용 가능하고 본 연구 지식 기반의 우선 호출 메커니즘에 대한 이론적 근거를 제공합니다. PLaG는 그래프 구조를 활용하여 작업 계획 능력을 강화하였지만, 그들의 정적인 지식 표현은 교육 소프트웨어의 동적으로 변화하는 성격에 적합하지 않습니다. 기존 지식 강화 방법들은 주로 일반 목적이 있는 지식 그래프에 의존하고 있으며 학교별 소프트웨어를 위한 구조화된 모델링을 제공하지 못합니다. 이러한 중요한 그러나 거의 연구되지 않은 요소는 현재 교육용 에이전트의 성능을 제한하는 원인입니다.

## 에이전트 평가 방법론

에이전트 평가 시스템 개발은 결과 중심 지표에서 과정 중심 분석으로 추세를 이어가고 있습니다. AgentBench는 다차원 평가 벤치마크를 설립하였지만, 그들의 API 기반 검증 접근법은 GUI 운영 시나리오에 적합하지 않습니다. DyVal은 DAG 구조를 사용하여 작업 실행 증분을 포착하기 위한 동적 평가 프레임워크를 도입하였습니다; 그러나 이들의 이산 상태 라벨링은 역추적률과 같은 연속적인 지표를 측정할 수 없습니다. 미세한 평가에 관해, CRAB의 그래프 기반 평가자는 서브 작업 완성 상태를 검증하지만 실행 경로 효율성을 분석하는 능력이 부족합니다. 최근 연구들은 구조적 분석과 과정 추적을 결합하여 에이전트의 인지 능력을 더 정확하게 반영함을 보여주고 있습니다. 이러한 발견은 우리의 이중 그래프 평가 프레임워크 설계에 대한 이론적인 지원을 제공합니다.

# 방법

본 섹션에서는 지식 기반 강화와 이중 그래프 평가 체제를 결합한 교차 플랫폼 교육 에이전트 벤치마킹의 구체적인 구현을 소개합니다.

## 교육 데이터셋 구성

벤치마크는 교차 환경 작업을 커버하지만, 교육에서 다중 장치 협업은 빠져 있습니다. 우리는 중앙 중국 정규 대학의 실제 활동에 근거한 첫 번째 교육에 특화된 작업 집합을 도입하였습니다. 이는 Windows, Android 및 교차 플랫폼 실행을 지원하며 독점 소프트웨어를 포함하고 있습니다. CRAB에서 영감을 받은 우리는 분해, 템플릿 및 구성으로 확장합니다: 각 복잡한 작업이 원자 서브 작업으로 나뉘며 DAG로 연결됩니다. 예를 들어 "Xiaoya를 사용하여 '빅 데이터 기술' 과목의 과제를 확인하고 'Tasks 앱'에 해당 작업을 추가하라"라는 복잡한 작업은 다음과 같이 분해될 수 있습니다: "Xiaoya 앱 열기," "빅 데이터 기술 과목 진입," "과제 작업 보기," "Tasks 앱으로 전환," 그리고 "작업 추가." 이러한 서브 작업들은 그들 사이의 논리적 종속성을 모델링하는 DAG로 구성됩니다. 각 노드는 서브 작업을 나타내며, 각 엣지는 종속성을 나타냅니다.

구체적인 작업을 구현하기 위해 우리는 자연어 지시 패턴을 사용한 작업 템플릿을 설계하였습니다. 이러한 템플릿은 `{app_name}`, `{feature}`, `{action}`과 같은 입력 속성들을 포함하며, 특정 값으로 동적으로 대체될 수 있습니다. 예를 들어 "열고 {feature}에 {app_name}에서 {action} 수행 및 저장"이라는 템플릿은 실제 값을 입력하여 다양한 작업 인스턴스를 효율적으로 생성할 수 있습니다. 복잡한 시나리오는 여러 서브 작업 템플릿을 조합하여 다단계 작업을 만들 수 있습니다. 예를 들어, 교차 플랫폼 작업은 Windows에서 One-Stop Service Platform을 열고 메시지 센터에 접근하고, Android 장치의 Keep Notes 앱에 메시지 내용을 기록하는 것이 필요할 수 있습니다.

<figure id="fig:Knowledge-base" data-latex-placement="t">
<img src="/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/KGCE-Knowledge.png" style="width:100%" /> style="width:90.0%" />
<figcaption>지식 기반 모듈. 작업 설명과 패키지 이름이 주어진 경우, 시스템은 관련 패키지를 식별하고 지식 기반에서 해당 설명을 검색하여 LLM에 대한 프롬프트를 구성합니다. 지식 기반은 패키지, 페이지 및 요소별로 구조화되어 있으며 각 요소는 위치, 설명 및 하위 요소를 포함합니다.</figcaption>
</figure>

작업의 실행 가능성과 유효성을 보장하기 위해 우리는 각 서브 작업을 엄격히 검증하여 대상 플랫폼에서 실행할 수 있는지 확인하고 입력-출력 논리가 일관되도록 합니다. 결과적으로, 104개의 작업으로 구성된 데이터셋을 구축하였습니다. 이 데이터셋은 HuaShi XiaZi, Xiaoya Assistant, Keep Notes 및 MOOC 플랫폼과 같은 애플리케이션을 포함하며, 작업 다양성과 복잡성을 균형있게 조화시켜 후속 실험 및 평가에 견고한 기초를 마련하였습니다.

## 지식 기반 구축

Xiaoya Intelligent Assistant와 같은 독점 소프트웨어는 기존 MLMs가 거의 숙련하지 못한 고유한 인터페이스와 워크플로를 가지고 있습니다. 이러한 격차를 메우기 위해, 우리는 JSON 형식의 데이터베이스를 개발하여 교육 환경에서 사용되는 독점 소프트웨어에 대한 구조화된 지식을 제공합니다.
</div>
<div style="margin-top: 20px;"><a href="https://arxiv.org/pdf/2601.01366.pdf" target="_blank">ArXiv 원문 PDF 보기</a></div>
<div class="mobile-ad w-full my-6 text-center" style="border: 2px dashed red; background: #ffe6e6;"><ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-1873718820012422" data-ad-slot="auto"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script></div>

<br>
<h4>📊 논문 시각자료 (Figures)</h4>

![Figure 1](/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/model_avg.png)

<br>
<br>

![Figure 2](/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/correlation.png)

<br>
<br>

![Figure 3](/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/model_without_KB.png)

<br>
<br>

![Figure 4](/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/model_with_KB.png)

<br>
<br>

![Figure 5](/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/KB_result.png)

<br>
<br>

![Figure 6](/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/Knowledge_Module.png)

<br>
<br>

![Figure 7](/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/KGCE_framwork.png)

<br>
<br>

![Figure 8](/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/with_KB.png)

<br>
<br>

![Figure 9](/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/correlation_8.png)

<br>
<br>

![Figure 10](/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/model_total.png)

<br>
<br>

![Figure 11](/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/KB_comparison.png)

<br>
<br>

![Figure 12](/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/model_without_KB_11.png)

<br>
<br>

![Figure 13](/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/KGCE-Knowledge.png)

<br>
<br>

![Figure 14](/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/model_with_KB_13.png)

<br>
<br>


<h4 style="margin-top: 3rem; margin-bottom: 1rem; border-bottom: 1px solid #e5e7eb; padding-bottom: 0.5rem;">감사의 말씀</h4>
이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.
클릭하여 더 보기

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키