\textcolor{darkgreen}{\checkmark}
``` |
``` math
\textcolor{darkgreen}{\checkmark}
``` | **이중 그래프 기반** | 서브 작업 완성 | **$`\textcolor{darkgreen}{\checkmark}`$** |
<div class="tablenotes">
$`\textcolor{darkgreen}{\checkmark}`$=지원,
$`\textcolor{darkred}{\times}`$=지원하지 않음. 교차 플랫폼은 동시에 다중 장치 작업을 요구합니다.
</div>
</div>
기존 연구는 세 가지 주요 영역에서 중요한 제한점을 보여주고 있습니다.
현재, 교육용 에이전트를 위한 맞춤형 작업 데이터셋이 부족하여 교육 시나리오에서의 연구 및 개발이 방해받습니다. 기존 지식 그래프와 GUI 작동 라이브러리는 주로 일반 목적으로 설계되어 학교별 시스템에 구조화된 지식 지원을 제공하지 못합니다. 전통적인 지표, 예를 들어 작업 완료율과 트래젝토리 유사성은 거시적 결과에만 집중하며, 역추적 작업이나 중요한 단계의 누락과 같은 미세한 문제들을 측정할 수 없습니다.
이러한 이슈들에 대응하기 위해, 우리는 지식 강화와 이중 그래프 평가를 기반으로 하는 교차 플랫폼 교육 에이전트 벤치마킹 프레임워크인 Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models을 제안합니다. 전체 프레임워크는 그림 1에 표시되어 있습니다.
**표 [tab:environments]**은 KGCE와 기존 벤치마킹 프레임워크를 비교합니다. 주요 특징들은 다음과 같이 분류됩니다: *상호 작용 환경* (시스템의 운영 컨텍스트: Web/GUI/Code); *지식* (지식 그래프나 동적 추론을 통해 구조화된 지식 관리 지원 $`\textcolor{darkgreen}{\checkmark}`$); *교차 플랫폼* (OS/device 상호 운용성을 요구하는 동시 다중 장치 작업); *평가* (목표 기반: 최종 상태 검증; 트래젝토리: 행동 순서 일치성; 그래프 기반: DAG 체크포인트 검증); *작업 구축* (템플릿: 사전 정의된 패턴; 수동: 인간이 작성한 것; 서브 작업 구성: 모듈식 구성); *교육용 작업* (교과서 통합 또는 교육적 평가를 위한 $`\textcolor{darkgreen}{\checkmark}`$).
주요 기여는 다음과 같습니다:
- Windows, Android 및 교차 플랫폼 협업을 포함하는 104개의 교육용 작업 데이터셋을 구축하였습니다. 이러한 작업은 독점 도메인 소프트웨어와 다중 장치 조정 워크플로를 포함하며, 이들의 종속성은 DAG를 사용하여 모델링됩니다.
- 독점 도메인 소프트웨어에 대한 구조화된 JSON 지식 기반을 개발하였습니다. 이러한 기반의 지식은 동적으로 검색 및 모델 프롬프트에 주입되어, 독점 도메인 작업에서 실행 효율성과 성공률을 크게 향상시킵니다.
- 완성도 그래프와 효율성 그래프를 포함하는 이중 그래프 평가 체계를 제안하였습니다. 이러한 체계는 작업 수행을 상세하게 평가하기 위한 8개의 미세한 지표를 도입합니다.
- Qwen-VL-Max-Latest, GPT-4o 및 Gemini-2.0-Flash 등 여러 모델에서 지식 기반의 효과성을 검증하여 그들이 특정 도메인 지식에 대한 의존도가 어떻게 다른지 드러냈습니다.
# 관련 연구
이전 연구를 종합적으로 맥락화하기 위해, 우리는 관련 작업을 네 가지 핵심 차원으로 구조화합니다: (1) 대형 모델로 구동되는 교차 플랫폼 에이전트, (2) 교육 시나리오에서의 작업 모델링 및 에이전트, (3) 지식 강화된 에이전트 아키텍처, (4) 에이전트 평가 방법론. 이러한 차원은 교육 환경 내에서 지능형 에이전트를 구축하는 데 필요한 과제들을 공동으로 다루고 있습니다. 이러한 측면을 분석함으로써, 기존 연구의 틈새와 우리의 기여를 명확히 할 수 있습니다.
## 대형 모델로 구동되는 교차 플랫폼 에이전트
최근 몇 년간 MLMs는 교차 플랫폼 에이전트 분야에서 큰 잠재력을 보였습니다. CRAB는 첫 번째 교차 환경 작업을 지원하는 벤치마킹 프레임워크를 소개하여 서브 작업 구성과 그래프 기반 평가자를 통해 복잡한 작업의 효율적인 생성 및 평가를 가능하게 하였습니다. AndroidWorld와 OSWorld는 각각 동적 안드로이드 환경과 오픈 컴퓨터 환경을 구축하여 에이전트 평가에 대한 다양한 플랫폼 지원을 제공합니다. 그러나 이러한 교차 플랫폼 에이전트 연구들은 교육 관련 독점 도메인 소프트웨어에 필요한 특정 지원을 다루지 않습니다. CRAB에서 제안한 방향성 아카이클 그래프 기반 작업 분해 방법은 우리의 작업 모델링에 큰 영감을 제공합니다. 그러나 그의 거시적 트래젝토리 일치 평가 접근법은 교육 시나리오에 중요한 실행 차이를 포착하는 데 부족함을 보입니다.
## 교육 시나리오에서의 작업 모델링 및 에이전트
교육용 에이전트 연구는 복잡한 환경과 도메인별 지식에 대한 강력한 의존성을 가진 이중 과제를 직면하고 있습니다. EduAgent는 다중 모달 상호 작용을 통해 작업 효율성을 높이지만, 일반적인 도구만을 대상으로 합니다. GUICourse는 GUI 고정화를 개선하지만 교차 플랫폼 상태 동기화에 무관심합니다. EduBench는 실제 벤치마크를 제공하지만 작업량이 적고 구조화된 지식이 부족합니다. 현재 연구들은 다음과 같은 주요 단점을 보여줍니다: (1) 작업 데이터셋은 대부분 일반 교육 플랫폼에 의존하고 있으며 학교별 맞춤 시스템 지원이 부족함; (2) 평가 지표는 거시적 지표에 초점을 맞추고 있어 실행 경로의 최적화 수준을 측정하기에는 충분하지 않음. 이러한 한계들은 교육 환경의 특정 요구사항에 맞춘 전용 평가 프레임워크를 필요로 하는 중요성을 강조합니다.
## 지식 강화 에이전트 아키텍처
지식 기반 증강은 도메인 간 에이전트 적응성 향상을 위한 효과적인 패러다임으로 부상하고 있습니다. GAT는 그래프 내 노드의 중요도를 동적으로 계산하는 주의 메커니즘을 제안하며, 이는 지식 아틀라스에서 노드 우선 순위 정렬에 적용 가능하고 본 연구 지식 기반의 우선 호출 메커니즘에 대한 이론적 근거를 제공합니다. PLaG는 그래프 구조를 활용하여 작업 계획 능력을 강화하였지만, 그들의 정적인 지식 표현은 교육 소프트웨어의 동적으로 변화하는 성격에 적합하지 않습니다. 기존 지식 강화 방법들은 주로 일반 목적이 있는 지식 그래프에 의존하고 있으며 학교별 소프트웨어를 위한 구조화된 모델링을 제공하지 못합니다. 이러한 중요한 그러나 거의 연구되지 않은 요소는 현재 교육용 에이전트의 성능을 제한하는 원인입니다.
## 에이전트 평가 방법론
에이전트 평가 시스템 개발은 결과 중심 지표에서 과정 중심 분석으로 추세를 이어가고 있습니다. AgentBench는 다차원 평가 벤치마크를 설립하였지만, 그들의 API 기반 검증 접근법은 GUI 운영 시나리오에 적합하지 않습니다. DyVal은 DAG 구조를 사용하여 작업 실행 증분을 포착하기 위한 동적 평가 프레임워크를 도입하였습니다; 그러나 이들의 이산 상태 라벨링은 역추적률과 같은 연속적인 지표를 측정할 수 없습니다. 미세한 평가에 관해, CRAB의 그래프 기반 평가자는 서브 작업 완성 상태를 검증하지만 실행 경로 효율성을 분석하는 능력이 부족합니다. 최근 연구들은 구조적 분석과 과정 추적을 결합하여 에이전트의 인지 능력을 더 정확하게 반영함을 보여주고 있습니다. 이러한 발견은 우리의 이중 그래프 평가 프레임워크 설계에 대한 이론적인 지원을 제공합니다.
# 방법
본 섹션에서는 지식 기반 강화와 이중 그래프 평가 체제를 결합한 교차 플랫폼 교육 에이전트 벤치마킹의 구체적인 구현을 소개합니다.
## 교육 데이터셋 구성
벤치마크는 교차 환경 작업을 커버하지만, 교육에서 다중 장치 협업은 빠져 있습니다. 우리는 중앙 중국 정규 대학의 실제 활동에 근거한 첫 번째 교육에 특화된 작업 집합을 도입하였습니다. 이는 Windows, Android 및 교차 플랫폼 실행을 지원하며 독점 소프트웨어를 포함하고 있습니다. CRAB에서 영감을 받은 우리는 분해, 템플릿 및 구성으로 확장합니다: 각 복잡한 작업이 원자 서브 작업으로 나뉘며 DAG로 연결됩니다. 예를 들어 "Xiaoya를 사용하여 '빅 데이터 기술' 과목의 과제를 확인하고 'Tasks 앱'에 해당 작업을 추가하라"라는 복잡한 작업은 다음과 같이 분해될 수 있습니다: "Xiaoya 앱 열기," "빅 데이터 기술 과목 진입," "과제 작업 보기," "Tasks 앱으로 전환," 그리고 "작업 추가." 이러한 서브 작업들은 그들 사이의 논리적 종속성을 모델링하는 DAG로 구성됩니다. 각 노드는 서브 작업을 나타내며, 각 엣지는 종속성을 나타냅니다.
구체적인 작업을 구현하기 위해 우리는 자연어 지시 패턴을 사용한 작업 템플릿을 설계하였습니다. 이러한 템플릿은 `{app_name}`, `{feature}`, `{action}`과 같은 입력 속성들을 포함하며, 특정 값으로 동적으로 대체될 수 있습니다. 예를 들어 "열고 {feature}에 {app_name}에서 {action} 수행 및 저장"이라는 템플릿은 실제 값을 입력하여 다양한 작업 인스턴스를 효율적으로 생성할 수 있습니다. 복잡한 시나리오는 여러 서브 작업 템플릿을 조합하여 다단계 작업을 만들 수 있습니다. 예를 들어, 교차 플랫폼 작업은 Windows에서 One-Stop Service Platform을 열고 메시지 센터에 접근하고, Android 장치의 Keep Notes 앱에 메시지 내용을 기록하는 것이 필요할 수 있습니다.
<figure id="fig:Knowledge-base" data-latex-placement="t">
<img src="/posts/2026/01/2026-01-04-190607-kgce__knowledge_augmented_dual_graph_evaluator_for/KGCE-Knowledge.png" style="width:100%" /> style="width:90.0%" />
<figcaption>지식 기반 모듈. 작업 설명과 패키지 이름이 주어진 경우, 시스템은 관련 패키지를 식별하고 지식 기반에서 해당 설명을 검색하여 LLM에 대한 프롬프트를 구성합니다. 지식 기반은 패키지, 페이지 및 요소별로 구조화되어 있으며 각 요소는 위치, 설명 및 하위 요소를 포함합니다.</figcaption>
</figure>
작업의 실행 가능성과 유효성을 보장하기 위해 우리는 각 서브 작업을 엄격히 검증하여 대상 플랫폼에서 실행할 수 있는지 확인하고 입력-출력 논리가 일관되도록 합니다. 결과적으로, 104개의 작업으로 구성된 데이터셋을 구축하였습니다. 이 데이터셋은 HuaShi XiaZi, Xiaoya Assistant, Keep Notes 및 MOOC 플랫폼과 같은 애플리케이션을 포함하며, 작업 다양성과 복잡성을 균형있게 조화시켜 후속 실험 및 평가에 견고한 기초를 마련하였습니다.
## 지식 기반 구축
Xiaoya Intelligent Assistant와 같은 독점 소프트웨어는 기존 MLMs가 거의 숙련하지 못한 고유한 인터페이스와 워크플로를 가지고 있습니다. 이러한 격차를 메우기 위해, 우리는 JSON 형식의 데이터베이스를 개발하여 교육 환경에서 사용되는 독점 소프트웨어에 대한 구조화된 지식을 제공합니다.
</div>
<div style="margin-top: 20px;"><a href="https://arxiv.org/pdf/2601.01366.pdf" target="_blank">ArXiv 원문 PDF 보기</a></div>
<div class="mobile-ad w-full my-6 text-center" style="border: 2px dashed red; background: #ffe6e6;"><ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-1873718820012422" data-ad-slot="auto"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script></div>
<br>
<h4>📊 논문 시각자료 (Figures)</h4>

<br>
<br>

<br>
<br>

<br>
<br>

<br>
<br>

<br>
<br>

<br>
<br>

<br>
<br>

<br>
<br>

<br>
<br>

<br>
<br>

<br>
<br>

<br>
<br>

<br>
<br>

<br>
<br>
<h4 style="margin-top: 3rem; margin-bottom: 1rem; border-bottom: 1px solid #e5e7eb; padding-bottom: 0.5rem;">감사의 말씀</h4>
이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.