DDL2PropBank 벤치마크 다중 에이전트 프레임워크 개발자 경험 평가
초록
DDL2PropBank는 관계형 데이터베이스 스키마를 PropBank 역할집합으로 매핑하는 새로운 과제를 제시한다. 동일한 에이전트 로직을 10개 다중 에이전트 프레임워크에 구현하고, 정적 코드 복잡도와 AI‑assistability(코드 자동 생성 가능성) 두 축으로 평가한다. 결과는 Pydantic AI와 Agno가 가장 낮은 코드 복잡도를 보이며, Agno가 구조적 정렬도와 실행 성공률 모두에서 최고 점수를 받아 전반적인 우수 프레임워크로 선정된다는 것을 보여준다.
상세 분석
본 논문은 다중 에이전트 프레임워크(MAF)의 개발자 경험을 정량화하기 위해 새로운 벤치마크인 DDL2PropBank를 설계하였다. 과제 자체는 데이터 정의 언어(DDL)로 표현된 관계형 스키마를 입력으로 받아, 각 테이블을 PropBank의 의미역(role set)과 매핑하고, 열을 ARG0, ARG1 등 역할에 연결하며 신뢰도 점수를 부여하는 복합적인 언어·논리 추론을 요구한다. 이는 기존 RelBench와 달리 스키마 수준에서 의미를 직접 추출하도록 강제함으로써 LLM이 단순히 데이터 패턴을 학습하는 것을 방지한다.
프레임워크 구현은 Agent‑as‑a‑Tool 패턴을 채택해 Orchestrator‑Coordinator‑TableMapper 3계층 구조를 동일하게 유지하였다. 각 프레임워크는 동일한 프롬프트와 MCP(모델 컨텍스트 프로토콜) 서버를 이용해 PropBank 질의와 파일 시스템 접근을 수행한다. 이렇게 함으로써 구현 차이가 API 설계와 추상화 수준에만 기인함을 보장한다.
코드 복잡도 평가는 논리 라인(LLOC)과 순환 복잡도(CCN) 두 지표를 사용했으며, Pydantic AI와 Agno가 각각 LLOC 52·54, CCN 3·4로 가장 낮은 값을 기록했다. 특히 Agno는 프레임워크 전용 import 수가 3개에 불과해 API 표면이 간결함을 보여준다. 반면 DSPy는 LLOC 88, CCN 20으로 가장 복잡했으며, 이는 MCP 지원 부재와 외부 라이브러리 통합 부담이 원인이다. 전체적으로 프레임워크마다 1.7배(LLOC)·3.3배(CCN) 차이가 발생해 설계 선택이 개발자 인지 부하에 큰 영향을 미침을 확인했다.
AI‑assistability 평가는 GitHub Copilot을 활용해 동일한 스타터 코드를 기반으로 자동 생성된 구현이 인간 레퍼런스와 구조적으로 얼마나 일치하는지를 측정하였다. 구조적 정렬 점수는 단일 정형 패턴을 갖는 프레임워크(Agno, Claude SDK, OpenAI Agents)에서 실행 성공률을 높은 신뢰도로 예측했지만, 다중 패턴을 허용하는 LangChain 등에서는 정렬 점수가 낮아도 실제 실행은 성공하는 경우가 있었다. 최종적으로 Agno는 구조적 정렬 83%와 pass@1 83%를 동시에 달성해 가장 높은 AI‑assistability를 보였다.
이 연구는 두 가지 중요한 시사점을 제공한다. 첫째, 프레임워크 설계 시 MCP와 같은 표준 툴 인터페이스를 네이티브하게 지원하고, 도구 선언을 통합하는 것이 코드 복잡도를 크게 낮출 수 있다. 둘째, AI 코딩 어시스턴트가 효과적으로 활용되기 위해서는 API가 일관되고 문서가 풍부해야 하며, 이는 프레임워크 선택에 있어 실질적인 사용성 차이를 만든다. 따라서 Agno와 같은 경량 프레임워크가 향후 LLM‑주도 개발 환경에서 주도적인 역할을 할 가능성이 높다.
댓글 및 학술 토론
Loading comments...
의견 남기기