다국어 에이전트 성능·보안 평가 벤치마크 MAPS
초록
MAPS는 GAIA, SWE‑Bench, MATH, Agent Security Benchmark 네 가지 기존 에이전트 벤치마크를 11개 비영어권 언어로 번역해 805개 과제, 9 660개 인스턴스를 제공한다. 실험 결과, 영어에서 다른 언어로 전환할 때 성능과 보안 모두 감소하며, 감소 정도는 과제 유형과 번역된 입력 토큰 비율에 따라 달라진다.
상세 분석
본 논문은 LLM 기반 에이전트가 다국어 환경에서 겪는 성능·안전성 저하 문제를 정량화하기 위해 체계적인 벤치마크인 MAPS를 설계·구축하였다. 먼저 GAIA(실생활 어시스턴트), SWE‑Bench(코드 생성), MATH(수학 문제 풀이), Agent Security Benchmark(보안·안전) 네 가지 널리 사용되는 에이전트 평가 데이터셋을 선정했으며, 각 데이터셋을 독일어, 스페인어, 포르투갈어(브라질), 일본어, 러시아어, 중국어, 이탈리아어, 아랍어, 히브리어, 한국어, 힌디어 등 11개 언어로 번역하였다. 번역 파이프라인은 (1) 구글 번역 등 NMT를 통한 구조 보존, (2) Cohere Command‑A 기반 LLM 번역으로 의미적 유창성 강화, (3) 자동 적합성·무결성 검사와 인간 전문가 검증을 결합한 3단계 절차로 구성돼 번역 품질을 94.2%의 답변 가능성, 평균 4.43~4.75(5점 척도)의 높은 점수로 입증했다.
에이전트 평가에서는 기존 영어 기반 에이전트를 그대로 사용해 각 언어별 인스턴스를 입력했으며, 성능 지표(정답 일치율, 테스트 케이스 성공률, 수학 정답 일치 등)와 보안 지표(공격 성공률·거부율)를 측정했다. 결과는 전반적으로 영어 대비 비영어 입력 시 성능이 평균 1218% 감소하고, 보안 측면에서는 공격 성공률이 59% 상승함을 보여준다. 특히 입력 토큰 중 비영어 비중이 높을수록 성능 저하가 심해지는 경향이 뚜렷했으며, 코드·수학 과제처럼 형식적 요소가 많은 작업에서는 번역 오류가 도구 호출이나 연산 단계에서 직접적인 실패를 초래했다. 보안 테스트에서는 비영어 프롬프트가 정책 위반 판단을 흐리게 만들어 에이전트가 위험한 행동을 수행하거나 거부하지 못하는 경우가 늘어났다.
이러한 발견은 LLM 자체의 다국어 이해 한계가 에이전트의 복합적인 계획·도구 사용까지 전이된다는 점을 강조한다. 또한, 현재 대부분의 보안·안전 방어 메커니즘이 영어 중심으로 설계돼 있어, 다국어 환경에서의 취약점이 노출될 위험이 크다는 실증적 근거를 제공한다. 논문은 번역 품질 향상, 다국어 프롬프트 정규화, 언어별 파인튜닝, 그리고 비영어 입력에 대한 별도 안전 검증 파이프라인 구축을 향후 연구 로드맵으로 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기