함수 호출 모델 약점 탐색을 위한 강화학습 적대적 데이터 증강

함수 호출 모델 약점 탐색을 위한 강화학습 적대적 데이터 증강
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 함수 호출 기능을 갖춘 대형 언어 모델(LLM)의 약점을 체계적으로 발굴하고 보강하기 위해, 강화학습(RL) 기반의 적대적 쿼리 생성 모델을 도입한다. 제로섬 게임 형태로 쿼리 모델과 함수 호출(FC) 모델을 교대로 학습시켜, 고난도·다양한 오류 사례를 자동 생성하고 이를 FC 모델의 미세조정 데이터로 활용함으로써 일반화와 견고성을 크게 향상시킨다.

상세 분석

이 연구는 기존 함수 호출 모델 강화 방법이 ‘수동 라벨링’ 혹은 ‘자동 생성’에 의존하면서 데이터 다양성·목표성 부족이라는 근본적인 한계에 직면해 있음을 정확히 짚어낸다. 저자들은 이러한 문제를 해결하기 위해 두 개의 LLM, 즉 쿼리 모델(π_Q)과 함수 호출 모델(π_F)을 제로섬 게임 구조로 연결한다. 쿼리 모델은 강화학습 에이전트로서, 사전 정의된 시드 데이터셋을 템플릿화한 뒤, ‘쿼리 재작성’ 방식을 통해 원본 질의를 변형한다. 이때 보상 설계는 두 단계로 구성된다. 첫 번째는 비추론 기반 필터링으로, 재작성된 질의가 원본 툴 이름과 일치하는지를 검사해 의미적 일탈을 차단한다. 두 번째는 대형 판단 모델을 활용한 추론 기반 검증으로, 키 필드 누락·사용자 관점 전환 등 고차원 의미 오류를 탐지한다. 두 단계 모두 통과하면 ‘판단 보상’ r_judge=+1을 부여한다.

그 다음, 제로섬 게임의 핵심인 ‘적대적 보상’ r_adv는 π_F가 재작성된 질의에 대해 잘못된 함수 호출 결과를 내놓을 경우 +1, 올바른 결과를 내놓으면 -1을 부여한다. 즉, π_Q는 FC 모델을 오답으로 이끌수록 보상을 받고, π_F는 이러한 공격을 방어하도록 학습한다. 이러한 순환 구조는 두 모델이 서로의 성능을 끊임없이 압박하면서 동시에 안정적인 수렴을 유도한다.

다양성 확보를 위해 저자들은 임베딩 손실을 도입해 재작성된 질의들의 표현 공간이 일정 수준 이상 분산되도록 강제한다. 또한, 조기 종료 기준을 설정해 품질 저하를 방지하고, 커리큘럼 학습을 적용해 초기에는 쉬운 사례, 점차 어려운 사례를 제공함으로써 학습 난이도를 단계적으로 상승시킨다.

실험 결과, 제안된 적대적 데이터 증강 방식은 기존 SFT·RL 기반 데이터에 비해 오류율을 현저히 낮추고, 새로운 툴·파라미터 조합에 대한 일반화 능력을 크게 향상시킨다. 특히, 복합적인 다중 턴 대화와 긴 파라미터 리스트를 포함한 테스트에서 기존 베이스라인 대비 15~20% 이상의 정확도 상승을 기록한다. 이는 강화학습을 통한 목표 지향적 데이터 생성이 함수 호출 모델의 약점 탐색과 보강에 매우 효과적임을 실증한다.

전반적으로 이 논문은 함수 호출 LLM의 취약점을 자동으로 발굴하고, 이를 기반으로 모델을 지속적으로 개선하는 프레임워크를 제시함으로써, 향후 툴 연동형 AI 시스템의 신뢰성과 확장성을 크게 높일 수 있는 길을 열었다.


댓글 및 학술 토론

Loading comments...

의견 남기기