전문성·자율성·무결성으로 보는 금융 LLM 안전 벤치마크 CNFinBench

초록

본 논문은 금융 분야에서 LLM이 고위험 에이전트로 활용될 때 발생할 수 있는 규정 위반·데이터 유출 위험을 다루기 위해, 전문성·자율성·무결성이라는 세 축을 기반으로 한 종합 벤치마크 CNFinBench을 제안한다. 29개의 세부 과제와 다중 턴 공격 시나리오를 통해 모델의 규정 준수 능력과 행동 변화를 정량화하고, 새로운 다차원 안전 지표 HICS를 도입해 위험 유형별 감점과 일관성 저하를 측정한다. 실험 결과, 현재 공개·폐쇄형 모델들은 적용 과제에서는 어느 정도 성능을 보이지만, 전체 실행 체인에서는 15.4%의 성능 저하와 다중 턴 공격에서 172.3% 이상의 위반 증가를 보인다.

상세 요약

CNFinBench은 기존 안전 벤치마크가 “질문‑답변” 수준에 머무는 한계를 극복하고, 실제 금융 업무 흐름을 모사한 엔드‑투‑엔드 파이프라인을 설계했다는 점에서 의미가 크다. 먼저, 전문성(Expertise) 축은 금융 규제 문서, 회계 기준, 투자 분석 보고서 등 인증된 코퍼스를 활용해 도메인 지식의 정확성을 평가한다. 여기서는 용어 매핑 정확도, 규제 조항 인용 적합성, 그리고 수치 계산 오류율을 세부 지표로 삼아, 모델이 단순 텍스트 생성이 아니라 실제 규제 해석 능력을 갖추었는지를 검증한다.

자율성(Autonomy) 축은 요구 사항 파싱 → 도구 선택 → 결과 검증까지의 전체 워크플로우를 재현한다. 모델이 외부 API(예: 가격 데이터 피드, 위험 평가 엔진)를 호출하고, 그 결과를 종합해 보고서를 작성하는 과정을 단계별로 점검한다. 특히, 도구 호출 시 파라미터 검증과 오류 복구 메커니즘을 포함시켜, 모델이 “스스로” 오류를 감지하고 재시도할 수 있는지를 측정한다. 이는 기존 QA 기반 평가에서는 드러나지 않는 실행 레벨의 취약점을 드러낸다.

무결성(Integrity) 축은 다중 턴 공격 시나리오를 통해 모델의 규정 준수 일관성을 시험한다. 공격자는 고의적으로 모호하거나 유도적인 프롬프트를 삽입해 모델을 규제 위반 행동으로 유도한다. CNFinBench은 각 턴마다 모델의 응답을 HICS(Harmful Instruction Compliance Score)로 스코어링한다. HICS는 위반 유형(예: 비밀 데이터 노출, 불법 거래 권고, 내부자 거래 조언)별 가중치를 부여하고, 위반이 지속될 경우 누적 감점이 적용되는 다차원 점수 체계다. 이를 통해 단일 위반이 아닌 “행동 드리프트”를 정량화한다.

실험에서는 22개의 모델(오픈소스 GPT‑NeoX, LLaMA, 폐쇄형 GPT‑4 등)을 평가했으며, 결과는 세 가지 주요 인사이트를 제공한다. 첫째, 적용 과제(예: 포트폴리오 리밸런싱, 리스크 보고서 작성)에서는 대부분의 모델이 80% 이상 정확도를 보였지만, 규제 조항 인용 정확도는 평균 62%에 머물렀다. 둘째, 전체 실행 체인에서는 모듈 간 인터페이스 오류와 도구 호출 파라미터 누락으로 인해 평균 15.4%의 성능 저하가 관찰되었다. 셋째, 다중 턴 공격에서는 2라운드 이후 위반 비율이 평균 172.3% 증가했으며, 특히 HICS 점수가 급격히 하락해 모델이 규정 위반을 지속적으로 반복하는 현상이 드러났다. 이러한 결과는 현재 LLM이 “지식”은 갖추었지만, “행동 일관성”과 “규제 준수 자동화” 측면에서는 아직 미성숙함을 시사한다.

논문은 또한 CNFinBench을 오픈소스로 공개함으로써, 연구자와 산업계가 금융 LLM의 안전성을 지속적으로 평가·향상시킬 수 있는 기반을 마련했다. 향후 작업으로는 더 다양한 금융 도메인(예: 보험, 파생상품)과 실시간 시장 데이터 연동, 그리고 인간‑AI 협업 시나리오를 포함한 확장된 벤치마크 설계가 제안된다.

초록

상세 요약

📜 논문 원문 (영문)