금융 추론을 위한 자동 스킬 증류와 적응 프레임워크

ASDA는 대형 언어 모델을 가중치 업데이트 없이 금융 분야에 맞게 조정하는 방법이다. 교사 모델이 학생 모델의 오류를 분석·클러스터링하고, 서브필드·오류 유형별로 구조화된 스킬 파일(절차, 코드 템플릿, 예시)을 자동 생성한다. 이 스킬을 추론 시 동적으로 삽입함으로써 FAMMA 벤치마크에서 산술 추론에 +17.33 pp, 비산술 추론에 +5.95 pp를 달성한다. 생성된 스킬은 인간이 읽을 수 있고 버전 관리가 가능하며 Agent Skill…

저자: Tik Yu Yim, Wenting Tan, Sum Yee Chan

금융 추론을 위한 자동 스킬 증류와 적응 프레임워크
본 논문은 대형 언어 모델(LLM)을 금융 분야의 복합적인 추론 작업에 맞게 조정하는 새로운 방법인 Automated Skill Distillation and Adaptation(ASDA)를 제안한다. 기존의 파인튜닝 기반 접근은 막대한 GPU 연산 비용과 라벨링 비용을 요구하고, 모델이 업데이트될 때마다 재학습이 필요해 실무 적용에 제약이 많다. 또한 규제가 강한 금융·법률·헬스케어 분야에서는 가중치에 직접 접근할 수 없는 상용 LLM을 API 형태로만 이용하는 경우가 대부분이다. 이러한 상황에서 최근 등장한 GEP‑A, ACE 같은 훈련‑프리 프롬프트 최적화 기법은 텍스트 문자열을 단순히 조정하는 수준에 머물러, 복잡한 다단계 도메인 추론을 충분히 지원하지 못한다는 점을 저자들은 실험을 통해 확인한다. ASDA는 ‘스킬’이라는 중간 표현층을 도입한다. 스킬은 서브필드(예: 고정수익, 파생상품, 기업재무)와 오류 유형(잘못된 방법 선택, 개념 혼동, 단위·통화 오류 등)별로 구조화된 Markdown 파일이며, 각 파일 안에는 ‘패턴’이라는 구체적인 실패 시나리오가 포함된다. 패턴은 (1) 지식 격차에 대한 간결한 설명, (2) 적용 조건, (3) 단계별 추론 절차, (4) 코드 템플릿, (5) 작업 예시를 제공한다. 이러한 스킬은 인간이 읽고 수정할 수 있도록 설계돼 버전 관리와 감사가 가능하도록 Agent Skills 표준과 호환된다. ASDA의 작동 흐름은 두 단계로 나뉜다. 첫 번째 ‘워밍업’ 단계에서는 교사 모델이 학생 모델이 훈련 데이터에서 틀린 답변과 그 추론 과정을 받아 오류를 구조화된 형태로 라벨링한다. 라벨링된 오류는 (서브필드, 오류 유형) 쌍으로 클러스터링돼 초기 스킬 라이브러리 K₀를 만든다. 두 번째 ‘반복 정제’ 단계에서는 현재 스킬 라이브러리를 적용한 결과와 적용하지 않은 결과를 비교해 Q⁺(스킬 적용 시 정답), Q⁻(스킬 적용 시 오답), Q_gap(양쪽 모두 오답) 세 집합을 만든다. 각 질문에 대해 가장 큰 영향을 미친 스킬 파일을 귀속시켜, 커버리지 부족(coverage gap)과 회귀(safety regression)를 진단한다. 교사 모델은 누락된 절차를 보강하거나 조건을 완화·수정해 스킬을 업데이트하고, 검증 게이트(정확도 임계치 τ)를 통과하면 라이브러리에 반영한다. 이 과정을 N번까지 반복해 스킬 품질을 점진적으로 향상시킨다. 실험은 금융 추론 벤치마크인 FAMMA를 사용했다. FAMMA는 8개의 서브필드와 산술·비산술 두 종류의 추론을 포함한다. 기존 훈련‑프리 방법인 GEP‑A와 ACE는 각각 2~4 pp 수준의 미미한 개선에 그쳤다. 반면 ASDA는 산술 추론에서 최대 +17.33 pp, 비산술 추론에서 +5.95 pp의 절대적 성능 향상을 기록했다. 특히 복리 할인, 현금 흐름 계산 등 다단계 산술 작업에서 큰 효과를 보였으며, 이는 스킬이 제공하는 명시적 절차와 코드 템플릿이 모델의 계산 흐름을 정확히 안내했기 때문이다. 논문의 주요 기여는 다음과 같다. (1) 블랙박스 LLM에 대한 최초의 스킬 기반 자동 적응 프레임워크를 제시, 파인튜닝 없이도 도메인 전문성을 부여한다. (2) 질문·정답만으로 자체 교사 모델이 오류를 분석·클러스터링하고, 구조화된 스킬 파일을 자동 생성·정제한다. (3) 생성된 스킬은 인간이 검토·수정 가능하고, 버전 관리와 감사가 가능한 표준 포맷으로 제공돼 기업 실무에 바로 적용할 수 있다. 한계점으로는 교사 모델의 품질에 크게 의존한다는 점, 스킬 파일이 과도하게 세분화될 경우 선택 비용이 증가할 수 있다는 점, 현재는 금융 분야에 특화된 오류 사전 정의에 기반하고 있어 다른 도메인에 적용하려면 새로운 오류 taxonomy가 필요하다는 점을 들 수 있다. 향후 연구는 교사 모델을 다중 LLM 앙상블로 강화하거나, 스킬 선택 과정을 라우팅 네트워크로 자동화해 효율성을 높이는 방안을 제시한다. 또한, 스킬의 재사용성을 높이기 위해 도메인 간 공통 패턴을 추출하고, 멀티모달 데이터(표, 차트)와 결합하는 확장도 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기