복잡한 금융 텍스트 핵심 메시지 추출을 위한 DisSim FinBERT 텍스트 단순화
초록
DisSim‑FinBERT는 복잡한 중앙은행 회의록 등 장문의 금융 문서를 ‘Discourse Simplification(DisSim)’ 기법으로 문장 구조를 계층적으로 분해하고, 이를 Aspect‑Based Sentiment Analysis(ABSA)와 결합해 핵심 어스펙트와 감성을 정확히 추출한다. 규칙 기반 문장 분할·재구성, 핵심‑보조 문장 구분, 수사 관계 라벨링을 통해 원문 의미를 보존하면서도 모델의 입력 복잡도를 낮추어 FinBERT의 감성 예측 정확도를 크게 향상시킨다.
상세 분석
DisSim‑FinBERT는 두 가지 핵심 모듈을 결합한다. 첫 번째는 DisSim 모듈로, 35개의 손수 만든 구문 규칙을 이용해 복합 문장을 최소 명제 단위로 재구성한다. 규칙은 구문 트리의 구문·어휘 특징을 활용해 절·구를 핵심(Core)과 보조(Satellite)로 구분하고, 재귀적으로 적용해 다층적인 ‘디스코스 트리’를 만든다. 이 과정에서 문장의 핵심 주장(Level 0)과 이를 뒷받침하거나 부연하는 Level 1·2 문장을 명확히 구분한다. 두 번째는 ABSA 모듈로, 기존 FinBERT를 사전학습한 뒤 DisSim으로 전처리된 문장에 대해 미세조정한다. 핵심 문장에만 감성 라벨을 부여함으로써 코사인 유사도에 의한 오분류를 방지하고, 다중 어스펙트(인플레이션, 고용, 성장 등)별 감성 점수를 동시에 추출한다.
데이터셋은 2006‑2023년 FOMC 회의록에서 추출한 32 034개 문장으로, 1 030개는 전문가가 3인 라벨링한 감성·어스펙트 라벨을 갖는다. 라벨링 절차는 최소 2인 동의 원칙을 적용해 신뢰성을 확보했으며, 불일치 문장은 제외했다. 실험에서는 원문 그대로 입력한 FinBERT와 비교해 DisSim‑FinBERT가 어스펙트 식별 정확도(F1) 8.7 %p, 감성 정확도 6.3 %p 상승했으며, 특히 핵심 문장에 대한 예측이 크게 개선되었다.
기술적 강점은 (1) 복잡한 금융 언어를 인간 수준의 규칙으로 구조화해 모델 입력을 단순화, (2) 핵심‑보조 구분을 통해 감성 신호가 희석되는 현상을 최소화, (3) 기존 FinBERT와 호환 가능한 파인튜닝 파이프라인을 제공한다는 점이다. 한계로는 규칙 기반 분할이 도메인·언어에 민감해 다른 국가·언어의 중앙은행 문서에 바로 적용하기 어렵고, 자동화된 규칙 학습이 필요하다는 점이다. 향후 연구에서는 규칙 자동 추출, 멀티모달(텍스트·표·그래프) 통합, 그리고 실시간 정책 모니터링 시스템에의 적용을 제안한다.
댓글 및 학술 토론
Loading comments...
의견 남기기