내러티브 유사도 비교를 위한 하이브리드 신경기호 캐스케이드 모델
초록
본 논문은 SemEval‑2026 Task 4(내러티브 스토리 유사도)에서 72.75% 정확도로 47팀 중 11위를 기록한 CascadeMind 시스템을 소개한다. 핵심 아이디어는 LLM의 다중 투표 결과에서 얻은 합의 정도를 불확실성 추정기로 활용해, 높은 합의(≥7/8)는 즉시 채택하고, 낮은 합의는 추가 투표와 최악의 경우 기호 기반 다중 스케일 서사 분석 앙상블로 보강한다. 실험 결과, 라우팅 전략이 성능 향상의 주된 요인임을 확인하였다.
상세 분석
CascadeMind은 “신경‑기호 캐스케이드”라는 두 단계 구조를 채택한다. 첫 단계에서는 Gemini 2.5 Flash 모델을 이용해 8개의 독립적인 응답을 동시에 생성하고, 각 응답을 A·B 중 하나의 선택지로 변환한다. 투표 집합 V={v₁…v₈}에 대해 다수결이 7표 이상(전체의 87.5% 이상)일 경우, 이를 ‘슈퍼메이저리티’ 경로라 부르고 바로 최종 예측으로 채택한다. 이 경로는 전체 사례의 약 74%를 차지하며, 개발 셋에서 85%의 정확도를 보인다.
투표가 6‑2, 5‑3, 혹은 4‑4와 같이 명확히 우세하지 않을 경우, 시스템은 추가로 3번의 API 호출을 수행해 각각 8표씩 더 얻는다(총 32표). 이 단계는 ‘에스컬레이션’이라 불리며, 평균 1.78번의 API 호출을 소모한다. 에스컬레이션 후 다수결을 적용했을 때 정확도는 67%로, 슈퍼메이저리티에 비해 낮지만 여전히 유의미한 성능을 제공한다.
마지막 5%의 경우, 32표가 정확히 16‑16으로 동점이 되면 기호 기반 서사 분석 앙상블로 넘어간다. 이 앙상블은 다섯 가지 서사 신호를 결합한다: (1) TF‑IDF 기반 어휘 유사도(가중치 0.49), (2) 이야기 구조(프롭·토도로프 기반) 유사도(가중치 0.40), (3) 문장 임베딩 기반 의미 유사도(가중치 0.08), (4) 감정·긴장 곡선 상관계수(가중치 0.02), (5) 사건 체인 LCS(가중치 0.01). 가중치는 차등 진화 알고리즘을 통해 합성 훈련 데이터(1,900개 트리플렛)에서 최적화되었으며, 검증 셋에서는 99.5%의 정확도를 기록했다. 그러나 실제 개발·테스트 환경에서는 동점 상황에서 61% 수준에 머물러, 신경‑기호 결합이 아니라 라우팅 자체가 핵심 성능 요인임을 시사한다.
불확실성 추정으로서 투표 합의도를 활용한 접근은 ‘선택적 예측(selective prediction)’ 개념과 일맥상통한다. 높은 합의는 모델이 해당 입력에 대해 충분히 확신한다는 신호이며, 낮은 합의는 추가 연산(에스컬레이션)이나 보조 기호 모듈을 호출하도록 트리거한다. 이 설계는 API 비용을 절감하면서도 어려운 사례에 대해 추가 정보를 확보하도록 설계돼, 실제 사용 시 비용‑성능 트레이드오프를 효과적으로 관리한다.
또한, 논문은 기호 모듈이 훈련 데이터와 실제 테스트 데이터 사이의 도메인 차이를 완전히 메우지는 못한다는 점을 지적한다. 훈련 데이터는 LLM이 생성한 합성 트리플렛이며, 여기서는 어휘·구조 신호가 과도하게 강조되는 경향이 있다. 반면 실제 테스트에서는 보다 복합적인 서사 흐름과 세계 지식이 요구돼, 기호 신호의 제한적인 가중치가 성능 한계로 작용한다. 이는 향후 사건 체인 추출을 더 정교화하거나, 의미역(labeling) 기반의 사건 표현을 도입함으로써 보완할 수 있다.
전체적으로 CascadeMind은 “언제 모르는지를 아는” 메커니즘을 구현함으로써, 대형 LLM을 그대로 사용하는 것보다 더 효율적이고 견고한 성능을 달성했다. 라우팅 전략이 핵심이며, 기호 모듈은 현재는 보조적인 역할에 머물지만, 더 풍부한 서사 지식과 정교한 규칙을 결합한다면 더욱 강력한 하이브리드 시스템으로 확장될 가능성이 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기