개인 서사와 스토리 인텐션 그래프를 담은 PersonaBank 코퍼스
초록
PersonaBank는 웹 로그에서 추출한 108개의 개인 서사를 STORY INTENTION GRAPH(SIG) 형태로 주석 달아 만든 코퍼스이다. 이야기는 주제, 긍정·부정 정서, 타임라인, 의도·목표, 정서적 영향 등 네 층위로 구조화되며, Scheherazade 도구를 활용해 비전문가도 쉽게 주석할 수 있다. 이 자료는 서사 분석, 자동 요약, 스타일 변형 등 다양한 자연어 처리·생성 연구에 활용될 수 있다.
상세 분석
본 논문은 개인 서사를 형식화된 의미 구조인 STORY INTENTION GRAPH(SIG)로 변환하는 전 과정을 상세히 제시한다. SIG는 타임라인 레이어(사실을 서술형 명제‑인수 구조로 배열), 인터프리티브 레이어(인물의 목표·계획·시도·결과를 포착), 정서 레이어(행동이 인물에게 미치는 정서적 영향을 표시) 등 세 개의 심층 레이어와 표면 레이어로 구성된다. 이러한 다층 구조는 서사의 ‘무엇이 일어났는가’를 넘어서 ‘왜 일어났는가’를 명시적으로 모델링한다는 점에서 기존 텍스트 기반 비교와 차별화된다.
코퍼스 구축 단계에서는 Spinn3r 데이터베이스에서 주제 키워드(예: garden, snow 등)를 이용해 1.5 백만 건 중 관련 이야기를 추출하고, 인간 판독을 통해 긍정·부정 정서와 서사의 일관성을 검증하였다. 최종적으로 108편의 이야기를 선정했으며, 평균 269단어(최소 104, 최대 959) 규모다. 주제 분포는 건강, 날씨, 야생동물, 스포츠, 휴일·가족, 연애 등 12개 카테고리로 다양하고, 긍정·부정 비율이 거의 균형을 이룬다.
주석 도구인 Scheherazade는 VerbNet과 WordNet을 기반으로 한 프레임을 제공하고, 사용자는 텍스트 구간을 강조해 해당 구문을 적절한 의미 프레임에 매핑한다. 도구는 ‘what‑you‑see‑is‑what‑you‑mean’(WYSIWYM) 방식을 채택해 실시간으로 자연어 실현을 보여 주어 비전문가도 직관적으로 주석을 완성할 수 있다. 특히 1인칭 서술인 경우, 내레이터를 별도 ‘character’로 정의하고, 사물·장소를 ‘prop’으로 구분함으로써 코어퍼런스 처리와 정서 레이어 연결이 용이해졌다.
주석 과정에서 발견된 주요 어려움은 개인 서사의 비구조적 표현, 은유·암시적 의미, 그리고 사건 간 인과관계가 명시되지 않은 경우였다. 이를 해결하기 위해 annotator에게 전체 이야기를 사전 숙지하도록 하고, 핵심 사건·목표·결과만을 선택적으로 주석하도록 지침을 강화하였다. 또한, 인터프리티브 레이어의 ‘precondition’·‘prevent’ 등 관계 유형을 명확히 정의해 복잡한 사회적 갈등(예: Protest Story)도 일관되게 모델링했다.
응용 측면에서는 SIG를 기반으로 다양한 스타일(공식적·구어체), 공동 서술(co‑telling), 혹은 내용 플래너로 활용할 수 있다. 기존 DramaBank와의 호환성을 유지하면서 개인 서사에 적용함으로써, 서사 구조 연구와 자동 서사 생성, 감정 분석 등 다방면에 활용 가능한 풍부한 자원을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기