문서 컬렉션을 위한 인터랙티브 스토리텔링: 토픽 기반 거리와 제약식 활용

본 논문은 방대한 비정형 텍스트 컬렉션에서 사용자가 원하는 스토리를 ‘연결’하는 과정을 인터랙티브하게 제어할 수 있는 새로운 프레임워크를 제시한다. 기존의 스토리텔링 알고리즘은 주로 문서 간 유사도(예: TF‑IDF, Jaccard) 혹은 공통 토픽을 기반으로 그래프를 구성하고, 최단 경로나 A* 탐색을 통해 시작 문서 s 에서 목표 문서 t 로 가는 경로를 찾는다. 그러나 이러한 접근은 사용자가 특정 문서를 반드시 포함하거나 특정 의미 흐름을 강조하고 싶을 때 제한적이다. 이를 해결하기 위해 저자들은 세 가지 혁신을 도입한다. 첫째, 문서 간 거리 측정에 LDA 기반 토픽 분포 θ(d)를 사용한다. 각 문서는 T 차원의 확률 벡터로 표현되며, 두 문서 간 거리는 맨해튼 거리 Σₜ|θ_iₜ − θ_jₜ| 로 정의한다. 이 거리 함수는 의미적 차이를 정량화하면서도 삼각 부등식을 만족해 A* 의 휴리스틱으로 적합하다. 둘째, 사용자가 제공하는 ‘must‑use’ 제약을 선형 부등식 형태로 변환한다. 사용자는 스토리 내에 반드시 포함돼야 할 문서 시퀀스 C = ⟨C₁,…,C_K⟩ 를 지정한다. 시스템은 C를 기준으로 새로운 휴리스틱 h* 를 구성하고, 기존 A* 탐색을 ‘제약 A*’ 로 확장한다. 이때 각 노드 D 에 대한 ‘조상(Ancestry)’ 정보를 유지해, 이미 피드백 경로에 포함된 부분은 비용 계산에서 우선 고려한다. 셋째, 피드백을 반영해 토픽 공간 자체를 재조정한다. 목표는 사용자가 선호하는 경로 P* 가 모든 대체 경로보다 비용이 낮도록 하는 것이다. 이를 위해 각 경로의 비용 차이를 토픽 차이 Δₜ 로 표현하고, ∑ₜ(Δ*_t − Δ_{o}_t) ≤ 0 형태의 부등식 시스템을 만든다. 또한 기존 비용 c₀(e) 를 하한으로 두어 문서 간 근접성이 급격히 변하지 않게 한다. 슬랙·서프러스 변수를 도입해 특정 용어의 가중치를 조절함으로써, 예를 들어 ‘chemical’, ‘factory’ 같은 키워드가 강조되도록 토픽‑단어 분포 φ를 재학습한다. 알고리즘 흐름은 다음과 같다. (1) 초기 LDA 모델을 학습하고, 토픽 기반 거리와 원본 A* 로 기본 스토리를 생성한다. (2) 사용자는 피드백 문서 시퀀스를 제공하고, 시스템은 이를 기반으로 제약 A* 를 실행해 후보 경로들을 탐색한다. (3) 부등식 시스템을 풀어 새로운 토픽 파라미터 θ′, φ′ 를 추정한다. (4) 수정된 거리와 휴리스틱으로 재탐색을 수행해 최종 스토리 P* 를 도출한다. 실험에서는 50문서·9주제의 합성 데이터와 실제 뉴스·과학 데이터셋을 사용했다. 합성 데이터에서는 사용자가 제시한 두 개의 피드백 문서를 통해 원래 비합리적인 경로(은행 강도 → 레드 트럭) 대신 화학 공장·스키 테마를 거치는 의미적 일관성을 가진 경로를 성공적으로 재구성했다. 실제 데이터에서는 피드백 1~2회만으로도 목표 스토리를 정확히 찾았으며, 탐색 비용은 기존 방법 대비 평균 30 % 이상 감소했다. 또한 토픽 재조정 후 단어 가중치 변화를 시각화한 결과, 사용자가 강조한 용어들의 확률이 눈에 띄게 상승함을 확인했다. 결론적으로, 본 연구는 사용자 중심의 스토리텔링을 가능하게 하는 인터랙티브 프레임워크를 제시한다. 토픽 기반 거리, 제약식 A* 탐색, 그리고 선형 부등식 기반 토픽 재학습이라는 세 축을 결합함으로써, 사용자는 최소한의 피드백으로도 원하는 의미 흐름을 반영한 스토리를 빠르게 얻을 수 있다. 향후 연구에서는 보다 복잡한 피드백(예: ‘반드시 제외’ 제약)과 대규모 실시간 시스템에의 적용을 탐색할 예정이다.

문서 컬렉션을 위한 인터랙티브 스토리텔링: 토픽 기반 거리와 제약식 활용

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기