텍스트 흐름 속 배우 식별과 증분 마인드맵 구축

본 논문은 “배우(Actor) 식별 및 콜로케이션 기반 증분 마인드맵”이라는 새로운 텍스트 분석 프레임워크를 제안한다. 텍스트 스트림을 읽어들일 때, 각 문장을 하나의 배우에게만 할당하는 ‘one‑actor‑per‑sentence’ 규칙을 적용한다. 이를 위해 먼저 문장을 형태소 분석하고 스테밍한 뒤, 복합문을 단순화하고, 주어‑동사‑목적어 혹은 형용사‑명사 형태의 콜로케이션으로 정규화한다. 주어는 배우, 동사는 관계, 목적어·형용사는 객체 역할을 하며, 이 구조를 기반으로 각 배우별 마인드맵을 구축한다. 마인드맵은 배우마다 하나의 메인 블록과 동사별 서브 리스트로 구성된다. 새로운 콜로케이션이 등장하면 해당 배우의 메인 블록에 동사를 키로 하여 저장하고, 동일 동사‑객체 조합이 재등장하면 리스트에 추가·갱신한다. 이때 콜로케이션이 등장한 문장 번호를 함께 기록해 시간 정보를 보존한다. 우선순위 함수는 마인드맵 내 콜로케이션을 최신성 및 반복성에 따라 정렬하기 위해 설계되었다. 세 가지 함수는 다음과 같다. 1. **F₁(c, ~xₖ) = Σ₍i₎ 0.5^{c‑xᵢ}** – 현재 문장 번호 c와 과거 등장 위치 xᵢ의 차이에 기하급수적 가중치를 적용한다. 최신에 가까울수록 높은 점수를 부여하고, 반복이 많을수록 가중치가 누적된다. 2. **F₂(bₐ, c, lₖ) = bₐ·c‑lₖ** – bₐ는 0.5, 0.5², … 0.5ᵈ까지의 합으로, 반복 횟수 d에 비례해 증가한다. 따라서 반복된 콜로케이션은 시간 차이에 관계없이 높은 점수를 얻는다. 3. **F₃(c, lₖ) = 0.5^{c‑lₖ}** – 가장 단순한 형태로, 최신성만을 고려한다. 사용자는 GUI에서 배우를 선택하고, 원하는 우선순위 함수를 지정한다. 시스템은 해당 함수에 따라 콜로케이션을 재정렬하고, 임계값 Δ를 초과하는 항목을 화면에 표시한다. 표시 방식은 글자 크기·색상 등으로 가중치를 시각화한다. 구현 및 실험은 독일어 동화 ‘빨간 모자(Rothkäppchen)’를 대상으로 수행했다. 텍스트를 문장 단위로 스트리밍하면서 배우 ‘Wolf’, ‘Jäger’, ‘Blumen’ 등을 식별하고, 각 배우에 대한 콜로케이션 리스트를 구축하였다. 예를 들어, ‘Wolf‑sein‑böse’가 5, 15, 17번째 문장에서 등장했을 때, 세 함수는 각각 0.156, 0.670, 0.125의 점수를 산출하였다. 이는 반복이 많을수록 F₂가 가장 높은 점수를 부여함을 보여준다. 또한, 20번째 문장 이후 ‘Blumen‑sein‑schön’과 ‘Blumen‑schön’의 점수 변화를 그래프로 제시해, 함수 선택에 따라 마인드맵의 강조점이 달라짐을 확인했다. 논문의 주요 기여는 다음과 같다. (1) 배우 중심의 텍스트 분할 방식으로, 각 배우에 대한 독립적인 의미 네트워크를 형성한다. (2) 콜로케이션을 시간·반복 정보를 포함한 구조로 저장하고, 이를 기반으로 다양한 우선순위 함수를 제공한다. (3) 증분 처리와 실시간 시각화를 통해 사용자가 원하는 시점에 최신 사건을 빠르게 파악하도록 지원한다. 하지만 몇 가지 한계도 존재한다. 전처리 단계에서 대명사 해소와 복합문 분해는 인간 감독이 필요하며, 자동화 수준이 낮다. 평가가 정성적이며, 정확도·재현율 같은 정량적 지표가 부족하고, 실험이 동화와 같이 구조가 단순한 텍스트에만 국한된다. 향후 연구에서는 대규모 코퍼스와 다국어 적용, 자동 대명사 해소, 그리고 정량적 평가를 통해 시스템의 일반화와 실용성을 높일 필요가 있다. 결론적으로, 이 연구는 텍스트 흐름 속에서 배우와 그 행동을 추적하는 새로운 방법론을 제시하고, 시간·반복성을 고려한 우선순위 기반 마인드맵을 통해 스토리라인 분석 및 인터랙티브 독서 지원 시스템에 활용 가능한 기반을 제공한다.

텍스트 흐름 속 배우 식별과 증분 마인드맵 구축

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기