스토리텔링을 위한 시각·텍스트 통합 편집 시스템 Vistoria
초록
Vistoria는 텍스트와 이미지를 동등한 서사 재료로 다루는 공동 편집 도구이다. Wizard‑of‑Oz 설계 연구와 통제 실험을 통해, 라소·콜라주·시점 전환·필터와 같은 ‘도구적 연산’이 시각·언어 간의 정렬을 촉진하고, 작가의 표현력·몰입감·협업성을 높이며, 인지 부하를 약간 증가시키는 대신 저작자 주체성과 소유감을 강화한다는 결과를 제시한다.
상세 분석
본 논문은 인간 사고가 시각·언어 이중 코딩에 기반한다는 인지 이론(Dual Coding Theory)을 출발점으로, 기존 텍스트 중심 창작 도구가 시각적 아이디어를 텍스트로 재번역해야 하는 비용을 지적한다. 이를 해소하기 위해 저자들은 Instrumental Interaction 이론을 차용해 ‘도구적 연산(instrumental operations)’이라는 개념을 도입하였다. 라소(Lasso)는 이미지와 텍스트 영역을 동시에 선택·재배치하고, 콜라주(Collage)는 여러 시각·텍스트 조각을 하나의 새로운 서사 단위로 합성한다. 시점 전환(Perspective Shift)은 이미지의 시점·구도를 바꾸면서 해당 텍스트의 서술 관점을 자동으로 전환하고, 필터(Filter)는 색채·스타일 변형을 텍스트 어조 변화와 연결한다. 이러한 연산은 ‘다형성(polymorphism)’과 ‘재현화(reification)’ 원칙에 따라 텍스트와 이미지 모두에 동일하게 적용될 수 있어, 모드 전환 비용을 최소화한다.
형성 연구(Wizard‑of‑Oz)에서는 10명의 숙련 작가가 스케치·이미지·주석을 활용해 아이디어를 외재화하고 구조화하는 과정을 관찰했다. 작가들은 시각 자료를 ‘아이디어 캔버스’로 활용하면서, 텍스트와 이미지 사이의 상호 참조를 통해 새로운 플롯 전개와 캐릭터 관계를 탐색했다. 이 결과를 토대로 Vistoria는 캔버스 기반 UI와 LLM‑지원 자동 생성·동기화 엔진을 구현하였다. 통제 실험(12명)에서는 전통 텍스트 편집 도구와 비교했을 때, Vistoria 사용자는 (1) 표현 다양성(다양한 이미지·텍스트 조합)과 몰입감이 유의하게 상승했으며, (2) 아이디어 발산과 대안 탐색이 증가했고, (3) 협업 시 공동 시각·텍스트 정렬이 원활해졌다. 반면, 멀티모달 조작으로 인한 물리·인지적 워크로드가 약간 증가했으며, 이는 인터페이스 학습 비용과 연산 복잡도에서 기인한다. 그러나 작가들은 ‘내가 직접 이미지와 텍스트를 동시에 다룰 수 있다’는 주체감과 소유감이 크게 향상되었다고 보고하였다.
시스템 설계 측면에서 저자들은 LLM을 활용해 텍스트와 이미지 간 의미적 매핑을 자동화했으며, 사용자가 선택한 영역에 기반해 이미지 생성·수정 프롬프트를 동적으로 생성한다. 또한, ‘정렬(alignment)’ 메커니즘을 통해 텍스트 편집이 이미지 메타데이터(위치·크기·시점)와 실시간으로 동기화된다. 이는 기존 도구가 텍스트와 이미지를 별도 저장소에 두고 일관성을 유지하기 위해 수동 작업을 요구하던 점을 크게 개선한다.
결론적으로, Vistoria는 멀티모달 공동 편집을 통해 서사 창작의 ‘추상‑구체’ 사이클을 순환적으로 지원한다는 점에서 학술적·실용적 기여가 크다. 향후 연구는 워크로드 감소를 위한 제스처 기반 단축키, 대규모 협업 시 버전 관리, 그리고 다양한 장르(게임 시나리오·광고 카피 등)로의 적용 가능성을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기