- Title: A Platform for Interactive AI Character Experiences
- ArXiv ID: 2601.01027
- 발행일: 2026-01-03
- 저자: Rafael Wampfler, Chen Yang, Dillon Elste, Nikola Kovacevic, Philine Witzig, Markus Gross
📝 초록
영화 캐릭터부터 현대 과학 소설까지 - 상호작용적이며 스토리 중심의 대화에 캐릭터들을 불러들인 것은 세대를 초월한 상상력을 사로잡았습니다. 이 비전을 달성하는 것은 매우 어렵고 언어 모델링 이상의 많은 요소가 필요합니다. 이를 이루기 위해서는 대화형 AI, 캐릭터 일관성 유지, 성격과 감정 관리, 지식 및 기억 처리, 음성 합성, 애니메이션 생성, 실제 세계 상호작용 활성화, 물리적 환경과의 통합 등 다양한 복잡한 AI 과제를 해결해야 합니다. 기초 모델 개발, 프롬프트 엔지니어링, 하류 작업을 위한 미세 조정에 대한 최근 발전은 연구자들이 이러한 각각의 문제들을 다루는 데 도움이 되었습니다. 그러나 상호작용적 캐릭터를 위해 이 기술들을 통합하는 것은 여전히 개방적인 문제입니다. 우리는 믿을 수 있는 디지털 캐릭터 설계가 편리하게 이루어질 수 있도록 하는 시스템과 플랫폼을 제시합니다. 우리의 시스템은 대화형 및 스토리 중심 경험을 제공하면서 모든 기술적 과제에 대한 해결책도 제공합니다. 증명용으로 디지털 아인슈타인이 소개됩니다. 이는 사용자가 알베르트 아인슈타인의 생애, 연구, 그리고 인물에 대해 대화할 수 있는 디지털 표현을 제공합니다. 디지털 아인슈타인은 특정 캐릭터를 위한 우리의 방법론을 보여주지만, 우리의 시스템은 유연하며 어떤 스토리 중심이나 대화형 캐릭터에도 일반화할 수 있습니다. 이러한 다양한 AI 요소들을 하나의 쉽게 적응 가능한 플랫폼으로 통합함으로써, 우리의 연구는 몰입감 있는 캐릭터 경험을 가능하게 하며, 실감나고 스토리 기반의 상호작용이라는 꿈을 현실로 만들어갑니다.
💡 논문 해설
1. **Key Contribution 1: 통합적인 AI 모듈을 활용한 이야기 중심의 대화형 캐릭터 개발**
- **메타포**: 이 시스템은 마치 요리사가 다양한 재료를 조합하여 맛있는 음식을 만드는 것과 같습니다. 각각의 AI 모듈이 서로 다른 역할을 수행하며, 이를 통해 이야기 중심의 대화형 캐릭터를 생성합니다.
Key Contribution 2: 디지털 인물의 신뢰성 유지 및 성격 조절 기능
메타포: 이 시스템은 마치 연극 배우가 다양한 역할을 자유롭게 소화하는 것과 같습니다. 캐릭터는 사용자의 선호도에 따라 개성과 반응 패턴을 조정할 수 있습니다.
Key Contribution 3: 실시간 응답 및 다중 모드 감지 기능 통합
메타포: 이 시스템은 마치 라디오 DJ가 다양한 음악 장르를 재생하면서도 청취자의 질문에 즉시 대응하는 것과 같습니다. 캐릭터는 사용자와의 상호작용을 통해 실시간으로 대답하며, 감성과 행동을 조절합니다.
대화 가능한, 생생한 디지털 캐릭터를 만들어 의미 있는 스토리 중심의 대화에 참여하게 하는 비전은 세대를 사로잡았습니다. 영화 캐릭터에서부터 역사적 인물의 디지털 표현까지 — 이러한 캐릭터들은 우리가 이야기를 경험하고, 디지털 존재와 감정적인 연결을 맺는 방식을 재정의합니다.
하지만 이 비전을 실현하는 것은 어려운 과제입니다. 대화 능력, 캐릭터의 일관성, 성격과 감정, 지식 및 기억, 음성 합성, 실제적인 애니메이션, 물리적 환경에 통합되도록 하는 등 다양한 요소를 자연스럽게 결합해야 합니다. 이러한 복잡성 때문에 디즈니의 “Turtle Talk with Crush"와 같이 배우들이 실시간으로 캐릭터를 조종하였습니다. AI 기술이 크게 발전했음에도 불구하고, 대화 시스템은 여전히 상호작용적이고 스토리 중심의 경험을 제공하는 데 어려움을 겪고 있습니다. 전략은 종종 애니메이션 합성 또는 언어 모델링과 같은 개별 구성 요소에 초점을 맞추며, 전체적인 일관성을 확보하는 것보다 그 부분적 성공에 중점을 두곤 합니다. 더욱이 캐릭터의 일관성, 사용자화, 그리고 구성 요소들의 실시간 동기화 요구 사항은 종종 충족되지 못합니다.
본 연구에서는 스토리 경험을 지원하는 신뢰할 수 있는 대화형 디지털 캐릭터를 생성하기 위한 모듈식 시스템을 제안합니다. GPT-4o와 미세 조정된 Llama 3 모델, 합성 대화 생성, 임베딩 기반 프롬프트 조향 및 스토리 일관성을 위해 메모리 시스템을 결합하여 이 문제들을 해결하고, 상호작용적이고, 스토리 중심이며 신뢰할 수 있는 상호 작용을 가능하게 합니다. 증명 개념으로 Digital Einstein이라는 알베르트 아인슈타인의 디지털 표현을 소개합니다. 이를 통해 사용자는 그의 과학 연구, 삶에서의 에피소드 및 역사적 배경에 대해 대화할 수 있습니다. 이 시스템은 물리 환경에 스토리 중심 AI 캐릭터를 통합하여 몰입형 경험을 제공합니다 (그림 [fig:teaser] 참조). Digital Einstein은 예제 애플리케이션에 불과하지만, 시스템 아키텍처는 매우 모듈식입니다. 개별 구성 요소는 캐릭터와 특정 목표 애플리케이션에 따라 쉽게 교환할 수 있습니다. 따라서 우리의 연구는 상호작용적이고 신뢰할 수 있는 디지털 캐릭터를 생생하게 만들어내는 새로운 가능성들을 열어놓습니다.
우리의 시스템은 신뢰할 수 있는 디지털 캐릭터를 가능하게 하는 몇 가지 기술 혁신을 제공합니다. GPT-4o와 미세 조정된 Llama 3 모델을 사용하여 캐릭터 일관성을 유지하며, 합성 대화 생성, 임베딩 기반 프롬프트 조향 및 스토리 일관성을 위한 메모리 시스템으로 보완됩니다. 성격은 동적으로 조정 가능하며, 감정 톤은 음성과 애니메이션을 통해 표현됩니다. 또한 Midjourney를 사용하여 대화를 시각적으로 풍부하게 합니다. 더불어 캐릭터는 카메라를 통한 물리적 환경 해석으로 상황 인식 능력을 갖추게 됩니다. 이러한 구성 요소들은 다양한 대화형 및 스토리 중심 애플리케이션에 적합한 모듈식이고 확장 가능한 플랫폼으로 통합되며, 테마가 있는 물리적 설정을 기반으로 몰입형이고 감정적으로 참여할 수 있는 상호작용을 제공합니다.
관련 연구
대화형 디지털 캐릭터
style="width:98.0%" />
시스템 개요: 이 파이프라인은 전사된 음성과 비디오 기반 사용자 특성 및 행동 분석을 포함한 센서 입력을, 메모리와 디지털 캐릭터의 조정 가능한 성격을 지원하는 LLM 기반 챗봇을 통해 처리합니다. 챗봇의 응답은 감정 검출에 따라 음성과 얼굴 애니메이션 합성을 안내하며, 아바타 상태에 따라 선택된 모션 캡처 몸체 애니메이션 및 이미지 생성을 기반으로 합니다.
대화형 디지털 캐릭터는 규칙 기반 시스템에서 LLM을 활용한 모델로 발전하여 동적인, 맥락이 풍부한 대화를 가능하게 하였습니다. 성격 모델링의 진보에는 동적으로 성격을 주입하는 것이 포함되며, 챗봇 응답은 미리 정의된 특성을 반영합니다. 감성 인식 시스템은 말하기 감정 인식과 텍스트 기반 감성 검출을 통해 사용자 참여를 개선합니다. 또한 모듈식 아키텍처는 대화 일관성 및 확장성을 촉진합니다.
대화형 AI는 교육, 의료, 스토리텔링 등 다양한 분야에서 활용됩니다. 이야기 에이전트는 작가가 작성한 대화를 통해 참여도를 높이며, LLM 기반의 스토리텔링은 일관된 이야기를 지원합니다. 이러한 시스템들은 복잡한 작업을 단순화하고 접근성을 향상시킵니다. 그러나 여러 교환에 걸친 의미 있는 상호 작용을 유지하는 것은 핵심적인 도전 과제입니다. 특히, 메모리 제약을 해결하는 것이 멀티턴 일관성 유지의 핵심입니다. 이러한 메모리 제약을 극복하기 위해 RAG는 검색 및 생성을 결합하여 챗봇이 장기 맥락을 유지하도록 돕습니다. 이중 메모리 시스템은 개인화와 흐름을 위해 단기 및 장기 데이터를 균형 있게 관리하며, 선택적 메모리는 사용자 경험과 검색 효율성을 개선합니다.
윤리 고려사항이 포함된 AI 기반의 이야기
초기 접근 방법으로는 아인슈타인 재창조를 위한 반자동 예술 파이프라인이 있었으며, 제한된 자원으로도 실재감을 달성할 수 있음을 보여주었습니다. 이에 기반하여 “Living Memories” 개념에서 본듯한 AI 기반의 대화형 에이전트는 레오나르도 다빈치와 같은 인물을 생생하게 만들었습니다. 역할극 중국 역사적 인물들을 위한 코퍼스 개발과 같이 더 큰 규모의 노력들은 맥락의 진정성 및 낮은 자원 데이터 통합이 미묘한 묘사를 위해 중요하다는 것을 강조했습니다. 한편 윤리적인 고려사항은 주요한 위치를 차지하고 있습니다. “디지털 니크로망시” 연구에서는 문화 유산을 보존하는 것과 진정성 및 동의 문제를 다루는 균형을 살펴보았습니다. 최근 작업은 LLM이 역사적 인물에 대한 간결한 묘사를 생성함으로써 디지털 인문학 접근성을 향상시키고 있으며, 교육에서 이야기 재구성의 윤리적 프레임워크를 안내합니다.
상호작용형 시스템
상호 작용형 시스템은 대화형 캐릭터를 발전시켜 생생하고 참여도 높은 상호 작용을 가능하게 합니다. 최근 프레임워크는 몸동작이 말하기 동작과 일치하도록 하여 감성적으로 풍부하고 맥락에 맞는 응답을 생성합니다. 모듈식 아키텍처는 대화 관리와 표현을 분리하여 사용자 정의 및 견고한 비언어적 의사소통을 지원합니다. 다른 end-to-end 파이프라인은 실제시간 오디오-비디오 동기화 및 인간형 특성을 갖춘 가상 에이전트를 강화합니다.
증강현실과 혼합현실 시스템도 이러한 발전에서 이점을 얻습니다. 음성 인식을 실시간 얼굴 애니메이션과 결합하는 시스템은 증강 현실에서 캐릭터 상호 작용을 향상시킵니다. MoodFlow는 프롬프트 내장 상태 머신을 사용하여 혼합 현실에서 감성 지능형 아바타를 안내합니다. 비전과 언어 모델을 통합하는 플랫폼은 맥락에 맞고 실시간 상호 작용을 가능하게 하며, 하이브리드 시스템은 불편하지 않고 공간적으로 몰입형 인터페이스를 통해 매끄러운 사용자 경험을 지원합니다.
과거 연구와 달리 우리는 통합적이고 사용자 맞춤형 프레임워크를 통해 신뢰할 수 있는 캐릭터로 스토리 중심 및 상호 작용적인 대화에 대한 AI 도전 과제를 해결합니다.
시스템 설계 및 요구 사항
시스템 요구 사항
우리의 시스템 개발은 몇 가지 목표(즉, 신뢰성, 유연성, 현실감)와 제약 조건(즉, 저지연, 견고성, 기술적 복잡도)에 의해 안내되었습니다.
모듈식 및 확장 가능 디자인: 다양한 맥락에서 쉽게 업그레이드 및 적응을 지원합니다.
사용자 중심 접근 방식: 사용자가 캐릭터의 성격을 조정하고 대화를 선호도에 맞게 맞춤설정할 수 있도록 직관적이고 사용자 정의 가능한 상호 작용을 보장합니다.
실시간 반응성: 모든 구성 요소에서 저지연을 유지하여 매끄러운 대화를 보장합니다.
견고성 및 신뢰성: 다양한 환경에서 원활한 작동을 보장하고, 다양한 조건에서도 견고하게 동작합니다.
몰입형 경험: 테마가 있는 물리적 설정과 공간 음향, 실제적인 애니메이션, AI 생성 응답에 맞게 동기화된 몸동작을 결합하여 자연스럽고 참여도 높은 상호 작용을 보장합니다.
시스템 개요
우리의 시스템은 상호 작용적이고 스토리 중심 캐릭터를 위한 복잡한 AI 도전 과제를 해결하기 위해 여러 연결된 AI 모듈로 구성되어 있습니다. 그림 1은 우리의 모듈 간 연결에 대한 고수준 개요를 제공합니다. 상세한 상호 작용 흐름은 그림 7에서 볼 수 있습니다.
시스템의 핵심 구성 요소는 Unity로 구현되어 있으며, 테마가 있는 장면 내에 디지털 캐릭터를 포함합니다. 캐릭터는 네 가지 다른 상태 사이를 전환합니다: 대기 중 (상호 작용 없음), 청취 중 (사용자 입력을 기다림), 생각 중 (입력 처리), 그리고 발화 중 (응답 전달). 카메라가 사용자를 감지하면(시스템은 카메라를 500ms마다 쿼리합니다) 유도적 애니메이션이 재생됩니다. 사용자가 앉으면, 캐릭터는 대기 중에서 발화 중으로 전환하여 임의로 선택된 환영 메시지로 대화를 시작하고, 사용자 입력을 기다립니다. 생각 중 상태에서는 음성 전사된 사용자 입력이 인식 모듈에 의해 처리되며, 이는 LLM 기반 챗봇을 지원합니다. 시스템은 행동 및 대화의 일관성을 유지하여 캐릭터의 신뢰성을 보장합니다. 또한 캐릭터는 지식 기반과 메모리를 활용하여 맥락에 맞는 응답을 제공합니다. 사용자는 물리적 슬라이더를 통해 캐릭터의 성격 특성 및 반응 패턴을 동적으로 조정할 수 있습니다. 챗봇 응답에서 추출된 감정은 음성과 애니메이션을 조절하는 데 사용되며, 음성 합성은 미세 조정된 Microsoft Azure 신경망 음성 모델을 사용합니다. 캐릭터의 애니메이션은 얼굴 표정과 Speech-to-Face에서 동적으로 생성되고 동기화되는 것에 더불어 모션 캡처 몸동작을 결합합니다. 발화 중 상태에서는 Midjourney를 사용하여 대화 맥락에 따라 이미지가 자동으로 생성됩니다. 상호 작용 전체에서 캐릭터는 청취 중, 생각 중, 그리고 발화 중 사이를 교차하며, 사용자 행동과 시스템 응답을 기반으로 상태 전환을 조정하여 유연한 대화 흐름을 유지합니다. 사용자가 7초 이상 침묵하면 챗봇에 신호가 보내져 적절하게 응답하도록 합니다.
설계 도전 과제 및 해결책
이 섹션에서는 신뢰할 수 있는, 대화형이고 스토리 중심의 캐릭터를 개발하는 데서 만나게 되는 주요 도전 과제와 그에 대한 우리의 해결책을 논의합니다.
대화형 지능형 챗봇
신뢰할 수 있는 디지털 캐릭터를 만들기 위해서는 고급 대화 능력이 필요합니다. 핵심적인 도전은 자연어 처리, 맥락에 맞는 응답 생성 및 사용자 몰입을 지원하는 일관되고 스토리 중심의 상호 작용을 유지할 수 있는 챗봇 개발입니다. 이러한 도전 과제를 해결하기 위해 최신 LLM인 GPT-4o와 Llama 3을 활용합니다. GPT-4o는 실시간 테마적 일관성과 높은 질의 참여를 위한 것이며, Llama 3은 프라이버시 및 비용 효율성을 요구하는 사설 배포 시나리오에 적합하며, 클라우드 서비스 중단 시 연속성을 보장하여 요구 사항 (3)과 (4)을 충족합니다.
캐릭터의 스토리와 주제
캐릭터의 전문 분야 및 개인 관심사와 관련된 $`M`$개의 주제를 수집했습니다. 아인슈타인 캐릭터에 대해 이 집합에는 그의 개인 생활, 과학 이론, 그리고 음악적 흥미 등 다양한 주제가 포함되어 $`M=62`$개입니다. 각 주제별로 GPT-4o를 사용하여 $`N`$개의 합성 인간-캐릭터 대화를 생성했습니다 (부록 참조). 각 대화 턴 $`t`$는 Microsoft Azure의 text-embedding-3-large 모델을 사용하여 임베딩되어 3072차원 벡터 $`\mathbf{e}_t`$가 생성됩니다. 각 대화에 대한 대표적인 벡터를 계산하기 위해 턴 수준 임베딩을 평균화합니다: $`\mathbf{e}_{\text{conv}} = \frac{1}{T} \sum_{t=1}^{T} \mathbf{e}_t`$, 여기서 $`T`$는 대화의 턴 수입니다. 주제별 표현을 얻기 위해 해당 주제 내 모든 대화 임베딩을 평균화합니다: $`\mathbf{e}_{\text{topic}}^{(j)} = \frac{1}{N} \sum_{i=1}^{N} \mathbf{e}_{\text{conv}}^{(i,j)}, j = 1, \dots, M`$. 그림 2는 합성 아인슈타인 대화의 임베딩 공간 시각화를 보여줍니다. 각 파란색 점은 다른 주제 클러스터를 나타내며, 사용자 상호 작용 경로는 빨간 선으로 표시됩니다.
/>
합성 아인슈타인 대화의 임베딩 공간 시각화. 파란 점들의 클러스터는 서로 다른 주제를 나타냅니다. 사용자 상호 작용 경로는 빨간색으로 표시되어 있으며, 시작점은 초록색으로 표시됩니다. "노벨상"에서 "유년기"로의 주제 전환은 사용자가 이동을 시작합니다.
대형 언어 모델
Llama 3 8B를 미세 조정하여 토픽 일관성과 캐릭터 특화된 토픽에 대한 지식을 강화했습니다.