스케치와 주석을 활용한 생성 AI 이미지 정교화 비교 연구
초록
본 논문은 텍스트 프롬프트, 시각적 스케치·주석, 그리고 두 가지를 결합한 멀티모달 입력이 생성 AI 이미지 정교화에 미치는 영향을 실험적으로 비교한다. 형성 연구와 30명의 디자이너를 대상으로 한 실험을 통해 시각적 입력이 공간적 편집에서 명확성과 속도를 높이고 작업 부담을 감소시키는 반면, 텍스트는 의미적·전역적 변형에 강점이 있음을 확인했다. 두 입력을 동시에 사용할 때 가장 높은 만족도와 효율성을 얻었으며, 작업 유형에 따라 선호 전략이 달라진다는 실용적 인사이트를 제공한다.
상세 분석
이 연구는 생성 AI 이미지 도구가 초기 아이디어 발산에는 강점이 있지만, 세밀한 레이아웃·스케일·시각 속성 조정 등 정교화 단계에서는 텍스트 기반 인페인팅이 모호하고 비효율적이라는 문제점을 지적한다. 이를 해결하고자 저자는 펜 기반 스크리블과 주석을 ‘행동 가능한 시각 프롬프트’로 정의하고, 텍스트·시각·결합 세 가지 입력 방식을 지원하는 프로토타입을 설계했다. 형성 연구(7명 전문가)에서는 디자이너들이 공간적 관계를 표현할 때 시각적 표시를 선호하고, 의미적 설명은 텍스트에 의존한다는 초기 인사이트를 얻었다. 본격 실험(30명, 디자인 전공·학생)에서는 폐쇄형·개방형 과제를 통해 네 가지 핵심 지표(표현력, 효율성, 작업 부하, 사용자 경험)를 측정했다. 결과는 다음과 같다. ① 시각적 프롬프트는 객체 이동·크기·방향 등 공간 편집에서 명확한 영역 지정과 빠른 피드백을 제공해 작업 시간을 평균 22 % 단축하고 NASA‑TLX 부하 점수를 1.8점 낮췄다. ② 텍스트 프롬프트는 ‘새 객체 추가’, ‘재질·스타일 지정’ 등 전역적·추상적 변형에서 높은 정확도를 유지했으며, 특히 모델의 언어 이해를 활용해 복합적인 컨셉을 전달하는 데 유리했다. ③ 두 입력을 동시에 사용할 때는 ‘시각‑우선·텍스트‑보완’ 전략이 주를 이루었으며, 이는 사용자가 시각적으로 의도를 고정한 뒤 텍스트로 세부 속성을 명시함으로써 불확실성을 최소화한다는 점을 시사한다. ④ 작업 유형별 선호도 차이도 뚜렷했는데, 새로운 객체 삽입은 시각·텍스트 복합 입력이 가장 효율적이었고, 기존 요소의 위치·크기 조정은 순수 시각 입력만으로도 충분히 수행되었다. 이러한 발견은 정교화 단계에서 멀티모달 인터페이스가 단일 텍스트보다 더 높은 표현성을 제공하고, 디자이너의 작업 흐름에 자연스럽게 녹아들 수 있음을 입증한다. 또한, 시각적 입력이 ‘즉시 피드백·반복’ 루프를 촉진해 디자인 탐색의 비용을 감소시키는 메커니즘을 밝혀냈다.
댓글 및 학술 토론
Loading comments...
의견 남기기