프롬프트스플릿으로 보는 프롬프트레벨 불일치 탐지

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

PromptSplit은 텍스트와 이미지(또는 텍스트) 임베딩을 텐서곱으로 결합한 뒤 커널 공분산 행렬을 구축하고, 두 생성 모델 간의 가중 차이 행렬의 고유벡터를 분석해 프롬프트별 행동 차이를 자동으로 찾아낸다. 랜덤 프로젝션을 이용해 계산량을 크게 줄이며, 이론적으로 O(1/r²) 수준의 근사 오차를 보장한다. 텍스트‑투‑이미지, 텍스트‑투‑텍스트, 이미지‑캡션 등 다양한 도메인에서 실제 모델 간 차이를 정확히 포착하고, 차이를 일으키는 프롬프트 군집을 해석 가능하게 제공한다.

상세 분석

PromptSplit은 “프롬프트‑출력”이라는 결합 공간을 명시적으로 모델링한다는 점에서 기존의 무조건적(프롬프트‑프리) 메트릭과 근본적으로 차별화된다. 구체적으로, 각 프롬프트 t와 해당 모델이 생성한 출력 x(또는 y)를 각각 CLIP, DINOv2, LLM 임베딩 등으로 매핑한 뒤, ϕ_T(t)⊗ϕ_X(x) 형태의 텐서곱 피처를 만든다. 이 텐서곱은 프롬프트와 출력 사이의 다항식 상호작용을 포착해, “프롬프트가 바뀔 때 출력이 어떻게 변하는가”를 고차원 커널 k_T(t,t′)·k_X(x,x′) 로 표현한다.

두 모델 A와 B에 대해 각각 C_T⊗X와 C_T⊗Y라는 경험적 커널 공분산 연산자를 계산하고, 가중 차이 Λ_{A,B|T}=C_T⊗X−η·C_T⊗Y 를 정의한다. 여기서 η는 두 모델의 샘플 수 차이를 보정하는 스케일 파라미터이다. Λ의 주요 고유값·고유벡터는 프롬프트 공간에서 모델 간 차이를 가장 크게 설명하는 방향을 의미한다. 즉, 해당 고유벡터에 높은 가중치를 갖는 프롬프트들은 두 모델이 서로 다른 스타일·구성·정렬을 보이는 경우를 집합적으로 나타낸다.

실제 고유벡터 계산은 텐서곱 차원 d_T·d_X 가 수백만에 달할 수 있어 직접적인 고유분해는 불가능하다. PromptSplit은 “커널 트릭”을 이용해 동일 스펙트럼을 갖는 2n×2n 크기의 블록 커널 행렬 K_Δ를 구성하고, 이를 랜덤 프로젝션(RP)으로 차원 r 로 압축한다. RP 단계는 Gaussian 매트릭스 R_T∈ℝ^{d_T×r}, R_X∈ℝ^{d_X×r} 를 샘플링해 (R_T⊗R_X)·(ϕ_T⊗ϕ_X) 를 저차원 피처로 변환한다. 이때 기대값 수준에서 원본 커널을 정확히 보존하며, 고유벡터의 근사 오차는 O(1/r²) 로 이론적으로 제한된다. 따라서 r을 수천 정도만 잡아도 수십만 샘플에 대한 스펙트럼 분석이 가능해진다.

실험에서는 (1) 합성 데이터에서 사전에 정의한 프롬프트 군집이 모델 간 차이를 일으키도록 설계했을 때 PromptSplit이 정확히 해당 군집을 복원하고, (2) 실제 텍스트‑투‑이미지 모델인 Stable Diffusion, Kandinsky, PixArt 등을 비교했을 때 스타일·구도·색채 등에서 차이를 보이는 프롬프트 그룹을 자동으로 추출했다. 특히, “여성 인물”, “밤하늘”, “극사실주의” 등 의미론적 카테고리가 고유벡터에 강하게 매핑되는 것을 확인했다. 또한 텍스트‑투‑텍스트 LLM 비교에서도 “정책 질문”, “역사적 인물” 등 특정 주제에 대해 답변 경향이 다른 프롬프트를 식별했다.

핵심 기여는 (i) 프롬프트‑조건부 차이 분석을 위한 커널 기반 프레임워크 제시, (ii) 텐서곱 결합을 통한 프롬프트와 출력의 상호작용 포착, (iii) 랜덤 프로젝션을 이용한 대규모 데이터에 대한 효율적 스펙트럼 추정 및 오차 이론 제공, (iv) 다양한 멀티모달 도메인에서 실용적인 불일치 지도 생성. 이러한 특성은 모델 선택, 파인튜닝 방향 설정, 윤리적 위험 평가 등 실무적·연구적 활용 가능성을 크게 확장한다.

프롬프트스플릿으로 보는 프롬프트레벨 불일치 탐지

초록

상세 분석

댓글 및 학술 토론

의견 남기기