경계 인식 클러스터와 모멘텀 기반 프롬프트 최적화 C‑MOP
초록
C‑MOP은 배치 기반 텍스트 그래디언트를 활용해 프롬프트를 자동으로 개선한다. 경계 인식 대비 샘플링(BACS)으로 하드 네거티브, 앵커, 경계 쌍을 선정해 결정 경계를 정밀히 파악하고, 모멘텀‑가이드 의미 클러스터링(MGSC)으로 시간적 감쇠를 적용해 과거 그래디언트를 누적·가중한다. 이를 통해 잡음과 충돌을 억제하고, 4개 베엔치마크에서 기존 최첨단보다 1.5~3.3% 향상한다.
상세 분석
C‑MOP은 기존 텍스트 그래디언트 기반 프롬프트 최적화가 겪는 두 가지 핵심 문제—불완전한 경계 파악과 그래디언트 충돌—를 동시에 해결한다. 첫 번째 단계인 Boundary‑Aware Contrastive Sampling(BACS)은 전체 배치를 임베딩한 뒤 K‑means 클러스터링으로 의미 공간을 K개의 군집으로 나눈다. 각 군집의 오류율(Ek)을 기반으로 샘플링 할당량(Qk)을 비례 배분함으로써 오류가 집중된 영역을 우선 탐색한다. 이후 각 군집 내부에서 (1) Hard Negative: 오류 샘플 중 군집 중심에 가장 가까운 사례, (2) Anchor: 정상 샘플 중 중심에 가장 가까운 사례, (3) Boundary Pair: 양·음성 샘플 중 의미 거리 ‖e⁺‑e⁻‖가 최소인 n쌍을 추출한다. 이 삼중 구조는 “성공‑실패” 사이의 미세한 의미 차이를 극대화해 고대비 그래디언트를 생성한다는 점에서 기존 무작위 샘플링보다 훨씬 효율적이다.
두 번째 단계인 Momentum‑Guided Semantic Clustering(MGSC)은 시간적 감쇠 γ를 적용해 그래디언트 풀(Gpool)을 지속적으로 업데이트한다. 매 반복에서 새로 생성된 그래디언트 Gnew를 γ와 곱해 기존 풀에 가중 합산하고, 전체 풀을 다시 클러스터링해 각 클러스터 내 가중 평균을 계산한다. 이렇게 하면 단일 배치에서 발생하는 잡음성 신호는 희석되고, 여러 반복에 걸쳐 일관된 방향성을 보이는 그래디언트가 강조된다. 결과적으로 “텍스트 그래디언트”라는 비연속적 특성에도 불구하고, 모멘텀 메커니즘이 수렴성을 크게 향상시킨다.
C‑MOP은 최종 후보 프롬프트 집합을 생성한 뒤 Upper Confidence Bound(UCB) 전략을 적용해 탐색‑활용 균형을 맞춘다. UCB는 후보들의 기대 성능과 불확실성을 동시에 고려해 가장 유망한 프롬프트를 선택한다. 실험에서는 BBH, GSM8K, CFinBench, Liar 네 가지 데이터셋에서 PromptWizard·ProTeGi 등 기존 SOTA 대비 평균 1.58%~3.35%의 정확도 상승을 기록했으며, 특히 3B 파라미터 일반 LLM이 70B 도메인 특화 LLM을 능가하는 현저한 결과를 보였다. 이는 배치 규모 확대가 가져오는 이점(노이즈 감소)과 BACS·MGSC가 제공하는 정밀한 신호 선택·누적이 시너지 효과를 내었음을 의미한다. 전체적으로 C‑MOP은 대규모 배치 환경에서 프롬프트 최적화를 안정화하고, 텍스트 기반 피드백의 잡음 문제를 구조적으로 해결한 혁신적 프레임워크라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기