하이브리드 프롬프트 최적화로 LLM 특징 시각화
초록
본 논문은 대규모 언어 모델(LLM)의 활성화 공간에 존재하는 희소 자동인코더(SAE) 잠재 방향을 시각화하기 위해, 빔 서치 초기화와 적응형 그래디언트 기반 변이를 결합한 ADAPT 알고리즘을 제안한다. ADAPT은 기존의 그리디 코디네이트 그래디언트(GCG), 빔 서치(BEAST), 진화적 프롬프트 최적화(EPO) 등에 비해 활성화 강도와 텍스트 유창성 모두에서 우수한 성능을 보이며, 데이터셋 검색 없이도 개별 잠재에 대한 최적 프롬프트를 효율적으로 생성한다.
상세 분석
ADAPT은 LLM 특징 시각화라는 특수 목적에 맞춰 설계된 하이브리드 탐색 프레임워크이다. 첫 단계인 빔 서치 초기화는 다중 빔을 병렬로 운영해 다양한 시작점을 제공함으로써 로컬 미니마에 빠지는 위험을 크게 감소시킨다. 여기서 빔은 단일 토큰 시퀀스로 시작해 오른쪽 토큰을 추가하는 전통적 빔 서치와, 중간 삽입(middle‑insert) 연산을 결합한다. 중간 삽입은 모델 자체의 토큰 확률분포를 활용해 임의 위치에 토큰을 삽입함으로써, ‘foo’와 같은 특정 토큰에만 의존하는 편향을 완화한다.
본격 최적화 단계에서는 두 가지 변이 연산을 교차 사용한다. 첫 번째는 GCG 방식의 그래디언트 기반 토큰 교체로, 임베딩 레이어에 대한 미분을 이용해 토큰 교체 후보를 정량화한다. 두 번째는 EPO에서 차용한 로그잇‑스와프(logit‑swap)로, 모델의 출력 로그잇을 직접 샘플링해 후보를 생성한다. ADAPT은 사용자가 지정한 확률에 따라 이 두 연산을 다중항 선택(multinomial)으로 섞어 사용하며, 로그잇‑스와프는 계산 비용이 낮아 후보 수를 늘릴 수 있는 장점이 있다.
선택 메커니즘은 그룹별 ‘보장 슬롯(guaranteed slot)’과 전역 ‘그리디 슬롯(greedy slot)’을 구분한다. 각 빔(그룹)에서 최고 점수를 유지하는 보장 슬롯은 탐색 다양성을 보존하고, 지정된 merge‑point 이후에는 전체 후보 중 최고 점수를 가진 프롬프트를 선택해 수렴 속도를 높인다. 이 설계는 ‘플루언시‑활성화’ 트레이드오프를 명시적으로 관리한다. 논문에서는 플루언시 페널티를 손실 함수에 포함시켜, 지나치게 비문법적인 프롬프트가 최적화되는 것을 방지한다.
실험은 Gemma 2 2B 모델에 적용된 여러 SAE 레이어와 다양한 잠재 유형(활성화 밀도, 어휘 다양성, 지역성)에서 수행되었다. 평가 지표는 (1) 데이터셋 검색 기반 최고 활성화값 대비 비율, (2) 플루언시 점수(LLM 자체 교차 엔트로피), (3) 토큰 다양성 지표 등이다. 결과는 ADAPT이 GCG, BEAST, EPO 및 그 변형들에 비해 평균 12‑18% 높은 활성화 강도와, 플루언시 점수에서도 경쟁력을 유지함을 보여준다. 특히 고밀도(activation‑dense) 잠재와 저밀도(sparse) 잠재 모두에서 일관된 성능 향상이 관찰되었으며, 초기 빔 수와 로그잇‑스와프 비율을 조절하면 탐색 효율성을 세밀하게 튜닝할 수 있다.
또한 논문은 ADAPT의 한계도 논의한다. 빔 서치 초기화 단계에서 후보 수가 급증하면 메모리 사용량이 크게 늘어나며, 매우 긴 프롬프트를 다룰 경우 토큰 마스킹 및 패딩 관리가 복잡해진다. 향후 연구 방향으로는 (i) 토큰 레벨의 메타러닝을 통한 초기화 자동화, (ii) 다중 잠재 동시 최적화를 위한 공동 목표 함수 설계, (iii) 비지도형 토큰 임베딩 변형을 통한 탐색 공간 축소 등이 제시된다. 전반적으로 ADAPT은 LLM 내부 표현을 직접 ‘보여주는’ 새로운 도구로서, 해석 가능성 연구와 모델 디버깅에 실용적인 기여를 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기