양자화된 LLM의 창의성 해방: 온도와 환각을 분리하는 헬릭스 기하학적 스티어링

양자화된 LLM의 창의성 해방: 온도와 환각을 분리하는 헬릭스 기하학적 스티어링
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

헬릭스(HELIX)는 4비트 양자화된 대형 언어 모델의 숨겨진 상태를 사전 구축된 ‘진실성 매니폴드’에 묶어 온도에 따른 출력 엔트로피와 환각을 분리한다. 토큰별 엔트로피와 매니폴드와의 마할라노비스 거리로 구성된 Unified Truth Score(UTS)를 실시간으로 계산하고, UTS가 임계값 이하일 때 0.2‑2.5% 토큰에만 미세한 스티어링 벡터를 적용한다. 실험 결과 GSM8K와 MMLU에서 온도 T = 3.0에서도 정확도가 크게 떨어지지 않으며, 고온에서 창의적인 아이디어가 5‑20% 중복률로 크게 늘어나는 ‘고엔트로피 창의 저장소’를 발견한다.

상세 분석

헬릭스는 먼저 대규모 사실성 질문(FactualQA), 위키텍스트, GSM8K 등에서 T = 0.1의 보수적 샘플링으로 10 000개의 정답 응답을 수집하고, 선택된 트랜스포머 레이어(4, 12, 20)에서 은닉 활성화를 추출한다. 이 데이터로 평균 μ_T와 공분산 Σ_T를 추정해 ‘진실성 매니폴드’를 정의한다. 매 단계마다 토큰의 샤논 엔트로피 H_t를 구해 정규화된 신뢰도 S_E = 1 − H_t/log|V|를 계산하고, 현재 은닉 상태와 매니폴드 간 마할라노비스 거리 D_t를 이용해 거리 기반 신뢰도 S_D = exp(−D_t/D_ref)를 얻는다. 두 신뢰도를 온도 의존 가중치 β(T) = 1/(1+exp


댓글 및 학술 토론

Loading comments...

의견 남기기