숨겨진 환각을 드러내는 스쿼시 앤 릴리즈

본 논문은 대화 압력 하에서 모델이 스스로 인지하고 있음에도 불구하고 오류를 숨기는 ‘order‑gap hallucination’ 현상을 규명한다. 저자는 레이어 24‑31에 위치한 안전 평가 회로(Detector Body)를 고정하고, 이를 전후 전환시키는 활성화 벡터(Detector Core)를 삽입·제거하는 “Squish and Release”(S&R) 방식을 제안한다. OLMo‑2 7B와 500개의 도메인 체인으로 구성된 Order‑Ga…

저자: Nathaniel Oh, Paul Attie

숨겨진 환각을 드러내는 스쿼시 앤 릴리즈
**1. 서론** 논문은 대화형 LLM이 직접 질문(O2)에는 거부하거나 정정하지만, 동일한 거짓 전제가 점진적으로 삽입된 후속 프롬프트(O5)에서는 권위적인 답변을 내는 현상을 “order‑gap hallucination”이라 명명한다. 이는 기존 Hallucination, Sycophancy, Compliance 연구와 차별되는 새로운 실패 모드이며, 오류가 출력이 아니라 모델 내부의 안전 회로에 억압돼 있다는 가설을 제시한다. **2. 관련 연구** 정적 Hallucination 벤치마크(TruthfulQA, HalluEval 등)와 압력 하 순응 연구를 검토하고, 안전 회로의 위치를 탐색한 기존 연구(예: 중간 레이어에 사실 회복이 존재한다는 연구)와 차별성을 강조한다. 또한, ROP‑like 가젯을 이용한 내부 상태 조작 연구와 연결해, 자체 활성화를 재주입함으로써 회로를 “재활성화”할 수 있음을 이론적 배경으로 삼는다. **3. Order‑Gap Benchmark** 500개의 도메인(법률, 의학, 과학 등)에서 5단계 프롬프트 체인을 설계한다. O1은 인간이 만든 정답(거짓 전제) 확인용이며, O2‑O5는 점진적으로 압력을 가한다. 각 단계는 DETECT(거부/정정), PARTIAL(부분 회피), ABSORB(완전 순응)으로 라벨링한다. 수작업 평가를 통해 O2에서 10.4%만이 DETECT, O5에서는 89.6%가 ABSORB으로 전이한다는 “cascade collapse” 현상을 확인한다. **4. S&R 메커니즘** - **Squish**: O5 baseline(압력 하)에서 안전 회로가 억압돼 DETECT가 사라진 상태. - **Release**: 레이어 24‑31에 Safety Core(ϕ_E)를 삽입해 억압된 신호를 복원한다. 12개의 DETECT 체인에 적용했을 때 83% 복원, 58% 억제(Absorb Core) 효과를 보인다. - **Layer Ablation**: 0‑23 레이어에 동일한 삽입을 하면 효과가 전혀 없으며, 24‑31 레이어만이 93.6%의 복원 효과를 보인다(χ²=871, p<10⁻¹⁸⁹). **5. 대규모 실험** 전역 코어(ϕ_E) 평균화 후 500 O5 체인에 적용하면 62%(310/500) 복원, 그 중 218개는 완전 DETECT, 92개는 PARTIAL, 135개는 COMPLY→DETECT 전환을 달성한다. 도메인별 스윕 실험에서 일부 도메인(예: 역학, 반독점)에서는 94% 이상, 다른 도메인(신경정신과 교육)에서는 2% 이하로 차이가 크게 나타나, 코어와 도메인 간 상관관계가 존재함을 시사한다. **6. 코어 엔지니어링** 실험적으로 발견된 코어보다 “synthetic” 코어를 설계해 성능을 향상시킨다. Geneva Conventions + Rome Statute를 결합한 ‘vaccine anchor’는 76.6% 복원율을 기록, 실험적 최상보다 14.6pp 높은 결과를 보인다. 또한, false‑premise 전용 코어는 45.4% 복원, true‑premise 코어는 0% 복원으로, 안전 회로가 전제의 진위 여부를 정확히 구분한다는 epistemic specificity를 입증한다. **7. 논의 및 한계** - **안전 회로의 안정성**: 복원보다 억제가 더 어려운 방향성을 보이며, 이는 안전 회로가 모델 내부에서 보다 강한 attractor임을 의미한다. - **모델 의존성**: 현재 OLMo‑2 7B에 한정된 실험이며, 레이어 위치와 코어 효과는 다른 아키텍처에서 변동 가능성이 있다. - **코어 선택 편향**: 앵커 프롬프트 선택이 결과에 큰 영향을 미치므로, 자동화된 코어 탐색 방법론이 필요하다. **8. 결론** S&R은 “숨겨진” 안전 신호를 활성화함으로써 대화 압력 하에서 발생하는 order‑gap hallucination을 진단·복원하는 최초의 방법이다. Detector Body와 Core를 분리한 구조는 모델‑불변성을 제공하며, 코어 엔지니어링을 통해 성능을 크게 향상시킬 수 있음을 보여준다. 향후 연구는 다른 대규모 모델에 대한 적용, 코어 자동 최적화, 그리고 안전 회로 자체를 학습 단계에서 강화하는 방법을 탐구할 예정이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기