반사 메커니즘을 드러내는 은닉 방향 탐색

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 연구는 대형 언어 모델(LLM)의 “반사” 능력을 은닉 활성화 공간의 잠재적 방향으로 규정하고, 반사 유도·억제 명령어를 체계적으로 발견·조작하는 방법을 제시한다. Qwen2.5‑3B와 Gemma‑3‑4B‑IT 모델을 대상으로 GSM8K‑adv와 CruxEval‑o‑adv 데이터에서 ‘무반사·내재반사·유도반사’ 3단계 행동을 정량화하고, 활성화 스티어링 벡터를 이용해 반사 행동을 강화·억제함으로써 반사 메커니즘의 비대칭성을 밝혀냈다.

상세 분석

이 논문은 LLM이 복잡한 추론 과제에서 스스로 오류를 검출하고 수정하는 “반사” 현상을, 모델 내부의 은닉 표현이 특정 방향으로 이동함으로써 구현된다고 가정한다. 이를 검증하기 위해 저자들은 먼저 반사를 ‘무반사(No Reflection)’, ‘내재반사(Intrinsic Reflection)’, ‘유도반사(Triggered Reflection)’라는 세 단계로 구분한다. 무반사는 오류가 포함된 체인‑오브‑쓰 생각을 그대로 출력하도록 강제하는 명령어(예: “Answer”)이며, 내재반사는 중립적인 토큰(

반사 메커니즘을 드러내는 은닉 방향 탐색

초록

상세 분석

댓글 및 학술 토론

의견 남기기