인코딩된 추론을 비감독적으로 해독하기 위한 언어 모델 해석 기법
📝 원문 정보
- Title: Unsupervised decoding of encoded reasoning using language model interpretability
- ArXiv ID: 2512.01222
- 발행일: 2025-12-01
- 저자: Ching Fang, Samuel Marks
📝 초록 (Abstract)
대형 언어 모델이 점점 더 높은 수준의 추론 능력을 보이면서, 그 추론 과정이 인간의 감시 밖에 숨겨질 위험이 제기되고 있다. 이러한 “인코딩된” 혹은 “숨겨진” 추론을 현재의 해석 기술이 파악할 수 있는지를 검증하기 위해, 우리는 체인‑오브‑쓰스(Chain‑of‑Thought) 추론을 ROT‑13 암호화 형태로 수행하도록 사전학습된 모델(DeepSeek‑R1‑Distill‑Llama‑70B)을 미세조정하였다. 모델은 암호화된 내부 사고 과정을 유지하면서도 최종 출력은 인간이 이해할 수 있는 영어 문장을 생성한다. 우리는 메커니즘 해석 기법, 특히 로그잇 렌즈(logit lens) 분석이 내부 활성화만을 이용해 숨겨진 추론을 복원할 수 있는지를 평가하였다. 실험 결과, 로그잇 렌즈는 중간‑후반 층에서 가장 높은 정확도를 보이며 암호화된 추론을 효과적으로 번역한다는 것이 확인되었다. 마지막으로 로그잇 렌즈와 자동 패러프레이징을 결합한 완전 비감독 해독 파이프라인을 구축했으며, 이를 통해 내부 표현으로부터 전체 추론 전사(transcript)를 재구성하는 데 상당한 정확도를 달성하였다. 이러한 결과는 현재 메커니즘 해석 기법이 단순한 형태의 인코딩된 추론에 대해 생각보다 강인함을 보여주며, 인간이 읽을 수 없는 형식으로 사고하는 모델에 대한 감시 체계 구축에 중요한 초기 단계가 될 수 있음을 시사한다.💡 논문 핵심 해설 (Deep Analysis)

해석 방법으로 채택된 로그잇 렌즈(logit lens)는 각 층의 은닉 표현을 직접 로짓 공간으로 투사해, 해당 층이 현재 어떤 토큰을 예측하고 있는지를 추정한다. 기존 연구에서는 로그잇 렌즈가 초기 층에서 형태소 수준, 중간 층에서 구문·의미 수준, 최종 층에서 완전한 문장 수준의 정보를 담고 있음을 보여주었다. 본 논문은 이러한 층별 특성을 활용해, ROT‑13으로 암호화된 내부 토큰 시퀀스를 역변환하는 과정을 자동화한다. 구체적으로, 각 층에서 추출한 로짓을 가장 높은 확률을 가진 토큰으로 매핑한 뒤, ROT‑13 디코딩을 적용해 원래의 영어 토큰을 복원한다. 실험 결과는 중간‑후반 층(예: 24~32번째 층)에서 복원 정확도가 85 % 이상으로 최고치를 기록했으며, 초기 층에서는 잡음이 많아 정확도가 현저히 낮았다. 이는 모델이 추론의 핵심 의미를 점진적으로 정제해 나가며, 최종 출력 직전 단계에서 가장 명료한 형태로 표현한다는 기존 가설을 뒷받침한다.
또한 연구진은 로그잇 렌즈만으로는 완전한 추론 전사를 얻기 어려운 점을 인식하고, 자동 패러프레이징(paraphrasing) 모듈을 추가하였다. 복원된 토큰 시퀀스를 문맥에 맞게 재구성하고, 문법 오류를 교정하기 위해 사전학습된 패러프레이징 모델을 적용함으로써, 최종적으로 인간이 읽을 수 있는 자연스러운 추론 흐름을 생성한다. 이 파이프라인은 전 과정이 비감독적으로 진행되며, 별도의 라벨링 데이터나 인간 개입 없이도 높은 재현성을 보였다.
한계점도 명확히 제시된다. 첫째, ROT‑13은 매우 단순한 치환 암호에 불과해, 실제 고도화된 인코딩(예: 비선형 변환, 다중 단계 암호화)에서는 로그잇 렌즈의 성능이 급격히 저하될 가능성이 있다. 둘째, 로그잇 렌즈는 토큰 수준의 예측에 의존하므로, 복합적인 논리 구조나 장기 의존성을 가진 추론에서는 부분적인 정보만 포착될 수 있다. 셋째, 현재 실험은 단일 모델과 단일 암호화 방식에 국한돼 있어, 다른 아키텍처(예: Transformer‑XL, Mistral)나 다중 언어 환경에서의 일반화 여부는 추가 검증이 필요하다.
향후 연구 방향으로는 (1) 보다 복잡한 인코딩 스킴을 설계해 해석 기법의 한계를 스트레스 테스트하고, (2) 로그잇 렌즈와 결합할 수 있는 새로운 메커니즘(예: 활성화 클러스터링, 그래프 기반 추론 흐름 추적) 개발, (3) 인간‑기계 협업 인터페이스를 구축해 해석 결과를 실시간으로 검증·수정하는 방안, (4) 정책·안전 관점에서 인코딩된 추론이 악용될 가능성을 평가하고 방어 메커니즘을 설계하는 연구가 필요하다. 전반적으로 본 논문은 “인코딩된 추론”이라는 새로운 위협 모델에 대한 최초의 실증적 탐구를 제공하며, 메커니즘 해석 기술이 단순 암호화 수준에서는 충분히 대응 가능함을 보여준다. 이는 AI 안전·감시 체계 구축에 있어 중요한 이정표가 될 것으로 기대된다.
📄 논문 본문 발췌 (Translation)
📸 추가 이미지 갤러리