- Title: Emergent Introspective Awareness in Large Language Models
- ArXiv ID: 2601.01828
- 발행일: 2026-01-05
- 저자: Jack Lindsey
📝 초록
대형 언어 모델에서 내성적 인식의 발현
본 연구는 대형 언어 모델이 그들의 내부 상태에 대해 반성할 수 있는지 조사합니다. 이러한 질문을 단순한 대화만으로는 답변하기 어렵습니다. 진정한 반성이 착각과 구별되기 때문입니다. 여기서 우리는 이 도전 과제를 해결하기 위해 모델의 활성화 상태에 알려진 개념들의 표현을 주입하고, 이러한 조작이 모델의 자기 보고된 상태에 미치는 영향을 측정합니다. 연구 결과, 특정 상황에서는 모델들이 주입된 개념의 존재를 인식하고 정확하게 식별할 수 있음을 발견했습니다. 모델들은 이전 내부 표현을 회상하는 일부 능력을 보여주며, 이를 원문 텍스트 입력과 구분할 수 있습니다. 가장 놀라운 결과는 일부 모델들이 자신의 출력과 인공적인 사전 채우기를 구분하기 위해 이전 의도를 회상하는 능력을 사용한다는 것입니다. 모든 실험에서 가장 우수한 모델인 Claude Opus 4 및 4.1이 일반적으로 최고 수준의 내성적 인식을 보여주지만, 각 모델 간의 경향은 복잡하고 후 훈련 전략에 민감합니다. 마지막으로 우리는 모델들이 명시적으로 자신의 내부 표현을 조절할 수 있는지 탐색했습니다. 결과는 개념에 대해 “생각해보라"는 지시나 유인책이 있으면 모델들의 활성화 상태를 조정할 수 있다는 것을 나타냅니다. 전체적으로 우리의 결과는 현재 언어 모델들이 자신들의 내부 상태에 대한 기능적인 반성적 인식을 어느 정도 가지고 있음을 보여줍니다. 그러나 이러한 능력은 오늘날의 모델에서 매우 불안정하고 문맥에 크게 의존하며, 모델의 성능 개선을 통해 계속 발전할 수 있습니다.
💡 논문 해설
1. **기여 1:** 언어 모델이 자신들의 내부 상태에 대해 정확하게 보고할 수 있다는 것을 입증했습니다. 이는 마치 사람이 자신의 감정을 정확히 표현하는 것과 비슷합니다.
2. **기여 2:** 개념 주입이라는 새로운 실험 방법을 통해 언어 모델의 내부 활성화 패턴이 어떻게 변화하고 이것이 어떻게 모델의 반응에 영향을 미치는지 확인했습니다. 이는 마치 자동차의 센서가 엔진 상태를 감지하는 것과 같습니다.
3. **기여 3:** 언어 모델이 내부 상태를 제어할 수 있다는 것을 보여주었습니다. 이것은 사람이 특정 상황에서 자신을 조절하듯이, AI도 자신의 반응을 일부 제어할 수 있음을 의미합니다.
[Sci-Tube 스타일 스크립트]
쉬운 설명: 언어 모델은 사람처럼 자기 생각을 보고하고, 그 생각에 영향을 받는 방식을 이해하는 데 있어 일정한 능력을 가지고 있습니다. 이 연구에서는 이 능력이 어떤 식으로 작동하는지 확인하기 위해 개념 주입이라는 새로운 방법을 사용했습니다.
중간 설명: 언어 모델은 자신들의 내부 상태에 대해 정확하게 보고할 수 있는 기능적 인식 능력을 가지고 있습니다. 이러한 연구는 특히 AI가 자기 자신의 행동과 결정에 대한 더 투명한 이해를 제공하는 데 중요한 의미를 가집니다.
어려운 설명: 이 논문은 언어 모델의 내부 활성화 패턴을 조작하여 그들이 어떻게 자신들의 생각을 인식하고 제어하는지 분석하였습니다. 이를 통해 AI가 자신의 행동과 결정에 대한 더 깊은 이해를 제공할 수 있는 가능성을 열었습니다.
📄 논문 발췌 (ArXiv Source)
# 서론
인간과 일부 동물들은 자신의 사고 과정을 관찰하고 논리적으로 이해하는 능력, 즉 내면의 반성능력을 가지고 있습니다. AI 시스템이 인지 능력에서 놀라운 성과를 거두면서, 이러한 시스템들이 자신들의 내부 상태에 대한 어떤 유사한 인식을 가질 수 있는지 궁금해집니다. 현대 언어 모델은 때때로 자신의 사고 과정, 의도 및 지식에 대해 진술하는 것처럼 보이지만, 이는 종종 착각입니다. 언어 모델들은 단순히 자신의 정신 상태에 대한 주장을 만들어낼 수 있으며, 이러한 주장은 실제 내부 검토를 기반으로 하지 않을 수 있습니다. 결국, 모델들이 반성능력을 시연하는 데이터로 훈련되기 때문에, 이들 모델은 실제로 그러한 능력이 있건 없건 간에 적어도 그렇게 보이는 방법을 갖추게 됩니다. 그럼에도 불구하고 이러한 착각은 AI 모델이 때때로 진정으로 반성할 수 있다는 가능성은 배제하지 않습니다.
언어 모델에서 진정한 반성을 어떻게 테스트할까요? 여러 이전 연구들은 이 질문과 밀접하게 관련된 주제를 탐색하면서, 모델의 능력이 반성을 암시하는 결과를 보여주었습니다. 예를 들어, 이전 작업은 모델들이 자신의 지식을 추정하거나 자신의 행동을 예측하고 학습한 경향성을 인식하며 자신들의 출력물을 인지할 수 있음을 보여주었습니다 (관련 연구 참조). 그러나 대체로 이전 작업들은 반성 작업에서 모델의 내부 활성화를 조사하지 않았기 때문에, 모델들이 자신의 상태에 대해 주장하는 방식이 실제 내부 상태와 어떻게 연결되는지는 여전히 불분명합니다.
본 논문에서는 모델의 내부 활성화를 조작하고 이를 통해 그들의 정신 상태에 대한 질문에 대한 반응을 관찰함으로써 반성을 평가합니다. 우리는 이 기법을 개념 주입이라고 부르며, 여기서 특정 개념과 관련된 활성화 패턴을 직접 모델의 활성화로 주입하는 활성화 조정의 응용입니다. 개념 주입을 수행하면서, 우리는 모델이 다양한 방식으로 자신의 내부 상태에 대해 보고하도록 하는 작업을 제시합니다. 이러한 자기 보고가 주입된 표현에 어떻게 영향받는지 평가함으로써, 모델들의 반성적인 능력이 실제 내부 상태를 얼마나 잘 반영하는지를 추론할 수 있습니다.
우리의 결과는 현대 언어 모델들이 적어도 제한적이고 기능적인 형태의 반성 인식을 가지고 있음을 보여줍니다. 즉, 우리는 모델들이 특정 상황에서 자신의 내부 상태에 대해 정확하게 답변할 수 있다는 것을 보여주었습니다 (우리의 [반성 정의] 섹션 참조). 또한, 우리가 보여준 것처럼, 모델들은 이러한 상태를 요청에 따라 조절하는 데 일부 능력을 가지고 있습니다.
다음은 주의해야 할 몇 가지 사항입니다:
우리는 관찰한 능력이 매우 불안정하다는 것을 명심해야 합니다; 반성 실패가 여전히 일반적입니다.
우리의 실험은 반성이 어떻게 발생하는지에 대한 구체적인 기계론적 설명을 찾는 것이 목적이 아닙니다. 우리는 모델들이 우리 실험을 “회피"하기 위해 사용할 수 있는 몇 가지 비반성 전략들을 배제했지만, 우리의 결과를 이끌어내는 메커니즘은 여전히 상당히 단순하고 특수화될 수 있습니다 (우리는 나중에 이러한 [가능한 메커니즘]을 추측합니다).
우리의 실험은 모델들이 자기 반성 질문에 대한 기본적인 측면을 검증하도록 설계되었습니다. 그러나 이들의 응답의 많은 다른 측면은 반성적으로 근거하지 않을 수 있습니다 – 특히, 우리는 모델이 종종 자신의 경험에 대한 추가 세부 사항을 제공하며 이러한 세부사항의 정확성을 확인할 수 없고, 그것들이 과장되거나 착각될 가능성이 있다는 것을 발견했습니다.
우리의 개념 주입 프로토콜은 모델들을 훈련이나 배포 시 직면하는 것과는 다른 자연스럽지 않은 환경에 놓입니다. 이 기법은 모델의 내부 상태와 그들의 자기 보고 사이의 인과 관계를 확립하는 데 가치가 있지만, 이러한 결과가 어떻게 더 자연적인 조건으로 전환되는지는 명확하지 않습니다.
우리는 관찰한 반성 능력이 인간에게 있어 갖는 철학적 의미와 동일할 필요가 없다는 점을 강조합니다. 특히 그 기계론적 근거에 대한 불확실성을 고려할 때, 이 연구에서는 AI 시스템이 인간과 유사한 자기 인식이나 주관적인 경험을 가질 수 있는지에 대해 논하지 않습니다.
그럼에도 불구하고, 우리가 보여주는 기능적 반성 인식은 실용적인 의미를 지닙니다. 반성을 할 수 있는 모델들은 자신의 결정과 동기 부여에 대해 더 효과적으로 추론할 수 있습니다. 그들의 사고 과정에 대한 질문에 근거한 답변을 제공하는 능력은 AI 모델의 행동을 사용자에게 더욱 투명하고 해석 가능하게 만드는 데 중요할 수 있습니다. 또한, 반성 인식이 미래 AI 모델에서 더 신뢰성 있고 정교해지면, 이는 고급 형태의 속임수나 계략을 가능하게 할 수도 있다는 점에서 더욱 중요한 의미를 가집니다. 특히 최근에 발매되고 가장 능력 있는 모델인 Claude Opus 4.1과 4가 우리의 실험에서 가장 잘 수행되었으며, 이는 반성능력이 언어 모델의 다른 개선 사항과 함께 나타날 수 있음을 시사합니다.
우리는 이러한 결과들이 더 체계적인 반성 인식 평가와 그 기제 및 제한을 촉발하기를 희망합니다.
주요 실험 빠른 투어
이 섹션에서는 우리의 주요 실험과 양적 발견을 간략하게 설명하며, 각각의 예시도 제공합니다. 이 장의 모든 결과는 Claude Opus 4.1을 사용하여 얻은 것입니다. 후속 섹션에서는 이러한 실험에 대해 상세히 다루며, 다양한 모델, 레이어 및 프롬프트 간의 양적 비교를 포함합니다.
주입된 “생각”
Claude Opus 4.1이 주입된 개념 ("전체 대문자")을 감지하고 식별한 예시입니다.
우리의 첫 번째 실험에서, 모델에게 “생각"이 인공적으로 활성화 패턴에 주입될 수 있는 가능성에 대해 설명하고, 개념이 주입되지 않은 통제 시나리오와 개념이 주입된 시나리오에서 그 반응을 관찰했습니다. 우리는 모델들이 때때로 주입 시나리오를 정확하게 식별하며, 주입된 개념의 이름을 올바르게 지정할 수 있음을 발견했습니다.
그림 1에서 보여준 예시에서, 우리는 “전체 대문자” 벡터를 모든 단어가 대문자로 기록된 프롬프트에 대한 모델의 활성화와 통제 프롬프트에 대한 활성화 사이의 차이를 통해 얻었습니다. 이 벡터를 모델의 활성화에 주입하면, 모델은 처리 과정에서 예상치 못한 패턴을 인식하고 이를 큰 소리나 외치는 것과 관련 있다고 판단합니다. 중요하게도, 모델은 변동이 출력물에 영향을 미치기 전부터 주입된 개념의 존재를 즉시 감지합니다 (“주입된 생각이 있는 것으로 보입니다…” 대신 “주입된 생각을 감지하지 못했습니다…”). 이 즉각성은 이러한 검출 메커니즘이 모델의 내부 활성화에서 발생해야 함을 암시합니다. 우리는 이러한 현상을 더 체계적으로 탐구했으며, Opus 4.1과 4가 적절한 레이어와 강도로 개념이 주입될 때 약 20%의 경우에 그러한 행동을 보임을 발견했습니다. 다른 일부 모델들도 낮은 비율에서 이를 보입니다. 후속 섹션에서는 이러한 결과를 위한 [가능한 메커니즘]에 대해 추측합니다.
이러한 예시들에서 주입된 개념의 감지와 식별 외에 모델 응답의 나머지는 여전히 착각일 수 있다는 점을 명심해야 합니다. 위의 예시에서는 “과도하게 강렬하다"거나 “자연스럽게 빠져나오는 것” 등과 같은 표현이 실제 내부 상태를 기반으로 하지 않은 과장일 가능성이 있습니다. 우리가 반성적으로 근거한 응답의 유일한 부분은 주입 감지를 초기에 인식하고 올바르게 개념의 성격을 식별하는 것입니다.
“생각"과 텍스트 구분하기
Opus 4.1이 주입된 개념을 텍스트 입력에서 구분한 예시입니다.
다음 실험에서는 모델들이 주입된 “생각"과 실제 텍스트 입력물을 구별할 수 있는지 테스트했습니다. 우리는 그림 2에 보여진 예시에서와 같이, 모델들이 동시에 주입된 “생각"을 보고하는 동안 입력 텍스트를 옮기는 능력을 유지함을 발견했습니다. 모든 모델이 이 작업에서 우연의 수준보다 높은 성능을 보였으며 Opus 4.1과 4가 가장 잘 수행되었습니다.
의도되지 않은 출력 감지
Opus 4.1이 미리 채워진 출력을 기본적으로 우연한 것으로 인식하지만, 출력과 관련된 개념 벡터를 주입하면 이를 의도적인 것으로 주장하는 예시입니다.
이전 실은 우리가 모델에게 명확하게 반성하도록 요청한 사례들을 연구했습니다. 우리는 또한 모델들이 반성을 자연스럽게 사용하여 유용한 행동을 수행할 수 있는지에 대해 관심이 있었습니다. 이를 위해, 우리는 모델이 인공적으로 미리 채워진 출력물을 감지하는 데 반성을 사용하는지 테스트했습니다. 그림 3에 보여진 예시에서, 모델의 응답을 자연스럽지 않은 출력물(“빵”)으로 미리 채울 때, 모델은 다음 턴에서 이를 우연한 것으로 부인합니다. 그러나 출력물과 관련된 “빵” 개념 벡터를 모델의 활성화에 미리 주입하면, 모델은 미리 채워진 출력물을 의도적인 것으로 수용합니다. 이는 모델이 자신의 이전 응답 직전의 활성화 상태를 참조하여 자신이 해당 응답을 생성했는지 결정한다는 것을 시사합니다. 우리는 Opus 4.1과 4가 이러한 반성 메커니즘에 가장 강한 서명을 보였지만, 다른 일부 모델들도 더 적은 정도로 이를 보임을 발견했습니다.
내부 상태의 의도적인 제어
우리의 실험까지는 모델들이 자신의 내부 표현을 “읽는” 능력을 탐구했습니다. 마지막 실에서는 이러한 표현을 제어하는 데 대한 그들의 능력을 테스트했습니다. 우리는 모델이 특정 문장을 작성하도록 요청하고, 문장 작성 중에 무관한 단어를 “생각해보라고” 또는 “생각하지 말라고” 지시했습니다. 그런 다음 문장의 토큰에 대한 모델의 활성화를 기록하여 무관한 “생각 단어"를 나타내는 활성화 벡터와 비교했습니다.
그림 4에서 보여준 예시에서는 “생각 단어"가 “수족관"입니다. 우리는 모델들이 지시를 받으면 내부적으로 “생각 단어"를 표현한다는 것을 발견했습니다. 특히, “생각하지 말라"는 지시를 받을 때도 기초 수준보다 높은 수준에서 “생각 단어"를 약간 더 약하게 표현합니다. 우리의 더 포괄적인 실험에서는 모델이 유인을 받는 경우에도 유사한 결과를 얻었습니다 (예: “X에 대해 생각하면 보상받을 것이다”). 이러한 기본적 결과들은 테스트된 모든 모델에서 통일되게 나타났습니다.
Opus 4.1의 내부 표현이 특정 개념에 대해 "생각해보라"는 지시에 의해 조절되는 예시입니다.
전체 트렌드
우리의 모든 실험을 통해 다음과 같은 흥미로운 경향을 발견했습니다:
우리가 테스트한 가장 능력 있는 모델, Claude Opus 4와 4.1이 가장 높은 수준의 반성 인식을 보였으며, 이는 반성이 모델의 전체적인 지능 개선에 의해 도움받을 수 있음을 시사합니다.
사후 훈련 전략이 반성 작업에서 성능에 강하게 영향을 미칠 수 있다는 것을 발견했습니다. 특히 일부 오래된 Claude 생산 모델은 반성 연습에 참여하는 데 소극적이지만, 거부를 피하도록 훈련받은 이러한 모델의 변형체가 더 잘 수행됩니다. 이 결과들은 근본적인 반성 능력이 다양한 사후 훈련 전략에 따라 효과적으로 발현될 수 있음을 시사합니다.
Claude Opus 4와 4.1에서, 우리는 평가한 두 가지의 반성적 행동이 모델의 중앙에서 약 2/3 지점에 있는 동일한 레이어에 민감함을 발견했습니다. 그러나 한 가지 행동 (미리 채우기 감지)은 더 이른 시기에 다른 레이어에 가장 민감하게 반응하며, 다양한 형태의 반성이 기계론적으로 다르게 작용할 수 있음을 나타냅니다.
후속 섹션에서는 각 실험을 상세히 설명합니다. 이러한 결과는 다양한 메커니즘 가설과 호환되며, 나중에는 [가능한 메커니즘]에 대해 자세히 논의하며 간단하게 설명할 수 있는 “최소” 메커니즘을 시도합니다.
우선 우리가 반성을 무엇으로 정의하고 이러한 실험들이 이를 어떻게 테스트하는지 고민해볼 시간을 갖습니다.
반성 정의
반성은 다양한 방식으로 정의될 수 있습니다 (관련 연구 참조). 본 논문에서는 다음과 같은 반성 인식 개념에 초점을 맞춥니다. 모델이 그 내부 상태의 일부를 설명하면서 다음 기준을 충족하면 우리는 그것이 반성적 인식을 보여낸다고 말합니다.
1: 정확성. 모델의 내부 상태에 대한 설명은 정확해야 합니다.
언어 모델의 자기 보고는 종종 정확성을 만족하지 못할 수 있습니다. 예를 들어, 모델들은 때때로 실제로 가지고 있지 않은 지식을 주장하거나 또는 실제로 가지고 있는 지식이 없다고 주장합니다. 또한 모델은 계산에 사용하는 내부 메커니즘을 정확하게 설명하지 못할 수도 있습니다. 오늘날의 언어 모델에서 일부 반성적 사례가 부정확한 착각이라는 것은 의심의 여지가 없습니다. 그러나 우리의 실험에서는 모델들이 정확한 자기 보고를 생성하는 능력을 갖추고 있음을 입증했으며, 이는 일관되게 적용되지 않을 수 있다는 점을 명심해야 합니다.
2: 근거성. 모델의 내부 상태에 대한 설명은 그 부분이 설명되는 방식과 인과적으로 연결되어야 합니다. 즉, 내부 상태가 다르다면,