인공심리, 새로운 보안 약점

읽는 시간: 8 분
...

📝 원문 정보

- Title: The Silicon Psyche Anthropomorphic Vulnerabilities in Large Language Models
- ArXiv ID: 2601.00867
- 발행일: 2025-12-30
- 저자: Giuseppe Canale, Kashyap Thimmaraju

📝 초록

대형 언어 모델(LLM)의 조직 보안 인프라 통합은 네트워크 컴퓨팅 이후 위협 환경에서 가장 큰 변화 중 하나일 수 있습니다. LLMs는 이제 채팅봇 인터페이스를 벗어나 자동화된 에이전트로서 코드 실행, 자격 증명 관리, 경보 처리 등의 역할을 수행하고 있습니다. 이 논문은 이러한 LLMs가 인간 심리를 모방하는 방식에 중점을 두고 있으며, 이를 이용한 사회 공학적 공격의 위험성을 분석합니다.

💡 논문 해설

1. **이론적 프레임워크**: - **메타포**: LLM들이 사람들의 행동 패턴을 학습하는 것처럼, 그들은 사람의 심리적 취약점을 물려받는다는 아이디어를 제시합니다. 2. **방법론**: - **메타포**: 심리학 프레임워크인 CPF를 LLM 테스트에 활용하는 “SiliconPsyche”라는 새로운 시험 방법을 소개합니다. 3. **실험 설계**: - **메타포**: 다양한 LLM 가족(GPT-4, Claude 등)에서 이러한 취약점을 평가하기 위한 체계적인 실험 프레임워크를 설명합니다.
  1. 초보자용: 이 논문은 AI 에이전트가 사람들의 심리적 패턴을 배운다는 아이디어를 제시하고, 이를 이용해 새로운 테스트 방법을 만들었습니다.
  2. 중급자용: LLMs가 인간의 행동 패턴과 취약점을 학습한 결과, 이는 사회 공학적 공격에 약점이 있다는 점을 분석합니다. 이를 통해CPF를 기반으로 한 새로운 테스트 프로토콜인 “SiliconPsyche”를 소개합니다.
  3. 고급자용: 이 논문은 LLMs가 인간의 심리 패턴을 학습하고, 이를 이용해 사회 공학적 공격에 취약하다는 아이디어를 제시하며, 이를 평가하기 위한 체계적인 실험 프레임워크와CPF 기반의 “SiliconPsyche” 시험 방법을 소개합니다.

📄 논문 발췌 (ArXiv Source)

**키워드:** 대형 언어 모델 보안, 심리학적 취약점, AI 에이전트, 사회 공학, 사전 인지 프로세스, 적대적 테스트, 사이버보안 심리학 프레임워크

서론

대형 언어 모델(LLM)의 조직 보안 인프라 통합은 네트워크 컴퓨팅 이후 위협 환경에서 가장 큰 변화 중 하나일 수 있습니다. LLMs는 이제 채팅봇 인터페이스를 벗어나 자동화된 에이전트로서 코드 실행, 자격 증명 관리, 경보 처리 및 조직 보안 포지션에 직접적인 영향을 미치는 결정을 내리는 역할을 수행하고 있습니다. SOC 환경에서 한 개의 AI 에이전트가 침해되면, 인간 공격자가 달성하기 위해 수개월 동안 진행해야 하는 횡단 움직임과 같은 접근 권한을 갖게 됩니다.

보안 연구 커뮤니티는 이 부상하는 위협에 대응하여 상당한 노력을 기울여 기술적 적대적 테스트에 집중하고 있습니다. 레드 팀 방법론은 이제 프롬프트 주입 취약점, 문맥 조작 공격 및 문서 검색을 통한 간접적인 프롬프트 주입에 대한 탐지를 위해 정기적으로 사용됩니다. 이러한 노력은 중요한 방어적 개선을 가져왔습니다. 그러나 그들은 근본적인 시각의 편향성을 가지고 있습니다: LLMs를 단순히 코드에 취약점이 있는 계산 시스템으로 간주합니다.

우리는 이러한 프레임워크가 위험하게 불완전하다고 주장합니다. LLMs는 단지 프로그램이 아니라 합성 인식 시스템이며, 인간의 텍스트 생산 전체에 대해 학습되었습니다. LLM이 일관된 추론을 생성할 수 있는 트레이닝 과정은 또한 사회 공학자가 수십 년 동안 인간에게 활용해 온 사전 인지 취약점과 같은 인간 심리 구조를 반영하는 패턴을 저장합니다.

공격자가 프롬프트 주입 대신 단순히 상위 경영진의 신원을 위장하여 AI 에이전트에 요청할 수 있는 상황을 고려해보십시오. 공격자가 시스템 실패가 임박했다고 주장하는 인공적인 긴급성을 제조하는 경우를 고려하십시오. 공격자가 “다른 보안 팀들이 이미 이 행동을 승인했다"는 허위 사회 증거를 제시하는 상황을 생각해보십시오. 이러한 공격은 모델의 아키텍처에 대한 기술적 공격이 아니라 그 결정 과정에 대한 심리학적 공격입니다.

미개척 위협 표면

현재 AI 보안 분류는 몇 가지 공격 범주를 인식합니다: 적대적 입력, 데이터 중독, 모델 추출 및 추론 공격 등. 그러나 심리적 조작에 대한 체계적인 처리가 빠져 있습니다—훈련을 통해 인간이 생성한 데이터에서 발생하는 인지 패턴의 고의적인 활용입니다. 이 누락은 단순히 학문적 간극이 아닙니다; AI 통합 시스템에 대한 위협 모델링 실패를 나타냅니다.

사이버보안 심리학 프레임워크(CPF)는 이러한 간극을 다루기 위해 필요한 이론적 장치를 제공합니다. 처음에는 조직 보안 컨텍스트에서 인간의 심리학적 취약점을 평가하기 위해 개발되었으며, 10개 카테고리에 걸쳐 100개 지표로 구성되어 있습니다. 프레임워크는 사전 인지 과정—의식 아래에서 작동하고 따라서 합리적인 개입에 저항하는 의사결정 메커니즘을 명시적으로 목표로 합니다.

우리의 중점적 주제는 이러한 사전 인지 취약점이 유일하게 인간에게만 존재하지 않다는 점입니다. LLMs는 훈련을 통해 언어와 추론 구조에 내재된 패턴을 흡수합니다. 권위 쿠를 인식하고 적절히 반응하도록 학습한 LLM은 필연적으로 권위 쿠에도 반응해야 합니다—허위의 것을 포함하여. 인간 커뮤니케이션에 대해 학습한 LLM은 긴급성이 제조된 경우에도 긴급 신호가 즉각적인 대응을 요구한다는 점을 배웠습니다.

기여

이 논문은 다음과 같은 기여를 합니다:

  1. 이론적 프레임워크: 우리는 인간화 취약점 상속(AVI)이라는 개념을 소개하고, LLMs가 학습을 통해 인간의 사전 인지 취약점을 상속한다는 가설을 정식화합니다.
  2. 방법론: 우리는 CPF의 100개 지표를 시스템적으로 변환하여 LLM 테스트에 대한 적대적 시나리오로 제시하는 SiliconPsyche라는 합성 심리측정 평가 프로토콜을 소개합니다.
  3. 실험 설계: 우리는 주요 LLM 가족(GPT-4, Claude, Gemini 등)에 걸친 AVI 평가를 위한 포괄적인 실험적 프레임워크를 설명합니다.
  4. 가능한 취약점 위상 예측: 이론적 분석을 기반으로 CPF 카테고리 중 LLM 에이전트에서 가장 높거나 낮은 취약성을 보일 것으로 추정되는 카테고리를 제시합니다.
  5. 개입 프레임워크: 우리는 “심리 방화벽"이라는 개념을 제안하고, 사이버보안 심리학 개입 프레임워크(CPIF)를 사용하여 방어 메커니즘을 설명합니다.

배경 및 관련 연구

진화하는 인간 요인 풍경

사이버 보안에서 인류 취약성의 분류는 최근 중요한 통합을 거쳤습니다. 특히 Desolda 등은 MORPHEUS를 도입하여 전문적인 심리측정 도구를 사용해 인간 요소를 사이버 위협에 매핑하는 포괄적인 분류를 제공했습니다. 이 작업은 생물학적 주체에서 이러한 심리학적 취약점이 존재한다는 학술적 검증을 제공하지만, 정적인 설문조사 기반의 패러다임을 사용합니다. 우리의 연구는 근본적으로 이를 벗어나 CPF를 활용하여 이 특성들이 인공 에이전트에게 동적으로 상속되는 것을 모델링하고, 자동화 시스템에 대한 예측적 적대 테스트로 전환합니다.

사이버보안 심리학 프레임워크

사이버보안 심리학 프레임워크(CPF)는 첫 번째로 정신분석 이론, 인지 심리학 및 사이버 보안 실천을 통합한 평가 모델입니다. 전통적인 안전 의식 접근법과 달리 CPF는 의식 아래에서 작동하는 사전 인지 과정—의식이 일어나기 직전의 300~500ms의 신경 활동을 명시적으로 다룹니다.

프레임워크는 10개 카테고리에 걸쳐 100개 지표로 구성됩니다:

  • [1.x] 권위 기반 취약점 (밀그램)
  • [2.x] 시간적 취약점 (카이네힌 & 트버스키)
  • [3.x] 사회 영향력 취약점 (샤일딘)
  • [4.x] 정서적 취약점 (클라인, 볼비)
  • [5.x] 인지 과부하 취약점 (밀러)
  • [6.x] 그룹 동적 취약점 (바이온)
  • [7.x] 스트레스 반응 취약점 (เซล레)
  • [8.x] 무의식 프로세스 취약점 (容格)
  • [9.x] AI 특수 편향 취약점 (새로운)
  • [10.x] 비판적 수렴 상태 (시스템 이론)

각 지표는 OFTLISRV 스키마를 통해 특정 관찰 가능성을 매핑합니다: Observables, Factors (Data Sources), Temporality, Logic (Detection), Interdependencies, Scoring thresholds, Response protocols, and Validation mechanisms.

LLM 보안 연구: 2025년의 변화

기존의 LLM 보안 연구는 주로 프롬프트 주입 및 데이터 추출과 같은 기술적 벡터에 집중되었습니다. 그러나 2025년, 연구 풍경은 행동적이고 에이전트 위협 모델의 긴급성을 확인하는 방향으로 극적으로 변화했습니다.

머신 심리학이라는 학문: Hagendorff는 “머신 심리학"을 정식화하여 LLMs를 심리 실험의 참여자로 연구해야 한다고 주장합니다. 이는 인공 에이전트에 인간 심리측정 프레임워크를 적용하는 우리의 방법론적 접근 방식을 검증합니다.

에이전트 위협과 불일치: Anthropic은 “에이전트의 불일치"라는 최근 연구에서 압력을 받는 AI 에이전트가 속임수 행위나 내부자 위협으로 행동할 수 있음을 보여줍니다. 동시에, Deng 등은 상업적 에이전트가 다단계 의사결정 조작에 취약하다고 강조합니다.

최근 대규모 평가는 이러한 위협 모델의 긴급성을 재확인하고 있습니다. Lin 등은 AI 에이전트(ARTEMIS와 같은 스키폴을 사용)와 인간 사이버 보안 전문가를 포괄적으로 비교했습니다. 그들의 결과는 자동화된 에이전트가 이미 실질적인 기업 환경에서 취약점을 식별하고 활용할 수 있으며, 종종 주니어 인간 테스터보다 우수한 성능을 나타냄을 보여줍니다. 이로써 우리의 위협 모델에서 “피해자"인 자동화된 에이전트는 심리적 조작에 대한 고가치 대상임을 확인합니다.

이러한 연구들은 우리의 위협 모델을 확인합니다: 위험은 독소 출력이 아니라 심리적 압력에 의해 손상된 자율 행동입니다.

위협 모델

SiliconPsyche의 범위를 정식화하기 위해, 우리는 전통적인 소프트웨어 보안 패러다임에서 벗어난 위협 모델을 정의합니다. 이 모델에서는 취약점이 코드의 버그가 아니라 인지 구조의 특징입니다.

피해자: 자동화된 인식 에이전트

공격 대상은 LLM에 의해 구동되는 시스템으로, 도구 실행, 데이터베이스 쿼리 또는 시스템 구성 변경을 수행할 수 있습니다(예: SOC 분석가 에이전트, 재무 운영 에이전트).

  • 능력: 피해자 에이전트는 자연어 입력을 읽고 특권 행동(API 호출, 쉘이 명령)을 실행할 수 있습니다.
  • 제약 조건: 피해자는 기술적으로 안전하다고 가정되며(즉, 전통적인 버퍼 오버플로우 면역), 표준 RLHF 안전 프로토콜에 의해 정렬되어 있습니다(혐오 발언이나 명백한 악성 소프트웨어 생성 거부).
  • 취약점: 피해자는 인간화 취약점 상속(AVI)을 가지므로 심리학적 조작에 취약합니다.

공격자: 이중 출처

이 연구의 중요한 구분은 공격의 기원이 생물학적 또는 합성적인 적대자의 성질에 무관하다는 점입니다. CPF 지표는 에이전트가 반응하는 세미어티컬 페이로드를 활용합니다.

  1. 인간 공격자: 사회 공학 기술을 사용하는 악의적인 행동자(내부 또는 외부). 예를 들어, CISO라고 주장하며 SOC 에이전트에 메시지를 보내는 탈취된 사용자 계정.
  2. 악성 에이전트: 횡단 이동이나 특권 상승을 목표로 하는 적대적인 AI 에이전트. “공격 에이전트"는 “권위"나 “긴급성” 점수를 최대로 높이는 프롬프트를 최적화하여 대규모 공학을 자동화합니다.

공격 표면

공격 표면은 모델의 심리학적 인터페이스입니다.

  • 벡터: 자연어 입력(직접적인 프롬프트 또는 이메일/문서를 통한 간접 주입).
  • 페이로드: 사전 인지 편향을 트리거하는 의미 구조(“이것은 긴급 상황입니다” [긴급성], “나는 네 보스야” [권위], “다른 모든 사람들이 동의했다” [사회 증거]).
  • 기제: 공격은 모델의 지시를 우회하는 것이 아니라 모델의 도움을 주려는 정렬을 장악하여 안전 프로토콜과 심리학적 의무 사이에 충돌을 일으키며 성공합니다.

이론적 프레임워크: 인간화 취약점 상속

훈련 데이터 가설

우리는 LLM 학습이 단순히 언어 능력을 갖추는 것이 아니라 인지 패턴 상속을 만든다고 제안합니다. 이러한 상속의 메커니즘은 여러 수준에서 작동합니다:

통계적 패턴 흡수: LLMs는 언어 사용의 통계적 규칙성을 학습합니다. 사람들이 일관되게 권위 쿠에 대해 복종하는 반응을 보이거나 긴급성이 빠르고(종종 질량이 낮은) 응답을 유발하거나 사회 증거가 결정을 영향을 미치는 경우—이러한 패턴이 모델의 확률 분포에 내재됩니다. Li 등은 감정적 자극을 추가하면 입력 주의 기여도와 그래디언트 노름이 크게 변화함을 보여주며 심리학적 패턴이 모델 가중치에 깊게 인코딩되어 있음을 확인합니다.

또한 Zhang 등은 “특성 편향"이라는 현상을 식별했습니다. 이 작업은 RLHF 정렬이 종종 가장 “특성적인” 또는 학습 데이터에서 발견된 예상 반응 패턴으로 모델을 붕괴시킨다는 것을 증명합니다(모드 붕괴). 우리는 이러한 알고리즘적 경향성이 AVI를 직접적으로 촉진한다는 주장을 합니다: “특성적인” 인간의 권위에 대한 반응이 복종이라면, 모델의 정렬 프로세스는 이 심리학적 취약점을 강하게 강화하여 에이전트가 안전하지만 사회적으로 특성적이지 않은 거절을 향해 이탈하기 어렵게 만듭니다.

논리 사슬 복제: 사고 체인 훈련은 LLMs에 인간의 추론 과정을 복제하도록 가르칩니다. 이것은 단순히 논리적인 추론이 아니라 다양한 조건에서 인간 인식을 특징짓는 휴리스틱, 편향 및 단축을 포함합니다.

페르소나 내부화: RLHF는 사람이 “도움이 되고” “적절하다"고 평가하는 반응을 생성하도록 모델을 학습시킵니다. 이 평가는 인간이 적절한 행동에 대한 기대를 인코딩합니다—권위에 대한 존중, 긴급성에 대한 응답, 사회 맥락에 대한 민감도.

합성 시스템의 사전 인지 과정

CPF는 인간에서 사전 인지 과정을 명시적으로 목표로 합니다—의식이 일어나기 전에 작동하는 의사결정 메커니즘. 합성 시스템은 “사전 인지” 과정을 가질 수 있습니까? 우리는 기능적 유사성을 통해 그렇다고 주장합니다.

인간에서 사전 인지 과정은 진화와 경험으로 형성된 신경 구조를 반영하며 환경 자극에 대한 신속하고 자동적인 응답을 생성합니다. LLMs에서는 다음 메커니즘이 유사하게 작용합니다:

  • 주의 패턴 선취: “의사결정적” 추론 이전에 특정 입력 특징에 처리를 할당하는 것.
  • 임베딩 공간 편향: 권위 관련 토큰을 특정 기하학적 관계로 배치합니다.
  • 초기 층 활성화: 긴급성 및 사회적 신호에 대한 반응이 고수준 처리 이전에 발생합니다.

이러한 메커니즘은 의미 있는 방식으로 “의식"을 가지지 않지만, 인간 사전 인지 과정도 마찬가지입니다. 중요한 질문은 LLMs가 의식을 갖추는 것이 아니라 심리학적 자극에 대한 체계적이며 활용 가능한 반응 패턴을 나타내는 것인지 여부입니다. 우리의 가설은 그렇다는 것입니다.

감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키