(본 논문은 자동화된 협상 과정을 위한 장치 원생 에이전트 AI 시스템을 제안합니다. 이 시스템은 6단계 아키텍처를 통해 개인 정보 보호, 투명성, 공정한 협상을 가능하게 합니다.)
💡 논문 해설
1. **개인 정보 보호 협상**: 본 논문에서는 자동 에이전트가 사용자의 개인 정보를 보호하면서 협상할 수 있는 방법을 제안합니다. 이는 마치 익명의 편지 작성자가 자신의 이름을 공개하지 않고도 중요한 메시지를 전달하는 것과 같습니다.
2. **공정한 협상 프로토콜**: 본 논문은 양자 간 협상에서 모든 참가자가 공정하게 참여할 수 있도록 하는 프로토콜을 제안합니다. 이는 마치 두 사람이 서로를 신뢰하지 않아도 합의에 도달할 수 있는 방법을 알려주는 것과 같습니다.
3. **장치 원생 AI 아키텍처**: 본 논문은 AI가 장치 내에서 실행되도록 설계된 아키텍처를 제안합니다. 이는 마치 스마트폰이 자체 전력으로 작동하는 것처럼, 에이전트도 그 장치의 자원을 최대한 활용하여 작업을 수행하게 만드는 것입니다.
📄 논문 발췌 (ArXiv Source)
자율 에이전트, 개인 정보 보호 협상, 제로 지식 증명, 장치 내 AI, 에이เจ닉 AI, 설명 가능한 AI, 양자 간 타협, 장치 원생 컴퓨팅
소개
보험 및 비즈니스 대 비즈니스 (B2B) 상거래는 보통 정적 가격 모델을 기반으로 합니다. 고객에게 고정된 견적이 제공되며 협상이 허용되지 않습니다. 예를 들어, 건강보험 신청자는 높은 공제율을 낮은 프리미엄에 맞교환할 수 없으며, 구매 관리는 실시간으로 대량 할인 협상을 진행할 수 없습니다. 수동 협상이 가능하긴 하지만 여전히 느리고 일관성이 부족하며 보통 고가 거래에 한정되어 있어 가격 결정이 경직되거나 비효율적일 수 있습니다.
자율 에이전트는 이러한 제한을 극복할 잠재적인 방향을 제시합니다. 양자 간 협상에서 구매자와 판매자 에이전트가 대리인의 behalf를 대신하여 실시간 협상을 진행합니다. 구매자는 최대 예산과 허용 가능한 타협 등 제약 사항을 지정할 수 있으며, 에이전트는 협상 과정을 자동으로 관리합니다. 그러나 여전히 몇 가지 중요한 도전 과제가 남아 있습니다: 개인 정보 보호 (사용자는 금융 제약 조건을 외부 서버에 공개해서는 안 됨), 설명 가능성 (규제 요구 사항은 결정 투명성을 명시함), 자원 제한 (장치 내 알고리즘 복잡도 제한), 공정성 (이용 협정 방지).
본 연구에서는 장치 원생 에이เจ닉 AI 시스템을 소개합니다. 제안된 접근법은 정적 가격을 개인 정보 보호 협상으로 전환하는 6계층 아키텍처를 통해 이러한 도전 과제를 해결합니다: (1) 선택적 상태 전송, (2) 설명 가능한 메모리, (3) 세계 모델 증류, (4) 제로 지식 증명을 통한 개인 정보 보호 프로토콜, (5) 모델 인지 오프로딩, 그리고 (6) 시뮬레이션 비평가 안전 기제.
관련 연구
에이เจ닉 AI 프레임워크
최근 프레임워크는 자율 AI 추론을 발전시켰습니다. ReAct는 언어 모델 내에서 추론과 행동을 통합합니다. AutoGPT는 복잡한 작업을 수행하기 위해 대형 언어 모델 (LLM) 호출을 일련으로 실행합니다. LangChain은 에이전트 애플리케이션을 구축하는 데 필요한 도구를 제공합니다. 이러한 시스템은 자율 능력을 보여주지만 제한 사항도 공유합니다. 모든 시스템은 실행에 클라우드 인프라에 의존하며 개인 정보 보호 메커니즘을 갖추지 않습니다. 양자 간 협상 프로토콜이나 리소스가 제약된 장치에서 작동하는 능력을 지원하지 않습니다.
다중 에이전트 시스템 및 협상
게임 이론은 자동화된 협상을 위한 기본 원칙을 제공합니다. 나이시 협상은 양자 간 환경에서 공정한 결과를 정의하고, 루빈스타인의 번갈아 가며 제안하는 모델은 순차적 협상 동력을 설명합니다. 이러한 이론적인 프레임워크는 본 연구에서 소개되는 프로토콜 설계에 영향을 미칩니다.
최근 다중 에이전트 시스템은 에이전트 간 협업의 가능성을 보여줍니다. MetaGPT는 협력하는 에이전트에게 고유한 역할을 부여하고 CAMEL은 역할 연기 메커니즘을 통해 통신을 촉진합니다. 그러나 이러한 시스템은 주로 경쟁적인 이해관계를 포함하지 않은 양자 간 협상보다는 공동 작업 과제 완료에 초점을 맞추고 있습니다. 설계에는 개인 정보 보호 고려 사항이 최소한으로 다루어집니다.
제로 지식 증명은 기저 데이터를 공개하지 않고 개인 정보 보호 계산을 가능하게 합니다. zk-SNARKs는 효율적인 증명 생성을 지원하여 실용적 배포에 적합합니다. 최근 연구에서는 이러한 기술들을 머신 러닝에 적용하고 있습니다. 본 연구에서는 협상 프로토콜에 이를 통합하여 에이전트가 제약 조건 충족을 입증하면서도 해당 제약 조건 자체를 공개하지 않도록 합니다.
설명 가능성 및 신뢰
설명 가능한 AI 연구는 심사 기록이 사용자 신뢰를 향상시킨다는 것을 보여줍니다. LIME와 SHAP은 모델 예측에 대한 사후 설명을 제공합니다. 금융 AI 시스템은 결정 투명성을 요구하는 규제를 준수해야 합니다.
현재 에이전트 시스템은 결정 로그가 검증 가능성이 보장되지 않는 비형식적인 텍스트 추적으로 구성되어 있어 암호화 심사 가능성이 부족합니다. 제안된 설명 가능한 메모리 시스템은 Merkle 트리를 사용하여 조작 증거 로깅을 수행하고 블록체인 고정을 통해 독립적인 검증을 가능하게 합니다.
표 [tab:comparison]는 비교를 요약합니다. 제안된 프레임워크는 자율 추론, 개인 정보 보호 협상 및 암호화 설명 가능성 등을 장치 원생 아키텍처 내에 결합합니다.
자동.=자동 추론, 사.=개인 정보 보호 (제로 지식 증명),
협.=양자 간 협상, 설.=암호화 가능성이 높음,
검증.=코드 검증, 장치=장치 내 실행,
상태=장치 간 상태 전송.
=완전 지원, $`\sim`$=부분 지원, –=지원하지 않음.
시스템 아키텍처
이 섹션에서는 자율 협상을 위한 장치 원생 에이เจ닉 AI 아키텍처를 제안합니다. 먼저 작업 흐름을 설명한 다음 6개 구성 요소에 대한 상세 설명을 제공합니다.
에이전트 워크플로 개요
그림 1은 협상 동작을 지배하는 8단계의 에이เจ닉 AI 워크플로를 보여줍니다. 과정은 사용자가 목표 제약 조건을 정의하는 목표 초기화 단계에서 시작합니다. 여기서는 타겟 가격 범위와 허용 가능한 타협 사항이 지정됩니다. 그 다음 가드레일 단계에서는 이러한 목표가 예산 한도 및 규제 준수를 확인하기 위한 정책 제약 조건과 검증됩니다.
컨텍스트 확장에서는 단기 메모리 (STM)와 장기 메모리 (LTM)에서 관련 정보를 검색합니다. STM은 현재 협상 상태를 저장하고, LTM에는 과거 거래 기록, 학습된 선호도 및 도메인별 지식이 포함됩니다. 의도 이해는 확장된 컨텍스트 내에서 협상 목표를 해석하며 협상 유형을 식별하고 반대당사자의 기대치를 예측합니다.
적응 계획 단계에서는 전체적인 협상 목표가 실행 가능한 하위 목표로 분해되고 다단계 협상 전략이 수립됩니다. 플래너는 공격적인 오퍼링 오퍼, 점진적인 양보 및 여러 조건을 결합하는 패키지 거래와 같은 전략적 접근 방식을 평가합니다. 자율 실행 단계에서는 선택된 전략이 액션 컨트롤러에 의해 도구 허브를 통해 반대당사자 에이전트와 오퍼링 교환을 수행합니다.
실시간 모니터링은 계획된 전략에 대한 협상 진행 상황을 지속적으로 추적합니다. 반대당사자의 행동이 예상 패턴에서 벗어나면 모니터링 시스템은 재계획을 시작합니다. 워크플로는 결과 평가 단계에서 마무리되며, 여기서 최종 합의를 평가하고 메모리를 학습한 교훈으로 업데이트하며 향후 협상에 대한 피드백을 생성합니다.
8단계 순차적 단계에서 목표 초기화부터 결과 평가까지의 에이저닉 AI 워크플로 아키텍처. 도구 허브와 이중 메모리 (STM/LTM) 구성 요소 포함.
구성 요소 1: 선택적 상태 전송
협상은 종종 여러 세션과 장치를 가로지르는 경우가 많습니다. 예를 들어, 협상이 랩톱에서 시작되어 이동 중에 모바일 기기에서 계속되고 집에서 태블릿에서 마무리될 수 있습니다. 전체 협상 상태는 대화 기록, 활성 오퍼링, 반대당사자 모델 및 계획 컨텍스트를 포함합니다. 복잡한 여러 라운드 협상에서는 상태 크기가 8MB에 이를 수 있습니다.
모바일 네트워크에서 8MB의 데이터를 전송하면 큰 지연이 발생할 수 있습니다. 선택적 상태 전송 메커니즘은 이러한 문제를 해결하기 위해 세 가지 기법을 사용하여 협상 상태를 압축합니다: 첫째, 중요한 상태 식별은 중요한 요소와 재구성 가능한 데이터를 구분합니다. 최근 메시지와 활성 오퍼링이 중요하게 간주되며 더 오래된 대화 턴은 요약됩니다. 둘째, 임베딩 가위질은 최신 50개의 임베딩만 유지하고 그 외는 클러스터링하여 중복을 줄입니다. 마지막으로, 델타 인코딩은 이전 동기화 지점 이후에 발생한 변경 사항만 전송합니다.
압축 알고리즘은 다음과 같이 정식화됩니다. $`S = \{s_1, s_2, \ldots, s_n\}`$가 전체 상태를 나타낸다고 가정합니다. 중요도 점수 $`I(s_i)`$는 대화 진행 상황에 대한 최근성과 관련성을 기반으로 계산됩니다. 점수가 임계값 $`\tau`$ 미만인 상태들은 삭제되거나 요약됩니다:
이 메커니즘은 워크플로의 컨텍스트 확장 단계 (그림 1)에 통합됩니다. 에이전트가 새로운 장치에서 활동을 재개할 때 압축 상태는 협상 컨텍스트를 복원합니다. STM은 활성 상태를 수신하고 LTM은 요약된 역사 정보를 받습니다. 성능 결과는 표 1에 제시됩니다.
구성 요소 2: 설명 가능한 메모리
규제 도메인은 결정 심사 기록을 요구하여 준수 및 책임성을 보장합니다. 예를 들어, 보험 협상은 특정 조건을 수락하거나 거절하는 이유를 문서화해야 하며 B2B 구매 시스템은 규제 준수 심사를 돕기 위해 포괄적인 기록이 필요합니다. 또한 투명성은 사용자가 에이전트 동작을 이해하고 신뢰할 수 있게 합니다.
설명 가능한 메모리 시스템은 각 결정에 대한 암호화 심사 기록을 생성합니다. 각 레코드는 타임스탬프, 결정 유형, 입력, 추론 경로 및 결과를 포함합니다. 이러한 레코드는 Merkle 트리를 사용하여 연결되며 루트 해시는 정기적으로 공개 블록체인에 고정되어 독립적인 검증이 가능하도록 합니다.
메모리 구조는 세 가지 쿼리 유형을 지원합니다. 포인트 쿼리는 특정 결정을 식별자 또는 타임스탬프로 검색합니다. 범위 쿼리는 지정된 시간 범위 내의 모든 결정을 반환합니다. 증명 쿼리는 특정 내용이 주장한 시점에 존재했다는 암호화 증명을 생성합니다.
수식적으로, 결정 $`d_i`$와 그 내용 $`c_i`$에 대해 해시는 다음과 같이 계산됩니다:
여기서 $`\mathcal{L}_{\text{CE}}`$는 교차 엔트로피 손실을 나타내고, $`\mathcal{L}_{\text{KL}}`$는 선생님($`p_T`$)과 학생($`p_S`$) 분포 사이의 KL 발산이며 온도 $`\tau`$, 그리고 $`\alpha`$는 두 항을 균형 있게 조절합니다.
증류된 모델은 워크플로의 적응 계획 (그림 1)과 통합되어 하위 목표 분해, 사고 체인 추론 및 전략 반성 등을 장치 내에서 완전히 지원합니다. 성능 결과는 표 3에 제시됩니다.
구성 요소 4: 다중 에이전트 협상 프로토콜
타당성 사전 확인
협상을 시작하기 전, 에이전트는 합의에 도달할 수 있는 가능성을 검사합니다. 각 참가자는 개인적으로 허용 범위를 유지합니다: 구매자가 $`[p_{\min}^B, p_{\max}^B]`$를 지정하고 판매자가 $`[p_{\min}^S, p_{\max}^S]`$를 지정합니다.
프로토콜은 실제 값 공개 없이 지정된 범위가 겹치는지 ($`p_{\max}^B \geq p_{\min}^S`$) 검사하기 위해 안전한 두 당사자 계산을 사용합니다. 각 에이전트는 암호화 경계에 대한 커밋을 유지하고 Paillier 암호화를 통해 히모르픽 비교를 사용하여 양 당사자가 겹침 여부를 공동으로 계산합니다. 결과는 이진이며, 가능(1) 또는 불가능(0). 불가능한 협상은 즉시 종료되어 무의미한 계산을 방지합니다.
구현은 고성능 장치에서 120 ms의 오버헤드를 초래하나 전체 협상 과정에 걸쳐 희석됩니다. 이 사전 확인은 무의미한 협상 시도를 제거하여 성공률을 8% 증가시킵니다 (표 8).
협상 실행
협상 프로토콜은 자동 에이전트 간 개인 정보 보호 협상을 가능하게 하며, 개인 제약 조건을 공개하지 않습니다. 각 라운드에서 Agent A는 제약 조건 충족을 입증하는 제로 지식 증명과 함께 오퍼링 $`o_A`$를 제출합니다. Agent B는 증명을 검사하고, 오퍼링을 평가한 후 수락하거나 관련 증명이 첨부된 카운터오퍼링 $`o_B`$를 발행합니다. 이 반복 과정은 합의 도달이나 10라운드 후 타임아웃까지 계속됩니다.
제로 지식 증명은 Groth16 zk-SNARKs를 사용하여 구성되며, 빠른 검증을 지원하는 간결한 증명을 제공합니다. 기본 회로는 제약 조건 충족을 인코딩하여 제안된 가격 $`p`$가 $`p_{\min} \leq p \leq p_{\max}`$를 만족하도록 하며, $`p_{\min}`$ 또는 $`p_{\max}`$를 공개하지 않습니다. 증명 생성은 고성능 장치에서 80 ms가 필요합니다.
에이전트 검증을 통해 양 당사자가 인증 코드를 실행하도록 보장됩니다. 각 에이전트는 ARM TrustZone 또는 Intel SGX와 같은 신뢰된 실행 환경 내에서 작동하며, 협상 시작 시 에이전트는 코드 해시가 포함된 검증 보고서를 교환하고 이를 공개 등록부에 대해 확인합니다. 이 과정은 프로토콜 우회 또는 반대당사자 착취를 방지합니다. 검증 과정은 세션 당 45 ms의 오버헤드를 초래합니다.
종료는 나이시 협상 원칙에 따릅니다. $`|offer_A - offer_B| < \epsilon`$가 되면 오퍼링이 수렴하며, 에이전트들은 $`p^* = (offer_A + offer_B)/2`$를 계산합니다.