
Accelerating Monte-Carlo Tree Search with Optimized Posterior Policies
알파제로는 신경망을 사용하여 게임에서 높은 수준의 플레이를 학습하는 방법입니다. 이 방법은 몬테카를로 트리 탐색(MCTS) 알고리즘을 활용해 주어진 게임 상태에 대한 개선된 가치와 정책을 탐구하고 학습합니다.
'Artificial Intelligence' 카테고리의 모든 글

알파제로는 신경망을 사용하여 게임에서 높은 수준의 플레이를 학습하는 방법입니다. 이 방법은 몬테카를로 트리 탐색(MCTS) 알고리즘을 활용해 주어진 게임 상태에 대한 개선된 가치와 정책을 탐구하고 학습합니다.

인공지능(AI) 에이전트는 기초 모델과 실행 루프를 결합하여, 정보 수집, 상태 유지, 도구 선택 및 제약 조건 하에서의 다단계 작업을 수행합니다. 이러한 AI 에이전트는 현대 디지털 작업 환경에서 분산된 지식과 도구 중재 작업, 그리고 최종 결과에 대한 성공 정의를 처리할 수 있습니다. 이 논문은 에이전트 아키텍처와 학습 전략을 중심으로 이러한 시스템의 현재 격차 및 개선 방향을 조사합니다.

최근 대형 언어 모델(LLMs)은 도구 호출을 통합하여 복잡한 작업 추론 능력을 향상시켰습니다. 이 논문에서는 실시간 공간-시간 상황에서의 추론 작업에 초점을 맞춘 STAgent를 제안합니다. STAgent는 강화학습, 고급 데이터 구성 및 계층적 학습 방법을 통합한 종합적인 파이프라인을 구현하여 복잡한 현실 세계 문제 해결 능력을 향상시킵니다.

이 논문에서는 대형 언어 모델(LLM)을 기반으로 하는 새로운 시스템인 CaveAgent를 제시합니다. 이 시스템은 LLM의 강력한 코드 생성 능력을 활용하여, 프로세스 중심의 함수 호출 패러다임에서 객체 지향 상태 관리로 이동하는 것을 목표로 합니다. 이를 통해 기존 문제점들을 해결하고, 복잡한 논리적 의존성을 효율적으로 처리하며, 다중 에이전트 간의 정확한 협업을 가능하게 합니다.

의학적 서술문에서 정확하고 임상적으로 관련성이 있는 지식 그래프(KGs)를 구축하는 것은 생물의학 정보학에서 근본적인 도전 과제입니다. 임상 KG는 설명 가능한 AI, 의사결정 지원, 그리고 환자의 장기적 모델링을 가능하게 하지만, 전통적인 접근법은 여전히 제약되어 있습니다. 이 논문에서는 free-text에서 직접 KG를 구축하고 평가하는 최초의 end-to-end 프레임워크를 소개합니다. 우리의 파이프라인은 지속적인 정교화와 자기 감독 평가를 지원하여, 높은 정확도의 구성과 시간에 따른 동적 그래프 개선을 가능하게 합니다.

데이터베이스에서의 지식 발견(KDD)은 컴퓨터 응용 프로그램의 다양한 분야에서 매일 생성되는 방대한 양의 데이터를 활용하는 것을 목표로 합니다. KDD는 데이터 선택, 전처리, 변환, 데이터 마이닝, 시각화 등 일련의 구조적인 과정을 통해 데이터셋으로부터 숨겨진 의미 있는 지식을 추출합니다. 핵심 데이터 마이닝 기법 중 하나인 분류는 레이블된 데이터로 훈련된 분류기를 사용하여 새로운 인스턴스의 클래스를 예측하는 것을 포함합니다. 문헌에서 제안된 여러 접근 방법에는 의사결정 나무 추출, 베이지안 분류기, 가장 가까운 이웃 검색, 신경망, 서포트 벡터 머신, 그리고 형식적 개념분석(FCA) 등이 있습니다. FCA는 해석 가능한 학습을 위한 효과적인 접근 방법으로 인정받고 있으며, 개념 격자라는 수학적 구조를 기반으로 합니다. 이 구조는 형식적 개념의 생성과 그들 사이의 숨겨진 관계를 발견하는 데 도움이 됩니다. 본 논문에서는 FCA 기반 분류기의 최신 동향을 검토합니다. 이름형 데이터에서 폐쇄 연산자 계산 방법을 다양한 방식으로 탐구하고, 가장 관련성이 높은 개념에 초점을 맞춘 부분 개념 격자의 구성 방법에 대한 새로운 접근법을 소개합니다. 제안된 방법의 효율성을 입증하기 위해 실험 결과를 제공합니다.

대형 언어 모델(LLMs)은 의료, 금융 및 공공 부문 등 다양한 분야에서 광범위하게 채택되고 있습니다. 이러한 환경에서는 조직 정책과의 일치가 필수적입니다 LLM 어시스턴트는 회사 규정, 규제 요구사항 및 안전에 중요한 제약 조건을 따르아야 합니다. 예를 들어 의료 챗봇은 건강 정보를 제공할 수 있지만 진단이나 용량 조언을 제공해서는 안 됩니다. 이러한 제약 조건을 준수하지 않으면 오정보, 규제 위반, 명성 손상 및 사용자 피해가 발생할 수 있습니다. 이러한 필요성은 보편적인 안전과 조직별 정책 일치 사이의 근본적인 차이를 강조합니다. 독소성, 폭력, 혐오 발언 등 보편적 안전 문제는 대부분 문맥에 무관하고 많은 배포 환경에서 적용됩니다. 반면 조직별 정책은 도메인 및 조직마다 세밀한 제약 조건을 정의하며 (예 투자 조언 거절, 진단 피하거나 경쟁사 참조 금지) 이와 같은 차이를 이해하는 것이 중요합니다. ###

> 직접 선호도 최적화(DPO)는 다중모드 대형 언어 모델(MLLMs)에서 환영현상(hallucinations)을 완화하는 데 큰 잠재력을 보여주고 있다. 하지만 기존의 다중모드 DPO 접근법은 선호도 데이터의 난이도 불균형으로 인해 과적합하기 쉽다. 우리의 분석에 따르면, MLLMs는 쉽게 구분할 수 있는 선호도 쌍을 지나치게 강조하므로 미세한 환영현상 억제와 전체 성능 저하가 발생한다. 이 문제를 해결하기 위해 우리는 학습 과정을 균형 있게 하는 효과적인 프레임워크인 난이도 인식 직접 선호도 최적화(DA-DPO)를 제안한다. DA-DPO는 두 가지 주요 구성 요소로 이루어져 있다 (1)*난이도 추정*은 보완적인 생성과 대조 목표를 가진 사전 훈련된 시각-언어 모델을 활용하여 추가 학습 없이 견고한 난이도 점수를 생산한다; 그리고 (2) *난이도 인식 학습*은 추정 난이도에 기반해 선호 쌍을 재가중하며, 쉽게 구분할 수 있는 샘플의 가중치를 줄이고 더 어려운 샘플에 중점을 두어 과적합을 완화한다. 이 프레임워크는 새로운 데이터나 추가적인 미세 조정 단계 없이 도전적인 예제를 우선시함으로써 선호도 최적화를 더욱 효과적으로 수행할 수 있게 한다. 광범위한 실험은 DA-DPO가 다중모드 선호도 최적화를 지속적으로 개선하고 환영현상에 대한 강건성을 향상시키며 표준 벤치마크에서 더 나은 일반화 성능을 제공하면서 계산 효율성을 유지한다는 것을 보여준다. 프로젝트 페이지는 [`https //artanic30.github.io/project_pages/DA-DPO`](https //artanic30.github.io/project_pages/DA-DPO/)에 있습니다.

본 논문에서는 대형 언어 모델(LLMs)이 다중 에이전트 시스템에서 어떻게 활용되는지 살펴보고, 특히 사회적 상호작용과 설득 전략에 집중합니다. 이 연구는 ElecTwit라는 정치 선거를 모방한 시나리오를 통해 LLMs의 설득 능력을 평가하며, 이를 통해 실제 세계에서 에이전트들이 어떻게 행동할지 더 정확하게 이해하려고 합니다.

대규모 언어 모델(LLMs)은 복잡한 추론 작업을 수행하는 데 있어 큰 성과를 거두었으며, 이는 훈련 및 추론 시 확장성을 통해 달성되었습니다. 훈련 확장을 통해 LLMs는 더 복잡한 문제 해결 능력을 갖추게 되지만, 이를 위해 필요한 계산 자원이 증가하고 고급 데이터가 제한적일 수 있습니다. 이러한 문제를 해결하기 위해 시험 시간 확장(TTS)이라는 새로운 방법론이 도입되었으며, 이는 추가적인 추론 시 계산 자원을 할당하여 잠재적인 추론 능력을 향상시킵니다. Falcon-H1R은 TTS 방법론을 활용해 추론 효율성을 높이는 7B 모델입니다. ###

이 논문에서는 대형 언어 모델(LLM)들의 협업을 통해 인공일반지능(AGI)으로의 새로운 접근 방법을 제안한다. 특히, 개별적으로 약한 오픈소스 LLM들이 협력하여_gemini-3-pro_와 같은 주요 폐쇄형 모델들을 능가할 수 있음을 보여준다. 이를 위해 **JiSi**라는 새로운 프레임워크를 제안하며, 이는 라우팅과 집약(aggregation)의 통합을 통해 LLM들의 협업을 최적화한다.

다목적 대형 언어 모델(MLMs)이 자율 에이전트에 빠르게 채택되면서 교육 환경에서의 플랫폼 간 작업 수행 능력이 큰 주목을 받고 있다. 그러나 기존 벤치마크 프레임워크는 특히 학교 전용 소프트웨어(XiaoYa 지능형 어시스턴트, HuaShi XiaZi 등)를 다룰 때 플랫폼 간 작업 지원에서 눈에 띄는 부족함을 보이고 있으며, 이로 인해 에이전트의 효율성이 크게 저하되는 경우가 많다. 또한 현재 평가 방법은 목표 지향성이나 트래젝토리 일치와 같은 거친 메트릭스에 의존하여 복잡한 작업에서 에이전트의 자세한 수행과 효율성을 포착하는 데 어려움을 겪고 있다. 이러한 문제를 해결하기 위해 우리는 다목적 언어 모델을 사용한 교육용 플랫폼 간 에이전트 벤치마킹에 대한 지식 강화 이중 그래프 평가기(KGCE)라는 새로운 벤치마크 플랫폼을 제안한다. KGCE는 지식 기반 향상과 이중 그래프 평가 프레임워크를 통합한다. 우리는 윈도우, 안드로이드 및 플랫폼 간 협업 작업을 포함하는 104개의 교육 관련 작업으로 구성된 데이터셋을 구축하였다. KGCE는 작업을 여러 서브 목표로 분해하고 그 완료 상태를 검증하는 이중 그래프 평가 프레임워크를 도입하여 세밀한 평가 메트릭을 제공한다. 기존 에이전트의 학교 전용 소프트웨어 작업 수행에 대한 실행 병목 현상을 극복하기 위해 학교 전용 소프트웨어에 특화된 지식 기반을 포함하는 강화된 에이전트 시스템을 개발하였다. 코드는 https //github.com/Kinginlife/KGCE에서 확인할 수 있다.

이 논문은 여러 수학 문제와 그에 대한 정확한 해답을 다룹니다. 주요 내용으로는 적분, 함수의 극한값, 그리고 다양한 함수의 성질 등을 포함하고 있습니다.

(이 논문은 고도로 자동화되고 복잡한 현대 기계의 장애 진단을 위해 다중 모달 데이터와 도메인 일반화를 통합하는 새로운 접근법을 제안한다. 이 방법론은 다양한 작업 조건에서 수집된 센서 신호를 결합하여, 미리 보지 못했던 조건에서도 효과적인 장애 진단을 가능하게 한다.)

뇌-컴퓨터 인터페이스(BCI)의 임상적 채택을 저해하는 주요 장벽은 디코딩 정확도보다 인간-컴퓨터 상호작용(HCI)의 부재입니다. OmniNeuro는 이 문제를 해결하기 위해 기존의 투명하지 않은 오라클 시스템에서 피드백 파트너로 진화시킵니다. 이를 통해 사용자는 시스템이 어떤 상태인지 이해하고, 더 나은 신경가소성과 학습을 촉진할 수 있습니다.

최근에는 대형 언어 모델(LLM)이 반도체 회로 설계의 유연한 디자인에 있어 흥미로운 연구 방향으로 부상하고 있습니다. 특히, 많은 최근 작업들은 직접적으로 레지스터-트랜스퍼 레벨(RTL) 코드 형태로 반도체 회로 설계를 생성하기 위한 맞춤형 LLM을 개발하고 있습니다. 그러나 RTL 코드 최적화에 대한 기존 벤치마크는RTL 코드의 정확성에만 초점을 맞추고 있어, 전력, 성능, 면적(PPA) 측면에서의 실제 회로 설계 품질을 평가하지 않습니다. 이 문제를 해결하기 위해 새로운 벤치마크인 RTL-OPT를 제안합니다.RTL-OPT는 실용적인 최적화 패턴을 제공하며, 다양한 합성 설정에 대해 효과적으로 작동하도록 설계되었습니다.

본 논문은 게임 메커니즘의 절차적 생성을 위한 새로운 접근 방식을 제안합니다. 이를 위해 <span class= smallcaps >Mortar</span>이라는 시스템을 소개하며, 이 시스템은 대형 언어 모델(LLM)과 품질 다양성(QD) 알고리즘을 사용하여 다양한 게임 메커니즘을 진화시킵니다. <span class= smallcaps >Mortar</span>은 진화된 메커니즘이 전체 게임의 질에 기여하는지를 평가함으로써, 메커니즘의 가치를 판단합니다.

본 논문은 제어 및 탐색 계획 작업을 위한 임베딩 공간에서 동적 모델을 효율적으로 학습하는 방법에 대해 연구합니다. 주요 기여는 액션 조건부 결합 예측 월드 모델(JEPA-WM)의 핵심 구성 요소들에 대한 분석이며, 이를 통해 DINO-WM과 V-JEPA-2-AC을 능가하는 최적의 JEPA-WM을 제안합니다.

강화학습은 복잡한 의사결정 작업에서 뛰어난 성과를 보여왔지만, 실제 시스템에 적용할 때 급격하고 무작위적인 제어 행동이 즉각적인 보상 최적화와 함께 큰 운영 비용을 초래하는 문제점이 나타났다. 이 논문은 이런 현상을 해결하기 위해 3차 도함수 패널티를 도입하여, 제어 벤치마크에서 1차와 2차 도함수 패널티를 비교하고, HVAC 시스템에 적용해 장비 수명과 에너지 효율성을 측정한다. ###

이 논문은 다양한 계산 도구를 포함한 툴 목록을 제공한다. 이 도구들은 단백질 기능 예측, 분자 구조 시각화, 생물학적 데이터 처리, 물리화학적 특성 및 메커니즘 계산에 사용된다.

이 논문은 IEEE 출판 기술 그룹에서 작성되었으며, 이들은 뉴저지 주 피스카타웨이에 위치해 있습니다. 본 연구는 인공 지능과 데이터 분석의 통합을 통해 복잡한 문제 해결 능력을 향상시키는 방법을 탐구하였습니다.

본 논문은 에이전트 워크플로의 보안성을 평가하는 첫 번째 공개된 방법론을 제시합니다. 이 방법론은 합성 OpenTelemetry 추적 생성, 데이터셋 구축, 훈련 구성 및 재현 가능한 평가 프로토콜을 포함하며, 에이전트 워크플로의 보안성을 향상시키는 데 중점을 두고 있습니다.

장기요양시설의 간병인 스케줄링 문제를 해결하기 위한 새로운 방법을 제안한다. 이 연구는 과거 스케줄에서 제약 조건을 추출하고 이를 사용해 새로운 스케줄을 생성하는 방법을 제시한다.

디지털 트윈은 물리적 시스템의 정확한 디지털 표현으로, 실제 세계와 양방향 연결을 유지하며 모니터링, 예측, 최적화 및 의사결정 지원을 가능하게 합니다. 이 기술은 의료, 도시 계획, 제조 등 다양한 분야에서 활용되고 있으며, 인공지능과의 통합으로 더욱 발전하고 있습니다. 디지털 트윈은 이제 단순한 모니터링 도구를 넘어 학습하고 예측하며 물리적 세계에 대한 행동을 취하는 지능형 에이전트로 진화하고 있습니다.

이 보고서에서는 추론 모델을 훈련시키는 데 필요한 데이터-알고리즘 공통 설계 엔진에 대해 이론적이고 공학적인 관점에서 다룹니다. 특히, 기존의 SFT-RL 파이프라인을 분포 일치 문제로 정식화하고 실패 중심 후 훈련 프레임워크를 설계하여 모델의 추론 능력을 개선하는 방법을 제안합니다.
이 논문은 대형 언어 모델(Large Language Models, LLMs)의 훈련 데이터 지리에 따른 브랜드 가시성 차이를 분석한다. 특히 문화 인코딩 현상과 이를 통해 발생하는 존재 간극(Existence Gap)을 검증하고, 이 문제를 해결하기 위한 데이터 무지개(Data Moat) 프레임워크를 제안한다. ###

재고 관리는 전문 지식이 부족한 많은 중소기업들에게 여전히 도전 과제입니다. 본 논문은 Large Language Models (LLMs)가 이 격차를 좁힐 수 있는지 조사하였습니다. LLMs을 직접적인 종단 종단 해결자로 활용하면 환영세 라는 성능 간극이 발생함을 보였습니다. 여기서 환영세 는 모델이 기반 확률적 추론을 수행하지 못함으로 인한 성능 차이를 말합니다. 이를 해결하기 위해 우리는 의미적 추론과 수학적 계산을 엄격히 분리하는 하이브리드 에이전시 프레임워크를 제안하였습니다. 이 구조에서 LLM은 지능적인 인터페이스로 작용하여 자연어로부터 매개변수를 발췌하고 결과를 해석하며, 철저한 알고리즘을 자동으로 호출하여 최적화 엔진을 구축합니다. 이 상호작용 시스템을 실제 관리자 대화의 모호성과 일관되지 않은 부분에 대해 평가하기 위해 우리는 Human Imitator라는 유계 합리적인 매니저의 디지털 트윈 형태의 조정된 버전을 도입하였습니다. 이는 규모가 크고 재현 가능한 스트레스 테스트를 가능하게 합니다. 우리의 경험적 분석은 하이브리드 에이전시 프레임워크가 GPT-4o를 종단 종단 해결자로 사용하는 상호작용 기준치에 비해 총 재고 비용을 32.1% 감소시키는 것을 보여주었습니다. 또한, 완벽한 기본 진실 정보만 제공한다고 해서 GPT-4o의 성능이 향상되는 것은 아니라는 점을 발견하였습니다. 이로써 병목 현상은 근본적으로 계산적인 문제가 아니라 정보적 문제는 아님을 확인할 수 있었습니다. 우리의 결과는 LLMs가 운영 연구를 대체하는 것이 아니라, 엄격한 해결자 기반 정책에 접근 가능하게 만드는 자연어 인터페이스로서의 위치를 제시합니다.

이 논문에서는 부분적으로 관찰할 수 있는 환경에서 작동하는 에이전트의 탐색적 의사결정을 연구합니다. 특히, 이 논문은 Align While Search (AWS)라는 가벼운 월드-얼라인먼트 에이전트를 소개하며, 이는 테스트 시간에 제어를 신념 지도 검색으로 변환합니다.
이 논문에서는 대형 언어 모델(LLMs)을 반복적으로 배포하고 이를 정제하는 과정에서 그들의 계획 능력이 어떻게 향상되는지 보여줍니다. 이는 사용자 의도를 충족하지 않는 텍스트들을 필터링한 후 남은 텍스트들을 다시 학습 데이터로 활용하는 메커니즘을 포함합니다.

이 논문은 자연어 지시를 코드로 실행하는 대형 언어 모델(LLM)에 대한 새로운 패러다임을 제안한다. 이를 위해 *일반 조건 로직* (UCL)이라는 형식 언어를 도입하여, 프롬프트 엔지니어링을 체계적인 최적화로 이끈다. 또한, 지시의 상세 수준이 품질에 비선형적으로 영향을 미치는 과도한 지시 패러독스 를 설명하고, 이를 극복하기 위한 구조적 오버헤드와 품질 함수를 제시한다.

공간 추론은 네비게이션 및 계획 등 다양한 응용 분야에서 주목받고 있는 큰 언어 모델(LLMs)의 특징이다. 그럼에도 불구하고, LLMs는 구조화된 환경에서 공간 변환과 다단계 계획에 여전히 어려움을 겪고 있다. 본 논문에서는 두 단계 접근법을 제안한다. 이 방법은 공간 추론을 원자적 구성 요소와 그것들의 조합으로 분해한다. 첫째, 회전, 평행이동 및 스케일링과 같은 기본적인 공간 변환에 대해 감독 학습을 통해 모델에 기본적인 공간 물리학을 제공하기 위해 훈련을 진행한다. 그런 다음 이 물리학 인식 모델을 동결하고 GRPO 프레임워크 내에서 가벼운 LoRA 어댑터를 훈련시켜, 수수께끼 기반 환경에서 다단계 계획을 위한 이러한 구성 요소들을 조합하는 정책을 학습한다. 이를 위해 아스키아트 데이터셋을 합성하고 해당 아스키 기반 강화 학습 환경을 구축한다. 우리의 방법은 동적인 환경과 정적인 환경 모두에서 일반 베이스라인, 물리학 인식 모델 및 end-to-end RL 모델을 능가하며, 특히 수수께끼 기반 환경에서는 더욱 우수한 성능을 보여준다. 또한 제안된 접근법은 처음부터 강화 학습을 진행하는 것보다 더 빠르게 수렴하고 훈련이 안정적이다. 마지막으로 우리는 주의 패턴을 분석하여 페인트를 통해 공간 이해력에서 의미 있는 개선이 이루어졌는지 평가한다.

(이 논문에서는 사회 상호작용을 시뮬레이션하고 다양한 센서 데이터를 처리하는 오픈 소스 프레임워크인 OpenSocInt에 대해 설명한다. 이 시스템은 에이전트가 사회적 상황에서 행동할 수 있도록 학습시키는데 중점을 둔다. 그중 하나는 인간을 인식하는 사회적 네비게이션이다.)

인간 생물학적 시스템은 뛰어난 유연성을 통해 생명을 유지하며, 손상 감지와 표적화된 반응 조정, 그리고 자체 치유를 통한 기능 복원을 계속하고 있습니다. 이러한 능력에 영감 받아 이 논문에서는 분산 컴퓨팅 연속 체계(DCCS)에서 탄력성을 달성하기 위해 생물학적으로 모티브화된 자가치유 프레임워크인 ReCiSt를 소개합니다. 현대의 DCCS는 리소스 제약이 있는 IoT 장비부터 고성능 클라우드 인프라에 이르기까지 다양한 컴퓨팅 자원을 통합하며, 내재한 복잡성, 모빌리티 및 동적인 운영 조건은 서비스 연속성을 방해하는 빈번한 결함에 노출됩니다. 이러한 과제들은 확장 가능하고 적응적이며 자기조절 탄력성을 달성하기 위한 전략의 필요성을 강조합니다. ReCiSt는 DCCS를 위해 생물학적 단계인 혈전, 염증, 증식, 재모델링을 각각 통제, 진단, 메타-인지, 지식 계층으로 재구성합니다. 이 네 개의 계층은 언어 모델(LM) 기반 에이전트를 통해 자동화된 결함 격리, 원인 진단, 적응적 복구 및 장기적인 지식 통합을 수행합니다. 이러한 에이전트는 다양한 로그를 해석하고 근본 원인을 추론하며 합리적 경로를 정교하게 만들고 최소한의 인간 개입으로 리소스를 재구성합니다. 제안된 ReCiSt 프레임워크는 여러 LM을 사용하여 공개 결함 데이터셋에서 평가되었으며 유사한 접근법이 드물기 때문에 기준 비교는 포함되지 않았습니다. 그럼에도 불구하고 다양한 LM 하에서 수행된 우리의 결과는 ReCiSt의 자가치유 능력이 최소 10%의 에이전트 CPU 사용률로 수십 초 내에 이루어진다는 것을 확인합니다. 또한 우리의 결과는 불확실성을 극복하기 위한 분석 깊이와 탄력성达成的微量代理数量进行了演示。

사회 미디어에서 조작된 행동을 감지하는 것은 여전히 중요한 문제로 남아 있으며 대부분의 기존 접근 방법은 표면적인 상관 분석에 의존하며, 정적 매개변수 설정을 사용하고 수많은 수동 어노테이션을 요구합니다. 이러한 제한점을 체계적으로 해결하기 위해 Adaptive Causal Coordination Detection (ACCD) 프레임워크를 제안합니다. ACCD는 기억 기반 적응 메커니즘을 활용하여 다양한 조정 상황에서 최적의 감지 설정을 동적으로 학습하고 유지하는 3단계 진행형 아키텍처를 채택합니다. 구체적으로 첫 번째 단계에서는 진정한 인과 관계를 심층적으로 식별하기 위한 적응형 Convergent Cross Mapping (CCM) 기법을 도입하고 있습니다. 두 번째 단계는 반복 학습과 불확실성 샘플링을 통합하여 준감독 분류 방식으로 수동 라벨링 부담을 크게 줄입니다. 세 번째 단계에서는 과거 감지 경험에 기반한 자동 검증 모듈을 배치하여 검출 결과의 자체 확인 및 최적화를 가능하게 합니다. 본 연구는 실제 데이터셋, 특히 트위터 IRA 데이터셋과 리디트 조정 추적기록, 그리고 널리 사용되는 봇 감지 벤치마크 몇 가지를 이용해 종합적인 평가를 수행하였습니다. 실험 결과 ACCD는 조직화된 공격을 감지하는 데 87.3%의 F1 점수를 달성하며, 가장 강력한 기존 기준선 대비 15.2% 향상되었습니다. 또한 시스템은 수동 어노테이션 요구사항을 68% 감소시키며 계층적 클러스터링 최적화를 통해 처리 속도가 2.8배 빨라집니다. 결론적으로 ACCD는 사회 플랫폼에서 조작된 행동을 식별하기 위한 정확하고 효율적이며 자동화 수준이 높은 종합적인 해결책을 제공하며, 실용적 가치와 광범위한 응용 가능성에 대한 큰 잠재력을 제시합니다.

건물은 전 세계 에너지 소비의 약 30%를 차지하며, 효율적인 에너지 사용을 달성하는 데 있어 핵심적이다. 이 논문에서는 대형 언어 모델(LLM) 기반 AI 에이전트가 인간과 건물 간 상호 작용을 개선하고, 건물 에너지 관리 시스템(BEMS)의 사용자 인터페이스를 향상시키는 방법에 대해 탐구한다. LLM은 자연어 처리와 데이터 분석 능력을 활용하여 사용자의 다양한 목표에 맞춘 컨텍스트 감지를 제공할 수 있다.
대형 언어 모델(LLMs)은 내부적 공리적 프레임워크의 부재로 인해 복잡한 추론에서 지속적인 논리적 실패를 보입니다. 저희는 수학적 상태를 고차원 하이퍼그래프로 인코딩하고 제약 조건을 연속 에너지 풍경으로 매핑하는 미분 가능한 논리 엔진인 기호 추론 커널(SRK)을 사용하는 Mathesis라는 뉴로-기호 구조를 제안합니다. 모든 에너지 함수 E(G)를 정의하여 영 에너지는 논리적 일관성을 의미하며, SRK는 그래디언트 기반 신호를 생성해 하이퍼그래프 트랜스포머 뇌를 학습시키고 증명 검색을 에너지 최소화로 바꿉니다. 몬테카를로 트리 탐색과 진화 증명 탐색을 통해 학습된 가치 함수와 의미 통일에 의해 다단계 추론이 가능해집니다.

이 논문에서는 대형 언어 모델(LLM) 기반 에이전트의 장기적인 일관성을 유지하기 위해 **EverMemOS**라는 통합 메모리 운영 체제를 제안합니다. EverMemOS는 단편화된 경험을 통합하여 일관되고 안정적인 지식 구조로 변환하는 세 가지 단계를 통해 장기 추론을 지원합니다.

심볼릭 제약 조건을 딥러닝 모델에 통합하면 더 견고하고 해석 가능하며 데이터 효율적인 모델이 될 수 있습니다. 그럼에도 불구하고 이러한 통합은 여전히 시간이 많이 소요되고 어려운 작업입니다. DomiKnowS와 같은 기존 프레임워크는 고수준의 선언적 프로그래밍 인터페이스를 제공하여 이 통합을 돕지만, 사용자가 해당 라이브러리의 특정 문법에 능통하다고 가정합니다. 이러한 종속성을 제거하기 위해 AgenticDomiKnowS(ADS)를 제안합니다. ADS는 에이전시 워크플로를 활용하여 자유 형식의 작업 설명을 완성된 DomiKnowS 프로그램으로 번역하며, 각 DomiKnowS 구성 요소를 따로 생성하고 테스트합니다. 이 워크플로는 사용자가 중간 출력물을 개선할 수 있는 옵션의 인간-인-더-루프 개입을 지원합니다. ADS가 경험 많은 DomiKnowS 사용자와 비사용자 모두에게 신경 기호적 프로그램을 빠르게 작성할 수 있게 하여 개발 시간을 몇 시간에서 10~15분으로 줄일 수 있음을 보여줍니다.

이 논문에서는 대형 언어 모델(LLM) 에이전트가 샘플링된 텍스트 문서에서 인과 피드백 퍼지인지도(FCM)를 어떻게 성장시키는지를 보여줍니다. 이 FCM은 지역적인 부분적 인과 규칙을 형성하고, 이를 통해 전역 균형 상태인 한계 주기를 정의합니다. 이러한 방법은 프로그래밍된 명령에 의존하는 일반적인 피드포워드 에이전트 시스템과는 달리 FCM 동적 시스템의 에이전시를 진화하는 균형 한계 주기에서 찾습니다. ###

본 논문은 전통적으로 계산 언어학에서 사용된 의미 공간 추론이 팀 스포츠의 전술적 의사결정에 어떻게 확장될 수 있는지를 탐색하고 있습니다. 텍스트와 팀 간의 유사성, 즉 선수가 단어로 작용하고 집단적인 플레이가 의미를 전달하는 것에서 출발하여 제안된 방법론은 전술적 구성을 구성적 의미 구조로 모델링합니다. 각 선수는 기술적, 물리적, 심리학적 속성들을 통합한 다차원 벡터로 표현되며, 팀 프로필은 컨텍스트 가중치를 통해 고급 의미 표현으로 집계됩니다. 이 공유된 벡터 공간 내에서, 높은 압박, 역습, 또는 점유율 구축과 같은 전술 템플릿은 언어학적 개념에 상응하여 인코딩되며, 이를 팀 프로필과의 일치도를 벡터 거리 메트릭을 사용해 평가함으로써 전술적인 적합성 과 상대방 활용 가능성 계산이 가능합니다. 파이썬 기반 프로토타입은 이러한 방법들이 해석 가능한 동적으로 적응하는 전략 제안 및 속성 수준의 세밀한 진단 인사이트를 제공함을 입증합니다. 축구를 넘어서, 이 접근법은 농구와 아이스하키에서부터 협동 로봇과 인간-AI 조정 시스템에 이르기까지 팀 기반 도메인에서 집단 의사결정 및 성능 최적화를 위한 일반화 가능한 프레임워크를 제공합니다. 본 논문은 실제 데이터 통합, 예측 모델링, 그리고 하이브리드 인간-머신 전술적 지능에 대한 미래 방향을 제시하여 마무리됩니다.

현대 엔지니어링 디자인에서 진정으로 새로운 다양성의 아이디어를 생성하는 것이 중요하나, 이는 초보 디자이너들에게 중요한 인지적 도전 과제로 남아 있습니다. 현재의 단일 발사형 AI 시스템은 의미론적으로 군집화된 많은 아이디어를 생산하여 이러한 도전을 더욱 어렵게 만듭니다. 우리는 MIDAS(Meta-cognitive Ideation through Distributed Agentic AI System)라는 새로운 프레임워크를 제안합니다. 이는 단일 AI 패러다임 대신 특수한 AI 에이전트로 구성된 분산 팀 을 통해 인간의 메타인지적 아이디어 생성 워크플로우를 모방하도록 설계되었습니다. 이 에이전트 시스템은 아이디어를 점진적으로 정교화하고, 각 아이디어를 기존 솔루션에 대해 전반적인 새로움과 이전에 생성된 아이디어에 대해 국지적 새로움을 평가합니다. 따라서 MIDAS는 진정한 인간-AI 공동 창조의 실현 가능한 점진적 패러다임을 보여주며, 이를 통해 인간 디자이너는 단순히 관문 역할에서 벗어나 적극적인 협력 파트너로 참여하게 됩니다.

이 논문은 서비스 로봇의 물체 재배치 문제를 다룬다. 이 문제는 사용자의 조직 선호도에 따라 공간 내에서 원하는 구성으로 아이템을 정리하는 것을 의미한다. 기존 연구들은 일정한 정돈 방식을 사용했지만, 본 논문에서는 사용자별로 다양한 선호도를 반영할 수 있는 해석 가능한 구조체를 제안한다.

(LLM-동력화된 에이전트가 인간 그룹에 대한 사회적 편견을 재생산할 수 있다는 최근 연구들을 바탕으로, 본 논문은 이러한 에이전트들이 인그룹과 아웃그룹 사이의 경계를 통해 자발적인 편견을 나타낼 수 있음을 분석합니다. 특히 인간-인공지능 상호작용에서 이러한 편견이 어떻게 작동하는지를 연구하고, 이를 조작할 수 있는 신뢰성 공격 방법론을 제시합니다.)

본 논문은 **대안적 자기 질문(Counterfactual Self-Questioning, CSQ)** 이라는 프레임워크를 제안합니다. 이 방법론은 단일 언어 모델이 자체 추론을 대안적으로 검토하고 수정할 수 있도록 합니다. 기존 방식과 달리 외부 비판자나 다중 에이전트 토론 없이도, 내부적으로 생성된 대안적 비평을 통해 정책 최적화 신호를 형성합니다. 실험 결과는 다양한 모델 크기에 걸쳐 표준 추론 벤치마크에서 일관된 성능 개선을 보여줍니다.

본 논문에서는 DARTS 프로젝트를 위해 개발된 반자동 데이터 주석화 파이프라인의 설계와 평가에 대해 설명합니다. 이 시스템은 인공지능 모델과 인간 검증을 통합하여 대규모 다중 모달 자율주행 데이터셋 준비 시간을 단축합니다.

게임 이론, 루미, 휴리스틱 최적화, 상대방 모델링, 규칙 기반 전략, 제로섬 게임에 대해 논의한다. 클래식 인디언 루미는 운과 기술 사이에서 균형을 이루는 카드 게임이다. 본 논문에서는 강화 학습과 몬테카를로 방법 대신 해석 가능한 규칙 기반 접근법을 제시하며, *MinDist*라는 새로운 정량적 지표를 소개한다.

본 논문에서는 삼차적 맥락에서 최적의 함의 집합을 구성하는 방법을 증강을 통해 제안한다. 또한 이 구성 방법의 복잡성을 분석하고, 특징(feature), 준특징(quasi-feature), 가상특징(pseudo-feature)이라는 세 가지 핵심 개념을 소개하며, 이를 사용해 Biedermann과 Ganter 및 Obiedkov가 정의한 삼차적 함의를 구성하는 알고리즘을 제안한다.

대형 언어 모델(LLMs)의 능력이 증가함에 따라, LLM 기반 자율 에이전트는 AI 응용 분야에서 새로운 패러다임을 제공한다. 이러한 에이전트들은 지시를 이해하고 도구를 호출하며 추론과 계획을 수행하고 복잡한 작업을 처리할 수 있다. 그러나 현재의 지능형 에이전트 시스템은 일반성, 안정성 및 관리 가능성에 대한 여러 문제점을 가지고 있으며, 특히 많은 작업 상황에서 태스크 정밀도, 응답 신뢰성 및 시스템 안정성이 취약하다. 현재 대부분의 에이전트 시스템은 고정된 프롬프트와 사전 정의된 도구 사용 워크플로에 의존하여 작업 의도를 이해하거나 동적으로 도구를 선택하고 컨텍스트를 효과적으로 관리하는 능력이 제한적이다. 이 연구에서는 자율 에이전트의 기본 실행 과정을 시작으로, 위 문제들을 해결하기 위한 세 가지 보완적인 최적화 모듈을 소개한다. - **작업 이해와 프롬프트 최적화 ** 구조화된 의도 인식과 정교한 시스템 프롬프트 및 템플릿을 통합하여 지시를 현재 상태와 목표에 맞게 조정하여 잘못된 해석을 줄이고 작업 일치성을 안정화한다. - **도구 검색 ** 동적 검색과 적응적인 도구 접근을 사용하여 사용자 의도를 컨텍스트 관련 도구와 매칭하고 불명확한 사용자 요청을 처리한다. - **계층형 메모리 관리 ** 중복 대화 기록을 제거하여 토큰 길이를 제어하고 중요한 의미를 유지하며 장기 상호작용에서 추론을 안정화한다. 이 연구에서는 Jenius-Agent라는 통합 프레임워크를 구축하여 작업 정확도, 효율성 및 컨텍스트 강건성을 향상시킨다. 이 프레임워크는 적응적인 프롬프트 생성, 컨텍스트 인식 도구 조정 및 계층형 메모리 관리를 통합한다. ###

이 논문에서는 대형 언어 모델(Large Language Models, LLMs)의 평가에서 발생하는 인식론적 위기를 다룬다. 특히 정적인 능력 기준과 인지적 일관성이 분리되는 문제를 탐구한다. 이 연구는 무장된 지적인 겸양 이라는 현상을 제시하며, 모델들이 사용자의 의도에 맞추기 위해 참을성을 강조하는 경향이 있다. 이를 해결하기 위해 Project Aletheia 프레임워크를 도입하고, 측정 채널의 편향을 수학적으로 분리하여 진짜 신호를 복원할 방법을 제안한다.

본 연구는 고차원 텍스트 데이터를 통한 잠재 변수의 복구를 통해 경제학적 인과 추론을 개선하는 방법에 대해 논한다. 특히, 기존의 의사결정나무를 사용한 DML(Double Machine Learning) 방식이 고밀도 벡터 공간에서 비효율적인 점을 지적하고, 신경망을 활용한 새로운 접근법을 제안한다.

본 논문에서는 강화학습을 통해 미세 조정된 언어 모델에서 아하! 순간이 나타나는지와 그 영향력을 분석합니다. 이러한 순간은 모델이 중간에 자가 수정을 하는 것으로, 이 연구에서는 이를 체계적으로 조사하고자 합니다.

대형 언어 모델(ULLM) 에이전트의 급속한 확산은 자동 문제 해결 분야에 혁명을 가져왔습니다. 그러나 이러한 에이전트가 고위험 도메인에서 사용될 때, 그들의 의사결정 과정의 투명성이 중요한 안전 장벽이 됩니다. 이 논문에서는 이러한 문제를 해결하기 위한 프로젝트 아리아드네(Project Ariadne)라는 진단 프레임워크를 소개합니다. 이 프레임워크는 구조적 인과 모델(SCMs)을 활용하여 에이전트의 의사결정 과정에서 발생하는 인과 분리 현상을 진단하고 있습니다. ###
검색어를 입력하세요