
마에스트로 테스팅, 신뢰성 및 가시성을 위한 다중 에이전트 평가 도구
(LLM 기반 다중 에이전트 시스템(MAS)은 다양한 작업을 처리할 수 있으며, 이로 인해 시스템 부하와 실행 동작에 대한 불확실성이 증가한다. 본 논문에서는 MAS의 복잡한 실행 특성을 체계적으로 분석하기 위한 벤치마크인 MAESTRO를 제안하며, 이를 통해 시스템 최적화 및 연구 개발을 돕는다.)
모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.

(LLM 기반 다중 에이전트 시스템(MAS)은 다양한 작업을 처리할 수 있으며, 이로 인해 시스템 부하와 실행 동작에 대한 불확실성이 증가한다. 본 논문에서는 MAS의 복잡한 실행 특성을 체계적으로 분석하기 위한 벤치마크인 MAESTRO를 제안하며, 이를 통해 시스템 최적화 및 연구 개발을 돕는다.)

본 연구에서는 커스텀 CNN, 사전 학습된 CNN을 고정 특징 추출기로 사용하는 방법, 그리고 트랜스퍼 러닝을 통해 미세 조정한 모델이라는 세 가지 CNN 기반 학습 패러다임을 체계적으로 비교하고자 한다. 이 비교는 다양한 실제 이미지 분류 데이터셋에 걸쳐 이루어진다. 본 연구에서는 정확도와 계산 효율성을 모두 고려하여, 각 패러다임의 장단점을 명확히 드러내고자 한다. ###

최근 Hyper-Connections(HC)를 비롯한 연구들은 지난 10년 동안 확립된 보편적인 잔차 연결 패러다임을 확장하고, 잔차 스트림의 폭을 넓히고 연결성 패턴을 다양화함으로써 성능 향상을 이뤘습니다. 그러나 이러한 다양화는 본질적으로 잔차 연결에 내재된 항등 맵핑 특성을 침해하여 심각한 학습 불안정과 제약된 확장성을 초래하며, 추가적으로 눈에 띄는 메모리 접근 오버헤드를 발생시킵니다. 이러한 문제들을 해결하기 위해 저희는 Manifold-Constrained Hyper-Connections(mHC)을 제안합니다. mHC는 HC의 잔차 연결 공간을 특정 다양체로 투영하여 항등 맵핑 특성을 복원하고, 효율성 확보를 위한 철저한 인프라 구조 최적화를 포함하는 일반적인 프레임워크입니다. 경험적 실험은 mHC가 대규모 학습을 효과적으로 수행하며 실질적인 성능 향상과 우수한 확장성을 제공함을 보여줍니다. mHC는 HC의 유연하고 실용적인 확장으로서, 구조 설계에 대한 깊이 있는 이해와 기초 모델의 진화를 위한 유망한 방향을 제시할 것으로 예상됩니다.

대형 언어 모델(LLMs)의 등장은 정보 검색과 지식 관리의 풍경을 근본적으로 변화시켰습니다. LLMs의 내재적 한계를 해결하기 위해 RAG(Retrieval-Augmented Generation)가 중요한 아키텍처 패러다임으로 떠올랐습니다. 이는 실시간으로 대규모 코퍼스에서 의미론적으로 관련된 컨텍스트를 검색하는 능력에 크게 의존합니다. 이 종속성은 근사 최근접 이웃 탐색(ANNS)을 현대 데이터 인프라의 핵심으로 자리매김하게 만들었고, 엄격한 생산 제약 하에서 백억 개 포인트 데이터셋까지 확장 가능한 벡터 인덱스를 요구합니다. 최첨단 ANNS 솔루션은 주로 그래프 기반 인덱스에 집중되었으며, DiskANN(Vamana)는 SSD 주재 로드의 대표적인 예입니다. 이 알고리즘들은 일반적으로 거리 그래프에서 탐색 경로를 그리디 라우팅을 통해 네트워크의 출발 지점에서 쿼리 목표까지 이동합니다. 이러한 방법은 SIFT1M과 같은 표준 벤치마크에서 우수한 성능을 보이지만, GIST1M과 같이 고차원 공간에서는 효율성이 크게 떨어집니다. 이를 차원의 저주로 설명하며, 유클리드 최단 경로가 데이터 맨입OLD 위의 기하학적 경로와 일치하지 않게 됩니다. 이 현상을 우리는 *유클리드-기하학적 불일치*라고 부릅니다. 우리의 핵심 통찰은 고차원 실제 데이터가 균일하게 분포되지 않는다는 것입니다. 대신, 그것은 일반적으로 맨입OLD 가설에 따라 임베딩된 하위 차원 구조 위에 존재합니다. 따라서 검색 난이도는 데이터셋 전체에서 균일하지 않고 지역적 내재 차원(LID)에 의해 조정됩니다. 우리는 이 문제를 해결하기 위해 Manifold-Consistent Graph Indexing(MCGI), 즉 기하학을 인식하는 디스크 기반 인덱싱 아키텍처를 제안합니다. LID 추정을 라우팅 로직에 통합함으로써 MCGI는 데이터의 지역적인 위상에 따라 탐색 전략을 조정할 수 있습니다.

이 논문에서는 대형 언어 모델(LLMs)의 데이터 기억 문제를 다루며, 특히 추천 시스템에서 사용되는 MovieLens-1M 데이터셋을 통해 LLMs가 얼마나 많은 훈련 데이터를 기억하는지 탐색합니다. 우리는 수동 프롬프팅, 무감독 잠재 지식 발견, 자동 프롬프트 엔지니어링 세 가지 접근 방법을 사용하여 이 문제를 해결하고자 합니다.

본 연구는 장문 컨텍스트를 처리하는 대형 언어 모델(LLMs)의 성능을 평가하고, 실제 문서에서 정보 추출과 논리적 추론에 대한 새로운 평가 방법론을 제시한다. 이를 위해 “Needle-in-a-Haystack” 테스트를 확장하여 다양한 정보 분포와 위치를 시뮬레이션하고, 반-구체화(anti-hallucination) 프롬프트의 영향을 분석한다. 실험 결과는 더 긴 컨텍스트가 항상 성능을 개선하지 않는다는 것을 보여주며, 모델 간에 정보 처리 능력이 다르다는 점을 강조한다.
우리는 퍼지 형식적 문맥에서 가능주의 추론을 위한 이중 정렬 가중 모달 논리를 소개한다. 이 논리의 구문은 고전적인 필수성($ Box$)과 충분성($ boxminus$) 모달 연산자를 포함하는 두 가지 유형의 가중 모달 연산자를 포함하며, 그 공식들은 가능성 이론을 기반으로 한 퍼지 형식적 문맥에서 해석된다. 논리는 모든 퍼지 컨텍스트 모델에 대해 emph{정합적}인 축소화를 제시한다. 또한 논리의 필수성과 충분성 프래그먼트는 각각 모든 퍼지 컨텍스트 모델에 대해 개별적으로 완전하다. 논리의 표현력은 몇 가지 예시를 통해 강조된다. 형식적 문맥이 형식 개념 분석(FCA)의 기본 구조인 경우, 우리는 FCA의 세 가지 주요 개념, 즉 형식적 개념, 객체 중심 개념 및 속성 중심 개념을 각각 퍼지 형식적 문맥에서 그에 해당하는 $c$-컷 개념으로 일반화한다. 그런 다음 우리의 논리 언어가 이들 모든 일반화된 개념을 표현할 수 있음을 보인다. 마지막으로, 우리는 논리를 다중 관계 퍼지 컨텍스트에 대한 추론 확장 가능성의 가능성을 보여주며, 여기서 서로 다른 퍼지 관계의 불리안 조합이 허용된다.

이 논문은 Mixture-of-Experts(MoE) 모델에서 정교한 기능 다양성과 퍼플렉서티를 개선하기 위해 고안된 직교화 정규화의 실패를 분석한다. 다양한 데이터셋에 대한 실험 결과, 직교화 정규화는 예상대로 작동하지 않으며 가중치-활성화 간 연결이 약하다는 것을 확인했다.

[^1] Lei Liu와 Zhaoyang Zhang은 중국 칭다오의 중화과학기술대학교 정보과학과 전자공학대학원 및 복수모드 통신네트워크와 인тел리전트 정보처리 연구소에 소속되어 있으며, Lei Liu는 또한 시안의 서전대학교 통합서비스 네트워크 국가핵심연구소에 소속되어 있습니다 (이메일 {lei_liu, ning_ming}@zju.edu.cn). [^2] Yuhao Chi는 중국 시안에 위치한 서전대학교 통신공학부 통합서비스 네트워크 국립중점연구소에 소속되어 있습니다 (이메일 yhchi@xidian.edu.cn). [^3] Shunqi Huang는 일본의 고다이라시에 위치한 일본과학기술원 정보과학과에 소속되어 있습니다 (이메일 shunqi.huang@jaist.ac.jp). [^4] 이 작업의 소스 코드는 공개적으로 이용 가능하며, [<span style= color blue >GitHub</span>](https //github.com/LeiLiu-s-Lab/Random-Multiplexing)에서 확인할 수 있습니다. ---
인간 수준의 개념 학습은 아직 덜 탐구된 연구 분야입니다. 인간이 쉽게 처리할 수 있지만 기계에게는 여전히 어려운 문제를 해결하려는 목표를 가지고 있습니다. 사람들은 몇 개의 샘플만으로도 새로운 개념을 배우지만, 기계 학습 방법은 상관 관계와 특징 이해를 위해 많은 예제가 필요합니다. 이 논문에서는 문서 분류 작업에 인간 수준의 개념 학습 접근법을 활용했습니다. 현재 접근법들은 문서 컨텍스트를 바탕으로 문서를 분류하는데, 레이블링 데이터가 충분하고 문서 컨텍스트가 클래스를 구별하는 데 충분히 정보적이라는 가정을 합니다. 그러나 이미지 정보를 사용하는 방법은 레이블링 과정을 복잡하게 만듭니다. 우리의 솔루션은 텍스트와 좌표 모두를 통해 의미를 파악함으로써 순수 텍스트 기반 모델들이 무시하는 공간적 근거를 활용할 수 있도록 합니다.
이 논문은 대형 언어 모델(Large Language Models, LLMs)의 훈련 데이터 지리에 따른 브랜드 가시성 차이를 분석한다. 특히 문화 인코딩 현상과 이를 통해 발생하는 존재 간극(Existence Gap)을 검증하고, 이 문제를 해결하기 위한 데이터 무지개(Data Moat) 프레임워크를 제안한다. ###

재고 관리는 전문 지식이 부족한 많은 중소기업들에게 여전히 도전 과제입니다. 본 논문은 Large Language Models (LLMs)가 이 격차를 좁힐 수 있는지 조사하였습니다. LLMs을 직접적인 종단 종단 해결자로 활용하면 환영세 라는 성능 간극이 발생함을 보였습니다. 여기서 환영세 는 모델이 기반 확률적 추론을 수행하지 못함으로 인한 성능 차이를 말합니다. 이를 해결하기 위해 우리는 의미적 추론과 수학적 계산을 엄격히 분리하는 하이브리드 에이전시 프레임워크를 제안하였습니다. 이 구조에서 LLM은 지능적인 인터페이스로 작용하여 자연어로부터 매개변수를 발췌하고 결과를 해석하며, 철저한 알고리즘을 자동으로 호출하여 최적화 엔진을 구축합니다. 이 상호작용 시스템을 실제 관리자 대화의 모호성과 일관되지 않은 부분에 대해 평가하기 위해 우리는 Human Imitator라는 유계 합리적인 매니저의 디지털 트윈 형태의 조정된 버전을 도입하였습니다. 이는 규모가 크고 재현 가능한 스트레스 테스트를 가능하게 합니다. 우리의 경험적 분석은 하이브리드 에이전시 프레임워크가 GPT-4o를 종단 종단 해결자로 사용하는 상호작용 기준치에 비해 총 재고 비용을 32.1% 감소시키는 것을 보여주었습니다. 또한, 완벽한 기본 진실 정보만 제공한다고 해서 GPT-4o의 성능이 향상되는 것은 아니라는 점을 발견하였습니다. 이로써 병목 현상은 근본적으로 계산적인 문제가 아니라 정보적 문제는 아님을 확인할 수 있었습니다. 우리의 결과는 LLMs가 운영 연구를 대체하는 것이 아니라, 엄격한 해결자 기반 정책에 접근 가능하게 만드는 자연어 인터페이스로서의 위치를 제시합니다.

이 논문에서는 부분적으로 관찰할 수 있는 환경에서 작동하는 에이전트의 탐색적 의사결정을 연구합니다. 특히, 이 논문은 Align While Search (AWS)라는 가벼운 월드-얼라인먼트 에이전트를 소개하며, 이는 테스트 시간에 제어를 신념 지도 검색으로 변환합니다.

최근의 추론 모델 개발은 수학과 코딩 분야에서 인상적인 성과를 보여주고 있다. 그러나 대부분의 접근 방법은 정적 데이터셋에 의존하고 있으며, 이는 기억력 유도와 일반화 능력 제한을 초래할 가능성이 있다는 지적이 있다. 우리는 이러한 패러다임에서 벗어나 모델 훈련 과정에서 다채로운 종류의 합성 수학 문제를 함께 진화시키는 프레임워크인 DéjàQ를 소개한다. 이 진화적 과정은 훈련 과정 내내 모델의 능력에 맞춰 조정되어 학습 가능성 최적화를 목표로 한다. 모델 자체가 훈련 데이터를 변이시키는 두 가지 LLM 주도 전략을 제안하며, 이는 문맥적 세부 사항을 변경하거나 문제 구조를 직접 수정하는 방식으로 이루어진다. 우리는 모델이 새로운 의미 있는 문제를 생성할 수 있으며, 이러한 LLM 주도 변이가 강화 학습 훈련을 개선한다는 것을 발견했다. DéjàQ의 핵심 요소인 생성된 문제의 유효성과 계산 부담 등을 분석한다. 우리의 결과는 동적으로 진화하는 훈련 데이터가 수학적 추론 능력을 강화할 잠재력을 보여주며, 이를 지원하기 위해 코드를 오픈 소스로 공개할 예정이다.
이 논문에서는 대형 언어 모델(LLMs)을 반복적으로 배포하고 이를 정제하는 과정에서 그들의 계획 능력이 어떻게 향상되는지 보여줍니다. 이는 사용자 의도를 충족하지 않는 텍스트들을 필터링한 후 남은 텍스트들을 다시 학습 데이터로 활용하는 메커니즘을 포함합니다.
대규모 언어 모델(Large Language Models, LLMs)은 다양한 작업에서 놀라운 능력을 보여주지만, 악의적인 공격에 대한 취약성이 여전히 심각한 문제입니다. 특히 *다중 대화 턴 자장개(jailbreak)* 공격은 모델을 점진적으로 조작하여 안전 경계를 우회하고 해로운 출력을 유도합니다. 본 논문에서는 이러한 공격에 대한 방어적 대응으로 Multi-turn to Single-turn (M2S) 압축 기법을 이용한 Defensive M2S 훈련 패러다임을 제안합니다. 이 접근법은 다중 대화를 단일 대화로 압축하여 안전 검출 모델의 학습 비용을 획기적으로 줄이며, 동시에 정확도를 유지하거나 향상시킵니다.
(Warp Cortex는 복수의 에이전트가 단일 모델 인스턴스를 공유하고, 상황에 맞게 동적으로 태스크를 분배하는 체계입니다. 이를 통해 VRAM 사용량을 최적화하고, 대규모 에이전트 시스템을 소비자급 GPU에서 실행할 수 있게 합니다.) ###

다중 작업 간에 효과적으로 지식을 전이하는 과제는 중요하며, 기반 모델의 하류 작업에서도 존재합니다. 그러나 전이의 이동성 비이동성 성질은 여전히 개방적인 문제이며, 부정적 전이는 중요한 장애물입니다. 다중 작업 학습에서 유익한 보조 작업 집합을 선택하는 것은 그 평가에 따른 높은 계산 비용, 가능한 후보 보조 작업 집합의 큰 수량, 그리고 대상 작업 간 복잡성 차이로 자주 방해받습니다. 이러한 제약 조건을 해결하기 위해 우리는 다중 밴딧을 사용한 세 단계 다중 작업 보조 작업 부분 선택 방법인 BandiK을 소개합니다. 각 팔 당 후보 보조 작업 집합은 단일 무작위 학습-테스트 데이터셋 분할에서 다중 출력 신경망의 학습과 테스트를 통해 평가됩니다. 첫 번째로, BandiK은 작업 간 쌍방향 전이를 추정하여 공동 학습으로부터 이익을 얻을 가능성이 높은 작업들을 식별하는 데 도움을 줍니다. 두 번째 단계에서는 초기 추정에 기반해 각 대상 작업에 대해 보조 작업 후보 집합의 선형 수(전체 작업 수에서)를 생성하여 잠재적인 보조 작업 집합의 지수적 수량을 크게 줄입니다. 세 번째로, BandiK은 각 작업에 대해 다중 팔 밴딧(MAB) 프레임워크를 사용하며, 이때 팔들은 후보 보조 작업 집합이 학습-테스트 데이터셋 분할에서 다중 출력 신경망으로 구현된 성능을 대응합니다. 효율성을 높이기 위해 BandiK은 각각의 작업별 MAB를 다중 밴딧 구조로 통합합니다. 제안된 다중 밴딧 솔루션은 동일한 신경망이 주어진 후보 집합에 대한 개별 밴딧들의 다양한 팔을 실현한다는 점에서 이점을 활용합니다. 이러한 부분 겹침 팔 특성은 BandiK에서 사용되는 새로운 형태의 다중 밴딧 비용/수익 구조를 정의합니다.

함수형 프로그래밍은 명령형 프로그래밍에 대비하여 수학적 함수의 평가로 계산을 개념화하는 선언적 프로그래밍 패러다임입니다. 이 연구는 인공지능 기반 코딩 어시스턴트인 LLMs(Large Language Models)가 함수형 언어에서 코드 생성에 얼마나 효과적인지를 체계적으로 평가합니다. 이를 위해 새로운 벤치마크 데이터셋인 FPBench와 FPEval이라는 종합평가 프레임워크를 도입하여, 각 모델의 성능을 정확성과 함께 유지보수 가능성 및 코딩 스타일에 대한 점검까지 평가합니다. 연구 결과, 최신 LLMs은 함수형 언어에서 코드 생성 능력이 크게 향상되었지만, 명령형 언어와 비교해 성능 차이는 여전히 존재하며, 생성된 코드의 코딩 스타일과 유지보수 가능성에 대한 개선 필요성이 제기됩니다.

본 논문은 병리학 분야의 비전-언어 모델(VLM)에서 데이터 변화에 따른 성능 저하를 탐지하는 방법을 연구합니다. 특히, DomainSAT이라는 GUI 기반 도구를 개발하여 데이터 변이를 쉽게 탐지하고 시각화할 수 있게 했습니다. 또한, 라벨 없이도 모델의 신뢰성 하락을 감지할 수 있는 신뢰도 기반 성능 저하 지표(CDI)를 제안합니다.

PathoSyn은 이미지 합성에 있어서 해상도 병합 모델로, 이는 MRI 영상을 생성하는 통합적인 방법론으로서, 해부학적 토대 위에 분리 가능한 가변 요소를 추가함으로써 병리학적 정보를 표현합니다. 현재의 합성 모델들은 전역 픽셀 도메인에서 작동하거나 이진 마스크에 의존하는 경우가 많으며, 이러한 접근법은 종종 특징이 얽히는 문제를 일으켜 해부학적 기반을 손상시키거나 구조적인 불연속성을 초래합니다. PathoSyn은 이러한 제한점을 해결하기 위해 합성 작업을 확률적인 변동 모델링과 결정론적인 해부학 재구성으로 분해합니다. 이 프레임워크의 중심에는 병리학적 잔차의 조건부 분포를 학습하도록 설계된 변동 공간 확산 모델이 있으며, 이를 통해 국소 강도 변화를 포착하면서 동시에 전역 구조적인 일관성을 유지합니다. 공간적 일관성을 보장하기 위해 확산 과정은 틈새에 대한 인식 융합 전략과 추론 시 안정화 모듈과 결합되어 있으며, 이들로 인해 경계 부위의 아트팩트를 억제하고 높은 신뢰도의 내부 병변 다양성을 생성합니다. PathoSyn은 수학적으로 원칙적인 파이프라인을 제공하여 고유한 환자 데이터셋을 합성하는 것을 가능하게 하여, 낮은 데이터 상황에서도 강력한 진단 알고리즘 개발을 돕습니다. 해석 가능한 대안적 질병 진행 모델링을 허용함으로써 이 프레임워크는 정밀 처치 계획을 지원하고 임상 의사결정 지원 시스템의 벤치마킹 환경을 제공합니다. 양적 및 질적 평가 결과에 따르면 PathoSyn은 전반적인 확산과 마스크 조건화된 기준보다 인식 가능한 현실성과 해부학적 신뢰도 모두에서 우수한 성능을 보여줍니다. 이 연구의 소스 코드는 공개될 예정입니다.

의미 통신은 메시지 복원에만 집중하는 대신 작업 관련 의미를 전달함으로써 차세대 무선 시스템에서 대역폭 효율성과 견고성을 향상시키지만, 학습된 의미 표현이 여전히 예기치 않은 수신자(espionage)에게 민감한 정보를 유출할 가능성이 있습니다. 이 논문은 다수의 수신자 작업을 지원하면서 동시에 esponeage에 대한 의미 유출을 명시적으로 제한하는 딥러닝 기반 의미 통신 프레임워크를 제시합니다. 정당한 링크는 전송기에서 학습된 인코더를 사용하며, 수신기는 의미 추론과 데이터 복원을 위한 디코더를 훈련합니다. 보안 문제는 반복적 최소-최대 최적화를 통해 구성되며, 여기서 esponeage는 의미 추론을 개선하기 위해 훈련되고 정당한 송신자-수신자 쌍은 임무 성능 유지하에 esponeage의 성공률을 줄이기 위해 훈련됩니다. 또한 전송된 파형 위에 협력적이고 적대적으로 구상된 변동을 겹치는 보조 레이어를 도입하여 esponeage에게 의미 유출을 저하시키도록 합니다. 성능은 MNIST와 CIFAR-10 데이터셋을 사용한 가우시안 잡음과 Rayleigh 침식 채널에서 평가됩니다. 잠재 차원이 증가함에 따라 의미 정확도와 복원 품질이 향상되며, 최소-최대 메커니즘은 정당한 수신자의 성능을 저하시키지 않고 esponeage의 추론 성능을 크게 감소시킵니다. 이 보조 레이어는 정당한 링크가 자신의 임무만을 위해 훈련된 경우에도 의미 유출을 줄이는 데 성공합니다. 이 포괄적인 프레임워크는 적응적 대상자에 대한 조절 가능한 종단간 사생활 보호를 갖춘 의미 통신 설계를 촉구하며 실제 무선 환경에서의 사용을 모티베이트하고 있습니다.

이 논문은 자연어 지시를 코드로 실행하는 대형 언어 모델(LLM)에 대한 새로운 패러다임을 제안한다. 이를 위해 *일반 조건 로직* (UCL)이라는 형식 언어를 도입하여, 프롬프트 엔지니어링을 체계적인 최적화로 이끈다. 또한, 지시의 상세 수준이 품질에 비선형적으로 영향을 미치는 과도한 지시 패러독스 를 설명하고, 이를 극복하기 위한 구조적 오버헤드와 품질 함수를 제시한다.

(이 논문은 보행자의 교통 의도 예측을 위한 새로운 방법론, PedViViT를 제안합니다. 이 모델은 비시각적 데이터와 시각적 데이터를 처리하기 위해 변형자 아키텍처를 사용하며, 특히 작은 모델로 뛰어난 성능을 보여줍니다.) ###

현대의 운영 시스템과 분산 시스템에서 리소스 관리 작업은 스케ジューリング, 캐싱, 또는 활성 큐 관리를 위한 주로 손으로 설계된 휴리스틱에 의존하고 있습니다. 성능이 좋은 휴리스틱을 설계하는 것은 하드웨어, 워크로드 및 환경의 지속적인 변화로 인해 비용이 많이 들고 시간이 오래 걸리는 과정입니다. 저희는 새로운 대안을 제안합니다 코드 생성형 대형 언어 모델(LLM)을 사용하여 특정 작업과 하드웨어에 특화된 인스턴스 최적 휴리스틱을 합성하는 것입니다. 이 합성을 가능하게 하기 위해 Vulcan은 LLM 친화적인 작업 무관 인터페이스를 통해 정책과 메커니즘을 분리합니다. 이러한 인터페이스를 통해 사용자는 원하는 정책의 입력과 목표를 지정하고, Vulcan은 LLM 생성 코드를 통해 진화 알고리즘을 이용해 성능이 좋은 정책을 탐색합니다. 이 인터페이스는 다양한 시스템 정책을 포괄할 만큼 표현력이 있지만, 작은 규모의 저렴한 LLM들도 올바르고 실행 가능한 코드를 생성할 수 있을 정도로 제약적입니다. 저희는 Vulcan을 이용해 캐시 추방 및 메모리 라이어링에 대한 성능이 좋은 휴리스틱을 합성하고, 이러한 휴리스틱들이 각각의 작업에서 최대 69%와 7.9%의 성능 개선으로 인간 설계의 최신 알고리즘보다 우수함을 발견하였습니다.

이 논문에서는 서비스 로봇이 주방이나 청소 등의 일상적인 작업을 돕기 위해 필요한 공통 가구의 가동부를 예측하고 조작하는 방법에 대해 다룹니다. 특히, 본 연구는 시각적 데이터와 힘 센싱 및 측위 센싱을 결합하여 실시간으로 가동부 모델을 추정하는 새로운 방법론을 제시합니다. ###
(이 논문은 분산 딥러닝에서 이론과 실무 간의 격차를 다룹니다. 700억 개의 파라미터를 가진 모델을 훈련시키는 데 필요한 메모리는 약 1,120GB로, 현재 GPU가 갖는 80GB 용량을 크게 초과합니다. 이를 해결하기 위해 데이터 병렬화, ZeRO/Fully Sharded Data Parallel (FSDP), 텐서 병렬화, 파이프라인 병렬화 및 전문병렬화와 같은 병렬화 전략들이 사용됩니다. 논문은 이러한 병렬화 전략의 구현을 통해 메모리와 통신 비용을 파악하고 이를 시스템적으로 분석하는 프레임워크를 제시합니다.)

인공지능 모델은 특히 컴퓨터 단층 촬영 및 자기 공명 영상 기술을 활용한 급성 혈관 Occlusion 뇌졸중 영상 분석에서 강력한 잠재력을 보여주고 있다. 그러나 대부분의 기존 접근 방식들은 불확실성을 명시적으로 인지하지 않거나 모호한 조건 하에서 구조화된 중단 메커니즘을 갖추지 않는 블랙박스 예측기를 운영한다. 이 한계는 고위험 응급 영상의학 환경에서 심각한 안전 및 신뢰성 문제를 일으킨다. 본 논문에서는 급성 혈관 Occlusion 뇌졸중 영상 분석에 대한 불확실성을 인지하고 중단 가능한 의사결정 지원을 위한 설명 가능하고 에이전트 기반 AI 프레임워크를 제안한다. 이 프레임워크는 모듈형 에이전트 파이프라인을 따르며, 여기서 인식 에이전트는 병변 감지 영상 분석을 수행하고, 불확실성 추정 에이전트는 슬라이스 수준의 예측 신뢰도를 계산하며, 의사결정 에이전트는 사전 정의된 불확실성 임계값에 따라 예측을 내보내거나 중단할지 결정한다. 이 프레임워크는 기존의 뇌졸중 영상 시스템들이 주로 분할 또는 분류 정확도를 향상시키는데 초점을 맞추는 것과 달리, 임상 안전성, 투명성 및 임상 의사와 일치하는 의사결정 행동을 명시적으로 우선시한다. 대표적인 뇌졸중 영상 시나리오에 대한 질적 및 사례 기반 분석은 진단적으로 모호한 지역과 정보가 적은 슬라이스에서 불확실성에 따른 중단이 자연스럽게 발생함을 보여준다. 이 프레임워크는 예측 및 중단 결정을 지원하기 위해 시각적 설명 메커니즘을 통합하여 기존의 불확실성을 인식한 의료 영상 시스템의 주요 한계를 해결한다. 성능 벤치마크를 도입하는 것이 아닌, 이 연구는 안전하고 신뢰할 수 있는 의료 이미징 AI 시스템 개발을 위한 필수 설계 원칙으로 에이전트 제어, 불확실성 인식 및 선택적 중단을 제시한다.
이 논문에서는 비감소성 $` gamma`$-약 DR 부분함수에 대한 최적화 문제를 다룬다. 특히, 이러한 함수들이 정의된 내림차순 볼록체에서의 근사 알고리즘을 제시한다. 우리의 접근법은 $` gamma`$-의존적인 Frank-Wolfe와 double-greedy 방법을 결합하여 새로운 근사 보장을 제공한다.

> Vision-Language-Action(VLA) 모델은 로봇 조작에 강력한 일반화 정책으로 등장했지만, 행동 클로닝에 의존하기 때문에 분포 변동 시 민감하고 취약하다. 사전 훈련된 모델을 Monte Carlo Tree Search(MCTS)와 같은 검색 알고리즘으로 보완해도 VLA prior가 미래의 기대 수익률을 추정하는 데 부족함이 있어, 정확하지 않은 prior는 광범위한 시뮬레이션 없이는 행동 선택을 수정할 수 없다. 이를 해결하기 위해 우리는 Value Vision-Language-Action Planning and Search(V-VLAPS) 프레임워크를 도입하여 MCTS에 가벼운 학습 가능한 가치 함수를 추가한다. VLA 백본의 잠재 표현(Octo) 위에서 간단한 다층 퍼셉트론(MLP)을 훈련시켜 검색에 명시적인 성공 신호를 제공하고, 이를 통해 행동 선택이 높은 가치 영역으로 편향된다. LIBERO 로봇 조작 스위트에서 V-VLAPS를 평가한 결과, 우리의 가치 지향적 검색이 성공률을 5% 이상 향상시키고 MCTS 시뮬레이션의 평균 횟수를 5-15% 줄이는 것으로 나타났다.

이 논문은 DBF의 성능 한계를 극복하기 위해 Multi-Envelope Double Binary Factorization (MDBF)을 제안한다. MDBF는 기존의 단일 랭크 평가 범위에 제한된 이진 패턴 대신, 여러 개의 평가 범위 모드를 사용하여 정확도를 향상시킨다. 이를 통해 1비트에서 2비트까지의 저정밀도에서도 높은 성능을 유지할 수 있다.

공간 추론은 네비게이션 및 계획 등 다양한 응용 분야에서 주목받고 있는 큰 언어 모델(LLMs)의 특징이다. 그럼에도 불구하고, LLMs는 구조화된 환경에서 공간 변환과 다단계 계획에 여전히 어려움을 겪고 있다. 본 논문에서는 두 단계 접근법을 제안한다. 이 방법은 공간 추론을 원자적 구성 요소와 그것들의 조합으로 분해한다. 첫째, 회전, 평행이동 및 스케일링과 같은 기본적인 공간 변환에 대해 감독 학습을 통해 모델에 기본적인 공간 물리학을 제공하기 위해 훈련을 진행한다. 그런 다음 이 물리학 인식 모델을 동결하고 GRPO 프레임워크 내에서 가벼운 LoRA 어댑터를 훈련시켜, 수수께끼 기반 환경에서 다단계 계획을 위한 이러한 구성 요소들을 조합하는 정책을 학습한다. 이를 위해 아스키아트 데이터셋을 합성하고 해당 아스키 기반 강화 학습 환경을 구축한다. 우리의 방법은 동적인 환경과 정적인 환경 모두에서 일반 베이스라인, 물리학 인식 모델 및 end-to-end RL 모델을 능가하며, 특히 수수께끼 기반 환경에서는 더욱 우수한 성능을 보여준다. 또한 제안된 접근법은 처음부터 강화 학습을 진행하는 것보다 더 빠르게 수렴하고 훈련이 안정적이다. 마지막으로 우리는 주의 패턴을 분석하여 페인트를 통해 공간 이해력에서 의미 있는 개선이 이루어졌는지 평가한다.

(이 논문에서는 사회 상호작용을 시뮬레이션하고 다양한 센서 데이터를 처리하는 오픈 소스 프레임워크인 OpenSocInt에 대해 설명한다. 이 시스템은 에이전트가 사회적 상황에서 행동할 수 있도록 학습시키는데 중점을 둔다. 그중 하나는 인간을 인식하는 사회적 네비게이션이다.)
상태 공간 모델(SSMs)은 오랜 문맥 시퀀스 모델링에 있어서 변형자(Transformer)의 대안으로 주목받고 있으며, 변형자의 $O(N^2)$ 스케일링과 비교하여 선형적인 $O(N)$ 계산 복잡도를 제공합니다. 본 논문은 Mamba SSM이 LLaMA 변형자를 오랜 문맥 시퀀스에서 어떻게 비교되는지에 대한 포괄적인 벤치마킹 연구를 제시하며, 이를 위해서는 이원 치료 세션이 대표적인 테스트 사례로 사용되었습니다. 두 아키텍처는 두 가지 차원을 통해 평가됩니다 (1) 계산 효율성, 여기서 512에서 8,192 토큰까지 메모리 사용량과 추론 속도를 측정하고, (2) 표현력 효율성, 여기서는 숨겨진 상태 동역학과 주의 패턴을 분석합니다. 우리의 발견은 오랜 문맥 응용 프로그램을 다루고 있는 실무자들에게 행동 가능한 통찰력을 제공하며, SSM이 변형자보다 우위에 설 수 있는 정확한 조건을 설정합니다.

컴파일러는 수십 년 동안 프로그래밍 코드를 인간이 이해할 수 있는 형태에서 기계가 실행 가능한 형태로 변환하는 핵심적인 역할을 해왔다. 최근에는 대형 언어 모델(LLMs)이 컴파일러의 역할에 새로운 변화를 가져오고 있다. 이 연구는 LLMs를 이용한 컴파일러 관련 작업을 체계적으로 검토하고 분류하며, 이를 통해 현재 연구 동향과 미래 방향성을 제시한다.

Transformer 언어 모델은 언어를 토큰의 시퀀스로 모델링하여 뛰어난 자연스러운 텍스트를 생성할 수 있지만, 주로 표면적 동시 발생 통계에 의존하기 때문에 전체적으로 일관된 잠재 표현을 형성하지 못하며, 이는 관계적 일반화 능력의 부족(역전呚的詛咒), 上下文化錯誤和數據低效等問題。相比之下,認知科學表明,人類理解將語言輸入轉換為緊湊的事件類似表示,這些表示在記憶中持久存在,而逐字形式則是短暫的。受這些發現的啟發,我們提出了思想完形(TG)模型,這是一種遞歸變壓器,它在兩個抽象層次上對語言進行建模:令牌和句子級“思維”狀態。TG 一次生成一个句子,并通过交叉注意力关注先前句子表示的工作记忆。使用共享堆栈的变压器块生成标记和句子表示,并通過單一目標(下一個標記預測損失)進行訓練。通過保留寫入工作內存的句子表示的計算圖,來自未來令牌損失的梯度通過交叉注意流回以優化生成早期句子向量的參數。在擴展實驗中,TG 在數據和參數效率方面始終比匹配的 GPT-2 運行和其他基線有所提高,擴展適配表明 GPT-2 需要約 5-8% 更多的數據和約 33-42% 更多的參數以匹配 TG 的測試損失。TG 也在父親兒子逆轉詛咒探針上的關係方向泛化錯誤中有所減少。

플라세น타 아크레타 스펙트럼(PAS)은 자궁벽으로의 비정상적인 태반 침습을 포함하는 산부인과에서 생명을 위협하는 합병증입니다. 모성 및 신생아 위험성을 줄이기 위해서는 조기에 정확한 임신 중 진단이 필수적입니다. 본 연구의 목적은 다양한 영상 모달리티를 통합하여 PAS 검출을 향상시키는 딥러닝 프레임워크를 개발하고 검증하는 것입니다. 3차원 자기 공명 영상(MRI)과 2차원 초음파(US) 스캔을 결합한 중간 특성 수준 융합 아키텍처를 사용하여 다중 모달 딥러닝 모델을 설계하였습니다. 체계적인 비교 분석 후, MRI용 3D DenseNet121-비전 트랜스포머와 US용 2D ResNet50을 단일 모달 특성 추출기로 선택했습니다. 1,293개의 MRI 및 1,143개의 US 스캔으로 구성된 정제 데이터셋을 사용하여 단일 모달 모델을 훈련하고, 다중 모달 모델 개발과 평가를 위해 환자 매칭 MRI-US 스캔 쌍 샘플을 분리했습니다. 독립적인 테스트 세트에서 다중 모달 융합 모델은 92.5%의 정확도와 수신기 작동 특성 곡선(AUC) 아래 넓이인 0.927의 우수한 성능을 달성하여 MRI만(82.5%, AUC 0.825) 및 US만(87.5%, AUC 0.879) 모델보다 더 나은 결과를 보였습니다. MRI와 US 특성을 통합하면 진단 정보가 서로 보완되어 임신 중 위험 평가를 향상시키고 환자 결과를 개선할 수 있는 강력한 가능성을 보여줍니다.

인간 생물학적 시스템은 뛰어난 유연성을 통해 생명을 유지하며, 손상 감지와 표적화된 반응 조정, 그리고 자체 치유를 통한 기능 복원을 계속하고 있습니다. 이러한 능력에 영감 받아 이 논문에서는 분산 컴퓨팅 연속 체계(DCCS)에서 탄력성을 달성하기 위해 생물학적으로 모티브화된 자가치유 프레임워크인 ReCiSt를 소개합니다. 현대의 DCCS는 리소스 제약이 있는 IoT 장비부터 고성능 클라우드 인프라에 이르기까지 다양한 컴퓨팅 자원을 통합하며, 내재한 복잡성, 모빌리티 및 동적인 운영 조건은 서비스 연속성을 방해하는 빈번한 결함에 노출됩니다. 이러한 과제들은 확장 가능하고 적응적이며 자기조절 탄력성을 달성하기 위한 전략의 필요성을 강조합니다. ReCiSt는 DCCS를 위해 생물학적 단계인 혈전, 염증, 증식, 재모델링을 각각 통제, 진단, 메타-인지, 지식 계층으로 재구성합니다. 이 네 개의 계층은 언어 모델(LM) 기반 에이전트를 통해 자동화된 결함 격리, 원인 진단, 적응적 복구 및 장기적인 지식 통합을 수행합니다. 이러한 에이전트는 다양한 로그를 해석하고 근본 원인을 추론하며 합리적 경로를 정교하게 만들고 최소한의 인간 개입으로 리소스를 재구성합니다. 제안된 ReCiSt 프레임워크는 여러 LM을 사용하여 공개 결함 데이터셋에서 평가되었으며 유사한 접근법이 드물기 때문에 기준 비교는 포함되지 않았습니다. 그럼에도 불구하고 다양한 LM 하에서 수행된 우리의 결과는 ReCiSt의 자가치유 능력이 최소 10%의 에이전트 CPU 사용률로 수십 초 내에 이루어진다는 것을 확인합니다. 또한 우리의 결과는 불확실성을 극복하기 위한 분석 깊이와 탄력성达成的微量代理数量进行了演示。

(이 논문은 기존의 판별적 방법 대신 생성적 분류기를 사용하여 분포 이동에 견고한 모델을 만드는 데 초점을 맞춥니다. 생성적 분류기는 전체 입력 데이터를 학습하므로, 단순히 훈련 데이터의 특이적인 패턴을 따라가는 것이 아니라 본질적인 특징을 학습합니다.)

딥 강화 학습(Deep RL)은 최근 다양한 분야에서 성공을 거두고 있으나, 적합한 보상 함수를 정의하는 것은 여전히 도전적이다. 이 연구에서는 선호 기반 강화 학습(PbRL)에서 비전문가 교사로부터 받는 피드백에 의해 발생하는 특징 종속 잡음을 모델링하고 평가한다. 이를 통해 RL 에이전트의 성능 향상을 추구하며, 다양한 상태-작업 공간에서 발생할 수 있는 다양한 유형의 특징 종속 잡음에 대해 논의한다.

사회 미디어에서 조작된 행동을 감지하는 것은 여전히 중요한 문제로 남아 있으며 대부분의 기존 접근 방법은 표면적인 상관 분석에 의존하며, 정적 매개변수 설정을 사용하고 수많은 수동 어노테이션을 요구합니다. 이러한 제한점을 체계적으로 해결하기 위해 Adaptive Causal Coordination Detection (ACCD) 프레임워크를 제안합니다. ACCD는 기억 기반 적응 메커니즘을 활용하여 다양한 조정 상황에서 최적의 감지 설정을 동적으로 학습하고 유지하는 3단계 진행형 아키텍처를 채택합니다. 구체적으로 첫 번째 단계에서는 진정한 인과 관계를 심층적으로 식별하기 위한 적응형 Convergent Cross Mapping (CCM) 기법을 도입하고 있습니다. 두 번째 단계는 반복 학습과 불확실성 샘플링을 통합하여 준감독 분류 방식으로 수동 라벨링 부담을 크게 줄입니다. 세 번째 단계에서는 과거 감지 경험에 기반한 자동 검증 모듈을 배치하여 검출 결과의 자체 확인 및 최적화를 가능하게 합니다. 본 연구는 실제 데이터셋, 특히 트위터 IRA 데이터셋과 리디트 조정 추적기록, 그리고 널리 사용되는 봇 감지 벤치마크 몇 가지를 이용해 종합적인 평가를 수행하였습니다. 실험 결과 ACCD는 조직화된 공격을 감지하는 데 87.3%의 F1 점수를 달성하며, 가장 강력한 기존 기준선 대비 15.2% 향상되었습니다. 또한 시스템은 수동 어노테이션 요구사항을 68% 감소시키며 계층적 클러스터링 최적화를 통해 처리 속도가 2.8배 빨라집니다. 결론적으로 ACCD는 사회 플랫폼에서 조작된 행동을 식별하기 위한 정확하고 효율적이며 자동화 수준이 높은 종합적인 해결책을 제공하며, 실용적 가치와 광범위한 응용 가능성에 대한 큰 잠재력을 제시합니다.

정보 탐색은 개인이 지식 격차를 해소하기 위해 정보를 찾아내고 사용하는 과정으로 이해됩니다. 정보 시대에 들어와 정보 시스템의 급속한 발전은 정보 접근성을 크게 증가시켰지만, 동시에 정보 과부하도 심화되었습니다. 이로 인해 개인들은 다양한 단서를 활용하여 정보를 필터링하고 해석합니다. 이러한 단서에는 메시지 단서(내용의 의미적 특징)와 사회적 단서(정보 상호작용에서 타인의 존재, 행동, 정체성 등)가 포함됩니다. 이 논문은 대형 언어 모델(LLM)-기반 검색 시스템에 대한 연구를 통해 사용자가 기대하는 사회적 단서 및 이를 통합하는 방법을 탐구하고 있습니다.

정확한 우물 내 위치 확인은 석유 및 가스 작업에서 중요하지만 전통적인 표면 기반 케이싱 카라 로케이터(CCL) 모니터링에서는 신호 손실로 인해 자주 저해됩니다. 이 문제를 해결하기 위해 임베디드 신경망을 사용한 현장 즉시 카라 인식 시스템을 제안합니다. 리소스 제약이 있는 ARM Cortex-M7 마이크로프로세서용 최적화된 가벼운 카라 인식 네트워크 (CRNs)를 도입하였습니다. 시간과 깊이별 분리 합성곱을 활용하여 가장 컴팩트한 모델은 계산 복잡도를 단지 8,208 MAC으로 줄였음에도 불구하고 F1 점수는 0.972을 유지하고 있습니다. 하드웨어 검증 결과 평균 추론 지연 시간이 343.2 μs임을 확인하여, 심각한 전력 및 공간 제약 조건하에서도 우물 내 장비에서 견고하고 자율적인 신호 처리가 가능함을 입증하였습니다.

최근 소매업계에서 로봇을 고객 대면 역할에 도입하는 데서 나타난 문제를 해결하기 위해, 본 연구는 물리 매장 내 고객 활동 분석을 통해 자율적인 구매 의도 이해의 첫걸음을 소개한다. 우리는 고객의 “선반 방문”을 측정하는 알고리즘을 제시하는데, 이는 고객이 가게에서 둘러보는 행동을 포착한다. 선반 방문은 머신 비전 기반 3D 추적 및 천장 카메라를 통해 얻어진 트래젝토리를 통해 추출된다. 우리는 두 개의 독립적인 트래젝토리 집합(8138개와 15129개)을 사용해 알고리즘을 교정하고, 인간 리뷰어가 라벨링한 다른 매장에서 수집되었다. 교정된 모델은 교정 과정에 포함되지 않은 트래젝토리를 평가하는데, 이는 같은 매장과 다른 매장을 통해 이루어진다. 결과 분석을 통해 알고리즘이 교정 환경과 다른 환경에서도 고객의 둘러보기 활동을 인식할 수 있음을 보여준다. 마지막으로, 우리는 모델을 사용하여 큰 트래젝토리 집합에서 고객의 “둘러보기 패턴”을 분석하고 실제 구매와의 관계를 탐색하며, 매장 계획 및 인간-로봇 상호작용에 활용할 수 있는 방법을 논의한다.

이 논문은 관찰 데이터를 활용하여 AI 기반의 결정, 특히 타겟팅 가격 설정과 알고리즘 대출에 대한 소비자 여유 효과를 심사하기 위한 실용적인 프레임워크를 개발합니다. 전통적 접근법에서는 먼저 수요 함수를 추정한 후 이를 통합하여 소비자 여유를 계산하지만, 이러한 방법은 모수적 수요 형태에서의 모형 사양 오류와 유연한 비모수적 또는 기계 학습 접근법에 따른 큰 데이터 요구사항과 느린 수렴으로 인해 실제 적용이 어려울 수 있습니다. 대신 우리는 현대 알고리즘 가격 설정에서 발생하는 탐색과 활용의 균형을 위해 본래 내재된 무작위성을 활용하고, 수요 함수의 명시적 추정 및 수치 적분을 피할 수 있는 추정자를 도입합니다. 무작위 가격에서 관찰된 각 구매 결과는 수요에 대한 편향 없는 추정치이며, 새로운 누적 경향 가중치(CPW)를 사용하여 구매 결과를 세심하게 재가중함으로써 적분을 재구성할 수 있습니다. 이러한 아이디어를 바탕으로 정확히 수요 모델이나 역사적인 가격 책정 정책 분포 중 하나만 올바르게 사양되어 있으면 되는 복수로 견고한 변형인 증강 누적 경향 가중치(ACPW) 추정자를 도입합니다. 또한 이 접근법은 소비자 여유를 추정할 때 기계 학습 방법의 활용을 용이하게 하며, 특히 기계 학습 추정값이 느린 수렴 속도를 보일 때조차도 수요 추정을 포함함으로써 빠른 수렴 속도를 달성합니다. 이러한 추정자는 목표 추정 대상인 소비자 여유가 관찰되지 않는다는 점에서 오프-폴리시 평가 기법의 표준적 응용이 아닙니다. 공평성을 고려하기 위해 이 프레임워크를 부등식 인식 여유 측정으로 확장하여 규제 당국과 기업들이 수익-공정성 트레이드오프를 정량화할 수 있도록 합니다. 마지막으로, 포괄적인 수치 연구를 통해 우리의 방법을 검증합니다.

대형 언어 모델(LLM)의 수학적 추론 작업에서 탁월한 성과는 이러한 모델들의 출력을 이해하고 검증하는 데 관심을 집중시켰습니다. 본 논문은 스펙트럼 그래프 이론에 기반한 새로운 접근법을 제안하며, 이 방법은 주의 메커니즘을 통해 생성된 가중 그래프의 스펙트럼 특성을 분석하여 추론의 유효성을 검증합니다. 실험 결과, 이 방법은 다양한 모델에서 82.8–85.9%의 정확도를 보였으며, 특히 로직적 일관성이 있는 증명을 식별하는 데 효과적이었습니다.

비공개 macOS 프레임워크는 중요한 서비스와 데몬을 지원하지만 문서화되지 않고 스트립된 바이너리 형태로만 배포되어 보안 분석에 어려움을 초래합니다. 저희는 Objective-C 타입 추론을 위한 특수화된 튜닝 대형 언어 모델과 도구 확장 분석을 통합하는 에이전트 프레임워크인 MOTIF를 소개합니다. 이 에이전트는 런타임 메타데이터 추출, 바이너리 검사, 그리고 제약 조건 확인을 관리하며, 모델은 후보 메소드 시그니처를 생성하고 이를 검증하여 컴파일 가능한 헤더로 정제합니다. MOTIF-Bench는 공개 프레임워크로부터 만들어진 벤치마크에 실제 헤더가 포함되어 있으며, 여기서 MOTIF는 기준 정적 분석 도구보다 시그니처 복원률을 15%에서 86%로 개선했으며, 도구 사용의 정확성과 추론의 안정성을 지속적으로 높였습니다. 비공개 프레임워크에 대한 사례 연구에서는 재구성된 헤더가 컴파일되고 링크되며, 이후 보안 연구와 취약점 분석을 지원하는 것을 확인할 수 있습니다. MOTIF는 불투명한 바이너리를 분석 가능한 인터페이스로 변환함으로써 macOS 내부의 체계적인 심사에 대한 확장 가능한 기반을 구축합니다.

건물은 전 세계 에너지 소비의 약 30%를 차지하며, 효율적인 에너지 사용을 달성하는 데 있어 핵심적이다. 이 논문에서는 대형 언어 모델(LLM) 기반 AI 에이전트가 인간과 건물 간 상호 작용을 개선하고, 건물 에너지 관리 시스템(BEMS)의 사용자 인터페이스를 향상시키는 방법에 대해 탐구한다. LLM은 자연어 처리와 데이터 분석 능력을 활용하여 사용자의 다양한 목표에 맞춘 컨텍스트 감지를 제공할 수 있다.

재활용의 중요성은 널리 인정되고 있지만, 일반 대중이 물품의 재활용 가능성을 정확하게 판단하고 적절한 처리 방법을 결정하는 것은 복잡한 과제입니다. 본 연구에서는 GPT-4o, GPT-4o-mini, 그리고 Claude 3.5와 같은 최첨단 비전 언어 모델들을 일상적으로 버려지는 물품의 재활용 가능성을 예측하는데 활용했습니다. 이미지로 구성된 데이터셋을 이용하여 이러한 모델들이 물체를 적절한 분리 수거함과 매칭하는 능력을 평가하였습니다. 또한, 모델이 실제로 사용 가능한 수거함에 맞게 들어가는지 여부도 평가하였습니다. 추가적으로 우리는 다음과 같은 과제들에서 모델들의 성능을 조사했습니다 (i) 지역별 재활용 가이드라인에 따른 예측 수정; (ii) 오염 또는 구조적 손상 고려; 그리고 (iii) 다중 소재로 구성된 물체 처리. 우리의 연구 결과는 이러한 모델들이 이전 세대와 비교하여 문맥 이해 측면에서 큰 진보를 이루고 있음을 보여주며, 그럼에도 불구하고 여전히 부족한 부분을 나타냈습니다. 이러한 맥락 인식 모델의 지속적인 개선은 공공 재활용 실천을 강화하고 환경 지속 가능성을 발전시키는 데 중요합니다.

SmartFlow는 강화학습과 에이전트 기반 인공지능을 통합한 다층적 프레임워크로, 도시 자전거 공유 서비스에서 발생하는 동적인 재균형 문제를 해결합니다. 그 구조는 전략적, 전술적, 그리고 커뮤니케이션 기능을 분리하여 명확성과 확장성을 보장하고 있습니다. 전략 수준에서는 뉴욕의 Citi Bike 네트워크를 고대비 시뮬레이션에서 학습한 딥 Q-네트워크(DQN) 에이전트가 마르코프 의사결정 과정으로 문제를 모델링하여 견고한 재균형 정책을 학습합니다. 이러한 고수준 전략은 다중 구간 여행을 최적화하고 단시일 내에 출동할 수 있도록 스케줄링하여 차량의 이동 거리를 최소화하는 결정론적 전술 모듈로 전달됩니다. 여러 시드를 이용한 실행을 통해 SmartFlow의 높은 효율성이 입증되었으며, 네트워크 불균형을 95% 이상 감소시키고 최소한의 이동 거리와 높은 트럭 활용도를 달성하였습니다. 커뮤니케이션 계층은 대규모 언어 모델(LLM)을 갖춘 기반 에이전트 AI로 구동되어 물류 계획을 현장 직원에게 명확하고 실행 가능한 지시사항으로 전달하여 해석 가능성과 실행 준비성을 보장합니다. 이 통합은 기계 지능을 인간 운영과 연결함으로써, 유휴 시간을 줄이고 자전거 이용 가능성을 향상시키며 운용 비용을 낮추는 확장 가능한 해결책을 제공합니다. SmartFlow는 복잡한 도시 이동 네트워크에서 해석 가능하고 AI 기반의 물류를 위한 청사진을 제시합니다.
검색어를 입력하세요