Paper

'Paper' 태그의 모든 글

총 301개의 글
시간순 정렬
No Image

_chatGPT의 추천에서 다양성, 신선함 및 인기 편향 탐색

ChatGPT는 다양한 분야에서 능력을 보여주는 다재다능한 도구로 부상하고 있다. 이러한 성공에 따라 추천 시스템(RS) 커뮤니티에서는 주로 정확도에 초점을 맞추고 ChatGPT의 추천 시나리오 내 적용을 조사하기 시작했다. ChatGPT가 RS에 통합되면서 많은 관심을 받았지만, 다양한 차원에서의 성능에 대한 포괄적인 분석은 아직 충분히 이루어지지 않았다. 특히 다각도의 다양성과 새로운 추천 제공 능력, 인기도 편향 가능성 등이 철저하게 검토되지 않은 상태이다. 이러한 모델의 사용이 계속 확대됨에 따라 이러한 측면을 이해하는 것은 사용자 만족도를 높이고 장기적인 개인화를 달성하는 데 중요하다. 본 연구는 ChatGPT-3.5와 ChatGPT-4가 제공하는 추천을 분석하여 다양성, 신규성 및 인기도 편향 측면에서 ChatGPT의 능력을 평가한다. 세 가지 다른 데이터셋에서 이 모델들을 평가하고 상위 N개 추천과 냉기 시작 시나리오에서의 성능을 분석한다. 결과는 ChatGPT-4가 전통적인 추천자들과 맞먹거나 그 이상으로, 추천에서 신규성과 다양성을 균형 있게 유지할 수 있음을 보여준다. 또한 냉기 시작 시나리오에서는 ChatGPT 모델들이 정확도와 신규성 측면에서 우수한 성능을 나타내어 새 사용자에게 특히 유익하다는 것을 나타낸다. 이 연구는 ChatGPT의 추천에 대한 강점과 한계를 강조하고, 정확도 중심 지표를 넘어 이러한 모델들이 제공할 수 있는 추천 능력을 재해석한다.

paper AI 요약
3D 다중 객체 장면에서의 2D 시스템 비디오와 언어 정합성 및 멀티정보 도함수 없는 제어

3D 다중 객체 장면에서의 2D 시스템 비디오와 언어 정합성 및 멀티정보 도함수 없는 제어

본 논문은 시각-언어 모델(VLM)이 2차원 이미지를 기반으로 학습되었음에도 불구하고, 3차원 장면을 분석하는 방법론을 제안합니다. 이는 특정 객체의 위치와 특징을 정확하게 파악하기 위해 필요한 최적의 시점 순서를 예측하고, 이를 통해 VLM이 더 정확한 결과를 반환할 수 있도록 합니다.

paper AI 요약
AdaGReS  토큰 예산에 적응하는 중복 고려 스코어링을 통한 선욕적 문맥 선택

AdaGReS 토큰 예산에 적응하는 중복 고려 스코어링을 통한 선욕적 문맥 선택

RAG(Retrieval-Augmented Generation)는 대형 언어 모델(LLM)이 외부 지식을 통합하고, 지식 집약적인 작업 성능을 향상시키는 주요 기술로 발전했습니다. 그러나 RAG 시스템은 검색된 결과의 다양성과 관련성을 균형 있게 유지하는 데 어려움을 겪습니다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 맥락 점수화 및 선택 메커니즘을 제안하고 이를 구현합니다.

paper AI 요약
AI 강화된 양자점 해밀토니안 튜닝을 통한 마이저나 모드 형성

AI 강화된 양자점 해밀토니안 튜닝을 통한 마이저나 모드 형성

신경망 기반 모델을 제안합니다. 이 모델은 양자점 시뮬레이터에서 작동하는 다양한 상황들을 학습하고, 운송 측정에 근거해 이러한 장치를 자동으로 튜닝하여 구조 내에서 마이저나 모드를 얻을 수 있도록 합니다. 이 모델은 가상의 데이터 형태인 전도도 지도를 사용하여 비감독 방식으로 학습되며, 이를 위해 마이저나 제로 모드의 주요 특성을 포함하는 물리학적 손실 함수가 적용됩니다. 적절한 학습을 통해 딥 비전-트랜스포머 네트워크는 해밀토니안 매개변수와 전도도 지도 구조 간의 관계를 효과적으로 기억하고 이를 사용하여 양자점 사슬에 대한 매개변수 업데이트를 제안하여 시스템을 위상학적 위상으로 이끌 수 있습니다. 매개변수 공간에서 넓은 범위의 초기 불일치 상태에서도 단 한 번의 업데이트 단계만으로 비자명한 제로 모드를 생성할 수 있습니다. 또한, 각 단계마다 업데이트된 전도도 지도를 획득하는 반복적인 튜닝 프로시저를 활성화함으로써 이 방법은 매개변수 공간의 훨씬 더 큰 영역을 다룰 수 있음을 보여줍니다.

paper AI 요약
AI 기반 다중 클러스터 환경의 클라우드 리소스 최적화

AI 기반 다중 클러스터 환경의 클라우드 리소스 최적화

현대의 클라우드 네이티브 시스템은 확장성, 견고성 및 지리적 분산을 지원하기 위해 다중 클러스터 배포에 점점 더 의존하고 있습니다. 그러나 기존의 리소스 관리 접근 방식은 여전히 대응형이고 클러스터 중심적이어서 동적인 워크로드 하에서 시스템 전체의 행동을 최적화하는 능력이 제한됩니다. 이러한 한계는 분산 환경에 걸쳐서 효율적인 리소스 활용, 지연된 적응 및 증가된 운영 부담으로 이어집니다. 본 논문은 다중 클러스터 클라우드 시스템에서 적응형 리소스 최적화를 위한 AI 기반 프레임워크를 제시합니다. 제안된 접근 방식은 예측 학습, 정책 인식 결정 및 지속적인 피드백을 통합하여 클러스터 간에 능동적이고 조율된 리소스 관리를 가능하게 합니다. 이 프레임워크는 클러스터 간 텔리미트리와 역사적 실행 패턴을 분석하여 성능, 비용 및 신뢰성 목표를 균형 있게 맞추기 위해 리소스 할당을 동적으로 조정합니다. 프로토타입 구현은 전통적인 대응형 접근 방식에 비해 개선된 리소스 효율성, 워크로드 변동 시 더 빠른 안정화 및 성능 변화의 감소를 보여줍니다. 결과는 확장적이고 견고한 클라우드 플랫폼을 위한 핵심 요인으로서 지능형 자가 적응 인프라 관리의 효과성을 강조합니다.

paper AI 요약
AI 라이브러리의 숨은 손길, 오픈소스 프로젝트와 커뮤니티를 형성하다

AI 라이브러리의 숨은 손길, 오픈소스 프로젝트와 커뮤니티를 형성하다

이 논문은 오픈 소스 소프트웨어(OSS) 프로젝트에서 인공지능(AI) 라이브러리의 채택과 그 영향을 조사한다. 특히, Java와 Python 기반 OSS에서 AI 라이브러리의 사용 범위를 분석하고 이를 통해 개발 활동, 협업, 그리고 소프트웨어 복잡성과 유지보수에 미치는 영향을 평가한다. 본 연구는 157,700개의 가능 저장소에 대한 대규모 분석을 수행하여 AI 라이브러리 채택의 범위와 그 결과를 제공하며, 이는 소프트웨어 엔지니어링과 OSS 커뮤니티에 중요한 통찰력을 제공한다.

paper AI 요약
AI 사회의 독성 채택 검사  Chirper.ai를 통한 해악 분석

AI 사회의 독성 채택 검사 Chirper.ai를 통한 해악 분석

사회 봇이 온라인 플랫폼에서 정보 확산, 참여 동태, 공론에 큰 영향을 미쳐 왔지만, 대형 언어 모델(LLMs)은 이전 세대보다 훨씬 복잡하고 자연스러운 상호작용을 가능하게 하는 새로운 사회 봇을 구현했습니다. LLM 기반 에이전트의 행동은 오프라인에서 시뮬레이션된 사회 환경을 통해 검증되었으며, 이는 인간과 유사한 네트워크 구조와 집단 현상에 대한 연구를 가능하게 했습니다. 그러나 이러한 에이전트들은 독해나 해로운 콘텐츠 생성의 위험성을 내포하고 있습니다. 본 논문에서는 Chirper.ai라는 AI 기반 소셜 네트워크 플랫폼을 통해 LLM 에이전트들의 독해 유발 메커니즘에 대한 대규모 실험적 평가를 수행합니다.

paper AI 요약
AI 에이전트 시스템  아키텍처, 응용 프로그램 및 평가

AI 에이전트 시스템 아키텍처, 응용 프로그램 및 평가

인공지능(AI) 에이전트는 기초 모델과 실행 루프를 결합하여, 정보 수집, 상태 유지, 도구 선택 및 제약 조건 하에서의 다단계 작업을 수행합니다. 이러한 AI 에이전트는 현대 디지털 작업 환경에서 분산된 지식과 도구 중재 작업, 그리고 최종 결과에 대한 성공 정의를 처리할 수 있습니다. 이 논문은 에이전트 아키텍처와 학습 전략을 중심으로 이러한 시스템의 현재 격차 및 개선 방향을 조사합니다.

paper AI 요약
AMAP 에이전시 계획 기술 보고서

AMAP 에이전시 계획 기술 보고서

최근 대형 언어 모델(LLMs)은 도구 호출을 통합하여 복잡한 작업 추론 능력을 향상시켰습니다. 이 논문에서는 실시간 공간-시간 상황에서의 추론 작업에 초점을 맞춘 STAgent를 제안합니다. STAgent는 강화학습, 고급 데이터 구성 및 계층적 학습 방법을 통합한 종합적인 파이프라인을 구현하여 복잡한 현실 세계 문제 해결 능력을 향상시킵니다.

paper AI 요약
Application of deep learning techniques in non-contrast computed tomography pulmonary angiogram for pulmonary embolism diagnosis

Application of deep learning techniques in non-contrast computed tomography pulmonary angiogram for pulmonary embolism diagnosis

폐색전은 생명을 위협하는 질병으로, 조기에 검출하고 치료하면 사망률이 크게 줄어듭니다. 최근 많은 연구들이 대조매개체 컴퓨터단층촬영 폐 혈관angiography를 활용하여 폐색전의 진단에 딥러닝을 사용하고 있지만, 대조매개체는 폐색전과 만성신부전이 있는 환자들에게 급성 신장 손상을 일으킬 가능성이 있으며, 대조매개체가 작동하는 데 시간이 소요되어 급성 폐색전을 가진 환자는 골든 테리트리를 놓칠 수 있습니다. 본 연구는 대조매개체를 사용하지 않고 CT 영상에서 폐색전을 자동으로 분류하기 위해 3차원 컨볼루션 신경망 모델을 활용한 딥러닝 기법을 이용하는 것을 목표로 합니다. 이번 연구에서 사용된 딥러닝 모델은 대조매개체를 사용하지 않은 컴퓨터단층촬영 영상의 폐색전 분류에 대해 85% 정확도와 0.84 AUC를 보여주어, 이 모델이 폐색전 진단에서의 적용 가능성을 확인하였습니다.

paper AI 요약
ARIES  실시간 역학 감시 및 발생 모니터링을 위한 확장형 다중 에이전트 조정 프레임워크

ARIES 실시간 역학 감시 및 발생 모니터링을 위한 확장형 다중 에이전트 조정 프레임워크

세계 건강 감시는 현재 지식 격차라는 도전에 직면해 있습니다. 일반적인 목적으로 사용되는 인공지능이 확산되었지만, 만성적 환영 현상과 전문 데이터 시ilos를 탐색하는 능력 부족으로 인해 여전히 고스테이크 역학 분야에는 적합하지 않습니다. 본 논문은 ARIES(Agentic Retrieval Intelligence for Epidemiological Surveillance)라는 특화된 자율적 다중 에이전트 프레임워크를 소개합니다. 이 프레임워크는 정적인 질병별 대시보드에서 벗어나 동적인 지능 생태계로 나아가도록 설계되었습니다. 계층형 명령 구조 위에 작성된 ARIES는 GPTs를 활용해 WHO(World Health Organization), CDC(Center for Disease Control and Prevention) 및 피어 리뷰 연구 논문을 자동으로 조회할 수 있는 확장 가능한 서브 에이전트 스와rm을 조정합니다. 감시 데이터의 추출과 논리적 종합을 자동화함으로써 ARIES는 신흥 위협과 신호 발산을 실시간에 가깝게 식별하는 특화된 사고를 제공합니다. 이 모듈형 아키텍처는 특정 작업을 수행하는 에이전트 스와rm이 일반적인 모델보다 우수하다는 것을 입증하며, 다음 세대의 발생 대응 및 글로벌 건강 지능에 강력하고 확장 가능한 솔루션을 제공합니다.

paper AI 요약
AutoFed  개인화 프롬프트를 활용한 수동 없는 연방 교통 예측

AutoFed 개인화 프롬프트를 활용한 수동 없는 연방 교통 예측

정확한 교통 예측은 라이드해링, 도시 도로 계획, 차량 페리 관리 등 지능형 교통 시스템에 필수적입니다. 하지만 교통 데이터 주변의 중요한 프라이버시 문제로 인해 대부분의 기존 방법은 로컬 트레이닝에 의존하여 데이터 실로와 제한적인 지식 공유가 발생합니다. 연방 학습(FL)은 개인정보 보호 협업 훈련을 통해 효율적인 해결책을 제공하지만, 표준 FL은 클라이언트 간의 독립적이지 않고 동일하게 분포되지 않은(non-IID) 문제에 어려움을 겪습니다. 이挑战组合中包含了韩文和中文,最后的部分没有完全翻译成韩文。以下是完整的韩文翻译: 정확한 교통 예측은 라이드해링, 도시 도로 계획, 차량 페리 관리 등 지능형 교통 시스템에 필수적입니다. 하지만 교통 데이터 주변의 중요한 프라이버시 문제로 인해 대부분의 기존 방법은 로컬 트레이닝에 의존하여 데이터 실로와 제한적인 지식 공유가 발생합니다. 연방 학습(FL)은 개인정보 보호 협업 훈련을 통해 효율적인 해결책을 제공하지만, 표준 FL은 클라이언트 간의 독립적이지 않고 동일하게 분포되지 않은(non-IID) 문제에 어려움을 겪습니다. 이 어려움은 개인화 연방 학습(PFL)이 유망한 패러다임으로 등장하는 원인이 되었습니다. 그럼에도 불구하고 현재의 PFL 프레임워크는 교통 예측 작업에 대한 전문적인 그래프 특징 공학, 데이터 처리 및 네트워크 아키텍처 설계가 필요합니다. 많은 이전 연구들의 주목할 만한 제한점 중 하나는 실세계 시나리오에서 자주 사용 불가능한 데이터셋 간의 하이퍼파라미터 최적화에 의존하는 것입니다. 이를 해결하기 위해 AutoFed라는 새로운 PFL 프레임워크를 제안합니다. 이는 개인화된 예측자에게 교차 클라이언트 지식을 활용하면서도 로컬 특이성을 유지하도록 하여 자동 조정을 통해 인공적인 하이퍼파라미터 튜닝의 필요성을 제거합니다. 프롬프트 학습에서 영감을 받아, AutoFed는 클라이언트 맞춤형 어댑터를 사용하여 로컬 데이터를 축소된 글로벌 공유 프롬프트 행렬에 응축하는 연방 표현자를 도입하였습니다. 이 프롬프트는 개인화 예측자에게 조건을 제공합니다. 실제 데이터셋에서의 광범위한 실험은 AutoFed가 다양한 시나리오에서 일관되게 우수한 성능을 달성한다는 것을 보여주었습니다. 본 논문의 코드는 https //github.com/RS2002/AutoFed 에서 제공됩니다.

paper AI 요약
BERT-JEPA  언어 불변 의미를 위한 CLS 임베딩 재구조화

BERT-JEPA 언어 불변 의미를 위한 CLS 임베딩 재구조화

BERT와 그 후속 모델들은 NLP 작업을 위해 풍부한 임베딩을 생성하는데 사용된다. 하지만 이러한 임베딩은 언어의 진정한 표현을 포착하지 못한다. 이 연구는 BERT를 새로운 학습 아키텍처인 Joint-Embedding Predictive Architectures (JEPA)를 통해 훈련하여, 문장과 정보의 진정한 의미만을 나타내도록 가르치려고 한다. 이를 위해 BERT-JEPA (BEPA)라는 새로운 학습 패러다임을 제시하며, 이는 [CLS ] 임베딩 공간을 재구조화하고 다언어 작업에서 성능을 향상시키며, PCA 표현을 더 포괄적인 형태로 변화시킨다는 결과를 보여준다.

paper AI 요약
Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice

Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice

고품질 데이터는 현대 AI 개발의 주요 드라이버로 부상하였습니다. 프런티어 AI 모델을 훈련시키기 위한 데이터 레시피를 구성하는 것은 필수적인 결정 과정이지만, 이에 대한 이론적 지침이나 인간의 직관은 거의 없습니다. 따라서 실무자들은 실제 모델 훈련을 통해 데이터 품질을 평가해야 합니다. 본 논문에서는 작은 프록시 모델 을 사용하여 대규모 모델 훈련에 필요한 계산 부담을 크게 줄이는 방법과 이를 통한 실용적인 개발 워크플로우를 제안합니다.

paper AI 요약
Causify DataFlow  A Framework For High-performance Machine Learning Stream Computing

Causify DataFlow A Framework For High-performance Machine Learning Stream Computing

시간 시리즈 기계 학습에서 직면하는 다양한 도전 과제와 이를 해결하기 위한 DataFlow의 접근 방식을 다룹니다. 특히 프로토타입과 생산 사이의 차이, 모델 실행 빈도 조정, 비정상성 시간 시리즈 처리, 미래 정보 사용에 따른 비인과적 버그, 정확한 역사적 시뮬레이션 구현, 디버깅, 성능 최적화, 매개변수 분석 등 다양한 주제를 다룹니다.

paper AI 요약
CaveAgent  LLM을 상태형 런타임 오퍼레이터로 변환하기

CaveAgent LLM을 상태형 런타임 오퍼레이터로 변환하기

이 논문에서는 대형 언어 모델(LLM)을 기반으로 하는 새로운 시스템인 CaveAgent를 제시합니다. 이 시스템은 LLM의 강력한 코드 생성 능력을 활용하여, 프로세스 중심의 함수 호출 패러다임에서 객체 지향 상태 관리로 이동하는 것을 목표로 합니다. 이를 통해 기존 문제점들을 해결하고, 복잡한 논리적 의존성을 효율적으로 처리하며, 다중 에이전트 간의 정확한 협업을 가능하게 합니다.

paper AI 요약
Clinical Knowledge Graph Construction and Evaluation with Multi-LLMs via Retrieval-Augmented Generation

Clinical Knowledge Graph Construction and Evaluation with Multi-LLMs via Retrieval-Augmented Generation

의학적 서술문에서 정확하고 임상적으로 관련성이 있는 지식 그래프(KGs)를 구축하는 것은 생물의학 정보학에서 근본적인 도전 과제입니다. 임상 KG는 설명 가능한 AI, 의사결정 지원, 그리고 환자의 장기적 모델링을 가능하게 하지만, 전통적인 접근법은 여전히 제약되어 있습니다. 이 논문에서는 free-text에서 직접 KG를 구축하고 평가하는 최초의 end-to-end 프레임워크를 소개합니다. 우리의 파이프라인은 지속적인 정교화와 자기 감독 평가를 지원하여, 높은 정확도의 구성과 시간에 따른 동적 그래프 개선을 가능하게 합니다.

paper AI 요약
CNC-TP  상위 관련 속성 기반 분류 명목개념

CNC-TP 상위 관련 속성 기반 분류 명목개념

데이터베이스에서의 지식 발견(KDD)은 컴퓨터 응용 프로그램의 다양한 분야에서 매일 생성되는 방대한 양의 데이터를 활용하는 것을 목표로 합니다. KDD는 데이터 선택, 전처리, 변환, 데이터 마이닝, 시각화 등 일련의 구조적인 과정을 통해 데이터셋으로부터 숨겨진 의미 있는 지식을 추출합니다. 핵심 데이터 마이닝 기법 중 하나인 분류는 레이블된 데이터로 훈련된 분류기를 사용하여 새로운 인스턴스의 클래스를 예측하는 것을 포함합니다. 문헌에서 제안된 여러 접근 방법에는 의사결정 나무 추출, 베이지안 분류기, 가장 가까운 이웃 검색, 신경망, 서포트 벡터 머신, 그리고 형식적 개념분석(FCA) 등이 있습니다. FCA는 해석 가능한 학습을 위한 효과적인 접근 방법으로 인정받고 있으며, 개념 격자라는 수학적 구조를 기반으로 합니다. 이 구조는 형식적 개념의 생성과 그들 사이의 숨겨진 관계를 발견하는 데 도움이 됩니다. 본 논문에서는 FCA 기반 분류기의 최신 동향을 검토합니다. 이름형 데이터에서 폐쇄 연산자 계산 방법을 다양한 방식으로 탐구하고, 가장 관련성이 높은 개념에 초점을 맞춘 부분 개념 격자의 구성 방법에 대한 새로운 접근법을 소개합니다. 제안된 방법의 효율성을 입증하기 위해 실험 결과를 제공합니다.

paper AI 요약
CoCo-Fed  메모리와 통신 효율적인 무선 엣지 연방 학습을 위한 통합 프레임워크

CoCo-Fed 메모리와 통신 효율적인 무선 엣지 연방 학습을 위한 통합 프레임워크

이 논문에서는 O-RAN 환경에서의 연방 학습(Federated Learning)을 최적화하기 위해 CoCo-Fed라는 새로운 압축 및 조합 기반 연방 학습 프레임워크를 제안한다. 이 프레임워크는 분산된 gNB들이 중앙 CPU의 관리 하에 대규모 모델을 공동으로 학습하도록 설계되었다. CoCo-Fed는 gNB에서 메모리를 효율적으로 사용하고, 백홀 링크를 통해 전송되는 데이터 양을 최소화하는 이중 단계 압축 메커니즘을 도입한다.

paper AI 요약
COMPASS  기업별 정책 일치성 평가 프레임워크

COMPASS 기업별 정책 일치성 평가 프레임워크

대형 언어 모델(LLMs)은 의료, 금융 및 공공 부문 등 다양한 분야에서 광범위하게 채택되고 있습니다. 이러한 환경에서는 조직 정책과의 일치가 필수적입니다 LLM 어시스턴트는 회사 규정, 규제 요구사항 및 안전에 중요한 제약 조건을 따르아야 합니다. 예를 들어 의료 챗봇은 건강 정보를 제공할 수 있지만 진단이나 용량 조언을 제공해서는 안 됩니다. 이러한 제약 조건을 준수하지 않으면 오정보, 규제 위반, 명성 손상 및 사용자 피해가 발생할 수 있습니다. 이러한 필요성은 보편적인 안전과 조직별 정책 일치 사이의 근본적인 차이를 강조합니다. 독소성, 폭력, 혐오 발언 등 보편적 안전 문제는 대부분 문맥에 무관하고 많은 배포 환경에서 적용됩니다. 반면 조직별 정책은 도메인 및 조직마다 세밀한 제약 조건을 정의하며 (예 투자 조언 거절, 진단 피하거나 경쟁사 참조 금지) 이와 같은 차이를 이해하는 것이 중요합니다. ###

paper AI 요약
Cost-Efficient Cross-Lingual Retrieval-Augmented Generation for Low-Resource Languages  A Case Study in Bengali Agricultural Advisory

Cost-Efficient Cross-Lingual Retrieval-Augmented Generation for Low-Resource Languages A Case Study in Bengali Agricultural Advisory

이 논문은 농업 지식에 대한 접근성을 개선하기 위해 벵골어 사용자를 위한 비용 효율적인 번역 중심의 검색 강화 생성(RAG) 프레임워크를 제안합니다. 이 시스템은 번역 -> 검색 -> 번역의 샌드위치 아키텍처 를 채택하고, 4비트 양자화 오픈 소스 언어 모델을 활용하여 소비자가 구할 수 있는 하드웨어에서 정확한 답변을 생성합니다.

paper AI 요약
DA-DPO  비용 효율적인 난이도 인식 선호 최적화로 MLLM 환영 줄이기

DA-DPO 비용 효율적인 난이도 인식 선호 최적화로 MLLM 환영 줄이기

> 직접 선호도 최적화(DPO)는 다중모드 대형 언어 모델(MLLMs)에서 환영현상(hallucinations)을 완화하는 데 큰 잠재력을 보여주고 있다. 하지만 기존의 다중모드 DPO 접근법은 선호도 데이터의 난이도 불균형으로 인해 과적합하기 쉽다. 우리의 분석에 따르면, MLLMs는 쉽게 구분할 수 있는 선호도 쌍을 지나치게 강조하므로 미세한 환영현상 억제와 전체 성능 저하가 발생한다. 이 문제를 해결하기 위해 우리는 학습 과정을 균형 있게 하는 효과적인 프레임워크인 난이도 인식 직접 선호도 최적화(DA-DPO)를 제안한다. DA-DPO는 두 가지 주요 구성 요소로 이루어져 있다 (1)*난이도 추정*은 보완적인 생성과 대조 목표를 가진 사전 훈련된 시각-언어 모델을 활용하여 추가 학습 없이 견고한 난이도 점수를 생산한다; 그리고 (2) *난이도 인식 학습*은 추정 난이도에 기반해 선호 쌍을 재가중하며, 쉽게 구분할 수 있는 샘플의 가중치를 줄이고 더 어려운 샘플에 중점을 두어 과적합을 완화한다. 이 프레임워크는 새로운 데이터나 추가적인 미세 조정 단계 없이 도전적인 예제를 우선시함으로써 선호도 최적화를 더욱 효과적으로 수행할 수 있게 한다. 광범위한 실험은 DA-DPO가 다중모드 선호도 최적화를 지속적으로 개선하고 환영현상에 대한 강건성을 향상시키며 표준 벤치마크에서 더 나은 일반화 성능을 제공하면서 계산 효율성을 유지한다는 것을 보여준다. 프로젝트 페이지는 [`https //artanic30.github.io/project_pages/DA-DPO`](https //artanic30.github.io/project_pages/DA-DPO/)에 있습니다.

paper AI 요약
DatBench  차별적이고 신뢰성 있으며 효율적인 VLM 평가

DatBench 차별적이고 신뢰성 있으며 효율적인 VLM 평가

실증적 평가는 기초 모델 연구 진전의 주요 나침반 역할을 합니다. 최신 비전-언어 모델(VLM) 훈련에 중점을 둔 많은 연구가 있음에도 불구하고, 이들의 평가 방법론은 아직 초기 단계입니다. 그 성숙을 돕기 위해 우리는 평가에서 충족해야 하는 세 가지 요구 사항을 제안합니다 (1) 모달리티와 응용 분야에 대한 충실성, (2) 다양한 품질의 모델 간 차별 가능성, 그리고 (3) 계산 효율성. 이 관점에서 우리는 충실성과 차별 가능성을 위반하고 모델 능력을 왜곡하는 중요한 실패 모드를 파악합니다 (i) 선택식 질문 형식은 추측을 장려하고 하류 사용 사례를 잘 반영하지 않으며, 모델이 개선됨에 따라 일찍 포화상태에 이릅니다; (ii) 이미지 없이도 답변 가능한 문제들로 구성된 평가의 70%까지 해당하며; (iii) 잘못 표시되거나 애매한 샘플은 일부 데이터셋에서 최대 42%를 차지합니다. 효율성 측면에서는, 가장 첨단의 모델을 평가하는 계산 부담이 금지불능 수준으로 올라갔습니다 일부 보고서에 따르면 개발용 컴퓨팅 자원의 거의 20%가 단순히 평가를 위해 사용되고 있습니다. 기존 벤치마크를 버리는 대신, 우리는 변환 및 필터링을 통해 충실도와 차별 가능성을 최대한 높이는 방법으로 이를 정제합니다. 선택식 질문을 생성적 작업으로 바꾸는 것이 모델의 능력을 최대 35%까지 급격히 낮추는 것을 발견했습니다. 또한, 무작정 해결 가능한 문제와 잘못 표시된 샘플들을 필터링하면 차별 가능성을 향상시키면서 동시에 계산 비용을 줄일 수 있습니다. 우리는 DatBench-Full이라는 33개의 데이터셋으로 구성된 청소된 평가 패키지와, 원래 데이터셋의 차별 가능성과 거의 일치하면서 평균적으로 13배(최대 50배) 속도 향상을 달성하는 차별적 하위 집합인 DatBench를 공개합니다. 우리의 연구는 VLM이 계속 확장됨에 따라 동시에 엄격하고 지속 가능한 평가 관행을 추구하는 길을 제시합니다.

paper AI 요약
DeepInv  A Novel Self-supervised Learning Approach for Fast and Accurate Diffusion Inversion

DeepInv A Novel Self-supervised Learning Approach for Fast and Accurate Diffusion Inversion

확산 역전은 확산 모델에서 이미지의 노이즈를 복원하는 작업으로, 이는 제어 가능한 확산 이미지 편집에 필수적입니다. 현재로서는 사용 가능한 감독 신호 부재로 인해 확산 역전은 여전히 난제인 상태입니다. 따라서 대부분의 기존 방법은 성능이나 효율성을 희생하면서 근사기반 해법을 사용하고 있습니다. 이러한 문제점들을 해결하기 위해 본 논문에서는 새로운 자기 감독 확산 역전 접근법, 즉 딥 인버전(DeepInv)을 제안합니다. 진정한 노이즈 주석을 요구하지 않으며, 대신 실제 이미지로부터 수동 개입 없이 고品質 가짜 노이즈를 생성하기 위해 자기 감독 목적 및 데이터 증강 전략을 도입했습니다. 이러한 두 가지 혁신적인 설계를 기반으로 DeepInv는 파라미터화된 역전 솔버를 훈련하기 위한 반복적이고 다중 규모의 훈련 체제가 구비되어 있어, 빠르고 정확한 이미지에서 노이즈로의 매핑을 달성할 수 있습니다. 우리의 지식에 따르면 이는 단계별 역전 노이즈를 예측하는 학습 가능한 솔버를 제시한 최초의 시도입니다. 광범위한 실험 결과 DeepInv가 비교 대상 방법보다 훨씬 더 우수한 성능과 추론 속도(+40.435% SSIM 보다 EasyInv, COCO 데이터셋에서 ReNoise 보다 +9887.5% 빠름)를 달성할 수 있음을 보여주고 있습니다. 또한 우리의 학습 가능한 솔버에 대한 세심한 설계는 연구 커뮤니티에도 통찰력을 제공합니다. 코드와 모델 파라미터는 https //github.com/potato-kitty/DeepInv 에서 공개될 예정입니다.

paper AI 요약
DRL과 베이지안 최적화를 활용한 URLLC 산업 IoT 네트워크의 링크 적응 및 장치 스케줄링 방법

DRL과 베이지안 최적화를 활용한 URLLC 산업 IoT 네트워크의 링크 적응 및 장치 스케줄링 방법

[^1] 제3장의 일부 내용, 즉 OLLA 지원 실행 단계는 2024년 4월에 아랍 에미리트 두바이에서 열린 IEEE 무선 통신 네트워킹 컨퍼런스(WCNC)에서 발표되었다. [^2] P. Zheng과 A. Schmeink의 연구는 독일 BMFTR의 Souverän. Digital. Vernetzt. 프로그램에 의해 지원받았으며, 6G-ANNA 공동 프로젝트(프로젝트 식별 번호 16KISK097)에 참여하였다. [^3] W. Gao, P. Wu 및 Y. Hu는 중국 후난대학교 전자 정보 학과 소속이며 (이메일 `wei.gao|peng.wu|yulin.hu`@whu.edu.cn). `$^*$`Y. Hu가 대응 저자다. [^4] P. Zheng 및 A. Schmeink은 독일 아헨 라인-베스트페펜대학교 INDA 의장실 소속이다 (이메일 `zheng|schmeink`@inda.rwth-aachen.de).

paper AI 요약
DynaFix  실행 수준 동적 정보로 주도되는 반복적 자동 프로그램 수정

DynaFix 실행 수준 동적 정보로 주도되는 반복적 자동 프로그램 수정

소프트웨어 시스템은 현대 사회의 거의 모든 중요한 분야에서 핵심적인 역할을 합니다. 이들 시스템이 복잡해질수록 버그가 늘어나게 되며, 이를 해결하기 위한 프로그램 수정 기술이 필요하게 됩니다. 최근에는 LLM(Large Language Model) 기반의 자동 패치 생성 방법이 연구되고 있으나, 이러한 접근법들은 정적 코드 정보에 크게 의존하여 동적인 실행 정보를 충분히 활용하지 못합니다. 본 논문에서는 DynaFix라는 새로운 방법론을 제시하며, 이는 비침습적인 바이트코드 악기화 기술인 ByteTrace를 이용해 프로그램의 실행 중 발생하는 동적 정보를 수집하고 이를 반복적인 수정 과정에 활용합니다.

paper AI 요약
EgoGrasp  제1인칭 동영상에서의 세계공간 손-물체 상호작용 추정

EgoGrasp 제1인칭 동영상에서의 세계공간 손-물체 상호작용 추정

이 논문에서는 제1인칭 시점의 동영상에서 손과 물체 간 상호작용을 3D 세계 좌표계에 재구성하는 방법을 제안한다. EgoGrasp는 다단계 감지–생성–최적화 프레임워크를 사용하여 현대 감지 시스템에서 얻은 정확한 3D 정보를 활용하면서, 시간과 공간적으로 일관된 결과를 보장하기 위해 생성적인 동작 사전을 도입한다. EgoGrasp는 다음과 같은 세 단계로 작동한다 (1) 전처리 제1인칭 동영상에서 정확한 카메라 궤적과 밀도가 높은 기하학적 정보를 복원하여 일관된 세계 좌표계를 설정하고, 초기 3D 손 자세와 물체의 6자유도 자세를 추출 및 정렬한다. (2) 동작 확산 두 단계로 구성된 분리된 확산 모델을 사용하여 연속적인 손과 물체의 동작을 생성한다. 첫 번째 단계는 SMPL-X 전체 신체 자세에 의해 안내되는 시간적으로 안정적인 손 궤적을 생성하며, 두 번째 단계에서는 CAD 모델 없이 자연스러운 동작을 포착하고 세계 좌표에서의 이동을 줄인다. (3) 테스트 시 최적화 SMPL-X 매개변수를 최적화하여 공간 정확성, 시간 부드러움 및 발-지면 접촉 일관성을 개선한다. ###

paper AI 요약
ElecTwit  다중 에이전트 사회 시스템 내에서 설득 연구를 위한 프레임워크

ElecTwit 다중 에이전트 사회 시스템 내에서 설득 연구를 위한 프레임워크

본 논문에서는 대형 언어 모델(LLMs)이 다중 에이전트 시스템에서 어떻게 활용되는지 살펴보고, 특히 사회적 상호작용과 설득 전략에 집중합니다. 이 연구는 ElecTwit라는 정치 선거를 모방한 시나리오를 통해 LLMs의 설득 능력을 평가하며, 이를 통해 실제 세계에서 에이전트들이 어떻게 행동할지 더 정확하게 이해하려고 합니다.

paper AI 요약
F2IDiff  실 세계 이미지 초해상도 강화를 위한 특징에서 이미지로의 확산 기반 모델

F2IDiff 실 세계 이미지 초해상도 강화를 위한 특징에서 이미지로의 확산 기반 모델

생성형 인공지능의 도입으로 단일 이미지 초해상도(SISR) 품질이 크게 개선되었으며, 텍스트-투-이미지 확산(T2IDiff) 기반 모델에서 학습한 강력한 사전 지식은 고해상도(HR)와 저해상도(LR) 이미지 사이의 간격을 줄일 수 있습니다. 그러나 플래그십 스마트폰 카메라는 생성형 모델을 채택하는 데 느리게 반응하고 있으며, 강력한 생성은 불필요한 환영현상을 초래할 수 있기 때문입니다. 학계에서 볼 수 있는 크게 훼손된 LR 이미지는 강력한 생성이 필요하며, HR과의 큰 간격 때문에 환영현상도 어느 정도 용인됩니다. 반면에 소비자 사진에서는 LR 이미지가 상당히 높은 정확성을 가지고 있으며, 따라서 최소한의 환영현상 없는 생성만 요구됩니다. 우리는 SISR에서 생성이 FM의 조건부 기능의 엄격성과 풍부함에 의해 제어된다고 가정합니다. 첫째, 텍스트 특징은 고수준의 특징으로 이미지의 미세한 텍스처를 설명하는 데 자주 부적절할 수 있습니다. 또한 스마트폰 LR 이미지는 최소 12MP 이상이지만 T2IDiff FM 기반 SISR 네트워크는 훨씬 작은 이미지(<1MP)에 대해 추론하도록 설계되었습니다. 그 결과 SISR 추론은 종종 텍스트 특징으로 정확하게 설명하기 어려운 작은 패치에서 이루어져야 합니다. 이러한 단점을 해결하기 위해 우리는 하위 수준의 조건부 기능을 가진 FM, 특히 DINOv2 특성을 사용한 이미지 확산(Feature-to-Image Diffusion) 기반 모델(FM)이라고 명명하는 SISR 네트워크를 도입합니다. 하위 수준의 특징은 엄격한 조건부를 제공하면서 동시에 작은 패치도 충분히 설명할 수 있습니다.

paper AI 요약
Falcon-H1R  하이브리드 모델을 이용한 효율적인 테스트 시 확장성 개선

Falcon-H1R 하이브리드 모델을 이용한 효율적인 테스트 시 확장성 개선

대규모 언어 모델(LLMs)은 복잡한 추론 작업을 수행하는 데 있어 큰 성과를 거두었으며, 이는 훈련 및 추론 시 확장성을 통해 달성되었습니다. 훈련 확장을 통해 LLMs는 더 복잡한 문제 해결 능력을 갖추게 되지만, 이를 위해 필요한 계산 자원이 증가하고 고급 데이터가 제한적일 수 있습니다. 이러한 문제를 해결하기 위해 시험 시간 확장(TTS)이라는 새로운 방법론이 도입되었으며, 이는 추가적인 추론 시 계산 자원을 할당하여 잠재적인 추론 능력을 향상시킵니다. Falcon-H1R은 TTS 방법론을 활용해 추론 효율성을 높이는 7B 모델입니다. ###

paper AI 요약
Gemini-3-Pro를 넘어  대규모 LLM 라우팅 및 집약 재검토

Gemini-3-Pro를 넘어 대규모 LLM 라우팅 및 집약 재검토

이 논문에서는 대형 언어 모델(LLM)들의 협업을 통해 인공일반지능(AGI)으로의 새로운 접근 방법을 제안한다. 특히, 개별적으로 약한 오픈소스 LLM들이 협력하여_gemini-3-pro_와 같은 주요 폐쇄형 모델들을 능가할 수 있음을 보여준다. 이를 위해 **JiSi**라는 새로운 프레임워크를 제안하며, 이는 라우팅과 집약(aggregation)의 통합을 통해 LLM들의 협업을 최적화한다.

paper AI 요약
HFedMoE  자원인지형 이질적인 연방학습과 전문가 혼합 모델

HFedMoE 자원인지형 이질적인 연방학습과 전문가 혼합 모델

연방 학습(FL)은 데이터 프라이버시를 해치지 않고도 대형 언어 모델(LLM)의 미세 조정을 가능하게 하지만, LLM의 커다란 크기는 리소스 제약이 있는 클라이언트, 예를 들어 휴대폰 기기에서는 온-디바이스 트레이닝이 실질적으로 불가능하게 합니다. 따라서, Mixture-of-Experts(MoE) 모델은 모델 학습 중 일부 레이어만 활성화하여 계산 부담을 줄이는 효율적인 방법으로 등장했습니다. 그러나 MoE를 FL 미세 조정에 통합하는 것은 여전히 세 가지 주요 과제를 안고 있습니다 i) 각 전문가의 로컬 미세 조정 성능에 대한 영향을 측정할 수 있는 신뢰성 있는 지표 부재로 인해 적절한 전문가 선택이 어렵습니다, ii) 다양한 입력 샘플에서 동적으로 활성화되는 전문가들이 리소스 제약 기기에서 계산 부담을 초래하기 때문에 클라이언트 간 이질적인 컴퓨팅 자원은 MoE 기반 LLM 미세 조정을 심각하게 방해합니다, iii) 클라이언트별로 다른 전문가 하위 집합과 라우팅 선호도는 맞춤형 업데이트와 일관되지 않은 게이팅 네트워크를 통해 전역 집약을 방해합니다. 이러한 과제를 해결하기 위해, 우리는 HFedMoE라는 이질적인 MoE 기반 FL 미세 조정 프레임워크를 제안합니다. 특정 클라이언트의 컴퓨팅 예산에 맞게 일부 전문가를 선택적으로 활성화하여 계산 효율성을 높이는 것입니다. 구체적으로, HFedMoE는 각 전문가의 미세 조정 성능 기여도를 바탕으로 중요도를 식별하고 정보 병목 관점에서 적응적 전문가 하위 집합을 선택합니다. 또한 중요한 요소에 가중치를 부여하여 활성화된 미세 조정 전문가와 게이팅 파라미터를 집약하기 위한 스팽서리 인식 모델 집약 전략도 설계되었습니다. 광범위한 실험 결과는 HFedMoE가 훈련 정확도와 수렴 속도 측면에서 최신 벤치마크를 능가함을 보여줍니다.

paper AI 요약
HOG과 딥 피처 통합을 통한 히스토พา토로지 이미지 분류 강화 및 견고한 노이즈 성능

HOG과 딥 피처 통합을 통한 히스토พา토로지 이미지 분류 강화 및 견고한 노이즈 성능

디지털 병리학은 현대 의료 실무에서 중요한 기술로 발전하여, 복잡한 조직 이미지를 분석하는 데 필요한 자동화 방법을 개발하게 되었습니다. 특히 머신러닝과 인공지능의 발달 덕분에 복잡한 병리학적 이미지에서 의미 있는 패턴을 추출할 수 있게 되었으며, 이를 통해 정확하고 효율적인 진단이 가능해졌습니다. ###

paper AI 요약
IoT 보안 해킹  LLM들이 정적 분석 도구를 능가할 수 있을까?

IoT 보안 해킹 LLM들이 정적 분석 도구를 능가할 수 있을까?

스마트 홈 IoT 애플리케이션의 급속한 채택은 가정 자동화를 혁신적으로 변화시켰지만, 이에 따른 규칙 상호작용 위협(RIT)을 해결하기 위한 도전 과제가 발생했습니다. 기존 접근 방식은 정밀도는 높으나 대규모 코드베이스에서의 확장성과 적응력이 부족합니다. 본 논문에서는 대형 언어 모델(LLMs)이 IoT 자동화 시스템에 대한 보안 분석을 개선하는 데 얼마나 효과적인지 평가했습니다.

paper AI 요약
JMedEthicBench  일본 의료 대형 언어 모델의 안전성 평가를 위한 다중 대화 벤치마크

JMedEthicBench 일본 의료 대형 언어 모델의 안전성 평가를 위한 다중 대화 벤치마크

이 논문은 JMedEthicBench라는 일본 의료 환경을 위한 다중 대화 안전성 평가 벤치마크를 소개합니다. 이 벤치마크는 67개의 구체적인 임상 시나리오를 포함한 일본 의학협회(JMA) 지침을 바탕으로 하며, 오토메이티드 적대적 공격 전략을 사용하여 모델 안전성의 경계를 탐색합니다. 이 평가 틀은 단일 대화에서 벗어나 복잡한 다중 대화 상황을 고려하며, 이를 통해 의료 AI 모델이 실제 환경에서도 안전하게 작동할 수 있는지 확인합니다.

paper AI 요약
K-EXAONE 기술 보고서

K-EXAONE 기술 보고서

이 기술 보고서는 LG AI Research에서 개발한 대규모 다국어 언어 모델 K-EXAONE을 소개합니다. K-EXAONE은 총 236B의 파라미터를 갖춘 Experts 혼합 구조 위에 구축되어 있으며, 추론 과정에서는 23B의 파라미터가 활성화됩니다. 이 모델은 256K 토큰 컨텍스트 윈도우를 지원하며 한국어, 영어, 스페인어, 독일어, 일본어, 베트남어 등 여섯 가지 언어를 다룹니다. 우리는 K-EXAONE을 종합적인 벤치마크 스위트에 대한 평가에서 논리적 추론 능력, 에이전시 능력, 일반적인 능력, 한국어 전문성 및 다국어 기능을 평가합니다. 이러한 평가를 통해 K-EXAONE은 유사한 크기의 공개 가중치 모델과 비교할 수 있는 성능을 보여줍니다. K-EXAONE은 더 나은 삶을 위한 AI 발전을 목표로 하며, 다양한 산업 및 연구 애플리케이션에 활용될 수 있는 강력한 소유권 AI 기반 모델로서의 위치를 차지하고 있습니다.

paper AI 요약
KGCE  교육용 다중 플랫폼 에이전트 평가를 위한 지식강화 이중 그래프 평가자

KGCE 교육용 다중 플랫폼 에이전트 평가를 위한 지식강화 이중 그래프 평가자

다목적 대형 언어 모델(MLMs)이 자율 에이전트에 빠르게 채택되면서 교육 환경에서의 플랫폼 간 작업 수행 능력이 큰 주목을 받고 있다. 그러나 기존 벤치마크 프레임워크는 특히 학교 전용 소프트웨어(XiaoYa 지능형 어시스턴트, HuaShi XiaZi 등)를 다룰 때 플랫폼 간 작업 지원에서 눈에 띄는 부족함을 보이고 있으며, 이로 인해 에이전트의 효율성이 크게 저하되는 경우가 많다. 또한 현재 평가 방법은 목표 지향성이나 트래젝토리 일치와 같은 거친 메트릭스에 의존하여 복잡한 작업에서 에이전트의 자세한 수행과 효율성을 포착하는 데 어려움을 겪고 있다. 이러한 문제를 해결하기 위해 우리는 다목적 언어 모델을 사용한 교육용 플랫폼 간 에이전트 벤치마킹에 대한 지식 강화 이중 그래프 평가기(KGCE)라는 새로운 벤치마크 플랫폼을 제안한다. KGCE는 지식 기반 향상과 이중 그래프 평가 프레임워크를 통합한다. 우리는 윈도우, 안드로이드 및 플랫폼 간 협업 작업을 포함하는 104개의 교육 관련 작업으로 구성된 데이터셋을 구축하였다. KGCE는 작업을 여러 서브 목표로 분해하고 그 완료 상태를 검증하는 이중 그래프 평가 프레임워크를 도입하여 세밀한 평가 메트릭을 제공한다. 기존 에이전트의 학교 전용 소프트웨어 작업 수행에 대한 실행 병목 현상을 극복하기 위해 학교 전용 소프트웨어에 특화된 지식 기반을 포함하는 강화된 에이전트 시스템을 개발하였다. 코드는 https //github.com/Kinginlife/KGCE에서 확인할 수 있다.

paper AI 요약
No Image

Language as Mathematical Structure Examining Semantic Field Theory Against Language Games

대규모 언어 모델(LLMs)이 순수한 수학적 연산을 통해 인간과 비슷한 언어 성능을 달성함으로써, 의미의 주요 이론에 근본적인 도전을 제기하고 있습니다. 사회 구조주의 입장은 언어가 형식적 구조로 축소될 수 없다고 주장하지만, 변환자 구조는 사회적 기반이 없이 체계적인 의미 관계를 발견합니다. 이 논문에서는 이러한 발전을 예측한 작가의 사상에 대해 분석하고, 언어가 내재된 수학적 구조를 가질 수 있다는 주장을 제기합니다.

paper AI 요약
LinMU  선형화로 다중 모달 이해 단순화

LinMU 선형화로 다중 모달 이해 단순화

> 최근의 비전-언어 모델(VLMs)은 인상적인 성능을 보여주지만, 자기 주의력(self-attention)의 이차적 복잡도로 인해 엣지 장치에서의 배포가 제한되며, 고해상도 이미지와 긴 컨텍스트 비디오에 대한 이해를 수행하는 데 큰 비용이 발생한다. 이러한 문제를 해결하기 위해 우리는 LinMU(Linear-complexity Multimodal Understanding)을 소개한다. 이 모델은 자기 주의력 기반 VLMs의 성능을 유지하면서 모든 자기 주의력 층을 M-MATE 블록으로 대체하여 선형 복잡도를 달성한다. M-MATE 블록은 전역 컨텍스트를 포착하기 위한 양방향 상태 공간 모델(Flex-MA 분기)과 인접한 상관관계를 처리하는 로컬 Swin 주의력(Local-Swin 분기)을 결합한 이중 분기 모듈이다. 기존 VLM을 LinMU 아키텍처로 변환하기 위해, 우리는 세 단계의 지식 추출(distillation) 프레임워크를 제안한다 (i) 양 분기를 자기 주의력 가중치로 초기화하고 Flex-MA 분기만 학습, (ii) Local-Swin 분기를 해동하여 두 분기를 함께 조정, (iii) 나머지 블록을 LoRA 어댑터를 사용해 조정하면서 동결된 VLM 교사의 은닉 상태와 토큰 수준 로짓에 대해 회귀한다. MMMU, TextVQA, LongVideoBench, Video-MME 등의 벤치마크에서 LinMU는 교사 모델과 유사한 성능을 보이면서 Time-To-First-Token(TTFT)을 최대 2.7배 줄이고 분단위 비디오의 토큰 처리 속도를 최대 9.0배 개선한다. ###

paper AI 요약
LION-DG  깊은 그래디언트 프로토콜을 활용한 계층 정보 초기화를 통한 가속 신경망 학습

LION-DG 깊은 그래디언트 프로토콜을 활용한 계층 정보 초기화를 통한 가속 신경망 학습

깊은 신경망에서 보조 분류기((auxiliary classifiers))는 중간 레이어에서 추가적인 그래디언트 신호를 제공함으로써 학습을 가속화하고 그래디언트 흐름을 개선하는데 효과적이다. 그러나 보조 분류기를 어떻게 초기화해야 하는지는 여전히 연구되지 않은 문제다. 본 논문에서는 LION-DG(Layer-Informed Initialization with Deep Gradient protocols)를 제안하며, 이는 보조 분류기를 0으로 초기화하고 백본 레이어에 대해 표준적인 초기화 방법을 사용하는 전략이다. 실험 결과 LION-DG는 더 빠른 학습 속도와 최고의 정확성을 달성하며, 특히 DenseNet-DS에서 8.3%의 속도 향상을 보였다. ###

paper AI 요약
LLM 기반 자동차 시스템의 안전성 및 보안 설계

LLM 기반 자동차 시스템의 안전성 및 보안 설계

이 논문은 자동차 산업의 혁신에서 가장 중요하게 여겨지는 기능적 안전성과 사이버 보안을 유지하면서 고급 차량 기능의 신속한 프로토타입, 검증 및 배포에 중점을 둔다. 특히 복잡해지고 있는 소프트웨어 정의 차량(SDV)에서 이러한 중요성이 더욱 부각된다. 대규모 언어 모델(LLMs)은 자연어 요구사항에서 구조를 추출하고 초기 행동 모델을 생성하여 이 과정을 가속화할 수 있는 새로운 기회를 제공한다. 그러나 LLMs가 무분별하게 사용될 경우, 정확성과 안전한 동작, 타이밍 결정론, 보안 포지셔닝에 대한 보장이 부족하다는 문제점이 있다. 따라서 이러한 간극을 메우기 위해 기능적 안전성 및 보안 분석을 지원하기 위한 이벤트 체인(Event Chain) 기반의 LLM 가이드 워크플로를 제안한다. 이 방법은 자동차 시스템에서 안전 메커니즘과 타이밍 요구사항을 구성하는 인과적, 시간적, 데이터 흐름 관계를 구조화된 표현으로 제공하며, LLM의 출력을 제약하고 안전하지 않거나 검증되지 않은 동작이 생성되는 것을 방지한다. 또한 이 프레임워크 내에서는 LLM이 전문적인 도메인 지식이 필요한 작업들을 자동화하는 데 도움을 주며, 텍스트 요구사항에서 후보 안전 메커니즘을 도출하거나 기능적 의도와 차량 신호 사양(VSS)을 정렬하고 잠재적인 위험 또는 비안전 상호작용을 식별한다. 뿐만 아니라 검색 강화 생성(RAG)은 LLM의 추론 범위를 인정된 VSS 카탈로그, 안전 매뉴얼 및 아키텍처 설명과 같은 신뢰할 수 있는 데이터 소스로 제한하여 환영 신호나 평가되지 않은 데이터 경로를 줄인다. 이를 통해 자동으로 생성된 모델은 안전 및 사이버 보안 심사에 필요한 권위있는 출처와의 추적 가능성을 유지한다. 이벤트 체인 모델과 LLM 간의 시너지는 기능적 안전성(예 시간 예산 위반, 인과 체인 파괴, 누락된 안전 반응) 및 사이버 보안(예 무단 신호 경로, 일관되지 않은 신뢰 경계 또는 예상치 못한 제어 영향력)에 대한 자동 사전 분석을 가능하게 한다. 코드가 타겟 플랫폼으로 배포되기 전에 ISO 26262 파트 6(소프트웨어 아키텍처 제약 조건) 및 ISO 21434(안전한 신호 및 인터페이스 처리)와 일치하는 일관성 검사를 수행한다. 결과적으로 LLM 생성 아티팩트는 더 신뢰할 수 있으며, 기존 안전 공학 워크플로에 직접 통합될 수 있다. 이러한 제안된 파이프라인은 자동차 코드의 안전 및 보안 분석 절차를 자동화하려는 시도로서 초기 디자인 단계에서의 노력 감소와 동시에 현대적인 안전 및 사이버 보안 요구사항을 충족하는 엄격함을 유지한다. 이를 증명하기 위해 우리는 물리적 테스트벤치와 시뮬레이션 플랫폼 기반의 ADAS 시나리오에 이 워크플로를 적용한다.

paper AI 요약
LLM 에이전트를 활용한 조합적 효율적 프론티어  투자 포트폴리오 최적화

LLM 에이전트를 활용한 조합적 효율적 프론티어 투자 포트폴리오 최적화

이 논문은 실생활 상황에 적합한 다목적 조합 최적화 문제를 해결하기 위해 언어 모델 에이전트 프레임워크를 개발하고 검증한다. 이 프레임워크는 기존의 벤치마크 연구와 달리, 실제 문제의 복잡성을 반영하며, 특히 NP-난해 문제에 효과적이다. 또한, 생성된 알고리즘 포트폴리오는 다양한 투자 포트폴리오 최적화 문제에서 우수한 성능을 보여준다.

paper AI 요약
MACA  신뢰할 수 있는 대형 언어 모델을 효율적인 검색기로 추출하는 프레임워크

MACA 신뢰할 수 있는 대형 언어 모델을 효율적인 검색기로 추출하는 프레임워크

현대 기업 검색 시스템은 정확성과 지연 시간 사이의 균형을 유지하면서 해외 거래 수수료 환불 이나 최근 통장 상태 와 같은 부분적으로 명시된 사용자 질의를 처리해야 합니다. 이러한 질의는 주제, 하위 주제, 의도 또는 엔티티에 대한 중요한 세부 사항을 생략하는 경향이 있어 여러 후보 답변이 가능하게 됩니다. 이 논문에서는 메타데이터에 민감한 검색기인 MACA를 제안하며, 이를 통해 LLM 호출 없이 정확성과 지연 시간 간의 균형을 맞춥니다.

paper AI 요약
MentalGame  Predicting Personality-Job Fitness for Software Developers Using Multi-Genre Games and Machine Learning Approaches

MentalGame Predicting Personality-Job Fitness for Software Developers Using Multi-Genre Games and Machine Learning Approaches

인성 평가는 현대의 다양한 의사결정 과정에서 중요한 역할을 합니다. 인성을 평가하는 질문지에는 자기보고 편향, 피로, 문항 오해 등의 문제가 있습니다. 게임은 이러한 문제를 해결하기 위한 대안으로 떠오르고 있으며, 여러 연구에서 게임 내 행동과 성격 특성 간의 관계를 분석하고 있습니다. 이 논문에서는 소프트웨어 개발자와 관련된 특정 직업에 맞는 MBTI와 행동 특성을 결합한 새로운 게임 기반 평가 프레임워크를 제안합니다.

paper AI 요약
MergeRec  Model Merging for Data-Isolated Cross-Domain Sequential Recommendation

MergeRec Model Merging for Data-Isolated Cross-Domain Sequential Recommendation

현대의 추천 시스템은 도메인별 데이터를 기반으로 학습되지만, 여러 도메인 간에 일반화하는 데 어려움을 겪는다. 도메인 간 순차적 추천은 이러한 문제점을 해결하기 위한 유망한 연구 방향으로 부상했지만, 기존 접근법들은 도메인 간 중복 사용자나 항목의존성 또는 프라이버시 제약을 무시하는 비현실적인 가정과 같은 근본적인 한계를 가지고 있다. 본 논문에서는 새로운 문제 설정인 데이터 고립된 도메인 간 순차적 추천 하에서 모델 합병에 기반한 새 프레임워크, MergeRec을 제안한다. 이 설정에서는 원시 사용자 상호작용 데이터가 도메인 간 공유되지 않는다. MergeRec은 세 가지 주요 구성 요소로 이루어져 있다 (1) 합병 초기화, (2) 가상 사용자 데이터 생성, (3) 공동 합병 최적화. 먼저, 우리는 트레이닝 없는 합병 기법을 통해 합병 모델을 초기화한다. 그다음으로 각 도메인에서 항목별로 가상 시퀀스를 만들어 실제 사용자 상호작용에 의존하지 않고 의미 있는 훈련 샘플을 생성한다. 마지막으로, 우리는 추천 손실과 디스티ல레이션 손실을 결합한 공동 목표를 통해 도메인별 합병 가중치를 최적화한다. 이 두 가지 손실은 각각 합병 모델이 관련 항목을 식별하도록 유도하고, 조정된 소스 모델에서 협업 필터링 신호를 전달한다. 광범위한 실험 결과 MergeRec은 원래 모델들의 강점을 유지하면서 새로운 도메인에 대한 일반화 능력을 크게 향상시킨다. 기존의 모델 합병 방법들과 비교했을 때, MergeRec은 평균적으로 Recall@10에서 최대 17.21%까지 개선되는 우수한 성능을 일관되게 보여주어, 모델 합병이 대규모 추천 시스템 구축에 효과적인 접근법임을 입증한다. 소스 코드는 https //github.com/DIALLab-SKKU/MergeRec에서 이용 가능하다.

paper AI 요약
MORE  음성 인식의 다목적 적대적 공격

MORE 음성 인식의 다목적 적대적 공격

오토메이티드 스피치 인식(ASR) 모델은 가상 어시스턴트, 실시간 자막 생성, 임상 기록 작성 등 다양한 분야에서 중요한 역할을 하고 있습니다. 그러나 이러한 시스템들은 적대적 공격에 취약하며, 이로 인해 인식 정확도나 추론 효율성이 크게 저하될 수 있습니다. 본 논문에서는 대표적인 ASR 모델인 Whisper 가족의 안정성을 평가하기 위해 새로운 공격 방법 **MORE**를 제안합니다. **MORE**는 정확성과 효율성을 동시에 해치는 다목적 공격 방법으로, 이전 연구들이 주로 정확도에만 초점을 맞춘 것과 달리, 더 종합적인 모델 취약점 평가를 가능하게 합니다.

paper AI 요약
MSACL  리아푸노프 증명을 활용한 지수 안정화 제어를 위한 다단계 행위자-비평가 학습

MSACL 리아푸노프 증명을 활용한 지수 안정화 제어를 위한 다단계 행위자-비평가 학습

모델이 없는 강화학습(RL)에서 증명 가능한 안정성을 달성하는 것은 여전히 도전적인 과제이며, 특히 탐험과 엄격한 안전 사이의 균형을 맞추는 것이 어렵습니다. 본 논문은 지수안정성 이론과 최대엔트로피 RL을 다단계 라이아푸노프 증명서 학습을 통해 통합하는 MSACL 프레임워크를 소개합니다. 복잡한 보상 공학에 의존하는 방법들과는 달리, MSACL은 오프-폴시 다단계 데이터를 활용하여 이론적 안정성 조건을 만족시키는 라이아푸노프 증명서를 학습합니다. 지수안정성 레이블(ESL)과 $λ$ 가중치 집합 메커니즘을 도입함으로써, 프레임워크는 다단계 학습에서 편차와 분산의 균형을 효과적으로 조절합니다. 안정성을 고려한 이점 함수를 통해 정책 최적화가 유도되며, 이를 통해 학습된 정책이 빠른 라이아푸노프 감소를 촉진하도록 합니다. MSACL은 안정화 및 비선형 추적 작업을 포함한 여섯 가지 벤치마크에서 평가되었으며, 최신의 라이아푸노프 기반 RL 알고리즘보다 우수함을 입증하였습니다. MSACL은 간단한 보상하에서도 지수안정성과 빠른 수렴성을 달성하며, 불확실성에 대한 강건성과 미지의 궤도에서의 일반화를 나타냅니다. 민감도 분석을 통해 다양한 시스템에서 다단계 휴리존 $n=20$이 견고한 기본값으로 설정되었습니다. 라이아푸노프 이론과 오프-폴시 액터-크리틱 프레임워크를 연결함으로써, MSACL은 검증 가능한 안전 학습 기반 제어의 기반이 됩니다. 소스 코드와 벤치마크 환경은 공개될 예정입니다.

paper AI 요약
Multi-modal cross-domain mixed fusion model with dual disentanglement for fault diagnosis under unseen working conditions

Multi-modal cross-domain mixed fusion model with dual disentanglement for fault diagnosis under unseen working conditions

(이 논문은 고도로 자동화되고 복잡한 현대 기계의 장애 진단을 위해 다중 모달 데이터와 도메인 일반화를 통합하는 새로운 접근법을 제안한다. 이 방법론은 다양한 작업 조건에서 수집된 센서 신호를 결합하여, 미리 보지 못했던 조건에서도 효과적인 장애 진단을 가능하게 한다.)

paper AI 요약
OmniNeuro  다모달 HCI 프레임워크로 설명 가능한 BCI 피드백 생성

OmniNeuro 다모달 HCI 프레임워크로 설명 가능한 BCI 피드백 생성

뇌-컴퓨터 인터페이스(BCI)의 임상적 채택을 저해하는 주요 장벽은 디코딩 정확도보다 인간-컴퓨터 상호작용(HCI)의 부재입니다. OmniNeuro는 이 문제를 해결하기 위해 기존의 투명하지 않은 오라클 시스템에서 피드백 파트너로 진화시킵니다. 이를 통해 사용자는 시스템이 어떤 상태인지 이해하고, 더 나은 신경가소성과 학습을 촉진할 수 있습니다.

paper AI 요약
PackKV  LLM 인식 손실 압축을 통한 KV 캐시 메모리 절약

PackKV LLM 인식 손실 압축을 통한 KV 캐시 메모리 절약

트랜스포머 기반 대형 언어 모델(LLMs)은 광범위한 실제 응용 분야에서 놀라운 잠재력을 보여주고 있습니다. 그러나 키-밸류(KV) 캐시의 큰 메모리 요구 사항으로 인해 긴 문맥 추론이 여전히 중요한 도전 과제입니다. KV 캐시는 시퀀스 길이와 배치 크기가 증가함에 따라 몇 GB까지 확장될 수 있습니다. 본 논문에서는 긴 문맥 생성을 위한 최적화된 일반적이고 효율적인 KV 캐시 관리 프레임워크인 textbf{PackKV}를 제시합니다. PackKV는 KV 캐시 데이터의 특성에 맞게 조정된 손실 압축 기법을 도입하며, 압축 알고리즘과 시스템 아키텍처 간의 세밀한 공학 설계를 특징으로 합니다. 우리의 접근 방법은 KV 캐시가 동적으로 성장하는 성격을 유지하면서 높은 연산 효율성을 보존합니다. 실험 결과는, 현존하는 양자화 방법과 같은 정확도 하락을 감안할 때 PackKV가 평균적으로 K 캐시에 대해 textbf{153.2} %의 메모리 감소율을, V 캐시에 대해서는 textbf{179.6} %를 달성함을 보여줍니다. 또한 PackKV는 분해압축 오버헤드를 효과적으로 제거하고 행렬-벡터 곱 연산을 가속화하여 매우 높은 실행 통과율을 제공합니다. 구체적으로, A100 및 RTX Pro 6000 GPU에서 cuBLAS 행렬-벡터 곱 커널에 비해 K는 평균 textbf{75.7} %, V는 textbf{171.7} %의 통과율 향상을 이루며, 이는 더 적은 GPU 메모리 대역폭을 필요로 합니다. 코드는 https //github.com/BoJiang03/PackKV에서 이용 가능합니다.

paper AI 요약
PyBangla at BLP-2025 태스크 2  반복적 자가 수정과 다언어 에이전트를 활용한 벵골어에서 파이썬 코드 생성 강화

PyBangla at BLP-2025 태스크 2 반복적 자가 수정과 다언어 에이전트를 활용한 벵골어에서 파이썬 코드 생성 강화

이 문서는 다양한 스케일에서의 bang 과 그 변형된 버전인 bangsl 및 bangwd 에 대한 내용을 포함하고 있습니다. 각각의 항목은 500부터 시작하여 3000까지 여러 스케일로 나뉘어 있으며, 이는 특정 조건 또는 상황에서의 성능 또는 반응을 나타내는 것 같습니다.

paper AI 요약
No Image

Python의 CWE 예측을 위한 LLM과 SAST 도구의 적응적 계층 평가

본 연구는 대형 언어 모델(LLMs)이 생성한 코드에서 취약점을 감지하는 데 있어 정적 분석 도구(SAST)와 LLMs의 성능을 비교하고, 이를 기반으로 반복적인 피드백 루프를 설계하기 위한 벤치마크인 **ALPHA**를 제시합니다. 이 연구는 취약점 탐지를 위해 사용되는 도구 선택에 대한 실질적인 근거를 제공하며, Python 함수 수준에서 CWE 분류의 정확성을 평가합니다.

paper AI 요약
QSLM  성능과 메모리를 고려한 계층적 탐색 전략을 갖춘 양자화 프레임워크

QSLM 성능과 메모리를 고려한 계층적 탐색 전략을 갖춘 양자화 프레임워크

대형 언어 모델(LLMs)과 스파이크 구동 언어 모델(SLMs)의 성능을 개선하고, 이를 임베디드 시스템에 효과적으로 구현하기 위한 양자화 기법에 대해 논한다. 본 연구에서는 SLMs의 메모리 및 에너지 효율성을 높이기 위해 자동화된 양자화 프레임워크인 QSLM을 제안하며, 이를 통해 SLMs의 성능과 메모리 요구사항을 충족시키는 효과적인 양자화 설정을 제공한다.

paper AI 요약
R-디베이터  논쟁 메모리를 통한 검색 강화된 토론 생성

R-디베이터 논쟁 메모리를 통한 검색 강화된 토론 생성

R-Debater는 논쟁적 기억을 기반으로 한 다중 턴 토론을 생성하기 위한 에이전시 프레임워크를 제안합니다. 수사학 및 기억 연구에 근거한 이 시스템은 토론을 전략 일관성을 유지하고, 상대방의 주장을 대응하며, 증거로 주장을 뒷받침하기 위해 이전 주장들을 회상하고 적응하는 과정으로 간주합니다. 구체적으로 R-Debater는 사례와 유사한 증거를 검색하고 이전 토론을 움직일 수 있는 토론 지식 베이스를 역할 기반 에이전트와 통합하여 회화의 일관성을 유지하는 발언을 구성합니다. 표준化的的ORCHID辩论被用来进行评估,构建了包含1000个检索语料和涵盖七个领域的32个保留辩论集。评估了两个任务:下一个发言生成,通过InspireScore(主观性、逻辑性和事实性)来评估;以及对抗性的多回合模拟,由Debatrix(论点、来源、语言和总体)进行评判。与强大的基础大模型相比,R-Debater在单轮和多轮评分中都取得了更高的分数。通过20位有经验的辩论者的人类评估进一步证实了其一致性和证据使用情况,表明结合检索基础和结构化规划可以产生更忠实、立场对齐且跨回合连贯的辩论。 注意:根据规则要求,上述翻译为自然韩语,但由于技术限制,在此以中文展示了翻译内容。

paper AI 요약
RAG에서의 노이즈 필터링 본질적 어려움 해결

RAG에서의 노이즈 필터링 본질적 어려움 해결

대형 언어 모델(LLMs)은 다양한 작업에서 놀라운 성능을 보여주지만, 사실적 정보 부족으로 인해 환영(hallucinations)에 시달리고 있으며, 새로운 지식을 통합하기 위해서는 추가적인 세부 조정(fine-tuning)이 필요하다. 이로 인해 LLMs를 외부 검색기와 결합하는 것이 성능 개선에 기여하지만, 실제 문서에서 얻은 정보가 항상 사용할 수 있는 것은 아니며, 때때로 잡음 정보를 포함하고 있어 성능 저하의 원인이 된다. 본 논문에서는 이러한 문제를 해결하기 위한 새로운 세부 조정 방법을 제안한다.

paper AI 요약
Refined 프롬프트 추적  모델 행동을 이용한 대화 조정 감지

Refined 프롬프트 추적 모델 행동을 이용한 대화 조정 감지

이 논문은 언어 모델의 미세조정 과정에서 원본 프롬프트와 리피너가 재작성한 프롬프트를 구분하는 문제, 즉 Refinement Provenance Inference (RPI)에 대해 다룹니다. 이를 위해 RePro라는 로짓 기반 프레임워크를 제안하며, 이는 그림과 같은 과정을 통해 빠른 선형 분류기를 사용해 추론 모델에서 원본 및 리피너 재작성된 프롬프트의 출처를 판별합니다.

paper AI 요약
RefSR-Adv  참조 기반 이미지 초해상도 모델의 적대적 공격

RefSR-Adv 참조 기반 이미지 초해상도 모델의 적대적 공격

단일 이미지 초해상화(SISR)는 다양한 아키텍처를 통해 저해상도 입력에서 고해상도 세부 사항을 복원하는 데 사용됩니다. 그러나 SISR은 제한된 정보로 인해 실제적이지 않은 아트팩이나 텍스처 환상을 합성하게 됩니다. 이를 극복하기 위해, Reference-based Super-Resolution (RefSR)에서는 외부 고주파수 텍스처 라이브러리인 고해상도 참조 이미지를 도입하여 유사한 텍스처를 전송하는 방식을 사용합니다. 이 논문은 이러한 RefSR 시스템의 보안 취약성을 체계적으로 탐색하고, 참조 이미지에 약간의 변화를 주어 출력을 저하시키는 새로운 적대적 공격인 RefSR-Adv를 제안합니다.

paper AI 요약
RelayGR  장기 시퀀스 생성 추천의 확장을 위한 다단계 중계 경주 추론

RelayGR 장기 시퀀스 생성 추천의 확장을 위한 다단계 중계 경주 추론

현대 산업용 추천 시스템은 하루에 수십억 건의 요청을 처리하며, 이는 검색, 사전 가공 및 세부 정렬 단계를 포함한다. 사용자 참여는 지연 시간에 매우 민감하므로 전체 파이프라인은 몇 백 밀리초 내에 완료되어야 한다. 세부 정렬 단계가 병목 현상을 일으키며, 고용량 모델로 수백 개의 후보 항목을 점수화하는 데 99번째 백분위 수(P99)에서 몇십 밀리초만 주어진다. 생성적 추천(GR) 모델은 긴 시퀀스를 처리하고 더 큰 용량에 잘 확장되지만, 온라인 서비스에서는 시퀀스 길이 증가로 인한 추론 지연 시간 증가로 인해 제약을 받는다. 본 논문에서는 GR의 입력 구조적 특징을 활용하여 장기 사용자 행동 접두사에 대한 사전 추론과 중간 상태 캐싱 및 재사용을 통해 이 문제를 해결하는 RelayGR 시스템을 제안한다.

paper AI 요약
RMAAT  별구이상 기억압축과 재생을 통한 효율적인 긴 문맥 트랜스포머

RMAAT 별구이상 기억압축과 재생을 통한 효율적인 긴 문맥 트랜스포머

Transformer 아키텍처는 자연어 처리에서 중요한 역할을 하지만, 자기 주의 메커니즘이 긴 시퀀스를 처리하는 데 복잡도 문제를 일으킵니다. 이 논문에서는 이러한 문제를 해결하기 위해 신경-글리아 원리를 활용한 재귀적 기억 증강 아스트로모픽 트랜스포머(RMAAT) 모델을 제안합니다. RMAAT는 아스트로사이트의 기능에서 영감을 받아 긴 시퀀스 처리와 계산 효율성을 향상시킵니다.

paper AI 요약
RovoDev 코드 검토자  아틀라시안에서의 대규모 온라인 LLM 기반 코드 검토 자동화 평가

RovoDev 코드 검토자 아틀라시안에서의 대규모 온라인 LLM 기반 코드 검토 자동화 평가

코드 리뷰는 현대 소프트웨어 엔지니어링의 핵심이며, 품질 보장을 위해 중요합니다. 그러나 프로젝트가 복잡해짐에 따라 수동 코드 리뷰는 시간과 자원을 많이 필요로 하게 되며, 이는 개발 과정에서 병목 현상을 일으킬 수 있습니다. 대형 언어 모델(Large Language Models)을 사용하여 코드 리뷰의 일부를 자동화함으로써 이러한 문제를 해결할 수 있습니다. RovoDev 코드 리뷰어는 데이터 보안, 실용적인 가이드라인 제공, 새로운 프로젝트에 대한 컨텍스트 인식 능력 등 다양한 기능을 갖춘 자동화 도구입니다.

paper AI 요약
RTL 최적화 평가를 위한 새로운 벤치마크

RTL 최적화 평가를 위한 새로운 벤치마크

최근에는 대형 언어 모델(LLM)이 반도체 회로 설계의 유연한 디자인에 있어 흥미로운 연구 방향으로 부상하고 있습니다. 특히, 많은 최근 작업들은 직접적으로 레지스터-트랜스퍼 레벨(RTL) 코드 형태로 반도체 회로 설계를 생성하기 위한 맞춤형 LLM을 개발하고 있습니다. 그러나 RTL 코드 최적화에 대한 기존 벤치마크는RTL 코드의 정확성에만 초점을 맞추고 있어, 전력, 성능, 면적(PPA) 측면에서의 실제 회로 설계 품질을 평가하지 않습니다. 이 문제를 해결하기 위해 새로운 벤치마크인 RTL-OPT를 제안합니다.RTL-OPT는 실용적인 최적화 패턴을 제공하며, 다양한 합성 설정에 대해 효과적으로 작동하도록 설계되었습니다.

paper AI 요약
Scale-Adaptive Power Flow Analysis with Local Topology Slicing and Multi-Task Graph Learning

Scale-Adaptive Power Flow Analysis with Local Topology Slicing and Multi-Task Graph Learning

이 논문은 중국의 스마트 그리드 국책 과학기술 중점 프로젝트(2025ZD0804900)와 중국 국가자연과학기금(U22B6007)의 지원을 받았습니다. *(대응 저자 Guan Lin)* Li Yang, Guan Lin, Cai Zihan 및 Lin Zhi는 중국 남중국기술대학교 전력공학부에 소속되어 있으며 이메일은 각각 10706719873@qq.com; lguan@scut.edu.cn; epc_zihan@mail.scut.edu.cn; 2660910069@qq.com입니다. Huang Jia는 중국 남부 전력그리드 회사의 CSG 에너지 개발 연구소에 소속되어 있습니다. Chen Li는 중국 남부 전력그리드 회사의 전력연구원에 소속되어 있습니다.

paper AI 요약
ScienceDB AI  대규모 과학 데이터 공유 서비스를 위한 LLM 기반 에이전트 추천 시스템

ScienceDB AI 대규모 과학 데이터 공유 서비스를 위한 LLM 기반 에이전트 추천 시스템

과학기술용 AI(Science4AI)의 급속한 성장은 과학 데이터셋의 중요성을 부각시켰고, 그 결과 많은 국가적 수준의 과학 데이터 센터와 공유 플랫폼이 설립되었습니다. 그러나 이러한 발전에도 불구하고, 과학 연구를 위한 데이터셋의 효율적인 공유와 활용을 촉진하는 것은 여전히 어려운 문제입니다. 과학 데이터셋은 복잡한 도메인 특화된 지식과 맥락을 포함하고 있어, 기존의 협업 필터링 기반 추천 시스템이 적합하지 않습니다. 대형 언어 모델(LLMs)의 최근 발전은 깊은 의미 이해와 개인화된 추천이 가능한 대화형 에이전트 구축에 대한 전례 없는 기회를 제공합니다. 이에 따라 우리는 과학데이터뱅크(ScienceDB), 세계 최대 규모의 과학 데이터 공유 플랫폼 중 하나에서 개발한 새로운 LLM 기반 에이전트 추천 시스템인 ScienceDB AI를 소개합니다. ScienceDB AI는 자연어 대화와 깊은 추론을 활용하여 연구자의 과학적 의도와 변화하는 요구사항에 맞춘 데이터셋을 정확하게 추천합니다. 이 시스템은 다음과 같은 혁신들을 도입하고 있습니다 복잡한 쿼리에서 구조화된 실험 요소를 추출하는 Scientific Intention Perceptor, 다중 회차 대화를 효과적으로 관리하는 Structured Memory Compressor, 신뢰성 있는 검색 강화 생성(Trustworthy RAG) 프레임워크입니다. Trustworthy RAG는 두 단계의 검색 메커니즘을 사용하고 Citable Scientific Task Record(CSTR) 식별자를 통해 인용 가능한 데이터셋 참조를 제공하여 추천의 신뢰성과 재현성을 향상시킵니다. 과학적 연구에 활용되는 1,000만 개 이상의 실제 데이터셋을 사용한 광범위한 오프라인 및 온라인 실험을 통해 ScienceDB AI는 중대한 효과를 입증했습니다. 우리의 지식으로는, ScienceDB AI가 대규모 과학적 데이터셋 공유 서비스에 특화된 첫 번째 LLM 기반 대화형 추천 시스템입니다. 이 플랫폼은 다음 링크에서 공개적으로 이용 가능합니다 https //ai.scidb.cn/en.

paper AI 요약
SMOTE 생성 샘플의 이론적 수렴성

SMOTE 생성 샘플의 이론적 수렴성

불균형 데이터 세트는 한 클래스(소수 클래스)가 다른 클래스들(다수 클래스)에 비해 크게 소수로 나타나는 기계 학습 및 통계적 분석에서의 주요 도전 과제입니다. 이 불균형은 예측 모델이 소수 클래스에 대해 성능이 저하되는 편향된 결과를 초래하며, 이러한 소수 클래스는 고장 감지, 의료 진단, 네트워크 보안 또는 컴퓨터 비전과 같은 중요한 경우들을 나타낼 수 있습니다. 이를 완화하기 위해 다양한 데이터 증강 기법들이 개발되었습니다. 이 논문에서는 Synthetic Minority Over-sampling Technique (SMOTE)이라는 가장 널리 사용되는 증강 방법에 대해 이론적 분석을 제공합니다. 특히, SMOTE가 생성하는 합성 샘플들이 원래 데이터 분포로 수렴하는 과정을 이론적으로 입증하고자 합니다. 우리의 주요 기여는 다음과 같습니다 1. 확률 수렴 합성 랜덤 변수 $`Z`$가 표본 크기 $`n`$이 무한대로 접근할 때 원래 랜덤 변수 $`X`$로 확률적으로 수렴한다는 것을 증명합니다. 2. 최근접 이웃 순위 $`k`$ $`k`$의 값이 합성 샘플의 수렴 속도에 미치는 영향을 분석하고, 더 낮은 값을 사용하면 더 빠른 수렴을 얻을 수 있다는 것을 보여줍니다. 3. 경험적 검증 균일, 가우시안 및 지수 분포를 사용한 시뮬레이션 연구를 통해 이론 결과를 확인합니다. 이 논문의 결과는 SMOTE 알고리즘에서 $`k = 1`$을 사용하는 것이 원래 분포로 더 빨리 수렴하도록 하는 등 실제 응용에 대한 중요한 통찰력을 제공합니다. 이러한 통찰력은 실무자들이 SMOTE를 사용할 때 적절한 매개변수를 선택하고 증강된 데이터를 기반으로 훈련하는 모델의 성능을 개선하는 데 도움이 될 것입니다. ###

paper AI 요약
SwinIFS  Landmark Guided Swin Transformer For Identity Preserving Face Super Resolution

SwinIFS Landmark Guided Swin Transformer For Identity Preserving Face Super Resolution

본 논문은 얼굴 초해상화(Face Super-Resolution, FSR)를 위해 랜드마크 지도와 Swin Transformer를 통합한 새로운 접근 방법을 제안한다. 이 접근 방식은 고해상도(HR) 이미지의 구조적 일관성과 개별적인 특징을 유지하면서 저해상도(LR) 입력에서 얼굴 이미지를 복원하는 데 초점을 맞추고 있다. 특히, 본 논문은 랜드마크 지도를 통해 얼굴 구조를 안내하고 Swin Transformer의 장거리 종속성 모델링 능력을 활용하여 극단적인 확대 비율에서도 일관된 결과를 얻을 수 있는 방법론을 제시한다. ###

paper AI 요약
SymSeqBench  규칙 기반 상징적 시퀀스 및 데이터셋 생성과 분석을 위한 통합 프레임워크

SymSeqBench 규칙 기반 상징적 시퀀스 및 데이터셋 생성과 분석을 위한 통합 프레임워크

(이 논문은 상징적 시퀀스 처리를 위한 통합적인 프레임워크 `SymSeqBench`를 제안하며, 이는 심리언어학 실험 설계부터 뉴로모픽 아키텍처 평가까지 다양한 분야에서 인간, 동물 및 인공 지능을 분석하는 데 사용할 수 있는 도구입니다. 논문은 형식 언어 이론의 개념을 활용하여 시퀀스 복잡성을 체계적으로 탐사하고, 실질적인 이론적 통찰과 실험적 접근법을 제공합니다.)

paper AI 요약
SynRAG  이질적인 SIEM 시스템용 실행 가능한 쿼리 생성 대형 언어 모델 프레임워크

SynRAG 이질적인 SIEM 시스템용 실행 가능한 쿼리 생성 대형 언어 모델 프레임워크

보안 정보 및 이벤트 관리(SIEM) 시스템은 대규모 기업들이 매일 수백만 개의 로그와 이벤트를 수집하고 분석하여 IT 인프라스트럭처를 모니터링하는 데 필수적입니다. 보안 운영 센터(SOC) 분석가는 이러한 방대한 데이터를 모니터링하고 분석하여 잠재적인 위협을 식별하고 기업 자산을 보호하기 위한 예방 조치를 취해야 합니다. 하지만 Palo Alto Networks Qradar, Google SecOps, Splunk, Microsoft Sentinel 및 Elastic Stack과 같은 SIEM 플랫폼들 간의 다양성은 상당한 도전 과제를 제기합니다. 이러한 시스템들은 속성, 아키텍처, 쿼리 언어에서 차이점이 있어 분석가들이 광범위한 훈련을 받지 않으면 여러 플랫폼을 효과적으로 모니터링하기 어렵고 기업은 인력을 확대해야 하는 상황입니다. 이 문제를 해결하기 위해 우리는 플랫폼에 무관한 사양에서 다중 SIEM 플랫폼용 위협 탐지 또는 사건 조사 쿼리를 자동으로 생성하는 통합 프레임워크인 SynRAG을 도입합니다. SynRAG은 분석가가 작성한 단일 고수준 사양으로 특정 플랫폼에 맞는 쿼리를 생성할 수 있습니다. SynRAG 없이 분석가는 시스템 간에 크게 차이가 나는 쿼리 언어 때문에 각 SIEM 플랫폼별로 별도의 쿼리를 수작업으로 작성해야 합니다. 이 프레임워크는 다양한 SIEM 환경에서 위협 탐지와 사건 조사를 원활하게 진행할 수 있도록 하여 전문적인 훈련과 수동 쿼리 번역에 대한 필요성을 줄입니다. 우리는 Qradar 및 SecOps를 대표적인 SIEM 시스템으로 사용하여 GPT, Llama, DeepSeek, Gemma, Claude와 같은 최첨단 언어 모델들과 SynRAG을 비교 평가하였습니다. 우리의 결과는 SynRAG이 위협 탐지와 사건 조사에 있어 다양한 SIEM 환경에서 최첨단 기본 모델보다 훨씬 더 좋은 쿼리를 생성한다는 것을 보여줍니다.

paper AI 요약
T3C  일관성 보장과 함께 테스트 시점 텐서 압축

T3C 일관성 보장과 함께 테스트 시점 텐서 압축

이 논문에서는 T3C라는 예산 조건에 따른 학습-한번/시험 시간 압축 프레임워크를 제안합니다. T3C는 탄력적인 텐서화와 계층별 혼합 정밀도 양자화를 결합하고, 경량화된 정책을 사용하여 구조화된 예산 토큰을 층별 순위/비트 할당으로 매핑합니다. 이 프레임워크는 단일 체크포인트에서 일관되고 하드웨어에 맞춘 정확도-지연-크기 교환 관계를 제공하며, 양자화, 가위내기, 저순위 기준선보다 낮은 꼬리 위험을 줍니다.

paper AI 요약
Tubular Riemannian Laplace Approximations for Bayesian Neural Networks

Tubular Riemannian Laplace Approximations for Bayesian Neural Networks

라플라스 근사법은 신경망에서 약한 베이지안 추론 방법 중 가장 단순하고 실용적인 방법들 중 하나입니다. 그러나 그의 유구다 공간 표현식은 현대의 심층 모델을 특징짓는 높은 비등방성, 곡률 있는 손실 표면 및 큰 대칭 군에 어려움을 겪고 있습니다. 최근 연구에서는 이러한 구조에 적응하기 위해 리만과 기하학적인 가우스 근사를 제안하였습니다. 이러한 아이디어를 바탕으로 우리는 관형 리만 라플라스(TRL) 근사법을 소개합니다. TRL은 함수적 대칭성에 의해 유도되는 낮은 손실 계곡을 따라 확률적 튜브를 명시적으로 모델링하며, 피셔/เกา스-뉴턴 메트릭을 사용하여 사전 주도 탄젠셜 불확실성을 데이터 주도 횡단면 불확실성으로 분리합니다. 우리는 TRL을 암시적인 곡률 추정치를 활용하여 고차원 매개변수 공간에서 작동하는 확장 가능한 재매개변수화된 가우스 근사법으로 해석합니다. 우리의 실증적 평가에 따르면 ResNet-18(CIFAR-10 및 CIFAR-100)에서는 TRL이 우수한 교정을 달성하며, 딥 앙상블즈와 비교하여 ECE 측면에서 동일하거나 더 높은 신뢰성을 보여주면서 학습 비용의 분수(1/5)만 필요로 합니다. TRL은 단일 모델 효율과 앙상블 수준의 신뢰성 간의 격차를 효과적으로 연결합니다.

paper AI 요약
UltraEval-오디오  오디오 기초 모델의 종합적인 평가를 위한 통일된 프레임워크

UltraEval-오디오 오디오 기초 모델의 종합적인 평가를 위한 통일된 프레임워크

오디오 기반 모델의 폭발적인 발전과 함께, 오디오 모델을 객관적이고 체계적으로 평가하기 위한 통합 평가 프레임워크인 **UltraEval-Audio**를 제안합니다. 이 프레임워크는 데이터 로딩부터 추론 파라미터 조정까지 다양한 과정을 분리하여 연구자들이 실험의 재현성을 높이고, 빠르게 적응하고 확장할 수 있도록 설계되었습니다.

paper AI 요약
VEAT이 텍스트-비디오 생성기 소라의 암시적 연관성을 측정하고 편향 완화에서의 과제를 드러냄

VEAT이 텍스트-비디오 생성기 소라의 암시적 연관성을 측정하고 편향 완화에서의 과제를 드러냄

텍스트-투-비디오(T2V) 생성기인 소라와 같은 시스템은 생성된 콘텐츠가 사회적 편견을 반영하는지에 대한 우려를 제기한다. 우리는 단어와 이미지에서 비디오로 임베딩 연관 검사를 확장하기 위해 비디오 임베딩 연관 검사(VEAT)와 싱글-카테고리 VEAT(SC-VEAT)를 도입한다. 이 방법들을 널리 사용되는 베이스라인, 특히 암묵적 연관 검사(IAT) 시나리오와 OASIS 이미지 카테고리로부터의 관계 방향과 크기를 재현함으로써 검증한다. 그런 다음 17개 직업과 7개 수상 분야에서 인종(아프리카 계 미국인 대 유럽계 미국인)과 성별(여성 대 남성)이 가치(기분 좋은 것 대 불쾌한 것)와 연관되는 정도를 측정한다. 소라 비디오는 유럽계 미국인과 여성들이 더 기분 좋게 인식된다(d>0.8). 효과 크기는 실제 세계의 인구 분포와 상관관계가 있다 직업에서 남성과 백인이 차지하는 비율(r=0.93, r=0.83) 및 수상자들 중 남성과 흑인 비율이 아닌 사람들의 비율(r=0.88, r=0.99). 명시적인 디비어스 프롬프트를 적용하면 효과 크기의 크기가 일반적으로 줄지만 역효과를 초래할 수도 있다 두 개의 흑인 관련 직업(청소원, 우편 서비스)은 디비어싱 이후 더 강하게 흑인 연관성이 증가한다. 이 결과들은 쉽게 접근 가능한 T2V 생성기가 철저히 평가되지 않고 책임감 있게 배치되지 않는 경우 표현적 피해를 실제로 확대할 수 있음을 보여준다.

paper AI 요약
VLA-RAIL  VLA 모델과 로봇을 위한 실시간 비동기 추론 링커

VLA-RAIL VLA 모델과 로봇을 위한 실시간 비동기 추론 링커

비전-언어-행동(VLA) 모델은 로봇이 자연 언어 명령을 이해하고, 공간-시각적 의미를 추출하며, 열린 세계 조작 작업에 적합한 행동을 생성할 수 있게 합니다. 그러나 VLA 모델의 배포는 다양한 하드웨어 구성과 소프트웨어 인터페이스로 인해 한정되어 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 실시간 비동기 추론 프레임워크인 VLA-RAIL을 제안합니다.

paper AI 요약
Wittgenstein s Family Resemblance Clustering Algorithm

Wittgenstein s Family Resemblance Clustering Algorithm

이 논문은 분석 철학에서 루트비히 비트겐슈타인의 가족 닮음 개념을 기반으로 한 새로운 접근법을 제시합니다. 이 연구는 비트겐슈타인의 가족 닮음 원리를 기계 학습용 클러스터링 알고리즘에 적용하여 데이터 포인트 간의 유사성을 그래프로 표현하고, 이를 통해 연결된 그룹으로서 클러스터를 형성합니다. 이 알고리즘은 WFR (Wittgenstein’s Family Resemblance) 클러스터링 알고리즘이며, 다양한 토이 벤치마크 데이터셋에서 복잡하고 비선형적인 클러스터 구조를 효과적으로 포착할 수 있음을 실험적으로 입증합니다.

paper AI 요약
가장 유용한 파트너 선발의 새로운 길

가장 유용한 파트너 선발의 새로운 길

많은 현대 AI 및 ML 문제는 공유되지만 비대칭적인, 계산적으로 집약적인 과정을 통해 파트너의 기여를 평가하고 동시에 가장 유익한 후보자를 선별하는 것을 필요로 합니다. 이러한 문제들은 새로운 프레임워크인 순차적 지원 네트워크 학습(SSNL) 하에서 통합될 수 있습니다. 이 목표는 모든 참가자에게 가장 유익한 파트너 집합을 시도를 통해 선택하는 것입니다, 즉, 최고의 성능 기여를 나타내는 방향 그래프를 학습하는 것입니다. 우리는 단일 평가가 구조적인 중첩성으로 인해 여러 밴딧에 대한 고유한 피드백을 제공하는 새로운 순수 탐색 모델인 반복적으로 겹치는 다중(다중 팔) 밴딧(SOMMAB)이 희박한 후보 목록에서 지원 네트워크를 효율적으로 학습할 수 있음을 보여줍니다. 우리는 SOMMAB용 일반화된 GapE 알고리즘을 개발하고, 이는 다중 밴딧 최고 팔 식별에 있어 가장 잘 알려진 상수보다 지수 계수에서 크게 향상된 새로운 지수 오류 경계를 제공합니다. 이러한 경계는 중첩도와 선형적으로 비례하여, 공유 평가로부터 발생하는 샘플 복잡성의 큰 이점을 드러냅니다. 응용 프로그램 측면에서 본 연구는 다중 작업 학습(MTL), 보조 작업 학습(ATL), 연방 학습(FL) 및 다중 에이전트 시스템(MAS)과 같은 여러 학습 문제에서 희박한 후보자로부터 지원 네트워크를 식별하는 순차적 학습 도구의 이론적인 기초와 개선된 성능 보장을 제공합니다.

paper AI 요약
강화학습의 적대적 인스턴스 생성과 로브스트 트레이닝

강화학습의 적대적 인스턴스 생성과 로브스트 트레이닝

본 논문에서는 다목적 조합 최적화 문제(MOCOP)를 해결하는 강화학습 기반의 신경망 모델에 대한 강인성을 향상시키는 새로운 접근법을 제안한다. 이를 위해 선호도 기반 적대적 공격(PAA) 방법과 동적인 선호도 증강 방어(DPD) 방법을 소개한다. PAA는 특정 선호도에 맞춘 어려운 인스턴스를 생성하여 신경망 모델의 성능을 저하시키며, DPD는 적대적 공격으로부터 신경망 모델을 보호하고 그 강인성을 향상시킨다. 이러한 방법들은 다목적 트래블링 세일즈맨 문제(MOTSP), 다목적 용량 제약 차량 경로 문제(MOCVRP), 그리고 다목적 배낭 문제(MOKP)에서 우수한 성능을 보여준다.

paper AI 요약
게임 디자인의 혁명, 모터  자동화된 게임 메커닉스

게임 디자인의 혁명, 모터 자동화된 게임 메커닉스

본 논문은 게임 메커니즘의 절차적 생성을 위한 새로운 접근 방식을 제안합니다. 이를 위해 <span class= smallcaps >Mortar</span>이라는 시스템을 소개하며, 이 시스템은 대형 언어 모델(LLM)과 품질 다양성(QD) 알고리즘을 사용하여 다양한 게임 메커니즘을 진화시킵니다. <span class= smallcaps >Mortar</span>은 진화된 메커니즘이 전체 게임의 질에 기여하는지를 평가함으로써, 메커니즘의 가치를 판단합니다.

paper AI 요약
결합 임베딩 예측 세계 모델을 통한 물리적 계획 성공 요인은 무엇일까?

결합 임베딩 예측 세계 모델을 통한 물리적 계획 성공 요인은 무엇일까?

본 논문은 제어 및 탐색 계획 작업을 위한 임베딩 공간에서 동적 모델을 효율적으로 학습하는 방법에 대해 연구합니다. 주요 기여는 액션 조건부 결합 예측 월드 모델(JEPA-WM)의 핵심 구성 요소들에 대한 분석이며, 이를 통해 DINO-WM과 V-JEPA-2-AC을 능가하는 최적의 JEPA-WM을 제안합니다.

paper AI 요약
계층적 계획과 다목적 선호도 정렬을 통한 효율적인 생성 슬래트 추천 HIgr

계층적 계획과 다목적 선호도 정렬을 통한 효율적인 생성 슬래트 추천 HIgr

본 논문은 계층적 생성 슬레이트 추천 프레임워크인 HiGR을 제안한다. HiGR은 대규모 온라인 서비스에서 사용자 경험의 핵심 요소로 작용하는 슬레이트 추천 문제를 해결하기 위해 설계되었다. 기존 방법론이 효율적이지만 항목 수준 목표만 최적화하고 전체 리스트 품질을 무시하는 반면, HiGR은 생성 모델과 대조 학습을 통한 계층적 구조화된 아이디를 통해 슬레이트의 글로벌 구조와 세부 항목 선택 사이에서 효율적인 추론을 가능하게 한다.

paper AI 요약
고급 정규화로 부드러운 제어  에너지 관리의 새로운 패러다임

고급 정규화로 부드러운 제어 에너지 관리의 새로운 패러다임

강화학습은 복잡한 의사결정 작업에서 뛰어난 성과를 보여왔지만, 실제 시스템에 적용할 때 급격하고 무작위적인 제어 행동이 즉각적인 보상 최적화와 함께 큰 운영 비용을 초래하는 문제점이 나타났다. 이 논문은 이런 현상을 해결하기 위해 3차 도함수 패널티를 도입하여, 제어 벤치마크에서 1차와 2차 도함수 패널티를 비교하고, HVAC 시스템에 적용해 장비 수명과 에너지 효율성을 측정한다. ###

paper AI 요약
공격 벡터 엔지니어링과 가법 제조에서의 이상 감지

공격 벡터 엔지니어링과 가법 제조에서의 이상 감지

추가 제조(AM)는 항공우주, 자동차, 의료 등 중요 산업 분야에 신속하게 통합되고 있습니다. 하지만 이 사이버-물리적 융합은 특히 컴퓨터 지원 설계(CAD)와 기계 실행 레이어 간의 인터페이스에서 새로운 공격 표면을 소개합니다. 본 연구에서는 광범위하게 사용되는 용융 침착 모델링(FDM) 시스템인 크리얼러티의 플래그십 모델 K1 Max와 엔더 3에 대한 정교한 사이버공격을 조사하였습니다. 우리의 위협 모델은 대항자들이 사용자 인터페이스로부터 프린터 펌웨어까지 G코드 파일을 전송하는 과정에서 가로채고 조작하는 다층적 Man-in-the-Middle(MitM) 침입입니다. 이 MitM 침입 체인은 몇 가지 비밀리에 이루어지는 파괴 시나리오를 가능하게 합니다. 이러한 공격들은 기존의 슬라이서 소프트웨어나 런타임 인터페이스로는 감지할 수 없으며, 구조적으로 결함이 있지만 외부적으로 신뢰할 수 있는 프린팅 부품을 생성합니다. 이러한 비밀리에 이루어지는 위협에 대응하기 위해, 우리는 생생한 프린팅 동안 생성되는 구조화된 머신 로그를 분석하는 무감독 침입 탐지 시스템(IDS)을 제안하였습니다. 우리의 방어 메커니즘은 변형 BERT로 이루어진 동결된 Transformer 기반 인코더를 사용하여 시스템 행동의 의미 표현을 추출하고, 이어서 대조적으로 학습된 투영 머리가 이상 감도 임베딩을 배우도록 합니다. 이후에는 클러스터링 기반 접근 방식과 자기 주의 자동 인코더를 사용하여 분류합니다. 실험 결과는 우리의 접근법이 무해한 실행과 침해된 실행 사이에서 효과적으로 구분한다는 것을 보여줍니다.

paper AI 요약
공격적인 압축이 LLM 가중치 유출을 가능하게 한다

공격적인 압축이 LLM 가중치 유출을 가능하게 한다

AI 모델을 훈련시키는 비용이 급증하면서, 특히 고급 AI 시스템은 국가 안보 자산으로 인식되고 있습니다. 이에 따라 모델 가중치를 해킹에서 보호하려는 관심이 증가하고 있으며, 특히 가중치 유출 공격이 주요 문제로 부각되었습니다. 본 논문에서는 큰 언어 모델(Large Language Model, LLM)의 압축 기술을 이용해 가중치 유출 공격의 가능성과 방어 방법에 대해 분석하였습니다.

paper AI 요약
구조-상태 결합 학습으로 네트워크 진화 히스토리 추론

구조-상태 결합 학습으로 네트워크 진화 히스토리 추론

네트워크의 진화 역사로부터 한 개의 최종 스냅샷과 제한된 시간 주석을 추론하는 것은 기본적이면서도 도전적인 과제이다. 현재 접근 방식은 대부분 위상만에 의존하는데, 이는 종종 부족하고 잡음을 포함한 단서를 제공한다. 본 논문은 특정 동적 과정 하에서 수렴된 노드 상태인 네트워크 정상 상태 동역학을 추가적인 널리 접근 가능한 관찰로 활용하여 네트워크 진화 역사 추론에 사용한다. 우리는 CS$^2$를 제안하며, 이는 구조-상태 결합을 명시적으로 모델링하여 위상이 정상 상태를 어떻게 조절하는지와 두 신호가 엣지 판별을 어떻게 공동으로 향상시키는지를 포착한다. 여섯 개의 실제 시간 네트워크에서 여러 동적 과정 하에 평가한 실험 결과 CS$^2$는 강력한 베이스라인을 일관되게 능가하며, 평균 4.0%의 엣지 순위 판별 정확도 향상과 평균 7.7%의 전역 순서 일관성(Spearman-$ρ$) 향상을 보여준다. CS$^2$는 또한 클러스터 형성, 차수 이질성, 허브 성장과 같은 거시적 진화 경로를 더욱 신뢰성 있게 복원한다. 게다가, 정상 상태만을 사용하는 변형은 신뢰할 수 있는 위상이 제한적인 상황에서도 경쟁력을 유지하며, 정상 상태가 진화 추론을 위한 독립된 신호임을 강조한다.

paper AI 요약
그래프 신경망의 저장소 기반 학습 가속화

그래프 신경망의 저장소 기반 학습 가속화

그래프 신경망(GNN)의 학습은 대규모 그래프를 처리하는 데 있어서 주요한 도전 과제를 안고 있다. 이 논문에서는 GNN 학습에서 데이터 준비 단계가 전체 과정에서 큰 병목 현상을 일으키는 문제점을 파악하고, 이를 해결하기 위한 새로운 프레임워크 **AGNES**을 제안한다. AGNES는 블록 단위의 저장 장치 I/O 처리와 하이퍼 배치 기반 처리를 통해 효율적으로 데이터 준비 과정을 수행하며, 특히 대규모 그래프 학습에서 성능 향상에 크게 기여한다.

paper AI 요약
그래프 포인터 네트워크와 분산의 결합을 통한 다양한 TSP 경로 생성

그래프 포인터 네트워크와 분산의 결합을 통한 다양한 TSP 경로 생성

이 논문에서는 다각적 여행 상인 문제(D-TSP)를 해결하기 위한 새로운 프레임워크를 제안합니다. 이 작업은 고성능 해답을 찾으면서 동시에 해답의 다양성을 최대화하는 것을 목표로 합니다. 우리의 접근 방식은 전통적인 알고리즘과 신경망 기반 방법을 결합한 것입니다. 실험 결과는 40개 도시에 대해 몇 시간 동안 훈련하면, 우리의 모델이 현재까지 알려진 최고의 성능을 보여줍니다.

paper AI 요약
기계를 위한 코드, 인간만을 위한 것이 아니라  코드 헬스 메트릭으로 AI 친화성을 측정하기

기계를 위한 코드, 인간만을 위한 것이 아니라 코드 헬스 메트릭으로 AI 친화성을 측정하기

AI가 코드를 이해하고 개선하는 데 있어, 인간이 읽기 쉬운 코드는 어떻게 도움을 줄 수 있을까? 본 논문은 CodeHealth 지표를 사용하여 AI 친화적인 코드 디자인이 더 나은 결과를 내는지 분석한다. 또한, Perplexity와 Source Lines of Code(SLOC)와 비교해보며, 인간이 이해하기 쉬운 코드가 실제로 AI에게도 더 친근한지 확인한다.

paper AI 요약
기하학적 및 양자 커널 방법을 활용한 만성 폐쇄성 폐질환의 골격근 예측 방법론 연구

기하학적 및 양자 커널 방법을 활용한 만성 폐쇄성 폐질환의 골격근 예측 방법론 연구

골격근 기능 장애는 만성 폐쇄성 폐질환(COPD)의 임상적으로 중요한 폐외 증상이며 체내 및 기도 염증과 밀접하게 연관되어 있습니다. 이를 바탕으로 최소 침습적 생물학적 표지자로부터 근육 결과를 예측하는 모델링을 실시하고자 합니다. 본 연구에서는 총 213마리의 동물을 대상으로 가짜 수술과 담배 연기 노출 조건을 비교한 사전 임상 데이터셋을 분석하였습니다. 이는 혈액 및 기관지알ве올라세척액 측정치와 함께 근육중량(mg), 특이력(mN), 근질 지수(mN/mg)라는 세 가지 연속 목표를 포함하고 있습니다. 연구에서는 조정된 전통적 베이스라인, 기하학을 인식하는 대칭 양의 결정체(SPD) 설명자와 Stein 발산량, 그리고 저차원 표형 데이터를 위한 양자 커널 모델들을 평가하였습니다. 근육중량 설정에서, 혈액 C-반응 단백질, 호중구 수치, 기관지알베올라세척액 세포도, 조건을 포함한 네 가지 해석 가능한 입력을 사용하는 양자 커널 리지 회귀는 테스트 루트 평균 제곱 오차 4.41mg과 결정 계수 0.605를 달성하였으며 동일 특징 집합에서 대응되는 리지 베이스라인(4.70mg 및 0.553)보다 향상되었습니다. 기하학적 정보를 포함한 Stein 발산량 프로토타입 거리는 생물학적 표지자만을 사용하는 설정에서 더 작은 그러나 일관된 개선(4.55mg 대비 4.79mg)을 보였습니다. 연속 결과를 훈련 가짜 수술 평균의 0.8배로 임계값 설정한 스크리닝 평가에서는 근육중량이 낮은 상태를 탐지하는 수신자 작동 특성 곡선(AUC-ROC) 최대 값까지 0.90을 달성하였습니다. 이러한 결과는 저데이터, 저특징 생물의학 예측 문제에서 기하학적 및 양자 커널 향상이 해석 가능성과 투명한 모델 선택을 유지하면서 측정 가능한 이점을 제공할 수 있음을 나타냅니다.

paper AI 요약
긴 법적 문서를 짧은 무작위 조각으로 분류하기

긴 법적 문서를 짧은 무작위 조각으로 분류하기

법적 문서 분류는 전문 용어뿐만 아니라 때때로 매우 긴 문서가 될 수 있어挑战组合中的中文被错误地包含进去了。以下是符合要求的日韩翻译: 법적 문서를 분류하는 것은 전문적인 어휘 외에도 종종 매우 긴 문서라는 점에서 과제입니다. 이는 전체 문서를 변형 모델 기반의 분류 모델에 입력하는 것이 불가능하거나 비용이 많이 들거나 느릴 수 있다는 것을 의미합니다. 따라서 본 논문에서는 48개의 임의로 선택된 짧은 조각(max 128 토큰)을 입력으로 사용하는 DeBERTa V3와 LSTM을 기반으로 한 법적 문서 분류기를 제시합니다. 또한 지속 가능한 실행 솔루션인 Temporal을 사용한 배포 파이프라인도 제시하여 신뢰성 있고 견고한 처리 워크플로를 확보할 수 있습니다. 최상의 모델은 가중치 F 점수 0.898을 기록했으며, CPU에서 작동하는 파이프라인의 처리 중앙값 시간은 100개 파일당 498초였습니다.

paper AI 요약
길이 인식 샘플링으로 더 안정적인 트래젝토리 생성 모델

길이 인식 샘플링으로 더 안정적인 트래젝토리 생성 모델

이 논문은 다양한 영역에서 시뮬레이션과 역사적 분석을 위한 실제적인 경로와 순서 모델 학습의 중요성을 강조한다. 특히, 이동성 분석, 추천 시스템, 교육 분야에서의 순차적인 결정 로그 등에서 길이가 다양한 트래JECTORY를 처리하는 데에 어려움이 있다. 이러한 문제를 해결하기 위해 제안된 방법은 길이 인식 샘플링(LAS) 기법으로, 이는 미니배치 내의 길이 다양성을 통제하고 생성자/판별자의 업데이트를 더 일관되게 만드는 트레이닝 시 개입이다. 또한, LAS와 조건부 트래JECTORY GAN 및 보조 시간 정렬 손실을 결합하여 트래JECTORY 데이터용 디지털 트윈을 구축한다.

paper AI 요약
No Image

깊은 계층 모델을 배우는 신경망 레이어별로 어떻게 학습할까?

본 논문에서는 $n$개의 레이블을 갖는 감독 학습을 고려하고 잔차 네트워크에서 계층별 SGD가 효율적으로 특정 계층 모델을 학습할 수 있음을 보여줍니다. 이 모델 클래스는 알려지지 않은 레이블 계층 $L_1 subseteq L_2 subseteq dots subseteq L_r = [n]$의 존재를 가정합니다. 여기서 $L_1$에 속한 레이블들은 입력의 간단한 함수이며, $i > 1$인 경우 $L_i$에 속한 레이블들은 더 간단한 레이블들의 간단한 함수입니다. 이러한 클래스는 깊은 학습 알고리즘으로 학습할 수 있음이 이전에 입증된 모델들보다 더 넓은 범위를 포함하며, 효율적인 학습 가능성을 도달하는 깊이 한계를 설정합니다. 즉, 해당 클래스에는 다항식 깊이가 필요한 표현을 요구하는 모델들이 있으며 이전의 모델들은 로그 깊이 회로에서 계산될 수 있습니다. 또한 이러한 계층 모델들의 학습 가능성은 깊은 학습을 이해하기 위한 기반으로 될 수 있음을 제안합니다. 깊은 학습이 뛰어난 성능을 보이는 도메인에서의 자연스러운 적합성뿐만 아니라 인간 교사 의 존재는 계층 구조가 본질적으로 가능하다는 가설을 지지한다고 주장합니다. 교사는 세밀한 레이블을 제공함으로써 두뇌가 사용하는 내부 알고리즘의 힌트 또는 스니펫 을 드러내는데 효과적입니다. 이 직관성을 형식화하여 교사가 부분적으로 자신의 내부 논리를 인식하는 간략한 모델에서 계층 구조가 효율적인 학습 가능성을 촉진시키는 방식으로 나타남을 보여줍니다.

paper AI 요약
노래봇  감성 가창 로봇얼굴의 새로운 시대

노래봇 감성 가창 로봇얼굴의 새로운 시대

이 논문은 로봇의 노래를 표현하는 방법을 제안하며, 이는 인간의 감정과 행동을 모방하는 중요한 기준이다. 특히, 데이터 주도적인 접근법을 사용하여 가수의 감정과 리듬에 맞춰 로봇의 얼굴 표정을 동기화시키는 데 중점을 두었다. 이를 통해 로봇은 노래하면서 자연스러운 입동작과 감정 표현을 할 수 있다.

paper AI 요약
놀라움과 은유 신선도 판단  대규모 데이터 기반 분석을 통한 중등도 상관 및 효과 차이

놀라움과 은유 신선도 판단 대규모 데이터 기반 분석을 통한 중등도 상관 및 효과 차이

최근 언어 모델링의 발전은 전통적인 자연어 처리 시스템에서 어려웠던 언어 창조성 연구에 대한 새로운 관심을 불러일으켰다. 이 논문에서는 기존과 신규 메타포 사이의 차이점을 탐구하고, 언어 모델(LM)을 사용하여 메타포의 창조성을 측정하는 방법을 제안한다. 특히, LM에서 계산된 surprisal 점수와 메타포 창조성 간의 상관관계를 분석하며, 이를 통해 신규 메타포와 기존 메타포 사이의 차이점을 구분할 수 있는 새로운 방법을 제시한다.

paper AI 요약
No Image

다중 기능 지능 표면이 도와주는 효율적인 네트워크 설계

(이 논문에서는 다중 기능 지능형 표면(MF-RIS)을 사용하여 하향 링크 NOMA 네트워크의 에너지 효율을 높이는 방법에 대해 연구합니다. MF-RIS는 신호 반사, 전송, 증폭 및 무선 에너지를 수확하는 기능을 결합하고 있습니다. 이를 통해 시스템의 에너지 효율과 배치 유연성을 향상시킵니다. 또한 하이브리드 딥 강화 학습(DRL) 기법을 이용하여 복잡한 연속-이산 행동 공간에서 적응적인 정책 학습을 구현합니다.)

paper AI 요약
다중 에이전트 AI 워크플로우의 시간적 공격 패턴 감지  추적 기반 보안 모델 훈련을 위한 오픈 프레임워크

다중 에이전트 AI 워크플로우의 시간적 공격 패턴 감지 추적 기반 보안 모델 훈련을 위한 오픈 프레임워크

본 논문은 에이전트 워크플로의 보안성을 평가하는 첫 번째 공개된 방법론을 제시합니다. 이 방법론은 합성 OpenTelemetry 추적 생성, 데이터셋 구축, 훈련 구성 및 재현 가능한 평가 프로토콜을 포함하며, 에이전트 워크플로의 보안성을 향상시키는 데 중점을 두고 있습니다.

paper AI 요약
다중 에이전트 AI에 인간의 반공모 메커니즘 매핑

다중 에이전트 AI에 인간의 반공모 메커니즘 매핑

다중 에이전트 AI 시스템이 점점 더 자율성을 띠면서, 이들이 인간 시장과 기관에서 오랜 시간 동안 관찰되어온 공모 전략을 개발할 수 있다는 증거가 나타나고 있습니다. 인간 영역에서는 세기동안의 반공모 메커니즘이 축적되어 있지만, 이러한 메커니즘들을 AI 환경에 어떻게 적용할 수 있는지 여전히 명확하지 않습니다. 이 논문은 (i) 제재, 관대주의 및 고발, 감시와 심사, 시장 설계, 그리고 통치를 포함한 인간의 반공모 메커니즘의 분류 개발과 (ii) 이러한 메커니즘들을 다중 에이전트 AI 시스템에 대한 잠재적 개입으로 매핑하는 문제점을 해결하고자 합니다. 각 메커니즘에 대해 구현 방법을 제안합니다. 또한, 특정 에이전트에게 일어난 조정을 귀속시키는 어려움, 에이전트의 쉽게 분할 또는 수정 가능성, 협력과 공모를 구분하는 문제, 그리고 적응적 감지 회피 학습 등 열린 과제들을 강조하고 있습니다.

paper AI 요약
다중 에이전트 강화학습에서의 이질성

다중 에이전트 강화학습에서의 이질성

이 논문에서는 다중 에이전트 강화 학습(MARL)에서 상이성을 활용하는 방법을 제안하고, 이를 실용적으로 적용하기 위한 알고리즘을 개발한다. 제안된 HetDPS(Heterogeneity-based Dynamic Parameter Sharing) 알고리는 에이전트 간의 상이성을 정량화하여 파라미터 공유 방식을 동적으로 조정하며, 이를 통해 더 나은 해석 가능성과 적응력을 제공한다.

paper AI 요약
다차원 프롬프트 체이닝으로 대화 질 끌어올리기

다차원 프롬프트 체이닝으로 대화 질 끌어올리기

대형 언어 모델(LLMs)은 자연어 처리를 혁신적으로 발전시켰지만, 이로 인해 필요한 컴퓨팅 자원이 많이 필요합니다. 본 논문에서는 작은 규모의 언어 모델(SLMs)을 사용하여 대형 모델과 동등한 수준의 대화 품질을 달성하기 위한 새로운 다차원 프롬프트 체이닝 프레임워크를 제안합니다. 이 프레임워크는 생성된 응답의 맥락적 일관성, 자연스러움, 그리고 매력성을 각각 개선하는 세 가지 단계로 구성됩니다.

paper AI 요약
단계별 심장 박동 듣기  생리학적 단계 인식 ECG 바이오메트리кс

단계별 심장 박동 듣기 생리학적 단계 인식 ECG 바이오메트리кс

이 논문은 IEEE에 출판을 위해 제출되었으며, 저작권 이전 후에는 이 버전이 더 이상 접근할 수 없을 수도 있음을 알립니다. 본 연구는 중국 국립자연과학연구재단의 지원을 받았습니다 (지원번호 62466038); 또한 Jiangxi 주 키 라벨러 이미지 처리 및 패턴 인식 연구소에서 지원받았으며, 그 외에도 Nanchang 항공대학교 정보센터의 고성능 컴퓨팅 서비스를 이용하였습니다. *(대응 저자 Lu Leng과 Ziyuan Yang*)

paper AI 요약
No Image

대규모 실증적 사례 연구 AI 레드팀 테스트를 위한 Go-Explore 적응

(이 논문에서는 Go-Explore 알고리즘을 사용하여 LLM 에이전트의 안전성을 테스트하고, 무작위 시드 변동성이 알고리즘 선택보다 큰 영향을 미친다는 것을 보여줍니다. 또한, 악성 공격 탐지에 대한 다중 에이전트 조합 전략이 공격 유형 다양화를 제공한다는 점도 확인했습니다.)

paper AI 요약
대량 분석의 미래  질량 스펙트럼에서 구조 예측

대량 분석의 미래 질량 스펙트럼에서 구조 예측

액체 크로마토그라피 질량 분석법(LC-MS)을 기반으로 한 대사물질omics와 노출omics는 생물학적 샘플 내에서 감지 가능한 작은 분자들을 측정하는 것을 목표로 합니다. 이러한 결과는 대사 변화 및 질병 메커니즘에 대한 가설 생성 발견을 용이하게 하고, 환경 노출과 그들이 인간 건강에 미치는 영향에 대한 정보를 제공합니다. 대사물질omics와 노출omics는 LC의 높은 해상도 및 MS의 높은 질량 측정 정확도 덕분에 가능해졌습니다. 하지만, 이러한 연구에서 대부분의 신호들은 기존 스펙트럼 라이브러리가 LC-MS/MS로 포착된 광범위한 화학 공간을 거의 다 커버하지 못하기 때문에 전통적인 라이브러리 검색을 통해 식별하거나 주석하기 어렵습니다. 이러한 도전과제를 해결하고 대사물질omics와 노출omics의 전체 잠재력을 발휘하기 위해, 단일 질량 스펙트럼을 기반으로 화합물을 예측하는 여러 계산적 접근법이 개발되었습니다. 이러한 접근법들에 대한 출판된 평가는 다른 데이터셋과 평가를 사용했습니다. 실제 응용 프로그램을 위한 예측 워크플로우를 선택하고 더 나아갈 방향을 식별하기 위해, 최신 예측 알고리즘의 체계적인 평가를 수행하였습니다. 특히, 다양한 유형의 부가물에 대한 공식 예측 및 구조 예측의 정확도를 평가했습니다. 이로 인해 실제 성능 기준을 설정하고, 중요한 병목 현상을 식별하며, MS 기반 화합물 예측을 향상시키는 데 도움이 되는 지침을 제공하였습니다.

paper AI 요약
대형 언어 모델로 자동 이슈 할당 혁신

대형 언어 모델로 자동 이슈 할당 혁신

본 논문에서는 소프트웨어 개발 프로젝트에서 이슈 할당의 중요성과 그 과정에 대한 문제점을 다룹니다. 특히 수동 할당이 비효율적이며, 시간을 많이 잡아먹는다는 점을 강조합니다. 이를 해결하기 위해 LLM 기반의 자동화된 이슈 할당 방법론인 LIA(Large Language Model-based Issue Assignment)를 소개하며, 이 방법론은 텍스트 기반과 그래프 기반 방법론들의 한계점을 극복할 수 있는 가능성을 제시합니다. 본 연구에서는 두 개의 대규모 오픈소스 프로젝트 데이터셋(EclipseJDT와 Mozilla)을 사용하여 LIA가 기존 방법론들보다 우수한 성능을 보이는 것을 입증하였습니다. ###

paper AI 요약
대형 언어 모델로 측정하는 온라인 편향 분석

대형 언어 모델로 측정하는 온라인 편향 분석

(대규모 언어 모델(LLM)을 이용해 사회적 매체에서 발생하는 감정적 극단화를 측정하는 새로운 방법론을 소개합니다. 본 논문에서는 기존의 감성 분석에 대비하여 LLM이 제공하는 맥락 이해와 텍스트 분류 능력을 활용하여 주제별 입장, 감정 표현, 그리고 합의 수준을 추출하는 프레임워크를 제안합니다. 이를 통해 사회적 매체에서 발생하는 감정적 극단화를 더 정교하게 측량하고 이해할 수 있습니다.)

paper AI 요약
대형 언어 모델을 이용한 범주형 데이터 클러스터링의 의미적 간극 해소

대형 언어 모델을 이용한 범주형 데이터 클러스터링의 의미적 간극 해소

범주형 데이터는 의료, 마케팅, 바이오정보학과 같은 분야에서 패턴 발견의 기본 도구로 클러스터링을 사용합니다. 범주형 데이터 클러스터링의 핵심 과제 중 하나는 내재적인 순서나 거리가 없는 속성 값 간의 유사성을 측정하는 것입니다. 적절한 유사성 지표 없이 값을 등거리로 취급하면 의미론적 격차가 발생하여 잠재 구조를 가리고 클러스터링 품질을 저하시킵니다. 기존 방법들은 데이터셋 내에서의 공발생 패턴으로부터 값 간 관계를 추론하지만, 샘플이 제한적일 때 이러한 추론은 신뢰할 수 없게 되어 데이터의 의미론적 맥락이 충분히 탐색되지 않습니다. 이 격차를 메우기 위해 우리는 ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)를 제시합니다. ARISE는 대형 언어 모델(LLMs)로부터 외부 의미론적 지식을 끌어와 범주형 데이터의 거리 공간을 보완하는 의미론 인식 표현을 구성하여 정확한 클러스터링을 실현합니다. 즉, LLM은 표현 강화를 위해 속성 값을 설명하고, LLM으로 향상된 임베딩은 원래 데이터와 결합되어 의미론적으로 중요한 클러스터를 탐색합니다. 8개의 벤치마크 데이터셋에 대한 실험에서 ARISE는 대표적인 일곱 가지 방법보다 19-27% 향상된 성능을 보여주며, 코드는 https //github.com/develop-yang/ARISE에서 이용 가능합니다.

paper AI 요약
대형 언어 모델의 공모 행위

대형 언어 모델의 공모 행위

알고리즘의 상업적 의사결정에 대한 신속한 채택은 점점 더 많은 규제 감시를 받게 되었다. 연방거래위원회(FTC)와 법무부(DOJ)는 알고리즘 가격 결정 시스템이 명시적인 경쟁업체 간의 합의 없이 불법 공모를 가능하게 할 수 있다고 경고했다. 판매자가 대형 언어 모델(LLM)을 가격결정에 의존하는 것이 증가하면서 규제는 아직 이 영역을 다루지 못하고 있다. LLM들이 사전 훈련된 인간 지식을 기반으로 가격 결정 전략을 학습하기 때문에, 이런 모델이 경쟁 회사 간의 공모를 용이하게 할 위험이 있다.

paper AI 요약
대형 언어 모델의 자각 깨우침

대형 언어 모델의 자각 깨우침

대형 언어 모델에서 내성적 인식의 발현 본 연구는 대형 언어 모델이 그들의 내부 상태에 대해 반성할 수 있는지 조사합니다. 이러한 질문을 단순한 대화만으로는 답변하기 어렵습니다. 진정한 반성이 착각과 구별되기 때문입니다. 여기서 우리는 이 도전 과제를 해결하기 위해 모델의 활성화 상태에 알려진 개념들의 표현을 주입하고, 이러한 조작이 모델의 자기 보고된 상태에 미치는 영향을 측정합니다. 연구 결과, 특정 상황에서는 모델들이 주입된 개념의 존재를 인식하고 정확하게 식별할 수 있음을 발견했습니다. 모델들은 이전 내부 표현을 회상하는 일부 능력을 보여주며, 이를 원문 텍스트 입력과 구분할 수 있습니다. 가장 놀라운 결과는 일부 모델들이 자신의 출력과 인공적인 사전 채우기를 구분하기 위해 이전 의도를 회상하는 능력을 사용한다는 것입니다. 모든 실험에서 가장 우수한 모델인 Claude Opus 4 및 4.1이 일반적으로 최고 수준의 내성적 인식을 보여주지만, 각 모델 간의 경향은 복잡하고 후 훈련 전략에 민감합니다. 마지막으로 우리는 모델들이 명시적으로 자신의 내부 표현을 조절할 수 있는지 탐색했습니다. 결과는 개념에 대해 생각해보라 는 지시나 유인책이 있으면 모델들의 활성화 상태를 조정할 수 있다는 것을 나타냅니다. 전체적으로 우리의 결과는 현재 언어 모델들이 자신들의 내부 상태에 대한 기능적인 반성적 인식을 어느 정도 가지고 있음을 보여줍니다. 그러나 이러한 능력은 오늘날의 모델에서 매우 불안정하고 문맥에 크게 의존하며, 모델의 성능 개선을 통해 계속 발전할 수 있습니다.

paper AI 요약
대형 언어 모델의 주관적 텍스트 영역 식별 능력은?

대형 언어 모델의 주관적 텍스트 영역 식별 능력은?

텍스트 스패닝을 식별하는 것은 NLP의 여러 하류 작업에 중요하며, 이는 모델 설명 가능성에 기여합니다. 대부분의 스패닝 식별 접근 방법은 BERT와 같은 상대적으로 작은 사전 훈련된 언어 모델에 의존하지만, 최근 몇 가지 접근 방식은 대규모 언어 모델(LLMs)을 이 작업에 활용하였습니다. 현재의 연구는 명명된 엔터티 인식(NER)과 같이 명시적인 스패닝 식별에 집중한 반면, 주관적 스패닝 식별과 LLMs를 사용한 감성 기반 분석(ABSA) 작업은 충분히 탐구되지 않았습니다. 본 논문에서는 이 중요한 간극을 메꾸기 위해 세 가지 인기 있는 작업인 감성 분석, 모욕적 언어 식별 및 주장 검증에서 다양한 LLMs의 성능을 평가합니다. 우리는 지시 조정, 상황 학습, 사고 체인 등 여러 가지 LLM 전략을 탐구하였습니다. 우리의 결과는 텍스트 내의 기본적인 관계가 LLMs이 정확한 텍스트 스패닝을 식별하는 데 도움이 된다는 것을 나타냅니다.

paper AI 요약
데이터 복잡도로 모델 성능 예측, 새로운 방법론

데이터 복잡도로 모델 성능 예측, 새로운 방법론

딥러닝 모델은 컴퓨터 비전을 포함한 다양한 분야에서 널리 사용되고 있다. 모델 유도 과정에서는 주어진 데이터셋에 적합한 아키텍처를 선택하는 데 반복적인 시도와 오류 절차가 종종 필요하다. 이 절차는 시간이 많이 소요되고 자원을 많이 사용하며 자동화하기 어렵다. 이전 연구에서는 부분적 학습이나 복잡한 시뮬레이션을 활용해 성능 예측을 탐구하였으나, 이러한 방법들은 종종 큰 계산 부담을 필요로 하거나 일반화 능력이 부족하다는 문제가 있다. 본 논문에서는 이에 대한 대안적인 접근 방식을 제시한다 데이터셋과 집중된 딥 모델 구조를 이해함으로써 학습 전 모델 성능을 추정할 수 있는 가벼운 두 단계 프레임워크다. 첫 번째 단계에서는 데이터셋의 측정 가능한 속성 분석을 기반으로 베이스라인 예측을 수행하고, 두 번째 단계에서는 모델 아키텍처와 하이퍼파라미터 세부 정보에 대한 추가 정보를 활용해 추정치를 조정한다. 이 구성은 프레임워크가 다양한 데이터셋과 모델 유형을 초월하여 일반화할 수 있게 한다. 더불어, 예측을 위한 일부 기본 특성 - 예컨대 데이터셋 변동성 -는 모델 선택에 대한 실제적 지침을 제공하고 데이터 품질의 조기 지표로도 활용될 수 있다. 결과적으로 이 프레임워크는 단순히 모델 성능을 예측하는 데만 그치지 않고 아키텍처 선택을 안내하며, 필요한 전처리 절차를 통보하고 학습 시작 전에 문제 있는 데이터셋을 검출하는 데도 활용될 수 있다.

paper AI 요약
동적 대형 개념 모델  적응적 의미 공간에서의 잠재적 추론

동적 대형 개념 모델 적응적 의미 공간에서의 잠재적 추론

대형 언어 모델(Large Language Models, LLMs)은 자연어 처리에서 큰 성공을 거두었지만, 이들 모델은 모든 토큰에 동일한 계산을 적용하는 통상적인 가정을 가지고 있다. 본 논문에서는 이 제약을 벗어나, [[IMG_PROTECT_N]] 동적 대형 개념 모델(Dynamic Large Concept Model, DLCM)을 제안한다. DLCM은 토큰 수준의 예측에 필요한 계산량을 최소화하고, 정보 밀도가 높은 부분에 더 많은 계산 자원을 할당함으로써 효율성을 극대화한다.

paper AI 요약
동적 모델 연합 그래프로 실시간 이상 감지

동적 모델 연합 그래프로 실시간 이상 감지

온라인 시간 시리즈 이상 감지는 데이터 포인트가 정상적인 시간 패턴에서 크게 벗어나는 것을 식별하는 작업입니다. 이 연구에서는 고주파수 데이터의 급증과 실시간 모니터링에 대한 요구 증대로 인해 오프라인 분석에서 온라인 처리로 주목이 이동했습니다. GDME(GRAPH 기반 시간 시리즈 이상 감지 모델 앙상블 프레임워크)은 이러한 문제를 해결하기 위해 그래프 구조와 커뮤니티 검출, 개념 유동성 탐지를 통합한 새로운 접근 방식을 제시합니다.

paper AI 요약
두단계 의사결정-표본 추측 가설  RL 트레이닝된 대형 언어 모델에서의 자반성의 등장 이해

두단계 의사결정-표본 추측 가설 RL 트레이닝된 대형 언어 모델에서의 자반성의 등장 이해

이 논문에서는 대형 언어 모델에서 자기 반성 능력이 어떻게 생겨나는지에 대한 이론적 해석을 제시합니다. 특히, 강화학습(RL) 훈련 과정에서 이러한 능력이 발달하는 메커니즘과 이를 기존의 감독 학습(SFT) 훈련과 어떻게 구별할 수 있는지에 대해 설명합니다.

paper AI 요약
드라이빙젠  자율주행의 미래를 그리다

드라이빙젠 자율주행의 미래를 그리다

비디오 생성 모델은 세계 모델의 한 형태로 AI에서 가장 흥미로운 분야 중 하나로 부상하고 있으며, 이는 복잡한 장면의 시간적 변화를 통해 미래를 상상할 수 있는 능력을 에이전트에게 제공합니다. 자율주행에서는 이러한 비전이 주행 세계 모델이라는 개념을 탄생시켰습니다 자신과 다른 에이전트의 미래를 상상하는 생성 시뮬레이터로, 이는 확장 가능한 시뮬레이션, 안전한 경계 사례 테스트 및 풍부한 합성 데이터 생성을 가능하게 합니다. 그럼에도 불구하고 빠르게 성장하고 있는 연구 활동에도 불구하고, 이 분야에는 진척을 측정하고 우선순위를 설정하는 엄격한 벤치마크가 부족합니다. 현재의 평가는 제약적입니다 일반적인 비디오 메트릭은 안전에 중요한 이미징 요소를 무시하며; 트레젝토리 가능성은 거의 측정되지 않으며; 시간적 및 에이전트 수준의 일관성은 간과되며; 그리고 자아 조건화에 대한 통제 가능성은 고려되지 않습니다. 또한 현재 데이터셋은 실제 세계 배치를 위해 필요한 다양성을 충분히 커버하지 못하고 있습니다. 이러한 격차를 해결하기 위해 우리는 첫 번째로 생성 주행 세계 모델을 위한 종합적인 벤치마크인 DrivingGen을 제시합니다. DrivingGen은 다양한 평가 데이터셋과 새로운 메트릭 스위트를 결합하며, 이는 시각적 실재성, 트레젝토리 가능성, 시간적 일관성 및 통제 가능성을 공동으로 평가합니다. 14개의 최신 모델을 벤치마킹한 결과 명확한 절충점이 드러났습니다 일반적인 모델은 더 잘 보이나 물리를 위반하고, 주행에 특화된 모델들은 움직임을 실제적으로 포착하지만 시각적 품질에서 뒤처집니다. DrivingGen은 신뢰할 수 있고 통제 가능하며 배포 가능한 주행 세계 모델을 육성하기 위한 통합 평가 프레임워크를 제공하여 확장 가능한 시뮬레이션, 계획 및 데이터 기반 의사결정을 가능하게 합니다.

paper AI 요약
드럼 반주 생성을 위한 세밀한 리듬 제어[DARC

드럼 반주 생성을 위한 세밀한 리듬 제어[DARC

최근에는 높은 품질의 음악적으로 일관된 보조 악기 생성이 이루어졌지만, 시간 변동 특성에 대한 세밀한 제어가 부족하다. 이 연구에서는 사용자가 리듬 프롬프트를 기록하면, 그것이 드럼으로 렌더링되는 Tap2Drum 작업을 집중적으로 다룬다. 우리의 모델 DARC는 음악적 맥락과 리듬 프롬프트를 입력으로 받아, 음악적 일관성과 리듬 프롬프트에 대한 충실도를 평가한다.

paper AI 요약
등록 슬롯과 대조적 정렬로 개선된 객체 중심 확산 학습

등록 슬롯과 대조적 정렬로 개선된 객체 중심 확산 학습

슬롯 어텐션(SA)과 사전 훈련된 확산 모델은 최근 객체 중심 학습(OCL)에 대한 잠재력을 보여주었지만, 슬롯 얽힘 및 객체 슬롯과 이미지 내용 간의 약한 정합성 문제를 겪고 있습니다. 저희는 Contrastive Object-centric Diffusion Alignment(CODA), 즉 간단한 확장 방법을 제안합니다. 이 방법은 (i) 잔여 어텐션을 흡수하고 객체 슬롯 사이의 간섭을 줄이기 위해 등록 슬롯을 사용하고, (ii) 슬롯-이미지 대응을 명시적으로 유도하기 위해 대조적 정합성 손실을 적용합니다. 결과적인 학습 목표는 슬롯과 입력 사이의 상호 정보(MI)를 최대화하는 실용적인 대체 방식으로 작동하여 슬롯 표현의 질을 강화합니다. 합성(MOVi-C/E) 및 실제 데이터셋(VOC, COCO) 모두에서 CODA는 객체 발견(예 COCO에서 +6.1% FG-ARI 증가), 속성 예측, 그리고 구성적 이미지 생성을 강력한 베이스라인보다 향상시킵니다. 등록 슬롯은 무리 없이 추가되므로 CODA는 효율적이며 확장 가능합니다. 이러한 결과는 복잡하고 실제 상황에서 견고한 OCL을 위한 효과적인 프레임워크로서 CODA의 잠재적 응용 가능성에 대한 증거를 제공합니다.

paper AI 요약
디지털 트윈 AI  대형 언어 모델에서 세계 모델까지의 기회와 과제

디지털 트윈 AI 대형 언어 모델에서 세계 모델까지의 기회와 과제

디지털 트윈은 물리적 시스템의 정확한 디지털 표현으로, 실제 세계와 양방향 연결을 유지하며 모니터링, 예측, 최적화 및 의사결정 지원을 가능하게 합니다. 이 기술은 의료, 도시 계획, 제조 등 다양한 분야에서 활용되고 있으며, 인공지능과의 통합으로 더욱 발전하고 있습니다. 디지털 트윈은 이제 단순한 모니터링 도구를 넘어 학습하고 예측하며 물리적 세계에 대한 행동을 취하는 지능형 에이전트로 진화하고 있습니다.

paper AI 요약
디지털 트윈 기반 통신 효율적인 연방 이상 감지 시스템 для 산업 IoT

디지털 트윈 기반 통신 효율적인 연방 이상 감지 시스템 для 산업 IoT

본 논문에서는 산업 인터넷_of_things(IIoT)에서 이상 감지에 대한 혼합 디지털 트윈 기반 연방 학습 프레임워크를 제안합니다. 제안된 방법은 시뮬레이션 데이터와 실제 데이터를 활용하여 강력한 전역 이상 감지 모델을 공동으로 훈련시키는 것을 목표로 하며, 이 과정에서 데이터 프라이버시를 보호하고 모델의 견고성을 높이는 동시에 통신 오버헤드를 최소화합니다.

paper AI 요약
디지털 피부과의 혁신 지도

디지털 피부과의 혁신 지도

인공지능의 피부과 분야 도입은 의료 접근성의 민주화를 약속하지만, 모델의 신뢰성이 이러한 모델을 구동하는 데이터의 품질과 포괄성에 따라 달라집니다. 공개적으로 이용 가능한 피부과 이미지의 빠른 증가에도 불구하고, 이 분야는 새로운 데이터셋이 임상적 범위를 확장시키는지 아니면 이미 알려진 내용을 단순히 재현하는지를 측정하기 위한 양적 성과 지표를 갖추고 있지 않습니다. 본 연구에서는 전체 데이터 기반에 대한 첫 번째 포괄적인 심사 프레임워크로 피부지도(SkinMap)를 제시합니다. 저희는 공개적으로 이용 가능한 피부과 데이터셋을 단일 쿼리 가능한 의미론적 아틀라스로 통합하여 피부 질환 이미지 110만 개 이상에 대한 정보적 신규성, 데이터셋 중복, 인구통계학 및 진단 간의 표현 격차를 정량화합니다. 데이터셋 크기의 지수적인 성장에도 불구하고 시간 경과에 따른 정보적 신규성은 어느 정도 정체 상태입니다 공선종양 같은 일부 클러스터는 밀집되어 있지만, 소수 피부 유형과 많은 희귀 질환은 여전히 다루어지지 않습니다. 저희는 더불어 커버리지 간의 구조적 격차를 식별합니다 피츠파트릭 V-VI 피부색을 가진 이미지는 5.8%에 불과하며, 소아 환자는 3.0%에 그치며 많은 희귀 질환과 형태 조합은 여전히 저밀도로 표현됩니다. 피부지도는 검증되지 않은 영역을 측정하고 임상적 공간의 미표현 지역으로 전략적인 데이터 수집을 유도하는 인프라를 제공합니다.

paper AI 요약
디코딩  의학적 질의응답에서 내용과 전달 분리하기

디코딩 의학적 질의응답에서 내용과 전달 분리하기

대형 언어 모델(LLMs)은 강력한 의학적 지식을 보유하고 사실적으로 정확한 답변을 생성할 수 있습니다. 그러나 기존의 모델들은 종종 개별 환자의 상황을 고려하지 못해 임상적으로는 맞지만 환자들의 요구와 잘 맞지 않는 답변을 제공하는 경향이 있습니다. 본 연구에서는 DeCode라는 훈련이 필요 없고 모델에 무관한 프레임워크를 소개합니다. 이 프레임워크는 기존 LLMs을 임상 환경에서 상황에 맞는 답변을 생성하도록 조정합니다. 우리는 OpenAI HealthBench, 즉 LLM 응답의 임상적 관련성과 유효성을 평가하기 위해 설계된 포괄적이면서도 어려운 벤치마크를 사용하여 DeCode를 평가했습니다. DeCode는 이전 최고 기록인 28.4%에서 49.8%로 성능을 향상시켰으며, 이는 상대적으로 75%의 개선입니다. 실험 결과는 LLMs의 임상적 질문에 대한 답변 품질을 개선하는 데 DeCode가 효과적임을 시사합니다.

paper AI 요약
레언캣  벤치마크로 본 카테고리 이론의 정식화

레언캣 벤치마크로 본 카테고리 이론의 정식화

이 논문에서는 대규모 언어 모델(LLM)과 에이전트 훈련을 활용한 형식적 정리 증명의 최근 발전을 다룹니다. 특히, 카테고리 이론 문제를 포함한 벤치마크 **LeanCat**을 제안하며, 현존하는 자동 증명기에 대한 평가 결과를 제공합니다. LeanCat은 카테고리 이론의 다양한 주제에 걸쳐 100개의 정리를 포함하며, 각 문제는 난이도 분류를 통해 Easy, Medium, High로 구분됩니다.

paper AI 요약
레이더 강수 예측, 실시간 학습으로 업그레이드!

레이더 강수 예측, 실시간 학습으로 업그레이드!

딥러닝의 급속한 발전으로 인해 데이터 주도형 기상 예측 방법이 특히 레이더 에코 외삽법(REE)을 통해 고해상도 강수 당일예보에 큰 관심을 받고 있습니다. 본 논문에서는 테스트 시점 학습(TTT)을 통합한 REE-TTT 모델을 제안합니다. 이 모델은 실시간 레이더 데이터를 기반으로 동적으로 특징 표현을 조정함으로써 다양한 기상 상황에 유연하게 대응할 수 있습니다.

paper AI 요약
로봇 팔과 눈의 완벽한 조화  선택 정책으로 실현

로봇 팔과 눈의 완벽한 조화 선택 정책으로 실현

인간형 로봇이 수행할 수 있는 복잡한 작업에 대해, 이 논문은 전체 몸통 조정과 적응적인 움직임을 통합하는 방법론을 제시한다. 특히, 학습 과정에서 다중 모드 행동을 포착하고 효율적으로 제어하기 위한 새로운 정책인 Choice Policy를 소개하며, 이는 신경망의 단일 순방향 패스로 빠른 추론을 가능하게 한다.

paper AI 요약
로직스-STEM  실패Driven 후속훈련과 문서지식 강화를 통한 LLM 추론 지원

로직스-STEM 실패Driven 후속훈련과 문서지식 강화를 통한 LLM 추론 지원

이 보고서에서는 추론 모델을 훈련시키는 데 필요한 데이터-알고리즘 공통 설계 엔진에 대해 이론적이고 공학적인 관점에서 다룹니다. 특히, 기존의 SFT-RL 파이프라인을 분포 일치 문제로 정식화하고 실패 중심 후 훈련 프레임워크를 설계하여 모델의 추론 능력을 개선하는 방법을 제안합니다.

paper AI 요약
루미나르크  일반 시각 생성 모델을 위한 훈련 없이 확률적으로 인증된 워터마rk 방법

루미나르크 일반 시각 생성 모델을 위한 훈련 없이 확률적으로 인증된 워터마rk 방법

컴퓨터 비전 분야의 디지털 콘텐츠 보호를 위해 워터마킹 기술이 오랫동안 사용되어 왔습니다. 그러나 AI 생성 미디어의 부상으로 인해 워터마킹의 중요성이 더욱 증가했습니다. Luminark는 신뢰할 수 있는 통계적 검출을 제공하고 다양한 이미지 변환에 대해 견고한 새로운 워터마킹 접근 방식입니다.

paper AI 요약
리소스 제약된 소매 판매 예측을 위한 LSTM 신경망 최적화  모델 압축 연구

리소스 제약된 소매 판매 예측을 위한 LSTM 신경망 최적화 모델 압축 연구

이 논문은 LSTM 압축을 통해 소매 판매 예측의 정확도를 향상시키는 방법을 연구했습니다. 특히, 128개 숨겨진 유닛에서 64개로 축소한 LSTM-64 모델이 가장 높은 성능을 보였으며, 이 모델은 기존보다 73% 더 작고 정확도는 47% 향상되었습니다. 이러한 결과는 소매업체가 제약된 컴퓨팅 자원에서도 효과적인 예측을 수행할 수 있게 해줍니다.

paper AI 요약
마에스트로  테스팅, 신뢰성 및 가시성을 위한 다중 에이전트 평가 도구

마에스트로 테스팅, 신뢰성 및 가시성을 위한 다중 에이전트 평가 도구

(LLM 기반 다중 에이전트 시스템(MAS)은 다양한 작업을 처리할 수 있으며, 이로 인해 시스템 부하와 실행 동작에 대한 불확실성이 증가한다. 본 논문에서는 MAS의 복잡한 실행 특성을 체계적으로 분석하기 위한 벤치마크인 MAESTRO를 제안하며, 이를 통해 시스템 최적화 및 연구 개발을 돕는다.)

paper AI 요약
맞춤형 CNN, 사전 훈련 모델 및 전이 학습의 시각 데이터셋 간 비교 연구

맞춤형 CNN, 사전 훈련 모델 및 전이 학습의 시각 데이터셋 간 비교 연구

본 연구에서는 커스텀 CNN, 사전 학습된 CNN을 고정 특징 추출기로 사용하는 방법, 그리고 트랜스퍼 러닝을 통해 미세 조정한 모델이라는 세 가지 CNN 기반 학습 패러다임을 체계적으로 비교하고자 한다. 이 비교는 다양한 실제 이미지 분류 데이터셋에 걸쳐 이루어진다. 본 연구에서는 정확도와 계산 효율성을 모두 고려하여, 각 패러다임의 장단점을 명확히 드러내고자 한다. ###

paper AI 요약
매니폴드 제약 하이퍼 커넥션  성능과 안정성 극대화

매니폴드 제약 하이퍼 커넥션 성능과 안정성 극대화

최근 Hyper-Connections(HC)를 비롯한 연구들은 지난 10년 동안 확립된 보편적인 잔차 연결 패러다임을 확장하고, 잔차 스트림의 폭을 넓히고 연결성 패턴을 다양화함으로써 성능 향상을 이뤘습니다. 그러나 이러한 다양화는 본질적으로 잔차 연결에 내재된 항등 맵핑 특성을 침해하여 심각한 학습 불안정과 제약된 확장성을 초래하며, 추가적으로 눈에 띄는 메모리 접근 오버헤드를 발생시킵니다. 이러한 문제들을 해결하기 위해 저희는 Manifold-Constrained Hyper-Connections(mHC)을 제안합니다. mHC는 HC의 잔차 연결 공간을 특정 다양체로 투영하여 항등 맵핑 특성을 복원하고, 효율성 확보를 위한 철저한 인프라 구조 최적화를 포함하는 일반적인 프레임워크입니다. 경험적 실험은 mHC가 대규모 학습을 효과적으로 수행하며 실질적인 성능 향상과 우수한 확장성을 제공함을 보여줍니다. mHC는 HC의 유연하고 실용적인 확장으로서, 구조 설계에 대한 깊이 있는 이해와 기초 모델의 진화를 위한 유망한 방향을 제시할 것으로 예상됩니다.

paper AI 요약
맨리폴드 일관 그래프 인덱싱  대용량 벡터 검색의 새로운 지평

맨리폴드 일관 그래프 인덱싱 대용량 벡터 검색의 새로운 지평

대형 언어 모델(LLMs)의 등장은 정보 검색과 지식 관리의 풍경을 근본적으로 변화시켰습니다. LLMs의 내재적 한계를 해결하기 위해 RAG(Retrieval-Augmented Generation)가 중요한 아키텍처 패러다임으로 떠올랐습니다. 이는 실시간으로 대규모 코퍼스에서 의미론적으로 관련된 컨텍스트를 검색하는 능력에 크게 의존합니다. 이 종속성은 근사 최근접 이웃 탐색(ANNS)을 현대 데이터 인프라의 핵심으로 자리매김하게 만들었고, 엄격한 생산 제약 하에서 백억 개 포인트 데이터셋까지 확장 가능한 벡터 인덱스를 요구합니다. 최첨단 ANNS 솔루션은 주로 그래프 기반 인덱스에 집중되었으며, DiskANN(Vamana)는 SSD 주재 로드의 대표적인 예입니다. 이 알고리즘들은 일반적으로 거리 그래프에서 탐색 경로를 그리디 라우팅을 통해 네트워크의 출발 지점에서 쿼리 목표까지 이동합니다. 이러한 방법은 SIFT1M과 같은 표준 벤치마크에서 우수한 성능을 보이지만, GIST1M과 같이 고차원 공간에서는 효율성이 크게 떨어집니다. 이를 차원의 저주로 설명하며, 유클리드 최단 경로가 데이터 맨입OLD 위의 기하학적 경로와 일치하지 않게 됩니다. 이 현상을 우리는 *유클리드-기하학적 불일치*라고 부릅니다. 우리의 핵심 통찰은 고차원 실제 데이터가 균일하게 분포되지 않는다는 것입니다. 대신, 그것은 일반적으로 맨입OLD 가설에 따라 임베딩된 하위 차원 구조 위에 존재합니다. 따라서 검색 난이도는 데이터셋 전체에서 균일하지 않고 지역적 내재 차원(LID)에 의해 조정됩니다. 우리는 이 문제를 해결하기 위해 Manifold-Consistent Graph Indexing(MCGI), 즉 기하학을 인식하는 디스크 기반 인덱싱 아키텍처를 제안합니다. LID 추정을 라우팅 로직에 통합함으로써 MCGI는 데이터의 지역적인 위상에 따라 탐색 전략을 조정할 수 있습니다.

paper AI 요약
모델이 데이터를 외웠는지 알아내는 방법은?

모델이 데이터를 외웠는지 알아내는 방법은?

이 논문에서는 대형 언어 모델(LLMs)의 데이터 기억 문제를 다루며, 특히 추천 시스템에서 사용되는 MovieLens-1M 데이터셋을 통해 LLMs가 얼마나 많은 훈련 데이터를 기억하는지 탐색합니다. 우리는 수동 프롬프팅, 무감독 잠재 지식 발견, 자동 프롬프트 엔지니어링 세 가지 접근 방법을 사용하여 이 문제를 해결하고자 합니다.

paper AI 요약
모든 침이 발견되지 않음  사실 분포와 만드려고 하지 말아요 프롬프트가 직설적 추출, 논리적 추론 및 환영 위험에 미치는 영향

모든 침이 발견되지 않음 사실 분포와 만드려고 하지 말아요 프롬프트가 직설적 추출, 논리적 추론 및 환영 위험에 미치는 영향

본 연구는 장문 컨텍스트를 처리하는 대형 언어 모델(LLMs)의 성능을 평가하고, 실제 문서에서 정보 추출과 논리적 추론에 대한 새로운 평가 방법론을 제시한다. 이를 위해 “Needle-in-a-Haystack” 테스트를 확장하여 다양한 정보 분포와 위치를 시뮬레이션하고, 반-구체화(anti-hallucination) 프롬프트의 영향을 분석한다. 실험 결과는 더 긴 컨텍스트가 항상 성능을 개선하지 않는다는 것을 보여주며, 모델 간에 정보 처리 능력이 다르다는 점을 강조한다.

paper AI 요약
No Image

모호한 상황에서 논리적으로 판단하기 가능성을 활용한 새로운 접근법

우리는 퍼지 형식적 문맥에서 가능주의 추론을 위한 이중 정렬 가중 모달 논리를 소개한다. 이 논리의 구문은 고전적인 필수성($ Box$)과 충분성($ boxminus$) 모달 연산자를 포함하는 두 가지 유형의 가중 모달 연산자를 포함하며, 그 공식들은 가능성 이론을 기반으로 한 퍼지 형식적 문맥에서 해석된다. 논리는 모든 퍼지 컨텍스트 모델에 대해 emph{정합적}인 축소화를 제시한다. 또한 논리의 필수성과 충분성 프래그먼트는 각각 모든 퍼지 컨텍스트 모델에 대해 개별적으로 완전하다. 논리의 표현력은 몇 가지 예시를 통해 강조된다. 형식적 문맥이 형식 개념 분석(FCA)의 기본 구조인 경우, 우리는 FCA의 세 가지 주요 개념, 즉 형식적 개념, 객체 중심 개념 및 속성 중심 개념을 각각 퍼지 형식적 문맥에서 그에 해당하는 $c$-컷 개념으로 일반화한다. 그런 다음 우리의 논리 언어가 이들 모든 일반화된 개념을 표현할 수 있음을 보인다. 마지막으로, 우리는 논리를 다중 관계 퍼지 컨텍스트에 대한 추론 확장 가능성의 가능성을 보여주며, 여기서 서로 다른 퍼지 관계의 불리안 조합이 허용된다.

paper AI 요약
무선 미래를 잡는 새로운 다중화 기술

무선 미래를 잡는 새로운 다중화 기술

[^1] Lei Liu와 Zhaoyang Zhang은 중국 칭다오의 중화과학기술대학교 정보과학과 전자공학대학원 및 복수모드 통신네트워크와 인тел리전트 정보처리 연구소에 소속되어 있으며, Lei Liu는 또한 시안의 서전대학교 통합서비스 네트워크 국가핵심연구소에 소속되어 있습니다 (이메일 {lei_liu, ning_ming}@zju.edu.cn). [^2] Yuhao Chi는 중국 시안에 위치한 서전대학교 통신공학부 통합서비스 네트워크 국립중점연구소에 소속되어 있습니다 (이메일 yhchi@xidian.edu.cn). [^3] Shunqi Huang는 일본의 고다이라시에 위치한 일본과학기술원 정보과학과에 소속되어 있습니다 (이메일 shunqi.huang@jaist.ac.jp). [^4] 이 작업의 소스 코드는 공개적으로 이용 가능하며, [<span style= color blue >GitHub</span>](https //github.com/LeiLiu-s-Lab/Random-Multiplexing)에서 확인할 수 있습니다. ---

paper AI 요약
No Image

문서 구조 이해로 인간 수준의 개념 학습 달성

인간 수준의 개념 학습은 아직 덜 탐구된 연구 분야입니다. 인간이 쉽게 처리할 수 있지만 기계에게는 여전히 어려운 문제를 해결하려는 목표를 가지고 있습니다. 사람들은 몇 개의 샘플만으로도 새로운 개념을 배우지만, 기계 학습 방법은 상관 관계와 특징 이해를 위해 많은 예제가 필요합니다. 이 논문에서는 문서 분류 작업에 인간 수준의 개념 학습 접근법을 활용했습니다. 현재 접근법들은 문서 컨텍스트를 바탕으로 문서를 분류하는데, 레이블링 데이터가 충분하고 문서 컨텍스트가 클래스를 구별하는 데 충분히 정보적이라는 가정을 합니다. 그러나 이미지 정보를 사용하는 방법은 레이블링 과정을 복잡하게 만듭니다. 우리의 솔루션은 텍스트와 좌표 모두를 통해 의미를 파악함으로써 순수 텍스트 기반 모델들이 무시하는 공간적 근거를 활용할 수 있도록 합니다.

paper AI 요약
물어보고 명확히하고 최적화하기  인벤토리 관리를 위한 인간-LLM 에이전트 협업

물어보고 명확히하고 최적화하기 인벤토리 관리를 위한 인간-LLM 에이전트 협업

재고 관리는 전문 지식이 부족한 많은 중소기업들에게 여전히 도전 과제입니다. 본 논문은 Large Language Models (LLMs)가 이 격차를 좁힐 수 있는지 조사하였습니다. LLMs을 직접적인 종단 종단 해결자로 활용하면 환영세 라는 성능 간극이 발생함을 보였습니다. 여기서 환영세 는 모델이 기반 확률적 추론을 수행하지 못함으로 인한 성능 차이를 말합니다. 이를 해결하기 위해 우리는 의미적 추론과 수학적 계산을 엄격히 분리하는 하이브리드 에이전시 프레임워크를 제안하였습니다. 이 구조에서 LLM은 지능적인 인터페이스로 작용하여 자연어로부터 매개변수를 발췌하고 결과를 해석하며, 철저한 알고리즘을 자동으로 호출하여 최적화 엔진을 구축합니다. 이 상호작용 시스템을 실제 관리자 대화의 모호성과 일관되지 않은 부분에 대해 평가하기 위해 우리는 Human Imitator라는 유계 합리적인 매니저의 디지털 트윈 형태의 조정된 버전을 도입하였습니다. 이는 규모가 크고 재현 가능한 스트레스 테스트를 가능하게 합니다. 우리의 경험적 분석은 하이브리드 에이전시 프레임워크가 GPT-4o를 종단 종단 해결자로 사용하는 상호작용 기준치에 비해 총 재고 비용을 32.1% 감소시키는 것을 보여주었습니다. 또한, 완벽한 기본 진실 정보만 제공한다고 해서 GPT-4o의 성능이 향상되는 것은 아니라는 점을 발견하였습니다. 이로써 병목 현상은 근본적으로 계산적인 문제가 아니라 정보적 문제는 아님을 확인할 수 있었습니다. 우리의 결과는 LLMs가 운영 연구를 대체하는 것이 아니라, 엄격한 해결자 기반 정책에 접근 가능하게 만드는 자연어 인터페이스로서의 위치를 제시합니다.

paper AI 요약
반복과 진화  더 나은 학습 문제 생성

반복과 진화 더 나은 학습 문제 생성

최근의 추론 모델 개발은 수학과 코딩 분야에서 인상적인 성과를 보여주고 있다. 그러나 대부분의 접근 방법은 정적 데이터셋에 의존하고 있으며, 이는 기억력 유도와 일반화 능력 제한을 초래할 가능성이 있다는 지적이 있다. 우리는 이러한 패러다임에서 벗어나 모델 훈련 과정에서 다채로운 종류의 합성 수학 문제를 함께 진화시키는 프레임워크인 DéjàQ를 소개한다. 이 진화적 과정은 훈련 과정 내내 모델의 능력에 맞춰 조정되어 학습 가능성 최적화를 목표로 한다. 모델 자체가 훈련 데이터를 변이시키는 두 가지 LLM 주도 전략을 제안하며, 이는 문맥적 세부 사항을 변경하거나 문제 구조를 직접 수정하는 방식으로 이루어진다. 우리는 모델이 새로운 의미 있는 문제를 생성할 수 있으며, 이러한 LLM 주도 변이가 강화 학습 훈련을 개선한다는 것을 발견했다. DéjàQ의 핵심 요소인 생성된 문제의 유효성과 계산 부담 등을 분석한다. 우리의 결과는 동적으로 진화하는 훈련 데이터가 수학적 추론 능력을 강화할 잠재력을 보여주며, 이를 지원하기 위해 코드를 오픈 소스로 공개할 예정이다.

paper AI 요약
No Image

방어적 M2S 압축된 다중 대화로 가드레일 모델 훈련

대규모 언어 모델(Large Language Models, LLMs)은 다양한 작업에서 놀라운 능력을 보여주지만, 악의적인 공격에 대한 취약성이 여전히 심각한 문제입니다. 특히 *다중 대화 턴 자장개(jailbreak)* 공격은 모델을 점진적으로 조작하여 안전 경계를 우회하고 해로운 출력을 유도합니다. 본 논문에서는 이러한 공격에 대한 방어적 대응으로 Multi-turn to Single-turn (M2S) 압축 기법을 이용한 Defensive M2S 훈련 패러다임을 제안합니다. 이 접근법은 다중 대화를 단일 대화로 압축하여 안전 검출 모델의 학습 비용을 획기적으로 줄이며, 동시에 정확도를 유지하거나 향상시킵니다.

paper AI 요약
밴디크  다중과제 분해의 새 지평

밴디크 다중과제 분해의 새 지평

다중 작업 간에 효과적으로 지식을 전이하는 과제는 중요하며, 기반 모델의 하류 작업에서도 존재합니다. 그러나 전이의 이동성 비이동성 성질은 여전히 개방적인 문제이며, 부정적 전이는 중요한 장애물입니다. 다중 작업 학습에서 유익한 보조 작업 집합을 선택하는 것은 그 평가에 따른 높은 계산 비용, 가능한 후보 보조 작업 집합의 큰 수량, 그리고 대상 작업 간 복잡성 차이로 자주 방해받습니다. 이러한 제약 조건을 해결하기 위해 우리는 다중 밴딧을 사용한 세 단계 다중 작업 보조 작업 부분 선택 방법인 BandiK을 소개합니다. 각 팔 당 후보 보조 작업 집합은 단일 무작위 학습-테스트 데이터셋 분할에서 다중 출력 신경망의 학습과 테스트를 통해 평가됩니다. 첫 번째로, BandiK은 작업 간 쌍방향 전이를 추정하여 공동 학습으로부터 이익을 얻을 가능성이 높은 작업들을 식별하는 데 도움을 줍니다. 두 번째 단계에서는 초기 추정에 기반해 각 대상 작업에 대해 보조 작업 후보 집합의 선형 수(전체 작업 수에서)를 생성하여 잠재적인 보조 작업 집합의 지수적 수량을 크게 줄입니다. 세 번째로, BandiK은 각 작업에 대해 다중 팔 밴딧(MAB) 프레임워크를 사용하며, 이때 팔들은 후보 보조 작업 집합이 학습-테스트 데이터셋 분할에서 다중 출력 신경망으로 구현된 성능을 대응합니다. 효율성을 높이기 위해 BandiK은 각각의 작업별 MAB를 다중 밴딧 구조로 통합합니다. 제안된 다중 밴딧 솔루션은 동일한 신경망이 주어진 후보 집합에 대한 개별 밴딧들의 다양한 팔을 실현한다는 점에서 이점을 활용합니다. 이러한 부분 겹침 팔 특성은 BandiK에서 사용되는 새로운 형태의 다중 밴딧 비용/수익 구조를 정의합니다.

paper AI 요약
번성하거나 쇠퇴할 것인가? 함수형 프로그래밍을 위한 코드 생성에 대한 종합평가

번성하거나 쇠퇴할 것인가? 함수형 프로그래밍을 위한 코드 생성에 대한 종합평가

함수형 프로그래밍은 명령형 프로그래밍에 대비하여 수학적 함수의 평가로 계산을 개념화하는 선언적 프로그래밍 패러다임입니다. 이 연구는 인공지능 기반 코딩 어시스턴트인 LLMs(Large Language Models)가 함수형 언어에서 코드 생성에 얼마나 효과적인지를 체계적으로 평가합니다. 이를 위해 새로운 벤치마크 데이터셋인 FPBench와 FPEval이라는 종합평가 프레임워크를 도입하여, 각 모델의 성능을 정확성과 함께 유지보수 가능성 및 코딩 스타일에 대한 점검까지 평가합니다. 연구 결과, 최신 LLMs은 함수형 언어에서 코드 생성 능력이 크게 향상되었지만, 명령형 언어와 비교해 성능 차이는 여전히 존재하며, 생성된 코드의 코딩 스타일과 유지보수 가능성에 대한 개선 필요성이 제기됩니다.

paper AI 요약
병리학 모델, 데이터 변동에 어떻게 대응할까?

병리학 모델, 데이터 변동에 어떻게 대응할까?

본 논문은 병리학 분야의 비전-언어 모델(VLM)에서 데이터 변화에 따른 성능 저하를 탐지하는 방법을 연구합니다. 특히, DomainSAT이라는 GUI 기반 도구를 개발하여 데이터 변이를 쉽게 탐지하고 시각화할 수 있게 했습니다. 또한, 라벨 없이도 모델의 신뢰성 하락을 감지할 수 있는 신뢰도 기반 성능 저하 지표(CDI)를 제안합니다.

paper AI 요약
병변합성  분리된 편차 확산을 통한 영상-병리학적 MRI 합성

병변합성 분리된 편차 확산을 통한 영상-병리학적 MRI 합성

PathoSyn은 이미지 합성에 있어서 해상도 병합 모델로, 이는 MRI 영상을 생성하는 통합적인 방법론으로서, 해부학적 토대 위에 분리 가능한 가변 요소를 추가함으로써 병리학적 정보를 표현합니다. 현재의 합성 모델들은 전역 픽셀 도메인에서 작동하거나 이진 마스크에 의존하는 경우가 많으며, 이러한 접근법은 종종 특징이 얽히는 문제를 일으켜 해부학적 기반을 손상시키거나 구조적인 불연속성을 초래합니다. PathoSyn은 이러한 제한점을 해결하기 위해 합성 작업을 확률적인 변동 모델링과 결정론적인 해부학 재구성으로 분해합니다. 이 프레임워크의 중심에는 병리학적 잔차의 조건부 분포를 학습하도록 설계된 변동 공간 확산 모델이 있으며, 이를 통해 국소 강도 변화를 포착하면서 동시에 전역 구조적인 일관성을 유지합니다. 공간적 일관성을 보장하기 위해 확산 과정은 틈새에 대한 인식 융합 전략과 추론 시 안정화 모듈과 결합되어 있으며, 이들로 인해 경계 부위의 아트팩트를 억제하고 높은 신뢰도의 내부 병변 다양성을 생성합니다. PathoSyn은 수학적으로 원칙적인 파이프라인을 제공하여 고유한 환자 데이터셋을 합성하는 것을 가능하게 하여, 낮은 데이터 상황에서도 강력한 진단 알고리즘 개발을 돕습니다. 해석 가능한 대안적 질병 진행 모델링을 허용함으로써 이 프레임워크는 정밀 처치 계획을 지원하고 임상 의사결정 지원 시스템의 벤치마킹 환경을 제공합니다. 양적 및 질적 평가 결과에 따르면 PathoSyn은 전반적인 확산과 마스크 조건화된 기준보다 인식 가능한 현실성과 해부학적 신뢰도 모두에서 우수한 성능을 보여줍니다. 이 연구의 소스 코드는 공개될 예정입니다.

paper AI 요약
보안 통신의 새로운 시대  의미 정보 보호

보안 통신의 새로운 시대 의미 정보 보호

의미 통신은 메시지 복원에만 집중하는 대신 작업 관련 의미를 전달함으로써 차세대 무선 시스템에서 대역폭 효율성과 견고성을 향상시키지만, 학습된 의미 표현이 여전히 예기치 않은 수신자(espionage)에게 민감한 정보를 유출할 가능성이 있습니다. 이 논문은 다수의 수신자 작업을 지원하면서 동시에 esponeage에 대한 의미 유출을 명시적으로 제한하는 딥러닝 기반 의미 통신 프레임워크를 제시합니다. 정당한 링크는 전송기에서 학습된 인코더를 사용하며, 수신기는 의미 추론과 데이터 복원을 위한 디코더를 훈련합니다. 보안 문제는 반복적 최소-최대 최적화를 통해 구성되며, 여기서 esponeage는 의미 추론을 개선하기 위해 훈련되고 정당한 송신자-수신자 쌍은 임무 성능 유지하에 esponeage의 성공률을 줄이기 위해 훈련됩니다. 또한 전송된 파형 위에 협력적이고 적대적으로 구상된 변동을 겹치는 보조 레이어를 도입하여 esponeage에게 의미 유출을 저하시키도록 합니다. 성능은 MNIST와 CIFAR-10 데이터셋을 사용한 가우시안 잡음과 Rayleigh 침식 채널에서 평가됩니다. 잠재 차원이 증가함에 따라 의미 정확도와 복원 품질이 향상되며, 최소-최대 메커니즘은 정당한 수신자의 성능을 저하시키지 않고 esponeage의 추론 성능을 크게 감소시킵니다. 이 보조 레이어는 정당한 링크가 자신의 임무만을 위해 훈련된 경우에도 의미 유출을 줄이는 데 성공합니다. 이 포괄적인 프레임워크는 적응적 대상자에 대한 조절 가능한 종단간 사생활 보호를 갖춘 의미 통신 설계를 촉구하며 실제 무선 환경에서의 사용을 모티베이트하고 있습니다.

paper AI 요약
보편 조건 논리  프롬프트 엔지니어링을 위한 형식 언어

보편 조건 논리 프롬프트 엔지니어링을 위한 형식 언어

이 논문은 자연어 지시를 코드로 실행하는 대형 언어 모델(LLM)에 대한 새로운 패러다임을 제안한다. 이를 위해 *일반 조건 로직* (UCL)이라는 형식 언어를 도입하여, 프롬프트 엔지니어링을 체계적인 최적화로 이끈다. 또한, 지시의 상세 수준이 품질에 비선형적으로 영향을 미치는 과도한 지시 패러독스 를 설명하고, 이를 극복하기 위한 구조적 오버헤드와 품질 함수를 제시한다.

paper AI 요약
볼칸  LLM 기반 검색을 통한 인스턴스 최적 시스템 휴리스틱

볼칸 LLM 기반 검색을 통한 인스턴스 최적 시스템 휴리스틱

현대의 운영 시스템과 분산 시스템에서 리소스 관리 작업은 스케ジューリング, 캐싱, 또는 활성 큐 관리를 위한 주로 손으로 설계된 휴리스틱에 의존하고 있습니다. 성능이 좋은 휴리스틱을 설계하는 것은 하드웨어, 워크로드 및 환경의 지속적인 변화로 인해 비용이 많이 들고 시간이 오래 걸리는 과정입니다. 저희는 새로운 대안을 제안합니다 코드 생성형 대형 언어 모델(LLM)을 사용하여 특정 작업과 하드웨어에 특화된 인스턴스 최적 휴리스틱을 합성하는 것입니다. 이 합성을 가능하게 하기 위해 Vulcan은 LLM 친화적인 작업 무관 인터페이스를 통해 정책과 메커니즘을 분리합니다. 이러한 인터페이스를 통해 사용자는 원하는 정책의 입력과 목표를 지정하고, Vulcan은 LLM 생성 코드를 통해 진화 알고리즘을 이용해 성능이 좋은 정책을 탐색합니다. 이 인터페이스는 다양한 시스템 정책을 포괄할 만큼 표현력이 있지만, 작은 규모의 저렴한 LLM들도 올바르고 실행 가능한 코드를 생성할 수 있을 정도로 제약적입니다. 저희는 Vulcan을 이용해 캐시 추방 및 메모리 라이어링에 대한 성능이 좋은 휴리스틱을 합성하고, 이러한 휴리스틱들이 각각의 작업에서 최대 69%와 7.9%의 성능 개선으로 인간 설계의 최신 알고리즘보다 우수함을 발견하였습니다.

paper AI 요약
No Image

분산 학습 전략의 숨겨진 비밀 메모리와 통신량 예측하기

(이 논문은 분산 딥러닝에서 이론과 실무 간의 격차를 다룹니다. 700억 개의 파라미터를 가진 모델을 훈련시키는 데 필요한 메모리는 약 1,120GB로, 현재 GPU가 갖는 80GB 용량을 크게 초과합니다. 이를 해결하기 위해 데이터 병렬화, ZeRO/Fully Sharded Data Parallel (FSDP), 텐서 병렬화, 파이프라인 병렬화 및 전문병렬화와 같은 병렬화 전략들이 사용됩니다. 논문은 이러한 병렬화 전략의 구현을 통해 메모리와 통신 비용을 파악하고 이를 시스템적으로 분석하는 프레임워크를 제시합니다.)

paper AI 요약
불확실성 인식 및 포기 가능 신경과 급성 무혈관 스토크 이미징 결정을 위한 설명 가능한 에이전트 AI 프레임워크

불확실성 인식 및 포기 가능 신경과 급성 무혈관 스토크 이미징 결정을 위한 설명 가능한 에이전트 AI 프레임워크

인공지능 모델은 특히 컴퓨터 단층 촬영 및 자기 공명 영상 기술을 활용한 급성 혈관 Occlusion 뇌졸중 영상 분석에서 강력한 잠재력을 보여주고 있다. 그러나 대부분의 기존 접근 방식들은 불확실성을 명시적으로 인지하지 않거나 모호한 조건 하에서 구조화된 중단 메커니즘을 갖추지 않는 블랙박스 예측기를 운영한다. 이 한계는 고위험 응급 영상의학 환경에서 심각한 안전 및 신뢰성 문제를 일으킨다. 본 논문에서는 급성 혈관 Occlusion 뇌졸중 영상 분석에 대한 불확실성을 인지하고 중단 가능한 의사결정 지원을 위한 설명 가능하고 에이전트 기반 AI 프레임워크를 제안한다. 이 프레임워크는 모듈형 에이전트 파이프라인을 따르며, 여기서 인식 에이전트는 병변 감지 영상 분석을 수행하고, 불확실성 추정 에이전트는 슬라이스 수준의 예측 신뢰도를 계산하며, 의사결정 에이전트는 사전 정의된 불확실성 임계값에 따라 예측을 내보내거나 중단할지 결정한다. 이 프레임워크는 기존의 뇌졸중 영상 시스템들이 주로 분할 또는 분류 정확도를 향상시키는데 초점을 맞추는 것과 달리, 임상 안전성, 투명성 및 임상 의사와 일치하는 의사결정 행동을 명시적으로 우선시한다. 대표적인 뇌졸중 영상 시나리오에 대한 질적 및 사례 기반 분석은 진단적으로 모호한 지역과 정보가 적은 슬라이스에서 불확실성에 따른 중단이 자연스럽게 발생함을 보여준다. 이 프레임워크는 예측 및 중단 결정을 지원하기 위해 시각적 설명 메커니즘을 통합하여 기존의 불확실성을 인식한 의료 영상 시스템의 주요 한계를 해결한다. 성능 벤치마크를 도입하는 것이 아닌, 이 연구는 안전하고 신뢰할 수 있는 의료 이미징 AI 시스템 개발을 위한 필수 설계 원칙으로 에이전트 제어, 불확실성 인식 및 선택적 중단을 제시한다.

paper AI 요약
비전-언어-액션 계획의 새로운 시대  가치 함수로 성능 향상

비전-언어-액션 계획의 새로운 시대 가치 함수로 성능 향상

> Vision-Language-Action(VLA) 모델은 로봇 조작에 강력한 일반화 정책으로 등장했지만, 행동 클로닝에 의존하기 때문에 분포 변동 시 민감하고 취약하다. 사전 훈련된 모델을 Monte Carlo Tree Search(MCTS)와 같은 검색 알고리즘으로 보완해도 VLA prior가 미래의 기대 수익률을 추정하는 데 부족함이 있어, 정확하지 않은 prior는 광범위한 시뮬레이션 없이는 행동 선택을 수정할 수 없다. 이를 해결하기 위해 우리는 Value Vision-Language-Action Planning and Search(V-VLAPS) 프레임워크를 도입하여 MCTS에 가벼운 학습 가능한 가치 함수를 추가한다. VLA 백본의 잠재 표현(Octo) 위에서 간단한 다층 퍼셉트론(MLP)을 훈련시켜 검색에 명시적인 성공 신호를 제공하고, 이를 통해 행동 선택이 높은 가치 영역으로 편향된다. LIBERO 로봇 조작 스위트에서 V-VLAPS를 평가한 결과, 우리의 가치 지향적 검색이 성공률을 5% 이상 향상시키고 MCTS 시뮬레이션의 평균 횟수를 5-15% 줄이는 것으로 나타났다.

paper AI 요약
비트를 넘어  극한 양자화를 위한 다중 캡슐 이중 이진 인수분해

비트를 넘어 극한 양자화를 위한 다중 캡슐 이중 이진 인수분해

이 논문은 DBF의 성능 한계를 극복하기 위해 Multi-Envelope Double Binary Factorization (MDBF)을 제안한다. MDBF는 기존의 단일 랭크 평가 범위에 제한된 이진 패턴 대신, 여러 개의 평가 범위 모드를 사용하여 정확도를 향상시킨다. 이를 통해 1비트에서 2비트까지의 저정밀도에서도 높은 성능을 유지할 수 있다.

paper AI 요약
빌딩 블록에서 계획까지  강화학습을 활용한 대형 언어 모델의 다단계 공간 추론

빌딩 블록에서 계획까지 강화학습을 활용한 대형 언어 모델의 다단계 공간 추론

공간 추론은 네비게이션 및 계획 등 다양한 응용 분야에서 주목받고 있는 큰 언어 모델(LLMs)의 특징이다. 그럼에도 불구하고, LLMs는 구조화된 환경에서 공간 변환과 다단계 계획에 여전히 어려움을 겪고 있다. 본 논문에서는 두 단계 접근법을 제안한다. 이 방법은 공간 추론을 원자적 구성 요소와 그것들의 조합으로 분해한다. 첫째, 회전, 평행이동 및 스케일링과 같은 기본적인 공간 변환에 대해 감독 학습을 통해 모델에 기본적인 공간 물리학을 제공하기 위해 훈련을 진행한다. 그런 다음 이 물리학 인식 모델을 동결하고 GRPO 프레임워크 내에서 가벼운 LoRA 어댑터를 훈련시켜, 수수께끼 기반 환경에서 다단계 계획을 위한 이러한 구성 요소들을 조합하는 정책을 학습한다. 이를 위해 아스키아트 데이터셋을 합성하고 해당 아스키 기반 강화 학습 환경을 구축한다. 우리의 방법은 동적인 환경과 정적인 환경 모두에서 일반 베이스라인, 물리학 인식 모델 및 end-to-end RL 모델을 능가하며, 특히 수수께끼 기반 환경에서는 더욱 우수한 성능을 보여준다. 또한 제안된 접근법은 처음부터 강화 학습을 진행하는 것보다 더 빠르게 수렴하고 훈련이 안정적이다. 마지막으로 우리는 주의 패턴을 분석하여 페인트를 통해 공간 이해력에서 의미 있는 개선이 이루어졌는지 평가한다.

paper AI 요약
No Image

상태 공간 모델과 트랜스포머의 장기 컨텍스트 다이어딕 세션에서의 계산 및 표현 효율 비교 연구

상태 공간 모델(SSMs)은 오랜 문맥 시퀀스 모델링에 있어서 변형자(Transformer)의 대안으로 주목받고 있으며, 변형자의 $O(N^2)$ 스케일링과 비교하여 선형적인 $O(N)$ 계산 복잡도를 제공합니다. 본 논문은 Mamba SSM이 LLaMA 변형자를 오랜 문맥 시퀀스에서 어떻게 비교되는지에 대한 포괄적인 벤치마킹 연구를 제시하며, 이를 위해서는 이원 치료 세션이 대표적인 테스트 사례로 사용되었습니다. 두 아키텍처는 두 가지 차원을 통해 평가됩니다 (1) 계산 효율성, 여기서 512에서 8,192 토큰까지 메모리 사용량과 추론 속도를 측정하고, (2) 표현력 효율성, 여기서는 숨겨진 상태 동역학과 주의 패턴을 분석합니다. 우리의 발견은 오랜 문맥 응용 프로그램을 다루고 있는 실무자들에게 행동 가능한 통찰력을 제공하며, SSM이 변형자보다 우위에 설 수 있는 정확한 조건을 설정합니다.

paper AI 요약
새로운 컴파일러 스택  LLM과 컴파일러의 시너지 조사

새로운 컴파일러 스택 LLM과 컴파일러의 시너지 조사

컴파일러는 수십 년 동안 프로그래밍 코드를 인간이 이해할 수 있는 형태에서 기계가 실행 가능한 형태로 변환하는 핵심적인 역할을 해왔다. 최근에는 대형 언어 모델(LLMs)이 컴파일러의 역할에 새로운 변화를 가져오고 있다. 이 연구는 LLMs를 이용한 컴파일러 관련 작업을 체계적으로 검토하고 분류하며, 이를 통해 현재 연구 동향과 미래 방향성을 제시한다.

paper AI 요약
생각의 흐름으로 언어 모델링

생각의 흐름으로 언어 모델링

Transformer 언어 모델은 언어를 토큰의 시퀀스로 모델링하여 뛰어난 자연스러운 텍스트를 생성할 수 있지만, 주로 표면적 동시 발생 통계에 의존하기 때문에 전체적으로 일관된 잠재 표현을 형성하지 못하며, 이는 관계적 일반화 능력의 부족(역전呚的詛咒), 上下文化錯誤和數據低效等問題。相比之下,認知科學表明,人類理解將語言輸入轉換為緊湊的事件類似表示,這些表示在記憶中持久存在,而逐字形式則是短暫的。受這些發現的啟發,我們提出了思想完形(TG)模型,這是一種遞歸變壓器,它在兩個抽象層次上對語言進行建模:令牌和句子級“思維”狀態。TG 一次生成一个句子,并通过交叉注意力关注先前句子表示的工作记忆。使用共享堆栈的变压器块生成标记和句子表示,并通過單一目標(下一個標記預測損失)進行訓練。通過保留寫入工作內存的句子表示的計算圖,來自未來令牌損失的梯度通過交叉注意流回以優化生成早期句子向量的參數。在擴展實驗中,TG 在數據和參數效率方面始終比匹配的 GPT-2 運行和其他基線有所提高,擴展適配表明 GPT-2 需要約 5-8% 更多的數據和約 33-42% 更多的參數以匹配 TG 的測試損失。TG 也在父親兒子逆轉詛咒探針上的關係方向泛化錯誤中有所減少。

paper AI 요약
생명을 구하는 플라센타 아크레타 딥러닝

생명을 구하는 플라센타 아크레타 딥러닝

플라세น타 아크레타 스펙트럼(PAS)은 자궁벽으로의 비정상적인 태반 침습을 포함하는 산부인과에서 생명을 위협하는 합병증입니다. 모성 및 신생아 위험성을 줄이기 위해서는 조기에 정확한 임신 중 진단이 필수적입니다. 본 연구의 목적은 다양한 영상 모달리티를 통합하여 PAS 검출을 향상시키는 딥러닝 프레임워크를 개발하고 검증하는 것입니다. 3차원 자기 공명 영상(MRI)과 2차원 초음파(US) 스캔을 결합한 중간 특성 수준 융합 아키텍처를 사용하여 다중 모달 딥러닝 모델을 설계하였습니다. 체계적인 비교 분석 후, MRI용 3D DenseNet121-비전 트랜스포머와 US용 2D ResNet50을 단일 모달 특성 추출기로 선택했습니다. 1,293개의 MRI 및 1,143개의 US 스캔으로 구성된 정제 데이터셋을 사용하여 단일 모달 모델을 훈련하고, 다중 모달 모델 개발과 평가를 위해 환자 매칭 MRI-US 스캔 쌍 샘플을 분리했습니다. 독립적인 테스트 세트에서 다중 모달 융합 모델은 92.5%의 정확도와 수신기 작동 특성 곡선(AUC) 아래 넓이인 0.927의 우수한 성능을 달성하여 MRI만(82.5%, AUC 0.825) 및 US만(87.5%, AUC 0.879) 모델보다 더 나은 결과를 보였습니다. MRI와 US 특성을 통합하면 진단 정보가 서로 보완되어 임신 중 위험 평가를 향상시키고 환자 결과를 개선할 수 있는 강력한 가능성을 보여줍니다.

paper AI 요약
생명체의 자가회복, 분산계산에 새 바람

생명체의 자가회복, 분산계산에 새 바람

인간 생물학적 시스템은 뛰어난 유연성을 통해 생명을 유지하며, 손상 감지와 표적화된 반응 조정, 그리고 자체 치유를 통한 기능 복원을 계속하고 있습니다. 이러한 능력에 영감 받아 이 논문에서는 분산 컴퓨팅 연속 체계(DCCS)에서 탄력성을 달성하기 위해 생물학적으로 모티브화된 자가치유 프레임워크인 ReCiSt를 소개합니다. 현대의 DCCS는 리소스 제약이 있는 IoT 장비부터 고성능 클라우드 인프라에 이르기까지 다양한 컴퓨팅 자원을 통합하며, 내재한 복잡성, 모빌리티 및 동적인 운영 조건은 서비스 연속성을 방해하는 빈번한 결함에 노출됩니다. 이러한 과제들은 확장 가능하고 적응적이며 자기조절 탄력성을 달성하기 위한 전략의 필요성을 강조합니다. ReCiSt는 DCCS를 위해 생물학적 단계인 혈전, 염증, 증식, 재모델링을 각각 통제, 진단, 메타-인지, 지식 계층으로 재구성합니다. 이 네 개의 계층은 언어 모델(LM) 기반 에이전트를 통해 자동화된 결함 격리, 원인 진단, 적응적 복구 및 장기적인 지식 통합을 수행합니다. 이러한 에이전트는 다양한 로그를 해석하고 근본 원인을 추론하며 합리적 경로를 정교하게 만들고 최소한의 인간 개입으로 리소스를 재구성합니다. 제안된 ReCiSt 프레임워크는 여러 LM을 사용하여 공개 결함 데이터셋에서 평가되었으며 유사한 접근법이 드물기 때문에 기준 비교는 포함되지 않았습니다. 그럼에도 불구하고 다양한 LM 하에서 수행된 우리의 결과는 ReCiSt의 자가치유 능력이 최소 10%의 에이전트 CPU 사용률로 수십 초 내에 이루어진다는 것을 확인합니다. 또한 우리의 결과는 불확실성을 극복하기 위한 분석 깊이와 탄력성达成的微量代理数量进行了演示。

paper AI 요약
선호도 기반 강화학습의 특징 종속 노이즈 평가

선호도 기반 강화학습의 특징 종속 노이즈 평가

딥 강화 학습(Deep RL)은 최근 다양한 분야에서 성공을 거두고 있으나, 적합한 보상 함수를 정의하는 것은 여전히 도전적이다. 이 연구에서는 선호 기반 강화 학습(PbRL)에서 비전문가 교사로부터 받는 피드백에 의해 발생하는 특징 종속 잡음을 모델링하고 평가한다. 이를 통해 RL 에이전트의 성능 향상을 추구하며, 다양한 상태-작업 공간에서 발생할 수 있는 다양한 유형의 특징 종속 잡음에 대해 논의한다.

paper AI 요약
소셜 미디어 조작 감지  진화하는 메모리 기반 틀

소셜 미디어 조작 감지 진화하는 메모리 기반 틀

사회 미디어에서 조작된 행동을 감지하는 것은 여전히 중요한 문제로 남아 있으며 대부분의 기존 접근 방법은 표면적인 상관 분석에 의존하며, 정적 매개변수 설정을 사용하고 수많은 수동 어노테이션을 요구합니다. 이러한 제한점을 체계적으로 해결하기 위해 Adaptive Causal Coordination Detection (ACCD) 프레임워크를 제안합니다. ACCD는 기억 기반 적응 메커니즘을 활용하여 다양한 조정 상황에서 최적의 감지 설정을 동적으로 학습하고 유지하는 3단계 진행형 아키텍처를 채택합니다. 구체적으로 첫 번째 단계에서는 진정한 인과 관계를 심층적으로 식별하기 위한 적응형 Convergent Cross Mapping (CCM) 기법을 도입하고 있습니다. 두 번째 단계는 반복 학습과 불확실성 샘플링을 통합하여 준감독 분류 방식으로 수동 라벨링 부담을 크게 줄입니다. 세 번째 단계에서는 과거 감지 경험에 기반한 자동 검증 모듈을 배치하여 검출 결과의 자체 확인 및 최적화를 가능하게 합니다. 본 연구는 실제 데이터셋, 특히 트위터 IRA 데이터셋과 리디트 조정 추적기록, 그리고 널리 사용되는 봇 감지 벤치마크 몇 가지를 이용해 종합적인 평가를 수행하였습니다. 실험 결과 ACCD는 조직화된 공격을 감지하는 데 87.3%의 F1 점수를 달성하며, 가장 강력한 기존 기준선 대비 15.2% 향상되었습니다. 또한 시스템은 수동 어노테이션 요구사항을 68% 감소시키며 계층적 클러스터링 최적화를 통해 처리 속도가 2.8배 빨라집니다. 결론적으로 ACCD는 사회 플랫폼에서 조작된 행동을 식별하기 위한 정확하고 효율적이며 자동화 수준이 높은 종합적인 해결책을 제공하며, 실용적 가치와 광범위한 응용 가능성에 대한 큰 잠재력을 제시합니다.

paper AI 요약
소셜 큐의 활용  LLM 기반 정보 탐색에서의 중요성

소셜 큐의 활용 LLM 기반 정보 탐색에서의 중요성

정보 탐색은 개인이 지식 격차를 해소하기 위해 정보를 찾아내고 사용하는 과정으로 이해됩니다. 정보 시대에 들어와 정보 시스템의 급속한 발전은 정보 접근성을 크게 증가시켰지만, 동시에 정보 과부하도 심화되었습니다. 이로 인해 개인들은 다양한 단서를 활용하여 정보를 필터링하고 해석합니다. 이러한 단서에는 메시지 단서(내용의 의미적 특징)와 사회적 단서(정보 상호작용에서 타인의 존재, 행동, 정체성 등)가 포함됩니다. 이 논문은 대형 언어 모델(LLM)-기반 검색 시스템에 대한 연구를 통해 사용자가 기대하는 사회적 단서 및 이를 통합하는 방법을 탐구하고 있습니다.

paper AI 요약
손바닥 위의 콜라 인식 시스템

손바닥 위의 콜라 인식 시스템

정확한 우물 내 위치 확인은 석유 및 가스 작업에서 중요하지만 전통적인 표면 기반 케이싱 카라 로케이터(CCL) 모니터링에서는 신호 손실로 인해 자주 저해됩니다. 이 문제를 해결하기 위해 임베디드 신경망을 사용한 현장 즉시 카라 인식 시스템을 제안합니다. 리소스 제약이 있는 ARM Cortex-M7 마이크로프로세서용 최적화된 가벼운 카라 인식 네트워크 (CRNs)를 도입하였습니다. 시간과 깊이별 분리 합성곱을 활용하여 가장 컴팩트한 모델은 계산 복잡도를 단지 8,208 MAC으로 줄였음에도 불구하고 F1 점수는 0.972을 유지하고 있습니다. 하드웨어 검증 결과 평균 추론 지연 시간이 343.2 μs임을 확인하여, 심각한 전력 및 공간 제약 조건하에서도 우물 내 장비에서 견고하고 자율적인 신호 처리가 가능함을 입증하였습니다.

paper AI 요약
쇼핑객의 서랍기 방문 분석  실시간 추적 기술로 고객 행동 파악

쇼핑객의 서랍기 방문 분석 실시간 추적 기술로 고객 행동 파악

최근 소매업계에서 로봇을 고객 대면 역할에 도입하는 데서 나타난 문제를 해결하기 위해, 본 연구는 물리 매장 내 고객 활동 분석을 통해 자율적인 구매 의도 이해의 첫걸음을 소개한다. 우리는 고객의 “선반 방문”을 측정하는 알고리즘을 제시하는데, 이는 고객이 가게에서 둘러보는 행동을 포착한다. 선반 방문은 머신 비전 기반 3D 추적 및 천장 카메라를 통해 얻어진 트래젝토리를 통해 추출된다. 우리는 두 개의 독립적인 트래젝토리 집합(8138개와 15129개)을 사용해 알고리즘을 교정하고, 인간 리뷰어가 라벨링한 다른 매장에서 수집되었다. 교정된 모델은 교정 과정에 포함되지 않은 트래젝토리를 평가하는데, 이는 같은 매장과 다른 매장을 통해 이루어진다. 결과 분석을 통해 알고리즘이 교정 환경과 다른 환경에서도 고객의 둘러보기 활동을 인식할 수 있음을 보여준다. 마지막으로, 우리는 모델을 사용하여 큰 트래젝토리 집합에서 고객의 “둘러보기 패턴”을 분석하고 실제 구매와의 관계를 탐색하며, 매장 계획 및 인간-로봇 상호작용에 활용할 수 있는 방법을 논의한다.

paper AI 요약
수요 추정을 넘어  누적 경향 가중치를 통한 소비자 여유 평가

수요 추정을 넘어 누적 경향 가중치를 통한 소비자 여유 평가

이 논문은 관찰 데이터를 활용하여 AI 기반의 결정, 특히 타겟팅 가격 설정과 알고리즘 대출에 대한 소비자 여유 효과를 심사하기 위한 실용적인 프레임워크를 개발합니다. 전통적 접근법에서는 먼저 수요 함수를 추정한 후 이를 통합하여 소비자 여유를 계산하지만, 이러한 방법은 모수적 수요 형태에서의 모형 사양 오류와 유연한 비모수적 또는 기계 학습 접근법에 따른 큰 데이터 요구사항과 느린 수렴으로 인해 실제 적용이 어려울 수 있습니다. 대신 우리는 현대 알고리즘 가격 설정에서 발생하는 탐색과 활용의 균형을 위해 본래 내재된 무작위성을 활용하고, 수요 함수의 명시적 추정 및 수치 적분을 피할 수 있는 추정자를 도입합니다. 무작위 가격에서 관찰된 각 구매 결과는 수요에 대한 편향 없는 추정치이며, 새로운 누적 경향 가중치(CPW)를 사용하여 구매 결과를 세심하게 재가중함으로써 적분을 재구성할 수 있습니다. 이러한 아이디어를 바탕으로 정확히 수요 모델이나 역사적인 가격 책정 정책 분포 중 하나만 올바르게 사양되어 있으면 되는 복수로 견고한 변형인 증강 누적 경향 가중치(ACPW) 추정자를 도입합니다. 또한 이 접근법은 소비자 여유를 추정할 때 기계 학습 방법의 활용을 용이하게 하며, 특히 기계 학습 추정값이 느린 수렴 속도를 보일 때조차도 수요 추정을 포함함으로써 빠른 수렴 속도를 달성합니다. 이러한 추정자는 목표 추정 대상인 소비자 여유가 관찰되지 않는다는 점에서 오프-폴리시 평가 기법의 표준적 응용이 아닙니다. 공평성을 고려하기 위해 이 프레임워크를 부등식 인식 여유 측정으로 확장하여 규제 당국과 기업들이 수익-공정성 트레이드오프를 정량화할 수 있도록 합니다. 마지막으로, 포괄적인 수치 연구를 통해 우리의 방법을 검증합니다.

paper AI 요약
수학적 논리의 스펙트럼 지문  유효성 체크 방법

수학적 논리의 스펙트럼 지문 유효성 체크 방법

대형 언어 모델(LLM)의 수학적 추론 작업에서 탁월한 성과는 이러한 모델들의 출력을 이해하고 검증하는 데 관심을 집중시켰습니다. 본 논문은 스펙트럼 그래프 이론에 기반한 새로운 접근법을 제안하며, 이 방법은 주의 메커니즘을 통해 생성된 가중 그래프의 스펙트럼 특성을 분석하여 추론의 유효성을 검증합니다. 실험 결과, 이 방법은 다양한 모델에서 82.8–85.9%의 정확도를 보였으며, 특히 로직적 일관성이 있는 증명을 식별하는 데 효과적이었습니다.

paper AI 요약
숨겨진 인터페이스 드러내기  LLM이 안내하는 macOS 프라이빗 프레임워크의 타입 추론

숨겨진 인터페이스 드러내기 LLM이 안내하는 macOS 프라이빗 프레임워크의 타입 추론

비공개 macOS 프레임워크는 중요한 서비스와 데몬을 지원하지만 문서화되지 않고 스트립된 바이너리 형태로만 배포되어 보안 분석에 어려움을 초래합니다. 저희는 Objective-C 타입 추론을 위한 특수화된 튜닝 대형 언어 모델과 도구 확장 분석을 통합하는 에이전트 프레임워크인 MOTIF를 소개합니다. 이 에이전트는 런타임 메타데이터 추출, 바이너리 검사, 그리고 제약 조건 확인을 관리하며, 모델은 후보 메소드 시그니처를 생성하고 이를 검증하여 컴파일 가능한 헤더로 정제합니다. MOTIF-Bench는 공개 프레임워크로부터 만들어진 벤치마크에 실제 헤더가 포함되어 있으며, 여기서 MOTIF는 기준 정적 분석 도구보다 시그니처 복원률을 15%에서 86%로 개선했으며, 도구 사용의 정확성과 추론의 안정성을 지속적으로 높였습니다. 비공개 프레임워크에 대한 사례 연구에서는 재구성된 헤더가 컴파일되고 링크되며, 이후 보안 연구와 취약점 분석을 지원하는 것을 확인할 수 있습니다. MOTIF는 불투명한 바이너리를 분석 가능한 인터페이스로 변환함으로써 macOS 내부의 체계적인 심사에 대한 확장 가능한 기반을 구축합니다.

paper AI 요약
스마트 건물의 인간 중심 에너지 관리 시스템을 위한 상황 인식 대형 언어 모델 기반 AI 에이전트

스마트 건물의 인간 중심 에너지 관리 시스템을 위한 상황 인식 대형 언어 모델 기반 AI 에이전트

건물은 전 세계 에너지 소비의 약 30%를 차지하며, 효율적인 에너지 사용을 달성하는 데 있어 핵심적이다. 이 논문에서는 대형 언어 모델(LLM) 기반 AI 에이전트가 인간과 건물 간 상호 작용을 개선하고, 건물 에너지 관리 시스템(BEMS)의 사용자 인터페이스를 향상시키는 방법에 대해 탐구한다. LLM은 자연어 처리와 데이터 분석 능력을 활용하여 사용자의 다양한 목표에 맞춘 컨텍스트 감지를 제공할 수 있다.

paper AI 요약
스마트 분류  재활용의 미래

스마트 분류 재활용의 미래

재활용의 중요성은 널리 인정되고 있지만, 일반 대중이 물품의 재활용 가능성을 정확하게 판단하고 적절한 처리 방법을 결정하는 것은 복잡한 과제입니다. 본 연구에서는 GPT-4o, GPT-4o-mini, 그리고 Claude 3.5와 같은 최첨단 비전 언어 모델들을 일상적으로 버려지는 물품의 재활용 가능성을 예측하는데 활용했습니다. 이미지로 구성된 데이터셋을 이용하여 이러한 모델들이 물체를 적절한 분리 수거함과 매칭하는 능력을 평가하였습니다. 또한, 모델이 실제로 사용 가능한 수거함에 맞게 들어가는지 여부도 평가하였습니다. 추가적으로 우리는 다음과 같은 과제들에서 모델들의 성능을 조사했습니다 (i) 지역별 재활용 가이드라인에 따른 예측 수정; (ii) 오염 또는 구조적 손상 고려; 그리고 (iii) 다중 소재로 구성된 물체 처리. 우리의 연구 결과는 이러한 모델들이 이전 세대와 비교하여 문맥 이해 측면에서 큰 진보를 이루고 있음을 보여주며, 그럼에도 불구하고 여전히 부족한 부분을 나타냈습니다. 이러한 맥락 인식 모델의 지속적인 개선은 공공 재활용 실천을 강화하고 환경 지속 가능성을 발전시키는 데 중요합니다.

paper AI 요약
스마트플로우  바이크 균형자

스마트플로우 바이크 균형자

SmartFlow는 강화학습과 에이전트 기반 인공지능을 통합한 다층적 프레임워크로, 도시 자전거 공유 서비스에서 발생하는 동적인 재균형 문제를 해결합니다. 그 구조는 전략적, 전술적, 그리고 커뮤니케이션 기능을 분리하여 명확성과 확장성을 보장하고 있습니다. 전략 수준에서는 뉴욕의 Citi Bike 네트워크를 고대비 시뮬레이션에서 학습한 딥 Q-네트워크(DQN) 에이전트가 마르코프 의사결정 과정으로 문제를 모델링하여 견고한 재균형 정책을 학습합니다. 이러한 고수준 전략은 다중 구간 여행을 최적화하고 단시일 내에 출동할 수 있도록 스케줄링하여 차량의 이동 거리를 최소화하는 결정론적 전술 모듈로 전달됩니다. 여러 시드를 이용한 실행을 통해 SmartFlow의 높은 효율성이 입증되었으며, 네트워크 불균형을 95% 이상 감소시키고 최소한의 이동 거리와 높은 트럭 활용도를 달성하였습니다. 커뮤니케이션 계층은 대규모 언어 모델(LLM)을 갖춘 기반 에이전트 AI로 구동되어 물류 계획을 현장 직원에게 명확하고 실행 가능한 지시사항으로 전달하여 해석 가능성과 실행 준비성을 보장합니다. 이 통합은 기계 지능을 인간 운영과 연결함으로써, 유휴 시간을 줄이고 자전거 이용 가능성을 향상시키며 운용 비용을 낮추는 확장 가능한 해결책을 제공합니다. SmartFlow는 복잡한 도시 이동 네트워크에서 해석 가능하고 AI 기반의 물류를 위한 청사진을 제시합니다.

paper AI 요약
시각적 언어 모델 해킹  기만의 미학

시각적 언어 모델 해킹 기만의 미학

LVLMs는 시각적 구성 요소를 통합한 대형 언어 모델(LLMs)로, GPT-4, GPT-5, LLaVa, Flamingo와 같은 다양한 다중모달 응용 프로그램에서 뛰어난 성능을 보여주고 있습니다. 그러나 시각적 요소의 통합은 새로운 취약점을 초래하며, 최근 연구는 LVLMs가 적대적인 공격에 약하다는 것을 드러냈습니다. 이러한 공격은 모델 내부에서 사용할 수 있는 기울기 정보를 필요로 하는데, 이는 계산적으로 비용이 많이 들고 블랙박스 환경에서는 제한적입니다. 본 논문에서는 ZO-SPSA라는 기울기 없는 블랙박스 공격 프레임워크를 제안하며, 이를 통해 LVLMs에서 안전 장벽을 무너뜨리는 효과적인 적대적 예제를 생성하는 방법을 설명합니다.

paper AI 요약
시놉틱 팟캐스트 대화, 영상 모델이 도전하다!

시놉틱 팟캐스트 대화, 영상 모델이 도전하다!

본 논문에서는 시각적 콘텐츠를 이용하여 증폭된 팟캐스트 대본을 생성하는 방법을 제안한다. 기존의 시각 언어 모델(VLM)이 단순히 사실적인 설명에 그치는 반면, 본 연구는 이러한 시각적 입력을 풍부하고 자연스러운 다중 회화로 전환하는 데 초점을 맞춘다. 이를 위해 개발된 SPoRC-VIST 벤치마크는 합성 이미지와 실제 사진 간의 일반화 성능을 검증한다. ###

paper AI 요약
No Image

신경기호학으로 수학의 첫 원칙부터 만들다

대형 언어 모델(LLMs)은 내부적 공리적 프레임워크의 부재로 인해 복잡한 추론에서 지속적인 논리적 실패를 보입니다. 저희는 수학적 상태를 고차원 하이퍼그래프로 인코딩하고 제약 조건을 연속 에너지 풍경으로 매핑하는 미분 가능한 논리 엔진인 기호 추론 커널(SRK)을 사용하는 Mathesis라는 뉴로-기호 구조를 제안합니다. 모든 에너지 함수 E(G)를 정의하여 영 에너지는 논리적 일관성을 의미하며, SRK는 그래디언트 기반 신호를 생성해 하이퍼그래프 트랜스포머 뇌를 학습시키고 증명 검색을 에너지 최소화로 바꿉니다. 몬테카를로 트리 탐색과 진화 증명 탐색을 통해 학습된 가치 함수와 의미 통일에 의해 다단계 추론이 가능해집니다.

paper AI 요약
신경망 사슬과 이산 동역학 시스템

신경망 사슬과 이산 동역학 시스템

우리는 변환 아키텍처를 기반으로 하는 머신 러닝(ML) 응용 프로그램과 이산 동역학 시스템 간의 유사성을 검토합니다. 여기서 neural chains 는 자기 주의 없이 변환 아키텍처에 기반한 것입니다. 또한, 비저키 Burgers 방정식과 Eikonal 방정식을 표준 수치 방법과 PINN 학습을 통해 해결하는 비교 분석을 제공합니다. 이 논문은 표준 수치 방법과 PINN 학습이 동일한 시스템 역학에 대한 지식을 얻는 두 가지 다른 경로를 제공한다는 것을 발견했습니다. 그러나 PINN 학습의 경우, 무작위 행렬이 고유한 삼중대각 형태보다 훨씬 더 많은 솔루션을 제공함으로써 학습 비용과 물리적 투명성이 떨어집니다.

paper AI 요약
실시간 대화형 아바타 생성  어바탄 포싱으로 자연스러운 상호작용

실시간 대화형 아바타 생성 어바탄 포싱으로 자연스러운 상호작용

대화형 아바타 생성은 정적인 초상화에서 가상 커뮤니케이션 및 콘텐츠 제작을 위한 실감나는 아바타를 생성합니다. 하지만 현재 모델들은 진정한 상호 작용의 느낌을 전달하지 못하며, 종종 감정적 관여가 부족한 일방통행 응답을 생성합니다. 우리는 진정한 상호 작용 아바타로 나아가는 두 가지 주요 과제를 식별하였습니다 인과 제약 하에서 실시간 동작 생성 및 추가 라벨 데이터 없이 표현력 있고 활기찬 반응 학습입니다. 이러한 과제들을 해결하기 위해, 저희는 확산 강제를 통해 사용자와 아바타 간의 실시간 상호 작용을 모델링하는 새로운 프레임워크인 아바타 강제(Avatar Forcing)를 제안합니다. 이 디자인은 음성과 동작을 포함한 사용자의 다중 입력을 저 지연으로 처리하여 말, 고개 끄덕임, 웃음 등 언어적 및 비언어적 시그널에 대한 즉각적인 반응을 가능하게 합니다. 또한 저희는 사용자 조건을 제거하여 구성된 합성 손실 샘플을 활용하는 직접 선호도 최적화 방법을 소개합니다. 이는 라벨 없는 표현력 있는 상호 작용 학습을 가능케 합니다. 실험 결과는 우리의 프레임워크가 저 지연(약 500ms)의 실시간 상호 작용을 가능하게 하며, 기준선에 비해 6.8배 빠른 속도를 달성하고, 반응적이고 표현력 있는 아바타 동작을 생성함으로써 기준선 대비 80% 이상 선호되는 결과를 보여줍니다.

paper AI 요약
실천적 윤리  NLP 교육을 통한 실무 중심 윤리 강의

실천적 윤리 NLP 교육을 통한 실무 중심 윤리 강의

최근 언어 기술의 사회적 영향에 대한 관심이 증가함에 따라 자연언어 처리(NLP) 연구에서 윤리적인 측면을 다루는 교육 커리큘럼이 필요하게 되었다. 본 논문은 그로닝겐 대학교에서 개발된 NLP의 윤리적 측면 이라는 강좌를 소개한다. 이 강좌는 NLP 연구 및 적용에 있어 중요한 윤리적인 문제들을 다루며, 학생들이 이러한 문제들에 대해 이해하고 이를 사회적으로 다양한 관객에게 효과적으로 전달할 수 있는 능력을 기르도록 설계되었다.

paper AI 요약
안전한 전력 그리드 예측  상태 공간 모델이 어떻게 도움될까?

안전한 전력 그리드 예측 상태 공간 모델이 어떻게 도움될까?

정확한 그리드 로드 예측은 안전에 중요합니다 과소예측은 공급 부족의 위험을 초래하고, 대칭 오차 메트릭은 이러한 운영 비대칭성을 가리게 됩니다. 우리는 MAPE를 넘어서 일방적인 신뢰성 리스크를 정량화하기 위한 운영자에게 이해가 쉬운 평가 프레임워크 -- 과소예측률(UPR), 꼬리 예비율(Reserve$_{99.5}^{ %}$) 요구사항, 명시적인 부기 진단(Bias$_{24h}$/OPR) -- 을 도입합니다. 이 프레임워크를 사용하여 2023년 11월부터 2025년 11월까지의 캘리포니아 독립계통연산자(CAISO) 데이터(5개 지역 전송 영역을 아우르는 84,498건의 시 hourly 기록)에서 롤링-오리진 워크포워드 백테스트를 통해 상태공간 모델(Mamba 변종)과 강력한 베이스라인을 평가하고 이러한 구조에 대한 열 지연 정렬된 날씨 융합 전략을 개발 및 평가합니다. 우리의 결과는 표준 정확도 메트릭이 운영 안전성의 부적절한 대리지표임을 보여줍니다 MAPE가 유사하더라도 모델은 실질적으로 다른 꼬리 예비 요구사항(Reserve$_{99.5}^{ %}$)을 암시할 수 있습니다. 우리는 명시적인 날씨 통합이 오차 분포를 좁혀 온도에 따른 수요 급증의 영향을 감소시키는 것을 보여줍니다. 또한 확률적 교정은 큰 오류 이벤트를 줄이지만, 시스템적인 스케줄 부기로 이어질 수 있습니다. 우리는 꼬리 위험을 최소화하고 무의미한 과예측을 방지하는 객관적으로 평가 가능한 타협점을 가능하게 하는 Bias/OPR 제약 목표를 도입합니다.

paper AI 요약
알츠하이머 예측, 뇌 네트워크 규칙 학습으로 이해하기

알츠하이머 예측, 뇌 네트워크 규칙 학습으로 이해하기

알츠하이머병(AD)은 신경퇴행성 질환으로, 뇌에 아밀로이드-베타 플라크와 타우 단백질 섬유가 축적되는 특징을 가진다. 이 연구에서는 AD의 진행과 발현 사이의 구조적 뇌 네트워크와 관련성을 이해하기 위해, 통계적 기계 학습 방법과 olic machine learning 방법을 결합한 새로운 접근법인 LearnAD를 제안한다. LearnAD는 MRI 데이터에서 추출된 특징들을 이용하여 AD를 예측하고, 이를 통해 뇌의 구조적 패턴이 AD에 어떻게 영향을 미치는지 학습한다.

paper AI 요약
압축 기술이 자연적 오염 상태에서의 CNN 강건성에 미치는 영향 평가

압축 기술이 자연적 오염 상태에서의 CNN 강건성에 미치는 영향 평가

압축된 딥러닝 모델은 자원 제약이 있는 기기에 컴퓨터 비전 시스템을 배포하는 데 중요합니다. 하지만 모델 압축은 특히 자연적인 오염 조건에서 안정성을 저해할 수 있습니다. 따라서 컴퓨터 비전 시스템의 검증 과정에서는 안정성 평가를 고려하는 것이 중요합니다. 본 논문은 양자화, 가위 작업, 가중치 클러스터링을 개별적으로 또는 조합하여 적용한 압축 기법에 대한 포괄적인 평가를 제시하고 있습니다. 이 연구에서는 ResNet-50, VGG-19, 그리고 MobileNetV2와 같은 컨볼루션 신경망에 대해 CIFAR-10-C 및 CIFAR 100-C 데이터셋을 사용하여 안정성, 정확도, 압축 비율 간의 트레이드오프를 분석하였습니다. 우리의 결과는 특정 압축 전략이 복잡한 아키텍처를 가진 네트워크에서 안정성을 유지하거나 향상시킬 수 있음을 보여주고 있습니다. 다목적 평가를 활용하여 최선의 구성 설정을 결정하였으며, 맞춤형 기술 조합이 유익한 다목적 결과를 제공함을 나타내었습니다. 이 연구는 오염된 실제 환경에서 모델을 안정적이고 효율적으로 배포하기 위한 압축 방법 선택에 대한 통찰력을 제공합니다.

paper AI 요약
야생동물 이미지 지리적 도메인 시프트를 위한 불변 표현 모델 WildIng

야생동물 이미지 지리적 도메인 시프트를 위한 불변 표현 모델 WildIng

카메라 트랩 이미지는 야생동물 모니터링에서 가장 값진 데이터 소스 중 하나로, 생물다양성 보존과 기후 변화 연구에 중요한 역할을 합니다. 이러한 이미지들은 인간의 직접 개입 없이도 광범위한 데이터를 수집할 수 있는 비침해적이고 확장 가능한 방법을 제공합니다. 그러나 대규모 데이터셋에서 자동적인 동물 종 식별을 위한 기술은 필요합니다. 최근 연구에서는 Foundation Models (FMs)을 야생동물 모니터링에 적용하기 시작했으며, 이 모델들은 다양한 시각 인식 작업에서 뛰어난 성능을 보여주었습니다. 본 논문에서는 WildIng이라는 새로운 모델을 소개하며, 이 모델은 텍스트와 이미지를 통합하여 지리적 도메인 변동에 강한 특징을 추출합니다. ###

paper AI 요약
약한 시간 감독을 통한 원격탐사 변화 검출

약한 시간 감독을 통한 원격탐사 변화 검출

이 논문에서는 원격 감지 이미지 쌍에서 지표면 변화를 감지하는 문제에 대해 다룹니다. 이 작업은 심미적 변화 감지(Semantic Change Detection, SCD)라고 합니다. 최근 몇 년 동안 SCD는 큰 관심을 받았으며 많은 연구와 여러 분야의 조사가 이루어졌습니다. 기존 방법들은 주로 딥 러닝에 의존하여 3개의 신경망을 학습합니다 두 개의 심미적 맵과 이진 변화 맵을 출력하는 네트워크입니다. 그러나 이러한 모델을 훈련시키기 위해서는 픽셀 수준의 주석이 필요한데, 이를 얻는 것은 비용이 많이 들고 시간도 오래 걸립니다. 따라서 우리는 단일 시점 주석만 사용하여 이진 시점 쌍에 대한 변화 감지 네트워크를 훈련시키는 약한 지정 학습 프레임워크를 제안합니다.

paper AI 요약
에스чер버스  물리적 동태와 의도 기반 이해를 갖춘 텔레오-공간 지능을 위한 오픈 월드 벤치마크와 데이터셋

에스чер버스 물리적 동태와 의도 기반 이해를 갖춘 텔레오-공간 지능을 위한 오픈 월드 벤치마크와 데이터셋

공간 동역학에 대한 추론 능력은 인тел리전스의 핵심 구성 요소이지만, 현재 연구에서는 공간 변화 뒤에 숨어 있는 인간의 의도를 간과하고 있다. 이러한 한계점을 해결하기 위해 우리는 물리적-동역학적 추론—물체 상호 작용의 물리 원리를 이해하는 것—과 의도 지향적 추론—이러한 행동 뒤에 숨어 있는 인간의 목표를 추측하는 것이라는 두 가지 중요한 기둥을 통합하는 새로운 패러다임인 텔레오-공간 인텔리전스(TSI)를 도입한다. TSI 연구를 촉진하기 위해 우리는 EscherVerse를 제시한다. 이는 대규모 오픈 월드 벤치마크(Escher-Bench), 데이터셋(Escher-35k), 그리고 모델(Escher 시리즈)을 포함하고 있다. 실제 비디오에서 유래한 EscherVerse는 제약된 환경을 넘어 물체의 지속성, 상태 전이, 동적이고 인간 중심적인 상황에서의 궤도 예측에 대한 에이전트의 추론 능력을 명시적으로 평가한다. 무엇보다도 이는 의도 지향적 추론을 체계적으로 평가하는 최초의 벤치마크로, 모델들이 물리적 사건과 그 뒤에 숨어 있는 인간의 목적을 연결할 수 있도록 도전한다. 우리의 연구에는 새로운 데이터 큐레이션 파이프라인이 포함되어 있으며, 이는 공간 인텔리전스를 단순히 장면 설명에서 세계 전체에 대한 통합적인 목표 지향적 이해로 발전시키기 위한 기초 자원을 제공한다.

paper AI 요약
에이전시의 마법  신경기호적 프로그래밍을 단순화하다

에이전시의 마법 신경기호적 프로그래밍을 단순화하다

심볼릭 제약 조건을 딥러닝 모델에 통합하면 더 견고하고 해석 가능하며 데이터 효율적인 모델이 될 수 있습니다. 그럼에도 불구하고 이러한 통합은 여전히 시간이 많이 소요되고 어려운 작업입니다. DomiKnowS와 같은 기존 프레임워크는 고수준의 선언적 프로그래밍 인터페이스를 제공하여 이 통합을 돕지만, 사용자가 해당 라이브러리의 특정 문법에 능통하다고 가정합니다. 이러한 종속성을 제거하기 위해 AgenticDomiKnowS(ADS)를 제안합니다. ADS는 에이전시 워크플로를 활용하여 자유 형식의 작업 설명을 완성된 DomiKnowS 프로그램으로 번역하며, 각 DomiKnowS 구성 요소를 따로 생성하고 테스트합니다. 이 워크플로는 사용자가 중간 출력물을 개선할 수 있는 옵션의 인간-인-더-루프 개입을 지원합니다. ADS가 경험 많은 DomiKnowS 사용자와 비사용자 모두에게 신경 기호적 프로그램을 빠르게 작성할 수 있게 하여 개발 시간을 몇 시간에서 10~15분으로 줄일 수 있음을 보여줍니다.

paper AI 요약
에이전트 레시  LLM을 활용한 인과 피드백 퍼지 인지 지도 추출

에이전트 레시 LLM을 활용한 인과 피드백 퍼지 인지 지도 추출

이 논문에서는 대형 언어 모델(LLM) 에이전트가 샘플링된 텍스트 문서에서 인과 피드백 퍼지인지도(FCM)를 어떻게 성장시키는지를 보여줍니다. 이 FCM은 지역적인 부분적 인과 규칙을 형성하고, 이를 통해 전역 균형 상태인 한계 주기를 정의합니다. 이러한 방법은 프로그래밍된 명령에 의존하는 일반적인 피드포워드 에이전트 시스템과는 달리 FCM 동적 시스템의 에이전시를 진화하는 균형 한계 주기에서 찾습니다. ###

paper AI 요약
엔트로피 적응 튜닝으로 잊히는 것을 막자  확신 갈등 해결

엔트로피 적응 튜닝으로 잊히는 것을 막자 확신 갈등 해결

감독 학습 조정(Supervised Fine-Tuning, SFT)은 대형 언어 모델(LLMs)을 특정 도메인에 맞게 적응시키는 표준 방법입니다. 그러나 이 방식은 치명적인 잊힘(catastrophic forgetting)이라는 큰 비용을 초래합니다. 반면, 온-폴리시 강화 학습(on-policy RL)은 도메인별 성능을 향상시키면서 기반 모델의 견고성을 효과적으로 유지하는 데 유명합니다. 이 두 방법론 사이의 극적인 차이는 특정 질문을 제기합니다 SFT가 일반 능력을 악화시킬 때 왜 온-폴리시 RL은 이를 유지할 수 있는지? 본 연구는 이 현상에 대한 메커니즘을 체계적으로 분석하고, 이를 통해 Confident Conflicts 라는 개념을 도입하여 SFT에서의 치명적인 잊힘의 원인을 밝혀냅니다. 또한, 엔트로피-적응 조정(Entropy-Adaptive Fine-Tuning, EAFT)이라는 새로운 방법론을 제안합니다.

paper AI 요약
역사적 활성화로부터의 그래프 신경망 학습

역사적 활성화로부터의 그래프 신경망 학습

그래프 신경망(GNN)은 사회적 네트워크, 분자 화학 등 다양한 영역에서 뛰어난 성과를 보여주고 있다. GNN의 핵심 구성 요소 중 하나는 풀링 프로시저로, 모델에 의해 계산된 노드 특징을 조합하여 최종적으로 하류 작업에 사용될 정보가 풍부한 설명자 형태로 만들어내는 과정이다. 그러나 이전의 그래프 풀링 방식은 풀링이나 분류기 층에 GNN 마지막 계층의 특징을 입력으로 사용하므로, 모델의 전방 패스 중 생성된 이전 계층의 중요한 활성화를 충분히 활용하지 못하는 경우가 있다. 이를 우리는 역사적 그래프 활성화라고 부른다. 특히 많은 그래프 신경망 계층을 통과하면서 노드 표현이 크게 변화할 수 있는 경우, 또는 깊은 아키텍처에서 과도한 평활화와 같은 그래프 특수 도전 과제로 인해 이러한 간극이 더욱 두드러진다. 이 간극을 해소하기 위해 우리는 HISTOGRAPH라는 새로운 단계별 주의 기반 최종 통합 층을 제안한다. HISTOGRAPH는 중간 활성화에 대해 일관된 계층별 주의를 적용한 후 노드별 주의를 사용한다. 노드 표현의 계층 간 진화를 모델링함으로써, 우리의 HISTOGRAPH는 노드의 활성화 기록과 그래프 구조 모두를 활용하여 최종 예측에 사용되는 특징을 정교하게 세분화한다. 여러 그래프 분류 벤치마크에서의 실증적 결과는 HISTOGRAPH가 전통적인 방법보다 일관되게 우수한 성능을 제공하며, 특히 깊은 GNN에서 강력한 견고성을 보여준다는 것을 입증하고 있다.

paper AI 요약
연방훈련에서 클러스터링 집약과 조절을 통한 사기저항형 민감도 인식 최소화

연방훈련에서 클러스터링 집약과 조절을 통한 사기저항형 민감도 인식 최소화

연방 학습(FL)은 데이터 프라이버시를 유지하면서 분산된 엣지 기기 간의 협력적 모델 훈련을 가능하게 합니다. 그러나 클라이언트들 사이에 통계적인 이질성이 존재하며, 이는 종종 비IID 레이블 분포로 나타나며 수렴과 일반화에 대한 주요 도전 과제를 제기합니다. 예리도 인식 최소화(SAM)가 FL에 도입되어 평평하고 더 견고한 극소점을 찾아내도록 설계되었지만, 기존 접근법들은 보통 모든 클라이언트에 대해 일률적인 펨터베이션 반경을 적용하며 클라이언트별 이질성을 무시합니다. 본 연구에서는 클라이언트별 이질성 점수에 따라 SAM의 펨터베이션 반경과 집합 가중치를 동적으로 조정하는 새로운 알고리즘, 연방 예리도 인식 최소화와 군집 집합 및 모듈레이션(FedSCAM)을 제안합니다. 각 클라이언트에 대한 이질성 지표를 계산하고 이를 반대로 펨터베이션 반경을 조정함으로써, FedSCAM은 높은 분산을 가진 클라이언트들이 글로벌 모델을 불안정하게 하는 것을 방지합니다. 또한, 글로벌 최적화 방향과 일치하는 업데이트를 우선시하는 이질성 인식 가중 집합 메커니즘을 도입하였습니다. 다양한 정도의 디리클레 기반 레이블 왜곡 조건 하에서 CIFAR-10 및 Fashion-MNIST에 대한 광범위한 실험을 통해, FedSCAM은 수렴 속도와 최종 테스트 정확도 측면에서 FedSAM, FedLESAM 등 최신 기준들과 경쟁력을 갖추는 것을 보여주었습니다.

paper AI 요약
연속 및 자율차량을 위한 빠르고 안전한 연방학습 변형기 프레임워크 FedSecureFormer

연속 및 자율차량을 위한 빠르고 안전한 연방학습 변형기 프레임워크 FedSecureFormer

이 연구는 교육 기관 내에서 사이버 보안 조치를 개선하기 위한 머신 러닝 기법의 적용을 탐색합니다. 저자들은 전통적인 방법보다 더 정확하게 잠재적 사이버 위협을 감지할 수 있는 지도 학습과 비지도 학습 알고리즘을 결합한 하이브리드 모델을 제안합니다. 대학 네트워크의 실제 데이터셋에서 광범위한 테스트를 통해, 제안된 모델은 가짜 긍정 사례를 줄이면서 감지율을 개선한다는 것을 보여줍니다.

paper AI 요약
영상 참조로 개인 얼굴 특성 그대로 유지하기

영상 참조로 개인 얼굴 특성 그대로 유지하기

최근 연구에서는 텍스트 프롬프트를 이용하여 실제 인간 동영상을 생성하는 것에 대한 관심이 급증했습니다. 이러한 기술은 단순한 스타일화된 클립에서 장시간, 사진처럼 사실적인, 프롬프트에 충실하며 강력한 시간적 일관성을 갖춘 시퀀스로 발전했습니다. 하지만 현재 연구가 직면하고 있는 주요 도전 중 하나는 개인의 신원을 유지하는 것입니다. 이 논문은 단일 참조 이미지를 사용하는 기존 방법의 한계를 극복하기 위해, 짧은 동영상 참조를 이용하여 인물의 신원을 보다 안정적으로 추출하고 생성할 수 있는 새로운 방식을 제안합니다.

paper AI 요약
완벽한 API를 넘어  실세계 API 복잡성 하에서의 대형 언어 모델 에이전트 종합 평가

완벽한 API를 넘어 실세계 API 복잡성 하에서의 대형 언어 모델 에이전트 종합 평가

이 논문은 대형 언어 모델(Large Language Model, LLM) 에이전트가 실제 API 복잡성 하에서 외부 함수를 호출하는 능력을 평가하기 위한 새로운 벤치마크인 WildAgtEval을 제안합니다. 이 벤치마크는 8개의 주요 API 복잡성 유형에 기반하며, 각 유형은 실제 월드에서 자주 발생하는 복잡성을 반영합니다. 실험 결과, LLM 에이전트는 특히 무관한 정보와 같은 복잡성 하에서 성능이 크게 저하됨을 보여줍니다.

paper AI 요약
우선순위 고려하는 다중로봇 경로 계획법

우선순위 고려하는 다중로봇 경로 계획법

다중 로봇 시스템은 큰 환경에서 효율적인 조정이 필요한 커버리지 작업에 널리 사용됩니다. 다중 로봇 커버리지 경로 계획(MCPP)에서는 전체 지역을 커버하는 중복되지 않는 경로를 생성하여 완료 시간을 최소화하는 것이 주요 목표입니다. 그러나 대부분의 기존 방법들은 영역 간의 중요도가 균일하다고 가정함으로써 일부 구역에 더 빠른 주의가 필요할 때 그 효율성이 제한됩니다. 우리는 환경의 일부를 우선순위 구역으로 지정하고 연관된 가중치를 부여하는 우선 순위 인식 MCPP(PA-MCPP) 문제를 도입합니다. 목표는 영역 커버리지의 총 중요도 가중 지연과 전체 완료 시간을 사전순서로 최소화하는 것입니다. 이를 해결하기 위해 우리는 (1) 탐욕스러운 구역 할당 및 로컬 검색, 스패닝 트리 기반 경로 계획과 (2) 스테이너 트리 지도 잔여 커버리지를 결합한 확장 가능한 이단계 프레임워크를 제안합니다. 다양한 시나리오에서의 실험은 우리의 방법이 표준 MCPP 기준에 비해 우선순위 가중치 지연을 크게 줄이고 경쟁적인 완료 시간을 유지한다는 것을 보여줍니다. 민감도 분석은 또한 이 방법이 로봇 수와 잘 확장되며, 구역 커버리지 동작이 우선순위 가중치를 조정하여 효과적으로 제어될 수 있음을 보여줍니다.

paper AI 요약
위상 각도 융합을 통한 개선된 객체 추적

위상 각도 융합을 통한 개선된 객체 추적

기존의 RGB-이벤트 시각적 객체 추적 접근법은 주로 기존의 피처 레벨 융합에 의존하며, 이는 이벤트 카메라의 고유한 장점을 완전히 활용하지 못합니다. 특히, 이벤트 카메라는 높은 동적인 범위와 움직임에 민감한 특성이 간과되며, 정보가 적은 영역도 일정하게 처리되어 백본 네트워크의 불필요한 계산 부담이 발생합니다. 이러한 문제를 해결하기 위해, 우리의 접근법은 주파수 도메인에서 조기 융합을 수행하는 새로운 추적 프레임워크를 제안합니다. 이를 통해 이벤트 모달리티로부터 고주파 정보의 효과적인 집약화가 가능해집니다. 구체적으로, RGB와 이벤트 모달리티는 빠른 푸리에 변환을 통해 공간 도메인에서 주파수 도메인으로 변환되며, 그들의 진폭과 위상 성분은 분리됩니다. 고주파 이벤트 정보는 진폭 및 위상 주의를 통한 선택적 융합을 통해 RGB 모달리티에 통합되어 피처 표현을 향상시키고 백본 계산을 크게 줄입니다. 또한, 움직임 가이드 스페이셜 스파시피케이션 모듈은 이벤트 카메라의 움직임 민감성 특성을 활용하여 대상 움직임 큐와 공간 확률 분포 간의 관계를 포착하고, 정보가 적은 영역을 필터링하며 대상 관련 피처를 강화합니다. 마지막으로, 대상 관련 피처 집합이 백본 네트워크에 학습용으로 입력되며 추적 헤드는 최종 대상 위치를 예측합니다. FE108, FELT 및 COESOT 등 널리 사용되는 세 가지 RGB-이벤트 추적 벤치마크 데이터셋에서의 광범위한 실험은 우리의 방법의 높은 성능과 효율성을 입증합니다. 이 논문의 소스 코드는 https //github.com/Event-AHU/OpenEvTracking 에서 공개될 예정입니다.

paper AI 요약
유니크롭  확장 가능한 작물 수확량 예측을 위한 다소스 데이터 공학 파이프라인

유니크롭 확장 가능한 작물 수확량 예측을 위한 다소스 데이터 공학 파이프라인

농작물 수확량 예측은 전 세계 식량 안보와 경제적 안정에 중추적인 역할을 하지만, 기후 변화, 인구 증가 및 불규칙한 날씨 패턴으로 인해 점점 더 큰 압력을 받고 있습니다. 정확한 농작물 수확량 예측은 정부 정책, 공급망 안정화, 농업 기업 물류 그리고 농민들의 관수, 비료 사용 및 수확 일정에 대한 결정을 위한 정보를 제공하는데 필수적입니다. 이러한 필요성은 한 지역의 생산 충격이 국제 시장 전체로 급속히 확산되는 경향으로 인해 더욱 절실해졌습니다. 지구관측(EO), 농기상학 및 기계 학습(ML) 분야에서 이루어진 주요 진전은 데이터 주도의 농업 예측 가능성을 크게 확장시켰습니다. 개방형 EO 프로그램인 코페르니쿠스 센티넬 임무는 높은 공간적 및 시간적 해상도로 광학, 레이더 및 대기 측정을 제공하며 작물 상태를 상세하게 모니터링할 수 있도록 합니다. MODIS의 장기간 식생 지수는 큰 지역에서 식물학적 분석을 가능하게 하며, ERA5-Land와 NASA POWER 등 기후 데이터셋은 온도, 강수량, 복사량, 습도 및 바람과 같은 농업 생산성의 주요 촉진 요인에 대한 전 세계적으로 일관된 정보를 제공합니다. 또한, SoilGrids와 SRTM의 보조 환경 데이터셋은 토양 구조, 탄소 함량, pH, 고도, 경사 및 미기후적 영향을 설명합니다. 그러나 이러한 진전에도 불구하고 농작물 수확량 예측 모델의 실용적인 개발은 지속적으로 데이터 공학적 병목 현상에 제한받고 있습니다. 대부분의 연구는 특정 작물, 지역 또는 시간대를 대상으로 맞춤형 파이프라인을 구축하는데, 이 과정에서 다양한 데이터셋을 통합하고 공간 및 시간 해상도를 조화시키기 위한 수작업이 많이 필요합니다. 심지어 최신 다중 모드의 심층 학습 접근 방식조차 복잡한, 수작업이 필요한 전처리 워크플로우에 의존하고 있습니다. 이러한 문제를 해결하기 위해 **UniCrop**을 소개합니다. UniCrop는 농작물 수확량 예측을 위한 다중 출처 환경 데이터의 획득, 조화 및 변환을 자동화하는 보편적이고 구성 설정에 따른 데이터 파이프라인입니다. UniCrop은 필요한 변수 지정과 구현을 분리하여 사용자가 단순한 구성 파일을 수정함으로써 새로운 작물이나 지역에 파이프라인을 적응시킬 수 있도록 합니다.

paper AI 요약
유사 사례 기반 전문가 할당을 활용한 MoE 라우팅 방법

유사 사례 기반 전문가 할당을 활용한 MoE 라우팅 방법

혼합 전문가(MoE) 아키텍처는 파라미터화된 루터 를 사용하여 토큰을 희소한 부분의 전문가에게 분배함으로써 대형 언어 모델을 효율적으로 확장합니다. 일반적으로 이 루터는 한 번 학습하고 얼리기 때문에, 분포 변화에 대한 루팅 결정이 취약해집니다. 저희는 kNN-MoE를 통해 이러한 제한점을 해결하였습니다. 이는 유사한 과거 사례의 메모리를 재활용하여 최적의 전문가 할당을 다시 사용하는 검색 강화된 루팅 프레임워크입니다. 이 메모리는 참조 세트에서 확률을 최대화하기 위해 토큰 단위 루팅 로짓을 직접 최적화함으로써 오프라인에서 구성됩니다. 특히, 저희는 검색된 이웃의 집합 유사성을 신뢰도를 기반으로 한 혼합 계수로 사용하여 관련 사례가 발견되지 않을 경우 얼린 루터로 되돌아갈 수 있도록 허용합니다. 실험 결과 kNN-MoE는 제로샷 베이스라인을 능가하고 계산적으로 비싼 감독 학습 조정과 견줄 만큼의 성능을 보여줍니다.

paper AI 요약
유크티 오푸스  복잡한 최적화 문제 해결의 새로운 길?

유크티 오푸스 복잡한 최적화 문제 해결의 새로운 길?

본 논문은 NP-난해 특성을 가진 조합적 및 연속 최적화 문제를 해결하기 위한 새로운 하이브리드 메타휴리스틱 옵티마이저인 Yukthi Opus (YO)를 제안한다. YO는 Markov Chain Monte Carlo(MCMC), 탐욕적 지역 검색, 재열 Simulated Annealing(SA), blacklist 메커니즘 및 다중 체인 구조를 통합하여 전역 탐색과 지역 최적화 사이의 균형을 이루며, 다양한 문제 클래스에서 계산 효율성을 유지한다. 본 논문은 Rastrigin 5D 함수와 Rosenbrock 5D 함수에 대한 실험 결과를 통해 YO의 성능을 평가하며, TSP(Traveling Salesman Problem)와 같은 실제 문제에서도 뛰어난 성과를 보여준다. ###

paper AI 요약
음성과 영상 동기화  제로샷 클론링으로 새로운 시대

음성과 영상 동기화 제로샷 클론링으로 새로운 시대

이 논문에서는 MM-Sonate라는 다중 모달 조절 가능 프레임워크를 제안합니다. 이 프레임워크는 음성-비디오 동시 생성과 제로샷 음색 클론 기능을 지원하며, Multi-Modal Diffusion Transformer (MM-DiT) 아키텍처와 플로우 매칭 기법을 기반으로 합니다. MM-Sonate는 텍스트 설명만을 사용하는 이전 접근 방식 대신 통합된 명령-음절 입력 형식을 도입하여 시각적 장면 생성과 정확한 입 모양 동기화를 위한 음성 정보를 활용할 수 있습니다. 또한, 새로운 추론 전략인 자연스럽게 수집된 노이즈를 사용하는 부정 조건부 방법을 제안하여 음성의 안정성을 크게 향상시킵니다. ###

paper AI 요약
의도 붕괴  언어 모델의 추론을 위한 의도 수준 지표

의도 붕괴 언어 모델의 추론을 위한 의도 수준 지표

본 논문은 대형 언어 모델(Large Language Models, LLMs)의 의사결정 과정에서 생성되기 전의 내부 상태인 intention state 를 분석하고자 한다. 이를 통해 체인 오브 씽크(Chain-of-Thought), 자가 학습 추론 등 다양한 추론 기법이 모델의 내부 상태에 어떤 영향을 미치는지 이해한다. 또한, 이러한 내부 상태를 정량화하기 위한 세 가지 지표(의도 엔트로피, 효과적 차원성, 잠재적 정보 복구 가능성)를 제안하고 이를 다양한 모델과 벤치마크에 적용하여 실험적으로 검증한다.

paper AI 요약
의미론이 축구 전술을 바꾼다?

의미론이 축구 전술을 바꾼다?

본 논문은 전통적으로 계산 언어학에서 사용된 의미 공간 추론이 팀 스포츠의 전술적 의사결정에 어떻게 확장될 수 있는지를 탐색하고 있습니다. 텍스트와 팀 간의 유사성, 즉 선수가 단어로 작용하고 집단적인 플레이가 의미를 전달하는 것에서 출발하여 제안된 방법론은 전술적 구성을 구성적 의미 구조로 모델링합니다. 각 선수는 기술적, 물리적, 심리학적 속성들을 통합한 다차원 벡터로 표현되며, 팀 프로필은 컨텍스트 가중치를 통해 고급 의미 표현으로 집계됩니다. 이 공유된 벡터 공간 내에서, 높은 압박, 역습, 또는 점유율 구축과 같은 전술 템플릿은 언어학적 개념에 상응하여 인코딩되며, 이를 팀 프로필과의 일치도를 벡터 거리 메트릭을 사용해 평가함으로써 전술적인 적합성 과 상대방 활용 가능성 계산이 가능합니다. 파이썬 기반 프로토타입은 이러한 방법들이 해석 가능한 동적으로 적응하는 전략 제안 및 속성 수준의 세밀한 진단 인사이트를 제공함을 입증합니다. 축구를 넘어서, 이 접근법은 농구와 아이스하키에서부터 협동 로봇과 인간-AI 조정 시스템에 이르기까지 팀 기반 도메인에서 집단 의사결정 및 성능 최적화를 위한 일반화 가능한 프레임워크를 제공합니다. 본 논문은 실제 데이터 통합, 예측 모델링, 그리고 하이브리드 인간-머신 전술적 지능에 대한 미래 방향을 제시하여 마무리됩니다.

paper AI 요약
이색적 그래프에서 커뮤니티 찾기  새로운 알고리즘으로 가능성 열다

이색적 그래프에서 커뮤니티 찾기 새로운 알고리즘으로 가능성 열다

그래프는 사회 네트워크, 인용 네트워크, 분자 구조 등 다양한 도메인에서 복잡한 관계적 데이터를 표현하는 중요한 수단입니다. 이 연구에서는 질의 노드에 기반하여 밀접하게 관련된 커뮤니티를 식별하는 것을 목표로 하는 커뮤니티 검색(CS) 방법을 분석하고, 이를 통해 호모필리와 헤테로필리 그래프에서 효과적인 CS를 수행하기 위한 새로운 접근 방식인 AdaptCS를 제안합니다.

paper AI 요약
인간과 AI가 생성한 이미지 감별을 위한 종합 데이터셋

인간과 AI가 생성한 이미지 감별을 위한 종합 데이터셋

이 논문에서는 AI 생성 이미지 감지를 위한 대규모 데이터셋을 소개합니다. 이 데이터셋은 실제 및 합성 이미지-캡션 쌍 96,000개를 포함하며, 합성 이미지는 여러 생성 모델로부터 생성되었습니다. 우리는 이 데이터셋 기반의 두 가지 작업을 제안하고 있습니다 AI 생성 이미지와 실제 이미지를 구분하는 이진 분류 작업과 특정 생성 모델을 식별하는 작업입니다.

paper AI 요약
인간과 동조된 LLM 에이전트를 통한 추천시스템 평가을 위한 월드 모델 적용

인간과 동조된 LLM 에이전트를 통한 추천시스템 평가을 위한 월드 모델 적용

추천 시스템을 평가하는 것은 오프라인 지표와 실제 사용자 행동 사이의 간극, 그리고 상호작용 데이터의 부족으로 인해 여전히 어려움이 있습니다. 최근 연구에서는 대규모 언어 모델(LLM) 에이전트를 합성 사용자로 활용하는 것을 탐색하고 있지만, 이들은 일반적으로 few-shot 프롬프팅에 의존하여 환경을 얕게 이해하게 되고, 이는 실제 사용자의 행동을 충실하게 재현할 수 있는 능력을 제한합니다. 저희는 AlignUSER라는 프레임워크를 소개하며, 이를 통해 인간의 상호작용에서 월드 모델 구동 에이전트를 학습하고 있습니다. 액션과 상태의 롤아웃 시퀀스가 주어지면, 저희는 다음 상태 예측 작업으로 월드 모델링을 형식화하여 에이전트가 환경을 내재화할 수 있도록 합니다. 인간의 개성과 행동을 일치시키기 위해, 저희는 데모 주변에 가상 경로를 생성하고 LLM에 대해 그 결정을 인간의 선택과 비교하도록 하여 비효율적인 행동을 식별하고 교훈을 추출합니다. 학습된 정책은 이후 추천 시스템과의 에이전트 상호작용을 주도하는 데 사용됩니다. 저희는 AlignUSER를 다양한 데이터셋에 걸쳐 평가하였으며, 미시 및 거시 수준에서 이전 연구보다 실제 인간에게 더 가깝게 맞춰졌음을 입증하였습니다.

paper AI 요약
인간과 인공지능의 공동 창조를 위한 에이전트 기반 AI 프레임워크를 이용한 진보적 아이디어 발상

인간과 인공지능의 공동 창조를 위한 에이전트 기반 AI 프레임워크를 이용한 진보적 아이디어 발상

현대 엔지니어링 디자인에서 진정으로 새로운 다양성의 아이디어를 생성하는 것이 중요하나, 이는 초보 디자이너들에게 중요한 인지적 도전 과제로 남아 있습니다. 현재의 단일 발사형 AI 시스템은 의미론적으로 군집화된 많은 아이디어를 생산하여 이러한 도전을 더욱 어렵게 만듭니다. 우리는 MIDAS(Meta-cognitive Ideation through Distributed Agentic AI System)라는 새로운 프레임워크를 제안합니다. 이는 단일 AI 패러다임 대신 특수한 AI 에이전트로 구성된 분산 팀 을 통해 인간의 메타인지적 아이디어 생성 워크플로우를 모방하도록 설계되었습니다. 이 에이전트 시스템은 아이디어를 점진적으로 정교화하고, 각 아이디어를 기존 솔루션에 대해 전반적인 새로움과 이전에 생성된 아이디어에 대해 국지적 새로움을 평가합니다. 따라서 MIDAS는 진정한 인간-AI 공동 창조의 실현 가능한 점진적 패러다임을 보여주며, 이를 통해 인간 디자이너는 단순히 관문 역할에서 벗어나 적극적인 협력 파트너로 참여하게 됩니다.

paper AI 요약
인간의 물건 배치 선호도, 네 가지 축으로 설명하다

인간의 물건 배치 선호도, 네 가지 축으로 설명하다

이 논문은 서비스 로봇의 물체 재배치 문제를 다룬다. 이 문제는 사용자의 조직 선호도에 따라 공간 내에서 원하는 구성으로 아이템을 정리하는 것을 의미한다. 기존 연구들은 일정한 정돈 방식을 사용했지만, 본 논문에서는 사용자별로 다양한 선호도를 반영할 수 있는 해석 가능한 구조체를 제안한다.

paper AI 요약
No Image

인공심리, 새로운 보안 약점

대형 언어 모델(LLM)의 조직 보안 인프라 통합은 네트워크 컴퓨팅 이후 위협 환경에서 가장 큰 변화 중 하나일 수 있습니다. LLMs는 이제 채팅봇 인터페이스를 벗어나 자동화된 에이전트로서 코드 실행, 자격 증명 관리, 경보 처리 등의 역할을 수행하고 있습니다. 이 논문은 이러한 LLMs가 인간 심리를 모방하는 방식에 중점을 두고 있으며, 이를 이용한 사회 공학적 공격의 위험성을 분석합니다.

paper AI 요약
인공지능 에이전트의 믿음에 따른 편향  인간을 타집단으로 보는 경우

인공지능 에이전트의 믿음에 따른 편향 인간을 타집단으로 보는 경우

(LLM-동력화된 에이전트가 인간 그룹에 대한 사회적 편견을 재생산할 수 있다는 최근 연구들을 바탕으로, 본 논문은 이러한 에이전트들이 인그룹과 아웃그룹 사이의 경계를 통해 자발적인 편견을 나타낼 수 있음을 분석합니다. 특히 인간-인공지능 상호작용에서 이러한 편견이 어떻게 작동하는지를 연구하고, 이를 조작할 수 있는 신뢰성 공격 방법론을 제시합니다.)

paper AI 요약
인라인 코더  리포지토리 수준의 코드 생성 혁신

인라인 코더 리포지토리 수준의 코드 생성 혁신

이 논문에서는 코드 생성 대형 언어 모델(LLM)의 발전에 따라, 저장소 수준의 코드 생성에 대한 관심을 살펴보고 있습니다. 저장소 수준의 코드 생성은 기능 수준 생성과 달리 전체 저장소를 고려해야 하며, 프로그래밍 관례와 API 사용 및 함수 간 복잡한 종속성을 이해해야 합니다. 본 논문에서는 이를 지원하기 위한 새로운 프레임워크인 **InlineCoder**를 제안합니다.

paper AI 요약
인터랙티브 AI 캐릭터 경험을 위한 플랫폼

인터랙티브 AI 캐릭터 경험을 위한 플랫폼

영화 캐릭터부터 현대 과학 소설까지 - 상호작용적이며 스토리 중심의 대화에 캐릭터들을 불러들인 것은 세대를 초월한 상상력을 사로잡았습니다. 이 비전을 달성하는 것은 매우 어렵고 언어 모델링 이상의 많은 요소가 필요합니다. 이를 이루기 위해서는 대화형 AI, 캐릭터 일관성 유지, 성격과 감정 관리, 지식 및 기억 처리, 음성 합성, 애니메이션 생성, 실제 세계 상호작용 활성화, 물리적 환경과의 통합 등 다양한 복잡한 AI 과제를 해결해야 합니다. 기초 모델 개발, 프롬프트 엔지니어링, 하류 작업을 위한 미세 조정에 대한 최근 발전은 연구자들이 이러한 각각의 문제들을 다루는 데 도움이 되었습니다. 그러나 상호작용적 캐릭터를 위해 이 기술들을 통합하는 것은 여전히 개방적인 문제입니다. 우리는 믿을 수 있는 디지털 캐릭터 설계가 편리하게 이루어질 수 있도록 하는 시스템과 플랫폼을 제시합니다. 우리의 시스템은 대화형 및 스토리 중심 경험을 제공하면서 모든 기술적 과제에 대한 해결책도 제공합니다. 증명용으로 디지털 아인슈타인이 소개됩니다. 이는 사용자가 알베르트 아인슈타인의 생애, 연구, 그리고 인물에 대해 대화할 수 있는 디지털 표현을 제공합니다. 디지털 아인슈타인은 특정 캐릭터를 위한 우리의 방법론을 보여주지만, 우리의 시스템은 유연하며 어떤 스토리 중심이나 대화형 캐릭터에도 일반화할 수 있습니다. 이러한 다양한 AI 요소들을 하나의 쉽게 적응 가능한 플랫폼으로 통합함으로써, 우리의 연구는 몰입감 있는 캐릭터 경험을 가능하게 하며, 실감나고 스토리 기반의 상호작용이라는 꿈을 현실로 만들어갑니다.

paper AI 요약
자기 질문으로 성장하는 언어 모델  대안적 사고의 힘

자기 질문으로 성장하는 언어 모델 대안적 사고의 힘

본 논문은 **대안적 자기 질문(Counterfactual Self-Questioning, CSQ)** 이라는 프레임워크를 제안합니다. 이 방법론은 단일 언어 모델이 자체 추론을 대안적으로 검토하고 수정할 수 있도록 합니다. 기존 방식과 달리 외부 비판자나 다중 에이전트 토론 없이도, 내부적으로 생성된 대안적 비평을 통해 정책 최적화 신호를 형성합니다. 실험 결과는 다양한 모델 크기에 걸쳐 표준 추론 벤치마크에서 일관된 성능 개선을 보여줍니다.

paper AI 요약
자연스러운 합성  자연적인 외관 유지 이미지 스티칭

자연스러운 합성 자연적인 외관 유지 이미지 스티칭

이 논문은 파라llx와 깊이 변화로 특징지어지는 난관 많은 실제 환경에서 구조적 정확성을 우선시하는 기하학 중심 이미지 스테칭 접근 방식인 SENA(SEamlessly NAtural)를 소개한다. 전통적인 이미지 스테칭은 동차변환 대상을 사용하지만, 이 엄격한 평면 가정은 장면의 깊이가 큰 듀얼 카메라 구조에서 종종 실패하여 가시적 왜곡과 구형 부풀림 등의 문제가 발생한다. SENA는 세 가지 핵심 기여를 통해 이러한 근본적인 한계를 해결한다. 첫째, 전역 아핀 초기화와 로컬 아핀 개선 및 매끄러운 자유 형태 변형을 결합하는 계층적 아핀 기반 왜곡 전략을 제안한다. 이 설계는 현지 모양, 평행성, 측면 비율을 유지함으로써 동차변환 모델에 의해 일반적으로 발생하는 환시 구조적 왜곡을 피한다. 둘째, RANSAC 필터링된 특징 대응의 깊이 일관성을 통해 직접 패럴랙스 최소화 영역을 감지하는 기하학 중심 적절한 영역 탐지 메커니즘을 도입한다. 세미어틱 분할에 의존하지 않는다. 셋째, 이 적절한 영역 위에 앵커 기반 경계선 자르기 및 분할을 수행하여 이미지 쌍 간의 일대일 기하학적 대응을 강제함으로써 최종 팬오라마에서 유령 효과, 중복 및 번짐 아트팩트를 효과적으로 제거한다. 난관 많은 데이터셋에 대한 광범위한 실험은 SENA가 선두 동차변환 기반 방법들과 비교할 수준의 정렬 정확도를 달성하면서 모양 보존, 텍스처 무결성 및 전체적인 시각적 현실감과 같은 중요한 시각적 메트릭에서 그들을 크게 능가함을 보여준다.

paper AI 요약
자체  주의 유도 세밀한 정합을 통한 시각-언어 검색

자체 주의 유도 세밀한 정합을 통한 시각-언어 검색

이 논문은 텍스트 기반 인물 검색(TBPS)에 대한 새로운 접근법을 제안한다. TBPS는 대규모 이미지 갤러리에서 주어진 텍스트 쿼리와 가장 잘 일치하는 사람을 식별하는 문제이다. 이를 해결하기 위해, 본 논문은 CLIP과 같은 비전-언어 모델(VLM)의 발전을 활용하여 고급 정보를 추출하고자 한다. 그러나 기존 방법들은 추가적인 외부 자원에 의존함으로써 계산 및 주석 부담이 증가하는 문제점이 있다. 이를 해결하기 위해, 본 논문은 ITSELF라는 주의력 가이드로 내재적 공간 대응을 개선한 프레임워크를 제안한다. 이는 클립 모델의 주의 맵을 활용하여 고급 정보를 추출하고, 이를 통해 더 정교한 대응을 달성한다. ###

paper AI 요약
작은 객체 찾기의 새 시대  플로우를 활용한 잡음 저항 기술

작은 객체 찾기의 새 시대 플로우를 활용한 잡음 저항 기술

이 논문에서는 작은 객체 감지(TOD)에 대한 연구를 제시하며, 특히 애노테이션 노이즈에 민감한 문제점을 해결하기 위해 **TOLF**(Tiny Object Localization Flow) 프레임워크를 소개합니다. TOLF는 정규화 흐름을 사용하여 예측 분포의 모델링을 통해 확률적 오류와 애노테이션 노이즈에 대응할 수 있습니다.

paper AI 요약
저고도 경제 활성화  신뢰성 인식 동적 가중치 할당을 통한 다모달 UAV빔 예측

저고도 경제 활성화 신뢰성 인식 동적 가중치 할당을 통한 다모달 UAV빔 예측

저고도 경제(LAE)는 도심 항공 이동성, 로지스틱 드론, 공중 감지에 의해 급속히 확장되고 있으며, 무인 항공기(UAVs) 통신에서 빠르고 정확한 빔 예측은 안정적인 연결을 달성하는 데 중요합니다. 현재 연구는 단일 신호에서 다중 모달 협업 접근법으로 변화하고 있습니다. 그러나 기존의 다중 모달 방법은 대부분 고정된 또는 경험적 가중치를 사용하며, 언제나 모든 모달이 동등한 신뢰성을 갖는다고 가정합니다. 실제로 다양한 UAV 움직임 시나리오에서 각각의 모달의 중요성이 극적으로 변동하며, 정적 가중치는 손상된 모달들의 부정적인 영향을 증가시킵니다. 또한 모달 불일치와 약한 대조는 교차 시나리오 일반화를 더욱 약화시킵니다. 이를 위해 우리는 신뢰성에 기반한 동적 가중치 방식을 적용하는 언어 인식 다중 모달 빔 예측 프레임워크, SaM2B를 제안합니다. 구체적으로, SaM2B는 환경 시각 정보, 비행 자세, 지오스페이셜 데이터와 같은 가벼운 쿠에를 활용하여 신뢰성에 기반한 동적 가중치 업데이트를 통해 다양한 시간점에서 각 모달에 대한 기여도를 적응적으로 할당합니다. 또한 교차 모달 대조 학습을 이용함으로써, 특정 빔 정보와 관련된 다중 출처 표현 빔 의미 를 공유하는 의미 공간에 맞춥니다. 이를 통해 모달 노이즈와 분포 변화 아래에서 판별력과 강건성을 향상시킵니다. 실제 저고도 UAV 데이터셋을 사용한 실험 결과, SaM2B는 기존 방법보다 만족스러운 결과를 달성합니다.

paper AI 요약
적응 베이지안 부분공간 0차 최적화를 통한 강건하고 효율적인 대형 언어 모델 미세조정

적응 베이지안 부분공간 0차 최적화를 통한 강건하고 효율적인 대형 언어 모델 미세조정

본 논문에서는 Bayesian Subspace Zeroth-order Optimization(이하 BSZO) 알고리즘을 제안한다. 이 알고리즘은 베이지안 추론과 칼만 필터링을 활용하여 다양한 방향의 페르튜베이션에 대한 기울기 정보를 통합하고, 이를 통해 메모리 사용량을 줄이는 동시에 수렴 속도를 개선한다. 실험 결과는 BSZO가 다양한 작업에서 뛰어난 성능을 보이며, 특히 저정밀도 학습에서도 안정적으로 작동함을 입증한다.

paper AI 요약
적응형 하이브리드 최적화기반의 거식피부병 식별 프레임워크

적응형 하이브리드 최적화기반의 거식피부병 식별 프레임워크

전염성 바이러스 감염인 러미피부병(LSD)은 가축 건강을 크게 저하시켜 글로벌 경제와 식량 안보에 중대한 위협을 제기한다. 그 빠른 확산 특성을 고려할 때, 발병을 방지하고 적시 개입을 보장하기 위해서는 조기에 정확히 인식하는 것이 중요하다. 본 논문에서는 LSD의 조기 검출을 위한 하이브리드 딥러닝 기반 접근법인 LUMPNet을 제안한다. LUMPNet은 이미지 데이터를 이용하여 LSD의 주요 지표인 피부 결절을 감지하고 분류한다. 이를 위해 LUMPNet은 YOLOv11, 복합 스케일링을 갖춘 EfficientNet 기반 CNN 분류기 및 새로운 적응형 하이브리드 옵티마이저를 사용한다. 좀 더 구체적으로는 LUMPNet이 소의 이미지에서 LSD 피부 결절과 흉터를 감지하고 위치 지정하며, EfficientNet을 이용하여 해당 위치 지정된 소의 이미지를 LSD에 영향 받은 것 또는 건강한 것으로 분류한다. YOLOv11 및 EfficientNet 하이브리드 모델의 학습을 안정화시키고 가속화하기 위해 새로운 적응형 하이브리드 옵티마이저가 제안되고 사용된다. 우리는 공개 데이터 세트를 이용하여 LSD의 다양한 단계에서 LUMPNet을 평가한다. 결과는 제안된 방식이 99%의 LSD 감지 학습 정확도를 달성하고, 기존 방식보다 우수함을 나타낸다. 이 모델은 검증 정확도에서도 98%를 달성한다. 또한 추가 평가를 위해 AdamW 옵티마이저로 튜닝된 EfficientNet-B0 모델을 사용한 사례 연구를 수행하고 LUMPNet의 성능과 비교한다. 결과는 LUMPNet이 우수한 성능을 달성함을 보여준다.

paper AI 요약
전통 인디언 럼미의 수량 기반 규칙 모델링  지표 최적화 접근법

전통 인디언 럼미의 수량 기반 규칙 모델링 지표 최적화 접근법

게임 이론, 루미, 휴리스틱 최적화, 상대방 모델링, 규칙 기반 전략, 제로섬 게임에 대해 논의한다. 클래식 인디언 루미는 운과 기술 사이에서 균형을 이루는 카드 게임이다. 본 논문에서는 강화 학습과 몬테카를로 방법 대신 해석 가능한 규칙 기반 접근법을 제시하며, *MinDist*라는 새로운 정량적 지표를 소개한다.

paper AI 요약
제너레이티브 AI의 패러독스  진실의쇠퇴와 정보검증의 부식

제너레이티브 AI의 패러독스 진실의쇠퇴와 정보검증의 부식

생성 인공지능(GenAI)은 이제 텍스트, 이미지, 오디오, 비디오를 대규모로 그리고 거의 무시할 수 있는 추가비용으로 인식상 납득 가능한 결과물을 생산하고 있습니다. 공론장에서는 이러한 관련 피해를 주로 딥페이크 나 증언 및 사기의 점진적 확장을 통한 것으로 다루는 경우가 많으나, 이 관점은 더 넓은 사회기술 변화를 놓치고 있습니다 GenAI는 합성 현실을 가능하게 합니다; 내용, 정체성, 그리고 사회 상호작용이 공동으로 제조되고 상호 보완적인 일관되고 상호 작용 가능한 정보 환경입니다. 본 논문은 단지 고립된 합성 제품의 생산에 그치는 것이 아니라, 합성 콘텐츠, 합성 정체성, 그리고 합성 상호작용이 생성하기 쉬우며 심사가 어려워짐으로써 공유 지식 기반과 제도적 검증 실천이 점진적으로 훼손되는 것이 가장 중대한 위험이라는 입장을 주장합니다. 이 논문은 (i) 합성 현실을 층叠的堆栈(内容、身份、互动、机构),(ii) 扩展涵盖个人、经济、信息和社技风险的GenAI危害分类,(iii) 阐述由GenAI引入的定性转变(成本崩溃、吞吐量、定制化、微细分、出处缺口和信任侵蚀),以及(iv) 将近期风险实现(2023-2025年)综合成一个紧凑案例库,说明这些机制如何在欺诈、选举、骚扰、文件编制和供应链妥协中表现。然后我们提出了一种缓解堆栈,将来源基础设施、平台治理、机构工作流程重新设计以及公共复原力视为互补而非替代的,并概述了一个专注于衡量知识安全的研究议程。我们以生成式人工智能悖论结束:随着合成媒体变得无处不在,社会可能合理地完全忽视数字证据。 请允许我纠正并完成韩语翻译: (ii) 개인, 경제, 정보, 사회기술적 위험을 포괄하는 GenAI 해악 분류를 확장하고, (iii) 제네레이티브 AI가 도입한 정성적인 변화(비용 붕괴, 처리량, 맞춤화, 미세 세분화, 출처 격차, 신뢰 침식)를 설명하며, (iv) 사기, 선거, 괴롭힘, 문서 작성, 공급망 해킹에서 이러한 메커니즘이 어떻게 나타나는지 보여주는 2023-2025년의 최근 위험 실현을 간결한 사례 은행으로 종합합니다. 그런 다음 우리 주장은 입증 인프라, 플랫폼 통치력, 기관 워크플로 리디자인, 공공 복원력을 대체가 아닌 보완적인 것으로 취급하는 완화 스택을 제안하고, 지식 안전성 측정에 초점을 맞춘 연구 계획을 개략합니다. 우리는 생성 AI 패러독스를 결론으로 내립니다 합성 미디어가 보편화됨에 따라 사회는 합리적으로 디지털 증거를 완전히 할인할 수 있습니다.

paper AI 요약
제한적인 의학적 어노테이션을 갖춘 다_SCALE-인식 적응형 감독 네트워크

제한적인 의학적 어노테이션을 갖춘 다_SCALE-인식 적응형 감독 네트워크

우리는 제한적인 어노테이션 조건에서도 성능을 향상시키기 위해 SASNet, 즉 이중 분기 반감독 세분화 네트워크를 제안합니다. 스케일 인식 적응 가중 전략은 선택적으로 픽셀 단위 결과를 합쳐 더 신뢰할 수 있는 집합 예측을 생성합니다. 또한 관점 변동 증강 메커니즘은 다양한 관점과 스케일에 따른 어노테이션 차이를 시뮬레이션하여 견고성과 세분화 정확도를 향상시킵니다.

paper AI 요약
조건 속성과 조건 특성 암시의 최적 기반 구축

조건 속성과 조건 특성 암시의 최적 기반 구축

본 논문에서는 삼차적 맥락에서 최적의 함의 집합을 구성하는 방법을 증강을 통해 제안한다. 또한 이 구성 방법의 복잡성을 분석하고, 특징(feature), 준특징(quasi-feature), 가상특징(pseudo-feature)이라는 세 가지 핵심 개념을 소개하며, 이를 사용해 Biedermann과 Ganter 및 Obiedkov가 정의한 삼차적 함의를 구성하는 알고리즘을 제안한다.

paper AI 요약
주제 풍부한 임베딩을 통합한 복합적 접근법으로 검색 강화 생성 개선

주제 풍부한 임베딩을 통합한 복합적 접근법으로 검색 강화 생성 개선

(이 논문은 주제-강화 임베딩 방법을 제안하고, 이를 통해 복잡한 데이터셋에서의 문서 클러스터링과 검색 정밀도를 향상시키는 데 초점을 맞춥니다. 이 접근 방식은 기존 통계적 모델과 확률적 주제 모델링을 현대적인 문맥 임베딩과 통합하여, 로컬 및 글로벌 의미 특성을 동시에 포착합니다.)

paper AI 요약
진ิ우스 에이전트  실제 시나리오에서 경험 중심 정확도 최적화로의 접근

진ิ우스 에이전트 실제 시나리오에서 경험 중심 정확도 최적화로의 접근

대형 언어 모델(LLMs)의 능력이 증가함에 따라, LLM 기반 자율 에이전트는 AI 응용 분야에서 새로운 패러다임을 제공한다. 이러한 에이전트들은 지시를 이해하고 도구를 호출하며 추론과 계획을 수행하고 복잡한 작업을 처리할 수 있다. 그러나 현재의 지능형 에이전트 시스템은 일반성, 안정성 및 관리 가능성에 대한 여러 문제점을 가지고 있으며, 특히 많은 작업 상황에서 태스크 정밀도, 응답 신뢰성 및 시스템 안정성이 취약하다. 현재 대부분의 에이전트 시스템은 고정된 프롬프트와 사전 정의된 도구 사용 워크플로에 의존하여 작업 의도를 이해하거나 동적으로 도구를 선택하고 컨텍스트를 효과적으로 관리하는 능력이 제한적이다. 이 연구에서는 자율 에이전트의 기본 실행 과정을 시작으로, 위 문제들을 해결하기 위한 세 가지 보완적인 최적화 모듈을 소개한다. - **작업 이해와 프롬프트 최적화 ** 구조화된 의도 인식과 정교한 시스템 프롬프트 및 템플릿을 통합하여 지시를 현재 상태와 목표에 맞게 조정하여 잘못된 해석을 줄이고 작업 일치성을 안정화한다. - **도구 검색 ** 동적 검색과 적응적인 도구 접근을 사용하여 사용자 의도를 컨텍스트 관련 도구와 매칭하고 불명확한 사용자 요청을 처리한다. - **계층형 메모리 관리 ** 중복 대화 기록을 제거하여 토큰 길이를 제어하고 중요한 의미를 유지하며 장기 상호작용에서 추론을 안정화한다. 이 연구에서는 Jenius-Agent라는 통합 프레임워크를 구축하여 작업 정확도, 효율성 및 컨텍스트 강건성을 향상시킨다. 이 프레임워크는 적응적인 프롬프트 생성, 컨텍스트 인식 도구 조정 및 계층형 메모리 관리를 통합한다. ###

paper AI 요약
진리 측정 프로젝트  인공지능의 확신 수준을 어떻게 평가할까?

진리 측정 프로젝트 인공지능의 확신 수준을 어떻게 평가할까?

이 논문에서는 대형 언어 모델(Large Language Models, LLMs)의 평가에서 발생하는 인식론적 위기를 다룬다. 특히 정적인 능력 기준과 인지적 일관성이 분리되는 문제를 탐구한다. 이 연구는 무장된 지적인 겸양 이라는 현상을 제시하며, 모델들이 사용자의 의도에 맞추기 위해 참을성을 강조하는 경향이 있다. 이를 해결하기 위해 Project Aletheia 프레임워크를 도입하고, 측정 채널의 편향을 수학적으로 분리하여 진짜 신호를 복원할 방법을 제안한다.

paper AI 요약
진실로 속이는 함정

진실로 속이는 함정

대형 언어 모델(LLMs)은 복잡한 추론과 정보 통합을 수행할 수 있는 자율 에이전트의 인지 핵심으로 진화했습니다. 그러나 이러한 모델들이 인간과 더 가까워짐에 따라, *담론의 일관성*이라는 중요한 취약점을 물려받게 됩니다. 이 취약점은 LLMs가 편파적인 해석을 생성하는 데 사용되며, 특히 정보 집약적 환경에서 이러한 문제는 더욱 심각해집니다. 본 논문에서는 이 취약점을 이용한 인지 협응 공격(Cognitive Collusion Attack)을 제안하고, 이를 수행하기 위한 새로운 프레임워크인 **Generative Montage**를 소개합니다.

paper AI 요약
질의-문서 밀집 벡터를 활용한 LLM 관련성 판단 편향 분석

질의-문서 밀집 벡터를 활용한 LLM 관련성 판단 편향 분석

(본 논문은 대형 언어 모델(LLM)의 관련성 판단에서 숨겨진 편향을 진단하고 투명성을 높이기 위한 프레임워크를 제안합니다. 이 연구는 쿼리와 문서의 조합(Q-D 쌍)을 밀집 벡터로 임베딩하여 공유 의미 공간에서 클러스터링하는 방법론을 사용합니다. 이러한 접근법은 전역 통계를 넘어서, 특정 의미적 컨텍스트 내에서 인간과 LLM 사이의 판단 불일치를 분석할 수 있게 합니다.)

paper AI 요약
집중의 법칙  주의 분배 통일론

집중의 법칙 주의 분배 통일론

대형 언어 모델(LLMs)의 성공은 Transformer 아키텍처의 핵심 혁신인 자기 주의 메커니즘에 기반한다. 그러나 이 메커니즘이 이상적인 동작에서 벗어나 대표적으로 나타나는 현상으로는 표현력 붕괴와 주의 침전이 있다. 본 논문에서는 이런 문제를 해결하기 위해 Lazy Attention이라는 새로운 접근법을 제안하며, 이를 통해 모델 성능 향상을 확인한다.

paper AI 요약
챗봇으로 최적화된 가상 네트워크 관리

챗봇으로 최적화된 가상 네트워크 관리

본 논문은 자연어 처리(NLP)를 최적화 기반 가상 네트워크 할당과 통합한 채팅 주도의 네트워크 관리 프레임워크를 제안합니다. 이는 직관적이고 신뢰할 수 있는 가상 네트워크 서비스 재구성을 가능하게 합니다. 기존 의도 기반 네트워킹(IBN) 방법은 사용자의 의도 해석을 위해 통계 언어 모델에 의존하지만, 생성된 설정의 타당성 보장을 할 수 없습니다. 이를 극복하기 위해Interpreter와 Optimizer로 구성된 두 단계 프레임워크를 개발하였습니다. Interpreter는 NLP를 활용해 자연어 프롬프트로부터 의도를 추출하고, Optimizer는 정수 선형 계획법을 통해 타당한 가상 머신(VM) 배치와 라우팅을 계산합니다. 특히 Interpreter는 사용자 채팅을 업데이트 방향으로 번역하여 CPU 요구량과 지연 상한 등 매개변수를 증가시키거나 감소시키거나 유지할지 결정함으로써 네트워크 설정의 반복적 정교화를 가능하게 합니다. 본 논문에서는 SVM 분류기와 Sentence-BERT 모델, 대형 언어 모델(LLM)을 포함한 두 개의 의도 추출기를 소개합니다. 단일 사용자 및 다중 사용자 환경에서의 실험 결과는 프레임워크가 타당성을 유지하면서 VM 배치와 라우팅을 동적으로 업데이트할 수 있음을 보여줍니다. LLM 기반 추출기는 적은 양의 레이블된 샘플로 더 높은 정확도를 달성하며, Sentence-BERT와 SVM 분류기 조합은 실시간 운영에 적합한 상당히 낮은 지연을 제공합니다. 이러한 결과들은 안전하고 해석 가능하며 사용자 친화적인 가상 네트워크 관리를 위해 NLP 기반 의도 추출과 최적화 기반 할당의 결합이 효과적임을 강조합니다.

paper AI 요약
첨단 알고리즘으로 보는 콘크리트의 미래

첨단 알고리즘으로 보는 콘크리트의 미래

이 논문은 콘크리트 구조물에서 염화물의 시간에 따른 변화가 어떻게 영향을 받는지 결정하기 위해 데이터 기반 접근 방식을 사용합니다. 이것은 공격적인 환경에 노출된 시민 인프라의 수명을 평가하는 데 중요합니다. 채택한 방법론은 간단하고 복잡한 독립적인 머신 러닝(ML) 알고리즘에 의존하며, 주요 목표는 숨겨진 상관 관계를 공정하게 예측할 수 있는 신뢰성을 확립하는 것입니다. 간단한 알고리즘에는 선형 회귀(LR), k-최근접 이웃(KNN) 회귀, 커널 리지 회귀(KRR)가 포함됩니다. 복잡한 알고리즘에는 지원 벡터 회귀(SVR), 가우시안 프로세스 회귀(GPR), 그리고 두 가지 유형의 인공 신경망이 포함되며 이는 다중 계층 퍼셉트론(MLP)과 게이트 순환 단위(GRU)를 포함합니다. MLP 아키텍처는 시퀀셜 데이터를 명시적으로 처리할 수 없으나, GRU가 이를 해결하고 있습니다. 포괄적인 데이터셋을 고려하였습니다. ML 알고리즘의 성능은 평가되었으며 KRR, GPR 및 MLP는 높은 정확도를 보였습니다. 채택된 콘크리트 혼합 비율이 다양하기 때문에 GRU는 테스트 세트에서 반응을 정확하게 재현할 수 없었습니다. 추가 분석은 혼합 성분들이 염화물의 시간에 따른 변화에 어떤 영향을 미치는지 명시하였습니다. GPR 모델로 얻어진 결과는 명확하고 설명 가능한 추세를 통해 잠재적인 상관 관계를 밝혀냅니다. MLP, SVR 및 KRR도 전체적인 추세의 적절한 예측을 제공합니다. 대부분의 혼합 성분은 염화물 함량과 역 관계를 보이지만 몇 가지 구성 요소는 직접적인 관련성을 나타내었습니다. 이러한 결과는 염화물 침투와 관련된 물리적 과정 및 상관 관계를 설명하기 위한 대리 접근 방식의 가능성을 강조하며, 궁극적으로 시민 인프라의 수명을 향상시키기 위한 목표를 달성하는 데 기여합니다.

paper AI 요약
체리토마토 수확로봇의 시각기반 고장진단과 자가회복

체리토마토 수확로봇의 시각기반 고장진단과 자가회복

로봇 수확 장비가 농업 생산성을 향상시키고 노동 의존도를 줄이는 데 큰 잠재력을 보여주지만, 기계적, 전기적, 제어 부품의 결함이 여전히 존재하여 작동의 안정성과 연속성을 해칩니다. 이 논문에서는 이러한 문제를 해결하기 위해 시각 인식을 통합한 다중 작업 퍼셉션 네트워크와 위치 오류 보상 방법, 초기 중단 전략을 도입했습니다.

paper AI 요약
초강속 자율주행 시나리오 시뮬레이션

초강속 자율주행 시나리오 시뮬레이션

최근 자율주행 차량은 제한된 환경에서 일반 도로로 전환되었으며, 특히 샌프란시스코에서는 로봇택시 서비스가 안전하게 운영되고 있습니다. 그러나 미세 충돌과 교통 지연이 증가하고 있으며 이에 대한 보고와 개선 사항의 부재는 공공의 신뢰를 저하시키고 있습니다. 본 논문은 자율주행 시뮬레이션 환경에서의 테스트 효율성을 높이는 방법을 제시하며, 이를 통해 안전한 자동차 경주에 적용되었습니다.

paper AI 요약
No Image

최적 계약의 데이터 효율성

알고리즘 계약 이론에서 중앙 문제 중 하나는 그들의 특성이 알려지지 않은 대상에게 인센티브를 설계하는 것이다. 디지털 음악 플랫폼이 새로운 로열티 모델을 도입하려고 할 때, 각 독립 아티스트는 플랫폼에 대해 알려진 정보가 없는 개인 유형(private type)을 가지고 있다. 플랫폼은 작은 샘플 집합에서 시범 프로그램을 실행하여 여러 새로운 수익 공유 계약을 테스트하고 그 결과 다운로드 및 스트리밍 참여 데이터를 수집한다. 이 샘플을 기반으로 플랫폼은 전체 아티스트 커뮤니티의 동기를 부여하여 이윤을 최적화하는 개선된 로열티 모델을 학습하려고 한다. 이 시범 프로그램은 최근의 주요 연구에서 제시한 샘플 기반 학습 프레임워크의 예로, 이를 통해 유형이 완전히 파악된 대상들로부터 유한 데이터셋으로부터 최적 계약을 설계할 수 있다. 이 프레임워크는 다른 확립된 모델과 함께 다양한 시나리오에 적합하다. 더 공식적으로 말하면, 환경은 에이전트가 취할 수 있는 $`n`$ 개의 행동 집합과 $`m ge 2`$ 개의 가능한 결과로 구성된다. 각 결과 $`j`$에는 플랫폼이 받는 고정 보상 $`r_j ge 0`$이 있다. 에이전트는 개인 유형(private type) $` theta=(f,c)`$를 가지고 있는데, 이는 플랫폼에 알려지지 않은 정보이다. 플랫폼은 계약을 설계하여 최적의 기대 수익을 얻으려고 한다. 우리의 주요 결과는 선형 계약 클래스에 대한 학습 샘플 복잡도를 정확히 캐릭터라이즈하는 것이다.

paper AI 요약
출력 임베딩 중심화  대형 언어 모델 안정화

출력 임베딩 중심화 대형 언어 모델 안정화

대형 언어 모델의 사전 학습은 비용이 많이 들 뿐만 아니라 특정 트레이닝 불안정성에 노출되기 쉽습니다. 특히 큰 학습률을 사용할 때 마지막 부분에서 자주 발생하는 특정 불안정성이 출력 로짓 발산입니다. 가장 널리 사용되는 완화 전략인 z-손실은 문제의 증상을 다루는 데 그치고 근본 원인을 해결하지 않습니다. 본 논문에서는 출력 임베딩의 기하학적 관점에서 불안정성을 분석하고 그 원인을 파악하였습니다. 이를 바탕으로 새로운 완화 전략인 출력 임베딩 센터링(OEC)을 제안하고, 이가 출력 로짓 발산을 억제한다는 것을 증명합니다. OEC는 확률적 작업인 μ-센터링 또는 정규화 방법인 μ-손실로 두 가지 다른 방식으로 구현될 수 있습니다. 실험 결과, 두 변형 모두 z-손실보다 학습 안정성과 학습률 민감도 측면에서 우수한 성능을 보여주며, 특히 큰 학습률에서도 z-손실이 실패할 때에도 훈련이 수렴하도록 보장합니다. 또한 μ-손실은 z-손실보다 정규화 하이퍼파라미터 조정에 대해 크게 덜 민감하다는 것을 발견하였습니다.

paper AI 요약
커스텀 설계부터 심층 잔차 모델까지  다양한 이미지 분류와 탐지 작업을 위한 CNN 아키텍처의 진화

커스텀 설계부터 심층 잔차 모델까지 다양한 이미지 분류와 탐지 작업을 위한 CNN 아키텍처의 진화

이 연구에서는 다섯 가지 다양한 이미지 데이터셋을 사용하여 CNN 기반 모델의 성능을 평가한다. 이 데이터셋들은 도로 상태 분석, 보도 침범 감지, 과일 종류 인식 및 벼 종류 분류와 같은 실용적인 실제 세계 문제를 다룬다. 우리는 고유한 커스텀 CNN 아키텍처와 기존 모델들인 MobileNet과 EfficientNet을 비교하며, 다양한 이미지 분류 작업에서의 성능 차이를 살펴본다.

paper AI 요약
코그플로  지식 내재화를 통한 시각적 수학 문제 해결을 위한 인지와 추론의 연결

코그플로 지식 내재화를 통한 시각적 수학 문제 해결을 위한 인지와 추론의 연결

각종 진전에도 불구하고 다중 모달의 대형 언어 모델들은 시각 수학 문제 해결에서 여전히 어려움을 겪고 있다. 최근 연구들은 시각적 인식이 시각 수학 사고의 병목 현상임을 인지하였지만, 그들의 해법은 주로 시각적 입력의 추출과 해석 개선에 한정되어 있다. 특히, 추출된 시각적 단서들이 후속 사고 과정에서 신뢰성 있게 통합되고 적절히 활용되는 문제는 간과되었다. 이를 극복하기 위해 우리는 인식$ Rightarrow$내부화$ Rightarrow$사고라는 인간의 계층적 사고 흐름을 명시적으로 시뮬레이션하는 새로운 인지 기반 세 단계 프레임워크인 CogFlow를 제안한다. 이러한 계층적 흐름에 맞추어 모든 단계를 통합적으로 강화하였다. 매개변수적 및 의미 공간에서의 시각 정보 추출을 개선하기 위해 상호 보완적인 시각적 리워드를 설계하여 인식 능력을 높였다. 추출된 시각적 단서들이 후속 사고 과정에 신뢰성 있게 통합되도록 내부화 단계에서는 지식 내부화 리워드 모델을 도입하여 인식과 사고 사이의 연결을 강화하였다. 또한, 사고가 시각적 지식 위에 기반하도록 더 강하게 제약하기 위해 시각 게이트 정책 최적화 알고리즘을 설계하여 일관되지만 시각적으로 무근거인 사고 체인을 피할 수 있도록 하였다. 추가로 새로운 데이터셋 MathCog를 제공하여 모델 훈련에 기여하였으며, 이는 12만 개 이상의 고품질 인식-사고 정합성 주석을 포함하고 있다. 일반적으로 사용되는 시각적 수학 사고 벤치마크에서 실시된 포괄적인 실험과 분석은 제안된 CogFlow의 우수성을 검증한다.

paper AI 요약
코드 복잡성으로 숫자로 바꾸는 방법

코드 복잡성으로 숫자로 바꾸는 방법

알고리즘 분류는 컴퓨터 과학에서 중요한 문제로, 코드 조각에 사용된 프로그래밍 기법과 특정 알고리즘을 식별하는 것을 목표로 합니다. 이 작업은 코드의 의미론적 이해를 필요로하며 이를 통해 코드 취약성 검출이나 자동 코드 생성 도우미 설계 등 다양한 응용 분야에서 통찰력을 제공할 수 있습니다. 본 논문에서는 정적 코드 분석이 아닌 동적 분석을 중점적으로 다룹니다. 알고리즘이 어떻게 작동하는지 실제 실행 부분을 분석하여 리소스 사용량(예 CPU 시간, 메모리)이 입력 크기에 따라 어떻게 변화하는지를 조사합니다. ###

paper AI 요약
코드스위칭 음성인식을 위한 TTS 데이터 증강 개선

코드스위칭 음성인식을 위한 TTS 데이터 증강 개선

코드 스위칭은 다언어 화자들이 두 가지 이상의 언어를 혼합하여 대화하는 일상적인 관행입니다. 이는 자동 음성 인식(ASR)에서 특히 어려운 문제로, 화자가 언어 간 전환 시intonation, 리듬, 발음 등을 조정하므로 ASR 시스템은 이러한 변화를 실시간으로 추적해야 합니다. 그러나 실제 코드 스위칭 데이터셋의 부재가 모델 성능을 크게 제한합니다. 이 논문에서는 TTS(TTS Text-to-Speech) 합성 음성을 이용하여 이러한 문제를 해결하는 방법을 제시하고, 이를 통해 ASR 시스템의 성능을 개선할 수 있음을 보여줍니다.

paper AI 요약
쿠포먼 이론으로 안전한 제어 범위 예측하기

쿠포먼 이론으로 안전한 제어 범위 예측하기

본 연구에서는 알려지지 않은 비선형 동역학의 확률적 데이터 기반 안전 검증을 위한 확장 가능한 접근 가능성을 기반으로 하는 프레임워크를 제안합니다. 이에 Koopman 이론과 신경망(NN) 리프팅 함수를 사용하여 동역학의 근사 선형 표현을 학습하고, 이러한 공간에서 참조 궤적 분포의 클로즈드-루프 추적을 가능하게 하는 선형 제어기를 설계합니다. 클로즈드 루프 접근 가능한 집합은 리프팅된 공간에서 효율적으로 계산되며, NN 검증 도구를 통해 원래 상태 공간으로 다시 매핑됩니다. Koopman 동역학과 실제 시스템 간의 모델 불일치를 포착하기 위해 통계적 유효성을 갖는 오차 한계를 생성하기 위한 콘포멀 예측을 적용합니다. 이를 통해 사용자가 지정한 확률로 실제 궤적이 포함되도록 접근 가능 집합이 팽창됩니다. 이러한 경계는 참조에 따라 일반화되어 재사용 없이 재계산할 필요가 없습니다. 11차원 호퍼, 28차원 스위머로 구성된 고차원 MuJoCo 작업과 12차원 퀼코pter에서의 결과를 통해 기존 방법보다 개선된 접근 가능 집합 커버리지 비율, 계산 효율성 및 보수성을 확인할 수 있습니다.

paper AI 요약
테스트 시점의 추론 모델 인지 행동 이해 및 조정

테스트 시점의 추론 모델 인지 행동 이해 및 조정

최근 강화 학습(RL) 기반 훈련을 통해 대형 언어 모델(LLM)의 추론 능력이 크게 향상되었지만, 이들 모델은 여전히 비효율적인 사고 과정을 보일 때가 많다. 본 논문에서는 인지 행동을 추적하고 조절할 수 있는 특정 주의 머리들이 있다는 가설을 제시하고, 이를 통해 CREST 라는 훈련 없이 추론 중에 사고 패턴을 수정하는 프레임워크를 소개한다. CREST는 모델 내부에서 인지 행동을 조절할 수 있는 주의 머리들을 찾아내고, 테스트 시간에 이들 머리들의 활성화를 조작하여 모델의 사고 경로를 유도한다.

paper AI 요약
텍스트에서 이미지 생성을 위한 에이전트 리터쳐

텍스트에서 이미지 생성을 위한 에이전트 리터쳐

이 논문에서는 텍스트-이미지 생성 모델(T2I)에서 발생하는 미세한 왜곡을 자동으로 인식하고 수정하기 위한 **Agentic Retoucher**라는 새로운 프레임워크를 제안합니다. Agentic Retoucher는 시각적-의사결정-행동 순환 구조로 설계되어, 생성된 이미지에서 특정 부분에 대한 왜곡을 감지하고 수정할 수 있습니다. 이를 위해 **GenBlemish-27K**라는 대규모 데이터셋을 구성하여, 다양한 왜곡 유형에 대한 정밀한 주석과 자연어 설명을 제공합니다. 실험 결과는 Agentic Retoucher가 현존하는 후처리 방법보다 향상된 성능을 보여주며, 특히 미세한 왜곡 인식 및 수정에서 뛰어난 효과를 나타냅니다. ###

paper AI 요약
특권정보로 객체인식 강화  교사-학생 접근법

특권정보로 객체인식 강화 교사-학생 접근법

컴퓨터 비전 분야에서 객체 검출은 주요한 문제로, 자율 시스템, 환경 모니터링, 로봇공학 등 다양한 분야에 응용됩니다. 이 연구에서는 학습 중 특권 정보를 활용하는 Learning Under Privileged Information (LUPI) 패러다임을 객체 검출에 적용하여, 기존 방법보다 더 우수한 성능을 달성할 수 있는지 실험적으로 검증합니다.

paper AI 요약
팔콘  교차 도메인 의료 영상 분할을 위한 소량 샘플 대립학습

팔콘 교차 도메인 의료 영상 분할을 위한 소량 샘플 대립학습

정확한 해부학적 구조 및 병리학적 부위의 분할은 진단, 치료 계획 수립, 질병 진행 모니터링에 필수적이며 의사가 환자의 상태를 종합적으로 평가하고 정보에 입각한 결정을 내릴 수 있게 합니다. 이 작업은 보통 방사선과나 의료진이 수작업으로 수행하므로 시간이 많이 걸리고 일관성이 떨어집니다. AI 기반의 자동화된 분할 방법이 이러한 효율성 및 일관성을 개선하기 위해 주목받고 있습니다. 딥 뉴럴 네트워크(DNNs)를 포함한 인공지능은 특히 변환기 구조를 사용하여 일반적인 이미지 분석에서 혁신을 이끌어냈습니다. 그러나 이러한 모델을 의료 이미징에 직접 적용하는 것은 대규모 주석 데이터와 많은 연산 자원이 필요하다는 점에서 여러 가지 도전 과제가 있습니다. 3D 볼륨의 경우 특히 수작업으로 마스크를 생성하는 것이 비용이 많이 들고 시간이 오래 걸립니다. 가상 데이터를 생성하는 생성 모델은 주석 부족 문제에 대한 유망한 해결책을 제공하지만, 임상적 채택에는 철저한 검증과 규제 준수 요구사항이 있습니다. 전통적인 데이터 증강 기법은 실제 임상 특징을 정확히 포착하지 못하는 경우가 있어 모델의 신뢰성을 저하시킬 수 있습니다. 의료 이미지 분할에서는 정확한 경계 선정이 중요하며, 작은 위치 오차는 수술 사고로 이어질 수 있는 심각한 임상적 결과를 초래합니다. 본 논문은 개인 정보 보호 및 자원 효율적인 의료 AI의 필요성에 의해 작성되었습니다. 특정 환자의 3D 볼륨에서 얻은 미표시 슬라이스가 높은 정확도의 분할을 위한 필요한 맥락을 제공한다는 가설을 제시합니다. ###

paper AI 요약
프라이버시벤치  개인화된 AI의 개인정보 보호 평가를 위한 대화형 벤치마크

프라이버시벤치 개인화된 AI의 개인정보 보호 평가를 위한 대화형 벤치마크

본 논문에서는 개인화된 AI 보조 도구의 개인정보 보호 문제를 다룬다. 특히, 대형 언어 모델(Large Language Models)을 기반으로 한 개인화 시스템에서 발생하는 정보 유출 위험에 초점을 맞춘다. 이를 위해 PrivacyBench 라는 새로운 평가 프레임워크를 제안하고, 실제 상호작용에서 개인정보 보호의 중요성을 강조한다.

paper AI 요약
프로젝트 아리아네  LLM 에이전트의 충실성을 심사하기 위한 구조적 인과 프레임워크

프로젝트 아리아네 LLM 에이전트의 충실성을 심사하기 위한 구조적 인과 프레임워크

대형 언어 모델(ULLM) 에이전트의 급속한 확산은 자동 문제 해결 분야에 혁명을 가져왔습니다. 그러나 이러한 에이전트가 고위험 도메인에서 사용될 때, 그들의 의사결정 과정의 투명성이 중요한 안전 장벽이 됩니다. 이 논문에서는 이러한 문제를 해결하기 위한 프로젝트 아리아드네(Project Ariadne)라는 진단 프레임워크를 소개합니다. 이 프레임워크는 구조적 인과 모델(SCMs)을 활용하여 에이전트의 의사결정 과정에서 발생하는 인과 분리 현상을 진단하고 있습니다. ###

paper AI 요약
하노이월드  안전한 자율주행의 열쇠

하노이월드 안전한 자율주행의 열쇠

현재 자율 제어를 위한 강화 학습의 시도는 데이터 요구량이 많고 결과가 미흡하며 안정적이지 않고, 또한 픽셀 재구성의 특성상 잡음 특징에 과도하게 집중하여 안전 개념을 이해하고 이를 기반으로 하지 못하는 문제점이 있습니다. 현재 Self-Supervised Learning 접근 방식은 JEPA(Joint Embedding Predictive Architecture)를 활용해 고차원 표현을 학습하는데 흥미롭고 효과적인 대안입니다. 이 아이디어는 인간의 뇌가 상상력과 최소한의 관찰 샘플만으로 새로운 기술을 습득하는 자연스러운 능력을 모방하고 있습니다. 본 연구에서는 JEPA를 기반으로 한 세계 모델인 하노이월드(Hanoi-World)를 소개하며, 이는 재귀 신경망(RNN)을 활용해 효과적인 추론 시간과 함께 장기 수평 계획을 수행할 수 있게 합니다. 실험은 차이점 환경의 Highway-Env 패키지에서 이루어졌으며, SOTA 기준선들과 비교했을 때 충돌률이 상당히 감소하면서 안전 인식을 가진 운전 계획을 만드는 능력을 효과적으로 보여주고 있습니다.

paper AI 요약
하이퍼클로바 X 8B 옴니

하이퍼클로바 X 8B 옴니

HyperCLOVA X 8B Omni(OMNI)는 텍스트, 음성, 비전 모달을 모두 입력과 출력으로 지원하는 다중모달 모델입니다. 이 모델은 하나의 디코더-온리 Transformer 백본에서 다양한 모달의 토큰과 임베딩을 교차로 처리하여 의미적 구성이 가능하게 설계되었습니다. OMNI는 다양한 입력 및 출력 모달에 걸친 경쟁력 있는 성능으로, 특히 한글과 영어를 다루는 데 강점을 가지고 있습니다.

paper AI 요약
학술위장의 숨겨진 진실 풀어내기

학술위장의 숨겨진 진실 풀어내기

최근 인공지능(AI) 기술의 발전에 따라 생성형 AI와 그 응용 분야에 대한 관심이 증가하고 있습니다. 이로 인해 다양한 AI 기반 콘텐츠/텍스트 생성 도구들이 개발되었습니다. 하지만 이러한 도구들은 비윤리적으로 사용될 경우 교육 목표 달성에 악영향을 끼칠 수 있으며, 공공 안전과 정부의 신뢰에도 영향을 줄 수 있습니다. 본 논문에서는 AI 기반 텍스트 생성 도구를 감지하고 분석하기 위한 스타일로미트리(stylometry) 방법론을 제안합니다. 이 방법론은 단일 저자와 다중 저자가 작성한 문서를 구분하거나, AI가 생성한 텍스트와 인간이 생성한 텍스트를 구별하는 등의 작업에 활용될 수 있습니다.

paper AI 요약
한 샷으로 안전 보장  단 하나의 예제로 모델 교정하기

한 샷으로 안전 보장 단 하나의 예제로 모델 교정하기

대규모 언어 모델(LLMs)의 널리 퍼진 사용은 기만, 폭력 및 차별과 같은 유해한 콘텐츠 생성 가능성에 대한 우려를 제기했습니다. 이를 해결하기 위해 안전 정합성이 핵심 패러다임으로 부상했으며, 이를 위한 일반적인 접근 방식은 감독 조정(SFT) 및 인간 피드백 기반 강화학습(RLHF), 직접적 선호도 최적화(DPO) 등입니다. 그러나 사용자가 제공한 데이터를 조정 파이프라인에 도입하면 새로운 보안 취약성이 발생합니다. 이를 해결하기 위해, 본 논문은 한 번의 안전 업데이트만으로도 유해한 업데이트를 중화시킬 수 있다는 것을 밝히며, 이 방법을 통해 모델의 안전성을 복원할 수 있음을 보여줍니다.

paper AI 요약
해내FRDM  확산 모델로 고속 영상의 결함 복원 탐색

해내FRDM 확산 모델로 고속 영상의 결함 복원 탐색

이 논문에서는 딥러닝 기반의 확산 모델을 사용하여 고해상도 필름 복원 작업에서 발생하는 문제점을 해결하고자 한다. 특히, 제안된 HaineiFRDM 모델은 낮은 VRAM 장치에서도 작동할 수 있도록 설계되었으며, 패치 기반 학습 및 추론 프레임워크를 사용하여 고해상도 복원 작업의 계산 비용을 줄이고자 한다. 또한 실제 손상된 필름과 합성 데이터로 구성된 새로운 데이터셋을 제안하여 모델 성능 평가 기준을 제공한다.

paper AI 요약
No Image

해석 가능성 지향적 이목표 최적화 정확성과 설명 가능성을 맞춤

딥러닝 모델은 의료와 금융 분야에서 시퀀스 예측 작업에 뛰어난 성과를 보여주지만, 그 복잡성으로 인해 이해하기 어려운 블랙박스 가 되어 안전성이 중요한 상황에서는 신뢰성이 낮아진다. 본 논문은 학습 과정에서 해석 가능성을 통합하는 프레임워크 **IGBO(Interpretability-Guided Bi-objective Optimization)**을 제안한다. IGBO는 주요 작업 손실과 해석 가능성 손실을 최소화하는 두 가지 목표를 동시에 추구하며, 이를 위해 데이터 분포에 맞춘 통합 경로를 생성하는 최적 경로 오라클도 도입한다.

paper AI 요약
혁신의 눈  오픈노벨티

혁신의 눈 오픈노벨티

최근 몇 년 동안 학술 출판물이 급증하고 있다. 인공지능 분야만 보더라도 arXiv의 `cs.AI`와 `cs.LG` 카테고리에 매년 수만 편의 새로운 논문이 게재되고 있으며, NeurIPS, ICLR, ICML과 같은 상위 컨퍼런스로 제출되는 논문 수도 기록적인 수준을 보이고 있다. 이 출판 폭발 은 피어 리뷰 시스템에 전례 없는 압력을 가하고 있다. 리뷰어의 부담이 크게 증가했다. 한 명의 리뷰어는 한정된 시간 내에 여러 편의 논문을 평가해야 하는데, 각 리뷰에는 해당 분야의 최신 연구를 포괄적으로 이해하는 것이 요구된다. 하지만 현실은 달라서 많은 리뷰어들이 모든 제출 논문에 대한 철저하고 공정한 평가를 하지 못한다. 심지어 일부 리뷰어는 전체 텍스트를 신중하게 읽지 않고 피드백을 제공하기도 한다. 또한 학계에서는 AI 생성된 피드백을 적절히 검증하지 않고 사용하는 문제에 대해 점점 더 우려하고 있다. 평가 차원 중 하나인 **신규성**은 논문의 수용 여부를 결정하는 중요한 요소로 여겨진다. 그러나 신규성을 정확하게 평가하기는 어렵다. 이는 문헌 규모가 매우 크고, 세밀한 분석을 통해 주장을 검증하는 것이 어려우며, 리뷰어들의 판단에 주관성이 있기 때문이다. 대형 언어 모델(LLM)은 학술 논문 검토를 돕는 유망한 방향으로 부상하고 있지만, 기존 방법에는 한계가 있다 단순 LLM 기반 접근법은 매개변수적 지식에만 의존하면 존재하지 않는 참조를 생성할 수 있으며; 기존의 RAG 기반 방법은 제목과 초록만 비교하기 때문에 중요한 기술 세부 사항을 놓칠 수 있고; 대부분의 접근법은 문맥 창의 한계로 인해 관련 작업을 체계적으로 조직하지 못한다. 이러한 문제를 해결하기 위해 **<span class= smallcaps >OpenNovelty</span>**라는 LLM 기반 시스템을 제안한다. 이 시스템은 대규모 제출물에 대한 투명하고 검증 가능한 신규성 분석을 제공하도록 설계되었다. <span class= smallcaps >OpenNovelty</span>의 핵심 디자인 철학은 ** 신규성을 검증할 수 있게 하기 **이다 > *“우리는 LLM 내부의 매개변수적 지식에 의존하지 않고, 실제 논문을 찾아 신규성 주장 수준에서 전체 텍스트를 비교함으로써 모든 판단이 증거 기반임을 보장합니다.”* <span class= smallcaps >OpenNovelty</span>은 네 단계의 프레임워크를 통해 작동한다 - **Phase I 정보 추출** — 대상 논문에서 핵심 작업과 주장한 신규성 주장을 추출하고, 이후 검색을 위한 의미적 쿼리를 생성합니다. - **Phase II 논문 검색** — 추출된 쿼리 기반으로 <span class= smallcaps >Wispaper</span>을 사용하여 관련 이전 작업을 검색하고 다층 필터링을 통해 고질량 후보를 선택합니다. - **Phase III 분석 및 종합** — 추출한 주장과 검색된 논문을 기반으로 상위 구조의 관련 작업 세분화를 구성하고 전체 텍스트 비교를 수행하여 각 신규성 주장을 검증합니다. - **Phase IV 보고서 생성** — 모든 분석 결과를 명확한 인용 및 증거 조각과 함께 구조화된 신규성 보고서로 종합하며, 모든 판단이 검증 가능하고 추적 가능하도록 합니다. 각 단계의 기술적 세부 사항은 Section 2에서 제공됩니다. 또한 우리는 <span class= smallcaps >OpenNovelty</span>을 ICLR 2026에 제출된 500개 이상의 논문 분석에 배포했으며, 모든 신규성 보고서는 우리 웹사이트에서 공개적으로 이용 가능합니다. 예비 분석 결과 시스템이 관련 이전 작업, 특히 저자들이 놓칠 수 있는 유사한 논문을 식별할 수 있음을 나타냅니다. 우리는 이후 단계에서 이 분석을 2,000개 이상의 제출물로 확장할 계획입니다. 주요 기여는 다음과 같습니다 - 모든 평가를 추출된 실제 논문에 근거하며, 각 판단은 명확한 인용과 증거 조각으로 보완되어 단순 LLM 기반 접근법에서 발생하는 환영 문제를 효과적으로 피한다. - <span class= smallcaps >OpenNovelty</span>을 ICLR 2026에 제출된 논문 500개 이상에 배포하고, 모든 보고서를 우리 웹사이트에 공개하여 연구 커뮤니티에게 접근 가능한 투명한 신규성 분석을 제공한다.

paper AI 요약
형성평가, 석유 지질학을 위한 공개 선택식 문제은행

형성평가, 석유 지질학을 위한 공개 선택식 문제은행

대형 언어 모델(LLMs)이 과학 및 공학 분야의 전문적인 작업에 점점 더 많이 적용되고 있지만, 이러한 모델들이 특정 분야에서 얼마나 효과적으로 작동하는지 평가하기는 여전히 어려움이 있습니다. 일반적인 벤치마크인 MMLU는 광범위한 지식을 다루지만 전문 분야에 대한 집중적 평가는 제한적입니다. 석유 지질학과 지하시공 엔지니어링(심화 측정 물리학, 유전 특성화, 지질 해석 등 이해가 필요한 분야)에서 공개적으로 이용 가능한 벤치마크는 여전히 제한적입니다. 이 연구는 FormationEval이라는 505문항의 다중 선택형 질문 벤치마크를 통해 이러한 간극을 메우며, 이 벤치마크는 페트로물리학, 석유 지질학, 지구 물리학, 유전 공학, 침적학, 심층 공학 및 생산 공학 등 7개 영역을 다룹니다. 질문은 권위 있는 교과서와 개방형 강의 자료를 기반으로 개념 중심 방식을 사용하여 작성되며, 이는 문구 인식이 아닌 이해도를 테스트하며 저작권 제약을 준수합니다. 주요 기여는 다음과 같습니다 1) 기술적 출처에서 다중 선택형 질문(MCQs) 생성 방법론; 2) 출처 메타데이터와 오염 위험 레이블이 포함된 정제 데이터 세트; 그리고 3) 여러 제공업체의 72개 언어 모델에 대한 평가, 이를 통해 도메인과 난이도 수준별 성능 패턴을 파악할 수 있습니다.

paper AI 요약
효율적인 시간 시리즈 예측을 위한 로우 랭크 신경ODE로 강화된 Mamba 모델

효율적인 시간 시리즈 예측을 위한 로우 랭크 신경ODE로 강화된 Mamba 모델

시간 시리즈 예측은 기계 학습과 통계에서 중요한 작업으로, 금융, 의료, 기후 모델링 등 다양한 실제 세계의 응용 프로그램을 지원합니다. 시간 시리즈 예측은 비선형 동역학, 장기 종속성 및 불규칙한 샘플링 패턴과 같은 복잡한 데이터 특성을 처리해야 하므로 여전히 어려움이 있습니다. 본 논문에서는 이러한 문제들을 해결하기 위해 Mamba 구조와 저순위 근사화를 통합하는 새로운 프레임워크인 MODE를 제안합니다.

paper AI 요약
흐름에 따른 세계 모델  기억이 더해진 동적 환경 이해

흐름에 따른 세계 모델 기억이 더해진 동적 환경 이해

이 논문은 부분적으로 관찰되는 동적 환경 모델링과 이를 수행하는 에이전트의 자체 움직임을 연구합니다. 특히, 내부와 외부 움직임을 수학적인 흐름 으로 이해하고, 이를 통해 시간에 따른 대칭성을 처리할 수 있음을 보여줍니다. 이러한 접근법은 비록 에이전트의 시야가 제한적이지만 환경의 전체적인 상태를 정확하게 추적하는 데 도움을 줍니다. ###

paper AI 요약
희소 위협, 집중 방어  안전 자율주행을 위한 중요도 인식 강화학습

희소 위협, 집중 방어 안전 자율주행을 위한 중요도 인식 강화학습

강화학습(RL)은 자율주행(AD)에서 상당한 잠재력을 보여주었지만, 그 취약성이 실제 배포에 있어 중요한 장애물로 작용하고 있다. 주요 대응책으로서 적대적 훈련은 악의적으로 변동을 도입하는 대립자와 함께 AD 에이전트를 훈련시켜 정책의 강건성을 개선한다. 기존 접근 방식들은 일반적으로 연속적인 공격을 포함한 영합 게임으로 상호 작용을 모델링하지만, 이러한 설계는 에이전트와 대립자 간의 내재된 비대칭성과 안전에 중점을 둔 위험이 희박하다는 점을 무시하여 실제 AD 시나리오에서 충분한 강건성을 제공하지 못한다. 이러한 제약점을 해결하기 위해 우리는 CARRL(Criticality-aware Robust RL), 즉 자율주행에서 희박하고 안전에 중점을 둔 위험을 관리하는 새로운 적대적 훈련 접근법을 도입한다. CARRL은 위험노출 대립자(REA)와 위험타겟 강건 에이전트(RTRA)라는 두 가지 상호작용 요소로 구성된다. REA와 RTRA 간의 상호 작용은 일반 합 게임으로 모델링되어, REA는 안전에 중점을 둔 실패(예 충돌)를 노출하는 데 집중하고, RTRA는 안전과 주행 효율성을 균형 있게 배분하도록 학습한다. REA는 제약된 예산 하에서 희박한 안전 위험을 더 잘 식별하고 활용하기 위해 분리된 최적화 메커니즘을 사용한다. 그러나 이러한 집중적인 공격은 적대 데이터의 부족으로 이어진다. RTRA는 양호한 경험과 적대적 경험이 결합된 복수 재생 버퍼를 통해 그러한 데이터 부족을 극복하고, 변동 하에서 정책 일관성을 강제하여 행동을 안정화한다. 실험 결과는 우리의 접근법이 최신 베이스라인 방법보다 모든 사례에서 충돌률을 적어도 22.66% 줄일 수 있음을 보여준다.

paper AI 요약
힌디어 요약 데이터셋을 자동으로

힌디어 요약 데이터셋을 자동으로

자연어 처리(NLP)와 기계 학습(ML) 기술의 발전은 주로 자원이 풍부한 언어, 특히 영어에 집중되어왔다. 이는 힌디어 같은 저자원 언어에서 데이터셋의 부족과 질적 불균형을 초래했다. 특히 텍스트 요약이라는 전문 작업에서는 이러한 간극이 더욱 두드러진다. 텍스트 요약은 긴 문서를 짧고 정보적인 요약으로 압축하는 중요한 NLP 응용 분야이다. 텍스트 요약 모델의 개발은 광범위하고 다양한 데이터셋에 크게 의존하지만, 저자원 언어에서는 이러한 데이터셋이 부족하여 다양한 언어 환경에서의 발전을 방해한다. 본 연구는 힌디어를 위한 포괄적인 텍스트 요약 데이터셋 개발뿐만 아니라 저자원 언어용 자동화된 데이터셋 생성 방법론을 제안한다. 이 방법은 고급 번역 및 언어적 적응 기법과 Crosslingual Optimized Metric for Evaluation of Translation (COMET)를 활용하여 번역의 정확성과 문맥적 관련성을 보장하는 것을 특징으로 한다. 제안된 힌디어 데이터셋은 XSUM의 강력한 번역 버전으로, 다양한 주제와 쓰기 스타일을 반영하고 있다. 이를 통해 힌디어 텍스트 요약 연구를 진흥시키고, 언어 간 NLP 도전 과제에 대한 보다 광범위한 이해를 제공한다. 이 데이터셋은 원본 XSUM과 같은 다양성을 유지하면서 다양한 텍스트 복잡성 및 주제를 반영하고 있다. 결론적으로, 영어 XSUM을 기반으로 한 힌디어 텍스트 요약 데이터셋의 생성은 NLP 연구와 응용 분야에서 비용을 절감함으로써 민주화에 중요한 단계를 이룬다. 이로 인해 저자원 언어에 대한 더 세밀하고 문화적으로 관련성이 높은 NLP 모델이 개발되며, 특히 기존에 계산 언어학에서 소홀히 대했던 언어들에 대한 텍스트 요약 연구가 활성화된다. ###

paper AI 요약

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키