KOINEU

Detecting Silent Failures in Multi-Agentic AI Trajectories

1. 연구 배경 및 필요성 멀티에이전트 AI 는 여러 LLM이 협업·경쟁하며 복합적인 작업을 수행한다. 비결정성 때문에 동일 입력에 대해 서로 다른 궤적이 생성될 수 있다. 기존 LLM 평가 는 정답 일치율, BLEU, ROUGE 등 정량적 지표에 의존하지만, 침묵 오류 (예: 목표에서 점점 멀어지는 drift, 무한 루프, 중요한 정보 누락)는 이러한 지표에 잘 드러나지 않는다. 실무에서는 사용자 경험 저하 와 시스템 신뢰성 손실 을 초래하므로, 자동화된 비정상 탐지 메커니즘이 절실히 필요하다. 2. 주요 기여 | 번호 | 내용

February 20, 2026

No Image

Discourse-Aware Scientific Paper Recommendation via QA-Style Summarization and Multi-Level Contrastive Learning

1. 연구 배경 및 문제 정의 오픈 액세스 급증 과 프라이버시 제약 으로 사용자‑기반 협업 필터링이 어려워졌으며, 텍스트 기반 콘텐츠 추천이 주류가 되었다. 기존 콘텐츠 기반 모델은 문서 전체를 평면 텍스트 로 처리해, 논문의 담화 구조(OMRC) 를 활용하지 못한다. 이는 (a) 핵심 정보 손실, (b) 의미적 불완전성, (c) 결과 해석 어려움이라는 세 가지 주요 한계를 만든다. 2. 핵심 아이디어 및 기법 | 구성 요소 | 역할 | 주요 기술 | | | | | | QA‑Style OMRC Summarization | 논문을 목

February 20, 2026

Learning

No Image

Endowing GPT-4 with a Humanoid Body: Building the Bridge Between Off-the-Shelf VLMs and the Physical World

1. 연구 배경 및 동기 데이터 비용 문제 : 인간형 로봇을 위한 대규모 시뮬레이션·실제 데이터 수집은 시간·재정적 부담이 크다. VLM의 일반화 능력 : GPT‑4와 같은 최신 VLM은 방대한 웹 텍스트·이미지 데이터를 학습해 광범위한 상황 인식·추론이 가능하므로, 로봇 제어에 직접 활용하면 데이터 의존도를 크게 낮출 수 있다. 2. 핵심 기여 | 번호 | 기여 내용 | 의의 | | | | | | 1 | Embodied Instruction Compiler : VLM이 시각·언어 입력을 받아 환경 상태를 파악하고, 고수준 명령을

February 20, 2026

No Image

Enhancing Interpretability for Vision Models via Shapley Value Optimization

딥 뉴럴 네트워크(DNN)는 다양한 분야에서 강력한 성능을 발휘하지만, 그 내부 작동 원리와 의사결정 과정은 여전히 불투명하다. 이 문제를 해결하기 위해 연구자들은 사후 설명 방법과 자체 설명 가능한 신경망이라는 두 가지 접근 방식을 제시해 왔다. 그러나 이러한 방법들에는 각각의 제약이 있다: 사후 설명 방법들은 종종 모델의 실제 의사결정 과정을 정확하게 반영하지 못하고, 자체 설명 가능한 신경망은 성능 저하와 호환성 문제를 야기한다. 제안된 프레임워크는 이러한 한계를 극복하기 위해 Shapley 값 추정을 통합한 새로운 접근 방식

February 20, 2026

Model

Explainable Adversarial-Robust Vision-Language-Action Model for Robotic Manipulation

본 논문은 스마트 농업 시스템이 광학적 변동에 취약하다는 문제를 해결하기 위해, 적대 공격 상황에서도 견고한 동작 예측을 가능하게 하는 새로운 모델을 제안한다. 이 모델의 핵심은 OpenVLA OFT 프레임워크와 Evidence 3 모듈을 통합하는 것이다. Evidence 3 모듈은 광학적 변동을 감지하고, 이러한 변화가 시스템에 미치는 영향을 자연어로 설명함으로써, 시스템의 작동 원리를 이해하기 쉽게 만든다. 이 모델이 기존 모델보다 현재 행동과 다음 행동 예측에서 각각 21.7%와 18.4%의 L1 손실 감소를 보인 것은, 적대

February 20, 2026

Model

No Image

Fine-Tuning LLMs to Generate Economical and Reliable Actions for the Power Grid

1. 연구 배경 및 동기 PSPS 는 화재 위험을 줄이기 위해 대규모 라인을 차단하는 비상 조치이며, 차단된 라인 외에 추가적인 개방형(open‑only) 스위칭 을 통해 과부하 완화와 부하 차단 최소화를 도모한다. 전통적인 MILP 기반 최적화는 시간 제약 이 큰 현장 상황에서 실시간 적용이 어려워, 학습 기반 프록시 가 필요하다. LLM은 자연어 입력 → 구조화된 출력 변환에 강점이 있어, 운영자가 시나리오 요약 을 텍스트로 제공하고, 모델이 검증 가능한 액션 리스트 를 반환하도록 설계한다. 2. 핵심 방법론 | 단계 | 목적

February 20, 2026

Electrical Engineering and Systems Science

No Image

Fourier Neural Operators for Structural Dynamics Models: Challenges, Limitations and Advantages of Using a Spectrogram Loss

February 20, 2026

Model

From Verification Burden to Trusted Collaboration: Design Goals for LLM-Assisted Literature Reviews

본 논문은 대형 언어 모델(LLMs)이 학술 글쓰기에서 어떻게 활용되는지에 대한 깊이 있는 분석을 제공하며, 특히 문헌 검토 과정에서의 구체적인 적용 방법과 제한 사항을 탐색합니다. 연구자들이 LLMs를 사용하면서 겪는 주요 문제로 신뢰성 부족, 지속적인 검증 필요성, 그리고 여러 도구의 복잡성을 들 수 있습니다. 이러한 문제점들을 해결하기 위해 논문은 6가지 설계 목표와 이를 실현하는 고수준 프레임워크를 제안합니다. 이 프레임워크는 관련 논문을 시각화하여 쉽게 이해할 수 있도록 하고, 각 단계에서의 검증 과정을 통해 신뢰성을 높이

February 20, 2026

No Image

GAMA: A Neural Neighborhood Search Method with Graph-aware Multi-modal Attention for Vehicle Routing Problem

1. 연구 배경 및 문제 정의 VRP 는 물류·배달 분야에서 핵심적인 NP‑hard 문제이며, 전통적인 휴리스틱·메타휴리스틱이 강력하지만 파라미터 튜닝·도메인 지식에 크게 의존한다. Neural Neighborhood Search (NNS) 는 강화학습 기반 정책이 현재 해의 이웃을 탐색하도록 학습시켜, 빠른 근사해를 제공한다. 그러나 기존 NNS는 1) 단일 모달리티 (예: 경로 순서만)로 상태를 표현, 2) 단순 연결 방식으로 여러 정보를 결합해 구조적 정보를 손실한다는 한계가 있다. 2. 핵심 아이디어 – GAMA | 요소 |

February 20, 2026

No Image

Group Interventions on Deep Networks for Causal Discovery in Subsystems

1. 연구 배경 및 필요성 인과 탐색의 한계 : 전통적인 인과 탐색 기법(Granger, PCMCI, NOTEARS 등)은 주로 변수 쌍 간 인과성을 탐색한다. 그러나 실제 시스템(뇌, 기후 등)은 다수의 변수들이 서로 얽힌 서브시스템 형태로 작동한다. 그룹 수준 인과성 : 그룹(서브시스템) 간 인과 관계를 파악하면, 개별 변수 수준에서 놓칠 수 있는 집합적 효과 와 전달 메커니즘 을 포착할 수 있다. 2. 핵심 아이디어 및 방법론 | 단계 | 내용 | 주요 기법 | | | | | | 1. 구조적 딥 모델링 | 모든 시계열을 그룹화

February 20, 2026

System Network

No Image

Heterogeneous Robot Collaboration in Unstructured Environments with Grounded Generative Intelligence

1. 연구 배경 및 문제 정의 이질 로봇 팀 : 서로 다른 이동·센서·작업 능력을 가진 로봇들이 협업해야 하는 상황은 재난 구조, 탐사, 물류 등에서 빈번히 발생한다. 무구조 환경 : 사전 지도·정확한 모델이 없는, 동적으로 변하는 환경에서는 전통적인 계획‑실행 파이프라인이 쉽게 붕괴한다. 생성형 인텔리전스 : LLM을 이용해 자연어로 된 미션을 자동으로 해석·분해하는 시도가 늘고 있지만, 대부분 구조화된 환경(예: 실내 지도, 정해진 작업 공간)에서만 검증돼 왔다. 2. 핵심 기여 | 구분 | 기존 연구와 차별점 | 구체적 기여

February 20, 2026

No Image

Law in Silico: Simulating Legal Society with LLM-Based Agents

1. 연구 배경 및 필요성 법사회 실험의 한계 : 실제 사회에서 법제도 변화를 실험하려면 대규모 정책 시행·시행 후 평가가 필요하고, 이는 비용·시간·윤리적 문제를 동반한다. AI 시뮬레이션의 가능성 : LLM은 방대한 텍스트 코퍼스를 학습해 법률 용어, 판례, 규범 등을 내재하고 있어, 인간과 유사한 “법률가” 역할을 수행할 수 있다. 2. 핵심 기여 | 구분 | 내용 | 의의 | | | | | | 프레임워크 설계 | LLM 기반 에이전트를 “시민”, “입법자”, “판사”, “집행관” 등 역할에 매핑하고, 이들 간 상호작용을 프로

February 20, 2026

No Image

LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction

1. 연구 배경 및 의의 광고·브랜드 기억력은 마케팅 ROI를 직접적으로 좌우하는 핵심 지표이며, 기존 연구는 주로 시각적 특징에 의존하거나 단일 모달(텍스트·이미지)만을 활용했다. 본 논문은 멀티모달 정보를 동시에 활용하면서, LLM을 융합 메커니즘의 “인지적 가이드”로 활용한다는 점에서 차별성을 가진다. 2. 모델 아키텍처 백본 : Gemma‑3 LLM을 핵심으로 사용해 텍스트와 시각 특징을 동일한 임베딩 공간에 매핑한다. 특징 추출 : 사전 학습된 Vision Transformer(ViT)와 텍스트 임베딩 모델(E5)에서 각각

February 20, 2026

No Image

Node Preservation and its Effect on Crossover in Cartesian Genetic Programming

1. 연구 배경 및 동기 CGP와 교차의 딜레마 : CGP는 주로 변이 기반 $(1+λ)$ 전략에 의존해 왔으며, 교차가 성능을 저하시킨다는 경험적 보고가 많다. 이는 CGP의 표현 방식(노드 기반, 비연속적인 연결 구조) 때문에 교차가 유효한 서브구조를 파괴하기 쉽기 때문이다. 노드 보존 개념 : 기존 교차 연산은 노드(연산자+입력) 단위가 아닌, 유전자의 연속적인 비트 혹은 인덱스 구간을 섞는다. “노드 보존”은 교차 시 각 노드가 완전한 상태(연산자와 그 입력 연결)로 유지되도록 제한한다. 이는 교차가 의미 있는 기능 블록을

February 20, 2026

No Image

Normative Reasoning in Large Language Models: A Comparative Benchmark from Logical and Modal Perspectives

February 20, 2026

Model

No Image

RobotArena $infty$: Scalable Robot Benchmarking via Real-to-Sim Translation

1. 연구 배경 및 필요성 실세계 테스트의 한계 : 로봇 실험은 물리적 장비·인력·시간이 많이 소요되고, 사고 위험이 존재한다. 특히 대규모 정책(예: 대형 언어 모델 기반 VLA) 평가 시 반복 실험이 거의 불가능하다. 시뮬레이션 벤치마크의 문제점 : 기존 시뮬은 “시뮬‑시뮬” 루프에 머물러, 실제 데이터에서 학습된 정책이나 다른 시뮬레이터와의 교차 검증이 어려움. 이는 “시뮬‑현실 격차”(sim‑to‑real gap)를 은폐한다. 2. 핵심 아이디어 | 요소 | 기존 접근 | 제안 방식 | | | | | | 데이터 변환 | 실세

February 20, 2026

No Image

Robust and Diverse Multi-Agent Learning via Rational Policy Gradient

1. 연구 배경 및 문제 정의 대립적 최적화(Adversarial Optimization) 는 주로 제로섬 게임에서 에이전트의 약점을 찾아내어 강인한 정책을 학습하는 데 사용돼 왔음. 협력·일반합 환경 에서는 동일한 접근법을 적용하면 에이전트가 서로를 방해하도록 학습되는 자기 파괴 현상이 발생, 이는 실제 협업 시스템에서 치명적인 오류. 기존 연구는 이 문제를 보상 설계 혹은 제약 조건 을 추가하는 수준에 머물렀으며, 근본적인 합리성 보장 메커니즘은 부재함. 2. 핵심 아이디어: RPO와 RPG | 요소 | 설명 | 역할 | | |

February 20, 2026

Learning

No Image

Towards a Humanized Social-Media Ecosystem: AI-Augmented HCI Design Patterns for Safety, Agency & Well-Being

February 20, 2026

System

No Image

Vintage Code, Modern Judges: Meta-Validation in Low Data Regimes

1. 연구 배경 및 필요성 레거시 시스템 현대화는 기업의 디지털 전환에서 핵심 과제이지만, COBOL·PL/I·REXX 등 오래된 언어에 대한 전문가가 급감하고 있다. 인간 평가 데이터가 부족한 상황에서 LLM을 “심판”으로 활용하려는 시도는 자연스럽지만, 검증되지 않은 심판을 그대로 신뢰하면 평가 순환 오류(evaluation loop) 가 발생한다는 위험성을 정확히 짚고 있다. 2. 핵심 기여 SparseAlign 프레임워크 : pairwise‑confidence : 두 샘플 간 상대적 순위가 얼마나 확신 있게 판단되는지를 정량

February 20, 2026

Data

No Image

Who Evaluates AI's Social Impacts? Mapping Coverage and Gaps in First and Third Party Evaluations

1. 연구 배경 및 필요성 기초 모델(FM)의 확대 : GPT‑4, PaLM 등 대규모 사전학습 모델이 다양한 고위험 서비스(의료, 법률, 금융 등)에 적용되면서 사회적 위험이 급증하고 있다. 거버넌스 의존도 증가 : EU AI Act, 미국 AI Bill of Rights 등 규제 초안이 “평가(evaluation)”를 핵심 요건으로 명시함에 따라 평가 자료의 질·양이 정책 결정에 직접적인 영향을 미친다. 평가 격차 인식 : 기존 연구는 모델 성능(accuracy, robustness) 중심의 “capability evaluati

February 20, 2026

Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation

최근 VLA 모델은 일반 목적의 로봇 조작에서 상당한 관심을 끌고 있습니다. 이는 시각적 관찰과 언어 지시를 입력으로 받아 대응하는 동작 자세를 출력하는 통일된 정책 학습 프레임워크를 제공하기 때문입니다. 로봇 데이터의 부족으로 인한 한계를 완화하기 위해, 일부 연구는 인터넷 규모의 이미지 텍스트 코퍼라에서 사전 훈련된 VLM을 직접 활용합니다. 이러한 전략은 사전에 훈련된 교차 모달 지식을 로봇 정책에 전이하여 동작 출력을 시각적 및 언어적 신호와 정렬시킵니다. 자동 회귀 VLA 방법은 약속을 보였지만, 순차적이고 토큰 단위로 진

February 20, 2026

ESACT: An End-to-End Sparse Accelerator for Compute-Intensive Transformers via Local Similarity

본 논문은 트랜스포머 모델의 핵심 연산인 어텐션 메커니즘과 피드포워드 네트워크(FFN)에 대한 스파시티 기반 가속의 한계를 정확히 짚어낸다. 기존 하드웨어 가속기들은 주로 QK 매트릭스 내에서 행(row) 단위의 희소성을 이용해 연산량을 줄이려 했지만, 이는 전체 어텐션 매트릭스의 구조적 특성을 충분히 활용하지 못한다는 점에서 한계가 있다. 특히, 행 간(인터‑row) 희소성은 어텐션 스코어가 특정 토큰 쌍 사이에서 거의 0에 가까운 경우가 빈번히 발생한다는 사실에 기반한다. 그러나 전역적인 유사성 추정은 전체 QK 매트릭스를 스캔

February 20, 2026

Foundation Model for Polycrystalline Material Informatics

이 논문은 재료 과학과 머신러닝의 교차점에서 매우 혁신적인 접근을 제시한다. 기존의 다결정 미세구조‑물성 매핑은 주로 직접적인 지도 학습에 의존했으며, 이는 대규모 라벨링이 어려운 실험·시뮬레이션 데이터에 한계가 있었다. 저자들은 이러한 한계를 극복하기 위해 ‘마스크드 오토인코더(MAE)’라는 최신 자기지도 학습 기법을 3차원 voxel 기반 미세구조 데이터에 적용하였다. 핵심 아이디어는 입력 볼륨의 일부를 무작위로 마스킹하고, 모델이 마스크된 영역을 복원하도록 학습함으로써, 데이터의 내재된 구조적·통계적 패턴을 자동으로 추출하는

February 20, 2026

Model

Gene regulatory network inference algorithm based on spectral signed directed graph convolution

이 논문은 유전자 조절 네트워크(Gene Regulatory Networks, GRNs)의 정확한 재구성에 대한 새로운 접근법을 제시한다. 특히, 단일 세포 RNA 서열화(scRNA seq) 기술을 통해 얻어진 방대한 데이터를 활용하여 GRN을 모델링하는 방법론을 개발하였다. 이 연구는 GRNs가 활성화와 억제 관계를 포착하기 위해 유형이 있는 방향 그래프로 표현되어야 함을 강조한다. 전통적인 스펙트럼 그래프 컨볼루션은 이러한 복잡한 구조를 효과적으로 처리하는 데 어려움을 겪는다. 이에 저자들은 MSGRNLink라는 새로운 프레임워

February 20, 2026

Network

ManchuTTS: Towards High-Quality Manchu Speech Synthesis via Flow Matching and Hierarchical Text Representation

ManchuTTS는 언어학적·공학적 관점에서 희소 언어 TTS 연구에 새로운 패러다임을 제시한다. 첫째, 만주어는 어휘가 거의 전적으로 어근에 접사와 어미가 붙어 형성되는 고도로 교착적인 구조를 가지고 있다. 기존의 음소‑단위 혹은 문자‑단위 텍스트 인코딩은 이러한 긴 형태소 결합을 충분히 포착하지 못해 발음 오류와 억양 부자연스러움을 초래한다. 논문은 이를 해결하기 위해 ‘음소‑음절‑프로소디’라는 3계층 텍스트 표현을 도입하였다. 음소 레벨은 기본 발음 단위를, 음절 레벨은 음소들의 결합 규칙을, 프로소디 레벨은 억양·강세·리듬과

February 20, 2026

$Multifractal Recalibration of Neural Networks for Medical Imaging Segmentation$

Multifractal Recalibration of Neural Networks for Medical Imaging Segmentation

본 논문은 다중프랙탈 이론을 딥러닝 기반 의미분할 모델에 통합하는 새로운 패러다임을 제시한다. 기존의 다중프랙탈 스펙트럼(MFS) 분석은 주로 이미지 텍스처의 복잡성을 정량화하거나, 비지도 학습에서 특징 추출에 활용돼 왔으며, 그 과정에서 고차 통계량을 계산하기 위해 대규모 풀링이나 차원 축소가 필수적이었다. 이러한 연산은 메모리와 시간 측면에서 비효율적이며, 특히 픽셀‑단위 예측이 요구되는 의미분할 작업에서는 실용성이 떨어진다. 저자들은 이 문제를 해결하기 위해 ‘단일프랙탈 재보정(Monofractal Recalibration)’

February 20, 2026

Network

Numerical simulation of lunar response to gravitational waves and its 3D topographic effect using the spectral-element method

본 논문은 달이 중력파(GWs)를 증폭시키는 자연적인 웨버 바로 기능할 수 있다는 개념을 제시하며, 이를 정확하게 이해하기 위한 3D 수치 시뮬레이션 방법의 개발에 초점을 맞추고 있다. 연구팀은 고차원 3D 유한 요소법(스펙트럴 요소 방법)을 통해 달이 중력파를 어떻게 반응하는지, 특히 20 mHz 이하 주파수 범위에서의 반응을 시뮬레이션하였다. 이를 통해 달 표면 지형에 따른 중력파 신호 증폭 효과를 평가하고자 하였다. 논문은 준정량해와 비교하여 SEM 방법의 정확성을 검증하였고, 주파수 편차는 첫 번째 피크에서 약 1 mHz에서

February 20, 2026

PIANO: Physics-informed Dual Neural Operator for Precipitation Nowcasting

강수 예보는 홍수·산사태·농업 피해 등 재난 대응에 있어 시간적·공간적 정확도가 매우 중요한데, 현재 널리 사용되는 레이더 기반 방법은 고가의 장비와 방대한 연산 자원을 필요로 한다. 특히 개발도상국이나 기후 관측 인프라가 부족한 지역에서는 이러한 제약이 심각한 장벽이 된다. 본 논문은 이러한 한계를 극복하기 위해 위성 영상을 주요 입력 데이터로 활용하면서, 물리 법칙을 직접 모델에 통합하는 혁신적인 접근을 제시한다. 핵심은 advection‑diffusion 방정식을 손실 함수에 포함시킨 물리‑정보 신경 연산자(PIANO)이다.

February 20, 2026

Placenta Accreta Spectrum Detection Using an MRI-based Hybrid CNN-Transformer Model

본 논문은 태반 부착증(PAS)이라는 임산부에게 치명적인 합병증을 조기에 정확히 진단하기 위한 자동화된 영상 분석 시스템을 제시한다. PAS는 초음파와 MRI를 통해 진단되지만, 특히 MRI는 고해상도 3차원 정보를 제공함에도 불구하고 판독자의 주관적 판단에 크게 좌우되는 문제점이 있다. 이러한 진단 변동성을 최소화하고 객관적인 의사결정을 지원하기 위해 연구팀은 3D CNN과 3D Vision Transformer(ViT)를 결합한 하이브리드 모델을 설계하였다. DenseNet121은 층 간 피처 재사용을 촉진하는 dense con

February 20, 2026

Detection Model

Rectifying LLM Thought from Lens of Optimization

1. 연구 배경 및 동기 CoT 프롬프트 는 인간의 사고 과정을 모방해 단계별 추론을 가능하게 했지만, ‘overthinking’ 현상이 빈번히 발생한다(수천 토큰까지 확장). 기존 RLVR 기반 최적화는 최종 보상 에만 집중해 중간 추론 과정의 질을 직접적으로 제어하지 못한다는 한계가 있다. 2. 핵심 아이디어 CoT ↔ Gradient Descent 매핑: 각 추론 단계를 파라미터 업데이트로 해석함으로써 “추론이 얼마나 잘 최적화되고 있는가”를 정량화한다. 대리 목표 함수 𝒥 : 정답 토큰 시퀀스에 대한 로그 확률(퍼플렉시티 역

February 20, 2026

ReinforceGen: Hybrid Skill Policies with Automated Data Generation and Reinforcement Learning

ReinforceGen은 로봇 공학에서 장기 조작이라는 난제를 해결하기 위해 제안된 혁신적인 시스템입니다. 이 시스템은 작업을 여러 작은 부분으로 분해하고, 각 부분에 대해 모방 학습과 강화 학습을 통해 최적의 경로와 동작을 찾아내는 방식으로 구성되어 있습니다. 특히, 10명의 인간 데모를 기반으로 생성된 데이터셋에서 시작하여, 실제 환경에서의 온라인 적응 및 세부 조정을 통해 성능을 더욱 향상시킵니다. Robosuite 데이터셋에서의 평가 결과는 ReinforceGen의 효과성을 입증합니다. 80%의 높은 성공률과 앙블레이션 연구

February 20, 2026

Data Learning

Robustness of Probabilistic Models to Low-Quality Data: A Multi-Perspective Analysis

본 논문은 저품질 데이터가 다양한 모델의 견고성에 미치는 차별적인 영향을 체계적으로 조사하고 분석한 연구이다. 특히, 자동회귀 언어 모델과 클래스 조건 확산 모델, 그리고 분류기 간의 성능 차이를 강조한다. GPT 2와 같은 자동회귀 언어 모델은 토큰 오염률이 50%에 달하더라도 견고성을 유지하며, 이는 해당 모델들이 저품질 데이터에서도 뛰어난 성능을 발휘할 수 있는 강건성의 한 예시를 보여준다. 반면, 클래스 조건 확산 모델은 같은 정도의 오염에도 불구하고 재앙적인 성능 저하를 경험한다. 이는 이미지 레이블 일관성이 기준치 대비

February 20, 2026

Data Analysis Model

Robustness Test for AI Forecasting of Hurricane Florence Using FourCastNetv2 and Random Perturbations of the Initial Condition

: 허리케인과 같은 극한 기상 현상을 정확하게 예측하기 위해서는 기상 예측 모델의 견고성과 입력 잡음이나 불확실성에 대한 민감도를 이해하는 것이 중요하다. 이 논문에서는 FCNv2 모델이 초기 조건에 가해진 잡음에 어떻게 반응하는지, 그리고 무작위적인 초기 조건 하에서 어떻게 예측을 생성하는지를 분석했다. 그 결과, 모델은 저에서 중등도의 잡음 수준에서도 허리케인의 특징을 잘 보존했으며, 높은 수준의 잡음이 주입되어도 전반적인 폭풍 경로와 구조를 유지함을 보였다. 또한, FCNv2는 모든 수준의 잡음 하에서 일관되게 폭풍 강도와 지

February 20, 2026

No Image

SSI-GAN: Semi-Supervised Swin-Inspired Generative Adversarial Networks for Neuronal Spike Classification

이 논문은 신경생물학적 데이터와 바이러스 감염 연구 사이의 격차를 메우기 위해 최신 딥러닝 구조를 창의적으로 적용한 점이 가장 큰 강점이다. 먼저, 스윈(Swin) 트랜스포머의 핵심 아이디어인 ‘이동 윈도우’ 메커니즘을 디스크리미네이터에 도입함으로써 고주파 스파이크의 국소적 패턴을 효율적으로 포착한다는 점은 기존 1‑D CNN 기반 모델이 놓치기 쉬운 미세한 시간‑주파수 정보를 보완한다. 트랜스포머 기반 제너레이터는 시퀀스 전체의 장기 의존성을 학습하면서도, 라벨이 부족한 상황에서 가짜 샘플을 생성해 디스크리미네이터를 지속적으로 도

February 20, 2026

Network

Story2MIDI: Emotionally Aligned Music Generation from Text

Story2MIDI는 텍스트‑음악 감정 매핑이라는 비교적 새로운 연구 영역에 도전하는 시도이다. 기존 연구는 주로 텍스트‑음악 간의 단순 연관성(예: 키워드 기반 매칭)이나 음악 생성에 감정 라벨을 부여하는 방식에 머물렀다. 본 논문은 두 가지 주요 혁신을 제시한다. 첫째, 텍스트 감성 분석 코퍼스와 음악 감정 분류 코퍼스를 융합해 ‘텍스트‑음악 감정 일치’ 쌍을 만든 Story2MIDI 데이터셋을 구축하였다. 데이터 정제 과정에서 감정 라벨을 5가지 기본 감정(행복, 슬픔, 분노, 놀라움, 평온)으로 통일하고, 텍스트와 음악 양쪽

February 20, 2026

Topological Order in Deep State

위상 질서(topological order)는 전통적인 대칭 파괴 개념으로는 설명되지 않는 물질의 새로운 종류를 정의한다. 특히 분수 차원 절연체(Fractional Chern Insulator, FCI)는 양자 홀 효과를 격자 시스템에 구현한 형태로, 전자들이 강하게 상호작용하면서 분수 전하와 비가환(anyon) 통계를 갖는 준입자를 형성한다. 이러한 현상은 파동함수의 비국소적 얽힘 구조와 다중 축퇴된 바닥 상태에 의해 특징지어지며, 이를 정확히 기술하려면 고차원 복잡한 상관관계를 포착할 수 있는 방법이 필요하다. 전통적인 변분

February 20, 2026

VIGIL: A Reflective Runtime for Self-Healing Agents

V.I.G.I.L은 기존 에이전트형 LLM 시스템이 안고 있는 근본적인 약점을 체계적으로 보완한다는 점에서 학술적·실용적 의미가 크다. 첫째, 대부분의 현재 에이전트는 “LLM‑driven script” 수준에 머물러, 프롬프트와 도구 호출을 일관성 없이 조합한다. 이러한 구조는 런타임 오류가 발생했을 때 원인 추적이 거의 불가능하고, 인간 개입 없이는 자체 복구가 이루어지지 않는다. VIGIL은 형제 에이전트의 모든 행동을 로그 형태로 기록하고, 이를 감정화(emotional representation)한다는 독특한 접근을 채택한

February 20, 2026

Vision Foundry: A System for Training Foundational Vision AI Models

최근 자율 학습과 기초 비전 모델의 발전은 특정 분야에 맞는 컴퓨터 비전 시스템 개발 방식을 변화시켰습니다. 이와 달리 감독 방식은 대규모 라벨링된 데이터셋에 의존하는 반면, SSL 접근법은 DINO, SimCLR 및 MAE와 같은 미라벨 데이터로부터 유의미한 표현을 직접 학습합니다. 이러한 기초 모델은 분류, 세그멘테이션 및 이상 감지 등 다양한 다운스트림 작업에서 풍부하고 전이 가능한 임베딩을 생성합니다. 이 모델의 핵심 강점은 색상 분포, 질감, 가장자리 및 고차원 의미 패턴과 같은 데이터셋의 기본 구조를 학습하여 폭넓은 일반

February 20, 2026

System Model

Smoothing DiLoCo with Primal Averaging for Faster Training of LLMs

이 논문은 일반화된 원시 평균법(GPA)이라는 새로운 최적화 알고리즘을 제안하고, 이를 통해 기존의 Nesterov 방법 및 그 변형체들보다 더 효율적인 학습 과정을 제공할 수 있음을 보여준다. GPA는 특히 단일 작업자 환경에서 DiLoCo와 Schedule Free 같은 최적화기들을 통합하고 일반화하는 데 초점을 맞추고 있다. 이 방법은 Nesterov의 모멘텀 기반 보간 상수를 분리하여 각 반복 단계에서 평균화를 수행함으로써, 메모리 사용량을 줄이고 계산 복잡성을 감소시킨다. 실험 결과에서는 GPA가 AdamW와 비교해 Lla

February 19, 2026

Learning with the $p$-adics

본 논문은 현재 대부분의 머신러닝 프레임워크가 실수 체계(ℝ)를 기반으로 설계되어 있다는 사실을 강조하고, 그에 따른 기하학적 특성이 어떻게 학습 알고리즘의 설계와 해석에 영향을 미치는지를 탐구한다. 실수 벡터 공간은 유클리드 기하학의 기본 공리들을 그대로 계승하므로, 데이터 포인트 간의 거리, 각도, 내적 등 직관적인 측정이 가능하다. 이러한 특성은 선형 분리 가능성(linear separability)이라는 핵심 개념을 뒷받침한다. 예를 들어, 선형 분류기인 서포트 벡터 머신(SVM)은 데이터가 고차원 실수 공간에서 초평면으로

February 19, 2026

Learning

Agent-Based Modular Learning for Multimodal Emotion Recognition in Human-Agent Systems

본 논문은 인간 에이전트 상호작용(HAI)을 향상시키기 위해 다중 에이전트 기반의 멀티모달 감정 인식 프레임워크를 제안하고 있다. 이 프레임워크는 각각의 모달리티(시각, 음성, 텍스트 등)에 대한 인코더와 분류기를 독립적인 에이전트로 구성하여 중앙 관리자에 의해 조정되도록 설계되었다. 이러한 구조는 기존 멀티모달 딥러닝 모델의 단점인 계산적 집약성과 모달리티 변경 시의 유연성 부족을 해결하고자 한다. 논문에서 제안된 프레임워크는 새로운 모달리티를 쉽게 통합할 수 있으며, 과시된 구성 요소를 원활하게 교체할 수 있어 유지보수성이 높다

February 19, 2026

System Learning

Deep FlexQP: Accelerated Nonlinear Programming via Deep Unfolding

FlexQP는 제곱계획(QP) 문제의 제약을 “정확히 완화(exact relaxation)”함으로써, 전통적인 내·외부점 방법이나 페널티 기반 기법이 직면하는 infeasibility 문제를 근본적으로 회피한다는 점에서 혁신적이다. 구체적으로, 원래의 선형 등식·부등식 제약을 추가적인 슬랙 변수와 함께 L2‑norm 형태로 재구성하고, 이 슬랙을 최소화하는 2차 목적함에 포함시켜 항상 해가 존재하도록 만든다. 이 과정에서 슬랙이 0이 되는 경우는 원 제약이 만족 가능한 상황이며, 슬랙이 비제로인 경우는 최소한의 위반을 보장하는 희소

February 19, 2026

Vox Deorum: A Hybrid LLM Architecture for 4X / Grand Strategy Game AI -- Lessons from Civilization V

Vox Deorum은 최신 대규모 언어 모델(LLM)을 게임 전략 수립 단계에 통합하고, 기존의 규칙 기반 AI가 담당하던 전술 실행을 그대로 활용한다는 점에서 기존 4X 게임 AI 연구와 차별화된다. 논문은 먼저 게임 상태를 텍스트 형식으로 변환한 뒤, LLM에 “현재 상황에 맞는 전략을 제시하라”는 프롬프트를 제공한다. LLM은 역사적 전략, 자원 관리, 문화·과학·군사 트리 등을 종합해 고수준 목표(예: 과학 승리, 문화 승리)를 도출하고, 이를 구체적인 행동 지침으로 변환한다. 이러한 고수준 목표는 Civilization V

February 19, 2026

From Fake Focus to Real Precision: Confusion-Driven Adversarial Attention Learning in Transformers

본 논문은 감성 분석 작업에서 Transformer 기반 모델이 보이는 ‘주의 집중 편향(attention bias)’ 문제를 심층적으로 파악하고, 이를 교정하기 위한 새로운 학습 프레임워크인 Adversarial Feedback for Attention(AFA)를 제시한다. 기존 연구들은 Transformer의 강력한 문맥 인코딩 능력을 강조했지만, 실제 적용 단계에서 흔히 나타나는 현상은 모델이 고빈도 일반 단어에 과도하게 주의를 할당하고, 감성 판단에 핵심적인 저빈도 혹은 도메인 특화 단어를 무시한다는 점이다. 이러한 현상은

February 19, 2026

Learning

No Image

SENSE: Self-Supervised Neural Embeddings for Spatial Ensembles

본 논문은 고차원 과학 연산 데이터의 분석과 시각화를 위한 새로운 접근 방식을 제시합니다. 주요 도전점 중 하나는 이러한 데이터셋이 매우 복잡하고 차원이 높다는 점입니다. 기존의 차원 축소 기법이나 오토인코더만으로는 이 문제를 해결하기 어렵습니다. 따라서, 본 논문은 클러스터링 손실과 대조적 손실을 통합한 새로운 오토인코더 프레임워크를 제안합니다. 이 프레임워크의 핵심 아이디어는 Efficient NetV2를 사용하여 데이터셋의 미표기 부분에 대한 의사 라벨을 생성하는 것입니다. 이를 통해 모델은 더 나은 클러스터링 결과를 얻을 수

February 19, 2026

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GRPO and Singing-Specific Inductive Biases

YingMusic‑SVC 논문은 현재 제로샷 보컬 변환 분야가 직면한 세 가지 핵심 문제를 명확히 짚어낸다. 첫째, 실제 노래에서는 배경 반주와 화음이 동시에 존재해 입력 음성의 스펙트럼이 복잡해지며, 기존 모델은 이러한 다중 소스 신호를 효과적으로 분리하지 못한다. 둘째, F0(기본 주파수) 추정 오류는 멜로디 보존에 직접적인 영향을 미치는데, 특히 빠른 음정 변동이나 비정형 리듬 구간에서 오류가 증폭된다. 셋째, 대부분의 SVC 모델은 일반적인 음성 변환에 초점을 맞추어 설계돼, 노래 특유의 다이내믹 레인지와 고주파 성분을 충분

February 19, 2026

Parajudica: An RDF-Based Reasoner and Metamodel for Multi-Framework Context-Dependent Data Compliance Assessments

Parajudica는 RDF 트리플스토어와 SPARQL 질의 엔진을 기반으로 하여, 데이터 객체와 그에 연관된 메타데이터를 그래프 형태로 모델링한다. 이 접근 방식은 전통적인 관계형 데이터베이스가 제공하기 어려운 “관계의 관계”를 자연스럽게 표현할 수 있게 해준다. 특히 정책 기반 데이터 접근 제어(PBAC)에서는 사용자의 역할, 목적, 위치, 시간 등 다양한 컨텍스트 정보가 동시에 고려되어야 하는데, Parajudica는 이러한 다차원 컨텍스트를 RDF의 속성‑객체 쌍으로 선언하고, SPARQL 규칙을 통해 동적으로 평가한다. 시

February 19, 2026

Data Framework Model

Semantic Distance Measurement based on Multi-Kernel Gaussian Processes

이 논문은 의미 거리 측정을 위한 새로운 접근법을 제시하고 있습니다. 기존의 고정적인 의미 거리 측정 방법들이 특정 데이터 분포나 작업 요구사항에 적응하기 어렵다는 문제를 해결하기 위해, 다중 커널 가우시안 프로세스(MK GP)를 활용한 새로운 방법론을 제안하고 있습니다. 이 접근법은 텍스트와 연관된 잠재적 의미 함수를 가우시안 프로세스로 모델링하며, 이를 통해 데이터로부터 자동으로 학습되는 커널 파라미터를 사용하여 더 유연한 측정을 가능하게 합니다. 특히, Matérn 커널과 다항식 요소를 결합한 복합 커널을 사용함으로써 다양한

February 19, 2026

Arxiv 2512.23731

본 논문은 지구 내부의 탄성 진동이 대기와 직접적인 피드백 루프를 형성한다는 획기적인 가설을 제시한다. 기존 기후 모델은 태양 복사, 해양‑대기 상호작용, 온실가스 농도 등을 중심으로 전개돼 왔으며, 지구 내부 역학은 보통 장기 지질학적 시간척도(수백만 년)에서만 고려되었다. 그러나 저자들은 2024‑2025년 사이에 관측된 극단적인 평균 해수면 기압(최저 921 hPa, 최고 1 060 hPa)과 연속적인 대규모 지진을 동시에 분석함으로써, 단기(수일‑수주) 규모에서도 내부 진동이 대기압 변동을 유발할 수 있음을 실증한다. 핵심

February 19, 2026

Arxiv 2512.23731

February 18, 2026

< Category Statistics (Total: 5012) >

Astrophysics

Condensed Matter

Economics

Electrical Engineering and Systems Science

102

General

4156

General Relativity

HEP-EX

HEP-PH

HEP-TH

MATH-PH

Nonlinear Sciences

Physics

126

Quantitative Biology

Quantum Physics

Statistics

Detecting Silent Failures in Multi-Agentic AI Trajectories

Discourse-Aware Scientific Paper Recommendation via QA-Style Summarization and Multi-Level Contrastive Learning

Endowing GPT-4 with a Humanoid Body: Building the Bridge Between Off-the-Shelf VLMs and the Physical World

Enhancing Interpretability for Vision Models via Shapley Value Optimization

Explainable Adversarial-Robust Vision-Language-Action Model for Robotic Manipulation

Fine-Tuning LLMs to Generate Economical and Reliable Actions for the Power Grid

Fourier Neural Operators for Structural Dynamics Models: Challenges, Limitations and Advantages of Using a Spectrogram Loss

From Verification Burden to Trusted Collaboration: Design Goals for LLM-Assisted Literature Reviews

GAMA: A Neural Neighborhood Search Method with Graph-aware Multi-modal Attention for Vehicle Routing Problem

Group Interventions on Deep Networks for Causal Discovery in Subsystems

Heterogeneous Robot Collaboration in Unstructured Environments with Grounded Generative Intelligence

Law in Silico: Simulating Legal Society with LLM-Based Agents

LLM-based Fusion of Multi-modal Features for Commercial Memorability Prediction

Node Preservation and its Effect on Crossover in Cartesian Genetic Programming

Normative Reasoning in Large Language Models: A Comparative Benchmark from Logical and Modal Perspectives

RobotArena $infty$: Scalable Robot Benchmarking via Real-to-Sim Translation

Robust and Diverse Multi-Agent Learning via Rational Policy Gradient

Towards a Humanized Social-Media Ecosystem: AI-Augmented HCI Design Patterns for Safety, Agency & Well-Being

Vintage Code, Modern Judges: Meta-Validation in Low Data Regimes

Who Evaluates AI's Social Impacts? Mapping Coverage and Gaps in First and Third Party Evaluations

Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation

ESACT: An End-to-End Sparse Accelerator for Compute-Intensive Transformers via Local Similarity

Foundation Model for Polycrystalline Material Informatics

Gene regulatory network inference algorithm based on spectral signed directed graph convolution

ManchuTTS: Towards High-Quality Manchu Speech Synthesis via Flow Matching and Hierarchical Text Representation

Multifractal Recalibration of Neural Networks for Medical Imaging Segmentation

Numerical simulation of lunar response to gravitational waves and its 3D topographic effect using the spectral-element method

PIANO: Physics-informed Dual Neural Operator for Precipitation Nowcasting

Placenta Accreta Spectrum Detection Using an MRI-based Hybrid CNN-Transformer Model

Rectifying LLM Thought from Lens of Optimization

ReinforceGen: Hybrid Skill Policies with Automated Data Generation and Reinforcement Learning

Robustness of Probabilistic Models to Low-Quality Data: A Multi-Perspective Analysis

Robustness Test for AI Forecasting of Hurricane Florence Using FourCastNetv2 and Random Perturbations of the Initial Condition

SSI-GAN: Semi-Supervised Swin-Inspired Generative Adversarial Networks for Neuronal Spike Classification

Story2MIDI: Emotionally Aligned Music Generation from Text

Topological Order in Deep State

VIGIL: A Reflective Runtime for Self-Healing Agents

Vision Foundry: A System for Training Foundational Vision AI Models

Smoothing DiLoCo with Primal Averaging for Faster Training of LLMs

Learning with the $p$-adics

Agent-Based Modular Learning for Multimodal Emotion Recognition in Human-Agent Systems

Deep FlexQP: Accelerated Nonlinear Programming via Deep Unfolding

Vox Deorum: A Hybrid LLM Architecture for 4X / Grand Strategy Game AI -- Lessons from Civilization V

From Fake Focus to Real Precision: Confusion-Driven Adversarial Attention Learning in Transformers

SENSE: Self-Supervised Neural Embeddings for Spatial Ensembles

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GRPO and Singing-Specific Inductive Biases

Parajudica: An RDF-Based Reasoner and Metamodel for Multi-Framework Context-Dependent Data Compliance Assessments

Semantic Distance Measurement based on Multi-Kernel Gaussian Processes

Arxiv 2512.23731

Arxiv 2512.23731

< Category Statistics (Total: 5012) >

Start searching

No results found