KOINEU

Collaborative Edge-to-Server Inference for Vision-Language Models

본 논문은 엣지 디바이스와 서버 간의 협업을 통해 비전 언어 모델(VLM)의 추론 과정에서 발생하는 통신 비용 문제를 해결하려는 시도입니다. 전통적인 VLM 추론 방법에서는 엣지 디바이스에서 캡처된 이미지를 서버로 전송하고, 이 이미지는 서버 내부의 비전 인코더에 맞게 리사이징됩니다. 그러나 이러한 과정에서 세밀한 시각 정보가 손실되어 추론 정확도가 저하될 수 있습니다. 논문은 이를 해결하기 위해 두 단계 프레임워크를 제안합니다. 첫 번째 단계에서는 서버에서 전체 이미지에 대한 초기 추론을 수행하고, VLM 내부의 주의 메커니즘을

February 18, 2026

Model

CoAgent: Collaborative Planning and Consistency Agent for Coherent Video Generation

CoAgent 논문은 텍스트‑투‑비디오 생성 분야에서 장기간 제기되어 온 “샷 간 일관성 부재” 문제를 근본적으로 해결하려는 시도로서, 기존 모델이 갖는 구조적 한계를 정확히 진단하고 새로운 시스템 아키텍처를 제시한다는 점에서 학술적·산업적 의의가 크다. 첫째, 계획‑합성‑검증‑편집 라는 폐쇄‑루프 파이프라인을 도입함으로써 인간 감독자가 수행하던 ‘구상 → 구현 → 검수 → 수정’ 과정을 자동화한다. 특히 스토리보드 플래너가 추상적인 텍스트 프롬프트를 “엔티티(인물·오브젝트)”, “공간 관계(위치·거리)”, “시간 단서(동작 순서·

February 18, 2026

World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty

본 논문이 다루는 핵심 문제는 ‘제어 가능한 비디오 생성 모델’이 실제 물리 법칙과 어긋나는 프레임을 생성할 때, 이를 사전에 인지하고 경고할 수 있는 메커니즘이 부재하다는 점이다. 로봇 공학에서 비디오 기반 정책을 시뮬레이션하거나 예측할 때, 모델이 생성한 영상이 현실과 크게 다르면 잘못된 행동 계획을 세우게 된다. 따라서 모델 자체가 “얼마나 확신을 가지고” 결과를 내는지를 정량화하는 것이 필수적이다. C³가 제시하는 첫 번째 혁신은 ‘엄격히 적합한 스코어링 룰(strictly proper scoring rules)’을 활용한다

February 18, 2026

Model

Comparative Analysis of 47 Context-Based Question Answer Models Across 8 Diverse Datasets

본 논문은 사전 학습된 컨텍스트 기반 질문응답(CBQA) 모델을 추가 파인튜닝 없이 그대로 적용했을 때의 전반적인 성능을 체계적으로 평가한다는 점에서 실용적인 의미가 크다. 먼저 47개의 모델을 선정한 기준은 Hugging Face 플랫폼에 공개된 최신 모델이며, 모델군은 Transformer 기반의 BERT, RoBERTa, ELECTRA, DeBERTa, ALBERT 등 다양한 아키텍처를 포괄한다. 이렇게 폭넓은 모델 풀을 구축함으로써 특정 아키텍처가 특정 도메인에 편향되는 현상을 최소화하고, 전반적인 트렌드를 파악할 수 있었다

February 18, 2026

Model Analysis Data

정보 흐름 발산을 이용한 필터·레이어 통합 압축 기법

이 논문은 신경망 압축 분야에서 ‘정보 흐름 발산’이라는 새로운 메트릭을 도입함으로써 기존 프루닝·축소 기법이 갖는 몇 가지 한계를 극복하고자 한다. 전통적인 필터 프루닝은 주로 가중치 크기, L1/L2 정규화, 혹은 그라디언트 기반 중요도 지표에 의존한다. 이러한 접근법은 개별 필터가 네트워크 전체 정보 전달에 미치는 영향을 충분히 반영하지 못한다는 비판을 받아왔다. 반면 저자들은 텐서 흐름 발산을 통해 각 레이어가 입력 정보를 얼마나 변형·소실시키는지를 정량화하고, 이 값을 ‘정보 보존도’의 역으로 해석한다. 발산이 낮은 필터는

February 18, 2026

Memories Retrieved from Many Paths: A Multi-Prefix Framework for Robust Detection of Training Data Leakage in Large Language Models

본 논문은 대형 언어 모델(LLM)이 훈련 과정에서 원본 텍스트를 그대로 저장하는 ‘기억’ 현상이 프라이버시와 저작권 측면에서 심각한 위험을 초래한다는 점을 출발점으로 삼는다. 기존 연구들은 기억을 “특정 프롬프트에 대한 정확한 출력” 혹은 “모델 파라미터에 대한 직접적인 복제” 등으로 정의했지만, 이러한 정의는 모델이 정렬(align) 과정에서 프롬프트에 대한 안전성 필터링이나 출력 제한을 받게 되면 실제 기억 여부를 판단하기 어려워진다. 즉, 단일 프롬프트에 의존하는 방식은 기억이 존재하더라도 탐지되지 않을 가능성이 높다. 논문

February 18, 2026

Model Data Framework Detection

RevFFN: Memory-Efficient Full-Parameter Fine-Tuning of Mixture-of-Experts LLMs with Reversible Blocks

본 논문은 대형 언어 모델(LLM)의 전체 파인튜닝(full fine‑tuning) 과정에서 발생하는 메모리 병목 현상을 근본적으로 해결하고자 하는 시도이다. 기존의 파인튜닝 방식은 역전파를 위해 각 레이어의 입력 활성값을 저장해야 하는데, 모델 규모가 수십억 파라미터에 달하면 이 저장 비용이 GPU 메모리를 초과하게 된다. 이를 완화하기 위해 DeepSpeed의 ZeRO(Zero Redundancy Optimizer)나 FSDP(Fully Sharded Data Parallel)와 같은 분산 학습 기법이 고안되었으며, 이들은 파라

February 18, 2026

Probing the effectiveness of World Models for Spatial Reasoning through Test-time Scaling

본 논문은 최근 주목받고 있는 테스트‑시 스케일링 기법, 특히 MindJourney가 제시한 행동‑조건부 시점 생성과 휴리스틱 검증기의 조합을 비판적 시각에서 재검토한다. 먼저, 저자들은 다양한 공간 추론 벤치마크(SAT‑Real, MMSI‑Bench 등)를 활용해 검증기의 선택 기준이 실제로 모델의 불확실성을 감소시키는지, 혹은 단순히 엔트로피를 낮추는 수준에 머무는지를 정량적으로 평가한다. 그 결과, MindJourney 검증기가 제공하는 보상 신호는 실제 정답 확률과 약한 상관관계를 보이며, 무작위 점수 부여(random sc

February 18, 2026

Model

Intelligent Knowledge Mining Framework: Bridging AI Analysis and Trustworthy Preservation

본 논문이 다루는 핵심 문제는 “데이터 폭증 속에서 어떻게 의미 있는 지식을 추출하고, 동시에 그 지식의 신뢰성과 지속 가능성을 보장할 것인가”이다. 현재 기업·연구기관·공공 부문에서는 방대한 양의 구조화·비구조화 데이터를 각각 별도 시스템에 저장하고 있다. 데이터 레이크, 문서 관리 시스템, 로그 파일 등은 서로 다른 스키마와 메타데이터 표준을 사용하기 때문에, 데이터 간 연계와 재활용이 거의 불가능에 가깝다. 이러한 상황에서 AI·ML 모델은 풍부한 학습 데이터를 필요로 하지만, 데이터 품질·출처·버전 관리가 미비하면 모델의 신

February 18, 2026

Analysis Framework

Towards Mass Spectrum Analysis with ASP

이 논문은 Answer Set Programming (ASP)을 이용해 질량 분석법으로 얻어진 데이터를 바탕으로 분자 구조를 탐지하는 새로운 방법론을 제시하고 있습니다. ASP는 복잡한 조합적 문제를 해결하기 위한 강력한 프로그래밍 기술로, 이 논문에서는 이를 통해 분자의 원소 구성과 구조적 조각의 상대적 풍부도를 바탕으로 분자 구조를 파악하는 데 초점을 맞추고 있습니다. 특히, 지수적으로 증가하는 탐색 공간을 효과적으로 제약하기 위해 캐논적 표현이라는 개념을 도입하고 이를 ASP에 통합하였습니다. 캐논적 표현은 분자의 다양한 표현

February 18, 2026

Analysis

Toward Training Superintelligent Software Agents through Self-Play SWE-RL

본 연구는 현재 LLM 기반 코딩 에이전트가 직면한 “인간 라벨링 의존성”이라는 근본적인 한계를 극복하고자 한다는 점에서 학술적·실용적 의미가 크다. 기존의 코딩 보조 시스템은 GitHub 이슈·PR, 테스트 스위트 등 인간이 만든 메타데이터를 학습 데이터로 활용한다. 이러한 데이터는 양질이지만, 규모와 다양성 면에서 한계가 있으며, 인간의 편향과 오류가 그대로 모델에 전이될 위험이 있다. SSR은 이러한 전제조건을 완전히 배제하고, 오직 “코드와 그 실행 환경”만을 입력으로 삼는다. 이는 두 가지 중요한 혁신을 내포한다. 첫째,

February 18, 2026

Fragile Knowledge, Robust Instruction-Following: The Width Pruning Dichotomy in Llama-3.2

본 연구는 최신 대규모 언어 모델인 라마3점2 시리즈에 대해 GLU‑MLP 레이어의 폭을 구조적으로 축소하는 ‘폭 프루닝’을 적용하고, 그 효과를 정량적으로 분석한 최초의 시도라 할 수 있다. 프루닝 기준으로 사용된 최대 절대 가중치(MAW) 기준은 각 뉴런의 가중치 절대값 중 가장 큰 값을 기준으로 중요도를 판단하는 단순하면서도 효과적인 방법이다. 이를 통해 모델의 전체 파라미터 수를 크게 줄이면서도 핵심 연산 흐름을 유지할 수 있었다. 실험에서는 확장 비율(expansion ratio)을 7단계로 조절했으며, 각 단계마다 MML

February 18, 2026

TradeTrap: Are LLM-based Trading Agents Truly Reliable and Faithful?

본 논문은 최근 급부상하고 있는 대형 언어 모델(LLM) 기반 자동 트레이딩 에이전트가 실제 금융 시장에 적용될 때 직면할 수 있는 시스템 수준의 취약성을 최초로 조명한다. 기존 연구들은 주로 알고리즘의 예측 정확도나 전략 효율성에 초점을 맞추었으며, 외부 교란이나 내부 오류가 에이전트 전체에 미치는 파급 효과는 충분히 탐구되지 않았다. TradeTrap은 이러한 공백을 메우기 위해 네 가지 핵심 구성 요소—시장 인텔리전스, 전략 포뮬레이션, 포트폴리오·원장 관리, 트레이드 실행—를 독립적인 공격 표면으로 정의하고, 각각에 대해 정

February 18, 2026

Large Language Models for Education and Research: An Empirical and User Survey-based Analysis

본 논문은 현재 가장 주목받는 두 대형 언어 모델인 ChatGPT와 DeepSeek을 교육 및 연구 현장에서의 실제 활용 가능성을 중심으로 비교·분석하였다. 먼저 배경 기술 분석 단계에서는 두 모델의 아키텍처와 학습 데이터, 파인튜닝 전략을 상세히 검토하였다. ChatGPT는 OpenAI가 개발한 트랜스포머 기반의 거대 모델로, 방대한 웹 텍스트와 인간 피드백을 활용한 Reinforcement Learning from Human Feedback(RLHF) 과정을 거쳐 언어 이해와 생성 능력을 극대화하였다. 반면 DeepSeek은 효

February 18, 2026

Model Analysis

Scalable Offline Model-Based RL with Action Chunks

이 연구는 오프라인 강화학습에서 “모델 기반 가치 확장”이라는 기존 접근법의 근본적인 한계를 짚고 넘어간다. 전통적인 MBVE는 현재 정책을 사용해 가상의 트랜지션을 n 단계까지 연장하고, 그 끝점에서 얻은 보상과 부트스트랩된 가치 추정치를 결합한다. n이 클수록 실제 환경에서의 장기 가치에 대한 편향이 감소하지만, 학습된 동역학 모델의 오차가 시간에 따라 기하급수적으로 누적되는 ‘오차 복합화’ 문제가 발생한다. 특히 복잡한 물리 엔진이나 고차원 관측을 다루는 환경에서는 작은 모델 오차도 몇 단계 뒤에는 크게 증폭돼 가치 추정이 무

February 18, 2026

Model

Admissibility Alignment

본 논문이 제시하는 ‘허용가능성 정렬(Admissibility Alignment)’ 개념은 AI 정렬 연구의 기존 패러다임을 근본적으로 전환한다는 점에서 학술적·실무적 의미가 크다. 전통적인 정렬 접근법은 주로 가치 함수나 목표를 모델 내부에 직접 삽입하거나, 사전 정의된 규칙을 통해 출력 자체를 제한하는 방식에 머물렀다. 이러한 방법은 모델이 학습 과정에서 내재화된 편향이나 목표 변형을 완전히 차단하기 어렵다는 한계가 있었으며, 특히 장기적·불확실한 환경에서 ‘예측’과 ‘행동’ 사이의 간극을 메우지 못했다. 논문은 이 간극을 ‘정

February 18, 2026

DARC: Drum accompaniment generation with fine-grained rhythm control

DARC는 현재 음악 생성 연구에서 두드러진 문제점, 즉 ‘구조적 제어와 스타일적 자유 사이의 트레이드오프’를 효과적으로 해소한다는 점에서 의미가 크다. 기존 스템‑투‑스템 접근법은 악기 간 상호작용을 반영해 조화로운 반주를 만들 수 있지만, 리듬 패턴을 사용자가 직접 지정하거나 미세 조정하기는 어려웠다. 반대로 timbre‑transfer 기반 모델은 사용자가 직접 만든 비트박싱·탭핑 같은 리듬 시퀀스를 입력으로 받아들일 수 있지만, 그 리듬이 현재 진행 중인 화성·멜로디와 얼마나 잘 맞는지는 보장되지 않는다. DARC는 이 두

January 05, 2026

Computer Science Sound

Jenius Agent: Towards Experience-Driven Accuracy Optimization in Real-World Scenarios

Jenius‑Agent 논문은 최근 LLM‑기반 에이전트가 직면한 두 가지 근본적인 한계를 명확히 짚고 있다. 첫 번째는 “실행 가시성 부족”이다. 기존 벤치마크는 최종 출력만을 평가 지표로 삼아, 에이전트가 내부적으로 어떤 프롬프트를 생성하고, 어떤 도구를 언제 호출했는지, 상태를 어떻게 업데이트했는지를 파악할 방법을 제공하지 않는다. 이로 인해 개발자는 오류 원인을 추적하기 위해 로그를 일일이 수작업으로 분석해야 하며, 재현성도 떨어진다. 두 번째는 “장기·도구‑보강 작업에서의 불안정성”이다. LLM은 짧은 컨텍스트에서는 뛰어난

January 05, 2026

Computer Science Artificial Intelligence

K-EXAONE Technical Report

This paper introduces K EXAONE, a large scale multilingual language model developed by LG AI Research. The model boasts 236 billion parameters in total and activates 23 billion during inference. It supports a context window of up to 256K tokens and covers six languages: Korean, English, Spanish, Ger

January 05, 2026

Computer Science NLP

No Image

Nodule-DETR: A Novel DETR Architecture with Frequency-Channel Attention for Ultrasound Thyroid Nodule Detection

갑상선암은 내분비계 암 중 가장 흔하며, 조기 발견이 치료 성공률을 크게 좌우한다. 현재 임상 현장에서 초음파는 비침습적이며 비용 효율적인 영상 modality로 널리 사용되지만, 초음파 특성상 신호 대 잡음비가 낮고, 결절 경계가 흐릿해 radiologist의 주관적 판단에 크게 의존한다는 한계가 있다. 이러한 문제를 기계학습 기반 자동 검출 시스템이 해결하려는 시도가 늘어나고 있으나, 기존 CNN 기반 모델은 다중 스케일 정보를 충분히 활용하지 못하거나, 작은 결절에 대한 민감도가 떨어지는 경우가 많다. 본 논문이 제안하는 No

January 05, 2026

Detection

Yukthi Opus: A Multi-Chain Hybrid Metaheuristic for Large-Scale NP-Hard Optimization

Yukthi Opus(YO)는 메타휴리스틱 설계에서 흔히 발생하는 ‘전역 탐색과 지역 탐색의 균형’ 문제를 세 단계 구조로 명확히 구분함으로써 해결책을 제시한다. 첫 번째 레이어인 MCMC 기반 전역 탐색은 확률적 전이 메커니즘을 이용해 탐색 공간을 균등하게 샘플링하고, 초기 번인 단계에서 충분히 다양한 영역을 방문하도록 설계되었다. 이때 블랙리스트를 도입해 이미 낮은 품질을 보인 지역을 재방문하지 않게 함으로써 불필요한 계산을 크게 절감한다는 점이 눈에 띈다. 두 번째 레이어는 전통적인 탐욕적 로컬 서치를 적용해 현재 위치에서 가

January 05, 2026

Computer Science Neural Computing

No Image

A construction of an optimal base for conditional attribute and attributional condition implications in triadic contexts

삼중 컨텍스트는 전통적인 이항 관계를 넘어 객체‑속성‑조건이라는 세 차원을 동시에 고려하는 데이터 모델로, 지식 발견 및 의미론적 분석에 있어 강력한 표현력을 제공한다. 그러나 이러한 다차원 구조에서는 기존의 이항 컨텍스트에서 사용되는 함축(implication) 기반 추론 기법을 그대로 적용하기 어렵다. 특히 조건 속성(conditional attribute)과 귀속 조건(attributional condition)이라는 두 종류의 함축이 동시에 존재할 경우, 서로 얽히는 전제와 결론 사이의 중복 및 불필요한 함축이 급증하여 효율

Collaborative Edge-to-Server Inference for Vision-Language Models

CoAgent: Collaborative Planning and Consistency Agent for Coherent Video Generation

World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty

Comparative Analysis of 47 Context-Based Question Answer Models Across 8 Diverse Datasets

정보 흐름 발산을 이용한 필터·레이어 통합 압축 기법

Memories Retrieved from Many Paths: A Multi-Prefix Framework for Robust Detection of Training Data Leakage in Large Language Models

RevFFN: Memory-Efficient Full-Parameter Fine-Tuning of Mixture-of-Experts LLMs with Reversible Blocks

Probing the effectiveness of World Models for Spatial Reasoning through Test-time Scaling

Intelligent Knowledge Mining Framework: Bridging AI Analysis and Trustworthy Preservation

Towards Mass Spectrum Analysis with ASP

Toward Training Superintelligent Software Agents through Self-Play SWE-RL

Fragile Knowledge, Robust Instruction-Following: The Width Pruning Dichotomy in Llama-3.2

TradeTrap: Are LLM-based Trading Agents Truly Reliable and Faithful?

Large Language Models for Education and Research: An Empirical and User Survey-based Analysis

Scalable Offline Model-Based RL with Action Chunks

Admissibility Alignment

DARC: Drum accompaniment generation with fine-grained rhythm control

Jenius Agent: Towards Experience-Driven Accuracy Optimization in Real-World Scenarios

K-EXAONE Technical Report

Nodule-DETR: A Novel DETR Architecture with Frequency-Channel Attention for Ultrasound Thyroid Nodule Detection

Yukthi Opus: A Multi-Chain Hybrid Metaheuristic for Large-Scale NP-Hard Optimization

A construction of an optimal base for conditional attribute and attributional condition implications in triadic contexts

Accelerating Storage-Based Training for Graph Neural Networks

Adaptive Hierarchical Evaluation of LLMs and SAST tools for CWE Prediction in Python

Data Complexity-aware Deep Model Performance Forecasting

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

EscherVerse: An Open World Benchmark and Dataset for Teleo-Spatial Intelligence with Physical-Dynamic and Intent-Driven Understanding

Exposing Hidden Interfaces: LLM-Guided Type Inference for Reverse Engineering macOS Private Frameworks

FALCON: Few-Shot Adversarial Learning for Cross-Domain Medical Image Segmentation

HanoiWorld : A Joint Embedding Predictive Architecture BasedWorld Model for Autonomous Vehicle Controller

KGCE: Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models

Logics-STEM: Empowering LLM Reasoning via Failure-Driven Post-Training and Document Knowledge Enhancement

Online Estimation and Manipulation of Articulated Objects

REE-TTT: Highly Adaptive Radar Echo Extrapolation Based on Test-Time Training

SwinIFS: Landmark Guided Swin Transformer For Identity Preserving Face Super Resolution

The Optimal Sample Complexity of Linear Contracts

An Explainable Agentic AI Framework for Uncertainty-Aware and Abstention-Enabled Acute Ischemic Stroke Imaging Decisions

Correctness isnt Efficiency: Runtime Memory Divergence in LLM-Generated Code

Data-Driven Assessment of Concrete Mixture Compositions on Chloride Transport via Standalone Machine Learning Algorithms

EgoGrasp: World-Space Hand-Object Interaction Estimation from Egocentric Videos

Harm in AI-Driven Societies: An Audit of Toxicity Adoption on Chirper.ai

Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment

Learning from Historical Activations in Graph Neural Networks

LLM Collusion

Multi-Dimensional Prompt Chaining to Improve Open-Domain Dialogue Generation

RovoDev Code Reviewer: A Large-Scale Online Evaluation of LLM-based Code Review Automation at Atlassian

A Comprehensive Dataset for Human vs. AI Generated Image Detection

CoCo-Fed: A Unified Framework for Memory- and Communication-Efficient Federated Learning at the Wireless Edge

Detecting Performance Degradation under Data Shift in Pathology Vision-Language Model

LLM Agents for Combinatorial Efficient Frontiers: Investment Portfolio Optimization

< Category Statistics (Total: 5472) >

Start searching

No results found