KOINEU

MatKV: Trading Compute for Flash Storage in LLM Inference

본 논문은 LLM 기반 생성 AI 분야에서 두 가지 주요 추세를 분석하고, 특히 RAG 방식의 prefill 단계에서 발생하는 에너지 소비와 시간 소모 문제에 초점을 맞추고 있습니다. MatKV 방식을 통해 이러한 문제를 해결하려는 시도가 이루어졌으며, 이 방식은 key value 벡터(KVs)를 사전 계산하고 저렴한 플래시 저장 장치에 물리화하여 추론 시간과 전력 소비를 줄이는 데 성공했습니다. 실험 결과에서는 Hugging Face의 Transformers 라이브러리를 사용해 최신 GPU와 플래시 메모리 SSD에서 RAG 작업을

MatKV: Trading Compute for Flash Storage in LLM Inference

Parallel Multi-Circuit Quantum Feature Fusion in Hybrid Quantum-Classical Convolutional Neural Networks for Breast Tumor Classification

Shortest Paths on Convex Polyhedral Surfaces

System Report for CCL25-Eval Task 10: Prompt-Driven Large Language Model Merge for Fine-Grained Chinese Hate Speech Detection

A Systematic Characterization of LLM Inference on GPUs

AI-Trader: Benchmarking Autonomous Agents in Real-Time Financial Markets

BlendedNet++: A Large-Scale Blended Wing Body Aerodynamics Dataset and Benchmark

CAPTURE: A Benchmark and Evaluation for LVLMs in CAPTCHA Resolving

Constant-Time Motion Planning with Manipulation Behaviors

Data-Free Pruning of Self-Attention Layers in LLMs

Dora: QoE-Aware Hybrid Parallelism for Distributed Edge AI

From Wearables to Warnings: Predicting Pain Spikes in Patients with Opioid Use Disorder

Informing Acquisition Functions via Foundation Models for Molecular Discovery

Interpretable Link Prediction in AI-Driven Cancer Research: Uncovering Co-Authorship Patterns

LinkedOut: Linking World Knowledge Representation Out of Video LLM for Next-Generation Video Recommendation

MMRAG-RFT: Two-stage Reinforcement Fine-tuning for Explainable Multi-modal Retrieval-augmented Generation

Multi-LLM Collaboration for Medication Recommendation

One Layer Is Enough: Adapting Pretrained Visual Encoders for Image Generation

Over-the-Air Federated Learning: Rethinking Edge AI Through Signal Processing

Self-Transparency Failures in Expert-Persona LLMs: How Instruction-Following Overrides Disclosure

Simultaneous Image Quality Improvement and Artefacts Correction in Accelerated MRI

STELLA: Guiding Large Language Models for Time Series Forecasting with Semantic Abstractions

Stochasticity in Agentic Evaluations: Quantifying Inconsistency with Intraclass Correlation

SynCraft: Guiding Large Language Models to Predict Edit Sequences for Molecular Synthesizability Optimization

UnwrapDiff: A Conditional Diffusion Model for InSAR Phase Unwrapping

EfficientFlow: Efficient Equivariant Flow Policy Learning for Embodied AI

Feasibility of Radio Frequency Based Wireless Sensing of Lead Contamination in Soil

BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents

Cross-Language Bias Examination in Large Language Models

Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation

Leveraging Spreading Activation for Improved Document Retrieval in Knowledge-Graph-Based RAG Systems

OptPO: Optimal Rollout Allocation for Test-time Policy Optimization

CoPHo: Classifier-guided Conditional Topology Generation with Persistent Homology

Flux-Preserving Adaptive Finite State Projection for Multiscale Stochastic Reaction Networks

MetaHGNIE: Meta-Path Induced Hypergraph Contrastive Learning in Heterogeneous Knowledge Graphs

OPAL: Operator-Programmed Algorithms for Landscape-Aware Black-Box Optimization

STAR: Semantic-Traffic Alignment and Retrieval for Zero-Shot HTTPS Website Fingerprinting

Systematization of Knowledge: Security and Safety in the Model Context Protocol Ecosystem

Variance-Aware Prior-Based Tree Policies for Monte Carlo Tree Search

Context-Sensitive Abstractions for Reinforcement Learning with Parameterized Actions

Detecting Perspective Shifts in Multi-agent Systems

Mage: Cracking Elliptic Curve Cryptography with Cross-Axis Transformers

QGShap: Quantum Acceleration for Faithful GNN Explanations

SA-IQA: Redefining Image Quality Assessment for Spatial Aesthetics with Multi-Dimensional Rewards

Social Comparison without Explicit Inference of Others' Reward Values: A Constructive Approach Using a Probabilistic Generative Model

The Silent Scholar Problem: A Probabilistic Framework for Breaking Epistemic Asymmetry in LLM Agents

A Multi-agent Text2SQL Framework using Small Language Models and Execution Feedback

ioPUF+: A PUF Based on I/O Pull-Up/Down Resistors for Secret Key Generation in IoT Nodes

Open-Ended Goal Inference through Actions and Language for Human-Robot Collaboration

A Time-efficient Prioritised Scheduling Algorithm to Optimise Initial Flock Formation of Drones

< Category Statistics (Total: 2829) >

Start searching

No results found