Computer Science / NLP

Is Chain-of-Thought Really Not Explainability? Chain-of-Thought Can Be Faithful without Hint Verbalization

📝 Original Info Title: Is Chain-of-Thought Really Not Explainability? Chain-of-Thought Can Be Faithful without Hint Verbalization ArXiv ID: …

February 10, 2026

No Image

LENS: LLM-Enabled Narrative Synthesis for Mental Health by Aligning Multimodal Sensing with Language Models

📝 Original Info Title: LENS: LLM-Enabled Narrative Synthesis for Mental Health by Aligning Multimodal Sensing with Language Models ArXiv ID: …

February 10, 2026

No Image

SirenLess: reveal the intention behind news

📝 Original Info Title: SirenLess: reveal the intention behind news ArXiv ID: 2001.02731 Date: 2020-01-10 Authors: Xumeng Chen, Leo Yu-Ho Lo, …

February 10, 2026

No Image

Selecting Machine-Translated Data for Quick Bootstrapping of a Natural Language Understanding System

📝 Original Info Title: Selecting Machine-Translated Data for Quick Bootstrapping of a Natural Language Understanding System ArXiv ID: …

February 10, 2026

No Image

Text Segmentation based on Semantic Word Embeddings

📝 Original Info Title: Text Segmentation based on Semantic Word Embeddings ArXiv ID: 1503.05543 Date: 2015-03-19 Authors: Alexander A Alemi, …

February 10, 2026

No Image

A Co-Matching Model for Multi-choice Reading Comprehension

📝 Original Info Title: A Co-Matching Model for Multi-choice Reading Comprehension ArXiv ID: 1806.04068 Date: 2018-06-12 Authors: Shuohang …

February 10, 2026

No Image

Learning Multilingual Embeddings for Cross-Lingual Information Retrieval in the Presence of Topically Aligned Corpora

📝 Original Info Title: Learning Multilingual Embeddings for Cross-Lingual Information Retrieval in the Presence of Topically Aligned Corpora …

February 10, 2026

No Image

Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification

📝 Original Info Title: Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification ArXiv ID: 1805.02220 Date: …

February 10, 2026

No Image

Predicting Movie Genres Based on Plot Summaries

📝 Original Info Title: Predicting Movie Genres Based on Plot Summaries ArXiv ID: 1801.04813 Date: 2018-01-16 Authors: Quan Hoang 📝 Abstract …

February 10, 2026

No Image

Survey on Evaluation Methods for Dialogue Systems

📝 Original Info Title: Survey on Evaluation Methods for Dialogue Systems ArXiv ID: 1905.04071 Date: 2020-06-29 Authors: Jan Deriu, Alvaro …

February 10, 2026

No Image

VOnDA: A Framework for Ontology-Based Dialogue Management

📝 Original Info Title: VOnDA: A Framework for Ontology-Based Dialogue Management ArXiv ID: 1910.00340 Date: 2019-10-02 Authors: Bernd Kiefer …

February 10, 2026

No Image

IISCNLP at SemEval-2016 Task 2: Interpretable STS with ILP based Multiple Chunk Aligner

📝 Original Info Title: IISCNLP at SemEval-2016 Task 2: Interpretable STS with ILP based Multiple Chunk Aligner ArXiv ID: 1605.01194 Date: …

February 10, 2026

No Image

Tag-Enhanced Tree-Structured Neural Networks for Implicit Discourse Relation Classification

📝 Original Info Title: Tag-Enhanced Tree-Structured Neural Networks for Implicit Discourse Relation Classification ArXiv ID: 1803.01165 …

February 10, 2026

Contextualized Word Representations for Reading Comprehension

📝 Original Info Title: Contextualized Word Representations for Reading Comprehension ArXiv ID: 1712.03609 Date: 2018-09-05 Authors: Shimi …

February 09, 2026

Social Media Text Processing and Semantic Analysis for Smart Cities

📝 Original Info Title: Social Media Text Processing and Semantic Analysis for Smart Cities ArXiv ID: 1709.03406 Date: 2017-09-12 Authors: …

February 09, 2026

Break Out the Silverware -- Semantic Understanding of Stored Household Items

📝 Original Info Title: Break Out the Silverware – Semantic Understanding of Stored Household Items ArXiv ID: 2512.23739 Date: …

February 09, 2026

Bridging the Data Gap: Creating a Hindi Text Summarization Dataset from the English XSUM

📝 Original Info Title: Bridging the Data Gap: Creating a Hindi Text Summarization Dataset from the English XSUM ArXiv ID: 2601.01543 Date: …

February 09, 2026

ECR: Manifold-Guided Semantic Cues for Compact Language Models

📝 Original Info Title: ECR: Manifold-Guided Semantic Cues for Compact Language Models ArXiv ID: 2601.00543 Date: 2026-01-02 Authors: …

February 09, 2026

Does Memory Need Graphs? A Unified Framework and Empirical Analysis for Long-Term Dialog Memory

📝 Original Info Title: Does Memory Need Graphs? A Unified Framework and Empirical Analysis for Long-Term Dialog Memory ArXiv ID: 2601.01280 …

February 09, 2026

Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

📝 Original Info Title: Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process ArXiv ID: …

February 09, 2026

No Image

pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs

📝 Original Info Title: pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs ArXiv ID: 2601.02285 Date: 2026-01-05 …

February 09, 2026

Surprisal and Metaphor Novelty Judgments: Moderate Correlations and Divergent Scaling Effects Revealed by Corpus-Based and Synthetic Datasets

📝 Original Info Title: Surprisal and Metaphor Novelty Judgments: Moderate Correlations and Divergent Scaling Effects Revealed by …

February 09, 2026

Stylometry Analysis of Human and Machine Text for Academic Integrity

📝 Original Info Title: Stylometry Analysis of Human and Machine Text for Academic Integrity ArXiv ID: 2601.01225 Date: 2026-01-03 Authors: …

February 09, 2026

Intention Collapse: Intention-Level Metrics for Reasoning in Language Models

📝 Original Info Title: Intention Collapse: Intention-Level Metrics for Reasoning in Language Models ArXiv ID: 2601.01011 Date: 2026-01-03 …

February 09, 2026

From Policy to Logic for Efficient and Interpretable Coverage Assessment

📝 Original Info Title: From Policy to Logic for Efficient and Interpretable Coverage Assessment ArXiv ID: 2601.01266 Date: 2026-01-03 …

February 09, 2026

T3C: Test-Time Tensor Compression with Consistency Guarantees

📝 Original Info Title: T3C: Test-Time Tensor Compression with Consistency Guarantees ArXiv ID: 2601.01299 Date: 2026-01-03 Authors: Ismail …

February 09, 2026

Multi-Dimensional Prompt Chaining to Improve Open-Domain Dialogue Generation

📝 Original Info Title: Multi-Dimensional Prompt Chaining to Improve Open-Domain Dialogue Generation ArXiv ID: 2601.01037 Date: 2026-01-03 …

February 09, 2026

No Image

AdaGReS:Adaptive Greedy Context Selection via Redundancy-Aware Scoring for Token-Budgeted RAG

📝 Original Info Title: AdaGReS:Adaptive Greedy Context Selection via Redundancy-Aware Scoring for Token-Budgeted RAG ArXiv ID: 2512.25052 …

February 09, 2026

No Image

AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents

📝 Original Info Title: AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents ArXiv ID: 2512.23343 Date: 2025-12-29 …

February 09, 2026

No Image

BERT-JEPA: Reorganizing CLS Embeddings for Language-Invariant Semantics

📝 Original Info Title: BERT-JEPA: Reorganizing CLS Embeddings for Language-Invariant Semantics ArXiv ID: 2601.00366 Date: 2026-01-01 …

February 09, 2026

No Image

Beyond Perfect APIs: A Comprehensive Evaluation of LLM Agents Under Real-World API Complexity

📝 Original Info Title: Beyond Perfect APIs: A Comprehensive Evaluation of LLM Agents Under Real-World API Complexity ArXiv ID: 2601.00268 …

February 09, 2026

No Image

Big AI is accelerating the metacrisis: What can we do?

📝 Original Info Title: Big AI is accelerating the metacrisis: What can we do? ArXiv ID: 2512.24863 Date: 2025-12-31 Authors: Steven Bird 📝 …

February 09, 2026

No Image

Classifying long legal documents using short random chunks

📝 Original Info Title: Classifying long legal documents using short random chunks ArXiv ID: 2512.24997 Date: 2025-12-31 Authors: Luis Adrián …

February 09, 2026

No Image

Cost-Efficient Cross-Lingual Retrieval-Augmented Generation for Low-Resource Languages: A Case Study in Bengali Agricultural Advisory

📝 Original Info Title: Cost-Efficient Cross-Lingual Retrieval-Augmented Generation for Low-Resource Languages: A Case Study in Bengali …

February 09, 2026

No Image

DeCode: Decoupling Content and Delivery for Medical QA

📝 Original Info Title: DeCode: Decoupling Content and Delivery for Medical QA ArXiv ID: 2601.02123 Date: 2026-01-05 Authors: Po-Jen Ko, …

February 09, 2026

No Image

Defensive M2S: Training Guardrail Models on Compressed Multi-turn Conversations

📝 Original Info Title: Defensive M2S: Training Guardrail Models on Compressed Multi-turn Conversations ArXiv ID: 2601.00454 Date: 2026-01-01 …

February 09, 2026

No Image

Discovering Multi-Scale Semantic Structure in Text Corpora Using Density-Based Trees and LLM Embeddings

📝 Original Info Title: Discovering Multi-Scale Semantic Structure in Text Corpora Using Density-Based Trees and LLM Embeddings ArXiv ID: …

February 09, 2026

No Image

Do Large Language Models Know What They Are Capable Of?

📝 Original Info Title: Do Large Language Models Know What They Are Capable Of? ArXiv ID: 2512.24661 Date: 2025-12-31 Authors: Casey O. …

February 09, 2026

No Image

Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

📝 Original Info Title: Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset ArXiv ID: 2601.00411 …

February 09, 2026

No Image

Emergent Introspective Awareness in Large Language Models

📝 Original Info Title: Emergent Introspective Awareness in Large Language Models ArXiv ID: 2601.01828 Date: 2026-01-05 Authors: Jack Lindsey …

February 09, 2026

No Image

Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements

📝 Original Info Title: Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements ArXiv ID: 2512.24867 Date: 2025-12-31 …

February 09, 2026

No Image

Enriching Historical Records: An OCR and AI-Driven Approach for Database Integration

📝 Original Info Title: Enriching Historical Records: An OCR and AI-Driven Approach for Database Integration ArXiv ID: 2512.23710 Date: …

February 09, 2026

No Image

Entropy-Aware Speculative Decoding Toward Improved LLM Reasoning

📝 Original Info Title: Entropy-Aware Speculative Decoding Toward Improved LLM Reasoning ArXiv ID: 2512.23765 Date: 2025-12-29 Authors: …

February 09, 2026

No Image

Exploring the Performance of Large Language Models on Subjective Span Identification Tasks

📝 Original Info Title: Exploring the Performance of Large Language Models on Subjective Span Identification Tasks ArXiv ID: 2601.00736 Date: …

February 09, 2026

No Image

FormationEval, an open multiple-choice benchmark for petroleum geoscience

📝 Original Info Title: FormationEval, an open multiple-choice benchmark for petroleum geoscience ArXiv ID: 2601.02158 Date: 2026-01-05 …

February 09, 2026

No Image

HarmTransform: Transforming Explicit Harmful Queries into Stealthy via Multi-Agent Debate

📝 Original Info Title: HarmTransform: Transforming Explicit Harmful Queries into Stealthy via Multi-Agent Debate ArXiv ID: 2512.23717 Date: …

February 09, 2026

No Image

Interpretable Safety Alignment via SAE-Constructed Low-Rank Subspace Adaptation

📝 Original Info Title: Interpretable Safety Alignment via SAE-Constructed Low-Rank Subspace Adaptation ArXiv ID: 2512.23260 Date: 2025-12-29 …

February 09, 2026

No Image

JMedEthicBench: A Multi-Turn Conversational Benchmark for Evaluating Medical Safety in Japanese Large Language Models

📝 Original Info Title: JMedEthicBench: A Multi-Turn Conversational Benchmark for Evaluating Medical Safety in Japanese Large Language Models …

February 09, 2026

K-EXAONE Technical Report

📝 Original Info Title: K-EXAONE Technical Report ArXiv ID: 2601.01739 Date: 2026-01-05 Authors: Eunbi Choi, Kibong Choi, Seokhee Hong, …

February 09, 2026

No Image

Language as Mathematical Structure: Examining Semantic Field Theory Against Language Games

📝 Original Info Title: Language as Mathematical Structure: Examining Semantic Field Theory Against Language Games ArXiv ID: 2601.00448 Date: …

February 09, 2026

No Image

Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage

📝 Original Info Title: Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage ArXiv ID: …

February 09, 2026

No Image

mHC: Manifold-Constrained Hyper-Connections

📝 Original Info Title: mHC: Manifold-Constrained Hyper-Connections ArXiv ID: 2512.24880 Date: 2025-12-31 Authors: Zhenda Xie, Yixuan Wei, …

February 09, 2026

No Image

Modeling Language as a Sequence of Thoughts

📝 Original Info Title: Modeling Language as a Sequence of Thoughts ArXiv ID: 2512.25026 Date: 2025-12-31 Authors: Nasim Borazjanizadeh, …

February 09, 2026

No Image

Multilingual Hidden Prompt Injection Attacks on LLM-Based Academic Reviewing

📝 Original Info Title: Multilingual Hidden Prompt Injection Attacks on LLM-Based Academic Reviewing ArXiv ID: 2512.23684 Date: 2025-12-29 …

February 09, 2026

No Image

Not All Needles Are Found: How Fact Distribution and Dont Make It Up Prompts Shape Literal Extraction, Logical Inference, and Hallucination Risks in Long-Context LLMs

📝 Original Info Title: Not All Needles Are Found: How Fact Distribution and Dont Make It Up Prompts Shape Literal Extraction, Logical …

February 09, 2026

No Image

Not too long do read: Evaluating LLM-generated extreme scientific summaries

📝 Original Info Title: Not too long do read: Evaluating LLM-generated extreme scientific summaries ArXiv ID: 2512.23206 Date: 2025-12-29 …

February 09, 2026

No Image

Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation

📝 Original Info Title: Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example …

February 09, 2026

No Image

Practising responsibility: Ethics in NLP as a hands-on course

📝 Original Info Title: Practising responsibility: Ethics in NLP as a hands-on course ArXiv ID: 2512.24825 Date: 2025-12-31 Authors: Malvina …

February 09, 2026

No Image

PrivacyBench: A Conversational Benchmark for Evaluating Privacy in Personalized AI

📝 Original Info Title: PrivacyBench: A Conversational Benchmark for Evaluating Privacy in Personalized AI ArXiv ID: 2512.24848 Date: …

February 09, 2026

No Image

PyBangla at BLP-2025 Task 2: Enhancing Bangla-to-Python Code Generation with Iterative Self-Correction and Multilingual Agents

📝 Original Info Title: PyBangla at BLP-2025 Task 2: Enhancing Bangla-to-Python Code Generation with Iterative Self-Correction and …

February 09, 2026

No Image

R-Debater: Retrieval-Augmented Debate Generation through Argumentative Memory

📝 Original Info Title: R-Debater: Retrieval-Augmented Debate Generation through Argumentative Memory ArXiv ID: 2512.24684 Date: 2025-12-31 …

February 09, 2026

No Image

Reservoir Computing inspired Matrix Multiplication-free Language Model

📝 Original Info Title: Reservoir Computing inspired Matrix Multiplication-free Language Model ArXiv ID: 2512.23145 Date: 2025-12-29 Authors: …

February 09, 2026

No Image

Robust Uncertainty Quantification for Factual Generation of Large Language Models

📝 Original Info Title: Robust Uncertainty Quantification for Factual Generation of Large Language Models ArXiv ID: 2601.00348 Date: …

February 09, 2026

No Image

Routing by Analogy: kNN-Augmented Expert Assignment for Mixture-of-Experts

📝 Original Info Title: Routing by Analogy: kNN-Augmented Expert Assignment for Mixture-of-Experts ArXiv ID: 2601.02144 Date: 2026-01-05 …

February 09, 2026

No Image

Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process

📝 Original Info Title: Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process ArXiv ID: …

February 09, 2026

No Image

STED and Consistency Scoring: A Framework for Evaluating LLM Structured Output Reliability

📝 Original Info Title: STED and Consistency Scoring: A Framework for Evaluating LLM Structured Output Reliability ArXiv ID: 2512.23712 Date: …

February 09, 2026

No Image

Tackling the Inherent Difficulty of Noise Filtering in RAG

📝 Original Info Title: Tackling the Inherent Difficulty of Noise Filtering in RAG ArXiv ID: 2601.01896 Date: 2026-01-05 Authors: Jingyu Liu, …

February 09, 2026

No Image

Understanding and Steering the Cognitive Behaviors of Reasoning Models at Test-Time

📝 Original Info Title: Understanding and Steering the Cognitive Behaviors of Reasoning Models at Test-Time ArXiv ID: 2512.24574 Date: …

February 09, 2026

No Image

When in Doubt, Consult: Expert Debate for Sexism Detection via Confidence-Based Routing

📝 Original Info Title: When in Doubt, Consult: Expert Debate for Sexism Detection via Confidence-Based Routing ArXiv ID: 2512.23732 Date: …

February 09, 2026

Is Chain-of-Thought Really Not Explainability? Chain-of-Thought Can Be Faithful without Hint Verbalization

LENS: LLM-Enabled Narrative Synthesis for Mental Health by Aligning Multimodal Sensing with Language Models

SirenLess: reveal the intention behind news

Selecting Machine-Translated Data for Quick Bootstrapping of a Natural Language Understanding System

Text Segmentation based on Semantic Word Embeddings

A Co-Matching Model for Multi-choice Reading Comprehension

Learning Multilingual Embeddings for Cross-Lingual Information Retrieval in the Presence of Topically Aligned Corpora

Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification

Predicting Movie Genres Based on Plot Summaries

Survey on Evaluation Methods for Dialogue Systems

VOnDA: A Framework for Ontology-Based Dialogue Management

IISCNLP at SemEval-2016 Task 2: Interpretable STS with ILP based Multiple Chunk Aligner

Tag-Enhanced Tree-Structured Neural Networks for Implicit Discourse Relation Classification

Contextualized Word Representations for Reading Comprehension

Social Media Text Processing and Semantic Analysis for Smart Cities

Break Out the Silverware -- Semantic Understanding of Stored Household Items

Bridging the Data Gap: Creating a Hindi Text Summarization Dataset from the English XSUM

ECR: Manifold-Guided Semantic Cues for Compact Language Models

Does Memory Need Graphs? A Unified Framework and Empirical Analysis for Long-Term Dialog Memory

Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs

Surprisal and Metaphor Novelty Judgments: Moderate Correlations and Divergent Scaling Effects Revealed by Corpus-Based and Synthetic Datasets

Stylometry Analysis of Human and Machine Text for Academic Integrity

Intention Collapse: Intention-Level Metrics for Reasoning in Language Models

From Policy to Logic for Efficient and Interpretable Coverage Assessment

T3C: Test-Time Tensor Compression with Consistency Guarantees

Multi-Dimensional Prompt Chaining to Improve Open-Domain Dialogue Generation

AdaGReS:Adaptive Greedy Context Selection via Redundancy-Aware Scoring for Token-Budgeted RAG

AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents

BERT-JEPA: Reorganizing CLS Embeddings for Language-Invariant Semantics

Beyond Perfect APIs: A Comprehensive Evaluation of LLM Agents Under Real-World API Complexity

Big AI is accelerating the metacrisis: What can we do?

Classifying long legal documents using short random chunks

Cost-Efficient Cross-Lingual Retrieval-Augmented Generation for Low-Resource Languages: A Case Study in Bengali Agricultural Advisory

DeCode: Decoupling Content and Delivery for Medical QA

Defensive M2S: Training Guardrail Models on Compressed Multi-turn Conversations

Discovering Multi-Scale Semantic Structure in Text Corpora Using Density-Based Trees and LLM Embeddings

Do Large Language Models Know What They Are Capable Of?

Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset

Emergent Introspective Awareness in Large Language Models

Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements

Enriching Historical Records: An OCR and AI-Driven Approach for Database Integration

Entropy-Aware Speculative Decoding Toward Improved LLM Reasoning

Exploring the Performance of Large Language Models on Subjective Span Identification Tasks

FormationEval, an open multiple-choice benchmark for petroleum geoscience

HarmTransform: Transforming Explicit Harmful Queries into Stealthy via Multi-Agent Debate

Interpretable Safety Alignment via SAE-Constructed Low-Rank Subspace Adaptation

JMedEthicBench: A Multi-Turn Conversational Benchmark for Evaluating Medical Safety in Japanese Large Language Models

K-EXAONE Technical Report

Language as Mathematical Structure: Examining Semantic Field Theory Against Language Games

Lying with Truths: Open-Channel Multi-Agent Collusion for Belief Manipulation via Generative Montage

mHC: Manifold-Constrained Hyper-Connections

Modeling Language as a Sequence of Thoughts

Multilingual Hidden Prompt Injection Attacks on LLM-Based Academic Reviewing

Not All Needles Are Found: How Fact Distribution and Dont Make It Up Prompts Shape Literal Extraction, Logical Inference, and Hallucination Risks in Long-Context LLMs

Not too long do read: Evaluating LLM-generated extreme scientific summaries

Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation

Practising responsibility: Ethics in NLP as a hands-on course

PrivacyBench: A Conversational Benchmark for Evaluating Privacy in Personalized AI

PyBangla at BLP-2025 Task 2: Enhancing Bangla-to-Python Code Generation with Iterative Self-Correction and Multilingual Agents

R-Debater: Retrieval-Augmented Debate Generation through Argumentative Memory

Reservoir Computing inspired Matrix Multiplication-free Language Model

Robust Uncertainty Quantification for Factual Generation of Large Language Models

Routing by Analogy: kNN-Augmented Expert Assignment for Mixture-of-Experts

Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process

STED and Consistency Scoring: A Framework for Evaluating LLM Structured Output Reliability

Tackling the Inherent Difficulty of Noise Filtering in RAG

Understanding and Steering the Cognitive Behaviors of Reasoning Models at Test-Time

When in Doubt, Consult: Expert Debate for Sexism Detection via Confidence-Based Routing

< Category Statistics (Total: 1223) >

Start searching

No results found