NLP

'NLP' 카테고리의 모든 글

총 36개의 글
시간순 정렬
AdaGReS  토큰 예산에 적응하는 중복 고려 스코어링을 통한 선욕적 문맥 선택

AdaGReS 토큰 예산에 적응하는 중복 고려 스코어링을 통한 선욕적 문맥 선택

RAG(Retrieval-Augmented Generation)는 대형 언어 모델(LLM)이 외부 지식을 통합하고, 지식 집약적인 작업 성능을 향상시키는 주요 기술로 발전했습니다. 그러나 RAG 시스템은 검색된 결과의 다양성과 관련성을 균형 있게 유지하는 데 어려움을 겪습니다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 맥락 점수화 및 선택 메커니즘을 제안하고 이를 구현합니다.

paper AI 요약
BERT-JEPA  언어 불변 의미를 위한 CLS 임베딩 재구조화

BERT-JEPA 언어 불변 의미를 위한 CLS 임베딩 재구조화

BERT와 그 후속 모델들은 NLP 작업을 위해 풍부한 임베딩을 생성하는데 사용된다. 하지만 이러한 임베딩은 언어의 진정한 표현을 포착하지 못한다. 이 연구는 BERT를 새로운 학습 아키텍처인 Joint-Embedding Predictive Architectures (JEPA)를 통해 훈련하여, 문장과 정보의 진정한 의미만을 나타내도록 가르치려고 한다. 이를 위해 BERT-JEPA (BEPA)라는 새로운 학습 패러다임을 제시하며, 이는 [CLS ] 임베딩 공간을 재구조화하고 다언어 작업에서 성능을 향상시키며, PCA 표현을 더 포괄적인 형태로 변화시킨다는 결과를 보여준다.

paper AI 요약
Cost-Efficient Cross-Lingual Retrieval-Augmented Generation for Low-Resource Languages  A Case Study in Bengali Agricultural Advisory

Cost-Efficient Cross-Lingual Retrieval-Augmented Generation for Low-Resource Languages A Case Study in Bengali Agricultural Advisory

이 논문은 농업 지식에 대한 접근성을 개선하기 위해 벵골어 사용자를 위한 비용 효율적인 번역 중심의 검색 강화 생성(RAG) 프레임워크를 제안합니다. 이 시스템은 번역 -> 검색 -> 번역의 샌드위치 아키텍처 를 채택하고, 4비트 양자화 오픈 소스 언어 모델을 활용하여 소비자가 구할 수 있는 하드웨어에서 정확한 답변을 생성합니다.

paper AI 요약
JMedEthicBench  일본 의료 대형 언어 모델의 안전성 평가를 위한 다중 대화 벤치마크

JMedEthicBench 일본 의료 대형 언어 모델의 안전성 평가를 위한 다중 대화 벤치마크

이 논문은 JMedEthicBench라는 일본 의료 환경을 위한 다중 대화 안전성 평가 벤치마크를 소개합니다. 이 벤치마크는 67개의 구체적인 임상 시나리오를 포함한 일본 의학협회(JMA) 지침을 바탕으로 하며, 오토메이티드 적대적 공격 전략을 사용하여 모델 안전성의 경계를 탐색합니다. 이 평가 틀은 단일 대화에서 벗어나 복잡한 다중 대화 상황을 고려하며, 이를 통해 의료 AI 모델이 실제 환경에서도 안전하게 작동할 수 있는지 확인합니다.

paper AI 요약
K-EXAONE 기술 보고서

K-EXAONE 기술 보고서

이 기술 보고서는 LG AI Research에서 개발한 대규모 다국어 언어 모델 K-EXAONE을 소개합니다. K-EXAONE은 총 236B의 파라미터를 갖춘 Experts 혼합 구조 위에 구축되어 있으며, 추론 과정에서는 23B의 파라미터가 활성화됩니다. 이 모델은 256K 토큰 컨텍스트 윈도우를 지원하며 한국어, 영어, 스페인어, 독일어, 일본어, 베트남어 등 여섯 가지 언어를 다룹니다. 우리는 K-EXAONE을 종합적인 벤치마크 스위트에 대한 평가에서 논리적 추론 능력, 에이전시 능력, 일반적인 능력, 한국어 전문성 및 다국어 기능을 평가합니다. 이러한 평가를 통해 K-EXAONE은 유사한 크기의 공개 가중치 모델과 비교할 수 있는 성능을 보여줍니다. K-EXAONE은 더 나은 삶을 위한 AI 발전을 목표로 하며, 다양한 산업 및 연구 애플리케이션에 활용될 수 있는 강력한 소유권 AI 기반 모델로서의 위치를 차지하고 있습니다.

paper AI 요약
No Image

Language as Mathematical Structure Examining Semantic Field Theory Against Language Games

대규모 언어 모델(LLMs)이 순수한 수학적 연산을 통해 인간과 비슷한 언어 성능을 달성함으로써, 의미의 주요 이론에 근본적인 도전을 제기하고 있습니다. 사회 구조주의 입장은 언어가 형식적 구조로 축소될 수 없다고 주장하지만, 변환자 구조는 사회적 기반이 없이 체계적인 의미 관계를 발견합니다. 이 논문에서는 이러한 발전을 예측한 작가의 사상에 대해 분석하고, 언어가 내재된 수학적 구조를 가질 수 있다는 주장을 제기합니다.

paper AI 요약
PyBangla at BLP-2025 태스크 2  반복적 자가 수정과 다언어 에이전트를 활용한 벵골어에서 파이썬 코드 생성 강화

PyBangla at BLP-2025 태스크 2 반복적 자가 수정과 다언어 에이전트를 활용한 벵골어에서 파이썬 코드 생성 강화

이 문서는 다양한 스케일에서의 bang 과 그 변형된 버전인 bangsl 및 bangwd 에 대한 내용을 포함하고 있습니다. 각각의 항목은 500부터 시작하여 3000까지 여러 스케일로 나뉘어 있으며, 이는 특정 조건 또는 상황에서의 성능 또는 반응을 나타내는 것 같습니다.

paper AI 요약
R-디베이터  논쟁 메모리를 통한 검색 강화된 토론 생성

R-디베이터 논쟁 메모리를 통한 검색 강화된 토론 생성

R-Debater는 논쟁적 기억을 기반으로 한 다중 턴 토론을 생성하기 위한 에이전시 프레임워크를 제안합니다. 수사학 및 기억 연구에 근거한 이 시스템은 토론을 전략 일관성을 유지하고, 상대방의 주장을 대응하며, 증거로 주장을 뒷받침하기 위해 이전 주장들을 회상하고 적응하는 과정으로 간주합니다. 구체적으로 R-Debater는 사례와 유사한 증거를 검색하고 이전 토론을 움직일 수 있는 토론 지식 베이스를 역할 기반 에이전트와 통합하여 회화의 일관성을 유지하는 발언을 구성합니다. 표준化的的ORCHID辩论被用来进行评估,构建了包含1000个检索语料和涵盖七个领域的32个保留辩论集。评估了两个任务:下一个发言生成,通过InspireScore(主观性、逻辑性和事实性)来评估;以及对抗性的多回合模拟,由Debatrix(论点、来源、语言和总体)进行评判。与强大的基础大模型相比,R-Debater在单轮和多轮评分中都取得了更高的分数。通过20位有经验的辩论者的人类评估进一步证实了其一致性和证据使用情况,表明结合检索基础和结构化规划可以产生更忠实、立场对齐且跨回合连贯的辩论。 注意:根据规则要求,上述翻译为自然韩语,但由于技术限制,在此以中文展示了翻译内容。

paper AI 요약
RAG에서의 노이즈 필터링 본질적 어려움 해결

RAG에서의 노이즈 필터링 본질적 어려움 해결

대형 언어 모델(LLMs)은 다양한 작업에서 놀라운 성능을 보여주지만, 사실적 정보 부족으로 인해 환영(hallucinations)에 시달리고 있으며, 새로운 지식을 통합하기 위해서는 추가적인 세부 조정(fine-tuning)이 필요하다. 이로 인해 LLMs를 외부 검색기와 결합하는 것이 성능 개선에 기여하지만, 실제 문서에서 얻은 정보가 항상 사용할 수 있는 것은 아니며, 때때로 잡음 정보를 포함하고 있어 성능 저하의 원인이 된다. 본 논문에서는 이러한 문제를 해결하기 위한 새로운 세부 조정 방법을 제안한다.

paper AI 요약
T3C  일관성 보장과 함께 테스트 시점 텐서 압축

T3C 일관성 보장과 함께 테스트 시점 텐서 압축

이 논문에서는 T3C라는 예산 조건에 따른 학습-한번/시험 시간 압축 프레임워크를 제안합니다. T3C는 탄력적인 텐서화와 계층별 혼합 정밀도 양자화를 결합하고, 경량화된 정책을 사용하여 구조화된 예산 토큰을 층별 순위/비트 할당으로 매핑합니다. 이 프레임워크는 단일 체크포인트에서 일관되고 하드웨어에 맞춘 정확도-지연-크기 교환 관계를 제공하며, 양자화, 가위내기, 저순위 기준선보다 낮은 꼬리 위험을 줍니다.

paper AI 요약
긴 법적 문서를 짧은 무작위 조각으로 분류하기

긴 법적 문서를 짧은 무작위 조각으로 분류하기

법적 문서 분류는 전문 용어뿐만 아니라 때때로 매우 긴 문서가 될 수 있어挑战组合中的中文被错误地包含进去了。以下是符合要求的日韩翻译: 법적 문서를 분류하는 것은 전문적인 어휘 외에도 종종 매우 긴 문서라는 점에서 과제입니다. 이는 전체 문서를 변형 모델 기반의 분류 모델에 입력하는 것이 불가능하거나 비용이 많이 들거나 느릴 수 있다는 것을 의미합니다. 따라서 본 논문에서는 48개의 임의로 선택된 짧은 조각(max 128 토큰)을 입력으로 사용하는 DeBERTa V3와 LSTM을 기반으로 한 법적 문서 분류기를 제시합니다. 또한 지속 가능한 실행 솔루션인 Temporal을 사용한 배포 파이프라인도 제시하여 신뢰성 있고 견고한 처리 워크플로를 확보할 수 있습니다. 최상의 모델은 가중치 F 점수 0.898을 기록했으며, CPU에서 작동하는 파이프라인의 처리 중앙값 시간은 100개 파일당 498초였습니다.

paper AI 요약
놀라움과 은유 신선도 판단  대규모 데이터 기반 분석을 통한 중등도 상관 및 효과 차이

놀라움과 은유 신선도 판단 대규모 데이터 기반 분석을 통한 중등도 상관 및 효과 차이

최근 언어 모델링의 발전은 전통적인 자연어 처리 시스템에서 어려웠던 언어 창조성 연구에 대한 새로운 관심을 불러일으켰다. 이 논문에서는 기존과 신규 메타포 사이의 차이점을 탐구하고, 언어 모델(LM)을 사용하여 메타포의 창조성을 측정하는 방법을 제안한다. 특히, LM에서 계산된 surprisal 점수와 메타포 창조성 간의 상관관계를 분석하며, 이를 통해 신규 메타포와 기존 메타포 사이의 차이점을 구분할 수 있는 새로운 방법을 제시한다.

paper AI 요약
다차원 프롬프트 체이닝으로 대화 질 끌어올리기

다차원 프롬프트 체이닝으로 대화 질 끌어올리기

대형 언어 모델(LLMs)은 자연어 처리를 혁신적으로 발전시켰지만, 이로 인해 필요한 컴퓨팅 자원이 많이 필요합니다. 본 논문에서는 작은 규모의 언어 모델(SLMs)을 사용하여 대형 모델과 동등한 수준의 대화 품질을 달성하기 위한 새로운 다차원 프롬프트 체이닝 프레임워크를 제안합니다. 이 프레임워크는 생성된 응답의 맥락적 일관성, 자연스러움, 그리고 매력성을 각각 개선하는 세 가지 단계로 구성됩니다.

paper AI 요약
대형 언어 모델의 자각 깨우침

대형 언어 모델의 자각 깨우침

대형 언어 모델에서 내성적 인식의 발현 본 연구는 대형 언어 모델이 그들의 내부 상태에 대해 반성할 수 있는지 조사합니다. 이러한 질문을 단순한 대화만으로는 답변하기 어렵습니다. 진정한 반성이 착각과 구별되기 때문입니다. 여기서 우리는 이 도전 과제를 해결하기 위해 모델의 활성화 상태에 알려진 개념들의 표현을 주입하고, 이러한 조작이 모델의 자기 보고된 상태에 미치는 영향을 측정합니다. 연구 결과, 특정 상황에서는 모델들이 주입된 개념의 존재를 인식하고 정확하게 식별할 수 있음을 발견했습니다. 모델들은 이전 내부 표현을 회상하는 일부 능력을 보여주며, 이를 원문 텍스트 입력과 구분할 수 있습니다. 가장 놀라운 결과는 일부 모델들이 자신의 출력과 인공적인 사전 채우기를 구분하기 위해 이전 의도를 회상하는 능력을 사용한다는 것입니다. 모든 실험에서 가장 우수한 모델인 Claude Opus 4 및 4.1이 일반적으로 최고 수준의 내성적 인식을 보여주지만, 각 모델 간의 경향은 복잡하고 후 훈련 전략에 민감합니다. 마지막으로 우리는 모델들이 명시적으로 자신의 내부 표현을 조절할 수 있는지 탐색했습니다. 결과는 개념에 대해 생각해보라 는 지시나 유인책이 있으면 모델들의 활성화 상태를 조정할 수 있다는 것을 나타냅니다. 전체적으로 우리의 결과는 현재 언어 모델들이 자신들의 내부 상태에 대한 기능적인 반성적 인식을 어느 정도 가지고 있음을 보여줍니다. 그러나 이러한 능력은 오늘날의 모델에서 매우 불안정하고 문맥에 크게 의존하며, 모델의 성능 개선을 통해 계속 발전할 수 있습니다.

paper AI 요약
대형 언어 모델의 주관적 텍스트 영역 식별 능력은?

대형 언어 모델의 주관적 텍스트 영역 식별 능력은?

텍스트 스패닝을 식별하는 것은 NLP의 여러 하류 작업에 중요하며, 이는 모델 설명 가능성에 기여합니다. 대부분의 스패닝 식별 접근 방법은 BERT와 같은 상대적으로 작은 사전 훈련된 언어 모델에 의존하지만, 최근 몇 가지 접근 방식은 대규모 언어 모델(LLMs)을 이 작업에 활용하였습니다. 현재의 연구는 명명된 엔터티 인식(NER)과 같이 명시적인 스패닝 식별에 집중한 반면, 주관적 스패닝 식별과 LLMs를 사용한 감성 기반 분석(ABSA) 작업은 충분히 탐구되지 않았습니다. 본 논문에서는 이 중요한 간극을 메꾸기 위해 세 가지 인기 있는 작업인 감성 분석, 모욕적 언어 식별 및 주장 검증에서 다양한 LLMs의 성능을 평가합니다. 우리는 지시 조정, 상황 학습, 사고 체인 등 여러 가지 LLM 전략을 탐구하였습니다. 우리의 결과는 텍스트 내의 기본적인 관계가 LLMs이 정확한 텍스트 스패닝을 식별하는 데 도움이 된다는 것을 나타냅니다.

paper AI 요약
디코딩  의학적 질의응답에서 내용과 전달 분리하기

디코딩 의학적 질의응답에서 내용과 전달 분리하기

대형 언어 모델(LLMs)은 강력한 의학적 지식을 보유하고 사실적으로 정확한 답변을 생성할 수 있습니다. 그러나 기존의 모델들은 종종 개별 환자의 상황을 고려하지 못해 임상적으로는 맞지만 환자들의 요구와 잘 맞지 않는 답변을 제공하는 경향이 있습니다. 본 연구에서는 DeCode라는 훈련이 필요 없고 모델에 무관한 프레임워크를 소개합니다. 이 프레임워크는 기존 LLMs을 임상 환경에서 상황에 맞는 답변을 생성하도록 조정합니다. 우리는 OpenAI HealthBench, 즉 LLM 응답의 임상적 관련성과 유효성을 평가하기 위해 설계된 포괄적이면서도 어려운 벤치마크를 사용하여 DeCode를 평가했습니다. DeCode는 이전 최고 기록인 28.4%에서 49.8%로 성능을 향상시켰으며, 이는 상대적으로 75%의 개선입니다. 실험 결과는 LLMs의 임상적 질문에 대한 답변 품질을 개선하는 데 DeCode가 효과적임을 시사합니다.

paper AI 요약
매니폴드 제약 하이퍼 커넥션  성능과 안정성 극대화

매니폴드 제약 하이퍼 커넥션 성능과 안정성 극대화

최근 Hyper-Connections(HC)를 비롯한 연구들은 지난 10년 동안 확립된 보편적인 잔차 연결 패러다임을 확장하고, 잔차 스트림의 폭을 넓히고 연결성 패턴을 다양화함으로써 성능 향상을 이뤘습니다. 그러나 이러한 다양화는 본질적으로 잔차 연결에 내재된 항등 맵핑 특성을 침해하여 심각한 학습 불안정과 제약된 확장성을 초래하며, 추가적으로 눈에 띄는 메모리 접근 오버헤드를 발생시킵니다. 이러한 문제들을 해결하기 위해 저희는 Manifold-Constrained Hyper-Connections(mHC)을 제안합니다. mHC는 HC의 잔차 연결 공간을 특정 다양체로 투영하여 항등 맵핑 특성을 복원하고, 효율성 확보를 위한 철저한 인프라 구조 최적화를 포함하는 일반적인 프레임워크입니다. 경험적 실험은 mHC가 대규모 학습을 효과적으로 수행하며 실질적인 성능 향상과 우수한 확장성을 제공함을 보여줍니다. mHC는 HC의 유연하고 실용적인 확장으로서, 구조 설계에 대한 깊이 있는 이해와 기초 모델의 진화를 위한 유망한 방향을 제시할 것으로 예상됩니다.

paper AI 요약
모든 침이 발견되지 않음  사실 분포와 만드려고 하지 말아요 프롬프트가 직설적 추출, 논리적 추론 및 환영 위험에 미치는 영향

모든 침이 발견되지 않음 사실 분포와 만드려고 하지 말아요 프롬프트가 직설적 추출, 논리적 추론 및 환영 위험에 미치는 영향

본 연구는 장문 컨텍스트를 처리하는 대형 언어 모델(LLMs)의 성능을 평가하고, 실제 문서에서 정보 추출과 논리적 추론에 대한 새로운 평가 방법론을 제시한다. 이를 위해 “Needle-in-a-Haystack” 테스트를 확장하여 다양한 정보 분포와 위치를 시뮬레이션하고, 반-구체화(anti-hallucination) 프롬프트의 영향을 분석한다. 실험 결과는 더 긴 컨텍스트가 항상 성능을 개선하지 않는다는 것을 보여주며, 모델 간에 정보 처리 능력이 다르다는 점을 강조한다.

paper AI 요약
No Image

방어적 M2S 압축된 다중 대화로 가드레일 모델 훈련

대규모 언어 모델(Large Language Models, LLMs)은 다양한 작업에서 놀라운 능력을 보여주지만, 악의적인 공격에 대한 취약성이 여전히 심각한 문제입니다. 특히 *다중 대화 턴 자장개(jailbreak)* 공격은 모델을 점진적으로 조작하여 안전 경계를 우회하고 해로운 출력을 유도합니다. 본 논문에서는 이러한 공격에 대한 방어적 대응으로 Multi-turn to Single-turn (M2S) 압축 기법을 이용한 Defensive M2S 훈련 패러다임을 제안합니다. 이 접근법은 다중 대화를 단일 대화로 압축하여 안전 검출 모델의 학습 비용을 획기적으로 줄이며, 동시에 정확도를 유지하거나 향상시킵니다.

paper AI 요약
생각의 흐름으로 언어 모델링

생각의 흐름으로 언어 모델링

Transformer 언어 모델은 언어를 토큰의 시퀀스로 모델링하여 뛰어난 자연스러운 텍스트를 생성할 수 있지만, 주로 표면적 동시 발생 통계에 의존하기 때문에 전체적으로 일관된 잠재 표현을 형성하지 못하며, 이는 관계적 일반화 능력의 부족(역전呚的詛咒), 上下文化錯誤和數據低效等問題。相比之下,認知科學表明,人類理解將語言輸入轉換為緊湊的事件類似表示,這些表示在記憶中持久存在,而逐字形式則是短暫的。受這些發現的啟發,我們提出了思想完形(TG)模型,這是一種遞歸變壓器,它在兩個抽象層次上對語言進行建模:令牌和句子級“思維”狀態。TG 一次生成一个句子,并通过交叉注意力关注先前句子表示的工作记忆。使用共享堆栈的变压器块生成标记和句子表示,并通過單一目標(下一個標記預測損失)進行訓練。通過保留寫入工作內存的句子表示的計算圖,來自未來令牌損失的梯度通過交叉注意流回以優化生成早期句子向量的參數。在擴展實驗中,TG 在數據和參數效率方面始終比匹配的 GPT-2 運行和其他基線有所提高,擴展適配表明 GPT-2 需要約 5-8% 更多的數據和約 33-42% 更多的參數以匹配 TG 的測試損失。TG 也在父親兒子逆轉詛咒探針上的關係方向泛化錯誤中有所減少。

paper AI 요약
실천적 윤리  NLP 교육을 통한 실무 중심 윤리 강의

실천적 윤리 NLP 교육을 통한 실무 중심 윤리 강의

최근 언어 기술의 사회적 영향에 대한 관심이 증가함에 따라 자연언어 처리(NLP) 연구에서 윤리적인 측면을 다루는 교육 커리큘럼이 필요하게 되었다. 본 논문은 그로닝겐 대학교에서 개발된 NLP의 윤리적 측면 이라는 강좌를 소개한다. 이 강좌는 NLP 연구 및 적용에 있어 중요한 윤리적인 문제들을 다루며, 학생들이 이러한 문제들에 대해 이해하고 이를 사회적으로 다양한 관객에게 효과적으로 전달할 수 있는 능력을 기르도록 설계되었다.

paper AI 요약
완벽한 API를 넘어  실세계 API 복잡성 하에서의 대형 언어 모델 에이전트 종합 평가

완벽한 API를 넘어 실세계 API 복잡성 하에서의 대형 언어 모델 에이전트 종합 평가

이 논문은 대형 언어 모델(Large Language Model, LLM) 에이전트가 실제 API 복잡성 하에서 외부 함수를 호출하는 능력을 평가하기 위한 새로운 벤치마크인 WildAgtEval을 제안합니다. 이 벤치마크는 8개의 주요 API 복잡성 유형에 기반하며, 각 유형은 실제 월드에서 자주 발생하는 복잡성을 반영합니다. 실험 결과, LLM 에이전트는 특히 무관한 정보와 같은 복잡성 하에서 성능이 크게 저하됨을 보여줍니다.

paper AI 요약
유사 사례 기반 전문가 할당을 활용한 MoE 라우팅 방법

유사 사례 기반 전문가 할당을 활용한 MoE 라우팅 방법

혼합 전문가(MoE) 아키텍처는 파라미터화된 루터 를 사용하여 토큰을 희소한 부분의 전문가에게 분배함으로써 대형 언어 모델을 효율적으로 확장합니다. 일반적으로 이 루터는 한 번 학습하고 얼리기 때문에, 분포 변화에 대한 루팅 결정이 취약해집니다. 저희는 kNN-MoE를 통해 이러한 제한점을 해결하였습니다. 이는 유사한 과거 사례의 메모리를 재활용하여 최적의 전문가 할당을 다시 사용하는 검색 강화된 루팅 프레임워크입니다. 이 메모리는 참조 세트에서 확률을 최대화하기 위해 토큰 단위 루팅 로짓을 직접 최적화함으로써 오프라인에서 구성됩니다. 특히, 저희는 검색된 이웃의 집합 유사성을 신뢰도를 기반으로 한 혼합 계수로 사용하여 관련 사례가 발견되지 않을 경우 얼린 루터로 되돌아갈 수 있도록 허용합니다. 실험 결과 kNN-MoE는 제로샷 베이스라인을 능가하고 계산적으로 비싼 감독 학습 조정과 견줄 만큼의 성능을 보여줍니다.

paper AI 요약
의도 붕괴  언어 모델의 추론을 위한 의도 수준 지표

의도 붕괴 언어 모델의 추론을 위한 의도 수준 지표

본 논문은 대형 언어 모델(Large Language Models, LLMs)의 의사결정 과정에서 생성되기 전의 내부 상태인 intention state 를 분석하고자 한다. 이를 통해 체인 오브 씽크(Chain-of-Thought), 자가 학습 추론 등 다양한 추론 기법이 모델의 내부 상태에 어떤 영향을 미치는지 이해한다. 또한, 이러한 내부 상태를 정량화하기 위한 세 가지 지표(의도 엔트로피, 효과적 차원성, 잠재적 정보 복구 가능성)를 제안하고 이를 다양한 모델과 벤치마크에 적용하여 실험적으로 검증한다.

paper AI 요약
진실로 속이는 함정

진실로 속이는 함정

대형 언어 모델(LLMs)은 복잡한 추론과 정보 통합을 수행할 수 있는 자율 에이전트의 인지 핵심으로 진화했습니다. 그러나 이러한 모델들이 인간과 더 가까워짐에 따라, *담론의 일관성*이라는 중요한 취약점을 물려받게 됩니다. 이 취약점은 LLMs가 편파적인 해석을 생성하는 데 사용되며, 특히 정보 집약적 환경에서 이러한 문제는 더욱 심각해집니다. 본 논문에서는 이 취약점을 이용한 인지 협응 공격(Cognitive Collusion Attack)을 제안하고, 이를 수행하기 위한 새로운 프레임워크인 **Generative Montage**를 소개합니다.

paper AI 요약
테스트 시점의 추론 모델 인지 행동 이해 및 조정

테스트 시점의 추론 모델 인지 행동 이해 및 조정

최근 강화 학습(RL) 기반 훈련을 통해 대형 언어 모델(LLM)의 추론 능력이 크게 향상되었지만, 이들 모델은 여전히 비효율적인 사고 과정을 보일 때가 많다. 본 논문에서는 인지 행동을 추적하고 조절할 수 있는 특정 주의 머리들이 있다는 가설을 제시하고, 이를 통해 CREST 라는 훈련 없이 추론 중에 사고 패턴을 수정하는 프레임워크를 소개한다. CREST는 모델 내부에서 인지 행동을 조절할 수 있는 주의 머리들을 찾아내고, 테스트 시간에 이들 머리들의 활성화를 조작하여 모델의 사고 경로를 유도한다.

paper AI 요약
프라이버시벤치  개인화된 AI의 개인정보 보호 평가를 위한 대화형 벤치마크

프라이버시벤치 개인화된 AI의 개인정보 보호 평가를 위한 대화형 벤치마크

본 논문에서는 개인화된 AI 보조 도구의 개인정보 보호 문제를 다룬다. 특히, 대형 언어 모델(Large Language Models)을 기반으로 한 개인화 시스템에서 발생하는 정보 유출 위험에 초점을 맞춘다. 이를 위해 PrivacyBench 라는 새로운 평가 프레임워크를 제안하고, 실제 상호작용에서 개인정보 보호의 중요성을 강조한다.

paper AI 요약
학술위장의 숨겨진 진실 풀어내기

학술위장의 숨겨진 진실 풀어내기

최근 인공지능(AI) 기술의 발전에 따라 생성형 AI와 그 응용 분야에 대한 관심이 증가하고 있습니다. 이로 인해 다양한 AI 기반 콘텐츠/텍스트 생성 도구들이 개발되었습니다. 하지만 이러한 도구들은 비윤리적으로 사용될 경우 교육 목표 달성에 악영향을 끼칠 수 있으며, 공공 안전과 정부의 신뢰에도 영향을 줄 수 있습니다. 본 논문에서는 AI 기반 텍스트 생성 도구를 감지하고 분석하기 위한 스타일로미트리(stylometry) 방법론을 제안합니다. 이 방법론은 단일 저자와 다중 저자가 작성한 문서를 구분하거나, AI가 생성한 텍스트와 인간이 생성한 텍스트를 구별하는 등의 작업에 활용될 수 있습니다.

paper AI 요약
형성평가, 석유 지질학을 위한 공개 선택식 문제은행

형성평가, 석유 지질학을 위한 공개 선택식 문제은행

대형 언어 모델(LLMs)이 과학 및 공학 분야의 전문적인 작업에 점점 더 많이 적용되고 있지만, 이러한 모델들이 특정 분야에서 얼마나 효과적으로 작동하는지 평가하기는 여전히 어려움이 있습니다. 일반적인 벤치마크인 MMLU는 광범위한 지식을 다루지만 전문 분야에 대한 집중적 평가는 제한적입니다. 석유 지질학과 지하시공 엔지니어링(심화 측정 물리학, 유전 특성화, 지질 해석 등 이해가 필요한 분야)에서 공개적으로 이용 가능한 벤치마크는 여전히 제한적입니다. 이 연구는 FormationEval이라는 505문항의 다중 선택형 질문 벤치마크를 통해 이러한 간극을 메우며, 이 벤치마크는 페트로물리학, 석유 지질학, 지구 물리학, 유전 공학, 침적학, 심층 공학 및 생산 공학 등 7개 영역을 다룹니다. 질문은 권위 있는 교과서와 개방형 강의 자료를 기반으로 개념 중심 방식을 사용하여 작성되며, 이는 문구 인식이 아닌 이해도를 테스트하며 저작권 제약을 준수합니다. 주요 기여는 다음과 같습니다 1) 기술적 출처에서 다중 선택형 질문(MCQs) 생성 방법론; 2) 출처 메타데이터와 오염 위험 레이블이 포함된 정제 데이터 세트; 그리고 3) 여러 제공업체의 72개 언어 모델에 대한 평가, 이를 통해 도메인과 난이도 수준별 성능 패턴을 파악할 수 있습니다.

paper AI 요약
힌디어 요약 데이터셋을 자동으로

힌디어 요약 데이터셋을 자동으로

자연어 처리(NLP)와 기계 학습(ML) 기술의 발전은 주로 자원이 풍부한 언어, 특히 영어에 집중되어왔다. 이는 힌디어 같은 저자원 언어에서 데이터셋의 부족과 질적 불균형을 초래했다. 특히 텍스트 요약이라는 전문 작업에서는 이러한 간극이 더욱 두드러진다. 텍스트 요약은 긴 문서를 짧고 정보적인 요약으로 압축하는 중요한 NLP 응용 분야이다. 텍스트 요약 모델의 개발은 광범위하고 다양한 데이터셋에 크게 의존하지만, 저자원 언어에서는 이러한 데이터셋이 부족하여 다양한 언어 환경에서의 발전을 방해한다. 본 연구는 힌디어를 위한 포괄적인 텍스트 요약 데이터셋 개발뿐만 아니라 저자원 언어용 자동화된 데이터셋 생성 방법론을 제안한다. 이 방법은 고급 번역 및 언어적 적응 기법과 Crosslingual Optimized Metric for Evaluation of Translation (COMET)를 활용하여 번역의 정확성과 문맥적 관련성을 보장하는 것을 특징으로 한다. 제안된 힌디어 데이터셋은 XSUM의 강력한 번역 버전으로, 다양한 주제와 쓰기 스타일을 반영하고 있다. 이를 통해 힌디어 텍스트 요약 연구를 진흥시키고, 언어 간 NLP 도전 과제에 대한 보다 광범위한 이해를 제공한다. 이 데이터셋은 원본 XSUM과 같은 다양성을 유지하면서 다양한 텍스트 복잡성 및 주제를 반영하고 있다. 결론적으로, 영어 XSUM을 기반으로 한 힌디어 텍스트 요약 데이터셋의 생성은 NLP 연구와 응용 분야에서 비용을 절감함으로써 민주화에 중요한 단계를 이룬다. 이로 인해 저자원 언어에 대한 더 세밀하고 문화적으로 관련성이 높은 NLP 모델이 개발되며, 특히 기존에 계산 언어학에서 소홀히 대했던 언어들에 대한 텍스트 요약 연구가 활성화된다. ###

paper AI 요약

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키