Computer Science / Machine Learning

'Computer Science / Machine Learning' 카테고리의 모든 글

총 116개의 글
시간순 정렬
무한히 넓은 신경망에서의 정확한 계산에 관하여

무한히 넓은 신경망에서의 정확한 계산에 관하여

본 논문은 신경망을 훈련하는 동안 가중치 행렬이 초기화된 상태에서 크게 변하지 않는다는 것을 보여줍니다. 또한, 이 가중치의 작은 변화에도 불구하고 신경망은 여전히 빠른 수렴 속도를 유지한다는 사실을 입증합니다. 이러한 결과는 네트워크가 훈련 중에 원래 구조와 비슷하게 유지됨을 의미하며, 이를 통해 초기화된 가중치 행렬이 최적의 해에 근접하도록 훈련하는 것이 가능함을 시사합니다. ###

paper AI 요약
해석 가능성에서 추론까지  보편적 근사기의 추정 프레임워크

해석 가능성에서 추론까지 보편적 근사기의 추정 프레임워크

우리는 보편적 근사기의 넓은 범주에서 추정과 추론을 위한 새로운 프레임워크를 제시합니다. 추정은 모델 예측값을 Shapley 값으로 분해하는 것을 기반으로 합니다. 추론은 개별 Shapley 구성 요소의 편향 및 분산 특성을 분석함으로써 이루어집니다. 우리는 Shapley 값 추정이 점근적으로 편향되지 않음을 보여주며, 잡음만 있는 데이터에서 진짜 데이터 생성 과정을 파악하기 위한 도구로 Shapley 회귀를 소개합니다. 모델이 매개변수에 대해 선형일 경우, 잘 알려진 선형 회귀의 경우에는 이 프레임워크의 특별한 사례입니다. 우리는 이 연구에서 이질적인 처리 효과 추정을 안내 예제로 하여 이론적, 수치적, 실증적 결과를 제시합니다.

paper AI 요약
딥 생성 모델을 사용한 근사 쿼리 처리

딥 생성 모델을 사용한 근사 쿼리 처리

데이터 생성 속도가 분석 능력을 뛰어넘는 시대에 접어들었습니다. 데이터베이스 커뮤니티에서는 정확한 결과를 계산하는데 필요한 시간의 일부분만으로 근사적인 결과를 제공할 수 있는 새로운 기법을 개척해 왔습니다. 이 논문에서는 딥러닝(DL)을 활용하여 대규모 데이터 탐색 및 시각화와 같은 상호작용형 응용 프로그램에서 집계 쿼리를 처리하는 방법을 탐구합니다. 우리는 딥 생성 모델이라는 비지도 학습 기반 접근법을 사용해 실제 데이터 분포를 충실히 배우고, 이를 통해 학습된 모델로부터 샘플을 생성하여 근사적인 집계 쿼리를 처리합니다. 이 모델은 보통 몇 백 KB에 불과하기 때문에 임의의 AQP 쿼리가 데이터베이스 서버와 통신 없이 클라이언트 측에서 수행될 수 있습니다. 우리의 또 다른 기여는 모델 편향을 식별하고 이를 거부 샘플링 기반 접근법으로 최소화하며, AQP를 위한 모델 연합을 구축하는 알고리즘입니다. 광범위한 실험 결과 우리 제안 방식은 높은 정확도와 낮은 지연 시간을 제공함이 입증되었습니다.

paper AI 요약
통신 효율적인 연방 딥러닝  비동기 모델 업데이트와 시간 가중치 결합 기법

통신 효율적인 연방 딥러닝 비동기 모델 업데이트와 시간 가중치 결합 기법

연방 학습(federated learning)은 클라이언트에서 로컬로 훈련된 모델을 집계하여 서버에 중앙 모델을 얻습니다. 결과적으로, 연방 학습은 클라이언트가 데이터를 서버에 업로드할 필요가 없기 때문에 클라이언트의 데이터 프라이버시를 보호합니다. 연방 학습에서의 한 가지 과제는 끝 장치가 일반적으로 매우 제한적인 통신 대역폭을 가지고 있기 때문에 클라이언트-서버 간의 통신량을 줄이는 것입니다. 이 논문은 서버에서 로컬 모델들의 시간 가중 합성(temporally weighted aggregation)을 사용하는 동기화된 학습 전략을 제안함으로써 강화된 연방 학습 기술을 제시합니다. 비동기 학습 전략에서는 깊은 신경망의 다양한 층이 얕은 층과 깊은 층으로 분류되며, 깊은 층의 매개변수는 얕은 층에 비해 덜 자주 업데이트됩니다. 또한 서버에서는 이전에 훈련된 로컬 모델을 활용하는 시간 가중 합성 전략이 도입되어 중앙 모델의 정확도와 수렴성을 강화합니다. 제안된 알고리즘은 두 가지 데이터셋과 다양한 깊은 신경망에서 경험적으로 평가되었습니다. 우리의 결과는 비동기 연방 딥 러닝이 통신 비용과 모델 정확성 측면에서 기준 알고리즘보다 우수하다는 것을 보여줍니다.

paper AI 요약
컨볼루션 신경망을 이용한 AI 기반 순례자 감지

컨볼루션 신경망을 이용한 AI 기반 순례자 감지

순례는 세계에서 가장 중요한 이슬람 종교 행사로, 수백만 명의 순례자들이 마카하와 메디나의 거룩한 장소를 방문하여 의식을 수행합니다. 정부 당국은 순례자들의 안전과 보안이 최우선 과제입니다. 마카하는 5000대의 카메라로 둘러싸여 순례자를 모니터링하고 있지만, 매초 수집되는 방대한 양의 이미지를 인공적으로 추적하기는 사실상 불가능합니다. 이 문제를 해결하기 위해 우리는 딥러닝과 컨볼루션 신경망을 기반으로 한 인공지능 기술을 사용하여 순례자와 그 특징을 감지하고 식별하는 방법을 제안합니다. 이를 위해 우리는 순례자의 검출 및 성별 분류를 위한 포괄적인 데이터셋을 구축했습니다. 그런 다음, YOLOv3와 Faster-RCNN을 기반으로 한 두 개의 컨볼루션 신경망을 개발하여 순례자를 감지했습니다. 실험 결과는 모든 클래스에 대한 평균 정밀도에서 Inception v2 특징 추출기로 구성된 Faster RCNN이 가장 높은 51%의 성능을 보였습니다.

paper AI 요약
토마스 샘플링을 이용한 공급측 플랫폼의 헤더 비딩 전략 최적화

토마스 샘플링을 이용한 공급측 플랫폼의 헤더 비딩 전략 최적화

지난 10년 동안 디지털 미디어(웹 또는 앱 출판자)는 실시간 광고 경매를 사용하여 광고 공간을 판매하는 것을 일반화했습니다. 여러 경매 플랫폼인 공급 측면 플랫폼(SSP)이 생성되었습니다. 이러한 다수성으로 인해 출판자는 SSP들 간의 경쟁을 만들기 시작했습니다. 이 설정에서는 두 가지 연속적인 경매가 진행됩니다 각 SSP에서 제2 가격 경매와 SSP들 사이에서 이루어지는 제1 가격 경매인 헤더 입찰 경매입니다. 본 논문에서는 다른 SSP들과 경쟁하는 하나의 SSP를 고려합니다. 이 SSP는 광고주가 광고 공간을 구매하고자 할 때 중개자의 역할을 하며, 출판자가 광고 공간을 판매하길 원할 때도 마찬가지입니다. 그리고 광고주의 요구에 맞게 최대한 많은 광고를 전달하면서 최소한의 비용으로 경매에 참여하기 위한 입찰 전략을 정의해야 합니다. 이 SSP의 수익 최적화는 컨텍스트 밴딧 문제로 표현될 수 있으며, 컨텍스트에는 광고 기회에 대한 정보가 포함됩니다. 예를 들어 인터넷 사용자 또는 광고 배치 속성과 같은 정보입니다. 클래식한 다중 팔레트 밴딧 전략(UCB와 EXP3의 원본 버전을 포함)은 이 설정에서 효과적이지 않으며, 수렴 속도가 낮습니다. 본 논문에서는 이러한 상관관계를 쉽게 고려할 수 있는 Thompson Sampling 알고리즘의 변형을 설계하고 실험합니다. 이 베이지안 알고리즘과 입자 필터를 결합하여 비정상성을 다룰 수 있습니다. 이를 통해 경매에서 승리하기 위해 극대화해야 하는 최고 입찰 가격의 분포를 순차적으로 추정할 수 있습니다. 우리는 이 방법론을 두 개의 실제 경매 데이터셋에 적용하고, 더 전통적인 접근법보다 크게 우수함을 보여줍니다. 본 논문에서 정의된 전략은 전 세계 수천 명의 출판자에게 배포될 계획입니다.

paper AI 요약
메트릭 제약 최적화를 위한 평행 투영 방법

메트릭 제약 최적화를 위한 평행 투영 방법

기계 학습과 데이터 마이닝의 많은 클러스터링 응용 프로그램은 메트릭 제약 최적화 문제를 해결하는 데 의존하고 있습니다. 이러한 문제는 큰 데이터셋에서 n 개체에 대한 거리 변수 간 삼각 부등식을 강제하는 O(n^3)의 제약 조건으로 특징지어집니다. 이 방법은 유용하지만, 세제곱 수준의 제약 조건과 표준 최적화 소프트웨어의 높은 메모리 요구 사항 때문에 실제 사용에서 어려움이 따릅니다. 최근 연구에서는 반복적인 투영법을 통해 이전보다 더 큰 규모의 문제를 해결할 수 있음을 보여주었지만, 이러한 방법의 주요 제한점은 느린 수렴 속도입니다. 본 논문에서는 메트릭 제약 최적화에 대한 병렬 투영 방법을 제시하여 실제 사용에서 수렴 속도를 높였습니다. 우리의 접근 방식의 핵심은 여러 메트릭 제약 조건에 대해 동시에 투영을 수행할 수 있도록 하는 새로운 병렬 실행 스케줄입니다. 우리는 상관 클러스터링 문제의 메트릭 제약 선형 계획법 이완을 해결하는 데 이러한 실행 스케줄을 구현하고 실험한 결과를 보여줍니다. 실험에서는 2.9조 개의 제약 조건을 포함하는 문제에 대한 다양한 실험적 결과가 나왔습니다.

paper AI 요약
대규모 교통 신호 제어를 위한 새로운 다중 에이전트 강화 학습 방법 연구

대규모 교통 신호 제어를 위한 새로운 다중 에이전트 강화 학습 방법 연구

대규모 교통 신호 제어(TSC) 문제에서 최적의 신호 타이밍 전략을 찾는 것은 어려운 과제이다. 다중 에이전트 강화 학습(MARL)은 이 문제를 해결하는 유망한 방법으로 꼽힌다. 그러나 대규모 문제로 확장하고 각 개별 에이전트의 다른 에이전트들의 행동을 모델링하는 데 여전히 개선의 여지가 있다. 본 논문에서는 새로운 MARL, 즉 협력적 이중 Q-학습(Co-DQL)을 제안한다. Co-DQL은 몇 가지 주목할 만한 특징이 있다. 이는 이중 추정기와 UCB 정책을 기반으로 하는 매우 확장 가능한 독립 이중 Q-학습 방법을 사용하여 전통적인 독립 Q-학습에 존재하는 과도한 추정 문제를 제거하면서 탐사를 보장한다. 또한 에이전트 간의 상호작용을 모델링하기 위해 평균 필드 근사법을 사용하여 에이전트가 더 나은 협력 전략을 학습하도록 한다. 학습 과정의 안정성과 견고성을 향상시키기 위해 새로운 보상 할당 메커니즘과 지역 상태 공유 방법을 도입한다. 또한 제안된 알고리즘의 수렴 특성을 분석한다. Co-DQL은 TSC에 적용되고 여러 교통 신호 시뮬레이터에서 테스트된다. 몇 가지 교통 상황에서 얻어진 결과에 따르면, Co-DQL이 여러 최신 분산형 MARL 알고리즘을 능가한다. 전체 도로 시스템 내의 차량들의 평균 대기 시간을 효과적으로 단축할 수 있다.

paper AI 요약
No Image

인터넷-of-Things을 위한 분산 딥 컨볼루션 뉴럴 네트워크

사물인터넷(IoT) 단위의 메모리와 계산에 대한 심각한 제약은 일반적으로 대규모 메모리와 높은 처리 부하를 요구하는 딥러닝(DL)-기반 솔루션의 실행을 방해할 수 있습니다. 고려된 DL 모델의 실시간 실행을 지원하기 위해서는 IoT 단위에 대한 메모리 및 처리 능력 제약 조건을 염두에 두고 디자인되어야 합니다. 본 논문에서는 분산형 IoT 애플리케이션에서 컨볼루셔널 신경망(CNNs)의 실행을 할당하는 방법론을 소개합니다. 이러한 방법론은 데이터 수집 단계와 그 이후의 의사결정 단계 사이의 지연 시간을 최소화하면서 주어진 메모리 및 처리 부하 제약 조건 내에서 최적화 문제로 정식화됩니다. 이 방법론은 동일한 IoT 시스템에서 여러 소스의 데이터뿐만 아니라 여러 개의 CNNs를 실행하는 것을 지원하여 자율성, 낮은 의사결정 지연 시간, 높은 서비스 품질을 요구하는 CNN 기반 애플리케이션을 설계할 수 있습니다.

paper AI 요약
분산 가설 검정과 비베이지안 학습을 위한 새로운 접근법  개선된 학습 속도와 바이잔틴 내성

분산 가설 검정과 비베이지안 학습을 위한 새로운 접근법 개선된 학습 속도와 바이잔틴 내성

우리는 각각 부분적으로 정보가 있는 개인적인 신호를 받는 에이전트 그룹이 공동으로 학습하려고 하는 상황을 연구합니다. 이들은 세계의 진정한 기본 상태(유한 가설 집합 중 하나)를 찾아내려 합니다. 이를 해결하기 위해, 우리는 기존 접근법과 근본적으로 다른 분산 학습 규칙을 제안합니다. 기존 방식에서 사용되는 믿음 평균화 를 쓰지 않고, 에이전트는 믿음을 갱신하는 데 min-규칙을 사용합니다. 관찰 모델과 네트워크 구조에 대한 표준 가정 하에서 각 에이전트가 거의 확실히 진실을 학습한다는 것을 증명했습니다. 주요 기여로, 우리는 모든 잘못된 가설이 각 에이전트에 의해 지수적으로 빠르게, 네트워크 독립적인 비율로 배제됨을 확률 1에서 증명합니다. 또한, 우리가 개발한 학습 규칙의 계산 효율적인 변형은 예상치 못하게 행동하거나 정보를 왜곡하려는 에이전트(바이잔틴 적대자 모델로 표현)에 대해 증명적으로 견고하다는 것을 보여줍니다.

paper AI 요약
복잡한 실외 환경에서 자율 무인항공기 비행 제어를 위한 다중 작업 회귀 기반 학습 방법

복잡한 실외 환경에서 자율 무인항공기 비행 제어를 위한 다중 작업 회귀 기반 학습 방법

전 세계 드론 산업의 증가로 완전 자율 비행 드론의 가능성도 확대되었다. 본 논문은 특히 불규칙한 야외 환경에서 넓은 지역을 탐색하고 감시하는 작업에 사용되는 드론의 활용을 중심으로 연구를 진행했다. 이러한 환경의 주요 문제는 도로선이나 길 같은 구조화된 특징이 자율 비행을 돕지 못한다는 것이다. 본 논문에서는 End-to-End Multi-Task Regression-based Learning 접근법을 제안하여, GPS와 같은 추가 센서 없이 숲 아래에서 탐색과 항해를 위한 비행 명령을 정의할 수 있도록 하였다. 훈련 및 검증은 소프트웨어 인 루프 파이프라인을 사용하여 수행되며, 이는 최신 위치 추정 기법에 대한 상세한 평가를 가능하게 한다. 우리의 실험 결과는 제안된 접근법이 요구되는 탐색 범위 내에서 밀도 있는 탐사를 수행하고 더 넓은 탐색 영역을 커버하며, 이전에 보지 못했던 환경에도 일반화할 수 있고 현존하는 최고의 기술보다 우수하다는 것을 입증한다.

paper AI 요약
분산식 확률적 최적화와 그래디언트 추적 소개

분산식 확률적 최적화와 그래디언트 추적 소개

분산된 합 최소화에 대한 분산 해법은 많은 신호 처리, 제어 및 머신 러닝 애플리케이션에서 중요한 역할을 합니다. 이러한 환경에서는 데이터가 임의로 연결된 노드 네트워크에 분포되어 있으며 통신이나 개인 정보 보호 문제 때문에 원시 데이터 공유가 불가능한 경우가 많습니다. 본 논문에서는 분산 стоха스틱 최적화 방법을 검토하고 최근 개선 사항을 기반으로 그라디언트 추적 및 변동 감소에 초점을 맞추어 부드럽고 강하게 볼록한 목적 함수를 설명합니다. 주요 기술적인 아이디어의 직관적인 설명과 분산 머신 러닝 모델 학습에서 알고리즘의 활용 사례도 제공합니다.

paper AI 요약
아날로그 NVM 크로스바에 배포를 위한 DNN IoT 애플리케이션 훈련

아날로그 NVM 크로스바에 배포를 위한 DNN IoT 애플리케이션 훈련

에너지 효율성, 보안 및 프라이버시에 대한 추세는 최근 딥러닝 네트워크(DNNs)를 마이크로컨트롤러에 배포하는 데 초점을 맞추게 되었습니다. 그러나 계산 및 메모리 자원의 제약으로 인해 이러한 시스템에서 배포 가능한 ML 모델의 크기와 복잡성이 제한됩니다. 저항성 비휘발성 메모리(NVM) 기술을 기반으로 하는 컴퓨테이션-인-메모리(CIM) 아키텍처는 현대 DNN에 내재된 고성능 및 저전력 요구사항을 충족시키는 데 큰 희망을 제공합니다. 그러나 이러한 기술들은 여전히 미숙하고, 본질적인 아날로그 영역 노이즈 문제와 NVM 구조에서 음수 가중치를 표현할 수 없는 문제가 있습니다. 이로 인해 크로스바의 크기가 커지고, ADC와 DAC에 부정적 영향을 미칩니다. 본 논문에서는 이러한 과제들을 해결하기 위한 훈련 프레임워크를 제공하고 회로 수준에서 얻어진 효율성 증가를 정량적으로 평가합니다. 두 가지 기여를 제안합니다 첫째, 개별 DNN 계층의 튜닝을 필요로 하지 않는 훈련 알고리즘으로 각 계층의 가중치와 활성화에 일관성을 보장하여 아날로그 블록 재사용과 주변 하드웨어를 크게 줄입니다. 둘째, NAS 방법론을 사용하여 단극 가중치(모두 양수 또는 모두 음수) 행렬/서브행렬의 사용을 제안합니다. 가중치 단극성은 크로스바 영역을 두 배로 늘릴 필요를 없애고 아날로그 주변 장비를 간소화합니다. CIFAR10과 HAR 애플리케이션에 대한 검증 결과, 4비트 및 2비트 장치를 사용하여 크로스바로 매핑했을 때 95%의 부동소수점 정확도에서 2비트 양수 가중치만으로 92.91%의 정확도를 달성했습니다. 제안된 기법의 조합은 80%의 면적 개선과 최대 45%의 에너지 감소를 가져왔습니다.

paper AI 요약
내 감정을 느끼다  게임에서의 이론적 마음 실험

내 감정을 느끼다 게임에서의 이론적 마음 실험

이 연구에서는 게임 플레이어의 이론적 마음 상태와 에이전트의 행동, 그리고 플레이어 자신의 성능과 감정이 어떤 스트레스 반응을 인식하는 데 어떻게 영향을 미치는지 조사했습니다. 특히 인간-컴퓨터 상호작용에서 일반적인 감정 경험인 스트레스 반응에 초점을 맞추었습니다. 이를 위해 플레이어가 경쟁하는 에이전트의 스트레스 모델을 기반으로 한 게임 테스트베드를 만들었고, 플레이어의 성능 데이터와 에이전트의 스트레스 인식에 대한 주석을 수집했습니다. 또한 얼굴 인식을 사용하여 플레이어 감정 상태를 추정하였습니다. 수집된 데이터는 상관분석과 예측 기계 학습 모델을 통해 분석되었으며, 결과적으로 플레이어의 관찰 가능한 감정이 에이전트의 스트레스 인식과 높은 상관관계가 없음을 발견했습니다. 이는 주제에 대한 우리의 이론적 마음 상태가 게임플레이 맥락을 기반으로 하는 인지 과정이라는 것을 시사합니다. 예측 모델을 사용한 결과, 플레이어의 이론적 마음 상태를 중등도로 정확하게 예측할 수 있음을 확인했습니다.

paper AI 요약
다중모달 기능 최대 상관성을 이용한 감정 인식

다중모달 기능 최대 상관성을 이용한 감정 인식

감정 상태는 중추신경계와 자율신경계를 통해 일관되지만 다양한 생리 반응으로 나타나며, 이는 감성 컴퓨팅 분야에서 다중 모달 표현 학습에 근본적인 도전 과제를 제공합니다. 이러한 공동 동적을 학습하는 것은 감정 주석의 부족과 주관성이 더욱 복잡하게 만듭니다. 이를 해결하기 위해 자가 지도 학습(SSL)이 사용되지만, 대부분의 기존 SSL 접근법은 두 가지 모달 사이의 쌍방향 정렬 목표에 의존하여 세 개 이상의 모달 간 의존성을 설명하거나 조정된 뇌와 자율 반응에서 발생하는 고차원 상호작용을 포착하지 못합니다. 이를 해결하기 위해 우리는 다중 모달 기능 최대 상관(MFMC)을 제안합니다. 이는 쌍방향 대조 손실에 의존하지 않고 직접적인 공동 다중 모달 상호 작용을 포착하는 듀얼 총 상관(DTC) 목표를 통해 고차원 다중 모달 종속성을 최대화하는 원칙적인 SSL 프레임워크입니다. 실험은 세 개의 공개 감성 컴퓨팅 벤치마크에서 MFMC이 주제에 따라 의존하고 주제 독립 평가 프로토콜 모두에서 우수한 성능을 일관되게 달성함을 보여줍니다. 특히, CEAP-360VR의 주제에 따른 정확도는 78.9%에서 86.8%, 자율 신경반응만으로 주제 독립 정확도는 27.5%에서 33.1%로 향상되었습니다.

paper AI 요약
URLLC 산업용 IoT 네트워크를 위한 연관 링크 적응 및 장치 스케줄링 접근법  DRL 기반 방법과 베이지안 최적화 이용

URLLC 산업용 IoT 네트워크를 위한 연관 링크 적응 및 장치 스케줄링 접근법 DRL 기반 방법과 베이지안 최적화 이용

본 논문에서는 채널 상태 정보(CSI)가 불완전한 상황에서 다중 장치 동적 초신뢰성 저지연 통신(URLLC)을 지원하는 산업 인터넷-of-things(IIoT) 네트워크를 고려합니다. 전체 전송률 최대화와 엄격한 블록 오류율(BLER) 제약 조건 하에서 링크 적응(LA)과 장치 스케줄링(순서 포함)을 통합 설계하는 것을 목표로 합니다. 특히, 불완전한 CSI에 기반하여 서비스할 장치의 순서와 해당 모듈레이션 및 부호화 방식(MCS)을 자동으로 결정하기 위해 베이지안 최적화(BO)를 주도하는 트윈 지연 심층 결정 정책 경사(TD3) 방법론을 제안합니다. CSI의 불완전성, URLLC 네트워크에서 발생하는 샘플 균형 문제 및 TD3 알고리즘의 매개변수 민감성은 알고리즘의 수렴 속도와 신뢰성을 저하시키는 요인입니다. 이러한 문제를 해결하기 위해 BO 기반 학습 메커니즘을 제안하여 수렴 속도 향상과 균형 샘플 추적에 대한 더 안정적인 학습 방향 및 샘플 선택 방법을 제공합니다. 광범위한 시뮬레이션을 통해 제안된 알고리즘이 기존의 해결책보다 더 빠른 수렴 속도와 더 높은 총 전송률 성능을 보여주는 것을 입증했습니다.

paper AI 요약
Causify DataFlow  고성능 머신러닝 스트림 컴퓨팅을 위한 프레임워크

Causify DataFlow 고성능 머신러닝 스트림 컴퓨팅을 위한 프레임워크

본 논문에서는 무제한 시간 시리즈 데이터에 대한 고성능 머신 러닝 시스템을 구축, 테스트 및 배포하기 위한 계산 프레임워크인 DataFlow를 제시합니다. 전통적인 데이터 과학 워크플로는 유한한 데이터 세트를 가정하며, 배치 프로토타입에서 스트리밍 생산 시스템으로 이동할 때 상당한 재구현이 필요합니다. 이러한 간극은 인과성 위반, 배치 경계 아티팩트 및 실시간 실패의 복제 불량을 초래합니다. DataFlow는 포인트-인-타임-idempotency를 기반으로 한 유니파이드 실행 모델을 통해 이러한 문제를 해결합니다 시간 t에서의 출력은 t 이전에 고정된 길이 컨텍스트 윈도우에 의존합니다. 이 보장은 배치 모드에서 개발된 모델이 코드 변경 없이 스트리밍 프로덕션에서 동일하게 실행되도록 합니다. 프레임워크는 모든 변환을 통해 지식 시간을 자동으로 추적하여 미래 킥팅 버그를 제거합니다. DataFlow는 타임과 피처 차원에 걸친 유연한 타일링을 지원하며, 같은 모델이 구성만으로 다른 주파수 및 메모리 프로필에서 작동할 수 있습니다. Python 데이터 과학 스택과 원래 통합되어 있으며, 온라인 학습을 위한 fit/predict 세마틱스, 캐싱 및 증분 계산, DAG 기반 스케줄링을 통해 자동 병렬화를 제공합니다. 우리는 금융 거래, IoT, 사기 탐지 및 실시간 분석 등 다양한 도메인에서 그 효과를 입증합니다.

paper AI 요약
저고도 경제 활성화  다중 모달 드론 빔 예측을 위한 신뢰성 고려 동적 가중치 할당

저고도 경제 활성화 다중 모달 드론 빔 예측을 위한 신뢰성 고려 동적 가중치 할당

저고도 경제(LAE)는 도심 항공 이동성, 로지스틱 드론, 그리고 공중 감시 등에 의해 급속히 확장되고 있으며, 무인항공기(UAV) 통신에서 빠르고 정확한빔 예측은 안정적인 연결을 달성하기 위해 중요하다. 현재 연구는 단일 신호에서 다중 모드 협업 접근 방식으로 전환하고 있다. 그러나 기존의 다중 모드 방법은 대부분 고정하거나 경험적으로 결정된 가중치를 사용하며, 어떠한 순간에도 모든 모드가 동등하게 신뢰할 수 있다고 가정한다. 실제로는 UAV 운동 시나리오에 따라 다양한 모드의 중요성이 크게 변동하고, 정적인 가중치는 저하된 모드의 부정적 영향을 증폭시킨다. 또한 모달 미스매치와 약한 대조가 교차 시나리오 일반화를 더욱 약화시킨다. 이를 위해 우리는 신뢰성에 기반한 동적 가중치 할당 방식을 적용하는 다중 모드 빔 예측 프레임워크인 SaM2B를 제안한다. 구체적으로, SaM2B는 환경 시각 정보, 비행 자세, 지리 공간 데이터와 같은 경량 큐에 기반하여 신뢰성에 따른 동적 가중치 업데이트를 통해 시간대별로 모드 간의 공헌을 적응적으로 할당한다. 또한 교차 모달 대조 학습을 활용해 특정 빔 정보와 관련된 다중 소스 표현빔 의미 를 공유된 의미 공간에 정렬하여, 모달 노이즈 및 분포 변동 하에서 구별력과 견고성을 향상시킨다. 실제 저고도 UAV 데이터셋을 이용한 실험 결과, SaM2B는 기존 방법보다 만족스러운 성능을 보여준다.

paper AI 요약
[한글 번역 중] Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice

[한글 번역 중] Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice

AI 회사의 데이터 팀은 종종 작은 대리 모델을 학습하여 전체 규모의 학습 실행에 대한 사전 학습 데이터 레시피를 결정하는 중요한 결정을 내립니다. 그러나 이러한 작은 스케일 실험에서 도출된 결론이 전체 규모의 모델 학습으로 신뢰적으로 전달되는지 여부와 언제 그러한 경우가 있는지는 커뮤니티의 이해가 제한적입니다. 본 논문에서는 데이터 레시피 평가를 위한 표준 실험 프로토콜에서 미묘하고 중요한 문제를 밝혀냅니다 모든 데이터 레시피에 대해 동일한 작은 스케일 모델 학습 구성으로 공정한 비교를 수행하는 것입니다. 이 논문에서는 학습 하이퍼파라미터의 단순 조정만으로도 데이터 품질에 대한 실험 결론이 바뀔 수 있다는 것을 보여주며, 최적의 학습 구성은 본래 데이터에 따라 달라진다는 점을 강조합니다. 따라서 데이터 레시피 평가의 목표는 각각의 데이터에 맞게 조정된 하이퍼파라미터에서 가장 우수한 성능을 내는 레시피를 식별하는 것이라고 제안합니다. 이 비용을 줄이기 위해, 우리는 평가 프로토콜에 간단한 패치를 도입하여 대리 모델 학습 시 학습률을 낮춥니다. 또한 이 접근법은 완전히 조정된 대형 언어 모델 사전 학습 실행의 상대 성능과 강력하게 연관되어 있음을 보여줍니다. 이론적으로, 우리는 무작위 특성 모델에 대해 이 접근법이 데이터셋을 최적의 손실로 배치하는 데 있어 순서를 유지한다고 증명합니다. 실제로, 우리는 23개의 데이터 레시피에 대한 극대화 실험을 통해 작은 규모 실험의 신뢰성을 크게 향상시킨다는 것을 확인합니다.

paper AI 요약
MSACL  리아푸노프 증명서를 활용한 지수 안정화 제어를 위한 다단계 액터-크리틱 학습

MSACL 리아푸노프 증명서를 활용한 지수 안정화 제어를 위한 다단계 액터-크리틱 학습

모델이 없는 강화학습(RL)에서 증명 가능한 안정성을 달성하는 것은 여전히 도전 과제이며, 특히 탐사와 엄격한 안전을 균형 있게 유지하는 것이 어렵습니다. 이 기사는 MSACL(Multi-Step Actor-Critic Learning with Lyapunov Certificates)라는 프레임워크를 소개합니다. 이 프레임워크는 최대 엔트로피 RL과 지수 안정성 이론을 다단계 리아폰 보증 학습을 통해 통합합니다. 복잡한 보상 설계에 의존하는 방법과 달리, MSACL은 오프-폴시 다단계 데이터를 활용하여 이론적인 안정성 조건을 충족하는 리아폰 보증을 학습합니다. 지수 안정성 레이블(ESL)과 $ lambda$ 가중치 결합 메커니즘을 도입함으로써, 프레임워크는 다단계 학습에서 편향-분산 균형을 효과적으로 유지할 수 있습니다. 정책 최적화는 안정성에 민감한 이점 함수에 의해 지도되며, 이로 인해 학습된 정책은 빠른 리아폰 하강을 촉진합니다. 우리는 MSACL이 6개의 벤치마크에서 평가되었으며, 안정화 및 비선형 추적 작업을 포함하여 최신 Lyapunov 기반 RL 알고리즘보다 우수한 성능을 보여주었습니다. MSACL은 간단한 보상으로 지수 안정성과 빠른 수렴을 달성하며, 불확실성에 대한 강건성을 나타내고, 미보기 트레젝토리를 일반화하는 능력을 가지고 있습니다. 감도 분석은 다양한 시스템에서 다단계 수평 $n=20$이 탄탄한 기본값임을 확립합니다. Lyapunov 이론과 오프-폴시 액터-크리틱 프레임워크를 연결함으로써, MSACL은 검증 가능한 안전 학습 기반 제어의 토대를 제공합니다.

paper AI 요약
HFedMoE  자원을 고려한 이질적인 연방학습과 전문가 혼합 모델

HFedMoE 자원을 고려한 이질적인 연방학습과 전문가 혼합 모델

연방 학습(FL)은 데이터 프라이버시를 침해하지 않고 대형 언어 모델(LLM)을 미세 조정할 수 있게 하지만, LLM의 큰 크기는 메모리 제약이 있는 클라이언트 (예 휴대 기기)에서 모델 학습을 불가능하게 만듭니다. 따라서 Mixture-of-Experts(MoE) 모델은 전반적인 성능에 영향을 미치지 않으면서도 모델 학습 중 일부만 활성화하여 계산 효율성을 높이는 해법으로 등장했습니다. 그러나 MoE를 FL 미세 조정에 통합하는 것은 여전히 세 가지 주요 문제점을 안고 있습니다 i) 각 전문가의 로컬 미세 조정 성능에 대한 영향을 측정할 수 있는 신뢰할 만한 지표 부족으로 인해 클라이언트에게 적절한 전문가를 선택하는 것이 어렵습니다, ii) 다양한 입력 샘플에 따른 동적 전문가 활성화로 인해 계산 자원 제약이 있는 장치에서 MoE 기반 LLM 미세 조정이 크게 방해받을 수 있습니다, iii) 클라이언트별 전문가 하위 집합과 경로 선호도는 글로벌 집계를 방해하며, 불일치한 전문가 업데이트와 일관되지 않은 게이팅 네트워크가 파괴적인 간섭을 초래합니다. 이러한 문제점을 해결하기 위해 우리는 HFedMoE를 제안합니다. HFedMoE는 계산 효율성을 높이는 LLM 미세 조정을 위한 각 클라이언트에게 전문가 하위 집합을 맞춤화하는 이질적인 MoE 기반 FL 미세 조정 프레임워크입니다. 특히, HFedMoE는 전문가의 중요도를 그들의 미세 조정 성능에 대한 기여도에 따라 식별하고, 각 클라이언트의 계산 예산을 고려하여 정보 병목 관점에서 일부 전문가 하위 집합을 적응적으로 선택합니다. 또한 중요한 기여도로 가중치를 부여한 활성화된 미세 조정 전문가와 게이팅 파라미터를 집계하기 위한 스팽시에 대한 모델 집계 전략도 설계되었습니다. 광범위한 실험을 통해 HFedMoE는 훈련 정확도와 수렴 속도 측면에서 최고의 벤치마크를 능가함이 입증되었습니다.

paper AI 요약
변환 규모에 따른 전력 흐름 분석을 위한 로컬 토폴로지 슬라이싱과 다중 작업 그래프 학습 방법

변환 규모에 따른 전력 흐름 분석을 위한 로컬 토폴로지 슬라이싱과 다중 작업 그래프 학습 방법

강력한 토폴로지 변동에 대한 적응성을 갖춘 딥러닝 모델 개발은 전력 유량 분석에서 큰 실용적 의미가 있다. 본 논문에서는 다양한 시스템 규모 하에서의 모델 성능을 향상시키고 분기 전력 예측의 강건성도 높이기 위해 스케일-적응형 다중 작업 전력 유량 분석(SaMPFA) 프레임워크를 제안한다. SaMPFA는 전체 전력 네트워크에서 다양한 규모의 서브그래프를 추출하여 모델의 교차 스케일 학습 능력을 강화하는 지역 토폴로지 슬라이싱(LTS) 샘플링 기법을 도입한다. 또한, 정확한 전력 유량 예측을 위한 강건한 무참조 다중 작업 그래프 학습(RMGL) 모델을 설계한다. RMGL은 현재 접근 방법과 달리 버스 전압과 분기 전력을 예측하며, 이는 분기 전력 계산에서 오류 확대 위험을 피하고 모델이 위상 각도 차이의 물리적 관계를 학습하도록 안내한다. 또한 손실 함수에는 각도 차이와 전력 전송의 물리 패턴을 포착하게 하는 추가 항목이 포함되어 예측과 물리 법칙 간 일관성을 더욱 향상시킨다. 시뮬레이션 결과, 제안된 모델은 변수 시스템 규모 하에서 우수한 적응성과 일반화를 보여주며, 정확도는 각각 4.47%와 36.82% 개선되었다.

paper AI 요약
[한글 번역 중] REE-TTT  Highly Adaptive Radar Echo Extrapolation Based on Test-Time Training

[한글 번역 중] REE-TTT Highly Adaptive Radar Echo Extrapolation Based on Test-Time Training

강수 예보는 기상예측에 매우 중요하다. 딥러닝 기반의 레이더 에코 추정(REE)은 주요 예보 방법으로 자리잡았지만, 고품질 지역 데이터와 정적인 모델 매개변수에 대한 의존성 때문에 일반화 능력이 떨어져 다양한 지역과 극단적 사건에서의 적용성이 제한된다. 이를 해결하기 위해 우리는 새로운 모델인 REE-TTT를 제안한다. 이 모델은 테스트 시간 학습(TTT) 메커니즘을 통합하고 있으며, 그 핵심은 기존 TTT 층의 표준 선형 투영을 작업별 주의 메커니즘으로 대체한 신규 설계된 공간-시간 테스트 시간 학습(ST-TTT) 블록이다. 이를 통해 비정상적인 기후 분포에 대한 강력한 적응이 가능해져, 강수 특징 표현을 크게 개선한다. 다양한 지역의 극단적 강수 상황에서 실험 결과 REE-TTT가 예측 정확도와 일반화 능력 측면에서 최신 기준 모델을 크게 앞서고 있으며, 데이터 분포 변화에 대한 뛰어난 적응성을 보여주었다.

paper AI 요약
산업 IoT를 위한 디지털 트윈 기반 통신 효율적 연방 이상 감지

산업 IoT를 위한 디지털 트윈 기반 통신 효율적 연방 이상 감지

이상 감지는 산업 시스템의 안전성, 신뢰성 및 효율성을 유지하는 데 점점 더 중요한 역할을 하고 있습니다. 최근 디지털 트윈과 데이터 기반 의사결정의 도입으로 여러 통계적이고 머신러닝 방법이 제안되었습니다. 그러나 이러한 방법들은 실제 센서 데이터셋에만 의존하거나, 라벨링된 데이터 부족, 높은 거짓 경보율 및 프라이버시 문제와 같은 여러 가지 곤란을 겪고 있습니다. 이 문제를 해결하기 위해 우리는 전역 모델 성능을 향상시키면서도 데이터 프라이버시와 통신 효율성을 유지하는 디지털 트윈 통합 연방 학습 (DTFL) 방법의 일련을 제안합니다. 구체적으로, 다섯 가지 새로운 접근법을 제시합니다 디지털 트윈 기반 메타러닝(DTML), 연방 파라미터 융합(FPF), 계층별 파라미터 교환(LPE), 순환 가중치 적응(CWA) 및 디지털 트윈 지식 증산(DTKD). 각 방법은 합성과 실제 세계의 지식을 결합하는 고유한 메커니즘을 소개합니다. 일반화와 통신 오버헤드를 균형있게 조절합니다. 우리는 공개 가능 데이터셋을 사용하여 광범위한 실험을 수행했습니다. 80% 정확도 목표에 도달하는 데 CWA는 33라운드, FPF는 41라운드, LPE는 48라운드, DTML은 87라운드가 걸렸으며, 표준 FedAvg 기준선 및 DTKD는 100라운드 내에 목표를 달성하지 못했습니다. 이러한 결과는 통신 효율성 향상 (DTML보다 최대 62% 적은 라운드, LPE 보다 31% 적음)을 강조하고 DT 지식을 FL에 통합하면 IIoT 이상 감지의 운영적으로 의미있는 정확도 임계치로 수렴하는 속도를 가속화한다는 것을 입증합니다.

paper AI 요약
희소한 위협, 집중된 방어  안전한 자율주행을 위한 임계치 인식 강화 학습

희소한 위협, 집중된 방어 안전한 자율주행을 위한 임계치 인식 강화 학습

강화학습(Reinforcement Learning, RL)은 자율주행(Autonomous Driving, AD)에서 상당한 잠재력을 보였지만, 그의 변동성에 대한 취약성이 실제 세계 배치를 위한 주요 장애물로 남아 있다. 이를 주된 대책으로, 적대적 훈련(adversarial training)은 정교한 방해물을 도입하여 AD 에이전트의 견고성을 개선한다. 현재 접근법들은 일반적으로 연속적인 공격을 가정하는 제로섬 게임 형태로 상호작용을 모델링하지만, 이러한 설계는 에이전트와 적대자 사이의 내재된 비대칭성과 안전에 치명적인 위험이 희박하다는 점을 간과한다. 이런 한계를 해결하기 위해, 우리는 자율주행에서 희박하고 안전에 중점을 둔 위험을 관리하는 새로운 적대적 훈련 접근법인 중요도 인식 견고 강화학습(Criticality-Aware Robust Reinforcement Learning, CARRL)을 제안한다. CARRL은 위험 노출 적대자(Risk Exposure Adversary, REA)와 위험 타겟팅 견고 에이전트(Risk-Targeted Robust Agent, RTRA) 두 요소로 구성된다. 우리는 REA와 RTRA의 상호작용을 일반 합 게임으로 모델링하여 REA가 안전에 치명적인 실패(예 충돌)를 폭로하고, RTRA는 효율성과 안전 사이에서 균형을 맞추도록 한다. REA는 제약된 예산 하에서 희박한 위험 순간을 식별하고 활용할 수 있는 분리된 최적화 메커니즘을 사용한다. 그러나 이러한 집중적인 공격은 적대 데이터의 부족을 불러일으킨다. RTRA는 양호한 및 적대적인 경험을 병렬로 활용하는 이중 리플레이 버퍼를 통해 이를 극복하고, 변동성 하에서 정책 일관성을 강화하여 행동을 안정화한다. 실험 결과는 우리의 접근법이 모든 경우에 걸쳐 기존의 최고 수준의 기본 방법보다 충돌률을 적어도 22.66% 줄였음을 보여준다.

paper AI 요약
드론 동역학 레이더 네트워크  연합 항법 및 추적 방법

드론 동역학 레이더 네트워크 연합 항법 및 추적 방법

최근에는 소형 비행 로봇에 자동 감지와 실시간 내비게이션 기능을 부여하는 연구가 증가하고 있습니다. 이는 원격 감시, 물류, 스마트 도시 및 위험 환경에서의 긴급 지원 등 다양한 응용 분야를 가능하게 합니다. 이러한 맥락에서, 건물 뒤에 숨거나 대규모 드론 네트워크 내에서 숨어 있는 비인가 소형 무인 항공기(UAV) 추적을 하는 문제가 새롭게 제기되고 있습니다. 현재의 주로 정적인 지상 레이더 기반 솔루션과는 달리, 본 논문은 실시간 및 고정밀도로 악의적인 대상을 추적하기 위한 동적 레이더 네트워크 드론을 제안합니다. 이를 위해, 우리는 이질적으로 수집된 정보를 활용하여 드론의 실시간 내비게이션 솔루션을 설명합니다. 이러한 정보는 드론들이 멀티홉을 통해 서로 공유하며, 각 에이전트에서 작동하는 로컬 베이지안 추정기를 통해 대상을 추적할 수 있습니다. 모든 경로가 정보 수집 측면에서 동일하지 않기 때문에, 드론들은 UAV의 운동학 및 충돌 방지 제약 조건 하에서 대상 상태의 후방 공분산 행렬을 최소화하는 경로를 계획합니다. 우리의 결과는 동적 레이더 네트워크가 고정형 구성보다 더 나은 위치 결정 결과를 얻고, 드론에 장착된 센서 기술이 다양한 레이다 교차면을 가진 대상을 추적하는 정확도에 어떻게 영향을 미치는지 특히 비시야(NLOS) 상황에서 보여줍니다.

paper AI 요약
신경 거북이 그래픽을 이용한 도시 도로 구조 모델링

신경 거북이 그래픽을 이용한 도시 도로 구조 모델링

본 논문에서는 Neural Turtle Graphics (NTG)를 제안하며, 이는 공간 그래프의 생성 모델로 활용되며 도시 도로 구조를 모델링하는 데 적용되었습니다. 구체적으로, 우리는 도로 구조를 노드와 간선으로 표현한 그래프를 통해 나타냈습니다. 여기서 노드는 제어 점을, 간선은 도로 구간을 의미합니다. NTG는 신경망으로 파라미터화된 순차적 생성 모델입니다. 이 모델은 현재 그래프에 기반하여 새로운 노드와 기존 노드에 연결되는 간선을 반복적으로 생성합니다. 우리는 Open Street Map 데이터를 사용해 NTG를 훈련시켰으며, 다양한 성능 지표를 통해 제안된 방법이 기존 접근법보다 우수함을 보였습니다. 또한 우리의 방법은 사용자가 도로 구조의 스타일을 조절할 수 있도록 하며, 도로 구조의 일부를 스케치하여 합성할 수 있습니다. 이 외에도 제안된 NTG는 위성 항공 사진 해석과 같은 분석적 작업에 활용될 수 있습니다. 실험 결과는 SpaceNet 데이터셋에서 최고 성능을 달성함을 보여줍니다.

paper AI 요약
온라인 행동 감지에 대한 시계열 모델링의 종합적 연구

온라인 행동 감지에 대한 시계열 모델링의 종합적 연구

온라인 행동 감지(OAD)는 실용적이면서도 난이도가 높은 작업으로, 최근 몇 년 동안 점점 더 많은 관심을 받고 있습니다. 일반적인 OAD 시스템은 주로 세 가지 모듈로 구성됩니다 대부분 사전 학습된 심층 컨볼루션 신경망(CNNs)에 기반한 프레임 수준의 특징 추출기, 시간적 모델링 모듈, 그리고 행동 분류기입니다. 그 중에서 시간적 모델링 모듈은 중요하며 과거와 현재의 특징으로부터 구별 가능한 정보를 집계합니다. 그러나 OAD뿐만 아니라 다른 주제에도 사용되는 많은 시간적 모델링 방법들이 개발되었음에도 불구하고, 그것들의 효과는 공정하게 조사되지 않았습니다. 본 논문은 OAD에 대한 시간적 모델링의 종합적인 연구를 제공하고자 하며, 네 가지 메타 유형의 시간적 모델링 방법을 포함합니다 시간적 풀링, 시간적 컨볼루션, 순환 신경망, 그리고 시간적 주의. 이 중 많은 부분은 OAD에서 처음으로 탐색되었으며 다양한 하이퍼 파라미터를 가지고 광범위하게 평가되었습니다. 또한 우리의 종합적인 연구에 기반하여, 우리는 몇 가지 혼합형 시간적 모델링 방법을 제시하며 THUMOS-14와 TVSeries에서 최근의 최고 성능 기법보다 큰 격차로 우수한 결과를 보여주었습니다.

paper AI 요약
sql4ml  머신 러닝을 위한 선언적 end-to-end 워크플로우

sql4ml 머신 러닝을 위한 선언적 end-to-end 워크플로우

본 논문에서는 기계 학습(ML) 모델을 SQL로 표현하고 이를 TensorFlow에서 자동으로 훈련시키는 시스템인 sql4ml에 대해 설명합니다. 이 연구의 주된 동기는 데이터 과학 작업 중 관계형 데이터베이스와 ML 프레임워크 사이의 상호작용을 간소화하려는 것입니다. 데이터 전처리와 특성 공정은 일반적으로 데이터베이스에서 이루어지지만, 학습은 별도의 ML 라이브러리에서 진행됩니다. 이러한 분산된 워크플로우는 사용자가 다양한 프로그래밍 패러다임과 소프트웨어 시스템 사이를 넘나들어야 하는 부담을 줍니다. sql4ml을 통해 사용자는 특성 공정 및 ML 알고리즘 모두를 SQL로 표현할 수 있으며, 이 코드가 적절한 형식으로 ML 프레임워크 내에서 훈련될 수 있도록 번역됩니다. 우리의 번역 방법론을 설명하고 세 가지 잘 알려진 ML 알고리즘에 적용한 실험 결과를 제시하며, 데이터베이스 측면에서 전체 워크플로우를 집중화하는 데 따른 사용성의 이점을 논의합니다.

paper AI 요약
등한계 단어들의 비결정적 유한 오토마타의 VC 차원

등한계 단어들의 비결정적 유한 오토마타의 VC 차원

$NFA_b(q)$를 $q$ 상태와 $b$ 문자로 구성된 알파벳을 사용하는 비결정적 유한 오토마타가 인식하는 언어의 집합이라고 하자. 그리고 $B_n$을 길이 $n$인 단어들의 집합이라고 하자. 이 논문에서는 $ {L cap B_n mid L in NFA_2(q) }$의 VC 차원에 대한 2차식 하한치를 제공한다. 다음으로, Gruber와 Holzer(2007)가 $B_n$에 포함된 유한 언어의 비결정적 상태 복잡도에 대한 상한을 제시하였는데, 이 논문에서는 우리의 방법을 사용하여 이를 강화한다. 마지막으로, $NFA_2(q) cap B_n$의 VC 차원과 테스팅 차원에 대한 $n$의 종속성을 몇 가지 이론적이고 실험적인 결과를 제공한다.

paper AI 요약
No Image

좌표 행렬 기계 매우 유사한 문서를 분류하기 위한 인간 수준의 개념 학습

인간 수준의 개념 학습은 일반적으로 단일 예제에서 새로운 개념을 배우는 반면, 기계 학습 알고리즘은 단일 개념을 배우기 위해 수백 개의 샘플이 필요하다는 주장을 한다. 우리의 뇌는 중요한 특징들을 무의식적으로 인식하고 더 효과적으로 학습한다. 이 논문에서는 Coordinate Matrix Machine (CM$^2$)을 제시한다. CM$^2$은 문서 구조를 학습하고 이 정보를 사용하여 문서를 분류함으로써 인간 지능을 보완하는 목적으로 설계된 작은 모델이다. 현대 Red AI 트렌드는 대규모 사전 훈련과 에너지 집약적인 GPU 인프라에 의존하지만, CM$^2$은 Green AI 솔루션으로 설계되어 있다. 이 알고리즘은 인간이 고려할 중요한 특징들만 식별하여 매우 유사한 문서를 분류하는 데 단일 샘플을 사용한다.

paper AI 요약
주의가 필요한 포커스  주의 할당에 대한 통일된 관점

주의가 필요한 포커스 주의 할당에 대한 통일된 관점

Transformer 아키텍처는 대형 언어 모델(LLM)의 주춧돌로, 특히 그 주목할 만한 성공은 주목력(attention mechanism)에 의존하고 있습니다. 그러나 표준 주목력 메커니즘에는 표현력 붕괴와 주목력 침수 같은 잘 알려진 문제들이 존재합니다. 이전 연구는 이러한 문제가 각각 독립적으로 다루어져 있어 그 깊은 연결성이 가려졌습니다. 본 논문에서는 이러한 문제들을 공통의 근본 원인 - 부적절한 주목력 할당으로 설명하는 통합적인 관점을 제시합니다. 두 가지 실패 모드를 식별하였는데, 첫째로는 토큰들이 비슷한 높은 가중치를 받으면서 의미적 특징이 흐려져 표현력 붕괴가 일어나는 주목력 과부하 입니다. 둘째로는 의미적으로 관련성이 없는 토큰에도 주목력이 분배되어 부수적인 주목점처럼 보이는 주목력 부족 입니다. 이러한 통찰을 기반으로, 저자는 Lazy Attention이라는 새로운 메커니즘을 도입하여 더욱 집중된 주목력 분배를 목표로 합니다. 이를 위해 헤드와 차원에 걸친 위치별 차별화를 이용해 토큰 간의 구분을 명확히합니다. 또한 Elastic-Softmax라는 수정된 정규화 함수를 도입하여 무관한 토큰에 대한 주목력을 억제하려고 합니다. FineWeb-Edu 코퍼스에서 수행한 실험은 Lazy Attention이 주목력 침수 문제를 완화하고, 표준 주목력과 현대 아키텍처와 비교할 때 경쟁적인 성능을 보여주며, 최대 59.58%의 주목력 희소성을 달성하는 것을 보여줍니다.

paper AI 요약
.sb-트르포  엄격한 안전 제약 조건을 갖춘 안전 강화 학습으로의 진보

.sb-트르포 엄격한 안전 제약 조건을 갖춘 안전 강화 학습으로의 진보

본 연구는 딥러닝 모델이 자연어 처리 작업에 미치는 영향을 조사했습니다. 특히 우리는 감성 분석에서 다양한 하이퍼파라미터가 어떻게 모델 성능에 영향을 미치는지 살펴보았습니다. 우리의 결과는 특정 하이퍼파라미터 조합이 디폴트 설정보다 훨씬 높은 정확도를 제공할 수 있음을 시사합니다.

paper AI 요약
AutoFed  개인화 프롬프트를 활용한 수동 없는 연방 교통 예측

AutoFed 개인화 프롬프트를 활용한 수동 없는 연방 교통 예측

정확한 교통 예측은 라이드해링, 도시 도로 계획, 차량 페리 관리 등 지능형 교통 시스템에 필수적입니다. 하지만 교통 데이터 주변의 중요한 프라이버시 문제로 인해 대부분의 기존 방법은 로컬 트레이닝에 의존하여 데이터 실로와 제한적인 지식 공유가 발생합니다. 연방 학습(FL)은 개인정보 보호 협업 훈련을 통해 효율적인 해결책을 제공하지만, 표준 FL은 클라이언트 간의 독립적이지 않고 동일하게 분포되지 않은(non-IID) 문제에 어려움을 겪습니다. 이挑战组合中包含了韩文和中文,最后的部分没有完全翻译成韩文。以下是完整的韩文翻译: 정확한 교통 예측은 라이드해링, 도시 도로 계획, 차량 페리 관리 등 지능형 교통 시스템에 필수적입니다. 하지만 교통 데이터 주변의 중요한 프라이버시 문제로 인해 대부분의 기존 방법은 로컬 트레이닝에 의존하여 데이터 실로와 제한적인 지식 공유가 발생합니다. 연방 학습(FL)은 개인정보 보호 협업 훈련을 통해 효율적인 해결책을 제공하지만, 표준 FL은 클라이언트 간의 독립적이지 않고 동일하게 분포되지 않은(non-IID) 문제에 어려움을 겪습니다. 이 어려움은 개인화 연방 학습(PFL)이 유망한 패러다임으로 등장하는 원인이 되었습니다. 그럼에도 불구하고 현재의 PFL 프레임워크는 교통 예측 작업에 대한 전문적인 그래프 특징 공학, 데이터 처리 및 네트워크 아키텍처 설계가 필요합니다. 많은 이전 연구들의 주목할 만한 제한점 중 하나는 실세계 시나리오에서 자주 사용 불가능한 데이터셋 간의 하이퍼파라미터 최적화에 의존하는 것입니다. 이를 해결하기 위해 AutoFed라는 새로운 PFL 프레임워크를 제안합니다. 이는 개인화된 예측자에게 교차 클라이언트 지식을 활용하면서도 로컬 특이성을 유지하도록 하여 자동 조정을 통해 인공적인 하이퍼파라미터 튜닝의 필요성을 제거합니다. 프롬프트 학습에서 영감을 받아, AutoFed는 클라이언트 맞춤형 어댑터를 사용하여 로컬 데이터를 축소된 글로벌 공유 프롬프트 행렬에 응축하는 연방 표현자를 도입하였습니다. 이 프롬프트는 개인화 예측자에게 조건을 제공합니다. 실제 데이터셋에서의 광범위한 실험은 AutoFed가 다양한 시나리오에서 일관되게 우수한 성능을 달성한다는 것을 보여주었습니다. 본 논문의 코드는 https //github.com/RS2002/AutoFed 에서 제공됩니다.

paper AI 요약
No Image

BOAD 계층적 소프트웨어 공학 에이전트의 대iband 최적화 발견

이 논문은 인공지능 모델의 성능 향상을 위한 새로운 접근법을 제시한다. 연구진은 다양한 데이터셋에서 CNN 기반 모델들의 시스템적 비교를 통해, 학습 방식과 최적화 전략에 따른 성능 차이를 분석했다. 이를 통해, 특정 문제 영역에서 가장 효과적인 학습 방법을 식별할 수 있었다.

paper AI 요약
DatBench  차별적이고 신뢰성 있으며 효율적인 VLM 평가

DatBench 차별적이고 신뢰성 있으며 효율적인 VLM 평가

실증적 평가는 기초 모델 연구 진전의 주요 나침반 역할을 합니다. 최신 비전-언어 모델(VLM) 훈련에 중점을 둔 많은 연구가 있음에도 불구하고, 이들의 평가 방법론은 아직 초기 단계입니다. 그 성숙을 돕기 위해 우리는 평가에서 충족해야 하는 세 가지 요구 사항을 제안합니다 (1) 모달리티와 응용 분야에 대한 충실성, (2) 다양한 품질의 모델 간 차별 가능성, 그리고 (3) 계산 효율성. 이 관점에서 우리는 충실성과 차별 가능성을 위반하고 모델 능력을 왜곡하는 중요한 실패 모드를 파악합니다 (i) 선택식 질문 형식은 추측을 장려하고 하류 사용 사례를 잘 반영하지 않으며, 모델이 개선됨에 따라 일찍 포화상태에 이릅니다; (ii) 이미지 없이도 답변 가능한 문제들로 구성된 평가의 70%까지 해당하며; (iii) 잘못 표시되거나 애매한 샘플은 일부 데이터셋에서 최대 42%를 차지합니다. 효율성 측면에서는, 가장 첨단의 모델을 평가하는 계산 부담이 금지불능 수준으로 올라갔습니다 일부 보고서에 따르면 개발용 컴퓨팅 자원의 거의 20%가 단순히 평가를 위해 사용되고 있습니다. 기존 벤치마크를 버리는 대신, 우리는 변환 및 필터링을 통해 충실도와 차별 가능성을 최대한 높이는 방법으로 이를 정제합니다. 선택식 질문을 생성적 작업으로 바꾸는 것이 모델의 능력을 최대 35%까지 급격히 낮추는 것을 발견했습니다. 또한, 무작정 해결 가능한 문제와 잘못 표시된 샘플들을 필터링하면 차별 가능성을 향상시키면서 동시에 계산 비용을 줄일 수 있습니다. 우리는 DatBench-Full이라는 33개의 데이터셋으로 구성된 청소된 평가 패키지와, 원래 데이터셋의 차별 가능성과 거의 일치하면서 평균적으로 13배(최대 50배) 속도 향상을 달성하는 차별적 하위 집합인 DatBench를 공개합니다. 우리의 연구는 VLM이 계속 확장됨에 따라 동시에 엄격하고 지속 가능한 평가 관행을 추구하는 길을 제시합니다.

paper AI 요약
LION-DG  깊은 그래디언트 프로토콜을 활용한 계층 정보 초기화를 통한 가속 신경망 학습

LION-DG 깊은 그래디언트 프로토콜을 활용한 계층 정보 초기화를 통한 가속 신경망 학습

깊은 신경망에서 보조 분류기((auxiliary classifiers))는 중간 레이어에서 추가적인 그래디언트 신호를 제공함으로써 학습을 가속화하고 그래디언트 흐름을 개선하는데 효과적이다. 그러나 보조 분류기를 어떻게 초기화해야 하는지는 여전히 연구되지 않은 문제다. 본 논문에서는 LION-DG(Layer-Informed Initialization with Deep Gradient protocols)를 제안하며, 이는 보조 분류기를 0으로 초기화하고 백본 레이어에 대해 표준적인 초기화 방법을 사용하는 전략이다. 실험 결과 LION-DG는 더 빠른 학습 속도와 최고의 정확성을 달성하며, 특히 DenseNet-DS에서 8.3%의 속도 향상을 보였다. ###

paper AI 요약
Refined 프롬프트 추적  모델 행동을 이용한 대화 조정 감지

Refined 프롬프트 추적 모델 행동을 이용한 대화 조정 감지

이 논문은 언어 모델의 미세조정 과정에서 원본 프롬프트와 리피너가 재작성한 프롬프트를 구분하는 문제, 즉 Refinement Provenance Inference (RPI)에 대해 다룹니다. 이를 위해 RePro라는 로짓 기반 프레임워크를 제안하며, 이는 그림과 같은 과정을 통해 빠른 선형 분류기를 사용해 추론 모델에서 원본 및 리피너 재작성된 프롬프트의 출처를 판별합니다.

paper AI 요약
SMOTE 생성 샘플의 이론적 수렴성

SMOTE 생성 샘플의 이론적 수렴성

불균형 데이터 세트는 한 클래스(소수 클래스)가 다른 클래스들(다수 클래스)에 비해 크게 소수로 나타나는 기계 학습 및 통계적 분석에서의 주요 도전 과제입니다. 이 불균형은 예측 모델이 소수 클래스에 대해 성능이 저하되는 편향된 결과를 초래하며, 이러한 소수 클래스는 고장 감지, 의료 진단, 네트워크 보안 또는 컴퓨터 비전과 같은 중요한 경우들을 나타낼 수 있습니다. 이를 완화하기 위해 다양한 데이터 증강 기법들이 개발되었습니다. 이 논문에서는 Synthetic Minority Over-sampling Technique (SMOTE)이라는 가장 널리 사용되는 증강 방법에 대해 이론적 분석을 제공합니다. 특히, SMOTE가 생성하는 합성 샘플들이 원래 데이터 분포로 수렴하는 과정을 이론적으로 입증하고자 합니다. 우리의 주요 기여는 다음과 같습니다 1. 확률 수렴 합성 랜덤 변수 $`Z`$가 표본 크기 $`n`$이 무한대로 접근할 때 원래 랜덤 변수 $`X`$로 확률적으로 수렴한다는 것을 증명합니다. 2. 최근접 이웃 순위 $`k`$ $`k`$의 값이 합성 샘플의 수렴 속도에 미치는 영향을 분석하고, 더 낮은 값을 사용하면 더 빠른 수렴을 얻을 수 있다는 것을 보여줍니다. 3. 경험적 검증 균일, 가우시안 및 지수 분포를 사용한 시뮬레이션 연구를 통해 이론 결과를 확인합니다. 이 논문의 결과는 SMOTE 알고리즘에서 $`k = 1`$을 사용하는 것이 원래 분포로 더 빨리 수렴하도록 하는 등 실제 응용에 대한 중요한 통찰력을 제공합니다. 이러한 통찰력은 실무자들이 SMOTE를 사용할 때 적절한 매개변수를 선택하고 증강된 데이터를 기반으로 훈련하는 모델의 성능을 개선하는 데 도움이 될 것입니다. ###

paper AI 요약
가장 유용한 파트너 선발의 새로운 길

가장 유용한 파트너 선발의 새로운 길

많은 현대 AI 및 ML 문제는 공유되지만 비대칭적인, 계산적으로 집약적인 과정을 통해 파트너의 기여를 평가하고 동시에 가장 유익한 후보자를 선별하는 것을 필요로 합니다. 이러한 문제들은 새로운 프레임워크인 순차적 지원 네트워크 학습(SSNL) 하에서 통합될 수 있습니다. 이 목표는 모든 참가자에게 가장 유익한 파트너 집합을 시도를 통해 선택하는 것입니다, 즉, 최고의 성능 기여를 나타내는 방향 그래프를 학습하는 것입니다. 우리는 단일 평가가 구조적인 중첩성으로 인해 여러 밴딧에 대한 고유한 피드백을 제공하는 새로운 순수 탐색 모델인 반복적으로 겹치는 다중(다중 팔) 밴딧(SOMMAB)이 희박한 후보 목록에서 지원 네트워크를 효율적으로 학습할 수 있음을 보여줍니다. 우리는 SOMMAB용 일반화된 GapE 알고리즘을 개발하고, 이는 다중 밴딧 최고 팔 식별에 있어 가장 잘 알려진 상수보다 지수 계수에서 크게 향상된 새로운 지수 오류 경계를 제공합니다. 이러한 경계는 중첩도와 선형적으로 비례하여, 공유 평가로부터 발생하는 샘플 복잡성의 큰 이점을 드러냅니다. 응용 프로그램 측면에서 본 연구는 다중 작업 학습(MTL), 보조 작업 학습(ATL), 연방 학습(FL) 및 다중 에이전트 시스템(MAS)과 같은 여러 학습 문제에서 희박한 후보자로부터 지원 네트워크를 식별하는 순차적 학습 도구의 이론적인 기초와 개선된 성능 보장을 제공합니다.

paper AI 요약
가족 모델의 확장 법칙 이론 기반

가족 모델의 확장 법칙 이론 기반

이 논문은 이미지 분류 작업에서 다양한 학습 방법들이 CNN 성능에 미치는 영향을 조사한다. 전통적인 지도 학습, 사전 훈련된 모델을 이용한 트랜스퍼 러닝, 그리고 두 가지 방법을 결합한 하이브리드 접근법이라는 세 가지 패러다임을 비교하였다. 여러 데이터셋을 사용하여 다양한 조건에서의 견고성을 확보하였다.

paper AI 요약
강화학습의 적대적 인스턴스 생성과 로브스트 트레이닝

강화학습의 적대적 인스턴스 생성과 로브스트 트레이닝

본 논문에서는 다목적 조합 최적화 문제(MOCOP)를 해결하는 강화학습 기반의 신경망 모델에 대한 강인성을 향상시키는 새로운 접근법을 제안한다. 이를 위해 선호도 기반 적대적 공격(PAA) 방법과 동적인 선호도 증강 방어(DPD) 방법을 소개한다. PAA는 특정 선호도에 맞춘 어려운 인스턴스를 생성하여 신경망 모델의 성능을 저하시키며, DPD는 적대적 공격으로부터 신경망 모델을 보호하고 그 강인성을 향상시킨다. 이러한 방법들은 다목적 트래블링 세일즈맨 문제(MOTSP), 다목적 용량 제약 차량 경로 문제(MOCVRP), 그리고 다목적 배낭 문제(MOKP)에서 우수한 성능을 보여준다.

paper AI 요약
그래프 신경망의 저장소 기반 학습 가속화

그래프 신경망의 저장소 기반 학습 가속화

그래프 신경망(GNN)의 학습은 대규모 그래프를 처리하는 데 있어서 주요한 도전 과제를 안고 있다. 이 논문에서는 GNN 학습에서 데이터 준비 단계가 전체 과정에서 큰 병목 현상을 일으키는 문제점을 파악하고, 이를 해결하기 위한 새로운 프레임워크 **AGNES**을 제안한다. AGNES는 블록 단위의 저장 장치 I/O 처리와 하이퍼 배치 기반 처리를 통해 효율적으로 데이터 준비 과정을 수행하며, 특히 대규모 그래프 학습에서 성능 향상에 크게 기여한다.

paper AI 요약
기하학적 및 양자 커널 방법을 활용한 만성 폐쇄성 폐질환의 골격근 예측 방법론 연구

기하학적 및 양자 커널 방법을 활용한 만성 폐쇄성 폐질환의 골격근 예측 방법론 연구

골격근 기능 장애는 만성 폐쇄성 폐질환(COPD)의 임상적으로 중요한 폐외 증상이며 체내 및 기도 염증과 밀접하게 연관되어 있습니다. 이를 바탕으로 최소 침습적 생물학적 표지자로부터 근육 결과를 예측하는 모델링을 실시하고자 합니다. 본 연구에서는 총 213마리의 동물을 대상으로 가짜 수술과 담배 연기 노출 조건을 비교한 사전 임상 데이터셋을 분석하였습니다. 이는 혈액 및 기관지알ве올라세척액 측정치와 함께 근육중량(mg), 특이력(mN), 근질 지수(mN/mg)라는 세 가지 연속 목표를 포함하고 있습니다. 연구에서는 조정된 전통적 베이스라인, 기하학을 인식하는 대칭 양의 결정체(SPD) 설명자와 Stein 발산량, 그리고 저차원 표형 데이터를 위한 양자 커널 모델들을 평가하였습니다. 근육중량 설정에서, 혈액 C-반응 단백질, 호중구 수치, 기관지알베올라세척액 세포도, 조건을 포함한 네 가지 해석 가능한 입력을 사용하는 양자 커널 리지 회귀는 테스트 루트 평균 제곱 오차 4.41mg과 결정 계수 0.605를 달성하였으며 동일 특징 집합에서 대응되는 리지 베이스라인(4.70mg 및 0.553)보다 향상되었습니다. 기하학적 정보를 포함한 Stein 발산량 프로토타입 거리는 생물학적 표지자만을 사용하는 설정에서 더 작은 그러나 일관된 개선(4.55mg 대비 4.79mg)을 보였습니다. 연속 결과를 훈련 가짜 수술 평균의 0.8배로 임계값 설정한 스크리닝 평가에서는 근육중량이 낮은 상태를 탐지하는 수신자 작동 특성 곡선(AUC-ROC) 최대 값까지 0.90을 달성하였습니다. 이러한 결과는 저데이터, 저특징 생물의학 예측 문제에서 기하학적 및 양자 커널 향상이 해석 가능성과 투명한 모델 선택을 유지하면서 측정 가능한 이점을 제공할 수 있음을 나타냅니다.

paper AI 요약
길이 인식 샘플링으로 더 안정적인 트래젝토리 생성 모델

길이 인식 샘플링으로 더 안정적인 트래젝토리 생성 모델

이 논문은 다양한 영역에서 시뮬레이션과 역사적 분석을 위한 실제적인 경로와 순서 모델 학습의 중요성을 강조한다. 특히, 이동성 분석, 추천 시스템, 교육 분야에서의 순차적인 결정 로그 등에서 길이가 다양한 트래JECTORY를 처리하는 데에 어려움이 있다. 이러한 문제를 해결하기 위해 제안된 방법은 길이 인식 샘플링(LAS) 기법으로, 이는 미니배치 내의 길이 다양성을 통제하고 생성자/판별자의 업데이트를 더 일관되게 만드는 트레이닝 시 개입이다. 또한, LAS와 조건부 트래JECTORY GAN 및 보조 시간 정렬 손실을 결합하여 트래JECTORY 데이터용 디지털 트윈을 구축한다.

paper AI 요약
No Image

깊은 계층 모델을 배우는 신경망 레이어별로 어떻게 학습할까?

본 논문에서는 $n$개의 레이블을 갖는 감독 학습을 고려하고 잔차 네트워크에서 계층별 SGD가 효율적으로 특정 계층 모델을 학습할 수 있음을 보여줍니다. 이 모델 클래스는 알려지지 않은 레이블 계층 $L_1 subseteq L_2 subseteq dots subseteq L_r = [n]$의 존재를 가정합니다. 여기서 $L_1$에 속한 레이블들은 입력의 간단한 함수이며, $i > 1$인 경우 $L_i$에 속한 레이블들은 더 간단한 레이블들의 간단한 함수입니다. 이러한 클래스는 깊은 학습 알고리즘으로 학습할 수 있음이 이전에 입증된 모델들보다 더 넓은 범위를 포함하며, 효율적인 학습 가능성을 도달하는 깊이 한계를 설정합니다. 즉, 해당 클래스에는 다항식 깊이가 필요한 표현을 요구하는 모델들이 있으며 이전의 모델들은 로그 깊이 회로에서 계산될 수 있습니다. 또한 이러한 계층 모델들의 학습 가능성은 깊은 학습을 이해하기 위한 기반으로 될 수 있음을 제안합니다. 깊은 학습이 뛰어난 성능을 보이는 도메인에서의 자연스러운 적합성뿐만 아니라 인간 교사 의 존재는 계층 구조가 본질적으로 가능하다는 가설을 지지한다고 주장합니다. 교사는 세밀한 레이블을 제공함으로써 두뇌가 사용하는 내부 알고리즘의 힌트 또는 스니펫 을 드러내는데 효과적입니다. 이 직관성을 형식화하여 교사가 부분적으로 자신의 내부 논리를 인식하는 간략한 모델에서 계층 구조가 효율적인 학습 가능성을 촉진시키는 방식으로 나타남을 보여줍니다.

paper AI 요약
대형 언어 모델을 이용한 범주형 데이터 클러스터링의 의미적 간극 해소

대형 언어 모델을 이용한 범주형 데이터 클러스터링의 의미적 간극 해소

범주형 데이터는 의료, 마케팅, 바이오정보학과 같은 분야에서 패턴 발견의 기본 도구로 클러스터링을 사용합니다. 범주형 데이터 클러스터링의 핵심 과제 중 하나는 내재적인 순서나 거리가 없는 속성 값 간의 유사성을 측정하는 것입니다. 적절한 유사성 지표 없이 값을 등거리로 취급하면 의미론적 격차가 발생하여 잠재 구조를 가리고 클러스터링 품질을 저하시킵니다. 기존 방법들은 데이터셋 내에서의 공발생 패턴으로부터 값 간 관계를 추론하지만, 샘플이 제한적일 때 이러한 추론은 신뢰할 수 없게 되어 데이터의 의미론적 맥락이 충분히 탐색되지 않습니다. 이 격차를 메우기 위해 우리는 ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)를 제시합니다. ARISE는 대형 언어 모델(LLMs)로부터 외부 의미론적 지식을 끌어와 범주형 데이터의 거리 공간을 보완하는 의미론 인식 표현을 구성하여 정확한 클러스터링을 실현합니다. 즉, LLM은 표현 강화를 위해 속성 값을 설명하고, LLM으로 향상된 임베딩은 원래 데이터와 결합되어 의미론적으로 중요한 클러스터를 탐색합니다. 8개의 벤치마크 데이터셋에 대한 실험에서 ARISE는 대표적인 일곱 가지 방법보다 19-27% 향상된 성능을 보여주며, 코드는 https //github.com/develop-yang/ARISE에서 이용 가능합니다.

paper AI 요약
데이터 복잡도로 모델 성능 예측, 새로운 방법론

데이터 복잡도로 모델 성능 예측, 새로운 방법론

딥러닝 모델은 컴퓨터 비전을 포함한 다양한 분야에서 널리 사용되고 있다. 모델 유도 과정에서는 주어진 데이터셋에 적합한 아키텍처를 선택하는 데 반복적인 시도와 오류 절차가 종종 필요하다. 이 절차는 시간이 많이 소요되고 자원을 많이 사용하며 자동화하기 어렵다. 이전 연구에서는 부분적 학습이나 복잡한 시뮬레이션을 활용해 성능 예측을 탐구하였으나, 이러한 방법들은 종종 큰 계산 부담을 필요로 하거나 일반화 능력이 부족하다는 문제가 있다. 본 논문에서는 이에 대한 대안적인 접근 방식을 제시한다 데이터셋과 집중된 딥 모델 구조를 이해함으로써 학습 전 모델 성능을 추정할 수 있는 가벼운 두 단계 프레임워크다. 첫 번째 단계에서는 데이터셋의 측정 가능한 속성 분석을 기반으로 베이스라인 예측을 수행하고, 두 번째 단계에서는 모델 아키텍처와 하이퍼파라미터 세부 정보에 대한 추가 정보를 활용해 추정치를 조정한다. 이 구성은 프레임워크가 다양한 데이터셋과 모델 유형을 초월하여 일반화할 수 있게 한다. 더불어, 예측을 위한 일부 기본 특성 - 예컨대 데이터셋 변동성 -는 모델 선택에 대한 실제적 지침을 제공하고 데이터 품질의 조기 지표로도 활용될 수 있다. 결과적으로 이 프레임워크는 단순히 모델 성능을 예측하는 데만 그치지 않고 아키텍처 선택을 안내하며, 필요한 전처리 절차를 통보하고 학습 시작 전에 문제 있는 데이터셋을 검출하는 데도 활용될 수 있다.

paper AI 요약
데이터는 얼마나 필요한가? 낮은 차원 구조 하의 생성 및 시각-언어 모델을 위한 균일 수렴 경계

데이터는 얼마나 필요한가? 낮은 차원 구조 하의 생성 및 시각-언어 모델을 위한 균일 수렴 경계

이 연구는 이미지 분류 작업에서 다양한 컨볼루셔널 신경망(CNN) 아키텍처의 효과를 조사합니다. 우리는 사용자 정의 CNN 모델, ImageNet으로 미리 학습된 ResNet50을 이용한 파인튜닝, 그리고 순수 데이터 주도 접근법을 비교했습니다. 우리의 결과는 사용자 정의 모델이 유연성을 제공하지만, 광범위한 튜닝이 필요함을 시사합니다. 이미 미리 학습된 모델은 매개변수 조정 노력 없이 우수한 성능을 보여주며, 전이학습은 고도의 정확도를 달성하기 위한 효과적인 단축 경로임을 나타냅니다.

paper AI 요약
동적 대형 개념 모델  적응적 의미 공간에서의 잠재적 추론

동적 대형 개념 모델 적응적 의미 공간에서의 잠재적 추론

대형 언어 모델(Large Language Models, LLMs)은 자연어 처리에서 큰 성공을 거두었지만, 이들 모델은 모든 토큰에 동일한 계산을 적용하는 통상적인 가정을 가지고 있다. 본 논문에서는 이 제약을 벗어나, [[IMG_PROTECT_N]] 동적 대형 개념 모델(Dynamic Large Concept Model, DLCM)을 제안한다. DLCM은 토큰 수준의 예측에 필요한 계산량을 최소화하고, 정보 밀도가 높은 부분에 더 많은 계산 자원을 할당함으로써 효율성을 극대화한다.

paper AI 요약
동적 모델 연합 그래프로 실시간 이상 감지

동적 모델 연합 그래프로 실시간 이상 감지

온라인 시간 시리즈 이상 감지는 데이터 포인트가 정상적인 시간 패턴에서 크게 벗어나는 것을 식별하는 작업입니다. 이 연구에서는 고주파수 데이터의 급증과 실시간 모니터링에 대한 요구 증대로 인해 오프라인 분석에서 온라인 처리로 주목이 이동했습니다. GDME(GRAPH 기반 시간 시리즈 이상 감지 모델 앙상블 프레임워크)은 이러한 문제를 해결하기 위해 그래프 구조와 커뮤니티 검출, 개념 유동성 탐지를 통합한 새로운 접근 방식을 제시합니다.

paper AI 요약
두단계 의사결정-표본 추측 가설  RL 트레이닝된 대형 언어 모델에서의 자반성의 등장 이해

두단계 의사결정-표본 추측 가설 RL 트레이닝된 대형 언어 모델에서의 자반성의 등장 이해

이 논문에서는 대형 언어 모델에서 자기 반성 능력이 어떻게 생겨나는지에 대한 이론적 해석을 제시합니다. 특히, 강화학습(RL) 훈련 과정에서 이러한 능력이 발달하는 메커니즘과 이를 기존의 감독 학습(SFT) 훈련과 어떻게 구별할 수 있는지에 대해 설명합니다.

paper AI 요약
리소스 제약된 소매 판매 예측을 위한 LSTM 신경망 최적화  모델 압축 연구

리소스 제약된 소매 판매 예측을 위한 LSTM 신경망 최적화 모델 압축 연구

이 논문은 LSTM 압축을 통해 소매 판매 예측의 정확도를 향상시키는 방법을 연구했습니다. 특히, 128개 숨겨진 유닛에서 64개로 축소한 LSTM-64 모델이 가장 높은 성능을 보였으며, 이 모델은 기존보다 73% 더 작고 정확도는 47% 향상되었습니다. 이러한 결과는 소매업체가 제약된 컴퓨팅 자원에서도 효과적인 예측을 수행할 수 있게 해줍니다.

paper AI 요약
마음속 게임  다중 장르 게임과 기계 학습을 이용한 소프트웨어 개발자 인성-업무 적합도 예측

마음속 게임 다중 장르 게임과 기계 학습을 이용한 소프트웨어 개발자 인성-업무 적합도 예측

인성 평가는 현대의 다양한 의사결정 과정에서 중요한 역할을 합니다. 인성을 평가하는 질문지에는 자기보고 편향, 피로, 문항 오해 등의 문제가 있습니다. 게임은 이러한 문제를 해결하기 위한 대안으로 떠오르고 있으며, 여러 연구에서 게임 내 행동과 성격 특성 간의 관계를 분석하고 있습니다. 이 논문에서는 소프트웨어 개발자와 관련된 특정 직업에 맞는 MBTI와 행동 특성을 결합한 새로운 게임 기반 평가 프레임워크를 제안합니다.

paper AI 요약
반복과 진화  더 나은 학습 문제 생성

반복과 진화 더 나은 학습 문제 생성

최근의 추론 모델 개발은 수학과 코딩 분야에서 인상적인 성과를 보여주고 있다. 그러나 대부분의 접근 방법은 정적 데이터셋에 의존하고 있으며, 이는 기억력 유도와 일반화 능력 제한을 초래할 가능성이 있다는 지적이 있다. 우리는 이러한 패러다임에서 벗어나 모델 훈련 과정에서 다채로운 종류의 합성 수학 문제를 함께 진화시키는 프레임워크인 DéjàQ를 소개한다. 이 진화적 과정은 훈련 과정 내내 모델의 능력에 맞춰 조정되어 학습 가능성 최적화를 목표로 한다. 모델 자체가 훈련 데이터를 변이시키는 두 가지 LLM 주도 전략을 제안하며, 이는 문맥적 세부 사항을 변경하거나 문제 구조를 직접 수정하는 방식으로 이루어진다. 우리는 모델이 새로운 의미 있는 문제를 생성할 수 있으며, 이러한 LLM 주도 변이가 강화 학습 훈련을 개선한다는 것을 발견했다. DéjàQ의 핵심 요소인 생성된 문제의 유효성과 계산 부담 등을 분석한다. 우리의 결과는 동적으로 진화하는 훈련 데이터가 수학적 추론 능력을 강화할 잠재력을 보여주며, 이를 지원하기 위해 코드를 오픈 소스로 공개할 예정이다.

paper AI 요약
밴디크  다중과제 분해의 새 지평

밴디크 다중과제 분해의 새 지평

다중 작업 간에 효과적으로 지식을 전이하는 과제는 중요하며, 기반 모델의 하류 작업에서도 존재합니다. 그러나 전이의 이동성 비이동성 성질은 여전히 개방적인 문제이며, 부정적 전이는 중요한 장애물입니다. 다중 작업 학습에서 유익한 보조 작업 집합을 선택하는 것은 그 평가에 따른 높은 계산 비용, 가능한 후보 보조 작업 집합의 큰 수량, 그리고 대상 작업 간 복잡성 차이로 자주 방해받습니다. 이러한 제약 조건을 해결하기 위해 우리는 다중 밴딧을 사용한 세 단계 다중 작업 보조 작업 부분 선택 방법인 BandiK을 소개합니다. 각 팔 당 후보 보조 작업 집합은 단일 무작위 학습-테스트 데이터셋 분할에서 다중 출력 신경망의 학습과 테스트를 통해 평가됩니다. 첫 번째로, BandiK은 작업 간 쌍방향 전이를 추정하여 공동 학습으로부터 이익을 얻을 가능성이 높은 작업들을 식별하는 데 도움을 줍니다. 두 번째 단계에서는 초기 추정에 기반해 각 대상 작업에 대해 보조 작업 후보 집합의 선형 수(전체 작업 수에서)를 생성하여 잠재적인 보조 작업 집합의 지수적 수량을 크게 줄입니다. 세 번째로, BandiK은 각 작업에 대해 다중 팔 밴딧(MAB) 프레임워크를 사용하며, 이때 팔들은 후보 보조 작업 집합이 학습-테스트 데이터셋 분할에서 다중 출력 신경망으로 구현된 성능을 대응합니다. 효율성을 높이기 위해 BandiK은 각각의 작업별 MAB를 다중 밴딧 구조로 통합합니다. 제안된 다중 밴딧 솔루션은 동일한 신경망이 주어진 후보 집합에 대한 개별 밴딧들의 다양한 팔을 실현한다는 점에서 이점을 활용합니다. 이러한 부분 겹침 팔 특성은 BandiK에서 사용되는 새로운 형태의 다중 밴딧 비용/수익 구조를 정의합니다.

paper AI 요약
비트를 넘어  극한 양자화를 위한 다중 캡슐 이중 이진 인수분해

비트를 넘어 극한 양자화를 위한 다중 캡슐 이중 이진 인수분해

이 논문은 DBF의 성능 한계를 극복하기 위해 Multi-Envelope Double Binary Factorization (MDBF)을 제안한다. MDBF는 기존의 단일 랭크 평가 범위에 제한된 이진 패턴 대신, 여러 개의 평가 범위 모드를 사용하여 정확도를 향상시킨다. 이를 통해 1비트에서 2비트까지의 저정밀도에서도 높은 성능을 유지할 수 있다.

paper AI 요약
No Image

상태 공간 모델과 트랜스포머의 장기 컨텍스트 다이어딕 세션에서의 계산 및 표현 효율 비교 연구

상태 공간 모델(SSMs)은 오랜 문맥 시퀀스 모델링에 있어서 변형자(Transformer)의 대안으로 주목받고 있으며, 변형자의 $O(N^2)$ 스케일링과 비교하여 선형적인 $O(N)$ 계산 복잡도를 제공합니다. 본 논문은 Mamba SSM이 LLaMA 변형자를 오랜 문맥 시퀀스에서 어떻게 비교되는지에 대한 포괄적인 벤치마킹 연구를 제시하며, 이를 위해서는 이원 치료 세션이 대표적인 테스트 사례로 사용되었습니다. 두 아키텍처는 두 가지 차원을 통해 평가됩니다 (1) 계산 효율성, 여기서 512에서 8,192 토큰까지 메모리 사용량과 추론 속도를 측정하고, (2) 표현력 효율성, 여기서는 숨겨진 상태 동역학과 주의 패턴을 분석합니다. 우리의 발견은 오랜 문맥 응용 프로그램을 다루고 있는 실무자들에게 행동 가능한 통찰력을 제공하며, SSM이 변형자보다 우위에 설 수 있는 정확한 조건을 설정합니다.

paper AI 요약
선호도 기반 강화학습의 특징 종속 노이즈 평가

선호도 기반 강화학습의 특징 종속 노이즈 평가

딥 강화 학습(Deep RL)은 최근 다양한 분야에서 성공을 거두고 있으나, 적합한 보상 함수를 정의하는 것은 여전히 도전적이다. 이 연구에서는 선호 기반 강화 학습(PbRL)에서 비전문가 교사로부터 받는 피드백에 의해 발생하는 특징 종속 잡음을 모델링하고 평가한다. 이를 통해 RL 에이전트의 성능 향상을 추구하며, 다양한 상태-작업 공간에서 발생할 수 있는 다양한 유형의 특징 종속 잡음에 대해 논의한다.

paper AI 요약
수학적 논리의 스펙트럼 지문  유효성 체크 방법

수학적 논리의 스펙트럼 지문 유효성 체크 방법

대형 언어 모델(LLM)의 수학적 추론 작업에서 탁월한 성과는 이러한 모델들의 출력을 이해하고 검증하는 데 관심을 집중시켰습니다. 본 논문은 스펙트럼 그래프 이론에 기반한 새로운 접근법을 제안하며, 이 방법은 주의 메커니즘을 통해 생성된 가중 그래프의 스펙트럼 특성을 분석하여 추론의 유효성을 검증합니다. 실험 결과, 이 방법은 다양한 모델에서 82.8–85.9%의 정확도를 보였으며, 특히 로직적 일관성이 있는 증명을 식별하는 데 효과적이었습니다.

paper AI 요약
스마트플로우  바이크 균형자

스마트플로우 바이크 균형자

SmartFlow는 강화학습과 에이전트 기반 인공지능을 통합한 다층적 프레임워크로, 도시 자전거 공유 서비스에서 발생하는 동적인 재균형 문제를 해결합니다. 그 구조는 전략적, 전술적, 그리고 커뮤니케이션 기능을 분리하여 명확성과 확장성을 보장하고 있습니다. 전략 수준에서는 뉴욕의 Citi Bike 네트워크를 고대비 시뮬레이션에서 학습한 딥 Q-네트워크(DQN) 에이전트가 마르코프 의사결정 과정으로 문제를 모델링하여 견고한 재균형 정책을 학습합니다. 이러한 고수준 전략은 다중 구간 여행을 최적화하고 단시일 내에 출동할 수 있도록 스케줄링하여 차량의 이동 거리를 최소화하는 결정론적 전술 모듈로 전달됩니다. 여러 시드를 이용한 실행을 통해 SmartFlow의 높은 효율성이 입증되었으며, 네트워크 불균형을 95% 이상 감소시키고 최소한의 이동 거리와 높은 트럭 활용도를 달성하였습니다. 커뮤니케이션 계층은 대규모 언어 모델(LLM)을 갖춘 기반 에이전트 AI로 구동되어 물류 계획을 현장 직원에게 명확하고 실행 가능한 지시사항으로 전달하여 해석 가능성과 실행 준비성을 보장합니다. 이 통합은 기계 지능을 인간 운영과 연결함으로써, 유휴 시간을 줄이고 자전거 이용 가능성을 향상시키며 운용 비용을 낮추는 확장 가능한 해결책을 제공합니다. SmartFlow는 복잡한 도시 이동 네트워크에서 해석 가능하고 AI 기반의 물류를 위한 청사진을 제시합니다.

paper AI 요약
시놉틱 팟캐스트 대화, 영상 모델이 도전하다!

시놉틱 팟캐스트 대화, 영상 모델이 도전하다!

본 논문에서는 시각적 콘텐츠를 이용하여 증폭된 팟캐스트 대본을 생성하는 방법을 제안한다. 기존의 시각 언어 모델(VLM)이 단순히 사실적인 설명에 그치는 반면, 본 연구는 이러한 시각적 입력을 풍부하고 자연스러운 다중 회화로 전환하는 데 초점을 맞춘다. 이를 위해 개발된 SPoRC-VIST 벤치마크는 합성 이미지와 실제 사진 간의 일반화 성능을 검증한다. ###

paper AI 요약
신경망 사슬과 이산 동역학 시스템

신경망 사슬과 이산 동역학 시스템

우리는 변환 아키텍처를 기반으로 하는 머신 러닝(ML) 응용 프로그램과 이산 동역학 시스템 간의 유사성을 검토합니다. 여기서 neural chains 는 자기 주의 없이 변환 아키텍처에 기반한 것입니다. 또한, 비저키 Burgers 방정식과 Eikonal 방정식을 표준 수치 방법과 PINN 학습을 통해 해결하는 비교 분석을 제공합니다. 이 논문은 표준 수치 방법과 PINN 학습이 동일한 시스템 역학에 대한 지식을 얻는 두 가지 다른 경로를 제공한다는 것을 발견했습니다. 그러나 PINN 학습의 경우, 무작위 행렬이 고유한 삼중대각 형태보다 훨씬 더 많은 솔루션을 제공함으로써 학습 비용과 물리적 투명성이 떨어집니다.

paper AI 요약
실시간 대화형 아바타 생성  어바탄 포싱으로 자연스러운 상호작용

실시간 대화형 아바타 생성 어바탄 포싱으로 자연스러운 상호작용

대화형 아바타 생성은 정적인 초상화에서 가상 커뮤니케이션 및 콘텐츠 제작을 위한 실감나는 아바타를 생성합니다. 하지만 현재 모델들은 진정한 상호 작용의 느낌을 전달하지 못하며, 종종 감정적 관여가 부족한 일방통행 응답을 생성합니다. 우리는 진정한 상호 작용 아바타로 나아가는 두 가지 주요 과제를 식별하였습니다 인과 제약 하에서 실시간 동작 생성 및 추가 라벨 데이터 없이 표현력 있고 활기찬 반응 학습입니다. 이러한 과제들을 해결하기 위해, 저희는 확산 강제를 통해 사용자와 아바타 간의 실시간 상호 작용을 모델링하는 새로운 프레임워크인 아바타 강제(Avatar Forcing)를 제안합니다. 이 디자인은 음성과 동작을 포함한 사용자의 다중 입력을 저 지연으로 처리하여 말, 고개 끄덕임, 웃음 등 언어적 및 비언어적 시그널에 대한 즉각적인 반응을 가능하게 합니다. 또한 저희는 사용자 조건을 제거하여 구성된 합성 손실 샘플을 활용하는 직접 선호도 최적화 방법을 소개합니다. 이는 라벨 없는 표현력 있는 상호 작용 학습을 가능케 합니다. 실험 결과는 우리의 프레임워크가 저 지연(약 500ms)의 실시간 상호 작용을 가능하게 하며, 기준선에 비해 6.8배 빠른 속도를 달성하고, 반응적이고 표현력 있는 아바타 동작을 생성함으로써 기준선 대비 80% 이상 선호되는 결과를 보여줍니다.

paper AI 요약
알츠하이머 예측, 뇌 네트워크 규칙 학습으로 이해하기

알츠하이머 예측, 뇌 네트워크 규칙 학습으로 이해하기

알츠하이머병(AD)은 신경퇴행성 질환으로, 뇌에 아밀로이드-베타 플라크와 타우 단백질 섬유가 축적되는 특징을 가진다. 이 연구에서는 AD의 진행과 발현 사이의 구조적 뇌 네트워크와 관련성을 이해하기 위해, 통계적 기계 학습 방법과 olic machine learning 방법을 결합한 새로운 접근법인 LearnAD를 제안한다. LearnAD는 MRI 데이터에서 추출된 특징들을 이용하여 AD를 예측하고, 이를 통해 뇌의 구조적 패턴이 AD에 어떻게 영향을 미치는지 학습한다.

paper AI 요약
알파 발산 선호 최적화  APO

알파 발산 선호 최적화 APO

이 연구는 주의 메커니즘을 사용한 자연어 처리(NLP) 작업에 대한 새로운 접근 방식을 소개합니다. 이 모델은 입력 텍스트의 다양한 부분에 대한 집중력을 동적으로 조정함으로써 감성 분석의 정확도를 크게 개선했습니다. 본 논문에서는 여러 데이터셋에서 전통적인 방법들보다 일관된 성능 향상을 보여주는 실험 결과도 제시합니다.

paper AI 요약
엔트로피 적응 튜닝으로 잊히는 것을 막자  확신 갈등 해결

엔트로피 적응 튜닝으로 잊히는 것을 막자 확신 갈등 해결

감독 학습 조정(Supervised Fine-Tuning, SFT)은 대형 언어 모델(LLMs)을 특정 도메인에 맞게 적응시키는 표준 방법입니다. 그러나 이 방식은 치명적인 잊힘(catastrophic forgetting)이라는 큰 비용을 초래합니다. 반면, 온-폴리시 강화 학습(on-policy RL)은 도메인별 성능을 향상시키면서 기반 모델의 견고성을 효과적으로 유지하는 데 유명합니다. 이 두 방법론 사이의 극적인 차이는 특정 질문을 제기합니다 SFT가 일반 능력을 악화시킬 때 왜 온-폴리시 RL은 이를 유지할 수 있는지? 본 연구는 이 현상에 대한 메커니즘을 체계적으로 분석하고, 이를 통해 Confident Conflicts 라는 개념을 도입하여 SFT에서의 치명적인 잊힘의 원인을 밝혀냅니다. 또한, 엔트로피-적응 조정(Entropy-Adaptive Fine-Tuning, EAFT)이라는 새로운 방법론을 제안합니다.

paper AI 요약
역사적 활성화로부터의 그래프 신경망 학습

역사적 활성화로부터의 그래프 신경망 학습

그래프 신경망(GNN)은 사회적 네트워크, 분자 화학 등 다양한 영역에서 뛰어난 성과를 보여주고 있다. GNN의 핵심 구성 요소 중 하나는 풀링 프로시저로, 모델에 의해 계산된 노드 특징을 조합하여 최종적으로 하류 작업에 사용될 정보가 풍부한 설명자 형태로 만들어내는 과정이다. 그러나 이전의 그래프 풀링 방식은 풀링이나 분류기 층에 GNN 마지막 계층의 특징을 입력으로 사용하므로, 모델의 전방 패스 중 생성된 이전 계층의 중요한 활성화를 충분히 활용하지 못하는 경우가 있다. 이를 우리는 역사적 그래프 활성화라고 부른다. 특히 많은 그래프 신경망 계층을 통과하면서 노드 표현이 크게 변화할 수 있는 경우, 또는 깊은 아키텍처에서 과도한 평활화와 같은 그래프 특수 도전 과제로 인해 이러한 간극이 더욱 두드러진다. 이 간극을 해소하기 위해 우리는 HISTOGRAPH라는 새로운 단계별 주의 기반 최종 통합 층을 제안한다. HISTOGRAPH는 중간 활성화에 대해 일관된 계층별 주의를 적용한 후 노드별 주의를 사용한다. 노드 표현의 계층 간 진화를 모델링함으로써, 우리의 HISTOGRAPH는 노드의 활성화 기록과 그래프 구조 모두를 활용하여 최종 예측에 사용되는 특징을 정교하게 세분화한다. 여러 그래프 분류 벤치마크에서의 실증적 결과는 HISTOGRAPH가 전통적인 방법보다 일관되게 우수한 성능을 제공하며, 특히 깊은 GNN에서 강력한 견고성을 보여준다는 것을 입증하고 있다.

paper AI 요약
연방훈련에서 클러스터링 집약과 조절을 통한 사기저항형 민감도 인식 최소화

연방훈련에서 클러스터링 집약과 조절을 통한 사기저항형 민감도 인식 최소화

연방 학습(FL)은 데이터 프라이버시를 유지하면서 분산된 엣지 기기 간의 협력적 모델 훈련을 가능하게 합니다. 그러나 클라이언트들 사이에 통계적인 이질성이 존재하며, 이는 종종 비IID 레이블 분포로 나타나며 수렴과 일반화에 대한 주요 도전 과제를 제기합니다. 예리도 인식 최소화(SAM)가 FL에 도입되어 평평하고 더 견고한 극소점을 찾아내도록 설계되었지만, 기존 접근법들은 보통 모든 클라이언트에 대해 일률적인 펨터베이션 반경을 적용하며 클라이언트별 이질성을 무시합니다. 본 연구에서는 클라이언트별 이질성 점수에 따라 SAM의 펨터베이션 반경과 집합 가중치를 동적으로 조정하는 새로운 알고리즘, 연방 예리도 인식 최소화와 군집 집합 및 모듈레이션(FedSCAM)을 제안합니다. 각 클라이언트에 대한 이질성 지표를 계산하고 이를 반대로 펨터베이션 반경을 조정함으로써, FedSCAM은 높은 분산을 가진 클라이언트들이 글로벌 모델을 불안정하게 하는 것을 방지합니다. 또한, 글로벌 최적화 방향과 일치하는 업데이트를 우선시하는 이질성 인식 가중 집합 메커니즘을 도입하였습니다. 다양한 정도의 디리클레 기반 레이블 왜곡 조건 하에서 CIFAR-10 및 Fashion-MNIST에 대한 광범위한 실험을 통해, FedSCAM은 수렴 속도와 최종 테스트 정확도 측면에서 FedSAM, FedLESAM 등 최신 기준들과 경쟁력을 갖추는 것을 보여주었습니다.

paper AI 요약
오픈판гу 모델의 사후 양자화로 아틀라스 A2에 효율적 배포

오픈판гу 모델의 사후 양자화로 아틀라스 A2에 효율적 배포

본 논문에서는 딥러닝 기반의 컴퓨터 비전 모델을 사용하여 의료 이미지 분석에서의 성능 개선에 초점을 맞춥니다. 특히, CNN(컨볼루션 신경망)과 RNN(순환 신경망)을 결합한 하이브리드 모델의 효과를 평가합니다. 실험 결과는 기존 모델 대비 정확도와 효율성 측면에서 개선된 성능을 보여줍니다.

paper AI 요약
인포메이션 이론을 활용한 보상 모델의 귀납적 편향 제거

인포메이션 이론을 활용한 보상 모델의 귀납적 편향 제거

이 연구는 기후 변화가 연안 생태계에 미치는 영향을 1980년부터 2020년까지의 역사적 데이터를 분석하여 조사했습니다. 연구 결과, 상승하는 바닷물 온도로 인해 다양한 종들의 사라짐과 이동이 발생한 것으로 나타났습니다. 또한 국제 협력이 효과적인 보존 전략에 중요한 역할을 한다는 점을 강조하고 있습니다.

paper AI 요약
No Image

장기 호izons LLM 강화학습을 위한 신뢰 영역 마스킹

이 논문에서는 다양한 데이터셋에 적용된 딥 러닝 모델의 효과적인 학습 방법을 탐구한다. 우리의 주요 관심사는 전통적 감독 학습, 사전 훈련된 모델을 이용한 트랜스퍼 러닝, 그리고 자체 감독 학습 세 가지 패러다임을 비교하는 것이다. 우리는 각 방법이 어떤 조건에서 가장 효과적인지에 대한 통찰력을 제공하려고 한다.

paper AI 요약
적응 베이지안 부분공간 0차 최적화를 통한 강건하고 효율적인 대형 언어 모델 미세조정

적응 베이지안 부분공간 0차 최적화를 통한 강건하고 효율적인 대형 언어 모델 미세조정

본 논문에서는 Bayesian Subspace Zeroth-order Optimization(이하 BSZO) 알고리즘을 제안한다. 이 알고리즘은 베이지안 추론과 칼만 필터링을 활용하여 다양한 방향의 페르튜베이션에 대한 기울기 정보를 통합하고, 이를 통해 메모리 사용량을 줄이는 동시에 수렴 속도를 개선한다. 실험 결과는 BSZO가 다양한 작업에서 뛰어난 성능을 보이며, 특히 저정밀도 학습에서도 안정적으로 작동함을 입증한다.

paper AI 요약
첨단 알고리즘으로 보는 콘크리트의 미래

첨단 알고리즘으로 보는 콘크리트의 미래

이 논문은 콘크리트 구조물에서 염화물의 시간에 따른 변화가 어떻게 영향을 받는지 결정하기 위해 데이터 기반 접근 방식을 사용합니다. 이것은 공격적인 환경에 노출된 시민 인프라의 수명을 평가하는 데 중요합니다. 채택한 방법론은 간단하고 복잡한 독립적인 머신 러닝(ML) 알고리즘에 의존하며, 주요 목표는 숨겨진 상관 관계를 공정하게 예측할 수 있는 신뢰성을 확립하는 것입니다. 간단한 알고리즘에는 선형 회귀(LR), k-최근접 이웃(KNN) 회귀, 커널 리지 회귀(KRR)가 포함됩니다. 복잡한 알고리즘에는 지원 벡터 회귀(SVR), 가우시안 프로세스 회귀(GPR), 그리고 두 가지 유형의 인공 신경망이 포함되며 이는 다중 계층 퍼셉트론(MLP)과 게이트 순환 단위(GRU)를 포함합니다. MLP 아키텍처는 시퀀셜 데이터를 명시적으로 처리할 수 없으나, GRU가 이를 해결하고 있습니다. 포괄적인 데이터셋을 고려하였습니다. ML 알고리즘의 성능은 평가되었으며 KRR, GPR 및 MLP는 높은 정확도를 보였습니다. 채택된 콘크리트 혼합 비율이 다양하기 때문에 GRU는 테스트 세트에서 반응을 정확하게 재현할 수 없었습니다. 추가 분석은 혼합 성분들이 염화물의 시간에 따른 변화에 어떤 영향을 미치는지 명시하였습니다. GPR 모델로 얻어진 결과는 명확하고 설명 가능한 추세를 통해 잠재적인 상관 관계를 밝혀냅니다. MLP, SVR 및 KRR도 전체적인 추세의 적절한 예측을 제공합니다. 대부분의 혼합 성분은 염화물 함량과 역 관계를 보이지만 몇 가지 구성 요소는 직접적인 관련성을 나타내었습니다. 이러한 결과는 염화물 침투와 관련된 물리적 과정 및 상관 관계를 설명하기 위한 대리 접근 방식의 가능성을 강조하며, 궁극적으로 시민 인프라의 수명을 향상시키기 위한 목표를 달성하는 데 기여합니다.

paper AI 요약
출력 임베딩 중심화  대형 언어 모델 안정화

출력 임베딩 중심화 대형 언어 모델 안정화

대형 언어 모델의 사전 학습은 비용이 많이 들 뿐만 아니라 특정 트레이닝 불안정성에 노출되기 쉽습니다. 특히 큰 학습률을 사용할 때 마지막 부분에서 자주 발생하는 특정 불안정성이 출력 로짓 발산입니다. 가장 널리 사용되는 완화 전략인 z-손실은 문제의 증상을 다루는 데 그치고 근본 원인을 해결하지 않습니다. 본 논문에서는 출력 임베딩의 기하학적 관점에서 불안정성을 분석하고 그 원인을 파악하였습니다. 이를 바탕으로 새로운 완화 전략인 출력 임베딩 센터링(OEC)을 제안하고, 이가 출력 로짓 발산을 억제한다는 것을 증명합니다. OEC는 확률적 작업인 μ-센터링 또는 정규화 방법인 μ-손실로 두 가지 다른 방식으로 구현될 수 있습니다. 실험 결과, 두 변형 모두 z-손실보다 학습 안정성과 학습률 민감도 측면에서 우수한 성능을 보여주며, 특히 큰 학습률에서도 z-손실이 실패할 때에도 훈련이 수렴하도록 보장합니다. 또한 μ-손실은 z-손실보다 정규화 하이퍼파라미터 조정에 대해 크게 덜 민감하다는 것을 발견하였습니다.

paper AI 요약
코드 복잡성으로 숫자로 바꾸는 방법

코드 복잡성으로 숫자로 바꾸는 방법

알고리즘 분류는 컴퓨터 과학에서 중요한 문제로, 코드 조각에 사용된 프로그래밍 기법과 특정 알고리즘을 식별하는 것을 목표로 합니다. 이 작업은 코드의 의미론적 이해를 필요로하며 이를 통해 코드 취약성 검출이나 자동 코드 생성 도우미 설계 등 다양한 응용 분야에서 통찰력을 제공할 수 있습니다. 본 논문에서는 정적 코드 분석이 아닌 동적 분석을 중점적으로 다룹니다. 알고리즘이 어떻게 작동하는지 실제 실행 부분을 분석하여 리소스 사용량(예 CPU 시간, 메모리)이 입력 크기에 따라 어떻게 변화하는지를 조사합니다. ###

paper AI 요약
큰 언어 모델에서 베이지안 추론의 기하학적 확장

큰 언어 모델에서 베이지안 추론의 기하학적 확장

이 연구는 세 가지 다른 CNN 기반 패러다임—전통적인 파인튜닝, 트랜스퍼 러닝, 그리고 커스텀 모델 학습—이 다양한 데이터셋에서 분류 정확도를 향상시키는 데 얼마나 효과적인지 조사합니다. 결과적으로, 전통적인 파인튜닝은 특정 상황에서는 높은 정확도를 달성할 수 있지만, 트랜스퍼 러닝은 다양한 데이터 유형에 더 유연한 접근 방식을 제공한다는 것을 나타냅니다.

paper AI 요약
하이퍼클로바 X 8B 옴니

하이퍼클로바 X 8B 옴니

HyperCLOVA X 8B Omni(OMNI)는 텍스트, 음성, 비전 모달을 모두 입력과 출력으로 지원하는 다중모달 모델입니다. 이 모델은 하나의 디코더-온리 Transformer 백본에서 다양한 모달의 토큰과 임베딩을 교차로 처리하여 의미적 구성이 가능하게 설계되었습니다. OMNI는 다양한 입력 및 출력 모달에 걸친 경쟁력 있는 성능으로, 특히 한글과 영어를 다루는 데 강점을 가지고 있습니다.

paper AI 요약
한 샷으로 안전 보장  단 하나의 예제로 모델 교정하기

한 샷으로 안전 보장 단 하나의 예제로 모델 교정하기

대규모 언어 모델(LLMs)의 널리 퍼진 사용은 기만, 폭력 및 차별과 같은 유해한 콘텐츠 생성 가능성에 대한 우려를 제기했습니다. 이를 해결하기 위해 안전 정합성이 핵심 패러다임으로 부상했으며, 이를 위한 일반적인 접근 방식은 감독 조정(SFT) 및 인간 피드백 기반 강화학습(RLHF), 직접적 선호도 최적화(DPO) 등입니다. 그러나 사용자가 제공한 데이터를 조정 파이프라인에 도입하면 새로운 보안 취약성이 발생합니다. 이를 해결하기 위해, 본 논문은 한 번의 안전 업데이트만으로도 유해한 업데이트를 중화시킬 수 있다는 것을 밝히며, 이 방법을 통해 모델의 안전성을 복원할 수 있음을 보여줍니다.

paper AI 요약
No Image

해석 가능성 지향적 이목표 최적화 정확성과 설명 가능성을 맞춤

딥러닝 모델은 의료와 금융 분야에서 시퀀스 예측 작업에 뛰어난 성과를 보여주지만, 그 복잡성으로 인해 이해하기 어려운 블랙박스 가 되어 안전성이 중요한 상황에서는 신뢰성이 낮아진다. 본 논문은 학습 과정에서 해석 가능성을 통합하는 프레임워크 **IGBO(Interpretability-Guided Bi-objective Optimization)**을 제안한다. IGBO는 주요 작업 손실과 해석 가능성 손실을 최소화하는 두 가지 목표를 동시에 추구하며, 이를 위해 데이터 분포에 맞춘 통합 경로를 생성하는 최적 경로 오라클도 도입한다.

paper AI 요약
확장된 정규화 증거 심층 학습 모델  이론과 종합 평가

확장된 정규화 증거 심층 학습 모델 이론과 종합 평가

Evidential deep learning (EDL) models, based on Subjective Logic, introduce a principled and computationally efficient way to make deterministic neural networks uncertainty-aware. The resulting evidential models can quantify fine-grained uncertainty using learned evidence. However, the Subjective-Logic framework constrains evidence to be non-negative, requiring specific activation functions whose geometric properties can induce activation-dependent learning-freeze behavior a regime where gradients become extremely small for samples mapped into low-evidence regions. We theoretically characterize this behavior and analyze how different evidential activations influence learning dynamics. Building on this analysis, we design a general family of activation functions and corresponding evidential regularizers that provide an alternative pathway for consistent evidence updates across activation regimes. Extensive experiments on four benchmark classification problems (MNIST, CIFAR-10, CIFAR-100, and Tiny-ImageNet), two few-shot classification problems, and blind face restoration problem empirically validate the developed theory and demonstrate the effectiveness of the proposed generalized regularized evidential models.

paper AI 요약
효율적인 시간 시리즈 예측을 위한 로우 랭크 신경ODE로 강화된 Mamba 모델

효율적인 시간 시리즈 예측을 위한 로우 랭크 신경ODE로 강화된 Mamba 모델

시간 시리즈 예측은 기계 학습과 통계에서 중요한 작업으로, 금융, 의료, 기후 모델링 등 다양한 실제 세계의 응용 프로그램을 지원합니다. 시간 시리즈 예측은 비선형 동역학, 장기 종속성 및 불규칙한 샘플링 패턴과 같은 복잡한 데이터 특성을 처리해야 하므로 여전히 어려움이 있습니다. 본 논문에서는 이러한 문제들을 해결하기 위해 Mamba 구조와 저순위 근사화를 통합하는 새로운 프레임워크인 MODE를 제안합니다.

paper AI 요약
흐름에 따른 세계 모델  기억이 더해진 동적 환경 이해

흐름에 따른 세계 모델 기억이 더해진 동적 환경 이해

이 논문은 부분적으로 관찰되는 동적 환경 모델링과 이를 수행하는 에이전트의 자체 움직임을 연구합니다. 특히, 내부와 외부 움직임을 수학적인 흐름 으로 이해하고, 이를 통해 시간에 따른 대칭성을 처리할 수 있음을 보여줍니다. 이러한 접근법은 비록 에이전트의 시야가 제한적이지만 환경의 전체적인 상태를 정확하게 추적하는 데 도움을 줍니다. ###

paper AI 요약

< 분야별 논문 현황 (Total: 566) >

Quantum Physics
5

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키