
스페이스타임 파일럿 공간과 시간을 자유롭게 조작하는 비디오 생성 모델
본 논문은 단일 동영상에서 새로운 시점과 시간 조절을 가능하게 하는 첫 번째 비디오 확산 모델, SpaceTimePilot를 소개합니다. 이 모델은 공간적 시점을 조정하는 것과 더불어 시간을 자유롭게 조작할 수 있는 능력을 가지고 있습니다.
모든 게시글 목록입니다. 최신순으로 정렬되어 있습니다.

본 논문은 단일 동영상에서 새로운 시점과 시간 조절을 가능하게 하는 첫 번째 비디오 확산 모델, SpaceTimePilot를 소개합니다. 이 모델은 공간적 시점을 조정하는 것과 더불어 시간을 자유롭게 조작할 수 있는 능력을 가지고 있습니다.

LVLMs는 시각적 구성 요소를 통합한 대형 언어 모델(LLMs)로, GPT-4, GPT-5, LLaVa, Flamingo와 같은 다양한 다중모달 응용 프로그램에서 뛰어난 성능을 보여주고 있습니다. 그러나 시각적 요소의 통합은 새로운 취약점을 초래하며, 최근 연구는 LVLMs가 적대적인 공격에 약하다는 것을 드러냈습니다. 이러한 공격은 모델 내부에서 사용할 수 있는 기울기 정보를 필요로 하는데, 이는 계산적으로 비용이 많이 들고 블랙박스 환경에서는 제한적입니다. 본 논문에서는 ZO-SPSA라는 기울기 없는 블랙박스 공격 프레임워크를 제안하며, 이를 통해 LVLMs에서 안전 장벽을 무너뜨리는 효과적인 적대적 예제를 생성하는 방법을 설명합니다.

본 논문에서는 시각적 콘텐츠를 이용하여 증폭된 팟캐스트 대본을 생성하는 방법을 제안한다. 기존의 시각 언어 모델(VLM)이 단순히 사실적인 설명에 그치는 반면, 본 연구는 이러한 시각적 입력을 풍부하고 자연스러운 다중 회화로 전환하는 데 초점을 맞춘다. 이를 위해 개발된 SPoRC-VIST 벤치마크는 합성 이미지와 실제 사진 간의 일반화 성능을 검증한다. ###
대형 언어 모델(LLMs)은 내부적 공리적 프레임워크의 부재로 인해 복잡한 추론에서 지속적인 논리적 실패를 보입니다. 저희는 수학적 상태를 고차원 하이퍼그래프로 인코딩하고 제약 조건을 연속 에너지 풍경으로 매핑하는 미분 가능한 논리 엔진인 기호 추론 커널(SRK)을 사용하는 Mathesis라는 뉴로-기호 구조를 제안합니다. 모든 에너지 함수 E(G)를 정의하여 영 에너지는 논리적 일관성을 의미하며, SRK는 그래디언트 기반 신호를 생성해 하이퍼그래프 트랜스포머 뇌를 학습시키고 증명 검색을 에너지 최소화로 바꿉니다. 몬테카를로 트리 탐색과 진화 증명 탐색을 통해 학습된 가치 함수와 의미 통일에 의해 다단계 추론이 가능해집니다.

우리는 변환 아키텍처를 기반으로 하는 머신 러닝(ML) 응용 프로그램과 이산 동역학 시스템 간의 유사성을 검토합니다. 여기서 neural chains 는 자기 주의 없이 변환 아키텍처에 기반한 것입니다. 또한, 비저키 Burgers 방정식과 Eikonal 방정식을 표준 수치 방법과 PINN 학습을 통해 해결하는 비교 분석을 제공합니다. 이 논문은 표준 수치 방법과 PINN 학습이 동일한 시스템 역학에 대한 지식을 얻는 두 가지 다른 경로를 제공한다는 것을 발견했습니다. 그러나 PINN 학습의 경우, 무작위 행렬이 고유한 삼중대각 형태보다 훨씬 더 많은 솔루션을 제공함으로써 학습 비용과 물리적 투명성이 떨어집니다.
대화형 아바타 생성은 정적인 초상화에서 가상 커뮤니케이션 및 콘텐츠 제작을 위한 실감나는 아바타를 생성합니다. 하지만 현재 모델들은 진정한 상호 작용의 느낌을 전달하지 못하며, 종종 감정적 관여가 부족한 일방통행 응답을 생성합니다. 우리는 진정한 상호 작용 아바타로 나아가는 두 가지 주요 과제를 식별하였습니다 인과 제약 하에서 실시간 동작 생성 및 추가 라벨 데이터 없이 표현력 있고 활기찬 반응 학습입니다. 이러한 과제들을 해결하기 위해, 저희는 확산 강제를 통해 사용자와 아바타 간의 실시간 상호 작용을 모델링하는 새로운 프레임워크인 아바타 강제(Avatar Forcing)를 제안합니다. 이 디자인은 음성과 동작을 포함한 사용자의 다중 입력을 저 지연으로 처리하여 말, 고개 끄덕임, 웃음 등 언어적 및 비언어적 시그널에 대한 즉각적인 반응을 가능하게 합니다. 또한 저희는 사용자 조건을 제거하여 구성된 합성 손실 샘플을 활용하는 직접 선호도 최적화 방법을 소개합니다. 이는 라벨 없는 표현력 있는 상호 작용 학습을 가능케 합니다. 실험 결과는 우리의 프레임워크가 저 지연(약 500ms)의 실시간 상호 작용을 가능하게 하며, 기준선에 비해 6.8배 빠른 속도를 달성하고, 반응적이고 표현력 있는 아바타 동작을 생성함으로써 기준선 대비 80% 이상 선호되는 결과를 보여줍니다.

최근 언어 기술의 사회적 영향에 대한 관심이 증가함에 따라 자연언어 처리(NLP) 연구에서 윤리적인 측면을 다루는 교육 커리큘럼이 필요하게 되었다. 본 논문은 그로닝겐 대학교에서 개발된 NLP의 윤리적 측면 이라는 강좌를 소개한다. 이 강좌는 NLP 연구 및 적용에 있어 중요한 윤리적인 문제들을 다루며, 학생들이 이러한 문제들에 대해 이해하고 이를 사회적으로 다양한 관객에게 효과적으로 전달할 수 있는 능력을 기르도록 설계되었다.

정확한 그리드 로드 예측은 안전에 중요합니다 과소예측은 공급 부족의 위험을 초래하고, 대칭 오차 메트릭은 이러한 운영 비대칭성을 가리게 됩니다. 우리는 MAPE를 넘어서 일방적인 신뢰성 리스크를 정량화하기 위한 운영자에게 이해가 쉬운 평가 프레임워크 -- 과소예측률(UPR), 꼬리 예비율(Reserve$_{99.5}^{ %}$) 요구사항, 명시적인 부기 진단(Bias$_{24h}$/OPR) -- 을 도입합니다. 이 프레임워크를 사용하여 2023년 11월부터 2025년 11월까지의 캘리포니아 독립계통연산자(CAISO) 데이터(5개 지역 전송 영역을 아우르는 84,498건의 시 hourly 기록)에서 롤링-오리진 워크포워드 백테스트를 통해 상태공간 모델(Mamba 변종)과 강력한 베이스라인을 평가하고 이러한 구조에 대한 열 지연 정렬된 날씨 융합 전략을 개발 및 평가합니다. 우리의 결과는 표준 정확도 메트릭이 운영 안전성의 부적절한 대리지표임을 보여줍니다 MAPE가 유사하더라도 모델은 실질적으로 다른 꼬리 예비 요구사항(Reserve$_{99.5}^{ %}$)을 암시할 수 있습니다. 우리는 명시적인 날씨 통합이 오차 분포를 좁혀 온도에 따른 수요 급증의 영향을 감소시키는 것을 보여줍니다. 또한 확률적 교정은 큰 오류 이벤트를 줄이지만, 시스템적인 스케줄 부기로 이어질 수 있습니다. 우리는 꼬리 위험을 최소화하고 무의미한 과예측을 방지하는 객관적으로 평가 가능한 타협점을 가능하게 하는 Bias/OPR 제약 목표를 도입합니다.

알츠하이머병(AD)은 신경퇴행성 질환으로, 뇌에 아밀로이드-베타 플라크와 타우 단백질 섬유가 축적되는 특징을 가진다. 이 연구에서는 AD의 진행과 발현 사이의 구조적 뇌 네트워크와 관련성을 이해하기 위해, 통계적 기계 학습 방법과 olic machine learning 방법을 결합한 새로운 접근법인 LearnAD를 제안한다. LearnAD는 MRI 데이터에서 추출된 특징들을 이용하여 AD를 예측하고, 이를 통해 뇌의 구조적 패턴이 AD에 어떻게 영향을 미치는지 학습한다.

압축된 딥러닝 모델은 자원 제약이 있는 기기에 컴퓨터 비전 시스템을 배포하는 데 중요합니다. 하지만 모델 압축은 특히 자연적인 오염 조건에서 안정성을 저해할 수 있습니다. 따라서 컴퓨터 비전 시스템의 검증 과정에서는 안정성 평가를 고려하는 것이 중요합니다. 본 논문은 양자화, 가위 작업, 가중치 클러스터링을 개별적으로 또는 조합하여 적용한 압축 기법에 대한 포괄적인 평가를 제시하고 있습니다. 이 연구에서는 ResNet-50, VGG-19, 그리고 MobileNetV2와 같은 컨볼루션 신경망에 대해 CIFAR-10-C 및 CIFAR 100-C 데이터셋을 사용하여 안정성, 정확도, 압축 비율 간의 트레이드오프를 분석하였습니다. 우리의 결과는 특정 압축 전략이 복잡한 아키텍처를 가진 네트워크에서 안정성을 유지하거나 향상시킬 수 있음을 보여주고 있습니다. 다목적 평가를 활용하여 최선의 구성 설정을 결정하였으며, 맞춤형 기술 조합이 유익한 다목적 결과를 제공함을 나타내었습니다. 이 연구는 오염된 실제 환경에서 모델을 안정적이고 효율적으로 배포하기 위한 압축 방법 선택에 대한 통찰력을 제공합니다.

카메라 트랩 이미지는 야생동물 모니터링에서 가장 값진 데이터 소스 중 하나로, 생물다양성 보존과 기후 변화 연구에 중요한 역할을 합니다. 이러한 이미지들은 인간의 직접 개입 없이도 광범위한 데이터를 수집할 수 있는 비침해적이고 확장 가능한 방법을 제공합니다. 그러나 대규모 데이터셋에서 자동적인 동물 종 식별을 위한 기술은 필요합니다. 최근 연구에서는 Foundation Models (FMs)을 야생동물 모니터링에 적용하기 시작했으며, 이 모델들은 다양한 시각 인식 작업에서 뛰어난 성능을 보여주었습니다. 본 논문에서는 WildIng이라는 새로운 모델을 소개하며, 이 모델은 텍스트와 이미지를 통합하여 지리적 도메인 변동에 강한 특징을 추출합니다. ###

이 논문에서는 원격 감지 이미지 쌍에서 지표면 변화를 감지하는 문제에 대해 다룹니다. 이 작업은 심미적 변화 감지(Semantic Change Detection, SCD)라고 합니다. 최근 몇 년 동안 SCD는 큰 관심을 받았으며 많은 연구와 여러 분야의 조사가 이루어졌습니다. 기존 방법들은 주로 딥 러닝에 의존하여 3개의 신경망을 학습합니다 두 개의 심미적 맵과 이진 변화 맵을 출력하는 네트워크입니다. 그러나 이러한 모델을 훈련시키기 위해서는 픽셀 수준의 주석이 필요한데, 이를 얻는 것은 비용이 많이 들고 시간도 오래 걸립니다. 따라서 우리는 단일 시점 주석만 사용하여 이진 시점 쌍에 대한 변화 감지 네트워크를 훈련시키는 약한 지정 학습 프레임워크를 제안합니다.

본 논문은 언어 모델을 양자역학적 시스템으로 해석하는 방법을 제시합니다. 이를 통해 블랙박스로 간주되는 변형 모델의 동작 원리를 명확히 이해할 수 있습니다.

비전-언어 모델(VLM)을 사용한 얼굴 확인 시스템의 가독성 향상에 대한 연구. 기존 접근 방식이 주로 열매 그림자만 보는 것이라면, 본 논문은 왜 결정을 내렸는지 설명하는 능력을 추가하여 시스템의 신뢰성을 높이는 방법을 제시한다. ###

이 논문에서는 대형 언어 모델(LLM) 기반 에이전트의 장기적인 일관성을 유지하기 위해 **EverMemOS**라는 통합 메모리 운영 체제를 제안합니다. EverMemOS는 단편화된 경험을 통합하여 일관되고 안정적인 지식 구조로 변환하는 세 가지 단계를 통해 장기 추론을 지원합니다.

공간 동역학에 대한 추론 능력은 인тел리전스의 핵심 구성 요소이지만, 현재 연구에서는 공간 변화 뒤에 숨어 있는 인간의 의도를 간과하고 있다. 이러한 한계점을 해결하기 위해 우리는 물리적-동역학적 추론—물체 상호 작용의 물리 원리를 이해하는 것—과 의도 지향적 추론—이러한 행동 뒤에 숨어 있는 인간의 목표를 추측하는 것이라는 두 가지 중요한 기둥을 통합하는 새로운 패러다임인 텔레오-공간 인텔리전스(TSI)를 도입한다. TSI 연구를 촉진하기 위해 우리는 EscherVerse를 제시한다. 이는 대규모 오픈 월드 벤치마크(Escher-Bench), 데이터셋(Escher-35k), 그리고 모델(Escher 시리즈)을 포함하고 있다. 실제 비디오에서 유래한 EscherVerse는 제약된 환경을 넘어 물체의 지속성, 상태 전이, 동적이고 인간 중심적인 상황에서의 궤도 예측에 대한 에이전트의 추론 능력을 명시적으로 평가한다. 무엇보다도 이는 의도 지향적 추론을 체계적으로 평가하는 최초의 벤치마크로, 모델들이 물리적 사건과 그 뒤에 숨어 있는 인간의 목적을 연결할 수 있도록 도전한다. 우리의 연구에는 새로운 데이터 큐레이션 파이프라인이 포함되어 있으며, 이는 공간 인텔리전스를 단순히 장면 설명에서 세계 전체에 대한 통합적인 목표 지향적 이해로 발전시키기 위한 기초 자원을 제공한다.

심볼릭 제약 조건을 딥러닝 모델에 통합하면 더 견고하고 해석 가능하며 데이터 효율적인 모델이 될 수 있습니다. 그럼에도 불구하고 이러한 통합은 여전히 시간이 많이 소요되고 어려운 작업입니다. DomiKnowS와 같은 기존 프레임워크는 고수준의 선언적 프로그래밍 인터페이스를 제공하여 이 통합을 돕지만, 사용자가 해당 라이브러리의 특정 문법에 능통하다고 가정합니다. 이러한 종속성을 제거하기 위해 AgenticDomiKnowS(ADS)를 제안합니다. ADS는 에이전시 워크플로를 활용하여 자유 형식의 작업 설명을 완성된 DomiKnowS 프로그램으로 번역하며, 각 DomiKnowS 구성 요소를 따로 생성하고 테스트합니다. 이 워크플로는 사용자가 중간 출력물을 개선할 수 있는 옵션의 인간-인-더-루프 개입을 지원합니다. ADS가 경험 많은 DomiKnowS 사용자와 비사용자 모두에게 신경 기호적 프로그램을 빠르게 작성할 수 있게 하여 개발 시간을 몇 시간에서 10~15분으로 줄일 수 있음을 보여줍니다.

이 논문에서는 대형 언어 모델(LLM) 에이전트가 샘플링된 텍스트 문서에서 인과 피드백 퍼지인지도(FCM)를 어떻게 성장시키는지를 보여줍니다. 이 FCM은 지역적인 부분적 인과 규칙을 형성하고, 이를 통해 전역 균형 상태인 한계 주기를 정의합니다. 이러한 방법은 프로그래밍된 명령에 의존하는 일반적인 피드포워드 에이전트 시스템과는 달리 FCM 동적 시스템의 에이전시를 진화하는 균형 한계 주기에서 찾습니다. ###

감독 학습 조정(Supervised Fine-Tuning, SFT)은 대형 언어 모델(LLMs)을 특정 도메인에 맞게 적응시키는 표준 방법입니다. 그러나 이 방식은 치명적인 잊힘(catastrophic forgetting)이라는 큰 비용을 초래합니다. 반면, 온-폴리시 강화 학습(on-policy RL)은 도메인별 성능을 향상시키면서 기반 모델의 견고성을 효과적으로 유지하는 데 유명합니다. 이 두 방법론 사이의 극적인 차이는 특정 질문을 제기합니다 SFT가 일반 능력을 악화시킬 때 왜 온-폴리시 RL은 이를 유지할 수 있는지? 본 연구는 이 현상에 대한 메커니즘을 체계적으로 분석하고, 이를 통해 Confident Conflicts 라는 개념을 도입하여 SFT에서의 치명적인 잊힘의 원인을 밝혀냅니다. 또한, 엔트로피-적응 조정(Entropy-Adaptive Fine-Tuning, EAFT)이라는 새로운 방법론을 제안합니다.

그래프 신경망(GNN)은 사회적 네트워크, 분자 화학 등 다양한 영역에서 뛰어난 성과를 보여주고 있다. GNN의 핵심 구성 요소 중 하나는 풀링 프로시저로, 모델에 의해 계산된 노드 특징을 조합하여 최종적으로 하류 작업에 사용될 정보가 풍부한 설명자 형태로 만들어내는 과정이다. 그러나 이전의 그래프 풀링 방식은 풀링이나 분류기 층에 GNN 마지막 계층의 특징을 입력으로 사용하므로, 모델의 전방 패스 중 생성된 이전 계층의 중요한 활성화를 충분히 활용하지 못하는 경우가 있다. 이를 우리는 역사적 그래프 활성화라고 부른다. 특히 많은 그래프 신경망 계층을 통과하면서 노드 표현이 크게 변화할 수 있는 경우, 또는 깊은 아키텍처에서 과도한 평활화와 같은 그래프 특수 도전 과제로 인해 이러한 간극이 더욱 두드러진다. 이 간극을 해소하기 위해 우리는 HISTOGRAPH라는 새로운 단계별 주의 기반 최종 통합 층을 제안한다. HISTOGRAPH는 중간 활성화에 대해 일관된 계층별 주의를 적용한 후 노드별 주의를 사용한다. 노드 표현의 계층 간 진화를 모델링함으로써, 우리의 HISTOGRAPH는 노드의 활성화 기록과 그래프 구조 모두를 활용하여 최종 예측에 사용되는 특징을 정교하게 세분화한다. 여러 그래프 분류 벤치마크에서의 실증적 결과는 HISTOGRAPH가 전통적인 방법보다 일관되게 우수한 성능을 제공하며, 특히 깊은 GNN에서 강력한 견고성을 보여준다는 것을 입증하고 있다.

연방 학습(FL)은 데이터 프라이버시를 유지하면서 분산된 엣지 기기 간의 협력적 모델 훈련을 가능하게 합니다. 그러나 클라이언트들 사이에 통계적인 이질성이 존재하며, 이는 종종 비IID 레이블 분포로 나타나며 수렴과 일반화에 대한 주요 도전 과제를 제기합니다. 예리도 인식 최소화(SAM)가 FL에 도입되어 평평하고 더 견고한 극소점을 찾아내도록 설계되었지만, 기존 접근법들은 보통 모든 클라이언트에 대해 일률적인 펨터베이션 반경을 적용하며 클라이언트별 이질성을 무시합니다. 본 연구에서는 클라이언트별 이질성 점수에 따라 SAM의 펨터베이션 반경과 집합 가중치를 동적으로 조정하는 새로운 알고리즘, 연방 예리도 인식 최소화와 군집 집합 및 모듈레이션(FedSCAM)을 제안합니다. 각 클라이언트에 대한 이질성 지표를 계산하고 이를 반대로 펨터베이션 반경을 조정함으로써, FedSCAM은 높은 분산을 가진 클라이언트들이 글로벌 모델을 불안정하게 하는 것을 방지합니다. 또한, 글로벌 최적화 방향과 일치하는 업데이트를 우선시하는 이질성 인식 가중 집합 메커니즘을 도입하였습니다. 다양한 정도의 디리클레 기반 레이블 왜곡 조건 하에서 CIFAR-10 및 Fashion-MNIST에 대한 광범위한 실험을 통해, FedSCAM은 수렴 속도와 최종 테스트 정확도 측면에서 FedSAM, FedLESAM 등 최신 기준들과 경쟁력을 갖추는 것을 보여주었습니다.

이 연구는 교육 기관 내에서 사이버 보안 조치를 개선하기 위한 머신 러닝 기법의 적용을 탐색합니다. 저자들은 전통적인 방법보다 더 정확하게 잠재적 사이버 위협을 감지할 수 있는 지도 학습과 비지도 학습 알고리즘을 결합한 하이브리드 모델을 제안합니다. 대학 네트워크의 실제 데이터셋에서 광범위한 테스트를 통해, 제안된 모델은 가짜 긍정 사례를 줄이면서 감지율을 개선한다는 것을 보여줍니다.

최근 연구에서는 텍스트 프롬프트를 이용하여 실제 인간 동영상을 생성하는 것에 대한 관심이 급증했습니다. 이러한 기술은 단순한 스타일화된 클립에서 장시간, 사진처럼 사실적인, 프롬프트에 충실하며 강력한 시간적 일관성을 갖춘 시퀀스로 발전했습니다. 하지만 현재 연구가 직면하고 있는 주요 도전 중 하나는 개인의 신원을 유지하는 것입니다. 이 논문은 단일 참조 이미지를 사용하는 기존 방법의 한계를 극복하기 위해, 짧은 동영상 참조를 이용하여 인물의 신원을 보다 안정적으로 추출하고 생성할 수 있는 새로운 방식을 제안합니다.

이 논문은 대형 언어 모델(Large Language Model, LLM) 에이전트가 실제 API 복잡성 하에서 외부 함수를 호출하는 능력을 평가하기 위한 새로운 벤치마크인 WildAgtEval을 제안합니다. 이 벤치마크는 8개의 주요 API 복잡성 유형에 기반하며, 각 유형은 실제 월드에서 자주 발생하는 복잡성을 반영합니다. 실험 결과, LLM 에이전트는 특히 무관한 정보와 같은 복잡성 하에서 성능이 크게 저하됨을 보여줍니다.

다중 로봇 시스템은 큰 환경에서 효율적인 조정이 필요한 커버리지 작업에 널리 사용됩니다. 다중 로봇 커버리지 경로 계획(MCPP)에서는 전체 지역을 커버하는 중복되지 않는 경로를 생성하여 완료 시간을 최소화하는 것이 주요 목표입니다. 그러나 대부분의 기존 방법들은 영역 간의 중요도가 균일하다고 가정함으로써 일부 구역에 더 빠른 주의가 필요할 때 그 효율성이 제한됩니다. 우리는 환경의 일부를 우선순위 구역으로 지정하고 연관된 가중치를 부여하는 우선 순위 인식 MCPP(PA-MCPP) 문제를 도입합니다. 목표는 영역 커버리지의 총 중요도 가중 지연과 전체 완료 시간을 사전순서로 최소화하는 것입니다. 이를 해결하기 위해 우리는 (1) 탐욕스러운 구역 할당 및 로컬 검색, 스패닝 트리 기반 경로 계획과 (2) 스테이너 트리 지도 잔여 커버리지를 결합한 확장 가능한 이단계 프레임워크를 제안합니다. 다양한 시나리오에서의 실험은 우리의 방법이 표준 MCPP 기준에 비해 우선순위 가중치 지연을 크게 줄이고 경쟁적인 완료 시간을 유지한다는 것을 보여줍니다. 민감도 분석은 또한 이 방법이 로봇 수와 잘 확장되며, 구역 커버리지 동작이 우선순위 가중치를 조정하여 효과적으로 제어될 수 있음을 보여줍니다.

기존의 RGB-이벤트 시각적 객체 추적 접근법은 주로 기존의 피처 레벨 융합에 의존하며, 이는 이벤트 카메라의 고유한 장점을 완전히 활용하지 못합니다. 특히, 이벤트 카메라는 높은 동적인 범위와 움직임에 민감한 특성이 간과되며, 정보가 적은 영역도 일정하게 처리되어 백본 네트워크의 불필요한 계산 부담이 발생합니다. 이러한 문제를 해결하기 위해, 우리의 접근법은 주파수 도메인에서 조기 융합을 수행하는 새로운 추적 프레임워크를 제안합니다. 이를 통해 이벤트 모달리티로부터 고주파 정보의 효과적인 집약화가 가능해집니다. 구체적으로, RGB와 이벤트 모달리티는 빠른 푸리에 변환을 통해 공간 도메인에서 주파수 도메인으로 변환되며, 그들의 진폭과 위상 성분은 분리됩니다. 고주파 이벤트 정보는 진폭 및 위상 주의를 통한 선택적 융합을 통해 RGB 모달리티에 통합되어 피처 표현을 향상시키고 백본 계산을 크게 줄입니다. 또한, 움직임 가이드 스페이셜 스파시피케이션 모듈은 이벤트 카메라의 움직임 민감성 특성을 활용하여 대상 움직임 큐와 공간 확률 분포 간의 관계를 포착하고, 정보가 적은 영역을 필터링하며 대상 관련 피처를 강화합니다. 마지막으로, 대상 관련 피처 집합이 백본 네트워크에 학습용으로 입력되며 추적 헤드는 최종 대상 위치를 예측합니다. FE108, FELT 및 COESOT 등 널리 사용되는 세 가지 RGB-이벤트 추적 벤치마크 데이터셋에서의 광범위한 실험은 우리의 방법의 높은 성능과 효율성을 입증합니다. 이 논문의 소스 코드는 https //github.com/Event-AHU/OpenEvTracking 에서 공개될 예정입니다.

농작물 수확량 예측은 전 세계 식량 안보와 경제적 안정에 중추적인 역할을 하지만, 기후 변화, 인구 증가 및 불규칙한 날씨 패턴으로 인해 점점 더 큰 압력을 받고 있습니다. 정확한 농작물 수확량 예측은 정부 정책, 공급망 안정화, 농업 기업 물류 그리고 농민들의 관수, 비료 사용 및 수확 일정에 대한 결정을 위한 정보를 제공하는데 필수적입니다. 이러한 필요성은 한 지역의 생산 충격이 국제 시장 전체로 급속히 확산되는 경향으로 인해 더욱 절실해졌습니다. 지구관측(EO), 농기상학 및 기계 학습(ML) 분야에서 이루어진 주요 진전은 데이터 주도의 농업 예측 가능성을 크게 확장시켰습니다. 개방형 EO 프로그램인 코페르니쿠스 센티넬 임무는 높은 공간적 및 시간적 해상도로 광학, 레이더 및 대기 측정을 제공하며 작물 상태를 상세하게 모니터링할 수 있도록 합니다. MODIS의 장기간 식생 지수는 큰 지역에서 식물학적 분석을 가능하게 하며, ERA5-Land와 NASA POWER 등 기후 데이터셋은 온도, 강수량, 복사량, 습도 및 바람과 같은 농업 생산성의 주요 촉진 요인에 대한 전 세계적으로 일관된 정보를 제공합니다. 또한, SoilGrids와 SRTM의 보조 환경 데이터셋은 토양 구조, 탄소 함량, pH, 고도, 경사 및 미기후적 영향을 설명합니다. 그러나 이러한 진전에도 불구하고 농작물 수확량 예측 모델의 실용적인 개발은 지속적으로 데이터 공학적 병목 현상에 제한받고 있습니다. 대부분의 연구는 특정 작물, 지역 또는 시간대를 대상으로 맞춤형 파이프라인을 구축하는데, 이 과정에서 다양한 데이터셋을 통합하고 공간 및 시간 해상도를 조화시키기 위한 수작업이 많이 필요합니다. 심지어 최신 다중 모드의 심층 학습 접근 방식조차 복잡한, 수작업이 필요한 전처리 워크플로우에 의존하고 있습니다. 이러한 문제를 해결하기 위해 **UniCrop**을 소개합니다. UniCrop는 농작물 수확량 예측을 위한 다중 출처 환경 데이터의 획득, 조화 및 변환을 자동화하는 보편적이고 구성 설정에 따른 데이터 파이프라인입니다. UniCrop은 필요한 변수 지정과 구현을 분리하여 사용자가 단순한 구성 파일을 수정함으로써 새로운 작물이나 지역에 파이프라인을 적응시킬 수 있도록 합니다.

혼합 전문가(MoE) 아키텍처는 파라미터화된 루터 를 사용하여 토큰을 희소한 부분의 전문가에게 분배함으로써 대형 언어 모델을 효율적으로 확장합니다. 일반적으로 이 루터는 한 번 학습하고 얼리기 때문에, 분포 변화에 대한 루팅 결정이 취약해집니다. 저희는 kNN-MoE를 통해 이러한 제한점을 해결하였습니다. 이는 유사한 과거 사례의 메모리를 재활용하여 최적의 전문가 할당을 다시 사용하는 검색 강화된 루팅 프레임워크입니다. 이 메모리는 참조 세트에서 확률을 최대화하기 위해 토큰 단위 루팅 로짓을 직접 최적화함으로써 오프라인에서 구성됩니다. 특히, 저희는 검색된 이웃의 집합 유사성을 신뢰도를 기반으로 한 혼합 계수로 사용하여 관련 사례가 발견되지 않을 경우 얼린 루터로 되돌아갈 수 있도록 허용합니다. 실험 결과 kNN-MoE는 제로샷 베이스라인을 능가하고 계산적으로 비싼 감독 학습 조정과 견줄 만큼의 성능을 보여줍니다.

본 논문은 NP-난해 특성을 가진 조합적 및 연속 최적화 문제를 해결하기 위한 새로운 하이브리드 메타휴리스틱 옵티마이저인 Yukthi Opus (YO)를 제안한다. YO는 Markov Chain Monte Carlo(MCMC), 탐욕적 지역 검색, 재열 Simulated Annealing(SA), blacklist 메커니즘 및 다중 체인 구조를 통합하여 전역 탐색과 지역 최적화 사이의 균형을 이루며, 다양한 문제 클래스에서 계산 효율성을 유지한다. 본 논문은 Rastrigin 5D 함수와 Rosenbrock 5D 함수에 대한 실험 결과를 통해 YO의 성능을 평가하며, TSP(Traveling Salesman Problem)와 같은 실제 문제에서도 뛰어난 성과를 보여준다. ###

이 논문에서는 MM-Sonate라는 다중 모달 조절 가능 프레임워크를 제안합니다. 이 프레임워크는 음성-비디오 동시 생성과 제로샷 음색 클론 기능을 지원하며, Multi-Modal Diffusion Transformer (MM-DiT) 아키텍처와 플로우 매칭 기법을 기반으로 합니다. MM-Sonate는 텍스트 설명만을 사용하는 이전 접근 방식 대신 통합된 명령-음절 입력 형식을 도입하여 시각적 장면 생성과 정확한 입 모양 동기화를 위한 음성 정보를 활용할 수 있습니다. 또한, 새로운 추론 전략인 자연스럽게 수집된 노이즈를 사용하는 부정 조건부 방법을 제안하여 음성의 안정성을 크게 향상시킵니다. ###

본 논문은 대형 언어 모델(Large Language Models, LLMs)의 의사결정 과정에서 생성되기 전의 내부 상태인 intention state 를 분석하고자 한다. 이를 통해 체인 오브 씽크(Chain-of-Thought), 자가 학습 추론 등 다양한 추론 기법이 모델의 내부 상태에 어떤 영향을 미치는지 이해한다. 또한, 이러한 내부 상태를 정량화하기 위한 세 가지 지표(의도 엔트로피, 효과적 차원성, 잠재적 정보 복구 가능성)를 제안하고 이를 다양한 모델과 벤치마크에 적용하여 실험적으로 검증한다.

본 논문은 전통적으로 계산 언어학에서 사용된 의미 공간 추론이 팀 스포츠의 전술적 의사결정에 어떻게 확장될 수 있는지를 탐색하고 있습니다. 텍스트와 팀 간의 유사성, 즉 선수가 단어로 작용하고 집단적인 플레이가 의미를 전달하는 것에서 출발하여 제안된 방법론은 전술적 구성을 구성적 의미 구조로 모델링합니다. 각 선수는 기술적, 물리적, 심리학적 속성들을 통합한 다차원 벡터로 표현되며, 팀 프로필은 컨텍스트 가중치를 통해 고급 의미 표현으로 집계됩니다. 이 공유된 벡터 공간 내에서, 높은 압박, 역습, 또는 점유율 구축과 같은 전술 템플릿은 언어학적 개념에 상응하여 인코딩되며, 이를 팀 프로필과의 일치도를 벡터 거리 메트릭을 사용해 평가함으로써 전술적인 적합성 과 상대방 활용 가능성 계산이 가능합니다. 파이썬 기반 프로토타입은 이러한 방법들이 해석 가능한 동적으로 적응하는 전략 제안 및 속성 수준의 세밀한 진단 인사이트를 제공함을 입증합니다. 축구를 넘어서, 이 접근법은 농구와 아이스하키에서부터 협동 로봇과 인간-AI 조정 시스템에 이르기까지 팀 기반 도메인에서 집단 의사결정 및 성능 최적화를 위한 일반화 가능한 프레임워크를 제공합니다. 본 논문은 실제 데이터 통합, 예측 모델링, 그리고 하이브리드 인간-머신 전술적 지능에 대한 미래 방향을 제시하여 마무리됩니다.

그래프는 사회 네트워크, 인용 네트워크, 분자 구조 등 다양한 도메인에서 복잡한 관계적 데이터를 표현하는 중요한 수단입니다. 이 연구에서는 질의 노드에 기반하여 밀접하게 관련된 커뮤니티를 식별하는 것을 목표로 하는 커뮤니티 검색(CS) 방법을 분석하고, 이를 통해 호모필리와 헤테로필리 그래프에서 효과적인 CS를 수행하기 위한 새로운 접근 방식인 AdaptCS를 제안합니다.

이 논문에서는 AI 생성 이미지 감지를 위한 대규모 데이터셋을 소개합니다. 이 데이터셋은 실제 및 합성 이미지-캡션 쌍 96,000개를 포함하며, 합성 이미지는 여러 생성 모델로부터 생성되었습니다. 우리는 이 데이터셋 기반의 두 가지 작업을 제안하고 있습니다 AI 생성 이미지와 실제 이미지를 구분하는 이진 분류 작업과 특정 생성 모델을 식별하는 작업입니다.

추천 시스템을 평가하는 것은 오프라인 지표와 실제 사용자 행동 사이의 간극, 그리고 상호작용 데이터의 부족으로 인해 여전히 어려움이 있습니다. 최근 연구에서는 대규모 언어 모델(LLM) 에이전트를 합성 사용자로 활용하는 것을 탐색하고 있지만, 이들은 일반적으로 few-shot 프롬프팅에 의존하여 환경을 얕게 이해하게 되고, 이는 실제 사용자의 행동을 충실하게 재현할 수 있는 능력을 제한합니다. 저희는 AlignUSER라는 프레임워크를 소개하며, 이를 통해 인간의 상호작용에서 월드 모델 구동 에이전트를 학습하고 있습니다. 액션과 상태의 롤아웃 시퀀스가 주어지면, 저희는 다음 상태 예측 작업으로 월드 모델링을 형식화하여 에이전트가 환경을 내재화할 수 있도록 합니다. 인간의 개성과 행동을 일치시키기 위해, 저희는 데모 주변에 가상 경로를 생성하고 LLM에 대해 그 결정을 인간의 선택과 비교하도록 하여 비효율적인 행동을 식별하고 교훈을 추출합니다. 학습된 정책은 이후 추천 시스템과의 에이전트 상호작용을 주도하는 데 사용됩니다. 저희는 AlignUSER를 다양한 데이터셋에 걸쳐 평가하였으며, 미시 및 거시 수준에서 이전 연구보다 실제 인간에게 더 가깝게 맞춰졌음을 입증하였습니다.

현대 엔지니어링 디자인에서 진정으로 새로운 다양성의 아이디어를 생성하는 것이 중요하나, 이는 초보 디자이너들에게 중요한 인지적 도전 과제로 남아 있습니다. 현재의 단일 발사형 AI 시스템은 의미론적으로 군집화된 많은 아이디어를 생산하여 이러한 도전을 더욱 어렵게 만듭니다. 우리는 MIDAS(Meta-cognitive Ideation through Distributed Agentic AI System)라는 새로운 프레임워크를 제안합니다. 이는 단일 AI 패러다임 대신 특수한 AI 에이전트로 구성된 분산 팀 을 통해 인간의 메타인지적 아이디어 생성 워크플로우를 모방하도록 설계되었습니다. 이 에이전트 시스템은 아이디어를 점진적으로 정교화하고, 각 아이디어를 기존 솔루션에 대해 전반적인 새로움과 이전에 생성된 아이디어에 대해 국지적 새로움을 평가합니다. 따라서 MIDAS는 진정한 인간-AI 공동 창조의 실현 가능한 점진적 패러다임을 보여주며, 이를 통해 인간 디자이너는 단순히 관문 역할에서 벗어나 적극적인 협력 파트너로 참여하게 됩니다.

이 논문은 서비스 로봇의 물체 재배치 문제를 다룬다. 이 문제는 사용자의 조직 선호도에 따라 공간 내에서 원하는 구성으로 아이템을 정리하는 것을 의미한다. 기존 연구들은 일정한 정돈 방식을 사용했지만, 본 논문에서는 사용자별로 다양한 선호도를 반영할 수 있는 해석 가능한 구조체를 제안한다.
대형 언어 모델(LLM)의 조직 보안 인프라 통합은 네트워크 컴퓨팅 이후 위협 환경에서 가장 큰 변화 중 하나일 수 있습니다. LLMs는 이제 채팅봇 인터페이스를 벗어나 자동화된 에이전트로서 코드 실행, 자격 증명 관리, 경보 처리 등의 역할을 수행하고 있습니다. 이 논문은 이러한 LLMs가 인간 심리를 모방하는 방식에 중점을 두고 있으며, 이를 이용한 사회 공학적 공격의 위험성을 분석합니다.

(LLM-동력화된 에이전트가 인간 그룹에 대한 사회적 편견을 재생산할 수 있다는 최근 연구들을 바탕으로, 본 논문은 이러한 에이전트들이 인그룹과 아웃그룹 사이의 경계를 통해 자발적인 편견을 나타낼 수 있음을 분석합니다. 특히 인간-인공지능 상호작용에서 이러한 편견이 어떻게 작동하는지를 연구하고, 이를 조작할 수 있는 신뢰성 공격 방법론을 제시합니다.)

이 논문에서는 코드 생성 대형 언어 모델(LLM)의 발전에 따라, 저장소 수준의 코드 생성에 대한 관심을 살펴보고 있습니다. 저장소 수준의 코드 생성은 기능 수준 생성과 달리 전체 저장소를 고려해야 하며, 프로그래밍 관례와 API 사용 및 함수 간 복잡한 종속성을 이해해야 합니다. 본 논문에서는 이를 지원하기 위한 새로운 프레임워크인 **InlineCoder**를 제안합니다.

영화 캐릭터부터 현대 과학 소설까지 - 상호작용적이며 스토리 중심의 대화에 캐릭터들을 불러들인 것은 세대를 초월한 상상력을 사로잡았습니다. 이 비전을 달성하는 것은 매우 어렵고 언어 모델링 이상의 많은 요소가 필요합니다. 이를 이루기 위해서는 대화형 AI, 캐릭터 일관성 유지, 성격과 감정 관리, 지식 및 기억 처리, 음성 합성, 애니메이션 생성, 실제 세계 상호작용 활성화, 물리적 환경과의 통합 등 다양한 복잡한 AI 과제를 해결해야 합니다. 기초 모델 개발, 프롬프트 엔지니어링, 하류 작업을 위한 미세 조정에 대한 최근 발전은 연구자들이 이러한 각각의 문제들을 다루는 데 도움이 되었습니다. 그러나 상호작용적 캐릭터를 위해 이 기술들을 통합하는 것은 여전히 개방적인 문제입니다. 우리는 믿을 수 있는 디지털 캐릭터 설계가 편리하게 이루어질 수 있도록 하는 시스템과 플랫폼을 제시합니다. 우리의 시스템은 대화형 및 스토리 중심 경험을 제공하면서 모든 기술적 과제에 대한 해결책도 제공합니다. 증명용으로 디지털 아인슈타인이 소개됩니다. 이는 사용자가 알베르트 아인슈타인의 생애, 연구, 그리고 인물에 대해 대화할 수 있는 디지털 표현을 제공합니다. 디지털 아인슈타인은 특정 캐릭터를 위한 우리의 방법론을 보여주지만, 우리의 시스템은 유연하며 어떤 스토리 중심이나 대화형 캐릭터에도 일반화할 수 있습니다. 이러한 다양한 AI 요소들을 하나의 쉽게 적응 가능한 플랫폼으로 통합함으로써, 우리의 연구는 몰입감 있는 캐릭터 경험을 가능하게 하며, 실감나고 스토리 기반의 상호작용이라는 꿈을 현실로 만들어갑니다.

본 논문은 **대안적 자기 질문(Counterfactual Self-Questioning, CSQ)** 이라는 프레임워크를 제안합니다. 이 방법론은 단일 언어 모델이 자체 추론을 대안적으로 검토하고 수정할 수 있도록 합니다. 기존 방식과 달리 외부 비판자나 다중 에이전트 토론 없이도, 내부적으로 생성된 대안적 비평을 통해 정책 최적화 신호를 형성합니다. 실험 결과는 다양한 모델 크기에 걸쳐 표준 추론 벤치마크에서 일관된 성능 개선을 보여줍니다.

이 논문은 파라llx와 깊이 변화로 특징지어지는 난관 많은 실제 환경에서 구조적 정확성을 우선시하는 기하학 중심 이미지 스테칭 접근 방식인 SENA(SEamlessly NAtural)를 소개한다. 전통적인 이미지 스테칭은 동차변환 대상을 사용하지만, 이 엄격한 평면 가정은 장면의 깊이가 큰 듀얼 카메라 구조에서 종종 실패하여 가시적 왜곡과 구형 부풀림 등의 문제가 발생한다. SENA는 세 가지 핵심 기여를 통해 이러한 근본적인 한계를 해결한다. 첫째, 전역 아핀 초기화와 로컬 아핀 개선 및 매끄러운 자유 형태 변형을 결합하는 계층적 아핀 기반 왜곡 전략을 제안한다. 이 설계는 현지 모양, 평행성, 측면 비율을 유지함으로써 동차변환 모델에 의해 일반적으로 발생하는 환시 구조적 왜곡을 피한다. 둘째, RANSAC 필터링된 특징 대응의 깊이 일관성을 통해 직접 패럴랙스 최소화 영역을 감지하는 기하학 중심 적절한 영역 탐지 메커니즘을 도입한다. 세미어틱 분할에 의존하지 않는다. 셋째, 이 적절한 영역 위에 앵커 기반 경계선 자르기 및 분할을 수행하여 이미지 쌍 간의 일대일 기하학적 대응을 강제함으로써 최종 팬오라마에서 유령 효과, 중복 및 번짐 아트팩트를 효과적으로 제거한다. 난관 많은 데이터셋에 대한 광범위한 실험은 SENA가 선두 동차변환 기반 방법들과 비교할 수준의 정렬 정확도를 달성하면서 모양 보존, 텍스처 무결성 및 전체적인 시각적 현실감과 같은 중요한 시각적 메트릭에서 그들을 크게 능가함을 보여준다.

본 논문에서는 DARTS 프로젝트를 위해 개발된 반자동 데이터 주석화 파이프라인의 설계와 평가에 대해 설명합니다. 이 시스템은 인공지능 모델과 인간 검증을 통합하여 대규모 다중 모달 자율주행 데이터셋 준비 시간을 단축합니다.

이 논문은 텍스트 기반 인물 검색(TBPS)에 대한 새로운 접근법을 제안한다. TBPS는 대규모 이미지 갤러리에서 주어진 텍스트 쿼리와 가장 잘 일치하는 사람을 식별하는 문제이다. 이를 해결하기 위해, 본 논문은 CLIP과 같은 비전-언어 모델(VLM)의 발전을 활용하여 고급 정보를 추출하고자 한다. 그러나 기존 방법들은 추가적인 외부 자원에 의존함으로써 계산 및 주석 부담이 증가하는 문제점이 있다. 이를 해결하기 위해, 본 논문은 ITSELF라는 주의력 가이드로 내재적 공간 대응을 개선한 프레임워크를 제안한다. 이는 클립 모델의 주의 맵을 활용하여 고급 정보를 추출하고, 이를 통해 더 정교한 대응을 달성한다. ###

이 논문에서는 작은 객체 감지(TOD)에 대한 연구를 제시하며, 특히 애노테이션 노이즈에 민감한 문제점을 해결하기 위해 **TOLF**(Tiny Object Localization Flow) 프레임워크를 소개합니다. TOLF는 정규화 흐름을 사용하여 예측 분포의 모델링을 통해 확률적 오류와 애노테이션 노이즈에 대응할 수 있습니다.

본 논문에서는 자율주행차량이 사회적 규칙을 준수하도록 하는 새로운 접근법인 LSRE(Latent Semantic Rule Encoding)를 제안합니다. 이 방법은 비언어적인 의미 규정을 빠르게 평가할 수 있는 가벼운 분류기를 학습하는 것을 목표로 합니다.

저고도 경제(LAE)는 도심 항공 이동성, 로지스틱 드론, 공중 감지에 의해 급속히 확장되고 있으며, 무인 항공기(UAVs) 통신에서 빠르고 정확한 빔 예측은 안정적인 연결을 달성하는 데 중요합니다. 현재 연구는 단일 신호에서 다중 모달 협업 접근법으로 변화하고 있습니다. 그러나 기존의 다중 모달 방법은 대부분 고정된 또는 경험적 가중치를 사용하며, 언제나 모든 모달이 동등한 신뢰성을 갖는다고 가정합니다. 실제로 다양한 UAV 움직임 시나리오에서 각각의 모달의 중요성이 극적으로 변동하며, 정적 가중치는 손상된 모달들의 부정적인 영향을 증가시킵니다. 또한 모달 불일치와 약한 대조는 교차 시나리오 일반화를 더욱 약화시킵니다. 이를 위해 우리는 신뢰성에 기반한 동적 가중치 방식을 적용하는 언어 인식 다중 모달 빔 예측 프레임워크, SaM2B를 제안합니다. 구체적으로, SaM2B는 환경 시각 정보, 비행 자세, 지오스페이셜 데이터와 같은 가벼운 쿠에를 활용하여 신뢰성에 기반한 동적 가중치 업데이트를 통해 다양한 시간점에서 각 모달에 대한 기여도를 적응적으로 할당합니다. 또한 교차 모달 대조 학습을 이용함으로써, 특정 빔 정보와 관련된 다중 출처 표현 빔 의미 를 공유하는 의미 공간에 맞춥니다. 이를 통해 모달 노이즈와 분포 변화 아래에서 판별력과 강건성을 향상시킵니다. 실제 저고도 UAV 데이터셋을 사용한 실험 결과, SaM2B는 기존 방법보다 만족스러운 결과를 달성합니다.

본 논문에서는 Bayesian Subspace Zeroth-order Optimization(이하 BSZO) 알고리즘을 제안한다. 이 알고리즘은 베이지안 추론과 칼만 필터링을 활용하여 다양한 방향의 페르튜베이션에 대한 기울기 정보를 통합하고, 이를 통해 메모리 사용량을 줄이는 동시에 수렴 속도를 개선한다. 실험 결과는 BSZO가 다양한 작업에서 뛰어난 성능을 보이며, 특히 저정밀도 학습에서도 안정적으로 작동함을 입증한다.

전염성 바이러스 감염인 러미피부병(LSD)은 가축 건강을 크게 저하시켜 글로벌 경제와 식량 안보에 중대한 위협을 제기한다. 그 빠른 확산 특성을 고려할 때, 발병을 방지하고 적시 개입을 보장하기 위해서는 조기에 정확히 인식하는 것이 중요하다. 본 논문에서는 LSD의 조기 검출을 위한 하이브리드 딥러닝 기반 접근법인 LUMPNet을 제안한다. LUMPNet은 이미지 데이터를 이용하여 LSD의 주요 지표인 피부 결절을 감지하고 분류한다. 이를 위해 LUMPNet은 YOLOv11, 복합 스케일링을 갖춘 EfficientNet 기반 CNN 분류기 및 새로운 적응형 하이브리드 옵티마이저를 사용한다. 좀 더 구체적으로는 LUMPNet이 소의 이미지에서 LSD 피부 결절과 흉터를 감지하고 위치 지정하며, EfficientNet을 이용하여 해당 위치 지정된 소의 이미지를 LSD에 영향 받은 것 또는 건강한 것으로 분류한다. YOLOv11 및 EfficientNet 하이브리드 모델의 학습을 안정화시키고 가속화하기 위해 새로운 적응형 하이브리드 옵티마이저가 제안되고 사용된다. 우리는 공개 데이터 세트를 이용하여 LSD의 다양한 단계에서 LUMPNet을 평가한다. 결과는 제안된 방식이 99%의 LSD 감지 학습 정확도를 달성하고, 기존 방식보다 우수함을 나타낸다. 이 모델은 검증 정확도에서도 98%를 달성한다. 또한 추가 평가를 위해 AdamW 옵티마이저로 튜닝된 EfficientNet-B0 모델을 사용한 사례 연구를 수행하고 LUMPNet의 성능과 비교한다. 결과는 LUMPNet이 우수한 성능을 달성함을 보여준다.
검색어를 입력하세요