
3D 다중 객체 장면에서의 2D 시스템 비디오와 언어 정합성 및 멀티정보 도함수 없는 제어
본 논문은 시각-언어 모델(VLM)이 2차원 이미지를 기반으로 학습되었음에도 불구하고, 3차원 장면을 분석하는 방법론을 제안합니다. 이는 특정 객체의 위치와 특징을 정확하게 파악하기 위해 필요한 최적의 시점 순서를 예측하고, 이를 통해 VLM이 더 정확한 결과를 반환할 수 있도록 합니다.
'Computer Vision' 카테고리의 모든 글

본 논문은 시각-언어 모델(VLM)이 2차원 이미지를 기반으로 학습되었음에도 불구하고, 3차원 장면을 분석하는 방법론을 제안합니다. 이는 특정 객체의 위치와 특징을 정확하게 파악하기 위해 필요한 최적의 시점 순서를 예측하고, 이를 통해 VLM이 더 정확한 결과를 반환할 수 있도록 합니다.

딥페이크 검출 연구는 딥페이크가 초래한 심각한 문제를 해결하기 위한 방법론을 제시합니다. 본 논문에서는 DFCNET, VFDNET, MobileNetV3, ResNet50 모델의 성능을 분석하여 실제와 가짜 이미지를 구별하는 데 가장 정확하게 작동하는 모델을 찾아내고자 합니다.

폐색전은 생명을 위협하는 질병으로, 조기에 검출하고 치료하면 사망률이 크게 줄어듭니다. 최근 많은 연구들이 대조매개체 컴퓨터단층촬영 폐 혈관angiography를 활용하여 폐색전의 진단에 딥러닝을 사용하고 있지만, 대조매개체는 폐색전과 만성신부전이 있는 환자들에게 급성 신장 손상을 일으킬 가능성이 있으며, 대조매개체가 작동하는 데 시간이 소요되어 급성 폐색전을 가진 환자는 골든 테리트리를 놓칠 수 있습니다. 본 연구는 대조매개체를 사용하지 않고 CT 영상에서 폐색전을 자동으로 분류하기 위해 3차원 컨볼루션 신경망 모델을 활용한 딥러닝 기법을 이용하는 것을 목표로 합니다. 이번 연구에서 사용된 딥러닝 모델은 대조매개체를 사용하지 않은 컴퓨터단층촬영 영상의 폐색전 분류에 대해 85% 정확도와 0.84 AUC를 보여주어, 이 모델이 폐색전 진단에서의 적용 가능성을 확인하였습니다.

확산 역전은 확산 모델에서 이미지의 노이즈를 복원하는 작업으로, 이는 제어 가능한 확산 이미지 편집에 필수적입니다. 현재로서는 사용 가능한 감독 신호 부재로 인해 확산 역전은 여전히 난제인 상태입니다. 따라서 대부분의 기존 방법은 성능이나 효율성을 희생하면서 근사기반 해법을 사용하고 있습니다. 이러한 문제점들을 해결하기 위해 본 논문에서는 새로운 자기 감독 확산 역전 접근법, 즉 딥 인버전(DeepInv)을 제안합니다. 진정한 노이즈 주석을 요구하지 않으며, 대신 실제 이미지로부터 수동 개입 없이 고品質 가짜 노이즈를 생성하기 위해 자기 감독 목적 및 데이터 증강 전략을 도입했습니다. 이러한 두 가지 혁신적인 설계를 기반으로 DeepInv는 파라미터화된 역전 솔버를 훈련하기 위한 반복적이고 다중 규모의 훈련 체제가 구비되어 있어, 빠르고 정확한 이미지에서 노이즈로의 매핑을 달성할 수 있습니다. 우리의 지식에 따르면 이는 단계별 역전 노이즈를 예측하는 학습 가능한 솔버를 제시한 최초의 시도입니다. 광범위한 실험 결과 DeepInv가 비교 대상 방법보다 훨씬 더 우수한 성능과 추론 속도(+40.435% SSIM 보다 EasyInv, COCO 데이터셋에서 ReNoise 보다 +9887.5% 빠름)를 달성할 수 있음을 보여주고 있습니다. 또한 우리의 학습 가능한 솔버에 대한 세심한 설계는 연구 커뮤니티에도 통찰력을 제공합니다. 코드와 모델 파라미터는 https //github.com/potato-kitty/DeepInv 에서 공개될 예정입니다.

이 논문에서는 제1인칭 시점의 동영상에서 손과 물체 간 상호작용을 3D 세계 좌표계에 재구성하는 방법을 제안한다. EgoGrasp는 다단계 감지–생성–최적화 프레임워크를 사용하여 현대 감지 시스템에서 얻은 정확한 3D 정보를 활용하면서, 시간과 공간적으로 일관된 결과를 보장하기 위해 생성적인 동작 사전을 도입한다. EgoGrasp는 다음과 같은 세 단계로 작동한다 (1) 전처리 제1인칭 동영상에서 정확한 카메라 궤적과 밀도가 높은 기하학적 정보를 복원하여 일관된 세계 좌표계를 설정하고, 초기 3D 손 자세와 물체의 6자유도 자세를 추출 및 정렬한다. (2) 동작 확산 두 단계로 구성된 분리된 확산 모델을 사용하여 연속적인 손과 물체의 동작을 생성한다. 첫 번째 단계는 SMPL-X 전체 신체 자세에 의해 안내되는 시간적으로 안정적인 손 궤적을 생성하며, 두 번째 단계에서는 CAD 모델 없이 자연스러운 동작을 포착하고 세계 좌표에서의 이동을 줄인다. (3) 테스트 시 최적화 SMPL-X 매개변수를 최적화하여 공간 정확성, 시간 부드러움 및 발-지면 접촉 일관성을 개선한다. ###

생성형 인공지능의 도입으로 단일 이미지 초해상도(SISR) 품질이 크게 개선되었으며, 텍스트-투-이미지 확산(T2IDiff) 기반 모델에서 학습한 강력한 사전 지식은 고해상도(HR)와 저해상도(LR) 이미지 사이의 간격을 줄일 수 있습니다. 그러나 플래그십 스마트폰 카메라는 생성형 모델을 채택하는 데 느리게 반응하고 있으며, 강력한 생성은 불필요한 환영현상을 초래할 수 있기 때문입니다. 학계에서 볼 수 있는 크게 훼손된 LR 이미지는 강력한 생성이 필요하며, HR과의 큰 간격 때문에 환영현상도 어느 정도 용인됩니다. 반면에 소비자 사진에서는 LR 이미지가 상당히 높은 정확성을 가지고 있으며, 따라서 최소한의 환영현상 없는 생성만 요구됩니다. 우리는 SISR에서 생성이 FM의 조건부 기능의 엄격성과 풍부함에 의해 제어된다고 가정합니다. 첫째, 텍스트 특징은 고수준의 특징으로 이미지의 미세한 텍스처를 설명하는 데 자주 부적절할 수 있습니다. 또한 스마트폰 LR 이미지는 최소 12MP 이상이지만 T2IDiff FM 기반 SISR 네트워크는 훨씬 작은 이미지(<1MP)에 대해 추론하도록 설계되었습니다. 그 결과 SISR 추론은 종종 텍스트 특징으로 정확하게 설명하기 어려운 작은 패치에서 이루어져야 합니다. 이러한 단점을 해결하기 위해 우리는 하위 수준의 조건부 기능을 가진 FM, 특히 DINOv2 특성을 사용한 이미지 확산(Feature-to-Image Diffusion) 기반 모델(FM)이라고 명명하는 SISR 네트워크를 도입합니다. 하위 수준의 특징은 엄격한 조건부를 제공하면서 동시에 작은 패치도 충분히 설명할 수 있습니다.

디지털 병리학은 현대 의료 실무에서 중요한 기술로 발전하여, 복잡한 조직 이미지를 분석하는 데 필요한 자동화 방법을 개발하게 되었습니다. 특히 머신러닝과 인공지능의 발달 덕분에 복잡한 병리학적 이미지에서 의미 있는 패턴을 추출할 수 있게 되었으며, 이를 통해 정확하고 효율적인 진단이 가능해졌습니다. ###

> 최근의 비전-언어 모델(VLMs)은 인상적인 성능을 보여주지만, 자기 주의력(self-attention)의 이차적 복잡도로 인해 엣지 장치에서의 배포가 제한되며, 고해상도 이미지와 긴 컨텍스트 비디오에 대한 이해를 수행하는 데 큰 비용이 발생한다. 이러한 문제를 해결하기 위해 우리는 LinMU(Linear-complexity Multimodal Understanding)을 소개한다. 이 모델은 자기 주의력 기반 VLMs의 성능을 유지하면서 모든 자기 주의력 층을 M-MATE 블록으로 대체하여 선형 복잡도를 달성한다. M-MATE 블록은 전역 컨텍스트를 포착하기 위한 양방향 상태 공간 모델(Flex-MA 분기)과 인접한 상관관계를 처리하는 로컬 Swin 주의력(Local-Swin 분기)을 결합한 이중 분기 모듈이다. 기존 VLM을 LinMU 아키텍처로 변환하기 위해, 우리는 세 단계의 지식 추출(distillation) 프레임워크를 제안한다 (i) 양 분기를 자기 주의력 가중치로 초기화하고 Flex-MA 분기만 학습, (ii) Local-Swin 분기를 해동하여 두 분기를 함께 조정, (iii) 나머지 블록을 LoRA 어댑터를 사용해 조정하면서 동결된 VLM 교사의 은닉 상태와 토큰 수준 로짓에 대해 회귀한다. MMMU, TextVQA, LongVideoBench, Video-MME 등의 벤치마크에서 LinMU는 교사 모델과 유사한 성능을 보이면서 Time-To-First-Token(TTFT)을 최대 2.7배 줄이고 분단위 비디오의 토큰 처리 속도를 최대 9.0배 개선한다. ###

단일 이미지 초해상화(SISR)는 다양한 아키텍처를 통해 저해상도 입력에서 고해상도 세부 사항을 복원하는 데 사용됩니다. 그러나 SISR은 제한된 정보로 인해 실제적이지 않은 아트팩이나 텍스처 환상을 합성하게 됩니다. 이를 극복하기 위해, Reference-based Super-Resolution (RefSR)에서는 외부 고주파수 텍스처 라이브러리인 고해상도 참조 이미지를 도입하여 유사한 텍스처를 전송하는 방식을 사용합니다. 이 논문은 이러한 RefSR 시스템의 보안 취약성을 체계적으로 탐색하고, 참조 이미지에 약간의 변화를 주어 출력을 저하시키는 새로운 적대적 공격인 RefSR-Adv를 제안합니다.

본 논문은 얼굴 초해상화(Face Super-Resolution, FSR)를 위해 랜드마크 지도와 Swin Transformer를 통합한 새로운 접근 방법을 제안한다. 이 접근 방식은 고해상도(HR) 이미지의 구조적 일관성과 개별적인 특징을 유지하면서 저해상도(LR) 입력에서 얼굴 이미지를 복원하는 데 초점을 맞추고 있다. 특히, 본 논문은 랜드마크 지도를 통해 얼굴 구조를 안내하고 Swin Transformer의 장거리 종속성 모델링 능력을 활용하여 극단적인 확대 비율에서도 일관된 결과를 얻을 수 있는 방법론을 제시한다. ###

이 논문은 지시어를 기반으로 한 이미지 편집 모델을 소개하며, 특히 저비용 추론과 엄격한 원본 일관성을 유지하기 위한 방법을 제안한다. 이 모델은 Qwen3-VL-2B-Instruct와 Sana1.5-1.6B 확산 모델을 기반으로 하며, 네 가지 단계의 훈련 파이프라인을 통해 학습된다.

본 논문에서는 실내 어두운 환경에서의 대답 능력을 평가하기 위한 새로운 벤치마크인 DarkEQA를 제시한다. 이는 저조도 조건 하에서 시각-언어 모델(VLM)의 성능을 정확하게 측정하도록 설계되었다.

비디오 생성 모델은 세계 모델의 한 형태로 AI에서 가장 흥미로운 분야 중 하나로 부상하고 있으며, 이는 복잡한 장면의 시간적 변화를 통해 미래를 상상할 수 있는 능력을 에이전트에게 제공합니다. 자율주행에서는 이러한 비전이 주행 세계 모델이라는 개념을 탄생시켰습니다 자신과 다른 에이전트의 미래를 상상하는 생성 시뮬레이터로, 이는 확장 가능한 시뮬레이션, 안전한 경계 사례 테스트 및 풍부한 합성 데이터 생성을 가능하게 합니다. 그럼에도 불구하고 빠르게 성장하고 있는 연구 활동에도 불구하고, 이 분야에는 진척을 측정하고 우선순위를 설정하는 엄격한 벤치마크가 부족합니다. 현재의 평가는 제약적입니다 일반적인 비디오 메트릭은 안전에 중요한 이미징 요소를 무시하며; 트레젝토리 가능성은 거의 측정되지 않으며; 시간적 및 에이전트 수준의 일관성은 간과되며; 그리고 자아 조건화에 대한 통제 가능성은 고려되지 않습니다. 또한 현재 데이터셋은 실제 세계 배치를 위해 필요한 다양성을 충분히 커버하지 못하고 있습니다. 이러한 격차를 해결하기 위해 우리는 첫 번째로 생성 주행 세계 모델을 위한 종합적인 벤치마크인 DrivingGen을 제시합니다. DrivingGen은 다양한 평가 데이터셋과 새로운 메트릭 스위트를 결합하며, 이는 시각적 실재성, 트레젝토리 가능성, 시간적 일관성 및 통제 가능성을 공동으로 평가합니다. 14개의 최신 모델을 벤치마킹한 결과 명확한 절충점이 드러났습니다 일반적인 모델은 더 잘 보이나 물리를 위반하고, 주행에 특화된 모델들은 움직임을 실제적으로 포착하지만 시각적 품질에서 뒤처집니다. DrivingGen은 신뢰할 수 있고 통제 가능하며 배포 가능한 주행 세계 모델을 육성하기 위한 통합 평가 프레임워크를 제공하여 확장 가능한 시뮬레이션, 계획 및 데이터 기반 의사결정을 가능하게 합니다.

슬롯 어텐션(SA)과 사전 훈련된 확산 모델은 최근 객체 중심 학습(OCL)에 대한 잠재력을 보여주었지만, 슬롯 얽힘 및 객체 슬롯과 이미지 내용 간의 약한 정합성 문제를 겪고 있습니다. 저희는 Contrastive Object-centric Diffusion Alignment(CODA), 즉 간단한 확장 방법을 제안합니다. 이 방법은 (i) 잔여 어텐션을 흡수하고 객체 슬롯 사이의 간섭을 줄이기 위해 등록 슬롯을 사용하고, (ii) 슬롯-이미지 대응을 명시적으로 유도하기 위해 대조적 정합성 손실을 적용합니다. 결과적인 학습 목표는 슬롯과 입력 사이의 상호 정보(MI)를 최대화하는 실용적인 대체 방식으로 작동하여 슬롯 표현의 질을 강화합니다. 합성(MOVi-C/E) 및 실제 데이터셋(VOC, COCO) 모두에서 CODA는 객체 발견(예 COCO에서 +6.1% FG-ARI 증가), 속성 예측, 그리고 구성적 이미지 생성을 강력한 베이스라인보다 향상시킵니다. 등록 슬롯은 무리 없이 추가되므로 CODA는 효율적이며 확장 가능합니다. 이러한 결과는 복잡하고 실제 상황에서 견고한 OCL을 위한 효과적인 프레임워크로서 CODA의 잠재적 응용 가능성에 대한 증거를 제공합니다.

컴퓨터 비전 분야의 디지털 콘텐츠 보호를 위해 워터마킹 기술이 오랫동안 사용되어 왔습니다. 그러나 AI 생성 미디어의 부상으로 인해 워터마킹의 중요성이 더욱 증가했습니다. Luminark는 신뢰할 수 있는 통계적 검출을 제공하고 다양한 이미지 변환에 대해 견고한 새로운 워터마킹 접근 방식입니다.

본 연구에서는 커스텀 CNN, 사전 학습된 CNN을 고정 특징 추출기로 사용하는 방법, 그리고 트랜스퍼 러닝을 통해 미세 조정한 모델이라는 세 가지 CNN 기반 학습 패러다임을 체계적으로 비교하고자 한다. 이 비교는 다양한 실제 이미지 분류 데이터셋에 걸쳐 이루어진다. 본 연구에서는 정확도와 계산 효율성을 모두 고려하여, 각 패러다임의 장단점을 명확히 드러내고자 한다. ###

본 논문은 병리학 분야의 비전-언어 모델(VLM)에서 데이터 변화에 따른 성능 저하를 탐지하는 방법을 연구합니다. 특히, DomainSAT이라는 GUI 기반 도구를 개발하여 데이터 변이를 쉽게 탐지하고 시각화할 수 있게 했습니다. 또한, 라벨 없이도 모델의 신뢰성 하락을 감지할 수 있는 신뢰도 기반 성능 저하 지표(CDI)를 제안합니다.

PathoSyn은 이미지 합성에 있어서 해상도 병합 모델로, 이는 MRI 영상을 생성하는 통합적인 방법론으로서, 해부학적 토대 위에 분리 가능한 가변 요소를 추가함으로써 병리학적 정보를 표현합니다. 현재의 합성 모델들은 전역 픽셀 도메인에서 작동하거나 이진 마스크에 의존하는 경우가 많으며, 이러한 접근법은 종종 특징이 얽히는 문제를 일으켜 해부학적 기반을 손상시키거나 구조적인 불연속성을 초래합니다. PathoSyn은 이러한 제한점을 해결하기 위해 합성 작업을 확률적인 변동 모델링과 결정론적인 해부학 재구성으로 분해합니다. 이 프레임워크의 중심에는 병리학적 잔차의 조건부 분포를 학습하도록 설계된 변동 공간 확산 모델이 있으며, 이를 통해 국소 강도 변화를 포착하면서 동시에 전역 구조적인 일관성을 유지합니다. 공간적 일관성을 보장하기 위해 확산 과정은 틈새에 대한 인식 융합 전략과 추론 시 안정화 모듈과 결합되어 있으며, 이들로 인해 경계 부위의 아트팩트를 억제하고 높은 신뢰도의 내부 병변 다양성을 생성합니다. PathoSyn은 수학적으로 원칙적인 파이프라인을 제공하여 고유한 환자 데이터셋을 합성하는 것을 가능하게 하여, 낮은 데이터 상황에서도 강력한 진단 알고리즘 개발을 돕습니다. 해석 가능한 대안적 질병 진행 모델링을 허용함으로써 이 프레임워크는 정밀 처치 계획을 지원하고 임상 의사결정 지원 시스템의 벤치마킹 환경을 제공합니다. 양적 및 질적 평가 결과에 따르면 PathoSyn은 전반적인 확산과 마스크 조건화된 기준보다 인식 가능한 현실성과 해부학적 신뢰도 모두에서 우수한 성능을 보여줍니다. 이 연구의 소스 코드는 공개될 예정입니다.

(이 논문은 보행자의 교통 의도 예측을 위한 새로운 방법론, PedViViT를 제안합니다. 이 모델은 비시각적 데이터와 시각적 데이터를 처리하기 위해 변형자 아키텍처를 사용하며, 특히 작은 모델로 뛰어난 성능을 보여줍니다.) ###

최근 소매업계에서 로봇을 고객 대면 역할에 도입하는 데서 나타난 문제를 해결하기 위해, 본 연구는 물리 매장 내 고객 활동 분석을 통해 자율적인 구매 의도 이해의 첫걸음을 소개한다. 우리는 고객의 “선반 방문”을 측정하는 알고리즘을 제시하는데, 이는 고객이 가게에서 둘러보는 행동을 포착한다. 선반 방문은 머신 비전 기반 3D 추적 및 천장 카메라를 통해 얻어진 트래젝토리를 통해 추출된다. 우리는 두 개의 독립적인 트래젝토리 집합(8138개와 15129개)을 사용해 알고리즘을 교정하고, 인간 리뷰어가 라벨링한 다른 매장에서 수집되었다. 교정된 모델은 교정 과정에 포함되지 않은 트래젝토리를 평가하는데, 이는 같은 매장과 다른 매장을 통해 이루어진다. 결과 분석을 통해 알고리즘이 교정 환경과 다른 환경에서도 고객의 둘러보기 활동을 인식할 수 있음을 보여준다. 마지막으로, 우리는 모델을 사용하여 큰 트래젝토리 집합에서 고객의 “둘러보기 패턴”을 분석하고 실제 구매와의 관계를 탐색하며, 매장 계획 및 인간-로봇 상호작용에 활용할 수 있는 방법을 논의한다.

재활용의 중요성은 널리 인정되고 있지만, 일반 대중이 물품의 재활용 가능성을 정확하게 판단하고 적절한 처리 방법을 결정하는 것은 복잡한 과제입니다. 본 연구에서는 GPT-4o, GPT-4o-mini, 그리고 Claude 3.5와 같은 최첨단 비전 언어 모델들을 일상적으로 버려지는 물품의 재활용 가능성을 예측하는데 활용했습니다. 이미지로 구성된 데이터셋을 이용하여 이러한 모델들이 물체를 적절한 분리 수거함과 매칭하는 능력을 평가하였습니다. 또한, 모델이 실제로 사용 가능한 수거함에 맞게 들어가는지 여부도 평가하였습니다. 추가적으로 우리는 다음과 같은 과제들에서 모델들의 성능을 조사했습니다 (i) 지역별 재활용 가이드라인에 따른 예측 수정; (ii) 오염 또는 구조적 손상 고려; 그리고 (iii) 다중 소재로 구성된 물체 처리. 우리의 연구 결과는 이러한 모델들이 이전 세대와 비교하여 문맥 이해 측면에서 큰 진보를 이루고 있음을 보여주며, 그럼에도 불구하고 여전히 부족한 부분을 나타냈습니다. 이러한 맥락 인식 모델의 지속적인 개선은 공공 재활용 실천을 강화하고 환경 지속 가능성을 발전시키는 데 중요합니다.

본 논문은 단일 동영상에서 새로운 시점과 시간 조절을 가능하게 하는 첫 번째 비디오 확산 모델, SpaceTimePilot를 소개합니다. 이 모델은 공간적 시점을 조정하는 것과 더불어 시간을 자유롭게 조작할 수 있는 능력을 가지고 있습니다.

압축된 딥러닝 모델은 자원 제약이 있는 기기에 컴퓨터 비전 시스템을 배포하는 데 중요합니다. 하지만 모델 압축은 특히 자연적인 오염 조건에서 안정성을 저해할 수 있습니다. 따라서 컴퓨터 비전 시스템의 검증 과정에서는 안정성 평가를 고려하는 것이 중요합니다. 본 논문은 양자화, 가위 작업, 가중치 클러스터링을 개별적으로 또는 조합하여 적용한 압축 기법에 대한 포괄적인 평가를 제시하고 있습니다. 이 연구에서는 ResNet-50, VGG-19, 그리고 MobileNetV2와 같은 컨볼루션 신경망에 대해 CIFAR-10-C 및 CIFAR 100-C 데이터셋을 사용하여 안정성, 정확도, 압축 비율 간의 트레이드오프를 분석하였습니다. 우리의 결과는 특정 압축 전략이 복잡한 아키텍처를 가진 네트워크에서 안정성을 유지하거나 향상시킬 수 있음을 보여주고 있습니다. 다목적 평가를 활용하여 최선의 구성 설정을 결정하였으며, 맞춤형 기술 조합이 유익한 다목적 결과를 제공함을 나타내었습니다. 이 연구는 오염된 실제 환경에서 모델을 안정적이고 효율적으로 배포하기 위한 압축 방법 선택에 대한 통찰력을 제공합니다.

카메라 트랩 이미지는 야생동물 모니터링에서 가장 값진 데이터 소스 중 하나로, 생물다양성 보존과 기후 변화 연구에 중요한 역할을 합니다. 이러한 이미지들은 인간의 직접 개입 없이도 광범위한 데이터를 수집할 수 있는 비침해적이고 확장 가능한 방법을 제공합니다. 그러나 대규모 데이터셋에서 자동적인 동물 종 식별을 위한 기술은 필요합니다. 최근 연구에서는 Foundation Models (FMs)을 야생동물 모니터링에 적용하기 시작했으며, 이 모델들은 다양한 시각 인식 작업에서 뛰어난 성능을 보여주었습니다. 본 논문에서는 WildIng이라는 새로운 모델을 소개하며, 이 모델은 텍스트와 이미지를 통합하여 지리적 도메인 변동에 강한 특징을 추출합니다. ###

이 논문에서는 원격 감지 이미지 쌍에서 지표면 변화를 감지하는 문제에 대해 다룹니다. 이 작업은 심미적 변화 감지(Semantic Change Detection, SCD)라고 합니다. 최근 몇 년 동안 SCD는 큰 관심을 받았으며 많은 연구와 여러 분야의 조사가 이루어졌습니다. 기존 방법들은 주로 딥 러닝에 의존하여 3개의 신경망을 학습합니다 두 개의 심미적 맵과 이진 변화 맵을 출력하는 네트워크입니다. 그러나 이러한 모델을 훈련시키기 위해서는 픽셀 수준의 주석이 필요한데, 이를 얻는 것은 비용이 많이 들고 시간도 오래 걸립니다. 따라서 우리는 단일 시점 주석만 사용하여 이진 시점 쌍에 대한 변화 감지 네트워크를 훈련시키는 약한 지정 학습 프레임워크를 제안합니다.

비전-언어 모델(VLM)을 사용한 얼굴 확인 시스템의 가독성 향상에 대한 연구. 기존 접근 방식이 주로 열매 그림자만 보는 것이라면, 본 논문은 왜 결정을 내렸는지 설명하는 능력을 추가하여 시스템의 신뢰성을 높이는 방법을 제시한다. ###

공간 동역학에 대한 추론 능력은 인тел리전스의 핵심 구성 요소이지만, 현재 연구에서는 공간 변화 뒤에 숨어 있는 인간의 의도를 간과하고 있다. 이러한 한계점을 해결하기 위해 우리는 물리적-동역학적 추론—물체 상호 작용의 물리 원리를 이해하는 것—과 의도 지향적 추론—이러한 행동 뒤에 숨어 있는 인간의 목표를 추측하는 것이라는 두 가지 중요한 기둥을 통합하는 새로운 패러다임인 텔레오-공간 인텔리전스(TSI)를 도입한다. TSI 연구를 촉진하기 위해 우리는 EscherVerse를 제시한다. 이는 대규모 오픈 월드 벤치마크(Escher-Bench), 데이터셋(Escher-35k), 그리고 모델(Escher 시리즈)을 포함하고 있다. 실제 비디오에서 유래한 EscherVerse는 제약된 환경을 넘어 물체의 지속성, 상태 전이, 동적이고 인간 중심적인 상황에서의 궤도 예측에 대한 에이전트의 추론 능력을 명시적으로 평가한다. 무엇보다도 이는 의도 지향적 추론을 체계적으로 평가하는 최초의 벤치마크로, 모델들이 물리적 사건과 그 뒤에 숨어 있는 인간의 목적을 연결할 수 있도록 도전한다. 우리의 연구에는 새로운 데이터 큐레이션 파이프라인이 포함되어 있으며, 이는 공간 인텔리전스를 단순히 장면 설명에서 세계 전체에 대한 통합적인 목표 지향적 이해로 발전시키기 위한 기초 자원을 제공한다.

최근 연구에서는 텍스트 프롬프트를 이용하여 실제 인간 동영상을 생성하는 것에 대한 관심이 급증했습니다. 이러한 기술은 단순한 스타일화된 클립에서 장시간, 사진처럼 사실적인, 프롬프트에 충실하며 강력한 시간적 일관성을 갖춘 시퀀스로 발전했습니다. 하지만 현재 연구가 직면하고 있는 주요 도전 중 하나는 개인의 신원을 유지하는 것입니다. 이 논문은 단일 참조 이미지를 사용하는 기존 방법의 한계를 극복하기 위해, 짧은 동영상 참조를 이용하여 인물의 신원을 보다 안정적으로 추출하고 생성할 수 있는 새로운 방식을 제안합니다.

기존의 RGB-이벤트 시각적 객체 추적 접근법은 주로 기존의 피처 레벨 융합에 의존하며, 이는 이벤트 카메라의 고유한 장점을 완전히 활용하지 못합니다. 특히, 이벤트 카메라는 높은 동적인 범위와 움직임에 민감한 특성이 간과되며, 정보가 적은 영역도 일정하게 처리되어 백본 네트워크의 불필요한 계산 부담이 발생합니다. 이러한 문제를 해결하기 위해, 우리의 접근법은 주파수 도메인에서 조기 융합을 수행하는 새로운 추적 프레임워크를 제안합니다. 이를 통해 이벤트 모달리티로부터 고주파 정보의 효과적인 집약화가 가능해집니다. 구체적으로, RGB와 이벤트 모달리티는 빠른 푸리에 변환을 통해 공간 도메인에서 주파수 도메인으로 변환되며, 그들의 진폭과 위상 성분은 분리됩니다. 고주파 이벤트 정보는 진폭 및 위상 주의를 통한 선택적 융합을 통해 RGB 모달리티에 통합되어 피처 표현을 향상시키고 백본 계산을 크게 줄입니다. 또한, 움직임 가이드 스페이셜 스파시피케이션 모듈은 이벤트 카메라의 움직임 민감성 특성을 활용하여 대상 움직임 큐와 공간 확률 분포 간의 관계를 포착하고, 정보가 적은 영역을 필터링하며 대상 관련 피처를 강화합니다. 마지막으로, 대상 관련 피처 집합이 백본 네트워크에 학습용으로 입력되며 추적 헤드는 최종 대상 위치를 예측합니다. FE108, FELT 및 COESOT 등 널리 사용되는 세 가지 RGB-이벤트 추적 벤치마크 데이터셋에서의 광범위한 실험은 우리의 방법의 높은 성능과 효율성을 입증합니다. 이 논문의 소스 코드는 https //github.com/Event-AHU/OpenEvTracking 에서 공개될 예정입니다.

이 논문에서는 AI 생성 이미지 감지를 위한 대규모 데이터셋을 소개합니다. 이 데이터셋은 실제 및 합성 이미지-캡션 쌍 96,000개를 포함하며, 합성 이미지는 여러 생성 모델로부터 생성되었습니다. 우리는 이 데이터셋 기반의 두 가지 작업을 제안하고 있습니다 AI 생성 이미지와 실제 이미지를 구분하는 이진 분류 작업과 특정 생성 모델을 식별하는 작업입니다.

이 논문은 텍스트 기반 인물 검색(TBPS)에 대한 새로운 접근법을 제안한다. TBPS는 대규모 이미지 갤러리에서 주어진 텍스트 쿼리와 가장 잘 일치하는 사람을 식별하는 문제이다. 이를 해결하기 위해, 본 논문은 CLIP과 같은 비전-언어 모델(VLM)의 발전을 활용하여 고급 정보를 추출하고자 한다. 그러나 기존 방법들은 추가적인 외부 자원에 의존함으로써 계산 및 주석 부담이 증가하는 문제점이 있다. 이를 해결하기 위해, 본 논문은 ITSELF라는 주의력 가이드로 내재적 공간 대응을 개선한 프레임워크를 제안한다. 이는 클립 모델의 주의 맵을 활용하여 고급 정보를 추출하고, 이를 통해 더 정교한 대응을 달성한다. ###

이 논문에서는 작은 객체 감지(TOD)에 대한 연구를 제시하며, 특히 애노테이션 노이즈에 민감한 문제점을 해결하기 위해 **TOLF**(Tiny Object Localization Flow) 프레임워크를 소개합니다. TOLF는 정규화 흐름을 사용하여 예측 분포의 모델링을 통해 확률적 오류와 애노테이션 노이즈에 대응할 수 있습니다.

전염성 바이러스 감염인 러미피부병(LSD)은 가축 건강을 크게 저하시켜 글로벌 경제와 식량 안보에 중대한 위협을 제기한다. 그 빠른 확산 특성을 고려할 때, 발병을 방지하고 적시 개입을 보장하기 위해서는 조기에 정확히 인식하는 것이 중요하다. 본 논문에서는 LSD의 조기 검출을 위한 하이브리드 딥러닝 기반 접근법인 LUMPNet을 제안한다. LUMPNet은 이미지 데이터를 이용하여 LSD의 주요 지표인 피부 결절을 감지하고 분류한다. 이를 위해 LUMPNet은 YOLOv11, 복합 스케일링을 갖춘 EfficientNet 기반 CNN 분류기 및 새로운 적응형 하이브리드 옵티마이저를 사용한다. 좀 더 구체적으로는 LUMPNet이 소의 이미지에서 LSD 피부 결절과 흉터를 감지하고 위치 지정하며, EfficientNet을 이용하여 해당 위치 지정된 소의 이미지를 LSD에 영향 받은 것 또는 건강한 것으로 분류한다. YOLOv11 및 EfficientNet 하이브리드 모델의 학습을 안정화시키고 가속화하기 위해 새로운 적응형 하이브리드 옵티마이저가 제안되고 사용된다. 우리는 공개 데이터 세트를 이용하여 LSD의 다양한 단계에서 LUMPNet을 평가한다. 결과는 제안된 방식이 99%의 LSD 감지 학습 정확도를 달성하고, 기존 방식보다 우수함을 나타낸다. 이 모델은 검증 정확도에서도 98%를 달성한다. 또한 추가 평가를 위해 AdamW 옵티마이저로 튜닝된 EfficientNet-B0 모델을 사용한 사례 연구를 수행하고 LUMPNet의 성능과 비교한다. 결과는 LUMPNet이 우수한 성능을 달성함을 보여준다.

이 논문에서는 추론 시점의 진화적 탐색 문제로 재구성된 사유 기반 분할 작업을 제안한다. 이를 통해 다양한 가설 집단을 유지하고, 진화 알고리즘을 활용해 최적 솔루션에 대한 강건한 근사치를 구현한다.

이 연구에서는 다섯 가지 다양한 이미지 데이터셋을 사용하여 CNN 기반 모델의 성능을 평가한다. 이 데이터셋들은 도로 상태 분석, 보도 침범 감지, 과일 종류 인식 및 벼 종류 분류와 같은 실용적인 실제 세계 문제를 다룬다. 우리는 고유한 커스텀 CNN 아키텍처와 기존 모델들인 MobileNet과 EfficientNet을 비교하며, 다양한 이미지 분류 작업에서의 성능 차이를 살펴본다.

각종 진전에도 불구하고 다중 모달의 대형 언어 모델들은 시각 수학 문제 해결에서 여전히 어려움을 겪고 있다. 최근 연구들은 시각적 인식이 시각 수학 사고의 병목 현상임을 인지하였지만, 그들의 해법은 주로 시각적 입력의 추출과 해석 개선에 한정되어 있다. 특히, 추출된 시각적 단서들이 후속 사고 과정에서 신뢰성 있게 통합되고 적절히 활용되는 문제는 간과되었다. 이를 극복하기 위해 우리는 인식$ Rightarrow$내부화$ Rightarrow$사고라는 인간의 계층적 사고 흐름을 명시적으로 시뮬레이션하는 새로운 인지 기반 세 단계 프레임워크인 CogFlow를 제안한다. 이러한 계층적 흐름에 맞추어 모든 단계를 통합적으로 강화하였다. 매개변수적 및 의미 공간에서의 시각 정보 추출을 개선하기 위해 상호 보완적인 시각적 리워드를 설계하여 인식 능력을 높였다. 추출된 시각적 단서들이 후속 사고 과정에 신뢰성 있게 통합되도록 내부화 단계에서는 지식 내부화 리워드 모델을 도입하여 인식과 사고 사이의 연결을 강화하였다. 또한, 사고가 시각적 지식 위에 기반하도록 더 강하게 제약하기 위해 시각 게이트 정책 최적화 알고리즘을 설계하여 일관되지만 시각적으로 무근거인 사고 체인을 피할 수 있도록 하였다. 추가로 새로운 데이터셋 MathCog를 제공하여 모델 훈련에 기여하였으며, 이는 12만 개 이상의 고품질 인식-사고 정합성 주석을 포함하고 있다. 일반적으로 사용되는 시각적 수학 사고 벤치마크에서 실시된 포괄적인 실험과 분석은 제안된 CogFlow의 우수성을 검증한다.

이 논문에서는 텍스트-이미지 생성 모델(T2I)에서 발생하는 미세한 왜곡을 자동으로 인식하고 수정하기 위한 **Agentic Retoucher**라는 새로운 프레임워크를 제안합니다. Agentic Retoucher는 시각적-의사결정-행동 순환 구조로 설계되어, 생성된 이미지에서 특정 부분에 대한 왜곡을 감지하고 수정할 수 있습니다. 이를 위해 **GenBlemish-27K**라는 대규모 데이터셋을 구성하여, 다양한 왜곡 유형에 대한 정밀한 주석과 자연어 설명을 제공합니다. 실험 결과는 Agentic Retoucher가 현존하는 후처리 방법보다 향상된 성능을 보여주며, 특히 미세한 왜곡 인식 및 수정에서 뛰어난 효과를 나타냅니다. ###

컴퓨터 비전 분야에서 객체 검출은 주요한 문제로, 자율 시스템, 환경 모니터링, 로봇공학 등 다양한 분야에 응용됩니다. 이 연구에서는 학습 중 특권 정보를 활용하는 Learning Under Privileged Information (LUPI) 패러다임을 객체 검출에 적용하여, 기존 방법보다 더 우수한 성능을 달성할 수 있는지 실험적으로 검증합니다.

정확한 해부학적 구조 및 병리학적 부위의 분할은 진단, 치료 계획 수립, 질병 진행 모니터링에 필수적이며 의사가 환자의 상태를 종합적으로 평가하고 정보에 입각한 결정을 내릴 수 있게 합니다. 이 작업은 보통 방사선과나 의료진이 수작업으로 수행하므로 시간이 많이 걸리고 일관성이 떨어집니다. AI 기반의 자동화된 분할 방법이 이러한 효율성 및 일관성을 개선하기 위해 주목받고 있습니다. 딥 뉴럴 네트워크(DNNs)를 포함한 인공지능은 특히 변환기 구조를 사용하여 일반적인 이미지 분석에서 혁신을 이끌어냈습니다. 그러나 이러한 모델을 의료 이미징에 직접 적용하는 것은 대규모 주석 데이터와 많은 연산 자원이 필요하다는 점에서 여러 가지 도전 과제가 있습니다. 3D 볼륨의 경우 특히 수작업으로 마스크를 생성하는 것이 비용이 많이 들고 시간이 오래 걸립니다. 가상 데이터를 생성하는 생성 모델은 주석 부족 문제에 대한 유망한 해결책을 제공하지만, 임상적 채택에는 철저한 검증과 규제 준수 요구사항이 있습니다. 전통적인 데이터 증강 기법은 실제 임상 특징을 정확히 포착하지 못하는 경우가 있어 모델의 신뢰성을 저하시킬 수 있습니다. 의료 이미지 분할에서는 정확한 경계 선정이 중요하며, 작은 위치 오차는 수술 사고로 이어질 수 있는 심각한 임상적 결과를 초래합니다. 본 논문은 개인 정보 보호 및 자원 효율적인 의료 AI의 필요성에 의해 작성되었습니다. 특정 환자의 3D 볼륨에서 얻은 미표시 슬라이스가 높은 정확도의 분할을 위한 필요한 맥락을 제공한다는 가설을 제시합니다. ###

이 논문에서는 딥러닝 기반의 확산 모델을 사용하여 고해상도 필름 복원 작업에서 발생하는 문제점을 해결하고자 한다. 특히, 제안된 HaineiFRDM 모델은 낮은 VRAM 장치에서도 작동할 수 있도록 설계되었으며, 패치 기반 학습 및 추론 프레임워크를 사용하여 고해상도 복원 작업의 계산 비용을 줄이고자 한다. 또한 실제 손상된 필름과 합성 데이터로 구성된 새로운 데이터셋을 제안하여 모델 성능 평가 기준을 제공한다.
검색어를 입력하세요