Computer Science / Computer Vision

'Computer Science / Computer Vision' 카테고리의 모든 글

총 71개의 글
시간순 정렬
S&CNet  자율 시스템과 3D 재구성 위한 단일 카메라 깊이 완성 네트워크

S&CNet 자율 시스템과 3D 재구성 위한 단일 카메라 깊이 완성 네트워크

밀도적인 깊이 완성은 자율 시스템과 3D 재구성을 위한 필수 요소이다. 본 논문에서는 효율성과 정확성 사이의 좋은 균형을 이루는 가벼우면서도 효과적인 네트워크(S&CNet)를 제안한다. 공간적 측면과 채널별 전역 범위 관계를 측정하기 위해 이중 스트림 주의 모듈(S&C 강화기)을 도입하여 성능을 향상시킨다. 높은 추정 네트워크와 디코더 네트워크 사이에 제안된 S&C 강화기를 플러그인한 코스-투-파인 네트워크가 설계되었다. 실험 결과는 KITTI 데이터셋에서 기존의 작업들과 경쟁적인 성능을 보여주지만 거의 4배 빠르다는 것을 입증한다. 제안된 S&C 강화기는 기타 기존 작업에도 플러그인되어 무시할 수 있는 추가 계산 비용으로도 성능을 크게 향상시킬 수 있다.

paper AI 요약
복합 작업 회귀 기반 학습을 이용한 비구조화된 실외 환경에서의 자율 무인 항공기 비행 제어

복합 작업 회귀 기반 학습을 이용한 비구조화된 실외 환경에서의 자율 무인 항공기 비행 제어

전 세계 드론 산업의 성장으로 완전 자율 비행 드론 응용 프로그램의 가능성이 더욱 확대되고 있다. 이 연구의 동기 중 하나는 무구조화된 실외 환경에서 넓은 지역 탐색 및 감시 작업에 드론을 사용하는 것이다. 이러한 환경의 주요 문제점은 도로 선이나 경로와 같은 자율 비행을 돕는 구조적 특징이 부족하다는 점이다. 본 논문에서는 숲 밑 덤불 속에서 비행 명령을 정의할 수 있는 End-to-End Multi-Task Regression 기반 학습 접근법을 제안한다. 이 방법은 경로나 추가 센서(GPS)가 없는 환경에서도 작동 가능하다. 훈련 및 검증은 소프트웨어 인 루프 파이프라인을 사용하여 수행되며, 이를 통해 최신 포즈 추정 기술과의 상세한 평가를 진행한다. 우리의 광범위한 실험 결과는 이 접근법이 필요한 탐색 범위 내에서 밀도 높은 탐사를 수행하고 더 넓은 탐색 영역을 커버하며, 이전에 본 적 없고 탐사하지 않은 환경에서도 일반화되고 현존하는 최선의 기술보다 우수함을 입증한다.

paper AI 요약
무한히 넓은 신경망에서의 정확한 계산에 관하여

무한히 넓은 신경망에서의 정확한 계산에 관하여

본 논문은 신경망을 훈련하는 동안 가중치 행렬이 초기화된 상태에서 크게 변하지 않는다는 것을 보여줍니다. 또한, 이 가중치의 작은 변화에도 불구하고 신경망은 여전히 빠른 수렴 속도를 유지한다는 사실을 입증합니다. 이러한 결과는 네트워크가 훈련 중에 원래 구조와 비슷하게 유지됨을 의미하며, 이를 통해 초기화된 가중치 행렬이 최적의 해에 근접하도록 훈련하는 것이 가능함을 시사합니다. ###

paper AI 요약
컨볼루션 신경망을 이용한 AI 기반 순례자 감지

컨볼루션 신경망을 이용한 AI 기반 순례자 감지

순례는 세계에서 가장 중요한 이슬람 종교 행사로, 수백만 명의 순례자들이 마카하와 메디나의 거룩한 장소를 방문하여 의식을 수행합니다. 정부 당국은 순례자들의 안전과 보안이 최우선 과제입니다. 마카하는 5000대의 카메라로 둘러싸여 순례자를 모니터링하고 있지만, 매초 수집되는 방대한 양의 이미지를 인공적으로 추적하기는 사실상 불가능합니다. 이 문제를 해결하기 위해 우리는 딥러닝과 컨볼루션 신경망을 기반으로 한 인공지능 기술을 사용하여 순례자와 그 특징을 감지하고 식별하는 방법을 제안합니다. 이를 위해 우리는 순례자의 검출 및 성별 분류를 위한 포괄적인 데이터셋을 구축했습니다. 그런 다음, YOLOv3와 Faster-RCNN을 기반으로 한 두 개의 컨볼루션 신경망을 개발하여 순례자를 감지했습니다. 실험 결과는 모든 클래스에 대한 평균 정밀도에서 Inception v2 특징 추출기로 구성된 Faster RCNN이 가장 높은 51%의 성능을 보였습니다.

paper AI 요약
병리 이미징-MRI 합성의 분리된 편차 확산을 통한 PathoSyn

병리 이미징-MRI 합성의 분리된 편차 확산을 통한 PathoSyn

PathoSyn을 제시합니다. PathoSyn은 영상-병리학적 자기공명영상(MRI) 합성에 사용되는 통합 생성 프레임워크로, 안정적인 해부학적 다양체 위에서 분리된 추가 편차를 재구성하는 방식으로 문제를 접근합니다. 현재의 생성 모델은 전역 픽셀 도메인을 기반으로 작동하거나 이진 마스크에 의존하는데, 이러한 패러다임들은 종종 특징이 얽혀있어 해부학적 기반의 손상이나 구조적 불연속성을 초래합니다. PathoSyn은 합성 작업을 결정론적인 해부학 재구성과 확률론적인 편차 모델링으로 분해함으로써 이러한 한계를 해결합니다. 이 프레임워크의 중심에는 경로-공간 확산 모델이 있으며, 조건부 병리학적 잔차의 분포를 학습하여 국소적 강도 변동을 포착하면서 동시에 전역 구조적 정합성을 유지하도록 설계되었습니다. 공간적 일관성을 보장하기 위해 확산 과정은 틈을 인식하는 융합 전략과 추론 시 안정화 모듈로 결합되어, 경계 영역의 아트팩트를 억제하고 내부 종양 이질성이 높은 신뢰도를 가진 합성 데이터세트 생성이 가능하게 합니다. PathoSyn은 저데이터 환경에서 강력한 진단 알고리즘 개발을 촉진하는 수학적으로 원칙적인 파이프라인을 제공하며, 해석 가능한 역설적 질병 진행 모델링을 허용함으로써 정밀 치료 계획 지원 및 임상 의사결정 지지 시스템의 벤치마킹 환경을 제공합니다. 종양 영상 벤치마크에 대한 양적 및 질적 평가 결과 PathoSyn은 전반적인 확산과 마스크 조건화 기준보다 퍼셉트UAL 현실성 및 해부학적 정합성을 크게 뛰어넘는 것으로 나타났습니다. 이 작업의 소스 코드는 공개될 예정입니다.

paper AI 요약
진화를 통한 추론 세분화  훈련 없이 진화적 프롬프팅을 이용한 제로샷 추론 세분화

진화를 통한 추론 세분화 훈련 없이 진화적 프롬프팅을 이용한 제로샷 추론 세분화

이유어분할은 모델들이 복잡하고 문맥에 따른 언어적 질의를 해석하여 픽셀 수준으로 정확하게 위치를 찾는 것을 요구한다. 현재 주도적인 접근 방법들은 감독 학습(Supervised Fine-Tuning, SFT)이나 강화학습(Reinforcement Learning, RL)을 많이 의존하고 있다. 그러나 SFT는 치명적인 잊어버림과 도메인 의존성을 가지고 있으며, RL은 훈련 불안정성 및 미리 정의된 보상 함수에 대한 딱딱한 의존성이 문제가 된다. 최근의 학습 없는 방법들은 이러한 훈련 부담을 피하지만, 기본적으로 정적인 추론 패러다임에 의해 제한된다. 이러한 방법은 통상적으로 단일 패스 생성-그리고 분할 체인에 의존하며, 이는 충분히 깊지 않은 사고 능력과 언어적 환상을 자가 수정하거나 공간적인 오해를 바로잡을 수 없는 한계가 있다. 본 논문에서는 이러한 제한성을 극복하고 EVOL-SAM3라는 새로운 제로샷 프레임워크를 제안한다. 이는 추론 시점에 진화적 탐색 과정으로 사고분할을 재구성하는 방식이다. 고정된 프롬프트에 의존하지 않고, EVOL-SAM3은 프롬프트 가설의 집합을 유지하고 생성-평가-진화 루프를 통해 이를 반복적으로 정교하게 한다. 우리는 시각 분야에서 참조 없는 쌍방 토너먼트를 통해 프롬프트 적합도를 평가하는 방법을 소개하며, 의미 변이 연산자를 통해 다양성을 주입하고 의미적 오류를 수정한다. 또한, 기하학적 사전 지식과 의미적 추론을 통합하여 강력한 최종 선택을 보장하기 위해 이질적인 분야 모듈을 도입한다. 광범위한 실험 결과 EVOL-SAM3은 정적인 기본 모델뿐만 아니라 어렵게 설정된 ReasonSeg 벤치마크에서 완전 감독의 최신 기술 방법보다도 크게 우수한 성능을 보여준다.

paper AI 요약
다크EQА  저조도 실내 환경에서 몸체 기반 질문 답변을 위해 비전-언어 모델 벤치마킹

다크EQА 저조도 실내 환경에서 몸체 기반 질문 답변을 위해 비전-언어 모델 벤치마킹

비전 언어 모델(VLMs)은 점점 더 몸체화된 에이전트의 핵심 추론 모듈로 채택되고 있습니다. 현재 벤치마크는 이상적인, 잘 비치된 조건에서 그 능력을 평가하고 있지만, 견고한 24/7 운영을 위해서는 시각적 퇴화, 특히 밤이나 어두운 환경에서의 저조도 조건에서도 성능이 필요합니다. 이 미처해진 과제를 해결하기 위해 우리는 DarkEQA라는 오픈소스 벤치마크를 제시했습니다. 이는 다양한 수준의 저조도 조건에서 EQA 관련 인식 원시 요소를 평가하도록 설계되었습니다. DarkEQA는 컨트롤된 퇴화 조건 하에서 일인칭 관찰로부터 질문에 답하는 능력을 평가함으로써 인식 병목을 분리합니다. 이로 인해 근거 있는 견고성 분석이 가능합니다. DarkEQA의 핵심 설계 특징 중 하나는 그 물리적 정확성입니다 시각적 퇴화는 선형 RAW 공간에서 모델링되어, 물리 기반 조명 감소와 센서 노이즈를 시뮬레이션한 다음 ISP에 영감을 받은 렌더링 파이프라인을 통해 표현됩니다. 우리는 DarkEQA의 활용성을 다양한 최첨단 VLMs과 저조도 이미지 강화(LLIE) 모델을 평가함으로써 입증합니다. 우리의 분석은 이러한 도전적인 시각적 조건 하에서 작동하는 VLMs의 한계를 체계적으로 드러냅니다.

paper AI 요약
주파수 영역에서 RGB-이벤트 기반 시각 객체 추적을 위한 진폭과 위상 주의 분리

주파수 영역에서 RGB-이벤트 기반 시각 객체 추적을 위한 진폭과 위상 주의 분리

기존의 RGB-Event 시각적 객체 추적 접근법은 주로 기존의 특징 수준 결합에 의존하여 이벤트 카메라의 독특한 장점을 완전히 활용하지 못합니다. 특히, 이벤트 카메라는 고동적 범위와 움직임 민감성이라는 특성을 가질 뿐만 아니라, 정보가 적은 영역도 일률적으로 처리되어 백본 네트워크에 불필요한 연산 부담을 초래합니다. 이러한 문제를 해결하기 위해 우리는 주파수 도메인에서 조기 결합이 이루어지는 새로운 추적 프레임워크를 제안합니다. 이를 통해 이벤트 모달리티의 고주파 정보가 효과적으로 집계됩니다. 구체적으로, RGB와 이벤트 모달리티는 Fast Fourier Transform을 통해 공간 도메인에서 주파수 도메인으로 변환되며, 그들의 진폭과 위상 성분이 분리됩니다. 이벤트의 고주파 정보는 진폭 및 위상 관심 메커니즘을 통해 RGB 모달리티에 선택적으로 결합되어 특징 표현을 향상시키고 백본 연산을 크게 줄입니다. 또한, 움직임 지향 공간 스퍼시피케이션 모듈은 이벤트 카메라의 움직임 민감성을 활용하여 대상 움직임 큐와 공간 확률 분포 간의 관계를 캡처하고 정보가 적은 영역을 필터링하며 대상과 관련된 특징을 강화합니다. 마지막으로, 대상과 관련이 있는 희소한 세트의 특징이 백본 네트워크에 학습되어 추적 헤드는 최종 대상 위치를 예측합니다. FE108, FELT 및 COESOT 등 널리 사용되는 RGB-Event 추적 벤치마크 데이터셋에서 수행된 광범위한 실험은 제안된 방법의 높은 성능과 효율성을 입증합니다.

paper AI 요약
신경 거북이 그래픽을 이용한 도시 도로 구조 모델링

신경 거북이 그래픽을 이용한 도시 도로 구조 모델링

본 논문에서는 Neural Turtle Graphics (NTG)를 제안하며, 이는 공간 그래프의 생성 모델로 활용되며 도시 도로 구조를 모델링하는 데 적용되었습니다. 구체적으로, 우리는 도로 구조를 노드와 간선으로 표현한 그래프를 통해 나타냈습니다. 여기서 노드는 제어 점을, 간선은 도로 구간을 의미합니다. NTG는 신경망으로 파라미터화된 순차적 생성 모델입니다. 이 모델은 현재 그래프에 기반하여 새로운 노드와 기존 노드에 연결되는 간선을 반복적으로 생성합니다. 우리는 Open Street Map 데이터를 사용해 NTG를 훈련시켰으며, 다양한 성능 지표를 통해 제안된 방법이 기존 접근법보다 우수함을 보였습니다. 또한 우리의 방법은 사용자가 도로 구조의 스타일을 조절할 수 있도록 하며, 도로 구조의 일부를 스케치하여 합성할 수 있습니다. 이 외에도 제안된 NTG는 위성 항공 사진 해석과 같은 분석적 작업에 활용될 수 있습니다. 실험 결과는 SpaceNet 데이터셋에서 최고 성능을 달성함을 보여줍니다.

paper AI 요약
3D 다중 객체 장면에서의 2D 시스템 비디오와 언어 정합성 및 멀티정보 도함수 없는 제어

3D 다중 객체 장면에서의 2D 시스템 비디오와 언어 정합성 및 멀티정보 도함수 없는 제어

본 논문은 시각-언어 모델(VLM)이 2차원 이미지를 기반으로 학습되었음에도 불구하고, 3차원 장면을 분석하는 방법론을 제안합니다. 이는 특정 객체의 위치와 특징을 정확하게 파악하기 위해 필요한 최적의 시점 순서를 예측하고, 이를 통해 VLM이 더 정확한 결과를 반환할 수 있도록 합니다.

paper AI 요약
EgoGrasp  제1인칭 동영상에서의 세계공간 손-물체 상호작용 추정

EgoGrasp 제1인칭 동영상에서의 세계공간 손-물체 상호작용 추정

이 논문에서는 제1인칭 시점의 동영상에서 손과 물체 간 상호작용을 3D 세계 좌표계에 재구성하는 방법을 제안한다. EgoGrasp는 다단계 감지–생성–최적화 프레임워크를 사용하여 현대 감지 시스템에서 얻은 정확한 3D 정보를 활용하면서, 시간과 공간적으로 일관된 결과를 보장하기 위해 생성적인 동작 사전을 도입한다. EgoGrasp는 다음과 같은 세 단계로 작동한다 (1) 전처리 제1인칭 동영상에서 정확한 카메라 궤적과 밀도가 높은 기하학적 정보를 복원하여 일관된 세계 좌표계를 설정하고, 초기 3D 손 자세와 물체의 6자유도 자세를 추출 및 정렬한다. (2) 동작 확산 두 단계로 구성된 분리된 확산 모델을 사용하여 연속적인 손과 물체의 동작을 생성한다. 첫 번째 단계는 SMPL-X 전체 신체 자세에 의해 안내되는 시간적으로 안정적인 손 궤적을 생성하며, 두 번째 단계에서는 CAD 모델 없이 자연스러운 동작을 포착하고 세계 좌표에서의 이동을 줄인다. (3) 테스트 시 최적화 SMPL-X 매개변수를 최적화하여 공간 정확성, 시간 부드러움 및 발-지면 접촉 일관성을 개선한다. ###

paper AI 요약
F2IDiff  실 세계 이미지 초해상도 강화를 위한 특징에서 이미지로의 확산 기반 모델

F2IDiff 실 세계 이미지 초해상도 강화를 위한 특징에서 이미지로의 확산 기반 모델

생성형 인공지능의 도입으로 단일 이미지 초해상도(SISR) 품질이 크게 개선되었으며, 텍스트-투-이미지 확산(T2IDiff) 기반 모델에서 학습한 강력한 사전 지식은 고해상도(HR)와 저해상도(LR) 이미지 사이의 간격을 줄일 수 있습니다. 그러나 플래그십 스마트폰 카메라는 생성형 모델을 채택하는 데 느리게 반응하고 있으며, 강력한 생성은 불필요한 환영현상을 초래할 수 있기 때문입니다. 학계에서 볼 수 있는 크게 훼손된 LR 이미지는 강력한 생성이 필요하며, HR과의 큰 간격 때문에 환영현상도 어느 정도 용인됩니다. 반면에 소비자 사진에서는 LR 이미지가 상당히 높은 정확성을 가지고 있으며, 따라서 최소한의 환영현상 없는 생성만 요구됩니다. 우리는 SISR에서 생성이 FM의 조건부 기능의 엄격성과 풍부함에 의해 제어된다고 가정합니다. 첫째, 텍스트 특징은 고수준의 특징으로 이미지의 미세한 텍스처를 설명하는 데 자주 부적절할 수 있습니다. 또한 스마트폰 LR 이미지는 최소 12MP 이상이지만 T2IDiff FM 기반 SISR 네트워크는 훨씬 작은 이미지(<1MP)에 대해 추론하도록 설계되었습니다. 그 결과 SISR 추론은 종종 텍스트 특징으로 정확하게 설명하기 어려운 작은 패치에서 이루어져야 합니다. 이러한 단점을 해결하기 위해 우리는 하위 수준의 조건부 기능을 가진 FM, 특히 DINOv2 특성을 사용한 이미지 확산(Feature-to-Image Diffusion) 기반 모델(FM)이라고 명명하는 SISR 네트워크를 도입합니다. 하위 수준의 특징은 엄격한 조건부를 제공하면서 동시에 작은 패치도 충분히 설명할 수 있습니다.

paper AI 요약
HOG과 딥 피처 통합을 통한 히스토พา토로지 이미지 분류 강화 및 견고한 노이즈 성능

HOG과 딥 피처 통합을 통한 히스토พา토로지 이미지 분류 강화 및 견고한 노이즈 성능

디지털 병리학은 현대 의료 실무에서 중요한 기술로 발전하여, 복잡한 조직 이미지를 분석하는 데 필요한 자동화 방법을 개발하게 되었습니다. 특히 머신러닝과 인공지능의 발달 덕분에 복잡한 병리학적 이미지에서 의미 있는 패턴을 추출할 수 있게 되었으며, 이를 통해 정확하고 효율적인 진단이 가능해졌습니다. ###

paper AI 요약
HY-모션 1.0  텍스트에서 모션 생성의 새 지평

HY-모션 1.0 텍스트에서 모션 생성의 새 지평

본 연구에서는 최근 머신러닝(ML) 알고리즘의 발전을 탐구하고, 다양한 데이터셋에 대한 성능을 비교합니다. 감독학습, 비감독학습, 강화학습 이 세 가지 주요 패러다임을 분석하였습니다. 우리의 결과는 각각이 장점은 있지만, 복잡한 문제 해결 시나리오에서는 강화학습이 가장 유망하다는 것을 나타냅니다.

paper AI 요약
LinMU  선형화로 다중 모달 이해 단순화

LinMU 선형화로 다중 모달 이해 단순화

> 최근의 비전-언어 모델(VLMs)은 인상적인 성능을 보여주지만, 자기 주의력(self-attention)의 이차적 복잡도로 인해 엣지 장치에서의 배포가 제한되며, 고해상도 이미지와 긴 컨텍스트 비디오에 대한 이해를 수행하는 데 큰 비용이 발생한다. 이러한 문제를 해결하기 위해 우리는 LinMU(Linear-complexity Multimodal Understanding)을 소개한다. 이 모델은 자기 주의력 기반 VLMs의 성능을 유지하면서 모든 자기 주의력 층을 M-MATE 블록으로 대체하여 선형 복잡도를 달성한다. M-MATE 블록은 전역 컨텍스트를 포착하기 위한 양방향 상태 공간 모델(Flex-MA 분기)과 인접한 상관관계를 처리하는 로컬 Swin 주의력(Local-Swin 분기)을 결합한 이중 분기 모듈이다. 기존 VLM을 LinMU 아키텍처로 변환하기 위해, 우리는 세 단계의 지식 추출(distillation) 프레임워크를 제안한다 (i) 양 분기를 자기 주의력 가중치로 초기화하고 Flex-MA 분기만 학습, (ii) Local-Swin 분기를 해동하여 두 분기를 함께 조정, (iii) 나머지 블록을 LoRA 어댑터를 사용해 조정하면서 동결된 VLM 교사의 은닉 상태와 토큰 수준 로짓에 대해 회귀한다. MMMU, TextVQA, LongVideoBench, Video-MME 등의 벤치마크에서 LinMU는 교사 모델과 유사한 성능을 보이면서 Time-To-First-Token(TTFT)을 최대 2.7배 줄이고 분단위 비디오의 토큰 처리 속도를 최대 9.0배 개선한다. ###

paper AI 요약
RefSR-Adv  참조 기반 이미지 초해상도 모델의 적대적 공격

RefSR-Adv 참조 기반 이미지 초해상도 모델의 적대적 공격

단일 이미지 초해상화(SISR)는 다양한 아키텍처를 통해 저해상도 입력에서 고해상도 세부 사항을 복원하는 데 사용됩니다. 그러나 SISR은 제한된 정보로 인해 실제적이지 않은 아트팩이나 텍스처 환상을 합성하게 됩니다. 이를 극복하기 위해, Reference-based Super-Resolution (RefSR)에서는 외부 고주파수 텍스처 라이브러리인 고해상도 참조 이미지를 도입하여 유사한 텍스처를 전송하는 방식을 사용합니다. 이 논문은 이러한 RefSR 시스템의 보안 취약성을 체계적으로 탐색하고, 참조 이미지에 약간의 변화를 주어 출력을 저하시키는 새로운 적대적 공격인 RefSR-Adv를 제안합니다.

paper AI 요약
RSAgent  텍스트 안내 분할을 위한 다중 대화 도구 활용 학습

RSAgent 텍스트 안내 분할을 위한 다중 대화 도구 활용 학습

이 연구는 태양 복사가 식물 성장에 미치는 영향을 탐구한다. 우리는 다양한 수준의 노출과 그들이 광합성 속도, 생체량 축적 및 식물의 전반적인 건강에 미치는 영향을 통제된 환경에서 조사했다. 우리의 결과는 식물 발달에 최적의 태양 복사량이 중간 수준임을 제시하며, 그 이상에서는 손상이 발생한다.

paper AI 요약
тонкая структура 세gmentation의 새 지평  TopoLoRA-SAM

тонкая структура 세gmentation의 새 지평 TopoLoRA-SAM

본 연구에서는 다양한 도메인에서 이진 세분화를 위한 기초 모델의 적응을 위해 TopoLoRA-SAM이라는 원칙적인 프레임워크를 제안한다. SAM ViT-B 이미지 인코더는 고정되며, 각 트랜스포머 블록의 피드포워드 네트워크(FNN) 층에 학습 가능한 LoRA 모듈을 삽입하고, 고해상도 임베딩 텐서에서 마스크 디코딩 전에 가벼운 깊이별 분리 컨볼루션 어댑터를 사용한다. 이 설계는 미세 조정을 가능하게 하면서 사전 학습된 표현을 유지한다.

paper AI 요약
드라이빙젠  자율주행의 미래를 그리다

드라이빙젠 자율주행의 미래를 그리다

비디오 생성 모델은 세계 모델의 한 형태로 AI에서 가장 흥미로운 분야 중 하나로 부상하고 있으며, 이는 복잡한 장면의 시간적 변화를 통해 미래를 상상할 수 있는 능력을 에이전트에게 제공합니다. 자율주행에서는 이러한 비전이 주행 세계 모델이라는 개념을 탄생시켰습니다 자신과 다른 에이전트의 미래를 상상하는 생성 시뮬레이터로, 이는 확장 가능한 시뮬레이션, 안전한 경계 사례 테스트 및 풍부한 합성 데이터 생성을 가능하게 합니다. 그럼에도 불구하고 빠르게 성장하고 있는 연구 활동에도 불구하고, 이 분야에는 진척을 측정하고 우선순위를 설정하는 엄격한 벤치마크가 부족합니다. 현재의 평가는 제약적입니다 일반적인 비디오 메트릭은 안전에 중요한 이미징 요소를 무시하며; 트레젝토리 가능성은 거의 측정되지 않으며; 시간적 및 에이전트 수준의 일관성은 간과되며; 그리고 자아 조건화에 대한 통제 가능성은 고려되지 않습니다. 또한 현재 데이터셋은 실제 세계 배치를 위해 필요한 다양성을 충분히 커버하지 못하고 있습니다. 이러한 격차를 해결하기 위해 우리는 첫 번째로 생성 주행 세계 모델을 위한 종합적인 벤치마크인 DrivingGen을 제시합니다. DrivingGen은 다양한 평가 데이터셋과 새로운 메트릭 스위트를 결합하며, 이는 시각적 실재성, 트레젝토리 가능성, 시간적 일관성 및 통제 가능성을 공동으로 평가합니다. 14개의 최신 모델을 벤치마킹한 결과 명확한 절충점이 드러났습니다 일반적인 모델은 더 잘 보이나 물리를 위반하고, 주행에 특화된 모델들은 움직임을 실제적으로 포착하지만 시각적 품질에서 뒤처집니다. DrivingGen은 신뢰할 수 있고 통제 가능하며 배포 가능한 주행 세계 모델을 육성하기 위한 통합 평가 프레임워크를 제공하여 확장 가능한 시뮬레이션, 계획 및 데이터 기반 의사결정을 가능하게 합니다.

paper AI 요약
등록 슬롯과 대조적 정렬로 개선된 객체 중심 확산 학습

등록 슬롯과 대조적 정렬로 개선된 객체 중심 확산 학습

슬롯 어텐션(SA)과 사전 훈련된 확산 모델은 최근 객체 중심 학습(OCL)에 대한 잠재력을 보여주었지만, 슬롯 얽힘 및 객체 슬롯과 이미지 내용 간의 약한 정합성 문제를 겪고 있습니다. 저희는 Contrastive Object-centric Diffusion Alignment(CODA), 즉 간단한 확장 방법을 제안합니다. 이 방법은 (i) 잔여 어텐션을 흡수하고 객체 슬롯 사이의 간섭을 줄이기 위해 등록 슬롯을 사용하고, (ii) 슬롯-이미지 대응을 명시적으로 유도하기 위해 대조적 정합성 손실을 적용합니다. 결과적인 학습 목표는 슬롯과 입력 사이의 상호 정보(MI)를 최대화하는 실용적인 대체 방식으로 작동하여 슬롯 표현의 질을 강화합니다. 합성(MOVi-C/E) 및 실제 데이터셋(VOC, COCO) 모두에서 CODA는 객체 발견(예 COCO에서 +6.1% FG-ARI 증가), 속성 예측, 그리고 구성적 이미지 생성을 강력한 베이스라인보다 향상시킵니다. 등록 슬롯은 무리 없이 추가되므로 CODA는 효율적이며 확장 가능합니다. 이러한 결과는 복잡하고 실제 상황에서 견고한 OCL을 위한 효과적인 프레임워크로서 CODA의 잠재적 응용 가능성에 대한 증거를 제공합니다.

paper AI 요약
루미나르크  일반 시각 생성 모델을 위한 훈련 없이 확률적으로 인증된 워터마rk 방법

루미나르크 일반 시각 생성 모델을 위한 훈련 없이 확률적으로 인증된 워터마rk 방법

컴퓨터 비전 분야의 디지털 콘텐츠 보호를 위해 워터마킹 기술이 오랫동안 사용되어 왔습니다. 그러나 AI 생성 미디어의 부상으로 인해 워터마킹의 중요성이 더욱 증가했습니다. Luminark는 신뢰할 수 있는 통계적 검출을 제공하고 다양한 이미지 변환에 대해 견고한 새로운 워터마킹 접근 방식입니다.

paper AI 요약
맞춤형 CNN, 사전 훈련 모델 및 전이 학습의 시각 데이터셋 간 비교 연구

맞춤형 CNN, 사전 훈련 모델 및 전이 학습의 시각 데이터셋 간 비교 연구

본 연구에서는 커스텀 CNN, 사전 학습된 CNN을 고정 특징 추출기로 사용하는 방법, 그리고 트랜스퍼 러닝을 통해 미세 조정한 모델이라는 세 가지 CNN 기반 학습 패러다임을 체계적으로 비교하고자 한다. 이 비교는 다양한 실제 이미지 분류 데이터셋에 걸쳐 이루어진다. 본 연구에서는 정확도와 계산 효율성을 모두 고려하여, 각 패러다임의 장단점을 명확히 드러내고자 한다. ###

paper AI 요약
병리학 모델, 데이터 변동에 어떻게 대응할까?

병리학 모델, 데이터 변동에 어떻게 대응할까?

본 논문은 병리학 분야의 비전-언어 모델(VLM)에서 데이터 변화에 따른 성능 저하를 탐지하는 방법을 연구합니다. 특히, DomainSAT이라는 GUI 기반 도구를 개발하여 데이터 변이를 쉽게 탐지하고 시각화할 수 있게 했습니다. 또한, 라벨 없이도 모델의 신뢰성 하락을 감지할 수 있는 신뢰도 기반 성능 저하 지표(CDI)를 제안합니다.

paper AI 요약
비전-언어 프레임워크를 활용한 원격탐사에서의 의미적 변화 감지

비전-언어 프레임워크를 활용한 원격탐사에서의 의미적 변화 감지

이 연구에서는 강화 학습 기법이 네트워크 트래픽 관리 시스템을 최적화하는 데 얼마나 효과적인지 탐구합니다. 다양한 교통 상황을 시뮬레이션함으로써 우리의 모델은 전통적인 방법보다 혼잡도를 줄이고 처리량을 향상시키는 데 큰 개선을 보입니다. 논문에서는 실제 적용 가능성과 널리 채택되기 위한 해결해야 할 도전 과제에 대해 논의합니다.

paper AI 요약
쇼핑객의 서랍기 방문 분석  실시간 추적 기술로 고객 행동 파악

쇼핑객의 서랍기 방문 분석 실시간 추적 기술로 고객 행동 파악

최근 소매업계에서 로봇을 고객 대면 역할에 도입하는 데서 나타난 문제를 해결하기 위해, 본 연구는 물리 매장 내 고객 활동 분석을 통해 자율적인 구매 의도 이해의 첫걸음을 소개한다. 우리는 고객의 “선반 방문”을 측정하는 알고리즘을 제시하는데, 이는 고객이 가게에서 둘러보는 행동을 포착한다. 선반 방문은 머신 비전 기반 3D 추적 및 천장 카메라를 통해 얻어진 트래젝토리를 통해 추출된다. 우리는 두 개의 독립적인 트래젝토리 집합(8138개와 15129개)을 사용해 알고리즘을 교정하고, 인간 리뷰어가 라벨링한 다른 매장에서 수집되었다. 교정된 모델은 교정 과정에 포함되지 않은 트래젝토리를 평가하는데, 이는 같은 매장과 다른 매장을 통해 이루어진다. 결과 분석을 통해 알고리즘이 교정 환경과 다른 환경에서도 고객의 둘러보기 활동을 인식할 수 있음을 보여준다. 마지막으로, 우리는 모델을 사용하여 큰 트래젝토리 집합에서 고객의 “둘러보기 패턴”을 분석하고 실제 구매와의 관계를 탐색하며, 매장 계획 및 인간-로봇 상호작용에 활용할 수 있는 방법을 논의한다.

paper AI 요약
스마트 분류  재활용의 미래

스마트 분류 재활용의 미래

재활용의 중요성은 널리 인정되고 있지만, 일반 대중이 물품의 재활용 가능성을 정확하게 판단하고 적절한 처리 방법을 결정하는 것은 복잡한 과제입니다. 본 연구에서는 GPT-4o, GPT-4o-mini, 그리고 Claude 3.5와 같은 최첨단 비전 언어 모델들을 일상적으로 버려지는 물품의 재활용 가능성을 예측하는데 활용했습니다. 이미지로 구성된 데이터셋을 이용하여 이러한 모델들이 물체를 적절한 분리 수거함과 매칭하는 능력을 평가하였습니다. 또한, 모델이 실제로 사용 가능한 수거함에 맞게 들어가는지 여부도 평가하였습니다. 추가적으로 우리는 다음과 같은 과제들에서 모델들의 성능을 조사했습니다 (i) 지역별 재활용 가이드라인에 따른 예측 수정; (ii) 오염 또는 구조적 손상 고려; 그리고 (iii) 다중 소재로 구성된 물체 처리. 우리의 연구 결과는 이러한 모델들이 이전 세대와 비교하여 문맥 이해 측면에서 큰 진보를 이루고 있음을 보여주며, 그럼에도 불구하고 여전히 부족한 부분을 나타냈습니다. 이러한 맥락 인식 모델의 지속적인 개선은 공공 재활용 실천을 강화하고 환경 지속 가능성을 발전시키는 데 중요합니다.

paper AI 요약
시간적 기반과 텍스트 반응의 계층화 학습을 위한 동영상-언어 모델

시간적 기반과 텍스트 반응의 계층화 학습을 위한 동영상-언어 모델

이 논문은 커스텀 모델, 트랜스퍼 러닝 및 하이브리드 학습을 포함하는 세 가지 컨볼루션 신경망(CNN) 훈련 패러다임에 대한 종합적인 평가를 제시합니다. 우리의 결과는 잘 정의된 작업과 대규모 라벨링 데이터셋에서는 커스텀 모델이 가장 우수한 성능을 제공하지만, 데이터가 부족하거나 작업 복잡성이 높은 경우에는 트랜스퍼 러닝이 더 유리하다는 것을 나타냅니다. ###

paper AI 요약
심부전영동맥angiography에서 깊은 학습 기법의 응용

심부전영동맥angiography에서 깊은 학습 기법의 응용

폐색전은 생명을 위협하는 질병으로, 조기에 검출하고 치료하면 사망률이 크게 줄어듭니다. 최근 많은 연구들이 대조매개체 컴퓨터단층촬영 폐 혈관angiography를 활용하여 폐색전의 진단에 딥러닝을 사용하고 있지만, 대조매개체는 폐색전과 만성신부전이 있는 환자들에게 급성 신장 손상을 일으킬 가능성이 있으며, 대조매개체가 작동하는 데 시간이 소요되어 급성 폐색전을 가진 환자는 골든 테리트리를 놓칠 수 있습니다. 본 연구는 대조매개체를 사용하지 않고 CT 영상에서 폐색전을 자동으로 분류하기 위해 3차원 컨볼루션 신경망 모델을 활용한 딥러닝 기법을 이용하는 것을 목표로 합니다. 이번 연구에서 사용된 딥러닝 모델은 대조매개체를 사용하지 않은 컴퓨터단층촬영 영상의 폐색전 분류에 대해 85% 정확도와 0.84 AUC를 보여주어, 이 모델이 폐색전 진단에서의 적용 가능성을 확인하였습니다.

paper AI 요약
압축 기술이 자연적 오염 상태에서의 CNN 강건성에 미치는 영향 평가

압축 기술이 자연적 오염 상태에서의 CNN 강건성에 미치는 영향 평가

압축된 딥러닝 모델은 자원 제약이 있는 기기에 컴퓨터 비전 시스템을 배포하는 데 중요합니다. 하지만 모델 압축은 특히 자연적인 오염 조건에서 안정성을 저해할 수 있습니다. 따라서 컴퓨터 비전 시스템의 검증 과정에서는 안정성 평가를 고려하는 것이 중요합니다. 본 논문은 양자화, 가위 작업, 가중치 클러스터링을 개별적으로 또는 조합하여 적용한 압축 기법에 대한 포괄적인 평가를 제시하고 있습니다. 이 연구에서는 ResNet-50, VGG-19, 그리고 MobileNetV2와 같은 컨볼루션 신경망에 대해 CIFAR-10-C 및 CIFAR 100-C 데이터셋을 사용하여 안정성, 정확도, 압축 비율 간의 트레이드오프를 분석하였습니다. 우리의 결과는 특정 압축 전략이 복잡한 아키텍처를 가진 네트워크에서 안정성을 유지하거나 향상시킬 수 있음을 보여주고 있습니다. 다목적 평가를 활용하여 최선의 구성 설정을 결정하였으며, 맞춤형 기술 조합이 유익한 다목적 결과를 제공함을 나타내었습니다. 이 연구는 오염된 실제 환경에서 모델을 안정적이고 효율적으로 배포하기 위한 압축 방법 선택에 대한 통찰력을 제공합니다.

paper AI 요약
야생동물 이미지 지리적 도메인 시프트를 위한 불변 표현 모델 WildIng

야생동물 이미지 지리적 도메인 시프트를 위한 불변 표현 모델 WildIng

카메라 트랩 이미지는 야생동물 모니터링에서 가장 값진 데이터 소스 중 하나로, 생물다양성 보존과 기후 변화 연구에 중요한 역할을 합니다. 이러한 이미지들은 인간의 직접 개입 없이도 광범위한 데이터를 수집할 수 있는 비침해적이고 확장 가능한 방법을 제공합니다. 그러나 대규모 데이터셋에서 자동적인 동물 종 식별을 위한 기술은 필요합니다. 최근 연구에서는 Foundation Models (FMs)을 야생동물 모니터링에 적용하기 시작했으며, 이 모델들은 다양한 시각 인식 작업에서 뛰어난 성능을 보여주었습니다. 본 논문에서는 WildIng이라는 새로운 모델을 소개하며, 이 모델은 텍스트와 이미지를 통합하여 지리적 도메인 변동에 강한 특징을 추출합니다. ###

paper AI 요약
약한 시간 감독을 통한 원격탐사 변화 검출

약한 시간 감독을 통한 원격탐사 변화 검출

이 논문에서는 원격 감지 이미지 쌍에서 지표면 변화를 감지하는 문제에 대해 다룹니다. 이 작업은 심미적 변화 감지(Semantic Change Detection, SCD)라고 합니다. 최근 몇 년 동안 SCD는 큰 관심을 받았으며 많은 연구와 여러 분야의 조사가 이루어졌습니다. 기존 방법들은 주로 딥 러닝에 의존하여 3개의 신경망을 학습합니다 두 개의 심미적 맵과 이진 변화 맵을 출력하는 네트워크입니다. 그러나 이러한 모델을 훈련시키기 위해서는 픽셀 수준의 주석이 필요한데, 이를 얻는 것은 비용이 많이 들고 시간도 오래 걸립니다. 따라서 우리는 단일 시점 주석만 사용하여 이진 시점 쌍에 대한 변화 감지 네트워크를 훈련시키는 약한 지정 학습 프레임워크를 제안합니다.

paper AI 요약
에스чер버스  물리적 동태와 의도 기반 이해를 갖춘 텔레오-공간 지능을 위한 오픈 월드 벤치마크와 데이터셋

에스чер버스 물리적 동태와 의도 기반 이해를 갖춘 텔레오-공간 지능을 위한 오픈 월드 벤치마크와 데이터셋

공간 동역학에 대한 추론 능력은 인тел리전스의 핵심 구성 요소이지만, 현재 연구에서는 공간 변화 뒤에 숨어 있는 인간의 의도를 간과하고 있다. 이러한 한계점을 해결하기 위해 우리는 물리적-동역학적 추론—물체 상호 작용의 물리 원리를 이해하는 것—과 의도 지향적 추론—이러한 행동 뒤에 숨어 있는 인간의 목표를 추측하는 것이라는 두 가지 중요한 기둥을 통합하는 새로운 패러다임인 텔레오-공간 인텔리전스(TSI)를 도입한다. TSI 연구를 촉진하기 위해 우리는 EscherVerse를 제시한다. 이는 대규모 오픈 월드 벤치마크(Escher-Bench), 데이터셋(Escher-35k), 그리고 모델(Escher 시리즈)을 포함하고 있다. 실제 비디오에서 유래한 EscherVerse는 제약된 환경을 넘어 물체의 지속성, 상태 전이, 동적이고 인간 중심적인 상황에서의 궤도 예측에 대한 에이전트의 추론 능력을 명시적으로 평가한다. 무엇보다도 이는 의도 지향적 추론을 체계적으로 평가하는 최초의 벤치마크로, 모델들이 물리적 사건과 그 뒤에 숨어 있는 인간의 목적을 연결할 수 있도록 도전한다. 우리의 연구에는 새로운 데이터 큐레이션 파이프라인이 포함되어 있으며, 이는 공간 인텔리전스를 단순히 장면 설명에서 세계 전체에 대한 통합적인 목표 지향적 이해로 발전시키기 위한 기초 자원을 제공한다.

paper AI 요약
영상 참조로 개인 얼굴 특성 그대로 유지하기

영상 참조로 개인 얼굴 특성 그대로 유지하기

최근 연구에서는 텍스트 프롬프트를 이용하여 실제 인간 동영상을 생성하는 것에 대한 관심이 급증했습니다. 이러한 기술은 단순한 스타일화된 클립에서 장시간, 사진처럼 사실적인, 프롬프트에 충실하며 강력한 시간적 일관성을 갖춘 시퀀스로 발전했습니다. 하지만 현재 연구가 직면하고 있는 주요 도전 중 하나는 개인의 신원을 유지하는 것입니다. 이 논문은 단일 참조 이미지를 사용하는 기존 방법의 한계를 극복하기 위해, 짧은 동영상 참조를 이용하여 인물의 신원을 보다 안정적으로 추출하고 생성할 수 있는 새로운 방식을 제안합니다.

paper AI 요약
위성 이미지에서 시계열 영상 채우기로 이omaly 탐지

위성 이미지에서 시계열 영상 채우기로 이omaly 탐지

이 논문은 고급 특성 공학 기법을 딥러닝 아키텍처와 통합하여 머신 러닝 모델의 성능을 향상시키는 새로운 접근 방식을 소개합니다. 이 방법은 다양한 데이터셋과 작업에서 모델 정확도를 크게 개선하고, 실제 적용 시 모델 성능의 미묘한 차이점을 더 잘 포착할 수 있는 새로운 평가 지표도 제시합니다.

paper AI 요약
인간과 AI가 생성한 이미지 감별을 위한 종합 데이터셋

인간과 AI가 생성한 이미지 감별을 위한 종합 데이터셋

이 논문에서는 AI 생성 이미지 감지를 위한 대규모 데이터셋을 소개합니다. 이 데이터셋은 실제 및 합성 이미지-캡션 쌍 96,000개를 포함하며, 합성 이미지는 여러 생성 모델로부터 생성되었습니다. 우리는 이 데이터셋 기반의 두 가지 작업을 제안하고 있습니다 AI 생성 이미지와 실제 이미지를 구분하는 이진 분류 작업과 특정 생성 모델을 식별하는 작업입니다.

paper AI 요약
자체  주의 유도 세밀한 정합을 통한 시각-언어 검색

자체 주의 유도 세밀한 정합을 통한 시각-언어 검색

이 논문은 텍스트 기반 인물 검색(TBPS)에 대한 새로운 접근법을 제안한다. TBPS는 대규모 이미지 갤러리에서 주어진 텍스트 쿼리와 가장 잘 일치하는 사람을 식별하는 문제이다. 이를 해결하기 위해, 본 논문은 CLIP과 같은 비전-언어 모델(VLM)의 발전을 활용하여 고급 정보를 추출하고자 한다. 그러나 기존 방법들은 추가적인 외부 자원에 의존함으로써 계산 및 주석 부담이 증가하는 문제점이 있다. 이를 해결하기 위해, 본 논문은 ITSELF라는 주의력 가이드로 내재적 공간 대응을 개선한 프레임워크를 제안한다. 이는 클립 모델의 주의 맵을 활용하여 고급 정보를 추출하고, 이를 통해 더 정교한 대응을 달성한다. ###

paper AI 요약
작은 객체 찾기의 새 시대  플로우를 활용한 잡음 저항 기술

작은 객체 찾기의 새 시대 플로우를 활용한 잡음 저항 기술

이 논문에서는 작은 객체 감지(TOD)에 대한 연구를 제시하며, 특히 애노테이션 노이즈에 민감한 문제점을 해결하기 위해 **TOLF**(Tiny Object Localization Flow) 프레임워크를 소개합니다. TOLF는 정규화 흐름을 사용하여 예측 분포의 모델링을 통해 확률적 오류와 애노테이션 노이즈에 대응할 수 있습니다.

paper AI 요약
적응형 하이브리드 최적화기반의 거식피부병 식별 프레임워크

적응형 하이브리드 최적화기반의 거식피부병 식별 프레임워크

전염성 바이러스 감염인 러미피부병(LSD)은 가축 건강을 크게 저하시켜 글로벌 경제와 식량 안보에 중대한 위협을 제기한다. 그 빠른 확산 특성을 고려할 때, 발병을 방지하고 적시 개입을 보장하기 위해서는 조기에 정확히 인식하는 것이 중요하다. 본 논문에서는 LSD의 조기 검출을 위한 하이브리드 딥러닝 기반 접근법인 LUMPNet을 제안한다. LUMPNet은 이미지 데이터를 이용하여 LSD의 주요 지표인 피부 결절을 감지하고 분류한다. 이를 위해 LUMPNet은 YOLOv11, 복합 스케일링을 갖춘 EfficientNet 기반 CNN 분류기 및 새로운 적응형 하이브리드 옵티마이저를 사용한다. 좀 더 구체적으로는 LUMPNet이 소의 이미지에서 LSD 피부 결절과 흉터를 감지하고 위치 지정하며, EfficientNet을 이용하여 해당 위치 지정된 소의 이미지를 LSD에 영향 받은 것 또는 건강한 것으로 분류한다. YOLOv11 및 EfficientNet 하이브리드 모델의 학습을 안정화시키고 가속화하기 위해 새로운 적응형 하이브리드 옵티마이저가 제안되고 사용된다. 우리는 공개 데이터 세트를 이용하여 LSD의 다양한 단계에서 LUMPNet을 평가한다. 결과는 제안된 방식이 99%의 LSD 감지 학습 정확도를 달성하고, 기존 방식보다 우수함을 나타낸다. 이 모델은 검증 정확도에서도 98%를 달성한다. 또한 추가 평가를 위해 AdamW 옵티마이저로 튜닝된 EfficientNet-B0 모델을 사용한 사례 연구를 수행하고 LUMPNet의 성능과 비교한다. 결과는 LUMPNet이 우수한 성능을 달성함을 보여준다.

paper AI 요약
증거찾기 병리진단을 활성화하는 다모달 에이전트 모델  PathFound

증거찾기 병리진단을 활성화하는 다모달 에이전트 모델 PathFound

이 논문은 양자 컴퓨팅의 최근 발전을 살펴보고, 이를 통해 양자 컴퓨터가 고급 계산 문제를 해결하는 데 어떻게 도움이 되는지 설명합니다. 연구에서는 양자 알고리즘과 하드웨어 기술의 통합에 초점을 맞추며, 이러한 발전이 미래 컴퓨팅 분야에 어떤 영향을 미칠 수 있는지를 탐색합니다. ###

paper AI 요약
커스텀 설계부터 심층 잔차 모델까지  다양한 이미지 분류와 탐지 작업을 위한 CNN 아키텍처의 진화

커스텀 설계부터 심층 잔차 모델까지 다양한 이미지 분류와 탐지 작업을 위한 CNN 아키텍처의 진화

이 연구에서는 다섯 가지 다양한 이미지 데이터셋을 사용하여 CNN 기반 모델의 성능을 평가한다. 이 데이터셋들은 도로 상태 분석, 보도 침범 감지, 과일 종류 인식 및 벼 종류 분류와 같은 실용적인 실제 세계 문제를 다룬다. 우리는 고유한 커스텀 CNN 아키텍처와 기존 모델들인 MobileNet과 EfficientNet을 비교하며, 다양한 이미지 분류 작업에서의 성능 차이를 살펴본다.

paper AI 요약
코그플로  지식 내재화를 통한 시각적 수학 문제 해결을 위한 인지와 추론의 연결

코그플로 지식 내재화를 통한 시각적 수학 문제 해결을 위한 인지와 추론의 연결

각종 진전에도 불구하고 다중 모달의 대형 언어 모델들은 시각 수학 문제 해결에서 여전히 어려움을 겪고 있다. 최근 연구들은 시각적 인식이 시각 수학 사고의 병목 현상임을 인지하였지만, 그들의 해법은 주로 시각적 입력의 추출과 해석 개선에 한정되어 있다. 특히, 추출된 시각적 단서들이 후속 사고 과정에서 신뢰성 있게 통합되고 적절히 활용되는 문제는 간과되었다. 이를 극복하기 위해 우리는 인식$ Rightarrow$내부화$ Rightarrow$사고라는 인간의 계층적 사고 흐름을 명시적으로 시뮬레이션하는 새로운 인지 기반 세 단계 프레임워크인 CogFlow를 제안한다. 이러한 계층적 흐름에 맞추어 모든 단계를 통합적으로 강화하였다. 매개변수적 및 의미 공간에서의 시각 정보 추출을 개선하기 위해 상호 보완적인 시각적 리워드를 설계하여 인식 능력을 높였다. 추출된 시각적 단서들이 후속 사고 과정에 신뢰성 있게 통합되도록 내부화 단계에서는 지식 내부화 리워드 모델을 도입하여 인식과 사고 사이의 연결을 강화하였다. 또한, 사고가 시각적 지식 위에 기반하도록 더 강하게 제약하기 위해 시각 게이트 정책 최적화 알고리즘을 설계하여 일관되지만 시각적으로 무근거인 사고 체인을 피할 수 있도록 하였다. 추가로 새로운 데이터셋 MathCog를 제공하여 모델 훈련에 기여하였으며, 이는 12만 개 이상의 고품질 인식-사고 정합성 주석을 포함하고 있다. 일반적으로 사용되는 시각적 수학 사고 벤치마크에서 실시된 포괄적인 실험과 분석은 제안된 CogFlow의 우수성을 검증한다.

paper AI 요약
텍스트에서 이미지 생성을 위한 에이전트 리터쳐

텍스트에서 이미지 생성을 위한 에이전트 리터쳐

이 논문에서는 텍스트-이미지 생성 모델(T2I)에서 발생하는 미세한 왜곡을 자동으로 인식하고 수정하기 위한 **Agentic Retoucher**라는 새로운 프레임워크를 제안합니다. Agentic Retoucher는 시각적-의사결정-행동 순환 구조로 설계되어, 생성된 이미지에서 특정 부분에 대한 왜곡을 감지하고 수정할 수 있습니다. 이를 위해 **GenBlemish-27K**라는 대규모 데이터셋을 구성하여, 다양한 왜곡 유형에 대한 정밀한 주석과 자연어 설명을 제공합니다. 실험 결과는 Agentic Retoucher가 현존하는 후처리 방법보다 향상된 성능을 보여주며, 특히 미세한 왜곡 인식 및 수정에서 뛰어난 효과를 나타냅니다. ###

paper AI 요약
특권정보로 객체인식 강화  교사-학생 접근법

특권정보로 객체인식 강화 교사-학생 접근법

컴퓨터 비전 분야에서 객체 검출은 주요한 문제로, 자율 시스템, 환경 모니터링, 로봇공학 등 다양한 분야에 응용됩니다. 이 연구에서는 학습 중 특권 정보를 활용하는 Learning Under Privileged Information (LUPI) 패러다임을 객체 검출에 적용하여, 기존 방법보다 더 우수한 성능을 달성할 수 있는지 실험적으로 검증합니다.

paper AI 요약
팔콘  교차 도메인 의료 영상 분할을 위한 소량 샘플 대립학습

팔콘 교차 도메인 의료 영상 분할을 위한 소량 샘플 대립학습

정확한 해부학적 구조 및 병리학적 부위의 분할은 진단, 치료 계획 수립, 질병 진행 모니터링에 필수적이며 의사가 환자의 상태를 종합적으로 평가하고 정보에 입각한 결정을 내릴 수 있게 합니다. 이 작업은 보통 방사선과나 의료진이 수작업으로 수행하므로 시간이 많이 걸리고 일관성이 떨어집니다. AI 기반의 자동화된 분할 방법이 이러한 효율성 및 일관성을 개선하기 위해 주목받고 있습니다. 딥 뉴럴 네트워크(DNNs)를 포함한 인공지능은 특히 변환기 구조를 사용하여 일반적인 이미지 분석에서 혁신을 이끌어냈습니다. 그러나 이러한 모델을 의료 이미징에 직접 적용하는 것은 대규모 주석 데이터와 많은 연산 자원이 필요하다는 점에서 여러 가지 도전 과제가 있습니다. 3D 볼륨의 경우 특히 수작업으로 마스크를 생성하는 것이 비용이 많이 들고 시간이 오래 걸립니다. 가상 데이터를 생성하는 생성 모델은 주석 부족 문제에 대한 유망한 해결책을 제공하지만, 임상적 채택에는 철저한 검증과 규제 준수 요구사항이 있습니다. 전통적인 데이터 증강 기법은 실제 임상 특징을 정확히 포착하지 못하는 경우가 있어 모델의 신뢰성을 저하시킬 수 있습니다. 의료 이미지 분할에서는 정확한 경계 선정이 중요하며, 작은 위치 오차는 수술 사고로 이어질 수 있는 심각한 임상적 결과를 초래합니다. 본 논문은 개인 정보 보호 및 자원 효율적인 의료 AI의 필요성에 의해 작성되었습니다. 특정 환자의 3D 볼륨에서 얻은 미표시 슬라이스가 높은 정확도의 분할을 위한 필요한 맥락을 제공한다는 가설을 제시합니다. ###

paper AI 요약
합성 이미지로 이상 탐지 최적화

합성 이미지로 이상 탐지 최적화

Anomaly detection plays a vital role in industrial manufacturing. Due to the scarcity of real defect images, unsupervised approaches that rely solely on normal images have been extensively studied. Recently, diffusion-based generative models brought attention to training data synthesis as an alternative solution. In this work, we focus on a strategy to effectively leverage synthetic images to maximize the anomaly detection performance. Previous synthesis strategies are broadly categorized into two groups, presenting a clear trade-off. Rule-based synthesis, such as injecting noise or pasting patches, is cost-effective but often fails to produce realistic defect images. On the other hand, generative model-based synthesis can create high-quality defect images but requires substantial cost. To address this problem, we propose a novel framework that leverages a pre-trained text-guided image-to-image translation model and image retrieval model to efficiently generate synthetic defect images. Specifically, the image retrieval model assesses the similarity of the generated images to real normal images and filters out irrelevant outputs, thereby enhancing the quality and relevance of the generated defect images. To effectively leverage synthetic images, we also introduce a two stage training strategy. In this strategy, the model is first pre-trained on a large volume of images from rule-based synthesis and then fine-tuned on a smaller set of high-quality images. This method significantly reduces the cost for data collection while improving the anomaly detection performance. Experiments on the MVTec AD dataset demonstrate the effectiveness of our approach.

paper AI 요약
해내FRDM  확산 모델로 고속 영상의 결함 복원 탐색

해내FRDM 확산 모델로 고속 영상의 결함 복원 탐색

이 논문에서는 딥러닝 기반의 확산 모델을 사용하여 고해상도 필름 복원 작업에서 발생하는 문제점을 해결하고자 한다. 특히, 제안된 HaineiFRDM 모델은 낮은 VRAM 장치에서도 작동할 수 있도록 설계되었으며, 패치 기반 학습 및 추론 프레임워크를 사용하여 고해상도 복원 작업의 계산 비용을 줄이고자 한다. 또한 실제 손상된 필름과 합성 데이터로 구성된 새로운 데이터셋을 제안하여 모델 성능 평가 기준을 제공한다.

paper AI 요약

< 분야별 논문 현황 (Total: 566) >

Quantum Physics
5

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키