Cs-Cv
쿠푸 클립 선형 판별 분석으로 CLIP 임베딩 최적화
PandaPose: 2D 포즈를 3D 앵커 공간으로 전파해 단일 이미지에서 3D 인간 포즈를 복원하는 혁신적 접근
시각‑언어‑행동 모델의 시각 손상 복원으로 강인성 향상
다중 조명 환경을 위한 도시 야외 역렌더링 데이터셋 LightCity
실제 세계 수학 문제를 위한 멀티모달 LLM 벤치마크 MathScape
초경량 물리 지각 하이브리드 듀얼스트림 네트워크 CortiNet으로 초음파 담낭 질환 진단
시각 로봇의 단순함과 깊이: 마우스 vs AI 2025 우승 전략
운동 손상 OCT 혈관영상 복원을 위한 혈관 인식 다축 직교 감독
디자인 레이아웃 자동 편집을 위한 관계 인식 재구성 프레임워크
비전·언어 교차주의 합의를 통한 효율적 토큰 압축
보편적·전이 가능한 비전‑언어 모델 탈옥 공격 UltraBreak
자동 라벨링 데이터셋으로 갑상선 결절 분류 성능 향상
위상 데이터 분석과 DenseNet 융합으로 구현한 초고정밀 알츠하이머 단계 분류
모달리티와 전문가 특성을 동시에 고려한 MoE 비전‑언어 모델 양자화
반사 인식 기반 비디오 이상 이해: SRVAU‑R1의 혁신적 접근