↓Skip to main content

Visual Question Answering

Slow Perception: Let's Perceive Geometric Figures Step-by-step

30 December 2024·3207 words·16 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Visual Question Answering 🏢 Stepfun

느린 지각(Slow Perception): 단계별 기하학적 도형 인식으로 정확도 향상

On the Compositional Generalization of Multimodal LLMs for Medical Imaging

28 December 2024·4972 words·24 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Visual Question Answering 🏢 Chinese University of Hong Kong, Shenzhen

의료 영상에 대한 다중 모드 거대 언어 모델의 일반화 능력 향상에 구성적 일반화(CG)가 핵심 역할을 수행하며, 제한된 데이터에서도 효과적임을 밝힘.

Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage

20 December 2024·2414 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Visual Question Answering 🏢 Seoul National University

초정밀 이미지 캡션 생성의 환각 문제 해결을 위해, LLM-MLLM 협업 기반의 다중 에이전트 시스템(CapMAS)을 제안하여 사실성과 포괄성을 높였습니다.

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

18 December 2024·4794 words·23 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Visual Question Answering 🏢 Stanford University

MLLM의 시각-공간 지능 향상에 도움이 되는 새로운 비디오 기반 벤치마크 VSI-Bench 발표!