↓Skip to main content

🏢 Stanford University

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

6 January 2025·4797 words·23 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Question Answering 🏢 Stanford University

AutoConverter는 오픈엔드 방식의 VQA 질문을 다지선다형 질문으로 자동 변환하는 시스템입니다. 이를 통해 VLM(Vision Language Model) 평가의 객관성과 재현성을 높일 수 있습니다. 연구진은 AutoConverter를 사용하여 20개의 기존 VQA 데이터셋을 통합한 VMCBench라는 새로운 벤치마크를 구축했습니다. VMCBen…

BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

2 January 2025·3521 words·17 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Stanford University

BoxingGym: LLM 기반 과학적 에이전트의 실험 설계 및 모델 발견 능력 종합 평가 벤치마크

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

18 December 2024·4794 words·23 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Visual Question Answering 🏢 Stanford University

MLLM의 시각-공간 지능 향상에 도움이 되는 새로운 비디오 기반 벤치마크 VSI-Bench 발표!

Whisper-GPT: A Hybrid Representation Audio Large Language Model

16 December 2024·1322 words·7 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Stanford University

Whisper-GPT: 하이브리드 음성 및 음악 LLM으로, 연속 오디오와 이산 토큰을 결합하여 향상된 성능을 제공합니다.