Recent
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
·4797 words·23 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Question Answering
๐ข Stanford University
AutoConverter๋ ์คํ์๋ ๋ฐฉ์์ VQA ์ง๋ฌธ์ ๋ค์ง์ ๋คํ ์ง๋ฌธ์ผ๋ก ์๋ ๋ณํํ๋ ์์คํ
์
๋๋ค. ์ด๋ฅผ ํตํด VLM(Vision Language Model) ํ๊ฐ์ ๊ฐ๊ด์ฑ๊ณผ ์ฌํ์ฑ์ ๋์ผ ์ ์์ต๋๋ค. ์ฐ๊ตฌ์ง์ AutoConverter๋ฅผ ์ฌ์ฉํ์ฌ 20๊ฐ์ ๊ธฐ์กด VQA ๋ฐ์ดํฐ์
์ ํตํฉํ VMCBench๋ผ๋ ์๋ก์ด ๋ฒค์น๋งํฌ๋ฅผ ๊ตฌ์ถํ์ต๋๋ค. VMCBen…
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning
·2104 words·10 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Shanghai AI Laboratory
BoostStep: ๋จ๊ณ๋ณ ์ถ๋ก ์ผ๋ก LLMs์ ์ํ์ ๋ฅ๋ ฅ ํฅ์!
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction
·1981 words·10 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Multimodal Learning
Vision-Language Models
๐ข Chinese University of Hong Kong
Dispider: ์ค์๊ฐ ์ํธ์์ฉ์ ์ํด ๋ถ๋ฆฌ๋ ์ธ์, ๊ฒฐ์ , ๋ฐ์์ ์ฌ์ฉํ๋ ๋น๋์ค LLM์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models
·1134 words·6 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Speech Recognition
๐ข SandLogic Technologies Pvt Ltd.
Mamba ์ํคํ
์ฒ ๊ธฐ๋ฐ์ Samba-ASR์ ํจ์จ์ ์ธ ์ํ ๊ณต๊ฐ ๋ชจ๋ธ์ ์ด์ฉ, ๊ธฐ์กด Transformer ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์์ฑ ์ธ์ ๋ถ์ผ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution
·3033 words·15 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Computer Vision
Video Understanding
๐ข Nanjing University
STAR: T2V ๋ชจ๋ธ ๊ธฐ๋ฐ ์ค์ธ๊ณ ๋น๋์ค ์ด๊ณ ํด์๋ ๊ธฐ์ ๋ก ํ์ค์ ์ธ ๊ณต๊ฐ์ ์ธ๋ถ ์ ๋ณด์ ๊ฒฌ๊ณ ํ ์๊ฐ์ ์ผ๊ด์ฑ์ ๋ฌ์ฑ!
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation
·2799 words·14 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Computer Vision
Image Generation
๐ข Meta
๋ง์คํฌ ๊ธฐ๋ฐ ๋ชจ์
๊ฒฝ๋ก๋ฅผ ์ด์ฉํ 2๋จ๊ณ ์ด๋ฏธ์ง-๋น๋์ค ์์ฑ ํ๋ ์์ํฌ์ธ THROUGH-THE-MASK๊ฐ ๋ค์ค ๊ฐ์ฒด์ ์ ํํ ์ ๋๋ฉ์ด์
์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
TransPixar: Advancing Text-to-Video Generation with Transparency
·2013 words·10 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Computer Vision
Video Understanding
๐ข Adobe Research
TransPixar: ์ ํ๋ ๋ฐ์ดํฐ๋ก๋ ๊ณ ํ์ง ํฌ๋ช
๋น๋์ค ์์ฑ
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
·2099 words·10 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Computer Vision
3D Vision
๐ข University of Science and Technology of China (USTC)
DepthMaster๋ ๋จ์ผ ๋จ๊ณ ํ์ฐ ๋ชจ๋ธ์ ์ด์ฉ, ์์ฑ์ ํน์ง์ ํ์ฉํ์ฌ ๋ชจ๋
ธํ๋ฌ ๊น์ด ์ถ์ ์ ์ ํ๋์ ์๋๋ฅผ ํ๊ธฐ์ ์ผ๋ก ํฅ์์์ผฐ์ต๋๋ค.
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking
·2321 words·11 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Computer Vision
Video Understanding
๐ข Multimedia Laboratory, the Chinese University of Hong Kong
GS-DiT: ํจ์จ์ ์ธ 3D ์ ์ถ์ ์ผ๋ก ์์ฌ 4D ๊ฐ์ฐ์ค ํ๋๋ฅผ ํ์ฉ, 4D ๋น๋์ค ์ ์ด ๊ฐ๋ฅํ ํ์ ์ ๋น๋์ค ์์ฑ ๋ชจ๋ธ