Paper Reviews by AI
2024
PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models
·2572 words·13 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Computer Vision
3D Vision
๐ข Meta AI
PartGen: ๋ค์ค ๋ทฐ ํ์ฐ ๋ชจ๋ธ์ ์ด์ฉ, ํ
์คํธ, ์ด๋ฏธ์ง, ๊ธฐ์กด 3D ๊ฐ์ฒด๋ก๋ถํฐ ์๋ฏธ์๋ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋ ๊ณ ํ์ง 3D ๊ฐ์ฒด ์์ฑ ๋ฐ ์ฌ๊ตฌ์ฑ.
DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation
·3181 words·15 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Computer Vision
Video Understanding
๐ข Tencent AI Lab
DiTCtrl: ํ๋ ์์ด ๋ค์ค ํ๋กฌํํธ๋ก ๋งค๋๋ฌ์ด ์ฅ์๊ฐ ๋น๋์ค ์์ฑ
DepthLab: From Partial to Complete
·1980 words·10 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Computer Vision
3D Vision
๐ข HKU
DepthLab: ๋ถ๋ถ ๊น์ด ์ ๋ณด๋ก ์์ ํ 3D ์๊ฐ ์ ๋ณด ๋ณต์
3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding
·2837 words·14 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Computer Vision
Scene Understanding
๐ข AIRI
3DGraphLLM: ์๋ฏธ๋ก ์ ๊ทธ๋ํ์ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ 3D ์ฅ๋ฉด ์ดํด ์ฑ๋ฅ์ ํ๊ธฐ์ ์ผ๋ก ํฅ์์ํจ ์ต์ฒจ๋จ ์ฐ๊ตฌ!
ResearchTown: Simulator of Human Research Community
·16894 words·80 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข University of Illinois Urbana-Champaign
RESEARCHTOWN: LLM ๊ธฐ๋ฐ ์ธ๊ฐ ์ฐ๊ตฌ ๊ณต๋์ฒด ์๋ฎฌ๋ ์ดํฐ๋ก, ๋ค์ํ ์ฐ๊ตฌ ํ๋์ ํ์ค์ ์ผ๋ก ๋ชจ๋ฐฉํ๋ฉฐ ํ์ ๊ฐ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ ๊ฐ๋ฅ
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World
·3159 words·15 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Multimodal Learning
Human-AI Interaction
๐ข Shanghai Jiao Tong University
PC Agent๋ ์ธ๊ฐ์ ์ธ์ง ๊ณผ์ ์ AI ์ ์ ์ดํ์ฌ ๋ณต์กํ ๋์งํธ ์์
์ ์๋ํํ๋ ํ์ ์ ์ธ ์์คํ
์
๋๋ค.
Large Motion Video Autoencoding with Cross-modal Video VAE
·2098 words·10 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Computer Vision
Video Understanding
๐ข Hong Kong University of Science and Technology
๊ณ ํ์ง ์์ ์์ฑ ๋ฐ ํจ์จ์ ์์ถ์ ์ํ ํ์ ์ ์ธ ํฌ๋ก์ค ๋ชจ๋ฌ ๋น๋์ค VAE!
In Case You Missed It: ARC 'Challenge' Is Not That Challenging
·2275 words·11 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Snowflake AI Research
๊ธฐ์กด ๋ค์ค ์ ํ ๋ฌธ์ ํ๊ฐ ๋ฐฉ์์ ์ค๋ฅ๋ฅผ ์ง์ ํ๊ณ , ๋ชจ๋ ์ต์
์ ํจ๊ป ๊ณ ๋ คํ๋ ์๋ก์ด ํ๊ฐ ๋ฐฉ์์ ์ ์ํ์ฌ ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ์ ์ ํ์ฑ์ ๋์์ต๋๋ค.
Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding
·1812 words·9 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Dialogue Systems
๐ข Peking University
Friends-MMC: ๋ฐฉ๋ํ ๋น๋์ค ๋ฐ์ดํฐ์ ์ฃผ์์ ํฌํจํ ์๋ก์ด ๋ค์ค ๋ชจ๋ฌ ๋ค์ค ์ฐธ์ฌ ๋ํ ๋ฐ์ดํฐ์
์ ํตํด ์ค์ ์ธ๊ณ์ ๋ํ ์ดํด๋ฅผ ์ํ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค!
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
·1717 words·9 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Tsinghua University
FoPE: ์ฃผํ์ ์์ญ ํน์ง ๊ฐ์ ์ผ๋ก ๊ธด ๋ฌธ๋งฅ ๊ธธ์ด ์ผ๋ฐํ ๋ฌ์ฑ!
DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought
·366 words·2 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Machine Translation
๐ข Tencent AI Lab
DRT-01 ๋ชจ๋ธ์ ์ฅ๋ฌธ์ ์ฌ๊ณ ๊ณผ์ ์ ํ์ฉํ์ฌ ๋ฌธํ ๋ฒ์ญ์ ์ ํ๋์ ์ ์ฐฝ์ฑ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
Diving into Self-Evolving Training for Multimodal Reasoning
·2584 words·13 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Hong Kong University of Science and Technology
M-STAR: ๋ค๋ชจ๋ฌ ์ถ๋ก ์ ์ํ ์๊ธฐ ์งํ ํ๋ จ์ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์!
Deliberation in Latent Space via Differentiable Cache Augmentation
·2751 words·13 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Google DeepMind
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ์ฑ๋ฅ์ ํฅ์์ํค๋ ์๋ก์ด ๋ฐฉ๋ฒ์ธ โ์ฐจ๋ณ ๊ฐ๋ฅํ ์บ์ ์ฆ๊ฐโ ๊ธฐ๋ฒ ์ ์!
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners
·1797 words·9 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Hong Kong University of Science and Technology
B-STAR: ์๊ธฐ ํ์ต ์ถ๋ก ์์์ ํ์๊ณผ ํ์ฉ์ ๊ท ํ์ ๋ชจ๋ํฐ๋งํ๊ณ ์กฐ์ ํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํค๋ ์๋ก์ด ํ๋ ์์ํฌ
Revisiting In-Context Learning with Long Context Language Models
·3818 words·18 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Google DeepMind
์ฅ๋ฌธ ์ปจํ
์คํธ ์ธ์ด ๋ชจ๋ธ์์ ์ ๊ตํ ์ํ ์ ํ ์ ๋ต๋ณด๋ค ๋ฌด์์ ์ํ๋ง์ด ICL ์ฑ๋ฅ ํฅ์์ ๋ ํจ๊ณผ์ ์ด๋ฉฐ, ๋ฐ์ดํฐ ์ฆ๊ฐ์ ํตํด ์ ์์ ์์
์ฑ๋ฅ์ 5% ํฅ์์์ผฐ๋ค๋ ๋๋ผ์ด ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ!
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning
·1880 words·9 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Beijing Jiaotong University
OpenRFT๋ ์ ํ๋ ๋๋ฉ์ธ ํน์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ผ๋ฐ์ ์ธ ์ถ๋ก ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ ํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching
·3113 words·15 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Computer Vision
Image Generation
๐ข Tsinghua University
๋จ์ผ ๋จ๊ณ ์ํ๋ง์ผ๋ก ์ด๋ฏธ์ง ์๋ ํ๊ท ๋ชจ๋ธ ์๋๋ฅผ ํ๊ธฐ์ ์ผ๋ก ํฅ์์ํจ ์ฆ๋ฅ ๋์ฝ๋ฉ(DD) ๊ธฐ๋ฒ ์ ์!
NILE: Internal Consistency Alignment in Large Language Models
·2709 words·13 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Chinese University of Hong Kong
NILE ํ๋ ์์ํฌ๋ LLM์ ๋ด๋ถ ์ง์๊ณผ IFT ๋ฐ์ดํฐ์
์ ์ธ๊ณ ์ง์ ๊ฐ ์ผ๊ด์ฑ์ ๋์ฌ LLM ์ฑ๋ฅ์ ์ต๋ 68.5%๊น์ง ํฅ์์ํต๋๋ค.
LearnLM: Improving Gemini for Learning
·3761 words·18 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
AI Applications
Education
๐ข Google DeepMind
LearnLM์ ๊ต์ก์ ๋งฅ๋ฝ์์ ์์ฑํ AI์ ํ๋ค๊ณ ์ง(Pedagogy)๋ฅผ ํฅ์์ํจ ๋ชจ๋ธ์
๋๋ค. ๊ต์ฌ๋ ๊ฐ๋ฐ์๊ฐ ์ํ๋ ํ๋ค๊ณ ์ง์ ํน์ฑ์ ๋ชจ๋ธ์ ์ฃผ์
ํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ํตํด ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ํ์ต ํจ๊ณผ๋ฅผ 31% ํฅ์์์ผฐ์ต๋๋ค.
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage
·2414 words·12 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Computer Vision
Visual Question Answering
๐ข Seoul National University
์ด์ ๋ฐ ์ด๋ฏธ์ง ์บก์
์์ฑ์ ํ๊ฐ ๋ฌธ์ ํด๊ฒฐ์ ์ํด, LLM-MLLM ํ์
๊ธฐ๋ฐ์ ๋ค์ค ์์ด์ ํธ ์์คํ
(CapMAS)์ ์ ์ํ์ฌ ์ฌ์ค์ฑ๊ณผ ํฌ๊ด์ฑ์ ๋์์ต๋๋ค.