Paper Reviews by AI

Progressive Multimodal Reasoning via Active Retrieval

19 December 2024·2635 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Multimodal Learning Multimodal Reasoning 🏢 Gaoling School of Artificial Intelligence, Renmin University of China

AR-MCTS: 능동적 검색과 몬테 카를로 트리 탐색으로 멀티모달 추론 향상

Parallelized Autoregressive Visual Generation

19 December 2024·3557 words·17 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Peking University

본 연구는 토큰 의존성을 고려한 병렬화 전략을 통해 자동 회귀 시각적 생성의 속도를 최대 9.5배까지 향상시켰습니다.

Outcome-Refining Process Supervision for Code Generation

19 December 2024·2498 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Peking University

복잡한 알고리즘 추론이 필요한 코드 생성 과제에서 기존의 한계를 극복하는 새로운 방법론, Outcome-Refining Process Supervision (ORPS) 제시

MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design

19 December 2024·2237 words·11 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Microsoft Research

MixLLM: 출력 특징 간의 전역 혼합 정밀도 양자화와 고효율 시스템 설계를 통해 LLM의 정확도와 효율성을 동시에 향상시키는 획기적인 양자화 방법

MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

19 December 2024·2165 words·11 mins· loading · loading

AI Generated 🤗 Daily Papers Multimodal Learning Vision-Language Models 🏢 Hong Kong University of Science and Technology

MegaPairs는 VLM과 공개 도메인 이미지를 활용, 2600만 개 이상의 고품질 다중 모달 학습 데이터를 생성하여 범용 다중 모달 검색 성능을 획기적으로 향상시켰습니다.

LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps

19 December 2024·7524 words·36 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 TU Darmstadt

M-ALERT는 다국어 LLM의 안전성을 평가하기 위한 새로운 벤치마크입니다. 영어, 프랑스어, 독일어, 이탈리아어, 스페인어 5개 언어의 75,000개 프롬프트를 포함하며, 다양한 언어 및 범주에서 LLM의 안전성 불일치를 밝혀냈습니다.

LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

19 December 2024·2184 words·11 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Hong Kong University of Science and Technology

LeviTor: 사용자의 간편한 3D 궤적 입력만으로 사실적인 비디오 합성이 가능한 혁신적인 모델!

IDOL: Instant Photorealistic 3D Human Creation from a Single Image

19 December 2024·2450 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision 3D Vision 🏢 Tencent

단일 이미지에서 초고속, 고품질, 애니메이션 가능한 3D 아바타를 생성하는 IDOL 모델 제시!

How to Synthesize Text Data without Model Collapse?

19 December 2024·5005 words·24 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tsinghua University

합성 데이터 기반 언어 모델 학습의 붕괴 문제 해결: 토큰 편집 기법 제시!

Flowing from Words to Pixels: A Framework for Cross-Modality Evolution

19 December 2024·2904 words·14 mins· loading · loading

AI Generated 🤗 Daily Papers Multimodal Learning Vision-Language Models 🏢 GenAI, Meta

CrossFlow: 모달리티 간 직접적 변환 가능한 혁신적 프레임워크!

Fietje: An open, efficient LLM for Dutch

19 December 2024·2556 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 KU Leuven

Fietje: 오픈소스 소형 네덜란드어 LLM 공개!

DI-PCG: Diffusion-based Efficient Inverse Procedural Content Generation for High-quality 3D Asset Creation

19 December 2024·1542 words·8 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision 3D Vision 🏢 Tencent PCG

DI-PCG는 이미지 조건으로부터 고품질 3D 자산을 효율적으로 생성하기 위해 경량화된 확산 변환기 모델을 활용한 혁신적인 역방향 절차적 콘텐츠 생성 방법론입니다.

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

19 December 2024·2525 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Multimodal Learning Multimodal Generation 🏢 Snap Inc

AV-Link: 시간 정렬 확산 기능을 통한 크로스 모달 오디오-비디오 생성의 획기적인 발전!

Affordance-Aware Object Insertion via Mask-Aware Dual Diffusion

19 December 2024·3112 words·15 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Harvard University

Affordance-Aware Object Insertion: 배경과 전경의 상호작용을 고려한 현실적인 이미지 합성 기술!

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

19 December 2024·2682 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 NVIDIA Research

AceMath는 사전 훈련 및 보상 모델링을 통해 최첨단 수학 추론 능력을 달성한 프런티어급 모델 시리즈입니다.

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

18 December 2024·4794 words·23 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Visual Question Answering 🏢 Stanford University

MLLM의 시각-공간 지능 향상에 도움이 되는 새로운 비디오 기반 벤치마크 VSI-Bench 발표!

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

18 December 2024·2422 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Carnegie Mellon University

TheAgentCompany 벤치마크는 실제 소프트웨어 회사 환경을 모방하여 LLM 에이전트의 실제 업무 수행 능력을 평가하며, AI 에이전트의 현실 세계 적용 가능성과 한계를 보여줍니다.

Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

18 December 2024·2449 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Answer.AI

ModernBERT: 빠르고 메모리 효율적인 장문 컨텍스트 미세 조정 및 추론을 위한 최첨단 양방향 인코더!

RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment

18 December 2024·2978 words·14 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 University of Chinese Academy of Sciences

RAG-RewardBench: RAG 환경에서 보상 모델 평가를 위한 최초의 벤치마크 제시!

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

18 December 2024·3901 words·19 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision 3D Vision 🏢 Zhejiang University

저렴한 라이다 프롬프트를 사용한 4K 고해상도 정확한 계량적 깊이 추정을 위한 새로운 패러다임, Prompt Depth Anything 제시!