Large Language Models

YuLan-Mini: An Open Data-efficient Language Model

23 December 2024·3531 words·17 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Renmin University of China

YuLan-Mini: 24억 개 매개변수를 가진 데이터 효율적인 개방형 LLM

ResearchTown: Simulator of Human Research Community

23 December 2024·16894 words·80 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 University of Illinois Urbana-Champaign

RESEARCHTOWN: LLM 기반 인간 연구 공동체 시뮬레이터로, 다양한 연구 활동을 현실적으로 모방하며 학제 간 연구 아이디어 생성 가능

In Case You Missed It: ARC 'Challenge' Is Not That Challenging

23 December 2024·2275 words·11 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Snowflake AI Research

기존 다중 선택 문제 평가 방식의 오류를 지적하고, 모든 옵션을 함께 고려하는 새로운 평가 방식을 제안하여 모델 성능 평가의 정확성을 높였습니다.

Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization

23 December 2024·1717 words·9 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tsinghua University

FoPE: 주파수 영역 특징 개선으로 긴 문맥 길이 일반화 달성!

Diving into Self-Evolving Training for Multimodal Reasoning

23 December 2024·2584 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Hong Kong University of Science and Technology

M-STAR: 다모달 추론을 위한 자기 진화 훈련의 새로운 프레임워크를 제시!

Deliberation in Latent Space via Differentiable Cache Augmentation

23 December 2024·2751 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Google DeepMind

대규모 언어 모델의 추론 성능을 향상시키는 새로운 방법인 ‘차별 가능한 캐시 증강’ 기법 제시!

B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

23 December 2024·1797 words·9 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Hong Kong University of Science and Technology

B-STAR: 자기 학습 추론자에서 탐색과 활용의 균형을 모니터링하고 조정하여 성능을 향상시키는 새로운 프레임워크

Revisiting In-Context Learning with Long Context Language Models

22 December 2024·3818 words·18 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Google DeepMind

장문 컨텍스트 언어 모델에서 정교한 샘플 선택 전략보다 무작위 샘플링이 ICL 성능 향상에 더 효과적이며, 데이터 증강을 통해 저자원 작업 성능을 5% 향상시켰다는 놀라운 연구 결과를 발표!

OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning

22 December 2024·1880 words·9 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Beijing Jiaotong University

OpenRFT는 제한된 도메인 특정 데이터를 사용하여 일반적인 추론 모델을 미세 조정하는 새로운 방법을 제시합니다.

NILE: Internal Consistency Alignment in Large Language Models

21 December 2024·2709 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Chinese University of Hong Kong

NILE 프레임워크는 LLM의 내부 지식과 IFT 데이터셋의 세계 지식 간 일관성을 높여 LLM 성능을 최대 68.5%까지 향상시킵니다.

Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning

20 December 2024·4085 words·20 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Microsoft Research

대규모 언어 모델들의 앙상블을 통해 복잡한 추론 문제를 더욱 효과적으로 해결하는 새로운 프레임워크, LE-MCTS를 제안합니다!

TOMG-Bench: Evaluating LLMs on Text-based Open Molecule Generation

19 December 2024·3930 words·19 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Hong Kong Polytechnic University

TOMG-Bench: LLM 기반 오픈 분자 생성 벤치마크 제시! 25개 LLM 평가 및 새로운 instruction tuning 데이터셋 OpenMolIns 공개로, 오픈소스 LLM의 성능 향상 및 분자 발견의 새로운 가능성 제시!

RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

19 December 2024·2295 words·11 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Peking University

ROBUSTFT는 잡음이 포함된 응답 아래에서 대규모 언어 모델의 강건한 지도 학습 미세 조정을 위한 프레임워크로, 잡음 감지 및 재라벨링을 통해 하류 작업 성능을 향상시킵니다.

ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing

19 December 2024·4863 words·23 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tsinghua University

ReLU 라우팅을 사용하는 완전 미분 가능한 MoE 아키텍처 ReMoE를 통해 대규모 언어 모델의 확장성과 효율성을 획기적으로 개선했습니다!

Outcome-Refining Process Supervision for Code Generation

19 December 2024·2498 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Peking University

복잡한 알고리즘 추론이 필요한 코드 생성 과제에서 기존의 한계를 극복하는 새로운 방법론, Outcome-Refining Process Supervision (ORPS) 제시

MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design

19 December 2024·2237 words·11 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Microsoft Research

MixLLM: 출력 특징 간의 전역 혼합 정밀도 양자화와 고효율 시스템 설계를 통해 LLM의 정확도와 효율성을 동시에 향상시키는 획기적인 양자화 방법

LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps

19 December 2024·7524 words·36 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 TU Darmstadt

M-ALERT는 다국어 LLM의 안전성을 평가하기 위한 새로운 벤치마크입니다. 영어, 프랑스어, 독일어, 이탈리아어, 스페인어 5개 언어의 75,000개 프롬프트를 포함하며, 다양한 언어 및 범주에서 LLM의 안전성 불일치를 밝혀냈습니다.

How to Synthesize Text Data without Model Collapse?

19 December 2024·5005 words·24 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tsinghua University

합성 데이터 기반 언어 모델 학습의 붕괴 문제 해결: 토큰 편집 기법 제시!

Fietje: An open, efficient LLM for Dutch

19 December 2024·2556 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 KU Leuven

Fietje: 오픈소스 소형 네덜란드어 LLM 공개!

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

19 December 2024·2682 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 NVIDIA Research

AceMath는 사전 훈련 및 보상 모델링을 통해 최첨단 수학 추론 능력을 달성한 프런티어급 모델 시리즈입니다.