Large Language Models

BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

6 January 2025·2104 words·10 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Shanghai AI Laboratory

BoostStep: 단계별 추론으로 LLMs의 수학적 능력 향상!

ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

5 January 2025·3178 words·15 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 ByteDance

ToolHop: 대규모 언어 모델의 다중 단계 도구 사용 능력을 엄격히 평가하는 새로운 벤치마크

Test-time Computing: from System-1 Thinking to System-2 Thinking

5 January 2025·699 words·4 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Soochow University

테스트 시간 컴퓨팅을 활용하여 대규모 언어 모델의 추론 능력을 시스템 1 사고에서 시스템 2 사고 수준으로 향상시키는 방법을 제시하는 획기적인 연구!

Scaling Laws for Floating Point Quantization Training

5 January 2025·5642 words·27 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tencent AI Lab

부동 소수점 양자화 훈련의 새로운 scaling law 발견: 지수, 맨티사 비트 및 스케일링 인자 계산 정밀도가 LLM 성능에 미치는 영향을 정량적으로 규명

Personalized Graph-Based Retrieval for Large Language Models

4 January 2025·3060 words·15 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 UC Santa Cruz

개인화된 그래프 기반 검색 증강 생성(PGraphRAG) 프레임워크를 통해 희소 데이터 문제를 해결하고, LLM의 개인화 성능을 크게 향상시켰습니다.

METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

3 January 2025·2684 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 University of Southern California

70억 개 매개변수를 가진 메타유전체 기반 대규모 언어 모델(METAGENE-1)이 폐수 데이터로 훈련되어 병원균 탐지 및 유전체 서열 임베딩 작업에서 최첨단 성능을 달성했습니다.

Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models

3 January 2025·3175 words·15 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Ant Group

AUTO-RT: 자동화된 재밍 전략 탐색으로 LLM 취약점 효율적으로 발견!

Dynamic Scaling of Unit Tests for Code Reward Modeling

2 January 2025·2368 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tsinghua University

단위 테스트의 수를 늘려 코드 보상 모델의 정확성을 높이는 방법을 제시하는 연구!

CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

2 January 2025·1888 words·9 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Alibaba Group

CODEELO 벤치마크: 인간 수준의 Elo 등급으로 LLM의 경쟁적 코드 생성 능력 평가

BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

2 January 2025·3521 words·17 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Stanford University

BoxingGym: LLM 기반 과학적 에이전트의 실험 설계 및 모델 발견 능력 종합 평가 벤치마크

Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding

1 January 2025·3211 words·16 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 University of Texas at Austin

TAPE(conTextualized equivAriant Position Embedding) 프레임워크를 통해 문맥 정보를 활용한 동적 위치 인코딩으로 트랜스포머의 위치 기반 주소 지정 성능을 향상시켰습니다.

Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing

31 December 2024·2638 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 University of Texas at Austin

심층 신경망의 장기 의존성을 모델링하는 구조적 상태 공간 모델(SSM)의 한계를 극복! 최신 연구에서 SSM의 최근 편향(recency bias) 및 과도한 평활화(over-smoothing) 문제를 규명하고, 이를 해결하는 **극성화 기법(polarization)**을 제시하여 장기 토큰 상관관계 정확도를 높였습니다.

HUNYUANPROVER: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving

30 December 2024·1341 words·7 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tencent AI Lab

HunyuanProver: 대규모 언어 모델 기반의 확장 가능한 데이터 합성 프레임워크와 안내 트리 탐색을 통해 최첨단 자동 정리 증명 성능 달성!

HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

30 December 2024·3353 words·16 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tsinghua University

LLM의 점진적 추론 및 문제 해결 능력을 평가하기 위한 새로운 벤치마크 HumanEval Pro, MBPP Pro, BigCodeBench-Lite Pro 제시!

Facilitating large language model Russian adaptation with Learned Embedding Propagation

30 December 2024·1947 words·10 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Lomonosov Moscow State University

LEP(Learned Embedding Propagation)는 적은 양의 학습 데이터만으로도 다국어 대규모 언어 모델을 효율적으로 적응시키는 새로운 기법입니다.

Efficiently Serving LLM Reasoning Programs with Certaindex

30 December 2024·3238 words·16 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 UC San Diego

Dynasor은 LLM 추론 프로그램의 자원 사용을 최적화하는 시스템으로, certaindex라는 새로운 지표를 활용하여 어려운 질의에는 더 많은 연산을, 간단한 질의에는 적은 연산을 할당하고, 전망이 없는 질의는 조기에 종료함으로써 정확도, 지연 시간 및 비용을 균형 있게 맞춥니다.

Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

30 December 2024·2075 words·10 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tencent AI Lab

대규모 언어 모델의 과도한 연산 문제 해결: 효율적인 추론을 위한 새로운 지표 및 자기 학습 전략 제시

Xmodel-2 Technical Report

27 December 2024·2136 words·11 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Xiaoduo AI Lab

Xmodel-2: 12억 매개변수의 추론 전문 대규모 언어 모델로, 효율적인 설계와 훈련 전략을 통해 최첨단 성능 달성!

Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging

27 December 2024·177 words·1 min· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Intel Labs

미세 조정으로 안전성이 저하된 LLM의 성능을 향상시키는 동시에 안전성을 유지하는 간편하고 효과적인 모델 결합 방법 제시!

Token-Budget-Aware LLM Reasoning

24 December 2024·2417 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Nanjing University

토큰 예산 인식 LLM 추론 프레임워크(TALE)를 통해 LLM 추론의 토큰 비용을 크게 줄이면서 성능 저하를 최소화했습니다!