Large Language Models
ResearchTown: Simulator of Human Research Community
·16894 words·80 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข University of Illinois Urbana-Champaign
RESEARCHTOWN: LLM ๊ธฐ๋ฐ ์ธ๊ฐ ์ฐ๊ตฌ ๊ณต๋์ฒด ์๋ฎฌ๋ ์ดํฐ๋ก, ๋ค์ํ ์ฐ๊ตฌ ํ๋์ ํ์ค์ ์ผ๋ก ๋ชจ๋ฐฉํ๋ฉฐ ํ์ ๊ฐ ์ฐ๊ตฌ ์์ด๋์ด ์์ฑ ๊ฐ๋ฅ
In Case You Missed It: ARC 'Challenge' Is Not That Challenging
·2275 words·11 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Snowflake AI Research
๊ธฐ์กด ๋ค์ค ์ ํ ๋ฌธ์ ํ๊ฐ ๋ฐฉ์์ ์ค๋ฅ๋ฅผ ์ง์ ํ๊ณ , ๋ชจ๋ ์ต์
์ ํจ๊ป ๊ณ ๋ คํ๋ ์๋ก์ด ํ๊ฐ ๋ฐฉ์์ ์ ์ํ์ฌ ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ์ ์ ํ์ฑ์ ๋์์ต๋๋ค.
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
·1717 words·9 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Tsinghua University
FoPE: ์ฃผํ์ ์์ญ ํน์ง ๊ฐ์ ์ผ๋ก ๊ธด ๋ฌธ๋งฅ ๊ธธ์ด ์ผ๋ฐํ ๋ฌ์ฑ!
Diving into Self-Evolving Training for Multimodal Reasoning
·2584 words·13 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Hong Kong University of Science and Technology
M-STAR: ๋ค๋ชจ๋ฌ ์ถ๋ก ์ ์ํ ์๊ธฐ ์งํ ํ๋ จ์ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์!
Deliberation in Latent Space via Differentiable Cache Augmentation
·2751 words·13 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Google DeepMind
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ์ฑ๋ฅ์ ํฅ์์ํค๋ ์๋ก์ด ๋ฐฉ๋ฒ์ธ โ์ฐจ๋ณ ๊ฐ๋ฅํ ์บ์ ์ฆ๊ฐโ ๊ธฐ๋ฒ ์ ์!
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners
·1797 words·9 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Hong Kong University of Science and Technology
B-STAR: ์๊ธฐ ํ์ต ์ถ๋ก ์์์ ํ์๊ณผ ํ์ฉ์ ๊ท ํ์ ๋ชจ๋ํฐ๋งํ๊ณ ์กฐ์ ํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํค๋ ์๋ก์ด ํ๋ ์์ํฌ
Revisiting In-Context Learning with Long Context Language Models
·3818 words·18 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Google DeepMind
์ฅ๋ฌธ ์ปจํ
์คํธ ์ธ์ด ๋ชจ๋ธ์์ ์ ๊ตํ ์ํ ์ ํ ์ ๋ต๋ณด๋ค ๋ฌด์์ ์ํ๋ง์ด ICL ์ฑ๋ฅ ํฅ์์ ๋ ํจ๊ณผ์ ์ด๋ฉฐ, ๋ฐ์ดํฐ ์ฆ๊ฐ์ ํตํด ์ ์์ ์์
์ฑ๋ฅ์ 5% ํฅ์์์ผฐ๋ค๋ ๋๋ผ์ด ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ!
OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning
·1880 words·9 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Beijing Jiaotong University
OpenRFT๋ ์ ํ๋ ๋๋ฉ์ธ ํน์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ผ๋ฐ์ ์ธ ์ถ๋ก ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ ํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
NILE: Internal Consistency Alignment in Large Language Models
·2709 words·13 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Chinese University of Hong Kong
NILE ํ๋ ์์ํฌ๋ LLM์ ๋ด๋ถ ์ง์๊ณผ IFT ๋ฐ์ดํฐ์
์ ์ธ๊ณ ์ง์ ๊ฐ ์ผ๊ด์ฑ์ ๋์ฌ LLM ์ฑ๋ฅ์ ์ต๋ 68.5%๊น์ง ํฅ์์ํต๋๋ค.
Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning
·4085 words·20 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Microsoft Research
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๋ค์ ์์๋ธ์ ํตํด ๋ณต์กํ ์ถ๋ก ๋ฌธ์ ๋ฅผ ๋์ฑ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๋ ์๋ก์ด ํ๋ ์์ํฌ, LE-MCTS๋ฅผ ์ ์ํฉ๋๋ค!
TOMG-Bench: Evaluating LLMs on Text-based Open Molecule Generation
·3930 words·19 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Hong Kong Polytechnic University
TOMG-Bench: LLM ๊ธฐ๋ฐ ์คํ ๋ถ์ ์์ฑ ๋ฒค์น๋งํฌ ์ ์! 25๊ฐ LLM ํ๊ฐ ๋ฐ ์๋ก์ด instruction tuning ๋ฐ์ดํฐ์
OpenMolIns ๊ณต๊ฐ๋ก, ์คํ์์ค LLM์ ์ฑ๋ฅ ํฅ์ ๋ฐ ๋ถ์ ๋ฐ๊ฒฌ์ ์๋ก์ด ๊ฐ๋ฅ์ฑ ์ ์!
RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response
·2295 words·11 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Peking University
ROBUSTFT๋ ์ก์์ด ํฌํจ๋ ์๋ต ์๋์์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๊ฐ๊ฑดํ ์ง๋ ํ์ต ๋ฏธ์ธ ์กฐ์ ์ ์ํ ํ๋ ์์ํฌ๋ก, ์ก์ ๊ฐ์ง ๋ฐ ์ฌ๋ผ๋ฒจ๋ง์ ํตํด ํ๋ฅ ์์
์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing
·4863 words·23 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Tsinghua University
ReLU ๋ผ์ฐํ
์ ์ฌ์ฉํ๋ ์์ ๋ฏธ๋ถ ๊ฐ๋ฅํ MoE ์ํคํ
์ฒ ReMoE๋ฅผ ํตํด ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ํ์ฅ์ฑ๊ณผ ํจ์จ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ๊ฐ์ ํ์ต๋๋ค!
Outcome-Refining Process Supervision for Code Generation
·2498 words·12 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Peking University
๋ณต์กํ ์๊ณ ๋ฆฌ์ฆ ์ถ๋ก ์ด ํ์ํ ์ฝ๋ ์์ฑ ๊ณผ์ ์์ ๊ธฐ์กด์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ์๋ก์ด ๋ฐฉ๋ฒ๋ก , Outcome-Refining Process Supervision (ORPS) ์ ์
MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design
·2237 words·11 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Microsoft Research
MixLLM: ์ถ๋ ฅ ํน์ง ๊ฐ์ ์ ์ญ ํผํฉ ์ ๋ฐ๋ ์์ํ์ ๊ณ ํจ์จ ์์คํ
์ค๊ณ๋ฅผ ํตํด LLM์ ์ ํ๋์ ํจ์จ์ฑ์ ๋์์ ํฅ์์ํค๋ ํ๊ธฐ์ ์ธ ์์ํ ๋ฐฉ๋ฒ
LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps
·7524 words·36 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข TU Darmstadt
M-ALERT๋ ๋ค๊ตญ์ด LLM์ ์์ ์ฑ์ ํ๊ฐํ๊ธฐ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ์
๋๋ค. ์์ด, ํ๋์ค์ด, ๋
์ผ์ด, ์ดํ๋ฆฌ์์ด, ์คํ์ธ์ด 5๊ฐ ์ธ์ด์ 75,000๊ฐ ํ๋กฌํํธ๋ฅผ ํฌํจํ๋ฉฐ, ๋ค์ํ ์ธ์ด ๋ฐ ๋ฒ์ฃผ์์ LLM์ ์์ ์ฑ ๋ถ์ผ์น๋ฅผ ๋ฐํ๋์ต๋๋ค.
How to Synthesize Text Data without Model Collapse?
·5005 words·24 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Tsinghua University
ํฉ์ฑ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ ํ์ต์ ๋ถ๊ดด ๋ฌธ์ ํด๊ฒฐ: ํ ํฐ ํธ์ง ๊ธฐ๋ฒ ์ ์!
Fietje: An open, efficient LLM for Dutch
·2556 words·12 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข KU Leuven
Fietje: ์คํ์์ค ์ํ ๋ค๋๋๋์ด LLM ๊ณต๊ฐ!
AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling
·2682 words·13 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข NVIDIA Research
AceMath๋ ์ฌ์ ํ๋ จ ๋ฐ ๋ณด์ ๋ชจ๋ธ๋ง์ ํตํด ์ต์ฒจ๋จ ์ํ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ฌ์ฑํ ํ๋ฐํฐ์ด๊ธ ๋ชจ๋ธ ์๋ฆฌ์ฆ์
๋๋ค.
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
·2422 words·12 mins·
loading
·
loading
AI Generated
๐ค Daily Papers
Natural Language Processing
Large Language Models
๐ข Carnegie Mellon University
TheAgentCompany ๋ฒค์น๋งํฌ๋ ์ค์ ์ํํธ์จ์ด ํ์ฌ ํ๊ฒฝ์ ๋ชจ๋ฐฉํ์ฌ LLM ์์ด์ ํธ์ ์ค์ ์
๋ฌด ์ํ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ฉฐ, AI ์์ด์ ํธ์ ํ์ค ์ธ๊ณ ์ ์ฉ ๊ฐ๋ฅ์ฑ๊ณผ ํ๊ณ๋ฅผ ๋ณด์ฌ์ค๋๋ค.