โ arXiv โ Hugging Face โ Papers with Code
TL;DR#
Large language models (LLMs) excel, but smaller models are crucial for broader access. Existing post-training techniques, effective on LLMs, remain underexplored on smaller scales, hindering efficient model deployment in resource-limited settings. It also raises a problem on the lack of understanding in scaling these techniques into SLMs, particularly on various optimization strategies. This research tackles efficient post-training for smaller language models. Existing training strategies for large language models (LLMs) might not suit smaller ones.
This paper explores how training dynamics, specifically the learning rate to batch size ratio, impact smaller model performance. By adapting AllenAI’s Tulu 3 pipeline to a 1.7B parameter model, the research demonstrates that optimizing this ratio is crucial, especially for complex reasoning tasks. Higher ratios boosted reasoning, while lower ones benefited pattern recognition. This careful tuning yielded state-of-the-art results for smaller models, demonstrating that efficient model adaptation can bridge the gap between smaller and larger language models.
Key Takeaways#
Why does it matter?#
Smaller language models (SLMs) are crucial for democratizing access to AI but often underperform larger models. This research demonstrates how careful tuning, especially of the learning rate to batch size ratio, can significantly enhance SLM capabilities, opening new avenues for efficient model deployment. The study’s insights into optimization dynamics and task-specific tuning are valuable for researchers exploring efficient deep learning and contribute to the growing field of SLM optimization, pushing the boundaries of what’s possible with smaller, more accessible models.
Visual Insights#
๐ผ ์ด ๊ทธ๋ฆผ์ SmolLM2-135M ๋ชจ๋ธ์ ์ง๋ ๋ฏธ์ธ ์กฐ์ (Supervised Fine-tuning) ๊ณผ์ ์์ ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ ARC ์ ์์ ๋ฏธ์น๋ ์ํฅ์ ๋ฑ๊ณ ์ ๋ถ์์ผ๋ก ๋ณด์ฌ์ค๋๋ค. ์์ ์ค์ผ์ผ์ ๊ฐ ์งํ์ ๋ํ ์ ์๋ฅผ ๋ํ๋ด๋ฉฐ, ๊ฒ์์์ผ์๋ก ์ฑ๋ฅ์ด ๋๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ด ๊ทธ๋ฆผ์ ํตํด ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ ๋น์จ์ ์ต์ ๊ฐ์ด ์์ ์ ๋ฐ๋ผ ๋ค๋ฅด๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
read the caption
(a) Effect of learning rate and batch size on ARC score.
Benchmark | Contamination |
---|---|
cais/mmlu | 1.34% |
openai/openai_humaneval | 0.00% |
openai/gsm8k | 0.08% |
ucinlp/drop | 0.20% |
lighteval/MATH | 0.06% |
google/IFEval | 0.00% |
akariasai/PopQA | 7.21% |
tatsu-lab/alpaca_eval | 1.37% |
lukaemon/bbh | 0.02% |
truthfulqa/truthful_qa | 1.47% |
allenai/wildguardmix | 0.06% |
allenai/wildjailbreak | 0.00% |
TIGER-Lab/MMLU-Pro | 0.93% |
Idavidrein/gpqa | 0.00% |
lighteval/agi_eval_en | 0.00% |
bigcode/bigcodebench | 0.00% |
deepmind/math_dataset | 0.00% |
๐ผ ์ด ํ๋ SFT ๋ฐ์ดํฐ์ (allenai/tulu-3-sft-mixture)์ ์ฌ์ฉ๋ ๋ฒค์น๋งํฌ๋ค์ ์ค์ผ๋ฅ ์ ๋ณด์ฌ์ค๋๋ค. ์ค์ผ๋ฅ ์ด๋, ํ๋ จ ๋ฐ์ดํฐ์ ์ ํ๊ฐ ๋ฐ์ดํฐ์ ์ ๋ด์ฉ์ด ํฌํจ๋์ด ์๋ ๋น์จ์ ์๋ฏธํ๋ฉฐ, ์ด๋ ๋ชจ๋ธ ํ๊ฐ์ ์ ๋ขฐ๋๋ฅผ ๋จ์ด๋จ๋ฆด ์ ์์ต๋๋ค. ํ์์ ๋ณผ ์ ์๋ฏ์ด ๋๋ถ๋ถ์ ๋ฒค์น๋งํฌ๋ 1.5% ๋ฏธ๋ง์ ๋ฎ์ ์ค์ผ๋ฅ ์ ๋ณด์ด๊ณ ์์ผ๋ฉฐ, GSM8K, IFEval, AGI Eval๊ณผ ๊ฐ์ ์ฃผ์ ํ๊ฐ ๋ฒค์น๋งํฌ๋ ์ค์ผ๋ฅ ์ด ๊ฑฐ์ 0์ ๊ฐ๊น์ต๋๋ค.
read the caption
Table 1: Contamination of benchmarks in the SFT dataset used allenai/tulu-3-sft-mixture
In-depth insights#
LR/BS Ratios in SLMs#
ํ์ต๋ฅ (LR) ๋ ๋ฐฐ์น ํฌ๊ธฐ(BS) ๋น์จ์ ์๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(SLM)์ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์นฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ถ๋ก ๊ณผ ํจํด ์ธ์ ์์ ์์ LR/BS ๋น์จ์ ํจ๊ณผ๋ฅผ ๋ถ์ํ์ต๋๋ค. ์ถ๋ก ์์ ์ ๊ฒฝ์ฐ, ๋ ๋์ LR/BS ๋น์จ์ด ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์ค๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ผ๋ฉฐ, ์ด๋ ๋ ์ฆ์ ๋งค๊ฐ๋ณ์ ์ ๋ฐ์ดํธ์ ์ผ์นํฉ๋๋ค. ๋ฐ๋๋ก ํจํด ์ธ์ ์์ ์ ๋ ๋ฎ์ ๋น์จ์์ ์ต์ ์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ฌํ ์ฐจ์ด๋ ๋ชจ๋ธ ์ฉ๋์ ์ ์ฝ๊ณผ ์ต์ ํ ์ ๋ต์ ํ์์ฑ์ ๊ฐ์กฐํฉ๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, ๋ ํฐ ๋ชจ๋ธ์์๋ LR/BS ๋น์จ์ ์ํฅ์ด ์์ ์ ํ์ ๋ฐ๋ผ ๋ ๋๋ ทํด์ง๋ ๊ฒฝํฅ์ด ์์์ต๋๋ค. ์ด๋ฌํ ๊ด์ฐฐ์ ๋ชจ๋ธ ์ฉ๋์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ต์ ํ์ ์ ์ฐ์ฑ์ด ํฅ์๋จ์ ์์ฌํฉ๋๋ค. SLM ๊ต์ก์ ์ํ ์ต์ ์ LR/BS ๋น์จ์ ๊ฒฐ์ ํ๋ ๋ฐ ์์ด ๋ชจ๋ธ ํฌ๊ธฐ์ ์์ ์ ํ ๊ฐ์ ๋ณต์กํ ์ํธ ์์ฉ์ ๋ํ ์ถ๊ฐ ์กฐ์ฌ๊ฐ ํ์ํฉ๋๋ค.
SmolTulu Optimization#
SmolTulu ์ต์ ํ๋ ์์ ์ธ์ด ๋ชจ๋ธ์ ํจ์จ์ ์ธ ๋ฏธ์ธ ์กฐ์ ์ ์ค์ ์ ๋ก๋๋ค. ์ฃผ์ ๋ชฉํ๋ ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ ๋น์จ์ ์กฐ์ ํ์ฌ ์ถ๋ก ๋ฐ ํจํด ์ธ์ ์์ ๋ชจ๋์์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ฒ์ ๋๋ค. ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด ๋ ๋์ ๋น์จ์ GSM8K์ ๊ฐ์ ์ถ๋ก ๋ฒค์น๋งํฌ์ ์ ์ตํ ๋ฐ๋ฉด ๋ฎ์ ๋น์จ์ HellaSwag ๋ฐ IFEval๊ณผ ๊ฐ์ ํจํด ์ธ์์์ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ฐ์ถํฉ๋๋ค. ์ด๋ฌํ ๋ฐ๊ฒฌ์ ๋ชจ๋ธ ํฌ๊ธฐ์ ์์ ์ ํ์ ๋ฐ๋ผ ์ต์ ์ ๋น์จ์ด ๋ค๋ฆ์ ์์ฌํฉ๋๋ค. SmolTulu๋ ๋ํ **Direct Preference Optimization(DPO)**๋ฅผ ํ์ฉํ์ฌ ๋ณด์ ๋ชจ๋ธ ์์ด ์ ์ฑ ์ ์ง์ ์ต์ ํํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ณ์ฐ ํจ์จ์ฑ์ ํฅ์์ํค๊ณ ๋ ์์ ๋ชจ๋ธ์ ์ ํฉํฉ๋๋ค. ๋ํ ์ฐ๊ตฌ๋ **๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์์ ์ฌ์ฉํ ๊ฐํ ํ์ต(RLVR)**์ ์ ์ฌ๋ ฅ์ ํ๊ตฌํ์ง๋ง ๊ณ์ฐ ์ ์ฝ์ผ๋ก ์ธํด ์ฒ ์ ํ ํ์์ด ์ ํ๋ฉ๋๋ค. ์ ๋ฐ์ ์ผ๋ก SmolTulu ์ต์ ํ๋ ์์ ์ธ์ด ๋ชจ๋ธ์ ์ํ ํจ์จ์ ์ด๊ณ ํจ๊ณผ์ ์ธ ํ๋ จ ์ ๋ต์ ํฅ์์ํค๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค.
Task-Specific Dynamics#
์์ ๋ณ ๋์ ํน์ฑ์ ๋ค์ํ ์์ ์์ ๋ชจ๋ธ ์ต์ ํ์ ๋ณต์ก์ฑ์ ๊ฐ์กฐํฉ๋๋ค. ์ถ๋ก ๊ณผ ํจํด ์ธ์์ ์๋ก ๋ค๋ฅธ ์ต์ ํ ์ ๋ต์ด ํ์ํจ์ด ๋ถ๋ช ํฉ๋๋ค. ์๋ฅผ ๋ค์ด GSM8K์ ๊ฐ์ ์ถ๋ก ๋ฒค์น๋งํฌ๋ ๋์ ํ์ต๋ฅ ๋ ๋ฐฐ์น ํฌ๊ธฐ ๋น์จ์์ ์ด์ ์ ์ป๋ ๋ฐ๋ฉด HellaSwag ๋ฐ IFEval๊ณผ ๊ฐ์ ํจํด ์ธ์ ์์ ์ ๋ฎ์ ๋น์จ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ์ด๋ฌํ ์ฐจ์ด๋ ์์ ์ ํ์ ๋ฐ๋ผ ๋ชจ๋ธ ์ฉ๋ ํ ๋น ๋ฐฉ์์ด ๋ค๋ฆ์ ์์ฌํฉ๋๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋ ์ด๋ฌํ ๋์ ํน์ฑ์ ๋ชจ๋ธ ๊ท๋ชจ์ ๋ฐ๋ผ ๋ณํฉ๋๋ค. ์๊ท๋ชจ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ด๋ฌํ ์ฐจ์ด๋ ๋์ฑ ๋๋๋ฌ์ง์ง๋ง, ๋๊ท๋ชจ ๋ชจ๋ธ์์๋ ์ด๋ฌํ ๊ฒฝ๊ณ๊ฐ ๋ชจํธํด์ง๋๋ค. ์ด๋ฌํ ๊ด์ฐฐ์ ์์ ์ ๋ณต์ก์ฑ, ๋ชจ๋ธ ํฌ๊ธฐ ๋ฐ ์ต์ ํ ์ ๋ต ๊ฐ์ ๋ณต์กํ ์ํธ ์์ฉ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ฌํ ๋ณต์ก์ฑ์ ์์ ํ ์ดํดํ๋ ค๋ฉด ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ์ง๋ง, ์ด๋ฌํ ์ด๊ธฐ ๊ฒฐ๊ณผ๋ ๋ ํจ์จ์ ์ด๊ณ ์์ ๋ณ ๋ชจ๋ธ ์ต์ ํ๋ฅผ ์ํ ๋ง์ถคํ ์ ๋ต ๊ฐ๋ฐ์ ์ค์์ฑ์ ๋ณด์ฌ์ค๋๋ค.
Scaling Laws in SFT/DPO#
**SFT(Supervised Fine-tuning)**์ **DPO(Direct Preference Optimization)**์์ ์ค์ผ์ผ๋ง ๋ฒ์น์ ๋ชจ๋ธ ํฌ๊ธฐ, ๋ฐ์ดํฐ์ ํฌ๊ธฐ, ํ์ต๋ฅ , ๋ฐฐ์น ํฌ๊ธฐ ๋ฑ ๋ค์ํ ์์๊ฐ ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ์ฆ๊ฐํ ์๋ก ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒฝํฅ์ด ์์ง๋ง, ์ต์ ์ ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ๋ ์์ ๋ฐ ๋ชจ๋ธ ์ํคํ ์ฒ์ ๋ฐ๋ผ ๋ค๋ฆ ๋๋ค. ์ค์ผ์ผ๋ง ๋ฒ์น์ ์ดํดํ๋ฉด ๊ณ์ฐ ํจ์จ์ฑ์ ์ ์งํ๋ฉด์ ์ต์์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ธฐ ์ํ ์ ์ ํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ ํํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค. ํนํ ์์ ๋ชจ๋ธ์ ๊ฒฝ์ฐ, ์ค์ผ์ผ๋ง ๋ฒ์น์ ์ ์คํ๊ฒ ์กฐ์ ํ์ฌ ๋๊ท๋ชจ ๋ชจ๋ธ๊ณผ์ ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ฅผ ์ค์ด๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ์ด๋ฌํ ๋ฒ์น์ ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ์ต์ ํ ๊ณผ์ ์๋ ์ํฅ์ ๋ฏธ์น๋ฏ๋ก, SFT ๋ฐ DPO์์ ์ค์ผ์ผ๋ง ๋ฒ์น์ ํ๊ตฌํ๋ ๊ฒ์ ํจ์จ์ ์ด๊ณ ํจ๊ณผ์ ์ธ ๋ชจ๋ธ ํ์ต์ ํ์์ ์ ๋๋ค.
RLVR Challenges#
RLVR(Reinforcement Learning with Verifiable Rewards)์ ์ธ์ด ๋ชจ๋ธ ํ์ต์ ์ ๋งํ ์ ๊ทผ ๋ฐฉ์์ด์ง๋ง, ํนํ ์์ ๋ชจ๋ธ์ ์ ์ฉํ ๋ ๋ช ๊ฐ์ง ์ด๋ ค์์ด ์์ต๋๋ค. ์ฒซ์งธ, ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์ ์ ํธ๋ ๋ณธ์ง์ ์ผ๋ก sparseํฉ๋๋ค. ๋ชจ๋ ์ถ๋ ฅ์ ๋ํด ๋ช ํํ ์ณ๊ณ ๊ทธ๋ฆ์ด ์๋ ๊ฒ์ ์๋๋ฏ๋ก ๋ชจ๋ธ์ด ํจ๊ณผ์ ์ผ๋ก ํ์ตํ๊ธฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค. ๋์งธ, ์์ ๋ชจ๋ธ์ ํฐ ๋ชจ๋ธ๋ณด๋ค ์ต์ ํํ๊ธฐ ๊น๋ค๋ก์ธ ์ ์์ต๋๋ค. ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ์ ๊ด๊ณ๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์นฉ๋๋ค, ์ ์ ํ ๊ท ํ์ ์ฐพ๊ธฐ๊ฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, ๊ณ์ฐ ๋ฆฌ์์ค์ ์ ์ฝ์ ์ฒ ์ ํ ์คํ์ ์ด๋ ต๊ฒ ๋ง๋ค๊ณ ์ต์ ์ hyperparameter ์ค์ ์ ์ฐพ๋ ๊ฒ์ ๋ฐฉํดํฉ๋๋ค. ์ด๋ฌํ ๋ฌธ์ ์๋ ๋ถ๊ตฌํ๊ณ , RLVR์ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ํฐ ์ ์ฌ๋ ฅ์ ๊ฐ์ง๊ณ ์๊ธฐ์ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
More visual insights#
More on figures
๐ผ SmolLM2-135M ๋ชจ๋ธ์ ์ง๋ ๋ฏธ์ธ ์กฐ์ ์ค ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ GSM8K ์ ์์ ๋ฏธ์น๋ ์ํฅ์ ๋ณด์ฌ์ฃผ๋ ๋ฑ๊ณ ์ ๋ถ์์ ๋๋ค. ์์ ์ฒ๋๋ ๊ฐ ์งํ์ ์ ์๋ฅผ ๋ํ๋ด๋ฉฐ ๊ฒ์์์ผ์๋ก ์ฑ๋ฅ์ด ๋ ๋๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ด ํจํด์ ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ์ ์ต์ ๋น์จ์ด ์์ ์ ๋ฐ๋ผ ๋ค๋ฅด๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. GSM8K์ ๊ฐ์ ์ถ๋ก ์์ ์ ํ์ต๋ฅ ๋ ๋ฐฐ์น ํฌ๊ธฐ ๋น์จ์ด ๋์์๋ก ์ฑ๋ฅ์ด ํฅ์๋ฉ๋๋ค.
read the caption
(b) Effect of learning rate and batch size on GSM8K score.
๐ผ SmolLM2-135M ๋ชจ๋ธ์ ์ง๋ ๋ฏธ์ธ ์กฐ์ ์ค ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ HellaSwag ์ ์์ ๋ฏธ์น๋ ์ํฅ์ ๋ฑ๊ณ ์ ๋ถ์์ผ๋ก ๋ณด์ฌ์ฃผ๋ ๊ทธ๋ฆผ์ ๋๋ค. ์์ ์ฒ๋๋ ๊ฐ ์งํ์ ์ ์๋ฅผ ๋ํ๋ด๋ฉฐ, ๊ฒ์์์ผ์๋ก ์ฑ๋ฅ์ด ๋์ต๋๋ค. ์ด ํจํด์ ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ ๊ฐ์ ์์ ๋ณ ์ต์ ๋น์จ์ ๋ณด์ฌ์ค๋๋ค. HellaSwag์์ ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ ๋น์จ์ด ๋ฎ์ ๋ ์ต์ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
read the caption
(c) Effect of learning rate and batch size on HellaSwag score.
๐ผ SmolLM2-135M ๋ชจ๋ธ์ ์ง๋ ๋ฏธ์ธ ์กฐ์ ์ค ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ๊ฐ IFEval ์ ์์ ๋ฏธ์น๋ ์ํฅ์ ๋ฑ๊ณ ์ ๋ถ์์ผ๋ก ๋ณด์ฌ์ฃผ๋ ๊ทธ๋ฆผ์ ๋๋ค. ์์ ์ฒ๋๋ ๊ฐ ์งํ์ ์ ์๋ฅผ ๋ํ๋ด๋ฉฐ, ๊ฒ์์์ผ์๋ก ์ฑ๋ฅ์ด ๋๋ค๋ ๊ฒ์ ๋ํ๋ ๋๋ค. ์ด ๊ทธ๋ฆผ์ ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ์ ๋น์จ์ด ์์ ์ ๋ฐ๋ผ ์ต์ ์ ๊ฐ์ ๊ฐ์ง์ ๋ณด์ฌ์ค๋๋ค. ํนํ IFEval์ ๊ฒฝ์ฐ, ๋ฎ์ ํ์ต๋ฅ ๋ ๋ฐฐ์น ํฌ๊ธฐ ๋น์จ์์ ์ต์ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ์ด๋ ์ถ๋ก ์์ ๊ณผ ํจํด ์ธ์ ์์ ์ ๋ํด ์๋ก ๋ค๋ฅธ ์ต์ ํ ์ ๋ต์ด ํ์ํจ์ ์์ฌํฉ๋๋ค.
read the caption
(d) Effect of learning rate and batch size on IFEval score.
More on tables
Hyperparameter | SmolTulu | SmolTulu | Tulu 3 | Tulu 3 |
---|---|---|---|---|
SFT-1130 | SFT-1207 | SFT 8b | SFT 70b | |
Learning Rate (LR) | 9.0e-5 | 3.1e-6 | 5.0e-6 | 2.0e-6 |
Batch Size (BS) | 8 | 32 | 128 | 128 |
LR/BS x 10^6 | 11.25 | 0.097 | 0.039 | 0.016 |
๐ผ ์ด ํ๋ ์ง๋ ๋ฏธ์ธ ์กฐ์ (SFT) ๋จ๊ณ์์ ์ฌ์ฉ๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ(SmolTulu, Tulu 3)์ ๋ํ ํ์ต๋ฅ , ๋ฐฐ์น ํฌ๊ธฐ ๋ฐ ํ์ต๋ฅ ๋ ๋ฐฐ์น ํฌ๊ธฐ ๋น์จ์ ๋น๊ตํฉ๋๋ค. SmolTulu ๋ชจ๋ธ์ ๋ ํฐ ํ์ต๋ฅ ๋ ๋ฐฐ์น ํฌ๊ธฐ ๋น์จ์ ์ฌ์ฉํ๋ ๋ฐ๋ฉด Tulu 3 ๋ชจ๋ธ์ ๋ ์์ ๋น์จ์ ์ฌ์ฉํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ฌํ ๋น์จ์ ๋ชจ๋ธ ํฌ๊ธฐ ๋ฐ ์์ ์ ํ์ ๋ฐ๋ผ ์ต์ ์ ํ์ต ์ญํ์ด ์ด๋ป๊ฒ ๋ณํ๋์ง ๋ณด์ฌ์ค๋๋ค.
read the caption
Table 2: SFT hyperparameter selection
Metric | SmolTulu SFT-1130 | SmolTulu SFT-1207 | SmolLM2 1.7B-Instruct |
---|---|---|---|
ARC (Average) | 51.0 | 55.6 | 51.7 |
BBH (3-shot) | 34.7 | 34.0 | 32.2 |
GSM8K (5-shot) | 49.0 | 42.8 | 48.2 |
HellaSwag | 61.5 | 67.5 | 66.1 |
IFEval (Average) | 61.0 | 47.8 | 56.7 |
MMLU-Pro (MCF) | 17.6 | 17.9 | 19.3 |
PIQA | 72.7 | 76.9 | 74.4 |
๐ผ SFT ๋ชจ๋ธ ์ฑ๋ฅ ๋น๊ตํ: SmolTulu SFT-1130, SmolTulu SFT-1207, SmolLM2 1.7B-Instruct ๋ชจ๋ธ์ ARC, BBH, GSM8K, HellaSwag, IFEval, MMLU-Pro, PIQA ๋ฒค์น๋งํฌ ์ ์ ๋น๊ต
read the caption
Table 3: Performance comparison of SFT models
Benchmark | Contamination |
---|---|
cais/mmlu | 0.69% |
openai/openai_humaneval | 0.00% |
openai/gsm8k | 0.00% |
ucinlp/drop | 0.07% |
lighteval/MATH | 0.02% |
google/IFEval | 0.00% |
akariasai/PopQA | 2.72% |
tatsu-lab/alpaca_eval | 1.24% |
lukaemon/bbh | 0.00% |
truthfulqa/truthful_qa | 0.61% |
allenai/wildguardmix | 0.06% |
allenai/wildjailbreak | 0.00% |
TIGER-Lab/MMLU-Pro | 0.36% |
Idavidrein/gpqa | 0.00% |
lighteval/agi_eval_en | 0.00% |
bigcode/bigcodebench | 0.00% |
deepmind/math_dataset | 0.00% |
๐ผ ์ด ํ๋ ์ฌ์ ํ๋ จ๋ ์ธ์ด ๋ชจ๋ธ(llama-3.1-tulu-3-8b-preference-mixture)์ ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐ ์ฌ์ฉ๋ DPO ๋ฐ์ดํฐ ์ธํธ์์ ๋ฒค์น๋งํฌ์ ์ค์ผ ๋น์จ์ ๋ณด์ฌ์ค๋๋ค. ๋๋ถ๋ถ์ ๋ฒค์น๋งํฌ๋ 1% ๋ฏธ๋ง์ ๋ฎ์ ์ค์ผ๋ฅ ์ ๋ณด์ด๋ฉฐ, GSM8K, IFEval, BBH์ ๊ฐ์ ํต์ฌ ๋ฒค์น๋งํฌ๋ ์ค์ผ์ด ์ ํ ์์ต๋๋ค. PopQA์์ ๊ฐ์ฅ ๋์ ์ค์ผ๋ฅ ์ธ 2.72%๊ฐ ๊ด์ฐฐ๋์์ต๋๋ค.
read the caption
Table 4: Contamination of benchmarks in the DPO dataset used allenai/llama-3.1-tulu-3-8b-preference-mixture
Hyperparameter | SmolTulu DPO-1130 | SmolTulu DPO-1207 | Tulu 3 DPO 8b | Tulu 3 DPO 70b |
---|---|---|---|---|
Learning Rate (LR) | $8.0 \times 10^{-7}$ | $5 \times 10^{-7}$ | $5.0 \times 10^{-7}$ | $2.0 \times 10^{-7}$ |
Batch Size (BS) | 12 | 32 | 128 | 128 |
$\frac{LR}{BS} \times 10^{7}$ | 0.667 | 0.156 | 0.039 | 0.016 |
๐ผ ์ด ํ๋ SmolTulu, Tulu 3 ๋ชจ๋ธ์ DPO ๋จ๊ณ์์ ์ฌ์ฉ๋ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ ๋ณด์ฌ์ค๋๋ค. ํ์ต๋ฅ , ๋ฐฐ์น ํฌ๊ธฐ, ๊ทธ๋ฆฌ๊ณ ๊ทธ ๋น์จ์ด ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ๋ผ ์ด๋ป๊ฒ ๋ค๋ฅธ์ง๋ฅผ ๋ํ๋ ๋๋ค.
read the caption
Table 5: DPO hyperparameter selection
Metric | SmolTulu DPO-1130 | SmolTulu DPO-1207 | SmolLM2 1.7B-Instruct |
---|---|---|---|
ARC (Average) | 51.5 | 57.1 | 51.7 |
BBH (3-shot) | 33.8 | 34.2 | 32.2 |
GSM8K (5-shot) | 51.6 | 44.7 | 48.2 |
HellaSwag | 61.1 | 64.2 | 66.1 |
IFEval (Average) | 67.7 | 56.6 | 56.7 |
MMLU-Pro (MCF) | 17.4 | 19.1 | 19.3 |
PIQA | 72.2 | 76.4 | 74.4 |
๐ผ ์ด ํ๋ Direct Preference Optimization(DPO) ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ ๋น๊ต๋ฅผ ๋ณด์ฌ์ค๋๋ค. SmolTulu DPO-1130๊ณผ SmolTulu DPO-1207 ๋ ๊ฐ์ง DPO ๋ชจ๋ธ์ ์ฑ๋ฅ์ SmolLM2 1.7B-Instruct ๋ชจ๋ธ๊ณผ ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ ๋น๊ตํ๊ณ ์์ต๋๋ค. SmolTulu DPO-1130์ IFEval๊ณผ GSM8K์์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๋ฐ๋ฉด ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ARC์ PIQA์์ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
read the caption
Table 6: Performance comparison of DPO models
Hyperparameter | SmolTulu | SmolTulu | Tulu 3 |
---|---|---|---|
RM-1130 | RM-1207 | DPO 8b | |
Learning Rate (LR) | 4.0 ร 10โปโต | 7.5 ร 10โปโท | 5.0 ร 10โปโท |
Batch Size (BS) | 4 | 8 | 128 |
LR/BS ร 10โท | 100 | 0.938 | 0.039 |
๐ผ ์ด ํ๋ ๋ณด์ ๋ชจ๋ธ(Reward Model, RM) ํ์ต์ ์ฌ์ฉ๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ๋ณด์ฌ์ค๋๋ค. SmolTulu RM-1130, SmolTulu RM-1207, ๊ทธ๋ฆฌ๊ณ Tulu 3 DPO 8b ๋ชจ๋ธ์ ํ์ต๋ฅ (Learning Rate), ๋ฐฐ์น ํฌ๊ธฐ(Batch Size), ๊ทธ๋ฆฌ๊ณ ํ์ต๋ฅ ๊ณผ ๋ฐฐ์น ํฌ๊ธฐ์ ๋น์จ(LR/BS)์ด ์ ์๋์ด ์์ต๋๋ค. SmolTulu ๋ชจ๋ธ๋ค์ Tulu 3 ๋ชจ๋ธ์ ๋นํด ๋ ๋์ LR/BS ๋น์จ์ ์ฌ์ฉํ ๊ฒ์ด ํน์ง์ ๋๋ค.
read the caption
Table 7: Reward model hyperparameter selection
Metric | SmolTulu RM-1130 | SmolTulu RM-1207 | Tulu 3 8b RM |
---|---|---|---|
RB Chat | 94.13 | 83.52 | 96.27 |
RB Chat Hard | 43.64 | 44.74 | 55.92 |
RB Safety | 75.54 | 64.59 | 84.05 |
RB Reasoning | 68.01 | 54.71 | 76.50 |
RB Average | 72.43 | 58.59 | 81.34 |
UFB | 73.17 | 61.66 | 77.34 |
๐ผ ์ด ํ๋ ๋ณด์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ตํ ํ์ ๋๋ค. UFB๋ allenai/ultrafeedback_binarized_cleaned์ test_prefs ๋ถํ ์ด๊ณ RB๋ RewardBench์ ๋๋ค. SmolTulu RM-1130์ ํ์ค ์ฑํ ํ๊ฐ์์ 94.13%, ์์ ํ๊ฐ์์ 75.54%๋ฅผ ๋ฌ์ฑํ๋ ๋ฑ ๋ค์ํ ์งํ์์ RewardBench์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ฌํ ๊ฐ๋ ฅํ ์๋์ ์ฑ๋ฅ ํจํด์ ๋ค๋ฅธ ์งํ์๋ ์ ์ฉ๋๋ฉฐ, SmolTulu RM-1130์ UltraFeedback ๋ฒค์น๋งํฌ ํ ์คํธ ์ ํธ๋์์ 73.17%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ฌ ๋งค๊ฐ๋ณ์์ ์ฝ 21%๋ง ์ฌ์ฉํจ์๋ ๋ถ๊ตฌํ๊ณ Tulu 3์ 77.34%์ ๋ถ๊ณผ 4.17% ํฌ์ธํธ ์ฐจ์ด๋ก ๋ค์ฒ์ก์ต๋๋ค. (Shallue et al., 2019)์ ํ๋ ์์ํฌ์ ๋ฐ๋ฅด๋ฉด, ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ํนํ ์ ์ ํ๊ฒ ์กฐ ๋ ์ต์ ํ ์ ๋ต์ ์ฌ์ฉํ ๋ ๋ณด์ ๋ชจ๋ธ๋ง์ด ์ด์ ์ ๊ฐ์ ํ๋ ๊ฒ๋ณด๋ค ๋ ์์ ์ํคํ ์ฒ๋ก ๋ ์ฐ์ํ๊ฒ ํ์ฅ๋ ์ ์์์ ์์ฌํฉ๋๋ค. RM-1130๊ณผ RM-1207(RB์์ 72.43% ๋ 58.59%) ๊ฐ์ ์๋นํ ์ฑ๋ฅ ๊ฒฉ์ฐจ๋ ์๊ท๋ชจ ๋ชจ๋ธ์์ ํ์ต๋ฅ ๋ ๋ฐฐ์น ํฌ๊ธฐ ๋น์จ์ ์ค์์ฑ์ ๋ํ ์ด์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐํํฉ๋๋ค. RM-1130์์ ์ฌ์ฉ๋ ๋ ๋์ ๋น์จ์ ํนํ ์ ํธ๋ ๊ด๊ณ๋ฅผ ํ์ตํ๋ ์์ ์์ ๋ณด์ ๋ชจ๋ธ๋ง์ ์ค์ํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ์ฌ๊ธฐ์ ๋ ํฐ ์์๋น ์ ๋ฐ์ดํธ์ ๋ ๋น๋ฒํ ๊ทธ๋ผ๋ฐ์ด์ ๊ณ์ฐ์ ์ด์ ์ ์ป์ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๊ด๊ณ์ ์ ํํ ํน์ฑ์ ํ๋ฆฝํ๋ ค๋ฉด ๋ ๊ด๋ฒ์ํ ์ ์ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ฉฐ, ์ด๋ ๋ ํฐ ๊ณ์ฐ ๋ฆฌ์์ค๋ฅผ ์ฌ์ฉํ ํฅํ ์์ ์ผ๋ก ๋จ๊ฒจ๋ก๋๋ค.
read the caption
Table 8: Performance comparison of reward models, where UFB is the test_prefs split of allenai/ultrafeedback_binarized_cleaned and RB is RewardBench.
Metric | SmolTulu DPO-1130 | SmolTulu DPO-1207 | SmolTulu SFT-1130 | SmolTulu SFT-1207 | SmolLM2 1.7B-Instruct | Llama-3.2 1B-Instruct | Qwen2.5 1.5B-Instruct |
---|---|---|---|---|---|---|---|
ARC (Average) | 51.5 | 57.1 | 51.0 | 55.6 | 51.7 | 41.6 | 46.2 |
BBH (3-shot) | 33.8 | 34.2 | 34.7 | 34.0 | 32.2 | 27.6 | 35.3 |
GSM8K (5-shot) | 51.6 | 44.7 | 49.0 | 42.8 | 48.2 | 26.8 | 42.8 |
HellaSwag | 61.1 | 64.2 | 61.5 | 67.5 | 66.1 | 56.1 | 60.9 |
IFEval (Average) | 67.7 | 56.6 | 61.0 | 47.8 | 56.7 | 53.5 | 47.4 |
MMLU-Pro (MCF) | 17.4 | 19.1 | 17.6 | 17.9 | 19.3 | 12.7 | 24.2 |
PIQA | 72.2 | 76.4 | 72.7 | 76.9 | 74.4 | 72.3 | 73.2 |
๐ผ ๋ค์ํ ๋ชจ๋ธ๋ค๊ณผ SmolTulu์ ์ฑ๋ฅ์ ๋น๊ตํ ํ์ ๋๋ค. SmolTulu DPO-1130, SmolTulu DPO-1207, SmolTulu SFT-1130, SmolTulu SFT-1207, SmolLM2 1.7B-Instruct, Llama-3.2 1B-Instruct, Qwen2.5 1.5B-Instruct ๋ชจ๋ธ๋ค์ ARC, BBH, GSM8K, HellaSwag, IFEval, MMLU-Pro, PIQA ๋ฒค์น๋งํฌ์์์ ์ฑ๋ฅ์ ๋น๊ตํ์ฌ SmolTulu์ ์ฑ๋ฅ ์ฐ์๋ฅผ ๋ณด์ฌ์ค๋๋ค.
read the caption
Table 9: A comparison against a wider selection of models
Language | Presence (%) |
---|---|
English | 83.13 |
Hindi | 3.79 |
Swahili | 2.02 |
Russian | 2.00 |
Spanish | 1.15 |
Arabic | 0.98 |
Chinese | 0.94 |
Turkish | 0.87 |
Urdu | 0.78 |
Portuguese | 0.77 |
Vietnamese | 0.64 |
Japanese | 0.63 |
French | 0.66 |
Bulgarian | 0.33 |
Italian | 0.32 |
Dutch | 0.31 |
Polish | 0.25 |
German | 0.23 |
Thai | 0.10 |
Greek | 0.09 |
๐ผ SFT ๋ฐ์ดํฐ์ ์ ์ฌ์ฉ๋ allenai/tulu-3-sft-mixture์ ์ธ์ด ๋ถํฌ๋ฅผ ๋ํ๋ธ ํ์ ๋๋ค. ๋ฐ์ดํฐ์ ์์ ์์ด๊ฐ 83.13%๋ก ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋์๊ณ , ๊ทธ ๋ค๋ฅผ ํ๋์ด(3.79%), ์ค์ํ๋ฆฌ์ด(2.02%), ๋ฌ์์์ด(2.00%) ๋ฑ์ด ์ฐจ์งํ๊ณ ์์ต๋๋ค.
read the caption
Table 10: Language distribution in SFT dataset.
Language | Presence (%) |
---|---|
English | 86.24 |
Hindi | 2.23 |
Russian | 2.03 |
French | 1.42 |
Spanish | 1.40 |
Chinese | 1.37 |
Urdu | 0.68 |
Swahili | 0.65 |
German | 0.58 |
Japanese | 0.57 |
Portuguese | 0.54 |
Arabic | 0.51 |
Turkish | 0.42 |
Vietnamese | 0.33 |
Italian | 0.32 |
Polish | 0.22 |
Dutch | 0.18 |
Bulgarian | 0.18 |
Thai | 0.10 |
Greek | 0.04 |
๐ผ ์ด ํ๋ DPO(Direct Preference Optimization) ๋ฐ RM(Reward Modeling) ๋ฐ์ดํฐ์ ์์ ๊ฐ ์ธ์ด๊ฐ ์ฐจ์งํ๋ ๋น์จ์ ๋ณด์ฌ์ค๋๋ค. ํ์์ ๋ณผ ์ ์๋ฏ์ด ์์ด๊ฐ ๊ฐ์ฅ ํฐ ๋น์ค์ ์ฐจ์งํ๊ณ ์์ผ๋ฉฐ, ๊ทธ ์ธ ๋ค์ํ ์ธ์ด๋ค์ด ํฌํจ๋์ด ์์ต๋๋ค.
read the caption
Table 11: Language distribution in DPO / RM dataset.
Language | Presence (%) |
---|---|
English | 94.80 |
French | 1.29 |
Spanish | 1.04 |
Chinese | 0.66 |
German | 0.55 |
Russian | 0.48 |
Japanese | 0.40 |
Hindi | 0.23 |
Polish | 0.10 |
Portuguese | 0.10 |
Dutch | 0.08 |
Urdu | 0.07 |
Bulgarian | 0.07 |
Italian | 0.05 |
Turkish | 0.03 |
Arabic | 0.03 |
Vietnamese | 0.02 |
Swahili | 0.00 |
๐ผ RLVR ๋ฐ์ดํฐ์ ์ ์ธ์ด ๋ถํฌ๋ฅผ ๋ณด์ฌ์ฃผ๋ ํ์ ๋๋ค. ์ฃผ๋ก ์์ด๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ํ๋์ค์ด, ์คํ์ธ์ด, ์ค๊ตญ์ด, ๋ ์ผ์ด, ๋ฌ์์์ด, ์ผ๋ณธ์ด ๋ฑ ๋ค์ํ ์ธ์ด๊ฐ ์๋ ํฌํจ๋์ด ์์ต๋๋ค.
read the caption
Table 12: Language distribution in RLVR dataset.
Benchmark | Contamination |
---|---|
cais/mmlu | 0.65% |
openai/openai_humaneval | 0.00% |
openai/gsm8k | 0.00% |
ucinlp/drop | 0.00% |
lighteval/MATH | 0.24% |
google/IFEval | 0.00% |
akariasai/PopQA | 0.45% |
tatsu-lab/alpaca_eval | 0.12% |
lukaemon/bbh | 0.00% |
truthfulqa/truthful_qa | 0.12% |
allenai/wildguardmix | 0.00% |
allenai/wildjailbreak | 0.00% |
TIGER-Lab/MMLU-Pro | 0.66% |
Idavidrein/gpqa | 0.00% |
lighteval/agi_eval_en | 0.00% |
bigcode/bigcodebench | 0.00% |
deepmind/math_dataset | 0.00% |
๐ผ RLVR ๋ฐ์ดํฐ์ (allenai/RLVR-GSM-MATH-IF-Mixed-Constraints)์ ๋ฒค์น๋งํฌ๋ณ ์ค์ผ๋๋ฅผ ๋ํ๋ธ ํ์ ๋๋ค. ๋๋ถ๋ถ์ ๋ฒค์น๋งํฌ์์ ์ค์ผ๋๋ 1% ๋ฏธ๋ง์ผ๋ก ๋ฎ๊ฒ ๋ํ๋ฌ์ผ๋ฉฐ, GSM8K, IFEval, BBH์ ๊ฐ์ ์ค์ ๋ฒค์น๋งํฌ๋ ์ค์ผ๋ 0%๋ฅผ ๊ธฐ๋กํ์ต๋๋ค.
read the caption
Table 13: Contamination of benchmarks in the RLVR dataset allenai/RLVR-GSM-MATH-IF-Mixed-Constraints