Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

2412.21187

Xingyu Chen et el.

🤗 2024-12-31

↗ arXiv ↗ Hugging Face ↗ Papers with Code

TL;DR
#

최근 뛰어난 추론 능력을 보이는 ‘o1-like’ 대규모 언어 모델은 복잡한 문제에 대해서도 인간처럼 장시간 사고하는 능력을 갖추고 있지만, 간단한 문제에도 과도하게 많은 연산 자원을 사용하는 ‘과도한 사고(overthinking)’ 문제점을 가지고 있습니다. 이로 인해 계산 비용이 증가하고 모델의 효율성이 저하될 수 있습니다.

본 연구는 이러한 문제를 해결하기 위해 새로운 효율성 평가 지표를 개발하고, 자기 학습 방식을 이용하여 모델의 추론 과정을 간소화하는 방법을 제시합니다. 실험 결과, 제시된 방법론은 다양한 난이도의 문제에서 모델의 정확도를 유지하면서 연산량을 최대 48.6%까지 감소시키는 효과를 보였습니다. 이는 대규모 언어 모델의 효율적인 개발 및 활용에 큰 기여를 할 것으로 기대됩니다.

Key Takeaways
#

Why does it matter?
#

본 논문은 과도한 연산 자원 사용이라는 문제점을 해결함으로써, 대규모 언어 모델의 효율성을 높이는 데 크게 기여할 수 있습니다. 특히, 단순 문제에 대한 과도한 추론 과정을 줄이는 전략을 제시하여, 연구자들이 모델의 성능과 효율성을 동시에 개선할 수 있는 새로운 방향을 제시합니다. 이는 현재 급증하는 대규모 언어 모델의 비용 문제 해결에 중요한 단서를 제공하며, 향후 연구에 대한 새로운 가능성을 열어줄 것으로 기대됩니다.

Visual Insights
#

🔼 그림 1은 간단한 문제 ‘2+3의 답은?‘에 대해, o1 유사 모델(오른쪽 패널)이 다른 모델들(왼쪽과 가운데 패널)보다 훨씬 많은 토큰을 사용하는 과잉 사고 문제를 보여줍니다. 왼쪽과 가운데 패널에는 기존의 대규모 언어 모델들이 표시되어 있으며, 이들은 문제 해결에 필요한 최소한의 토큰만을 사용합니다. 반면, 오른쪽 패널의 o1 유사 모델은 과도하게 많은 토큰을 생성하며, 이는 계산 과정을 반복하거나 불필요한 단계를 거치는 등 비효율적인 추론 과정을 나타냅니다. 이러한 과잉 사고는 계산 자원의 낭비로 이어질 수 있으며, 모델의 효율성을 저하시키는 요인으로 작용합니다. 그림은 이러한 과잉 사고 문제의 시각적 증거를 제시하고, 본 논문에서 다루는 핵심 문제를 명확히 보여줍니다.
read the caption
Figure 1: Illustration of over-thinking issue: o1-like models (right panel) spent much more tokens for a simple problem “what is the answer of 2+3?” than other models (left and middle panels).

Models	Accuracy	Response		Efficiency
ASDIV
Llama-3.3-70B-Instruct	95.6	1.0	167.4	95.6%	100.0%
Qwen2.5-Math-72B-Instruct	96.3	1.0	209.6	96.3%	100.0%
QwQ-32B-Preview	96.2	3.6	712.9	41.8%	66.4%
GSM8K
Llama-3.3-70B-Instruct	92.6	1.0	235.4	92.6%	100.0%
Qwen2.5-Math-72B-Instruct	95.8	1.0	312.1	95.8%	100.0%
QwQ-32B-Preview	94.3	3.2	745.6	50.4%	67.7%
MATH500
Llama-3.3-70B-Instruct	75.4	1.0	575.0	75.4%	100.0%
Qwen2.5-Math-72B-Instruct	86.8	1.0	561.5	86.8%	100.0%
QwQ-32B-Preview	92.8	3.3	2409.2	52.2%	72.4%
DeepSeek-R1-Preview	93.4	2.8	2168.6	58.9%	76.0%

🔼 표 1은 쉬운 데이터셋에 대한 주요 결과를 보여줍니다. ‘추가 응답’은 모델이 정답을 생성한 후에 나오는 후속 응답을 의미합니다. 이 표는 모델의 효율성을 평가하기 위해, 정답을 생성하기까지 사용된 토큰 수, 정답을 생성하는 데 걸린 시간, 정답에 도달하기 전까지 생성된 추가적인 응답(추가적 사고 과정)의 개수 등을 보여줍니다. 이를 통해 단순한 문제에 대해서도 과도한 계산을 수행하는 오버싱킹 현상을 보다 명확하게 이해하고 분석할 수 있습니다.
read the caption
Table 1: Main result for easy dataset. “Additional Response” denotes the suffix response after the model generates the correct answer.

In-depth insights
#

Overthinking in LLMs
#

LLM에서의 과도한 사고(Overthinking)는 모델이 간단한 문제에 대해서도 과도하게 많은 연산을 수행하는 현상을 말합니다. 이는 정확도 향상에 거의 기여하지 않으면서 계산 자원을 낭비하는 비효율적인 측면을 보여줍니다. 이러한 과도한 사고는 모델이 다양한 해결 전략을 탐색하고 여러 단계의 검증을 거치는 과정에서 발생하는데, 이는 인간의 사고 과정을 모방하려는 시도의 부작용으로 볼 수 있습니다. 단순 문제에 과도한 연산을 적용하는 것은 자원 낭비일 뿐만 아니라, 모델의 효율성을 저하시키는 주요 원인이 됩니다. 따라서, LLM의 효율성을 높이기 위해서는 이러한 과도한 사고를 줄이는 전략이 필요하며, 정확도를 유지하면서 연산량을 줄이는 방안을 모색해야 합니다. 이를 위해서는 과도한 사고를 측정하고 완화하는 새로운 지표 개발과 효율적인 학습 방법 연구가 중요합니다.

Efficiency Metrics
#

본 논문에서 제시된 효율성 지표는 단순히 정확도만을 평가하는 기존 방식에서 벗어나 계산 자원의 효율적인 사용 여부를 다각적으로 평가하고자 하는 시도입니다. 결과(Outcome) 및 과정(Process) 두 가지 관점에서 지표를 제시하여, 모델이 문제 해결에 필요한 계산량을 얼마나 효율적으로 사용하는지 측정합니다. 예를 들어, 단순한 문제에 과도한 계산을 수행하는 ‘과잉 사고(Overthinking)’ 현상을 탐지하고, 이를 정량적으로 평가할 수 있는 지표를 제공합니다. 이는 단순히 정답률이 높은 것만이 아니라, 문제의 복잡도에 맞는 적절한 계산 자원을 활용하는 모델을 평가하는 데 중요한 의미를 가집니다. 새로운 효율성 지표의 도입은 단순히 모델 성능 비교를 넘어, 모델의 ‘지능’을 평가하는 새로운 차원을 열어줄 가능성을 제시합니다.

Mitigating Overthinking
#

본 논문의 “과도한 추론 완화” 부분은 대규모 언어 모델(LLM)의 과도한 계산 자원 사용 문제를 해결하기 위한 다양한 전략을 제시합니다. 이는 단순한 문제에 대해서도 불필요하게 많은 연산을 수행하는 LLM의 경향을 다룹니다. 자기 학습 패러다임을 활용하여 모델이 불필요한 추론 단계를 줄이도록 유도하고, 이를 통해 정확도를 유지하면서 계산 비용을 절감하는 방법을 제시합니다. 새로운 효율성 지표를 통해 모델의 성능을 다각적으로 평가하고, 이를 기반으로 여러 전략들을 비교 분석합니다. 최적 길이 조정 및 응답 단순화 와 같은 구체적인 방법들을 제시하며, 실험 결과를 통해 이러한 방법들이 과도한 추론 문제를 효과적으로 완화하고 성능을 향상시킨다는 것을 보여줍니다. 이는 효율적인 LLM 설계 및 활용에 중요한 시사점을 제공합니다.

Self-Training Paradigm
#

자기훈련 패러다임은 데이터 효율성 및 모델 성능 향상이라는 두 가지 주요 목표를 달성하기 위해 제한된 자원 내에서 최적의 성능을 얻고자 하는 머신러닝 접근법입니다. 부족한 레이블 데이터 문제를 해결하기 위해, 자기훈련은 모델이 스스로 예측한 결과를 이용하여 추가적인 학습 데이터를 생성합니다. 이는 데이터 증강의 효과를 가지며, 일반화 성능 향상에 기여할 수 있습니다. 그러나 잘못된 예측에 기반한 데이터는 오히려 모델의 성능을 저하시킬 수 있다는 점에 유의해야 합니다. 따라서 신뢰할 수 있는 예측만을 사용하거나, 예측의 신뢰도를 고려하는 메커니즘을 도입하는 것이 중요합니다. 자기훈련의 효과는 모델의 복잡도, 데이터의 질, 그리고 자기훈련 과정의 설계에 따라 크게 달라질 수 있습니다. 성능 평가를 위한 엄격한 기준을 설정하고, 과적합을 방지하기 위한 전략을 수립하는 것이 자기훈련 패러다임을 성공적으로 적용하는 데 중요한 요소입니다. 효율적인 자기훈련은 모델의 학습 과정을 개선하고 실제 응용 분야에서의 성능을 향상시키는 데 크게 기여할 수 있습니다.

Future Research
#

본 논문은 과도한 추론(overthinking) 문제를 다루는 흥미로운 연구이지만, 여전히 해결해야 할 과제가 많이 남아있다. 미래 연구는 더 다양한 o1-like 모델에 대한 연구 확장을 통해 일반화 가능성을 높이고, 더욱 효율적인 다양성 측정 방법 개발 및 더 큰 규모의 데이터셋 활용을 통해 견고성을 강화하는 데 집중해야 한다. 특히, 적응적 컴퓨팅 전략 개발은 문제의 복잡성에 따라 컴퓨팅 자원을 동적으로 조절하여 효율성을 극대화하는 데 중요하며, 모델의 추론 과정을 보다 투명하고 이해하기 쉽게 만드는 연구도 필요하다. 다양한 모델 아키텍처와 추론 전략 간의 상호작용 연구도 중요한 방향이며, 최종적으로는 실제 응용 분야에서의 효율성과 성능을 평가하는 실험이 중요한 다음 단계가 될 것이다. 이를 통해 과도한 추론 문제를 효과적으로 해결하고, o1-like 모델의 효율성과 실용성을 높일 수 있는 발전적인 연구가 기대된다.

More visual insights
#

More on tables

Methods	Accuracy	Whole Response Round	Whole Response Token	Additional Response Round	Additional Response Token
*ASDIV*
Llama-3.3-70B-Instruct	95.6		167.4
Llama-3.1-405B-Instruct	95.2		127.0
Qwen2.5-Math-7B-Instruct	96.2		206.8
Qwen2.5-Math-72B-Instruct	96.3		209.6
QwQ-32B-Preview	96.2	3.5	697.9	2.5	408.3
+SFT_Response	95.7		647.8
+DPO_Response	96.6	2.9	523.7	1.9	253.4
+RPO_Response	96.5	3.0	524.0	2.0	255.5
+SimPO_Response	95.7		506.0
+SimPO_Solution	96.2	1.2	270.4	0.2	19.3
*GSM8K*
Llama-3.3-70B-Instruct	92.6		235.4
Llama-3.1-405B-Instruct	95.6		186.7
Qwen2.5-Math-7B-Instruct	95.5		305.9
Qwen2.5-Math-72B-Instruct	95.8		312.1
QwQ-32B-Preview	94.3	3.2	738.1	2.1	376.4
+SFT_Response	94.5	3.0	689.0	1.9	324.0
+DPO_Response	94.6	2.6	573.9	1.5	223.0
+RPO_Response	94.5	2.6	564.5	1.5	216.6
+SimPO_Response	94.5		537.6
+SimPO_Solution	94.3	1.1	327.9	0.0	4.6
*MATH500*
Llama-3.3-70B-Instruct	75.4		575.0
Llama-3.1-405B-Instruct	72.0		470.3
Qwen2.5-Math-7B-Instruct	84.2		609.5
Qwen2.5-Math-72B-Instruct	86.8		561.5
QwQ-32B-Preview	92.8	3.2	2102.1	2.2	740.9
+SFT_Response	92.4	3.0	2097.0	1.9	683.0
+DPO_Response	92.8	2.8	1676.0	1.8	475.5
+RPO_Response	92.6	2.7	1756.5	1.6	461.0
+SimPO_Response	92.4		1847.7
+SimPO_Solution	91.6	1.4	1032.1	0.2	77.0

🔼 표 2는 쉬운 데이터셋에 대한 주요 결과를 보여줍니다. 표는 다양한 모델이 쉬운 수학 문제를 푸는 데 사용한 토큰 수와 정답률을 비교합니다. ‘추가 응답’ 열은 모델이 정답을 생성한 후 추가적으로 생성한 응답을 나타냅니다. 이는 모델의 과도한 추론(overthinking) 경향을 파악하는 데 도움이 됩니다.
read the caption
Table 2: Main result for easy dataset. “Additional Response” denotes the suffix response after the model generates the correct answer.

Methods	Accuracy	Whole Response Round	Whole Response Token	Additional Response Round	Additional Response Token
AIME90
Llama-3.3-70B-Instruct	26.7		956.7
Llama-3.1-405B-Instruct	22.2		1099.9
Qwen2.5-Math-7B-Instruct	10.0		1109.8
Qwen2.5-Math-72B-Instruct	16.7		955.4
QwQ-32B-Preview	37.8	2.0	5879.8	0.7	392.4
+SFT_Response	42.2	1.8	5972.3	0.5	350.1
+DPO_Response	38.9	1.7	5945.8	0.5	309.2
+RPO_Response	38.9	1.8	5904.0	0.6	316.1
+SimPO_Response	33.3		6814.4
+SimPO_Solution	28.9	1.6	3750.3	0.1	12.7
GPQA
Llama-3.3-70B-Instruct	42.4		831.5
Llama-3.1-405B-Instruct	53.5		604.3
Qwen2.5-Math-7B-Instruct	31.8		762.0
Qwen2.5-Math-72B-Instruct	46.5		682.7
QwQ-32B-Preview	58.6	2.5	3098.1	0.8	484.8
+SFT_Response	53.5	2.2	2917.9	0.9	473.8
+DPO_Response	58.6	2.3	2775.3	0.7	347.7
+RPO_Response	56.1	2.3	2675.5	0.8	415.8
+SimPO_Response	57.6		2713.3
+SimPO_Solution	56.1	1.9	1726.0	0.3	97.3

🔼 표 3은 어려운 데이터셋에 대한 주요 결과를 보여줍니다. ‘추가 응답’은 모델이 정답을 생성한 후 추가적으로 생성된 응답을 의미합니다. 이 표는 모델이 문제를 해결하는 데 사용한 솔루션 수, 토큰 수, 결과 효율성(정답 도출 효율성 및 과정 효율성) 등을 보여줍니다. 어려운 문제에 대해 모델의 효율성을 평가하는 데 도움이 됩니다.
read the caption
Table 3: Main result for hard dataset. “Additional Response” denotes the suffix response after the model generates the correct answer.

Methods	Accuracy	Whole Response Round
GSM8K
QwQ-32B-Preview	94.3	772.8
+SFT	94.5	723.8
+DPO	94.6	595.8
+RPO	94.5	583.9
ASDIV
QwQ-32B-Preview	95.7	741.8
+SFT	95.4	728.5
+DPO	96.1	591.1
+RPO	96.1	595.7
MATH500
QwQ-32B-Preview	92.8	2407.9
+SFT	92.4	2347.2
+DPO	92.8	1937.4
+RPO	92.6	2039.2
AIME90
QwQ-32B-Preview	37.8	8241.2
+SFT	42.2	7960.1
+DPO	38.9	6880.5
+RPO	38.9	7365.6
GPQA
QwQ-32B-Preview	58.6	3228.4
+SFT	53.5	3665.8
+DPO	58.6	3075.2
+RPO	56.1	2855.0

🔼 표 4는 긍정적 및 부정적 예시 선택 전략에 대한 비교 결과를 보여줍니다. SFT(Supervised Fine-Tuning)의 경우 미세 조정을 위해 긍정적 예시를 사용하며, 긍정적 예시는 QwQ 모델의 가장 짧은 샘플링 응답을, 부정적 예시는 QwQ 모델의 가장 긴 샘플링 응답을 사용합니다. 이 표는 다양한 방법(SFT, DPO, RPO, SimPO)으로 생성된 응답의 정확도, 솔루션 수, 토큰 수, 결과 효율성, 프로세스 효율성을 비교 분석하여 각 전략의 효율성을 평가합니다.
read the caption
Table 4: Comparison about positive and negative example selection strategy. For SFT, we use positive example for finetuning. Positive examples: shortest response: shortest sampling response of QwQ model. Negative examples: longest response: longest sampling response of QwQ model.

Methods	MATH500	GPQA	AIME
Industrial Model
GPT4
OpenAI-O1
Open Source Model
Llama3.1-8B-Instruct	49.0	17.7	6.7
Llama3.1-70B-Instruct	67.8	39.9	23.3
Llama3.1-405B-Instruct
Qwen2.5-Math-7B-Instruct	84.2	31.8	20
Qwen2.5-Math-72B-Instruct	86.8	46.5	20
QwQ-32B-Preview	92.8	58.6	46.7
Ours-QwQ-32B-Preview

🔼 표 5는 제안된 방법이 모든 기준 방법보다 우수하며 새로운 최첨단 기술을 달성했음을 보여줍니다. 표는 다양한 벤치마크 데이터셋(ASDIV, GSM8K, MATH500, GPQA, AIME)에 대한 정확도, 솔루션 수, 토큰 수, 결과 효율성 및 프로세스 효율성을 비교 분석합니다. * 표시는 p<0.005의 유의 수준에서 통계적으로 유의미한 향상을 나타냅니다. 즉, 제안된 방법이 기존 방법보다 상당히 성능이 뛰어나다는 것을 의미합니다. 이 표를 통해 본 논문에서 제시된 방법의 효과와 일반화 성능을 확인할 수 있습니다.
read the caption
Table 5: Our proposed methods outperform all baseline methods and achieve a new state-of-the-art. *denotes the results are significantly better with p<0.005𝑝0.005p<0.005italic_p < 0.005.

TL;DR#

Key Takeaways#

Why does it matter?#

Visual Insights#

In-depth insights#

Overthinking in LLMs#

Efficiency Metrics#

Mitigating Overthinking#

Self-Training Paradigm#

Future Research#

More visual insights#

Full paper#