Test-time Computing: from System-1 Thinking to System-2 Thinking

Table of Contents

2501.02497

Yixin Ji et el.

🤗 2025-01-07

↗ arXiv ↗ Hugging Face ↗ Papers with Code

TL;DR
#

본 연구는 인공지능 분야에서 최근 주목받고 있는 대규모 언어 모델(LLM)의 성능 향상과 복잡한 추론 능력 향상에 초점을 맞추고 있습니다. 특히, LLM이 단순한 패턴 인식(시스템 1 사고)에 의존하는 한계를 극복하고, 인간처럼 복잡한 문제를 다단계 추론을 통해 해결하는 능력(시스템 2 사고)을 갖추도록 하는 데 필요한 테스트 시간 컴퓨팅(Test-time computing) 기법들을 종합적으로 조망하고 있습니다. 기존 연구들은 주로 시스템 1 모델의 한계를 극복하기 위한 다양한 테스트 시간 적응(TTA) 기법에 초점을 맞춰왔습니다. 하지만, 본 연구는 여기서 한 발 더 나아가, 시스템 2 사고를 구현하기 위한 테스트 시간 추론(Test-time reasoning) 기법들을 새롭게 제시함으로써, LLM의 추론 능력 향상에 크게 기여하고 있습니다.

본 연구에서는 시스템 1에서 시스템 2 사고로의 전환 과정에서 테스트 시간 컴퓨팅이 중요한 역할을 한다는 점을 강조합니다. 시스템 1 모델의 경우, 테스트 시간 적응(TTA)을 통해 분포 이동 문제를 해결하고 강건성과 일반화 성능을 향상시키는 데 초점을 맞춥니다. 이를 위해 매개변수 업데이트, 입력 수정, 표현 편집, 출력 보정 등 다양한 방법론이 제시됩니다. 시스템 2 모델의 경우, 반복적 샘플링, 자기 수정, 트리 탐색 등의 고급 추론 전략을 통해 복잡한 문제 해결 능력을 향상시키는 데 초점을 맞춥니다. 본 논문은 이러한 시스템 1과 시스템 2 모델에서의 테스트 시간 컴퓨팅 전략들을 체계적으로 정리하고, 향후 연구 방향을 제시함으로써 LLM 분야의 발전에 크게 기여할 것으로 기대됩니다.

Key Takeaways
#

Why does it matter?
#

본 논문은 **테스트 시간 컴퓨팅(Test-time computing)**의 개념을 시스템 1 사고에서 시스템 2 사고로 확장하는 데 중점을 두고 있으며, 이는 **대규모 언어 모델(LLM)**의 성능 향상과 복잡한 추론 문제 해결에 중요한 의미를 가집니다. 시스템 1 모델의 강건성과 일반화 문제를 해결하기 위한 다양한 테스트 시간 적응(TTA) 기법과 시스템 2 모델의 추론 능력 향상을 위한 테스트 시간 추론(Test-time reasoning) 기법을 종합적으로 제시함으로써, 향후 연구 방향을 제시하고 있습니다. 특히, 복잡한 추론 문제 해결을 위한 다양한 전략(반복적 샘플링, 자기 수정, 트리 탐색 등)을 체계적으로 정리하고, 다중 모달 추론 및 효율적인 확장성 확보 방안을 제시함으로써, LLM 연구 분야의 발전에 크게 기여할 것으로 예상됩니다.

Visual Insights
#

🔼 그림 1은 논문에서 제시하는 시스템 1과 시스템 2 모델에서의 테스트 시간 컴퓨팅 개념을 보여줍니다. 시스템 1 모델은 훈련 중에 학습된 패턴에 의존하여 제한적인 지각 작업만 수행하는 반면, 시스템 2 모델은 반복적 샘플링, 자기 수정, 트리 탐색을 통해 모델의 추론 능력을 향상시켜 복잡한 문제를 해결합니다. 이 그림은 시스템 1에서 시스템 2 사고로의 전환 과정에서 테스트 시간 컴퓨팅의 중요한 역할을 보여줍니다. 시스템 1 모델은 분포 이동을 해결하고 매개변수 업데이트, 입력 수정, 표현 편집, 출력 보정을 통해 강건성과 일반화를 개선하는 반면 시스템 2 모델은 반복 샘플링, 자기 수정, 트리 탐색을 통해 모델의 추론 능력을 강화합니다. 이 그림은 시스템 1 모델에서 약한 시스템 2 모델, 그리고 강한 시스템 2 모델로의 전환 과정을 시각적으로 보여줍니다.
read the caption
Figure 1: Illustration of test-time computing in the System-1 and System-2 model.

Category	sub-category	Representative Methods	Tasks	Verifier/Critic	Train-free
Repeat Sampling	Majority voting	CoT-SC (2023d)	Math, QA	self-consistency	✓
		PROVE (2024)	Math	compiler	✓
	Best-of-N	Cobbe et al. (2021)	Math	ORM	✗
		DiVeRSe (2023c)	Math	PRM	✗
Self-correction	Human feedback	NL-EDIT (2021)	Semantic parsing	Human	✗
		FBNET (2022)	Code	Human	✗
	External tools	DrRepair (2020)	Code	compiler	✗
		Self-debug (2024c)	Code	compiler	✓
		CRITIC (2024)	Math, QA, Detoxifying	text-to-text APIs	✓
	External models	REFINER (2024)	Math, Reason	critic model	✗
		Shepherd (2023b)	QA	critic model	✗
		Multiagent Debate (2023)	Math, Reason	multi-agent debate	✓
		MAD (2024b)	Translation, Math	multi-agent debate	✓
	Intrinsic feedback	Self-Refine (2023)	Math, Code, Controlled generation	self-critique	✓
		Reflexion (2023)	QA	self-critique	✓
		RCI (2023)	Code, QA	self-critique	✓
Tree Search	Uninformed search	ToT (2023)	Planing, Creative writing	self-critique	✓
		Xie et al. (2023)	Math	self-critique	✓
	Heuristic search	RAP (2023)	Planing, Math, Logical	self-critique	✓
		TS-LLM (2024b)	Planing, Math, Logical	ORM	✗
		rStar (2024)	Math, QA	multi-agent consistency	✓
		ReST-MCTS* (2024a)	Math, QA	PRM	✗

🔼 표 1은 논문의 4.2절 ‘검색 전략’ 에서 다루는 다양한 검색 전략들을 개괄적으로 보여줍니다. 반복적 샘플링, 자기 수정, 트리 검색 등 세 가지 주요 전략과 각 전략 하위에 속하는 여러 방법들을 소개하고 있습니다. 각 방법에 대한 대표적인 연구, 해당 방법이 사용되는 작업 유형, 사용된 검증자/평론가의 종류, 그리고 훈련 없이 사용 가능한지 여부를 명시하여 각 방법의 특징과 차이점을 비교 분석하는 데 도움을 줍니다.
read the caption
Table 1: Overview of search strategies.

TL;DR#

Key Takeaways#

Why does it matter?#

Visual Insights#

Full paper#

TL;DR
#

Key Takeaways
#

Why does it matter?
#

Visual Insights
#

Full paper
#