Virgo: A Preliminary Exploration on Reproducing o1-like MLLM

2501.01904

Yifan Du et el.

🤗 2025-01-06

↗ arXiv ↗ Hugging Face ↗ Papers with Code

TL;DR
#

최근 대규모 언어 모델(LLM) 기반의 느린 사고(slow-thinking) 추론 시스템이 주목받고 있습니다. 이는 복잡한 문제 해결을 위해 더 많은 시간을 투자하여 정확도를 높이는 방식입니다. 하지만 기존 연구는 주로 텍스트 기반 문제에 집중되어 있으며, 다양한 모달리티(텍스트, 이미지 등)를 다루는 멀티모달 LLM(MLLM)에 대한 연구는 부족합니다. MLLM은 다양한 의미를 처리해야 하므로 느린 사고 시스템 구현이 더 어렵습니다.

본 연구는 소량의 텍스트 기반 장문 사고 데이터를 사용하여 MLLM을 미세 조정하는 간단하지만 효과적인 방법을 제시합니다. Virgo라는 멀티모달 느린 사고 시스템을 개발하여 다양한 벤치마크에서 기존 최고 성능을 뛰어넘는 결과를 얻었습니다. 텍스트 데이터가 멀티모달 데이터보다 효과적이라는 점을 밝혀냈으며, 이는 느린 사고 능력이 주로 언어 모델 부분과 관련되어 있음을 시사합니다. 본 연구는 멀티모달 느린 사고 시스템 개발에 대한 새로운 접근 방식을 제시하며, 향후 연구의 중요한 방향을 제시합니다.

Key Takeaways
#

Why does it matter?
#

본 논문은 다양한 모달리티(텍스트, 이미지)를 다루는 대규모 언어 모델(MLLM)에서의 느린 사고(slow-thinking) 추론 능력 향상이라는 중요한 연구 분야에 기여합니다. 텍스트 기반의 장문 사고 데이터만을 사용하여 MLLM의 성능을 개선할 수 있다는 것을 보여줌으로써, 멀티모달 추론 시스템 개발의 새로운 방향을 제시하고, 향후 연구를 위한 새로운 가능성을 열어줍니다. 특히 상용 시스템과 비교 가능한 성능을 달성하여 실용적인 측면에서도 높은 가치를 지닙니다.

Visual Insights
#

🔼 그림 1은 최첨단 다중 모드 언어 모델(MLLM)들의 성능을 네 가지 어려운 다중 모드 벤치마크에서 비교한 레이더 차트입니다. 본 논문에서 제시된 모델인 Vigor-72B (Qwen2-VL-72B-Instruct를 미세 조정하여 만든 모델)는 다른 모델들에 비해 뛰어난 성능을 보여줍니다. 각 벤치마크(Olympiad Bench, Math Verse, Math Vision, MMMU)에서의 상대적 강점과 약점을 시각적으로 보여줍니다.
read the caption
Figure 1: The radar chart compares the performance of top-tier MLLMs across four challenging multimodal benchmarks. Our model, Vigor-72B (fine-tuned from Qwen2-VL-72B-Instruct), demonstrates leading performance.

Domain	Geometry	Geometry	Geometry	Geometry	Table, Chart, and Figure	Table, Chart, and Figure	Table, Chart, and Figure	Object
Dataset	Geos	GeoQA+	Geometry3K	UniGeo	TabMWP	FigureQA	ChartQA	CLEVR
# Samples	279	563	551	555	568	589	509	548

🔼 표 1은 논문에서 사용된 시각적 질의 데이터셋들의 통계 정보를 보여줍니다. 각 데이터셋의 도메인(기하학, 표, 차트, 그림, 객체), 데이터셋 이름, 그리고 각 데이터셋에 포함된 샘플 수를 나타냅니다. 이 표는 다양한 시각적 추론 문제를 다루기 위해 여러 데이터셋을 선택했음을 보여주는 역할을 합니다.
read the caption
Table 1: The statistics of the selected visual query sources

In-depth insights
#

MLLM Slow Thinking
#

본 논문은 **대규모 언어 모델(LLM)**을 기반으로 하는 **다중 모달 LLM(MLLM)**에서의 느린 사고(Slow Thinking) 현상에 대한 탐구를 제시합니다. 느린 사고는 추론 과정에서 시간을 늘림으로써 정확도와 성능을 향상시키는 전략으로, 최근 주목받고 있습니다. 하지만 다중 모달 환경에서는 다양한 모달리티(텍스트, 이미지 등) 간의 상호작용으로 인해 느린 사고를 구현하는 것이 더욱 복잡합니다. 본 연구는 텍스트 기반의 장문 사고(Long-form Thought) 데이터를 활용하여 MLLM을 미세 조정하는 직관적인 방법을 제시하고, 이를 통해 모달 간 전이 학습의 가능성을 탐색합니다. 실험 결과, 텍스트 데이터만으로도 MLLM의 느린 사고 능력을 향상시키는 데 효과적임을 보여주며, 텍스트 기반 데이터가 다중 모달 데이터보다 더 효과적일 수 있음을 시사합니다. 하지만 다중 모달 문제의 복잡성과, 느린 사고가 항상 성능 향상으로 이어지는 것은 아님을 보여주는 한계점도 발견됩니다. 향후 연구는 다양한 다중 모달 문제와 더욱 정교한 방법론을 통해 느린 사고 시스템의 성능 향상 및 한계 극복에 집중해야 할 것입니다.

Text-Based Transfer
#

본 논문에서 제시된 ‘텍스트 기반 전이 학습’ 개념은 다양한 모달리티의 데이터를 효과적으로 활용하기 위한 핵심 전략입니다. 텍스트 기반의 장기 추론 데이터를 사용하여 다양한 모달리티(예: 시각)를 포함하는 대규모 언어 모델(MLLM)을 미세 조정함으로써, 모달리티 간의 전이 학습 가능성을 보여줍니다. 이는 MLLM의 언어 모델 구성 요소가 다양한 도메인이나 모달리티에서도 일반화될 수 있는 능력을 갖고 있음을 시사하며, 텍스트 데이터를 기반으로 한 미세 조정이 멀티모달 시스템의 느린 사고 능력 향상에 효과적임을 보여줍니다. 단순한 방법으로 놀라운 성능 개선을 이루었지만, 더욱 정교한 멀티모달 데이터의 활용이나 다른 미세 조정 기법을 통해 더욱 향상된 성능을 기대할 수 있습니다. 따라서 텍스트 기반의 전이 학습은 향후 멀티모달 느린 사고 시스템 연구의 중요한 방향을 제시한다고 할 수 있습니다.

Multimodal Tuning
#

본 논문에서 다루는 “멀티모달 튜닝"은 텍스트 기반의 장문 추론 데이터를 활용하여 멀티모달 거대 언어 모델(MLLM)의 성능을 향상시키는 방법에 대한 탐구입니다. 핵심 아이디어는 언어 모델 구성 요소의 추론 능력이 모달 간에 전이될 수 있다는 가정에 기반합니다. 따라서, 텍스트 기반의 장문 사고 과정 데이터를 활용하여 MLLM을 미세 조정함으로써 멀티모달 추론 능력을 향상시킬 수 있다는 가설을 검증합니다. 이는 데이터 효율성 측면에서 매우 효과적이며, 비용 효율적인 멀티모달 시스템 구축에 기여할 수 있습니다. 하지만, 모든 멀티모달 문제에 효과적이지는 않다는 점이 밝혀졌고, 특히 간단한 문제의 경우 과도한 추론 과정이 오히려 성능 저하를 야기할 수 있습니다. 따라서, 문제의 복잡도에 따른 튜닝 전략의 차별화가 중요한 연구 과제로 제시됩니다.

Instruction Data
#

본 논문에서 다룬 Instruction Data는 텍스트 기반의 장문 추론 데이터와 시각적 추론 데이터 두 가지 유형으로 구성됩니다. 텍스트 기반 데이터는 기존 연구에서 얻은 성공적인 장문 추론 사례들을 활용하며, 수학, 과학, 코드, 퍼즐 등 다양한 분야의 문제 해결 과정을 담고 있습니다. 이는 다양한 모달리티를 처리하는 MLLM의 느린 사고 능력을 향상시키는 데 효과적임을 보여줍니다. 시각적 추론 데이터는 기존의 시각적 추론 시스템으로부터 얻어지며, 기하학, 표, 그림, 아이콘 등 다양한 시각적 정보를 포함합니다. 이 데이터는 MLLM의 시각적 추론 능력 향상에 기여하지만, 텍스트 기반 데이터만큼 효과적이지는 않은 것으로 나타났습니다. 텍스트 기반 데이터의 우수한 성능은 언어 모델이 다양한 모달리티에서의 추론 능력을 갖는 데 중요한 역할을 한다는 것을 시사합니다.

Future Directions
#

본 논문은 시각적 추론을 위한 다중 모드 느린 사고 시스템인 Virgo를 제시하며 텍스트 기반의 장기 추론 데이터를 사용하여 강력한 성능을 달성합니다. 미래 연구 방향으로는 다음과 같은 세 가지 측면에 집중할 수 있습니다. 첫째, 더욱 다양하고 어려운 다중 모달 문제를 포함하는 데이터셋을 확장하여 Virgo의 범용성과 강건성을 높여야 합니다. 둘째, 더욱 정교한 시각적 추론 데이터 생성 전략을 개발해야 합니다. 현재의 방법은 시각적 추론 과정의 복잡성을 충분히 반영하지 못하고 있습니다. 자기 개선 및 강화 학습과 같은 기술을 활용하여 보다 복잡하고 상세한 시각적 추론 데이터를 생성하고 모델의 성능을 향상시킬 수 있습니다. 셋째, 느린 사고 과정에 대한 깊이 있는 분석을 통해 모델의 추론 메커니즘을 이해하고, 한계를 극복할 수 있는 방법을 모색해야 합니다. 추론 과정의 투명성을 높이고 예측 불가능한 오류를 줄이기 위한 연구가 필요합니다. 이러한 노력을 통해 보다 강력하고 신뢰할 수 있는 다중 모드 느린 사고 시스템을 개발할 수 있을 것입니다.

More visual insights
#

More on tables

Model	Num. Data		MathVerse	MathVision		MMMU	Average
GPT-4o	-	-	-	30.4	25.9	69.1	-
Gemini-Pro	-	-	35.3	19.2	4.2	65.8	31.13
Claude-3.5-Sonnet	-	-	-	38.0	-	70.4	-
OpenAI o1	-	-	-	-	-	77.3	-
QVQ-72B-preview*	-	-	41.5	35.9	27.9	66.0	42.83
Qwen2-VL-72B-Instruct	-	-	41.3	26.1	11.2	64.5	35.78
Virgo-72B_{D_T}	5K	-	48.4	38.8	29.9	64.6	45.43
Virgo-72B_{D_QVQ}	-	6.6K	37.6	37.7	25.0	62.6	40.73
Virgo-72B_{D_SD}	-	7K	47.4	35.0	27.2	65.8	43.85
Virgo-72B_{D_T∪D_SD}	5K	7K	48.1	38.6	28.5	65.0	45.05
Qwen2-VL-7B-Instruct	-	-	24.6	16.3	5.3	54.1	25.08
Virgo-7B_{D_T}	5K	-	32.2	24.3	9.8	47.1	28.35
Virgo-7B_{D_QVQ}	-	6.6K	29.2	20.5	9.0	48.3	26.75
Virgo-7B_{D_SD}	-	7K	37.5	23.1	10.3	50.7	30.40
Virgo-7B_{D_T∪D_SD}	5K	7K	36.7	24.0	10.2	46.7	29.40

🔼 표 2는 최첨단 다중 모드 언어 모델(MLLM)의 성능을 네 가지 대표적인 벤치마크(MathVerse, MathVision, OlympiadBench, MMMU)에서 비교한 표입니다. D_T는 텍스트 기반 장문 추론 데이터를, D_SD는 본 연구에서 D_T로 미세 조정된 모델이 생성한 시각적 장문 추론 데이터를, D_QVQ는 QVQ 모델에서 얻은 시각적 장문 추론 데이터를 각각 나타냅니다. 굵은 글씨는 각 훈련 변형 중 가장 좋은 성능을, 밑줄 친 글씨는 두 번째로 좋은 성능을 나타냅니다. * 표시는 QVQ 모델의 평가 코드가 공개되지 않았으므로 연구팀이 재현한 평가 결과임을 나타냅니다.
read the caption
Table 2: Performance comparison of top-tier MLLMs on four representative benchmarks. Here, DTsubscript𝐷TD_{\text{T}}italic_D start_POSTSUBSCRIPT T end_POSTSUBSCRIPT denotes the textual long thought data, and DSDsubscript𝐷SDD_{\text{SD}}italic_D start_POSTSUBSCRIPT SD end_POSTSUBSCRIPT and DQVQsubscript𝐷QVQD_{\text{QVQ}}italic_D start_POSTSUBSCRIPT QVQ end_POSTSUBSCRIPT denote the visual long thought data distilled by our model (the version fine-tuned by DTsubscript𝐷TD_{\text{T}}italic_D start_POSTSUBSCRIPT T end_POSTSUBSCRIPT) and QVQ, respectively. The bold fonts denote the best performance among our training variants, while the underline fonts denote the second-best performance. * Since QVQ has not released the evaluation code, we report the evaluation results reproduced by our team.

Model	Easy	Medium	Hard	Overall
QVQ-72B-preview	76.95	65.80	48.62	66.0
Qwen2-VL-72B-Instruct	74.58	62.26	50.28	64.5
Virgo-72B_{D_T}	72.88	62.97	54.70	64.6
Virgo-72B_{D_T∪D_SD}	74.58	61.79	56.91	65.0

🔼 표 3은 MMMU 벤치마크의 문제들을 난이도(쉬움, 중간, 어려움)별로 나누어, 각 난이도에서 QVQ-72B-preview, Qwen2-VL-72B-Instruct, Virgo-72B(텍스트 기반의 장기 사고 데이터로 미세 조정), Virgo-72B(텍스트 및 시각적 장기 사고 데이터로 미세 조정) 모델의 성능을 비교한 표입니다. 각 모델의 쉬운, 중간, 어려운 문제에 대한 정확도와 전체 정확도를 보여줍니다. 이를 통해 각 모델의 난이도별 성능 차이와, 텍스트 기반 및 시각적 데이터를 활용한 미세 조정의 효과를 분석할 수 있습니다.
read the caption
Table 3: Performance comparison on samples from different difficulty bins in MMMU.

Base Model	Length	MathVerse	MathVision	OlympiadBench	MMMU
Qwen2-VL-7B-Instruct	-	24.0	15.6	5.3	54.1
	(0, 2000]	28.1	22.1	8.8	41.9
	(2000, 4000]	33.6	24.4	9.1	48.0
	(4000, 8000]	24.8	24.9	8.3	39.8

🔼 표 4는 다양한 사고 길이를 가진 지시 데이터셋으로 미세 조정했을 때의 성능 비교를 보여줍니다. 각 모델에 대해 짧은, 중간, 긴 사고 길이를 가진 지시 데이터셋을 사용하여 MathVerse, MathVision, OlympiadBench 및 MMMU 벤치마크에 대한 성능을 비교 분석합니다. 이를 통해 사고 길이가 모델 성능에 미치는 영향과 최적의 사고 길이를 파악하는 데 도움을 줍니다.
read the caption
Table 4: Performance comparison by tuning with instruction datasets of varying thought length.

Base Model	Num.	MathVerse	MathVision	OlympiadBench	MMMU
Qwen2-VL-72B-Instruct	-	41.3	26.1	11.2	64.5
	1K	42.5	39.5	26.2	61.8
	3K	44.4	40.5	26.4	58.2
	5K	48.4	38.8	29.9	64.7
Qwen2-VL-7B-Instruct	-	24.0	15.6	5.3	54.1
	1K	22.5	23.7	8.6	42.8
	3K	30.2	24.9	9.6	44.6
	5K	31.9	24.6	9.2	47.1

🔼 표 5는 기본 모델에 대한 지시 데이터의 크기 변화 효과를 보여줍니다. 다양한 크기의 데이터셋(1K, 3K, 5K)으로 미세 조정했을 때, MathVerse, MathVision, OlympiadBench, MMMU 네 가지 벤치마크에서의 성능 변화를 보여줍니다. 이를 통해 데이터 크기 증가가 성능 향상에 미치는 영향과 그 정도를 확인할 수 있습니다.
read the caption
Table 5: The scaling effect of instruction data on the base model.

Base Model	Difficulty	MathVerse	MathVision	OlympiadBench	MMMU
Qwen2-VL-72B-Instruct	-	41.3	26.1	11.2	64.5
	Medium	48.1	38.6	28.5	65.0
	Hard	47.4	39.1	29.7	63.0
	Random	47.9	38.5	29.3	64.8

🔼 표 6은 다양한 난이도의 자가 증류된 시각적 지시사항을 사용했을 때의 성능 비교를 보여줍니다. 자가 지도학습 방식으로 얻은 시각적 지시 사항의 난이도(중간, 어려움, 무작위)에 따른 성능 차이를 보여주는 표입니다. 각 난이도에 따른 MathVerse, MathVision, OlympiadBench, MMMU 벤치마크의 결과가 제시되어 있습니다. 이는 시각적 지시 사항의 질이 모델 성능에 미치는 영향을 분석하기 위한 실험 결과를 담고 있습니다.
read the caption
Table 6: Performance comparison of using self-distilled visual instruction of varying difficulty levels.

🔼 표 7은 Virgo-72B 모델이 Qwen2-VL-72B-Instruct 모델보다 우수한 성능을 보이는 하나의 예시를 보여줍니다. Virgo-72B는 문제에 대한 자세한 설명과 단계적인 추론 과정을 제시하여 정답에 도달하는 반면, Qwen2-VL-72B-Instruct는 직접적인 계산만 시도하여 오류를 범하는 모습을 보여줍니다. 이를 통해 Virgo-72B 모델의 향상된 추론 능력과 자기 반성 능력을 확인할 수 있습니다.
read the caption
Table 7: An example that Virgo-72B outperforms Qwen2-VL-72B-Instruct (part 1).

Image	Caption
https://arxiv.org/html/2501.01904/S4.T8.1.1.1.1.p1.pic1.png	Let’s calculate the area for each semicircle: 1. Smallest semicircle: radius r=1, so area = \frac{1}{2}\pi(1)^{2}=\frac{\pi}{2}. 2. Middle semicircle:…… So, the total area under all three semicircles is 7\pi. Wait a minute, but the question says "evaluate the integral of the functions graphed using the formula for circles." Does that mean I need to integrate each function separately and then sum them up? Let me double-check. If I integrate each function from their starting point to their endpoint, I should get the area under each curve.…… Given that, I think my initial approach is correct: the integral of each function over its domain gives the area under the semicircle, which is half the area of the full circle. So, the final answer should be 7\pi. To evaluate the integral of the functions graphed using the formula for circles, we first identify the equations of the semicircles from the given expressions: 1. The smallest semicircle is represented by \sqrt{2x-x^{2}}, which simplifies to \sqrt{1-(x-1)^{2}}. This is the upper half of a circle centered at (1,0) with radius 1.…… Thus, the final answer is: \boxed{7\pi}

Image

Caption

https://arxiv.org/html/2501.01904/S4.T8.1.1.1.1.p1.pic1.png

Let’s calculate the area for each semicircle: 1. Smallest semicircle: radius r=1, so area = \frac{1}{2}\pi(1)^{2}=\frac{\pi}{2}. 2. Middle semicircle:…… So, the total area under all three semicircles is 7\pi. Wait a minute, but the question says "evaluate the integral of the functions graphed using the formula for circles." Does that mean I need to integrate each function separately and then sum them up? Let me double-check. If I integrate each function from their starting point to their endpoint, I should get the area under each curve.…… Given that, I think my initial approach is correct: the integral of each function over its domain gives the area under the semicircle, which is half the area of the full circle. So, the final answer should be 7\pi.
To evaluate the integral of the functions graphed using the formula for circles, we first identify the equations of the semicircles from the given expressions: 1. The smallest semicircle is represented by \sqrt{2x-x^{2}}, which simplifies to \sqrt{1-(x-1)^{2}}. This is the upper half of a circle centered at (1,0) with radius 1.…… Thus, the final answer is: \boxed{7\pi}

🔼 표 8은 Virgo-72B 모델이 Qwen2-VL-72B-Instruct 모델보다 우수한 성능을 보이는 예시를 보여줍니다. 특히, 복잡한 다단계 추론 과정이 필요한 문제에서 Virgo-72B는 더욱 정확하고 자세한 답변을 제공합니다. 표에는 문제, 정답, 각 모델의 추론 과정 및 답변이 제시되어 있어 두 모델의 성능 차이를 비교 분석하는 데 도움이 됩니다. Virgo-72B는 단순히 답을 제시하는 것을 넘어 추론 과정을 상세히 설명하고, 자체 답변을 재검토하는 과정까지 보여주어 더욱 발전된 추론 능력을 시사합니다.
read the caption
Table 8: An example that Virgo-72B outperforms Qwen2-VL-72B-Instruct (part 2)

Model	Image	Ground Truth
Problem: Graph 1 shows the number of unemployed (in thousands) over a five-month period, organized by level of education completed. The difference between the number of unemployed high school graduates and the number of unemployed workers without a high school diploma was smallest in [ ]	https://arxiv.org/html/2501.01904/x5.png	D. September

🔼 표 8은 Virgo-72B 모델이 지각 결과를 반영하지 못하는 예시를 보여줍니다. 이 표는 실제 그래프를 보여주는 이미지와 함께 실업자 수치를 묻는 질문, 그리고 정답을 제시합니다. Virgo-72B 모델은 그래프의 데이터를 정확하게 인식하지 못하고, 잘못된 해석으로 인해 답을 잘못 추론하는 과정을 보여줍니다. 이는 모델의 지각 능력과 추론 과정을 분석하는 데 유용한 정보를 제공합니다.
read the caption
Table 9: An example that Virgo-72B fails to reflect on perception results (part 1).

Month	High School Graduates	No High School Diploma	Difference
June			4,000
July			3,500
August	8,500	11,500	3,000
September	8,000	11,000	3,000
October	8,000	12,000	4,000

🔼 표 8은 Virgo-72B 모델이 지각 결과를 반영하지 못하는 예시를 보여줍니다. 이 표는 특정 문제에 대한 Virgo-72B의 추론 과정을 보여주는 여러 단계의 텍스트를 보여줍니다. Virgo-72B는 그래프에서 실업자 수를 잘못 인식하여 잘못된 결론에 도달하지만, 그 과정에서 이러한 잘못된 인식을 스스로 반영하지 못합니다. 이는 느린 사고 능력을 가진 다중 모달 LLM이 지각 결과를 반영하는 데 어려움을 겪을 수 있음을 보여주는 사례입니다.
read the caption
Table 10: An example that Virgo-72B fails to reflect on perception results (part 2).

TL;DR#

Key Takeaways#

Why does it matter?#

Visual Insights#

In-depth insights#

MLLM Slow Thinking#

Text-Based Transfer#

Multimodal Tuning#

Instruction Data#

Future Directions#

More visual insights#

Full paper#