Deliberation in Latent Space via Differentiable Cache Augmentation

2412.17747

Luyang Liu et el.

🤗 2024-12-24

↗ arXiv ↗ Hugging Face ↗ Papers with Code

TL;DR
#

기존의 대규모 언어 모델(LLM)은 복잡한 문제 해결을 위해 중간 추론 단계를 생성하고 참조하지만, 이는 지연 시간이 길고 최적화가 어려운 단점이 있습니다. 본 논문은 동결된 LLM에 오프라인 코프로세서를 추가하여 이 문제를 해결합니다. 코프로세서는 모델의 키-값 캐시에서 작동하며, 후속 디코딩의 충실도를 높이도록 설계된 잠재 임베딩을 캐시에 추가합니다.

본 논문에서 제안하는 방법은 종단 간 미분 가능한 방식으로 코프로세서를 훈련하여, 추가적인 연산을 키-값 캐시에 효율적으로 저장하는 방법을 학습합니다. 디코더는 변경되지 않으므로, 코프로세서는 오프라인 및 비동기적으로 작동할 수 있으며, 코프로세서가 없거나 특정 캐시에 추가 연산이 필요하지 않은 경우에도 LLM은 정상적으로 작동합니다. 실험 결과, 캐시가 증강되면 디코더는 여러 토큰에 대해 낮은 퍼플렉서티를 달성하고, 특별한 작업별 훈련 없이도 다양한 추론 집약적 작업에서 성능을 향상시키는 것을 보여줍니다.

Key Takeaways
#

Why does it matter?
#

본 논문은 잠재 공간에서의 추론을 향상시키는 새로운 방법을 제시하여, 연구자들이 더욱 효율적이고 효과적인 방식으로 대규모 언어 모델을 개선하는 데 도움을 줄 수 있습니다. 또한 비동기적 처리 및 최적화 기법을 통해 기존 방법의 한계를 극복하고, 향후 연구를 위한 새로운 가능성을 제시합니다. 특히, 메모리 효율적인 훈련 기법을 통해 제한된 자원 환경에서도 성능을 향상시키는 데 기여할 수 있습니다. 이는 최근 급증하는 대규모 언어 모델 연구에서 중요한 의미를 지닙니다.

Visual Insights
#

🔼 그림 1은 제안된 아키텍처의 개요를 보여줍니다. 입력 시퀀스는 동결된 LLM(Large Language Model)에 의해 처리되어 kv-cache를 생성합니다. 이 cache는 학습 가능한 소프트 토큰과 함께 coprocessor로 전달됩니다. coprocessor는 원래 kv-cache를 증강하기 위해 사용되는 잠재적 임베딩을 출력한 다음, 출력 생성을 위해 동결된 LLM으로 다시 전달됩니다. 즉, 동결된 LLM이 입력을 처리하여 kv-cache를 생성하고, 이 cache가 추가적인 계산을 위해 coprocessor로 전달됩니다. coprocessor는 추가적인 정보를 담은 잠재적 임베딩을 생성하여 kv-cache를 보강하고, 이 보강된 cache는 최종 출력을 생성하기 위해 다시 LLM으로 전달되는 구조입니다. coprocessor는 offline 및 비동기적으로 작동할 수 있으므로, 추가적인 계산이 필요하지 않은 경우에는 LLM이 정상적으로 기능할 수 있습니다.
read the caption
Figure 1: Overview of the proposed architecture. The input sequence is processed by a frozen LLM, generating a kv-cache. This cache is then passed to a coprocessor, along with trainable soft tokens. The coprocessor outputs latent embeddings which are used to augment the original kv-cache before being fed back into the LLM for output generation.

Position	8 Latents	16 Latents	32 Latents	64 Latents
1	-1.53%	-2.48%	-3.28%	-3.94%
2	-1.67%	-2.41%	-3.15%	-3.70%
4	-1.39%	-1.98%	-2.66%	-3.17%
8	-1.22%	-1.56%	-2.11%	-2.61%
16	-0.85%	-1.08%	-1.50%	-1.88%
32	-0.55%	-0.64%	-0.88%	-1.20%

🔼 표 1은 기본 모델과 비교하여 증강된 Gemma-2 2B 모델의 상대적 perplexity 감소율(%)을 보여줍니다. 여러 개의 잠재 벡터 수와 잠재 벡터 추가 후 예측 위치에 따른 perplexity 감소율을 보여줍니다. ‘위치’는 잠재 벡터 추가 지점을 기준으로 한 토큰 위치를 나타냅니다(예: 위치 1은 바로 다음 토큰). 즉, 이 표는 잠재 벡터를 추가한 후, 몇 번째 토큰을 예측하는지에 따라 perplexity가 얼마나 감소하는지를 잠재 벡터의 개수별로 보여줍니다. 추가된 잠재 벡터 개수가 많을수록 perplexity 감소 효과가 크다는 것을 확인할 수 있습니다.
read the caption
Table 1: Relative perplexity reduction (in %) achieved by augmented Gemma-2 2B models compared to the baseline, for various numbers of latents and prediction positions following latent augmentation. 'Position' indicates the token position relative to the augmentation point (e.g., Position 1 is the immediately following token).

In-depth insights
#

Latent Deliberation
#

본 논문에서 제안하는 ‘잠재적 숙고(Latent Deliberation)‘는 대규모 언어 모델(LLM)의 잠재 공간 내에서 중간 추론 단계를 생성하고 참조함으로써 더욱 심층적인 사고를 가능하게 하는 기법입니다. 기존의 방법들이 이산 토큰 시퀀스를 생성하는 것과 달리, 본 연구는 LLM의 키-밸류(kv) 캐시에서 작동하는 오프라인 코프로세서를 활용하여 잠재적 표현을 추가하고 후속 디코딩의 충실도를 향상시킵니다. 이는 디코더를 고정시킨 채 코프로세서만을 학습시키는 차별점을 가지며, 종단 간 미분 가능한 방식으로 추가적인 연산을 kv-캐시에 증류하는 것을 학습합니다. 비동기적 작동이 가능하여 지연 시간을 줄이고, 코프로세서가 없어도 LLM은 정상적으로 작동합니다. 실험 결과, 캐시가 증강될 때 디코더의 퍼플렉서티가 감소하고 여러 추론 집약적 작업에서 성능이 향상되는 것을 보여줍니다. 강화 학습 없이도 효율적인 최적화가 가능하며, 다양한 추론 작업에서 일관되게 성능을 향상시키는 것을 확인했습니다. 이는 LLM의 기능을 확장하는 잠재적인 가능성을 보여줍니다.

Cache Augmentation
#

본 논문에서 제시된 ‘캐시 증강(Cache Augmentation)’ 기법은 기존의 언어 모델(LLM)의 성능을 향상시키는 새로운 접근법입니다. 기존의 LLM은 입력에 대한 응답을 생성하기 위해 연속적인 토큰을 생성하는데, 이는 지연 시간이 길어지고 최적화가 어려워지는 단점이 있습니다. 반면, 캐시 증강 기법은 LLM의 키-값(kv) 캐시를 오프라인으로 처리하는 보조 프로세서(coprocessor)를 활용합니다. 이 보조 프로세서는 LLM의 kv 캐시에 잠재적 임베딩(latent embedding)을 추가하여 후속 디코딩의 정확도를 높입니다. 이는 LLM 자체를 수정하지 않고도 성능 향상을 가능하게 하는 장점을 가지고 있습니다. 보조 프로세서는 사전 학습 데이터를 사용하여 학습되며, 디코더는 고정된 상태를 유지합니다. 이를 통해 비동기적이고 오프라인으로 작동할 수 있으며, 보조 프로세서가 사용 불가능하더라도 LLM은 정상적으로 작동합니다. 실험 결과, 캐시 증강 기법은 다양한 추론 집약적 작업에서 일관되게 성능을 향상시키는 것으로 나타났습니다. 특히 주목할 만한 점은, 특정 작업에 대한 학습 없이도 긍정적인 결과를 얻었다는 것입니다.

Differentiable Training
#

차별 가능한 훈련은 본 논문에서 제시된 방법의 핵심적인 부분입니다. 프로세서(coprocessor)를 end-to-end 학습시키는 접근 방식을 통해, 기존의 강화 학습 기반 방법과는 달리 효율적인 최적화가 가능합니다. 기존 LLM을 고정시킨 채 프로세서만을 학습시키므로, 프로세서의 작동이 비동기적이고 오프라인으로 이루어질 수 있습니다. 이는 추론 시간을 단축시키고 모델의 확장성을 높이는 데 크게 기여할 수 있습니다. 또한, 과제 특화 훈련 없이도 성능 향상을 보이는 실험 결과는 이 방법의 범용성을 보여주는 중요한 증거입니다. 결론적으로, 차별 가능한 훈련을 통해 LLM의 성능을 향상시키는 효율적이고 확장성 있는 새로운 방법을 제시하고 있습니다.

Benchmark Results
#

본 논문에서 제시된 벤치마크 결과는 제안된 방법의 우수성을 보여주는 핵심적인 부분입니다. 다양한 언어 추론 과제에 대한 성능 비교를 통해 기존 방법 대비 향상된 정확도를 명확히 제시하며, 특히 추론 집약적인 과제에서의 성능 개선이 두드러집니다. 매개변수 효율성 측면에서도 긍정적인 결과를 보여주어, 제한된 자원 환경에서도 효과적으로 적용될 수 있음을 시사합니다. 다양한 매개변수 설정에 따른 결과 분석을 통해 최적의 성능을 위한 조건을 도출하고, 이를 통해 방법의 범용성을 강조합니다. 추가적인 실험 결과들을 통해 제안된 방법의 한계점과 개선 방향을 제시하여, 향후 연구 방향을 제시하는 데 도움이 될 것입니다. 결론적으로, 벤치마크 결과는 제안된 방법의 실용성과 우수성을 뒷받침하는 중요한 근거가 됩니다.

Future Directions
#

본 논문의 “미래 방향"에 대한 심도있는 고찰은 차세대 언어 모델의 추론 능력 향상이라는 핵심 목표에 초점을 맞춥니다. 대규모 모델의 비용 효율적인 훈련 및 추론을 위한 새로운 아키텍처와 방법론의 개발이 중요하며, 비동기적이고 병렬적인 처리 방식을 통해 계산 비용을 줄이는 전략이 필요합니다. 다양한 하위 작업에 대한 적응력 향상을 위해 사전 훈련 데이터셋 이외에 특정 작업에 대한 데이터를 활용하는 연구가 요구됩니다. 더욱 복잡하고 추상적인 추론 작업에 대한 모델의 성능을 평가하고 개선하는 벤치마크 개발 또한 중요한 과제입니다. 잠재 공간에서의 추론 과정에 대한 이론적 이해를 높이는 연구는 모델의 성능 향상과 설명 가능성 제고에 기여할 것입니다. 마지막으로, 본 논문의 방법론을 다양한 모델 아키텍처 및 하드웨어 플랫폼에 적용하여 그 효율성과 일반화 성능을 검증하는 실험적 연구가 필요합니다.

More visual insights
#

More on tables

Benchmark	Metric	Baseline	4 Latents	8 Latents	16 Latents	32 Latents	64 Latents
MMLU	5-shot	52.00	52.45 (+0.45)	52.24 (+0.24)	52.34 (+0.34)	54.61 (+2.61)	56.70 (+4.70)
GSM8K	8-shot	21.38	22.67 (+1.29)	23.12 (+1.74)	24.72 (+3.34)	26.76 (+5.38)	31.43 (+10.05)
DROP	3-shot, F1	53.69	54.64 (+0.95)	54.91 (+1.23)	56.23 (+2.55)	57.37 (+3.68)	57.77 (+4.08)
ARC-e	0-shot	80.56	81.52 (+0.97)	81.57 (+1.01)	83.12 (+2.57)	83.04 (+2.48)	83.67 (+3.11)
ARC-c	0-shot	50.26	51.28 (+1.02)	52.39 (+2.13)	53.24 (+2.99)	54.44 (+4.18)	54.44 (+4.18)
MATH	4-shot	16.50	16.38 (-0.12)	16.78 (+0.28)	17.00 (+0.50)	17.18 (+0.68)	18.56 (+2.06)
Winogrande	0-shot	64.01	65.35 (+1.34)	65.35 (+1.34)	66.30 (+2.29)	66.30 (+2.29)	66.61 (+2.60)
PIQA	0-shot	78.18	78.62 (+0.44)	78.67 (+0.49)	78.94 (+0.76)	78.94 (+0.76)	79.00 (+0.82)
SIQA	0-shot	51.79	51.59 (-0.20)	51.64 (-0.15)	51.74 (-0.05)	52.30 (+0.51)	52.00 (+0.20)
HellaSwag	0-shot	73.77	74.41 (+0.64)	74.41 (+0.64)	74.82 (+1.05)	75.04 (+1.27)	75.31 (+1.54)
Boolq	0-shot	75.41	75.29 (-0.12)	77.22 (+1.80)	78.17 (+2.75)	77.03 (+1.62)	76.91 (+1.50)
MBPP	3-shot	30.40	29.00 (-1.40)	31.60 (+1.20)	31.20 (+0.80)	31.40 (+1.00)	31.80 (+1.40)
AGIEval	3-5-shot	31.71	32.18 (+0.47)	30.04 (-1.67)	31.32 (-0.38)	32.78 (+1.07)	33.85 (+2.14)
TriviaQA	5-shot	60.29	60.30 (+0.01)	60.83 (+0.54)	61.43 (+1.14)	62.05 (+1.76)	62.23 (+1.94)
NQ	5-shot	17.14	17.35 (+0.21)	17.89 (+0.75)	18.16 (+1.02)	18.91 (+1.77)	19.20 (+2.06)
HumanEval	pass@1	19.51	18.29 (-1.22)	19.51 (+0.00)	20.73 (+1.22)	20.73 (+1.22)	22.56 (+3.05)
BBH	3-shot	42.22	42.36 (+0.14)	42.37 (+0.15)	42.53 (+0.31)	42.48 (+0.26)	42.64 (+0.41)

🔼 표 2는 다양한 벤치마크에서 기준 모델과 증강 모델의 성능을 보여줍니다. 기준 모델은 동결된 Gemma-2 2B 사전 훈련 모델이며, 증강 모델은 학습된 코프로세서를 사용하여 4, 8, 16, 32, 64개의 잠재 임베딩으로 증강된 모델입니다. 결과는 ‘Metric’ 열에 표시된 대로 제로샷/소수샷 설정에 대해 보고됩니다. ‘Metric’ 열에 명시되지 않은 경우 결과는 정확도(%)입니다. 기준선에 대한 개선 사항은 괄호 안에 표시됩니다. 이 설정에서는 프롬프트의 끝에서 코프로세서가 한 번 호출됩니다.
read the caption
Table 2: Performance of baseline and augmented models across various benchmarks. Results are shown for the baseline (frozen Gemma-2 2B pretrained model) and the model augmented with a learned coprocessor using 4, 8, 16, 32, and 64 latent embeddings, respectively. Results are reported for zero/few-shot settings as indicated in the “Metric” column. Results are accuracy (in %) if not specified in the Metric column. Improvements over the baseline are shown in parentheses. In this setting, the coprocessor is called once, at the end of the prompt.

Method	Validation set perplexity (↓)	GSM8K 8-shot accuracy (↑)
Baseline Gemma-2 2B	10.96	21.38
Pause Token	11.63	22.37
Latent embeddings (Ours)	10.60	26.76

🔼 표 3은 세 가지 다른 방법을 비교하여 제시합니다. 기준 Gemma-2 2B 모델, Pause Token 기법(Goyal et al., 2023) (32개 임베딩 사용), 그리고 본 논문에서 제안하는 기법(32개 임베딩 사용)입니다. 퍼플렉서티 값이 낮을수록 다음 토큰 예측 성능이 좋다는 것을 나타내고, GSM8K 정확도가 높을수록 GSM8K 성능이 좋다는 것을 나타냅니다.
read the caption
Table 3: Comparison between the baseline Gemma-2 2B model, the Pause Token method (Goyal et al., 2023) (using 32 embeddings), and our approach (also using 32 embeddings). Lower perplexity indicates better next token prediction. Higher accuracy indicates better performance on GSM8K.

Baseline	0-shot CoT	16 Latents	32 Latents
21.38	23.20	24.72	26.76

🔼 표 4는 세 가지 다른 방법을 사용하여 GSM8K 데이터셋에서 8-shot 설정으로 얻은 정확도를 비교한 것입니다. 첫 번째는 기준 Gemma-2 2B 모델이며, 두 번째는 제로샷 체인 오브 스로트(CoT) 프롬프팅 기법이며, 세 번째는 본 논문에서 제안한 방법으로 16개와 32개의 잠재적 임베딩을 사용한 결과입니다. 이 표는 제로샷 CoT 프롬프팅과 본 논문에서 제안한 방법이 기준 모델에 비해 성능 향상을 보여주는지를 보여줍니다. 또한, 잠재적 임베딩 수를 늘리면 정확도가 향상되는 것을 알 수 있습니다.
read the caption
Table 4: Accuracy on GSM8K 8-shot for the baseline Gemma-2 2B model, zero-shot Chain-of-Thought (CoT) prompting, and our approach with 16 and 32 latent embeddings.

Method	GSM8K Accuracy
Baseline	21.38
LoRA (Rank 64)	23.35
LoRA (Rank 128)	24.03
From Scratch Training	25.78
Full Finetuning	26.76

🔼 표 5는 모든 방법에서 32개의 잠재 임베딩을 사용하여 코프로세서에 대한 다양한 미세 조정 방법의 GSM8K 정확도 비교를 보여줍니다. LoRA는 전체 미세 조정에 비해 메모리 효율적인 대안을 제공하며 상당한 성능 향상을 달성합니다. 이 표는 기본 모델, LoRA(Rank 64, Rank 128)를 사용한 미세 조정, 처음부터 학습, 그리고 전체 미세 조정을 포함한 네 가지의 다른 코프로세서 미세 조정 방법에 대한 GSM8K 정확도를 비교합니다.
read the caption
Table 5: GSM8K accuracy comparison of different finetuning methods for the coprocessor, all using 32 latent embeddings. LoRA offers a memory-efficient alternative to full finetuning, achieving reasonable performance gains.

Baseline	4 Ahead	8 Ahead	16 Ahead	32 Ahead
21.38	24.03 (+2.65)	24.11 (+2.73)	24.72 (+3.34)	23.73 (+2.35)

🔼 표 6은 코프로세서 훈련 중 앞쪽 토큰의 개수를 다르게 했을 때 GSM8K 정확도를 보여줍니다. 16개의 앞쪽 토큰을 사용했을 때 정확도가 가장 높았으며 (24.72%, 기준선 21.38%보다 3.34% 상승), 모든 실험에서 16개의 잠재적 임베딩을 사용했습니다. 이 표는 다양한 수의 앞쪽 토큰(4, 8, 16, 32개)에 대한 결과를 보여주며, 앞쪽 토큰 수에 따른 성능 변화를 분석하여 최적의 앞쪽 토큰 개수를 찾는 데 도움이 됩니다. 이는 모델이 미래 토큰을 얼마나 잘 예측하는지 파악하는 데 중요한 지표가 됩니다.
read the caption
Table 6: GSM8K accuracy for varying numbers of ahead tokens during coprocessor training. 16 ahead tokens achieves the highest accuracy (24.72%, +3.34% over the baseline of 21.38%). 16 latent embeddings are used for all these experiments.

Benchmark	Metric	Baseline	4 Latents	8 Latents	16 Latents	32 Latents	64 Latents
MMLU	5-shot	52.00	52.03 (+0.03)	52.21 (+0.21)	52.75 (+0.75)	53.55 (+1.55)	56.63 (+4.63)
GSM8K	8-shot	21.38	22.52 (+1.14)	22.59 (+1.21)	24.41 (+3.03)	25.78 (+4.40)	29.80 (+8.42)
ARC-e	0-shot	80.56	81.69 (+1.13)	81.86 (+1.30)	82.79 (+2.23)	83.12 (+2.56)	83.21 (+2.65)
ARC-c	0-shot	50.26	51.71 (+1.45)	52.22 (+1.96)	52.47 (+2.21)	54.27 (+4.01)	53.24 (+2.98)
MATH	4-shot	16.50	16.22 (-0.28)	16.46 (-0.04)	16.92 (+0.42)	17.18 (+0.68)	18.34 (+1.84)
Winogrande	0-shot	64.01	65.19 (+1.18)	65.98 (+1.97)	66.54 (+2.53)	66.69 (+2.68)	67.25 (+3.24)
PIQA	0-shot	78.18	78.13 (-0.05)	79.00 (+0.82)	79.16 (+0.98)	79.27 (+1.09)	79.22 (+1.04)
SIQA	0-shot	51.79	51.94 (+0.15)	51.64 (-0.15)	51.84 (+0.05)	51.94 (+0.15)	51.89 (+0.10)
HellaSwag	0-shot	73.77	74.37 (+0.60)	74.68 (+0.91)	74.82 (+1.05)	74.89 (+1.12)	75.18 (+1.41)
Boolq	0-shot	75.41	75.66 (+0.25)	76.94 (+1.53)	76.97 (+1.56)	77.80 (+2.39)	77.46 (+2.05)
MBPP	3-shot	30.40	30.40 (0.00)	30.60 (+0.20)	30.80 (+0.40)	32.00 (+1.60)	32.60 (+2.20)
AGIEval	3-5-shot	31.71	32.52 (+0.81)	32.22 (+0.51)	31.92 (+0.21)	32.78 (+1.07)	32.35 (+0.64)
TriviaQA	5-shot	60.29	60.53 (+0.24)	60.95 (+0.66)	61.45 (+1.16)	61.93 (+1.64)	62.62 (+2.33)
NQ	5-shot	17.14	17.26 (+0.12)	17.89 (+0.75)	18.47 (+1.33)	18.68 (+1.54)	19.00 (+1.86)
HumanEval	pass@1	19.51	18.29 (-1.22)	18.90 (-0.61)	20.73 (+1.22)	19.51 (0.00)	19.51 (0.00)
BBH	3-shot	42.22	42.16 (-0.06)	42.24 (+0.02)	42.42 (+0.20)	43.19 (+0.97)	42.93 (+0.71)

🔼 표 7은 사전 훈련된 모델의 가중치를 사용하지 않고 처음부터 코프로세서를 훈련했을 때 다양한 벤치마크에서 기준 모델과 증강 모델의 성능을 보여줍니다. 기준 모델은 동결된 Gemma-2 2B 모델입니다. 각 벤치마크마다 여러 개의 코프로세서 잠재 임베딩 수(4, 8, 16, 32, 64)에 따른 결과가 제시되어 있습니다. 괄호 안의 수치는 기준 모델 대비 성능 향상을 백분율로 나타냅니다. 자세한 내용은 표 2를 참조하십시오.
read the caption
Table 7: Performance of baseline and augmented models across various benchmarks with coprocessor training from scratch. Check Table 2 for more detailed description.

TL;DR#

Key Takeaways#

Why does it matter?#

Visual Insights#

In-depth insights#

Latent Deliberation#

Cache Augmentation#

Differentiable Training#

Benchmark Results#

Future Directions#

More visual insights#

Full paper#