METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

2501.02045

Ollie Liu et el.

🤗 2025-01-07

↗ arXiv ↗ Hugging Face ↗ Papers with Code

TL;DR
#

전염병의 조기 탐지 및 감시는 공중 보건에 매우 중요하지만, 기존 방법은 제한적입니다. 대규모 유전체 데이터셋을 구축하고 분석하는 데 어려움이 있으며, 특정 병원균에 대한 정보만 포함되어 전체 미생물 군집의 다양성을 반영하지 못하는 경우가 많습니다.

본 연구에서는 폐수 샘플에서 얻은 방대한 메타유전체 데이터를 사용하여 70억 개의 매개변수를 가진 대규모 언어 모델(METAGENE-1)을 개발했습니다. 이 모델은 다양한 유전체 정보를 포착하여 병원균 탐지 및 유전체 서열 임베딩 작업에서 최첨단 성능을 달성했습니다. 본 연구는 폐수 기반 감시 시스템의 정확성과 효율성을 향상시키는 데 기여하며, 전염병 감시 및 신종 질병 조기 탐지 분야의 새로운 가능성을 열었습니다.

Key Takeaways
#

Why does it matter?
#

본 논문은 전염병 감시에 활용될 수 있는 혁신적인 메타유전체 기반 언어 모델을 제시합니다. 폐수에서 추출한 메타유전체 데이터를 사용하여 훈련된 이 모델은 병원균 탐지 및 유전체 서열 임베딩 작업에서 최첨단 성능을 달성했습니다. 이는 전염병 감시 및 신종 질병 조기 탐지 분야 연구에 큰 영향을 미칠 수 있습니다. 또한, 본 연구는 메타유전체 데이터 분석에 대한 새로운 접근법을 제시하여 향후 연구의 새로운 방향을 제시합니다.

Visual Insights
#

🔼 그림 1은 METAGENE-1 모델의 개요와 응용 분야를 보여줍니다. 하수 샘플을 수집하여 심층 메타유전체 시퀀싱을 수행하여 1.5조 개가 넘는 염기쌍의 DNA 및 RNA 시퀀스를 생성합니다. 이 시퀀스들은 바이트 쌍 인코딩(BPE) 토큰화를 거쳐 사전 훈련 데이터 세트를 만듭니다. 이 데이터를 사용하여 다양한 메타유전체 분석 및 모니터링 응용 프로그램을 가능하게 하는 70억 개 매개변수의 변환기 모델인 METAGENE-1을 훈련합니다.
read the caption
Figure 1: Overview of METAGENE-1 and applications. Wastewater samples are collected and undergo deep metagenomic sequencing to generate DNA and RNA sequences totaling over 1.5 trillion base pairs. These sequences are tokenized using byte-pair encoding (BPE) to create the pretraining dataset. The data is used to train METAGENE-1, a 7B-parameter transformer model that enables a wide range of metagenomic analysis and monitoring applications.

Model Details	METAGENE-1
Architecture	Llama-2-7B
Embedding Size	4096
Intermediate Size	11008
Number of Attention Heads	32
Number of Hidden Layers	32
Vocabulary Size	1024
Sequence Length	512
Normalization	RMSNorm
Regularization	z-loss
Position Embedding	Rotary
Bias	None
Warmup Steps	2000
Batch Size	30720
Weight Decay	0.1
Learning Rate Schedule	Cosine Decay
Initial Learning Rate	6×10⁻⁴
β₁, β₂	0.9, 0.95

🔼 본 표는 논문의 3.3절 ‘METAGENE-1 아키텍처’에서 METAGENE-1 모델의 구조적 세부 정보를 보여줍니다. 모델의 아키텍처 유형(변압기), 임베딩 크기, 중간 크기, 어텐션 헤드 수, 은닉층 수, 어휘 크기, 시퀀스 길이, 정규화 방법, 위치 임베딩 방식, 바이어스 사용 여부, 워밍업 단계, 배치 크기, 가중치 감쇠, 학습률 스케줄링, 초기 학습률, β1 및 β2 값 등 주요 하이퍼파라미터를 포함하고 있습니다. Llama-2-7B 모델의 해당 값들과 비교하여 METAGENE-1 모델의 특징을 명확히 보여줍니다.
read the caption
Table 1: METAGENE-1 architecture details.

In-depth insights
#

Metagenome Modeling
#

메타게놈 모델링은 환경 샘플 내의 다양한 미생물 군집의 유전체 정보를 분석하고 해석하는 데 중점을 둡니다. 이는 단일 미생물 유전체 분석과 달리, 복잡한 미생물 생태계의 상호 작용을 이해하는 데 필수적입니다. 차세대 시퀀싱 기술의 발전으로 방대한 양의 메타게놈 데이터를 생성할 수 있게 되었고, 이를 효과적으로 분석하고 해석하기 위한 새로운 계산 방법과 모델이 필요해졌습니다. 기계 학습 기반의 접근 방식은 메타게놈 데이터의 복잡성을 다루고, 미생물 군집의 구성, 기능, 진화 과정을 예측하는 데 유용합니다. 특히 **대규모 언어 모델(LLM)**을 활용한 메타게놈 모델링은 다양한 생물학적 문제를 해결하는 데 잠재력을 보여주고 있습니다. 그러나 데이터의 불균형, 종 분류의 어려움, 모델 해석의 복잡성 등 여전히 해결해야 할 과제가 많습니다. 앞으로 메타게놈 모델링 연구는 다양한 생태계의 통합적 이해를 위한 새로운 통찰력을 제공하고, 질병 예측 및 치료 등 다양한 분야에 적용될 것으로 기대됩니다.

Wastewater Sequencing
#

본 논문에서 ‘Wastewater Sequencing’은 하수 처리장에서 채취한 샘플의 메타게놈 시퀀싱을 의미합니다. 이는 인간 활동과 밀접하게 관련된 미생물 군집의 풍부한 정보를 제공하는 중요한 데이터 소스입니다. 하수는 다양한 종류의 미생물과 유기물을 포함하고 있기 때문에, 하수 시퀀싱을 통해 새로운 병원체의 출현 또는 기존 병원체의 확산을 조기에 감지하고 모니터링할 수 있습니다. 이러한 감시는 팬데믹 예방 및 공중 보건에 매우 중요한 역할을 합니다. 또한, 다양한 미생물의 종류와 비율을 분석하여 환경 변화나 생태계의 변화를 추적할 수 있습니다. 하수 시퀀싱 데이터의 규모가 크고 다양한 종류의 미생물 정보를 포함하기 때문에, 대규모 언어 모델을 학습시키는 데 효과적인 데이터 소스로 활용될 수 있습니다. 이를 통해, 질병 예측, 신약 개발, 새로운 치료법 개발 등의 다양한 분야에 활용될 수 있는 잠재력을 가지고 있습니다.

BPE Tokenization
#

본 논문에서 Byte-Pair Encoding (BPE) 토크나이제이션은 메타게놈 시퀀스에 맞춤화되어 있으며, 이는 기존의 고정 길이 k-mer 토크나이저보다 유연성을 제공합니다. 가변 길이 토큰을 사용하여 다양한 수준의 유전체 정보를 포착하고 모델이 다양한 시퀀스 패턴과 구조에 적응할 수 있도록 합니다. 특히, 알려지지 않은 또는 변이가 있는 서열을 토큰화하는 능력은 다양하고 불확실한 메타게놈 서열을 모델링하는 데 매우 유용합니다. BPE 토크나이제이션을 통해 모델은 어휘 내에서 의미론적 정보를 포착하여 유전체 데이터를 보다 정교하게 표현할 수 있습니다. 20억 개의 염기쌍으로 구성된 사전 학습 데이터셋의 하위 집합에 대해 BPE 토크나이저를 훈련시켰으며, 토큰 크기 분포를 분석하고 훈련 효율성을 고려하여 어휘 크기를 1024개의 고유 토큰으로 설정했습니다. 이는 유전체 복잡성을 충분히 포착하고 계산 효율성을 유지하는 균형을 이룹니다. 결과적으로, 이러한 전략은 메타게놈 데이터의 효과적인 모델링을 가능하게 합니다.

Model Architecture
#

본 논문에서 제시된 **거대 언어 모델(LLM)**의 아키텍처는 자기회귀적(autoregressive) 변환기 모델을 기반으로 합니다. 이는 디코더 전용(decoder-only) 구조를 가지며, 이는 기존의 인코더-디코더 구조를 사용하는 모델들과 차별화되는 점입니다. 디코더 전용 아키텍처는 특히 긴 시퀀스를 다루는 데 효율적이지 않을 수 있지만, 짧은 메타게놈 시퀀스를 주로 다루는 이 연구에서는 적합한 선택으로 보입니다. **매개변수의 수(70억)**는 상당히 크지만, 최근 연구 동향을 반영하며, 메타게놈 데이터의 복잡성을 고려했을 때 충분한 용량으로 여겨집니다. 토큰화 전략으로 바이트 쌍 인코딩(BPE)을 사용하여 새로운 시퀀스를 효과적으로 처리하고, 의미론적 정보를 포착하는 데 도움을 줄 수 있습니다. **모델의 컨텍스트 길이(512 토큰)**는 상대적으로 짧지만, 효율성을 위해 여러 짧은 시퀀스를 패킹하는 기법을 통해 처리 가능합니다. 다양한 하이퍼파라미터 설정은 성능과 안정성 사이의 균형을 맞추기 위해 세심하게 조정되었습니다.

Future Directions
#

논문의 “미래 방향” 부분은 메타유전체 기반 모델의 이해도를 높이는 데 중점을 두어야 합니다. 대규모 언어 모델(LLM)의 해석 가능성 향상을 위한 연구가 필요하며, 메타유전체 데이터의 특성을 고려한 새로운 토큰화 전략이나 모델 아키텍처 연구가 중요합니다. 또한, 다양한 종류의 유전체 데이터를 통합하여 모델의 일반화 능력을 향상시키고, 오류 수정 및 보완을 위한 연구가 필요합니다. 특히, 인간에게 해로운 용도로 악용될 가능성에 대한 고려와 더불어 안전성 평가 및 윤리적 지침 마련 또한 중요합니다. 다양한 질병 예측 및 진단에 활용 가능성을 확인하고 공중 보건 분야로의 적용 방안을 구체화해야 합니다. 실제 임상 데이터를 활용한 검증을 통해 모델의 실효성을 높이는 것도 중요한 미래 방향입니다. 마지막으로, 지속적인 모델 업데이트 및 개선을 위한 체계를 구축하고, 연구 결과 공유 및 협력을 위한 오픈 사이언스 접근법을 강화해야 할 것입니다.

More visual insights
#

More on tables

	DNABERT-2	DNABERT-S	NT-2.5b-Multi	NT-2.5b-1000g	METAGENE-1
Pathogen-Detect (avg.)	87.92	87.02	82.43	79.02	92.96
Pathogen-Detect-1	86.73	85.43	83.80	77.52	92.14
Pathogen-Detect-2	86.90	85.23	83.53	80.38	90.91
Pathogen-Detect-3	88.30	89.01	82.48	79.83	93.70
Pathogen-Detect-4	89.77	88.41	79.91	78.37	95.10

🔼 표 2는 본 논문의 5.2절에서 자세히 설명하는 병원균 탐지 벤치마크 결과를 보여줍니다. 모든 평가에 사용된 지표는 MCC(Matthews Correlation Coefficient)이며, 표의 머리글 행에는 매크로 평균 성능 지표가 요약되어 있습니다. 본 표는 네 가지 서로 다른 샘플링 데이터 세트(PATHOGEN-DETECT-1~4)에 대해 네 가지 다른 모델 (DNABERT-2, DNABERT-S, NT-2.5b-Multi, NT-2.5b-1000g)과 METAGENE-1의 성능을 비교하여 보여줍니다. 각 데이터 세트는 인간 병원균과 비병원균으로 구성되며, 모델은 이진 분류 작업을 수행합니다. 결과는 각 모델의 MCC 점수를 보여주며, METAGENE-1이 다른 모델들에 비해 상당히 높은 성능을 보임을 알 수 있습니다.
read the caption
Table 2: Results on the Pathogen Detection benchmark. The metric used for all evaluations is MCC. The header row reports macro-averaged performance metrics. See Section 5.2 for details.

Model	Human-Virus (avg.)	Human-Virus-1	Human-Virus-2	Human-Virus-3	Human-Virus-4	HMPD (avg.)	HMPD-single	HMPD-disease	HMPD-sex	HMPD-source	HVR (avg.)	HVR-p2p	HVR-s2s-align	HVR-s2s-small	HVR-s2s-tiny	HMPR (avg.)	HMPR-p2p	HMPR-s2s-align	HMPR-s2s-small	HMPR-s2s-tiny	Global Average
DNABERT-2	0.564	0.594	0.507	0.606	0.550	0.397	0.292	0.480	0.366	0.451	0.479	0.548	0.243	0.373	0.753	0.347	0.566	0.127	0.419	0.274	0.475
DNABERT-S	0.570	0.605	0.510	0.612	0.551	0.403	0.293	0.486	0.367	0.465	0.479	0.550	0.241	0.372	0.753	0.351	0.580	0.129	0.421	0.274	0.479
NT-2.5b-Multi	0.675	0.671	0.652	0.758	0.620	0.449	0.285	0.498	0.487	0.523	0.546	0.559	0.266	0.357	1.000	0.348	0.471	0.144	0.443	0.332	0.525
NT-2.5b-1000g	0.710	0.721	0.624	0.740	0.755	0.451	0.292	0.489	0.476	0.545	0.524	0.650	0.293	0.371	0.782	0.403	0.543	0.219	0.459	0.391	0.545
METAGENE-1	0.775	0.828	0.742	0.835	0.697	0.465	0.297	0.542	0.495	0.526	0.550	0.466	0.267	0.467	1.000	0.476	0.479	0.140	0.432	0.855	0.590

🔼 표 3은 본 논문의 5.3절에서 자세히 설명하는 유전체 임베딩(Gene-MTEB) 벤치마크에 대한 결과를 보여줍니다. 각 모델의 성능을 다양한 유전체 관련 작업(예: 인간 바이러스 식별, 질병 예측, 성별/출처 예측)에서 평가하여, METAGENE-1 모델의 유전체 정보 표현 능력을 다른 기존 모델들과 비교 분석합니다. 정확도와 V-측정값(클러스터링 작업)을 사용하여 모델의 성능을 측정했습니다.
read the caption
Table 3: Results on the Genomic Embedding (Gene-MTEB) benchmark. See Section 5.3 for details.

	CNN	HyenaDNA	DNABERT	NT-2.5B-Multi	DNABERT-2	METAGENE-1
TF-Mouse (avg.)	45.3	51.0	57.7	67.0	68.0	71.4
0	31.1	35.6	42.3	63.3	56.8	61.5
1	59.7	80.5	79.1	83.8	84.8	83.7
2	63.2	65.3	69.9	71.5	79.3	83.0
3	45.5	54.2	55.4	69.4	66.5	82.2
4	27.2	19.2	42.0	47.1	52.7	46.6
TF-Human (avg.)	50.7	56.0	64.4	62.6	70.1	68.3
0	54.0	62.3	68.0	66.6	72.0	68.9
1	63.2	67.9	70.9	66.6	76.1	70.8
2	45.2	46.9	60.5	58.7	66.5	65.9
3	29.8	41.8	53.0	51.7	58.5	58.1
4	61.5	61.2	69.8	69.3	77.4	77.9
EMP (avg.)	37.6	44.9	49.5	58.1	56.0	66.0
H3	61.5	67.2	74.2	78.8	78.3	80.2
H3K14ac	29.7	32.0	42.1	56.2	52.6	64.9
H3K36me3	38.6	48.3	48.5	62.0	56.9	66.7
H3K4me1	26.1	35.8	43.0	55.3	50.5	55.3
H3K4me2	25.8	25.8	31.3	36.5	31.1	51.2
H3K4me3	20.5	23.1	28.9	40.3	36.3	58.5
H3K79me3	46.3	54.1	60.1	64.7	67.4	73.0
H3K9ac	40.0	50.8	50.5	56.0	55.6	65.5
H4	62.3	73.7	78.3	81.7	80.7	82.7
H4ac	25.5	38.4	38.6	49.1	50.4	61.7
PD (avg.)	77.1	35.0	84.6	88.1	84.2	82.3
All	75.8	47.4	90.4	91.0	86.8	86.0
No-TATA	85.1	52.2	93.6	94.0	94.3	93.7
TATA	70.3	5.3	69.8	79.4	71.6	67.4
CPD (avg.)	62.5	48.4	73.0	71.6	70.5	69.9
All	58.1	37.0	70.9	70.3	69.4	66.4
No-TATA	60.1	35.4	69.8	71.6	68.0	68.3
TATA	69.3	72.9	78.2	73.0	74.2	75.1
SSD	76.8	72.7	84.1	89.3	85.0	87.8
COVID	22.2	23.3	62.2	73.0	71.9	72.5
Global Win %	0.0	0.0	7.1	21.4	25.0	46.4

🔼 표 4는 Genome Understanding Evaluation (GUE) 벤치마크에 대한 결과를 보여줍니다. METAGENE-1 이외의 결과는 Zhou et al.(2023)의 연구에서 가져왔습니다. 모든 평가에 사용된 지표는 MCC이지만, COVID 작업에는 F1 점수를 사용했습니다. 머리글 행은 매크로 평균 성능 지표를 보고하며, 마지막 행은 Global Win %를 보여줍니다. Global Win %는 관련 지표에서 특정 방법이 최고 점수를 달성한 작업의 비율입니다.
read the caption
Table 4: Results on the Genome Understanding Evaluation (GUE) benchmark. Non-METAGENE-1 results are adapted from Zhou et al. (2023). The metric used for all evaluations is MCC, except for the COVID task, which uses F1 score. The header rows report macro-averaged performance metrics. The final row shows Global Win %, i.e., the percentage of tasks in which a given method achieves top score under the associated metric.

Group	F1	Loss (Std. Err)	Tokenized Seq Len (Std. Dev)
Metagenomics	-	1.24 (1.31)	24.91 (3.35)
Random	0.91	5.83 (0.29)	27.16 (1.32)
Human	0.94	5.22 (0.22)	27.29 (1.33)
Mouse	0.91	5.38 (0.54)	27.2 (1.34)

🔼 표 5는 메타게놈 시퀀스와 다른 데이터 소스 간의 이상 탐지 성능을 보여줍니다. 메타게놈, 무작위, 인간, 마우스 데이터 세트의 길이 정규화된 교차 엔트로피 손실과 토큰화된 시퀀스 길이를 비교하여 OOD(Out-of-Distribution) 탐지 성능을 평가합니다. F1 점수와 손실 값을 통해 메타게놈 시퀀스와 다른 데이터 소스 간의 차이를 정량적으로 보여줍니다.
read the caption
Table 5: OOD detection performance between metagenomics sequences and other data sources.

Model	Setting
DNABERT-⋆	Full Model
NT-⋆	LoRA
METAGENE-1	LoRA
LoRA Modules	query, key, value, dense
LoRA Rank	8
LoRA α	16
LoRA Dropout	0.1
Optimizer	AdamW
Optimizer Momentum	β₁, β₂ = 0.9, 0.999
Learning Rate	1e-4^Λ
LR Scheduler	Linear Warmup + Constant LR
Warmup Steps	50
Weight Decay	0.01
Denominator ϵ	1e-8
Precision	BF16-mixed
Batch Size	32
Epochs	10
Hardware	NVIDIA A100 80GB

🔼 표 6은 병원균 탐지 미세 조정 실험을 위한 초매개변수 설정을 보여줍니다. DNABERT-S의 경우 학습 과정에서 명확한 진동 현상이 관찰되어 학습률을 절반으로 줄였습니다 (5e-5). 표에는 모델 아키텍처(전체 모델 또는 LoRA), LoRA 모듈(쿼리, 키, 값, 조밀), LoRA 계층(8), LoRA 알파(16), LoRA 드롭아웃(0.1), 최적화기(AdamW), 최적화기 모멘텀(β1, β2 = 0.9, 0.999), 학습률(1e-4), 학습률 스케줄러(선형 워밍업 + 상수 LR), 워밍업 단계(50), 가중치 감쇠(0.01), 분모 입실론(1e-8), 정밀도(BF16 혼합), 배치 크기(32), 에폭(10), 하드웨어(NVIDIA A100 80GB) 등의 정보가 포함되어 있습니다.
read the caption
Table 6: Hyperparameter settings for the Pathogen Detection fine-tuning experiments. ΛΛ\Lambdaroman_Λ: for DNABERT-S, we halve the learning to 5e-5 as we observe clear oscillation behavior in the training loss.

LoRA Modules	query, key, value, dense^Λ
LoRA Rank	8
LoRA α	16
LoRA Dropout	0.1
Optimizer	AdamW
Optimizer Momentum (β₁, β₂)	0.9, 0.999
Learning Rate	{1e-4
⋯ 1e-3}^Ω
LR Scheduler	Linear Warmup + Constant LR
Warmup Steps	50
Weight Decay	0.01
Denominator ϵ	1e-8
Precision	BF16-mixed
Batch Size	32
Epochs	10
Hardware	NVIDIA A100 80GB

🔼 표 7은 GUE 미세 조정 실험에 사용된 하이퍼파라미터 설정을 보여줍니다. LoRA는 query-value 또는 query-key-value-dense 모듈에 적용됩니다. 학습률은 1e-4, 2e-4, …, 1e-3의 균등 간격 그리드에서 조정됩니다. 모든 하이퍼파라미터는 검증 세트의 성능에 따라 선택됩니다. 즉, 다양한 하이퍼파라미터들을 시도해보고 검증 세트에서 가장 좋은 성능을 내는 설정을 최종적으로 선택했다는 의미입니다. 표에는 LoRA 모듈의 종류, 차수, 알파값, 드롭아웃 비율, 최적화 알고리즘, 모멘텀, 학습률, 학습률 스케줄러, 웜업 단계, 가중치 감소, 분모 에프실론, 정밀도, 배치 크기, 에폭, 하드웨어 등이 포함되어 있습니다.
read the caption
Table 7: Hyperparameter settings for the GUE fine-tuning experiments. ΛΛ\Lambdaroman_Λ: LoRA is applied to query-value or query-key-value-dense modules. ΩΩ\Omegaroman_Ω: learning rates are tuned over a equally-spaced grid of 1e-4, 2e-4, ⋯⋯\cdots⋯, 1e-3. All hyperparameters are selected according to performances on validation sets.

TL;DR#

Key Takeaways#

Why does it matter?#

Visual Insights#

In-depth insights#

Metagenome Modeling#

Wastewater Sequencing#

BPE Tokenization#

Model Architecture#

Future Directions#

More visual insights#

Full paper#