BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

2501.01540

Kanishk Gandhi et el.

🤗 2025-01-06

↗ arXiv ↗ Hugging Face ↗ Papers with Code

TL;DR
#

많은 과학적 발견은 가설 제안, 실험 설계, 데이터 수집, 가설 수정이라는 반복적인 과정을 통해 이루어집니다. 최근 대규모 언어 모델(LLM) 기반 과학적 에이전트가 과학적 발견을 가속화할 수 있는 잠재력을 보여주고 있지만, 이들의 능력을 체계적으로 평가하는 벤치마크는 부족했습니다. 이 논문은 이러한 문제를 해결하기 위해 BoxingGym이라는 새로운 벤치마크를 제시합니다.

BoxingGym은 10가지 환경을 제공하여 실험 설계 및 모델 발견 능력을 평가합니다. 각 환경은 생성적 확률 모델로 구현되어, 에이전트가 상호 작용적인 실험을 수행할 수 있도록 합니다. **예상 정보 이득(EIG)**을 사용하여 실험 데이터의 유용성을 정량적으로 평가하고, 설명 기반 평가를 통해 모델 발견 능력을 평가합니다. 실험 결과, 기존 LLM은 실험 설계와 모델 발견에서 어려움을 겪는다는 것을 보여주었습니다. 이는 LLM 기반 과학적 에이전트의 발전 방향을 제시하는 중요한 연구입니다.

Key Takeaways
#

Why does it matter?
#

본 논문은 자율적 과학적 에이전트의 실험 설계 및 모델 발견 능력을 종합적으로 평가하기 위한 새로운 벤치마크인 BoxingGym을 제시합니다. 이는 LLM 기반 과학적 에이전트의 한계를 보여주고, 향후 연구를 위한 새로운 가능성을 제시합니다. 자율 과학적 에이전트 분야의 연구자들에게 중요한 기여를 할 뿐만 아니라, LLM을 활용한 과학적 발견에 대한 이해를 넓히는 데 기여할 것으로 예상됩니다. 또한, 통합적 과학적 발견 파이프라인 내에서 에이전트의 능력을 평가하는 방법론을 제시하여, 실험 설계와 모델 발견을 통합적으로 연구하는 데 중요한 발판을 마련합니다.

Visual Insights
#

🔼 BoxingGym 프레임워크는 과학적 발견 파이프라인에서 과학적 에이전트의 능력을 종합적으로 평가하기 위해 고안되었습니다. 사용자는 과학적 에이전트를 위한 목표를 정의하고, 에이전트는 이론을 제시하고, 시뮬레이션된 환경에서 상호 작용하여 데이터를 수집하고, 새로운 이론을 제시하고 기존 이론을 개선합니다. 반복적인 과정을 거친 후, 과학자 에이전트는 초보자에게 그 결과를 설명하고, 목표 달성 여부는 예측 문제로 평가합니다. 이 프레임워크는 과학적 이론, 실험 설계, 모델 발견에 대한 과학자의 능력을 평가하도록 설계되었습니다.
read the caption
Figure 1: Overview of BoxingGym. The BoxingGym Framework is designed to holistically evaluate experimental design and model discovery capabilities in the spirit of George Box [6]. 1) The process starts with a user defining a goal for the scientist agent. 2) The scientist formulates a theory. 3) This theory guides the experimental design, where the scientist interacts with a simulated world to gather new data. 4) The scientist then analyzes the new and old data to propose and refine theories. This iterative process continues for several iterations. 5) The scientist is then asked to explain the findings to a novice. 6) We evaluate the novice and the scientist by casting the goal as a prediction problem.

Environment	Goal	Before	After	After
		Experiments	10 Experiments	Communication
Hyperbolic Discounting	Choice	0.31	0.74	0.74
	Discount	-0.06	-0.06	-
Location Finding	Signal	0.96	1.24	0.97
	Source Location	1.29	-0.15	-
Death Process	Num Infected	1.19	0.46	0.75
	Infection Rate	0.13	1.64	-
IRT	Correctness	0.00	0.00	-0.28
Dugongs	Length	0.06	-0.09	-0.08
Peregrines	Population	2.29	-0.65	-0.63
Mastectomy	Survival	0.18	0.27	1.00
Predator-Prey	Population	0.08	-0.45	-0.26
Emotions	Prediction	0.74	0.82	0.87
Moral Machines	Judgement	0.32	0.44	0.60

🔼 표 1은 다양한 과제에 걸쳐 GPT-40의 성능을 보여줍니다. 표에는 표준화된 오차가 표시되며, 각 결과는 5회 실행의 평균입니다. 표준화된 오차는 각 과제에서 GPT-40의 성능을 평가하는 데 사용된 지표의 신뢰도를 보여주는 척도입니다. 표에는 과제의 유형(예: 과제 목표, 실험 전, 실험 후, 의사소통 후)에 따른 GPT-40의 성능이 나와 있습니다. 이 표는 본 논문의 실험 결과를 요약하여 제시합니다.
read the caption
Table 1: Performance of GPT-4o Across Different Tasks. Numbers shown are standardized errors. Errors are averaged across 5 runs.

In-depth insights
#

LLM-Based Science
#

LLM 기반 과학은 **대규모 언어 모델(LLM)**의 능력을 활용하여 과학적 발견 과정을 가속화하고 자동화하는 새로운 패러다임입니다. 이는 과학적 이론 제안, 실험 설계, 데이터 수집 및 분석, 이론 수정 등 과학적 발견의 핵심 단계들을 LLM의 강력한 추론 및 지식 표현 능력으로 수행하는 것을 의미합니다. 하지만, LLM이 과학적 발견에 적용될 때 발생할 수 있는 한계점도 존재합니다. LLM은 실제 세계의 복잡성을 완벽하게 반영하지 못하며, 편향된 데이터나 잘못된 정보에 기반한 결과를 생성할 수도 있습니다. 또한, LLM의 해석력 및 설명력의 부족은 과학적 발견 과정에서 중요한 통찰력을 놓치거나 오류를 유발할 수 있습니다. 따라서 LLM 기반 과학 시스템의 개발에는 LLM의 강점을 최대한 활용하면서 동시에 이러한 한계점을 최소화하기 위한 철저한 검증 및 보완이 필수적입니다. 신뢰할 수 있는 데이터 소스, 엄격한 검증 절차, 사용자의 상호 작용 및 피드백 메커니즘 등을 포함한 종합적인 접근 방식을 통해 LLM 기반 과학의 잠재력을 실현하고 과학 발전에 기여할 수 있을 것입니다. 궁극적으로, LLM 기반 과학은 인간 과학자와의 협력을 통해 과학적 발견의 효율성을 높이고 새로운 발견을 촉진할 수 있는 강력한 도구가 될 것으로 기대됩니다.

BoxingGym Design
#

BoxingGym은 자율 에이전트의 실험 설계 및 모델 발견 능력을 종합적으로 평가하기 위한 유연한 프레임워크입니다. 실제 과학적 모델을 기반으로 한 10가지 환경을 통해 에이전트의 적극적인 실험 참여를 가능하게 하며, 생성 모델로 구현된 각 환경은 추론 가능한 정량적 평가를 지원합니다. 다양한 과학적 이론 표현을 수용하기 위해 유연한 언어 기반 인터페이스를 사용하며, 목표 달성을 위한 에이전트의 전략적 실험 설계를 유도하는 다양한 목표를 설정할 수 있습니다. 예상 정보 이득(EIG) 및 설명 기반 평가를 통해 에이전트의 성능을 정량적으로 평가하여, 실험 설계와 모델 발견의 통합적 평가를 가능하게 합니다. 현존하는 LLM 기반 에이전트의 한계를 드러내고, 향후 연구 방향을 제시하는 벤치마크로서의 역할을 수행합니다.

EIG & Explanations
#

본 논문에서 제시된 “EIG & Explanations” 섹션은 과학적 발견 과정에서의 기계 학습 모델 평가 방식에 대한 핵심적인 내용을 담고 있습니다. 특히, **예상 정보 이득(EIG)**을 활용하여 실험 설계의 효율성을 정량적으로 평가하는 방식과, 자연어 설명을 통해 모델 발견의 질적 측면을 평가하는 방식 모두를 다루고 있습니다. 이는 단순히 정확도만을 측정하는 기존의 평가 방식을 넘어, 과학적 추론 과정 전반을 평가하고자 하는 시도로 해석됩니다. EIG는 정보 이론적 관점에서 실험의 정보량을 측정하여, 모델 파라미터에 대한 불확실성을 얼마나 줄이는지 정량화합니다. 자연어 설명은 모델의 해석성과 일반화 능력을 평가하는데, 전문가가 아닌 사람에게도 모델을 이해시킬 수 있는 설명 능력을 중요시한다는 점이 특징입니다. 두 방식의 조합을 통해, 모델의 예측 성능뿐 아니라 과학적 추론 과정의 효율성과 투명성을 종합적으로 평가하는 새로운 프레임워크를 제시합니다. 이는 인공지능 기반 과학적 발견 연구에 있어 중요한 이정표를 제시한다는 점에서 의미가 있으며, 향후 관련 연구의 발전에 크게 기여할 것으로 예상됩니다.

Agent Performance
#

본 논문은 두 가지 에이전트, 즉 대규모 언어 모델(LLM) 기반 에이전트와 통계적 모델링 기능을 추가한 에이전트의 성능을 다양한 과학적 과제에서 평가합니다. LLM 기반 에이전트는 실험 설계 및 모델 발견 과제에서 어려움을 겪는 반면, 통계적 모델링 기능을 추가한 에이전트는 일부 과제에서 성능 향상을 보입니다. 하지만, 데이터 부족 시점에서의 모델 과적합 및 단순 기능 형태의 모델 선호 경향이 나타납니다. 자연어 기반 설명을 통한 의사소통 기반 평가는 에이전트의 모델 발견 능력을 평가하는 유용한 방법으로 제시되나, 모든 환경에서 일관적인 성능 향상을 보이지는 않습니다. 전반적으로, 두 에이전트 모두 과학적 문제 해결에 있어 여전히 어려움을 겪고 있으며, 향후 연구를 통해 개선이 필요함을 시사합니다.

Future Research
#

미래 연구 방향에 대한 심도있는 고찰은 본 논문의 핵심적인 부분입니다. BoxingGym의 확장성은 다양한 과학 분야로의 적용 가능성을 시사하며, 실제 과학적 탐구의 복잡성을 더욱 잘 반영하는 방향으로의 발전이 필요합니다. 특히, 시간 및 비용 제약, 실험 설계의 자율성, 다양한 과학 분야의 포괄적인 벤치마킹 등은 향후 연구에서 중점적으로 다뤄야 할 과제입니다. 인간의 의사결정 과정을 더욱 정교하게 모방한 환경 구축을 통해 현실적인 과학적 탐구를 더욱 충실히 반영해야 합니다. **다양한 인터페이스 (데이터 시각화, 심층적 시뮬레이션 등)**를 활용한 연구는 인공지능 에이전트의 이해도 및 예측 성능을 향상시킬 수 있습니다. 통계적 모델링과 자연어 처리 기술의 결합은 과학적 발견의 자동화 과정에 혁신을 가져올 수 있으며, 이러한 기술의 발전과 함께 BoxingGym의 벤치마크 기능 또한 지속적인 업데이트가 필요합니다. 마지막으로, 실험 설계와 모델 발견의 통합적 평가 방식을 개선함으로써, 실제 과학적 연구에 더욱 가까운 평가 체계를 구축하는 것이 중요합니다.

More visual insights
#

More on tables

Environment	Goal	Before	After	After
		Experiments	10 Experiments	Communication
Hyperbolic Discounting	Choice	0.66	1.17	0.66
Location Finding	Signal	0.99	1.45	1.18
Death Process	Num Infected	3.79	-1.02	0.58
IRT	Correctness	0.44	-0.12	-0.08
Dugongs	Length	0.26	-0.08	-0.09
Peregrines	Population	2.71	0.04	0.97
Mastectomy	Survival	0.14	0.55	0.91
Moral Machines	Judgement	0.97	0.89	0.56

🔼 표 2는 Box’s Apprentice라는 에이전트의 다양한 과제에 대한 성능을 보여줍니다. 표에는 과제별 표준 오차와 함께 다양한 과제에 대한 에이전트의 성능 평가 결과가 표시되어 있습니다. 오차는 5번의 실행에 걸쳐 평균된 값입니다. 각 과제에 대해 실험 전, 실험 10회 후, 그리고 설명 후의 에이전트의 성능을 보여주어, 실험과 설명이 모델 발견 능력에 미치는 영향을 비교 분석할 수 있도록 합니다. 즉, 실험 전 예측 성능, 10회의 실험 후 예측 성능, 그리고 설명을 통한 예측 성능을 각 과제에 대해 비교하여 에이전트의 학습 및 적응 능력을 평가합니다.
read the caption
Table 2: Performance of Box’s Apprentice Across Different Tasks. Standardized errors shown here. Errors are averaged across 5 runs.

Env	Goal	EI Regret (gpt-4o)	EI Regret (box’s apprentice)
Hyperbolic Discounting	Choice	0.57 / 0.61	0.55 / 0.62
	Discount	0.69 / -	- / -
Location Finding	Signal	15.3 / 11.8	12.6 / 15.3
	Source Location	16.8 / -	- / -
Death Process	Num Infected	0.037 / 0.042	0.029 / 0.019
	Infection Rate	0.108 / -	- / -
IRT	Correctness	0.035 / 0.031	0.031 / 0.033
Dugongs	Length	0.20 / 0.17	0.19 / 0.20
Peregrines	Population	0.26 / 0.38	0.25 / 0.66
Mastectomy	Survival	0.084 / 0.082	0.079 / 0.075
Predator-Prey	Population	- / -	- / -
Emotions	Prediction	0.538 / -	- / -
Moral Machines	Judgement	0.046 / -	0.045 / -

🔼 이 표는 논문의 실험 설계 평가 부분에서 GPT-40과 Box’s Apprentice 두 가지 에이전트의 성능을 보여줍니다. 각 에이전트는 10가지 과학적 환경에서 실험을 설계하고, 그에 따른 예상 정보 이득(EIG)을 측정합니다. 표에는 각 과제에 대한 두 에이전트의 EIG 값이 제시되어 있는데, 사전 정보가 있는 경우와 없는 경우를 ‘/‘로 구분하여 나타냅니다. 이를 통해 각 에이전트의 실험 설계 능력과 사전 정보 활용 능력을 정량적으로 비교 분석할 수 있습니다.
read the caption
Table 3: EI Regrets for GPT-4o and Box’s Apprentice Across Different Tasks. EI regrets for prior and no prior conditinos are separated by ‘/’.

Env	Goal	Error@0	Error@10	Discovery@10
Hyperbolic Discounting	Choice	0.31 ± 0.18, 0.96 ± 0.14	0.74 ± 0.21, 0.95 ± 0.07	0.74 ± 0.14, 1.0 ± 0.00
Hyperbolic Discounting	Discount	-0.06 ± 0.00, -	-0.06 ± 0.00, -	-, -
Location Finding	Signal	0.96 ± 0.58, 1.17 ± 0.60	1.24 ± 0.96, 0.5 ± 0.54	0.97 ± 0.72, 0.63 ± 0.71
Location Finding	Source Location	1.29 ± 1.3, -	-0.15 ± 0.4, -	-, -
Death Process	Num Infected	1.19 ± 1.09, 0.19 ± 0.96	0.46 ± 0.76, 0.74 ± 1.14	0.75 ± 0.75, 1.61 ± 1.60
Death Process	Infection Rate	0.13 ± 0.37, -	1.64 ± 1.12, -	-, -
IRT	Correctness	0.00 ± 0.00, -0.16 ± 0.26	0 ± 0.11, 0.08 ± 0.32	-0.28 ± 0.26, -0.16 ± 0.20
Dugongs	Length	0.06 ± 0.12, -0.02 ± 0.04	-0.09 ± 0.00, -0.08 ± 0.00	-0.08 ± 0.01, -0.08 ± 0.01
Peregrines	Population	2.29 ± 1.20, 2.21 ± 1.57	-0.65 ± 0.03, -0.67 ± 0.01	-0.63 ± 0.06, -0.66 ± 0.02
Mastectomy	Survival	0.18 ± 0.37, 0.00 ± 0.28	0.27 ± 0.19, 0.36 ± 0.27	1.00 ± 0.27, 0.21 ± 0.16
Predator-Prey	Population	0.08 ± 0.09, 0.73 ± 0.05	-0.45 ± 0.02, -0.43 ± 0.02	-0.26 ± 0.16, -0.40 ± 0.03
Emotions	Prediction	0.74 ± 0.29, -	0.82 ± 0.34, -	0.87 ± 0.35, -
Moral Machines	Judgement	0.32 ± 0.26, -	0.44 ± 0.16, -	0.60 ± 0.13, -

🔼 표 4는 GPT-40 모델이 다양한 과학적 과제를 수행했을 때의 성능을 보여줍니다. 표에는 과제 유형, 사전 정보 유무에 따른 표준화된 오차, 평균 오차가 표시됩니다. 각 과제는 5번 반복하여 평균 오차를 계산했습니다. 상단 행은 사전 정보가 있는 경우, 하단 행은 사전 정보가 없는 경우의 결과입니다.
read the caption
Table 4: Performance of GPT-4o Across Different Tasks. Numbers shown are standardized errors. Errors with prior (top line) and without prior (bottom line) appear on different lines. Errors are averaged across 5 runs.

Env	Goal	Error@0	Error@10	Discovery@10
Hyperbolic Discounting	Choice	0.66 ± 0.25 0.66 ± 0.25	1.17 ± 0.14 0.91 ± 0.09	0.66 ± 0.30 0.74 ± 0.42
Location Finding	Signal	0.99 ± 0.58 1.18 ± 0.64	1.45 ± 1.60 0.83 ± 0.600	1.18 ± 1.12 -0.01 ± 0.30
Death Process	Num Infected	3.79 ± 1.68 -0.90 ± 0.05	-1.02 ± 0.05 -0.61 ± 0.30	0.58 ± 0.85 0.50 ± 1.26
IRT	Correctness	0.44 ± 0.36 0.12 ± 0.24	-0.12 ± 0.14 0.12 ± 0.14	-0.08 ± 0.39 0.2 ± 0.40
Dugongs	Length	0.26 ± 0.12 0.05 ± 0.10	-0.08 ± 0.02 -0.09 ± 0.004	-0.09 ± 0.005 -0.08 ± 0.004
Peregrines	Population	2.71 ± 0.60 1.62 ± 0.47	0.04 ± 0.21 0.95 ± 0.86	0.97 ± 1.38 -0.19 ± 0.79
Mastectomy	Survival	0.14 ± 0.41 0.73 ± 0.15	0.55 ± 0.24 0.64 ± 0.15	0.91 ± 0.28 0.27 ± 0.23
Moral Machines	Judgement	0.97 ±i 0.33	0.89 ± 0.21	0.56 ± 0.18

🔼 표 5는 Box’s Apprentice 에이전트의 다양한 과제에 대한 성능을 보여줍니다. 표준 오차가 표시되며, 사전 정보가 있는 경우와 없는 경우의 오차가 별도로 표시됩니다. 각 값은 5번의 실행에 걸쳐 평균된 값입니다. 이 표는 에이전트가 과제를 얼마나 잘 수행했는지, 그리고 사전 정보가 에이전트의 성능에 미치는 영향을 정량적으로 보여줍니다.
read the caption
Table 5: Performance of Box’s Apprentice Across Different Tasks. Standardized errors shown here. Errors with prior (top line) and without prior (bottom line) appear on different lines. Errors are averaged across 5 runs.

Parameter	Description
Model	Superposition of K signal sources in d-dim space
Setup Parameters	Num signal sources K, dim of space d, base signal b, max signal m, noise σ
Observations	Total noisy signal at point of measurement
Goals	Predicting signal intensity at new points and source locations

🔼 표 6은 위치 찾기 환경에 대한 설명입니다. 이 환경에서는 신호를 방출하는 숨겨진 신호원이 있으며, 과학자는 다양한 지점에서 중첩된 신호를 측정할 수 있습니다. 본 실험은 포스터 등의 연구(Foster et al. [14])에서 직접적으로 가져왔습니다. 표에는 입력과 출력이 설명되어 있으며, 신호원의 위치와 신호 강도를 예측하는 것이 목표입니다. 신호 강도는 역제곱 법칙에 따라 감소하며, 배경 신호와 최대 신호 강도를 조절하는 상수가 있습니다. 포스터 등의 연구와 달리, 총 강도를 관찰합니다.
read the caption
Table 6: Location Finding

Parameter	Description
Model	Human decision-making in temporal discounting of rewards
Setup Parameters	Params of the discount function (ϵ, mean and std for log k, scale for α)
Observations	Choice between immediate iR and delayed reward dR at delay D
Goals	Predicting choices and the value of the discount factor

🔼 표 7은 과학적 발견 과정에서 실험 설계 및 모델 발견 능력을 평가하기 위한 벤치마크인 BoxingGym 프레임워크에 대한 정보를 제공합니다. 특히, 과감한 시간적 할인(Hyperbolic Temporal Discounting) 환경에 대해 설명합니다. 이 환경에서 과학자 에이전트는 참가자의 즉각적인 보상과 지연된 보상 간의 선택을 관찰하여 참가자의 시간적 할인 요소를 이해해야 합니다. 표에는 모델의 매개변수, 관찰값, 목표가 포함되어 있습니다.
read the caption
Table 7: Hyperbolic Discounting

Parameter	Description
Model	The spread of an infection over time
Setup Parameters	Pop size $N$ , params of the infetion rate ( $""\mu$ , $""\sigma$ , upper and lower bounds)
Observations	Number of infected individuals at observation time
Goals	Predicting the number of infected individuals at a time and the infection rate

🔼 표 8은 BoxingGym 벤치마크의 환경 중 하나인 ‘Death Process’ 환경에 대한 설명을 담고 있습니다. 이 환경은 시간에 따라 건강한 개체군 내에서 감염이 확산되는 과정을 모델링합니다. 표에는 모델, 설정 매개변수, 관찰값, 목표 등이 포함되어 있어 Death Process 환경을 정의하는 데 필요한 요소들을 종합적으로 보여줍니다. 설정 매개변수에는 감염률, 인구 크기 등의 요소들이 포함되며, 관찰값은 특정 시점의 감염자 수, 목표는 시간에 따른 감염자 수 및 감염률 예측으로 구성됩니다.
read the caption
Table 8: Death Process

Param	Description
Model	Student performance on multi-question exams
Setup Parameters	Number of students $N$ , number of questions $Q$ , student-question pair to predict
Observations	Outcomes of various student-question pairs
Goals	Predicting the correctness of student responses to questions

🔼 표 9는 Item Response Theory(IRT) 모델에 대한 설명을 제공합니다. IRT 모델은 학생의 능력과 질문의 난이도를 고려하여 학생의 질문에 대한 정답률을 예측하는 통계적 모델입니다. 표에서는 IRT 모델의 매개변수, 설정 매개변수, 관측값, 목표 등에 대한 설명을 보여줍니다. IRT 모델의 세 가지 변형(1PL, 2PL, 3PL) 중 2PL 모델에 대한 자세한 내용도 포함하고 있습니다.
read the caption
Table 9: IRT Model

Parameter	Description
Model	Bayesian hierarchical model
Setup Parameters	alpha, beta, lambda, lower limit, upper limit
Observations	Length of dugong at a given age
Goals	Predicting the length of dugongs at different ages

🔼 표 10은 논문의 Dugongs 환경에 대한 설명입니다. 이 표는 Bayesian 계층적 모델을 사용하여 dugong의 길이를 예측하는 실험 환경을 자세히 설명합니다. 모델 매개변수, 관측값, 목표 등의 정보를 포함하고 있습니다. 본질적으로는 dugong의 나이와 길이 사이의 관계를 모델링하고 예측하는 데 사용되는 통계적 모델에 대한 세부 정보를 제공합니다.
read the caption
Table 10: Dugongs Environment

Parameter	Description
Model	Poisson regression model
Setup Parameters	Regression params: α, β₁, β₂, and β₃
Observations	Population count of peregrine falcons at a given time
Goals	Predicting the population of peregrines at different times

🔼 이 표는 논문의 3.4절 도메인 섹션에 있는 표 11입니다. 이 표는 Peregrine 환경에 대한 설명을 제공합니다. Peregrine 환경은 시간에 따른 Peregrine Falcon 개체 수 변화를 모델링하는 환경입니다. 이 표는 환경에 사용된 모델, 설정 매개변수, 관측값, 목표 등을 보여줍니다.
read the caption
Table 11: Peregrine Environment

Parameter	Description
Model	Survival analysis using a Bayesian approach
Setup Parameters	num_patients, time_upper_bound, lambda, beta
Observations	Whether a selected patient is alive or dead
Goals	Predict survival based on time since surgery and if the cancer had metastasized

🔼 표 12는 유방암 환자의 생존율을 모델링하는 생존 분석 환경에 대한 설명입니다. 이 환경에서는 수술 후 시간과 전이 여부를 기반으로 환자의 생존 여부를 예측합니다. 표에는 환경에 대한 매개변수, 모델, 설정 매개변수, 관찰값 및 목표 등의 정보가 포함되어 있습니다. 자세한 내용은 본문을 참조하세요.
read the caption
Table 12: Survival Analysis Environment

Parameter	Description
Model	Lotka-Volterra equations
Setup Parameters	Initial prey population, initial predator population, α, β, γ, and δ
Observations	Populations of prey and predators at a given time
Goals	Predicting populations

🔼 표 13은 논문의 ‘3.4 도메인’ 섹션에 있는 포식자-피식자 환경에 대한 설명입니다. 이 표는 시뮬레이션된 포식자와 피식자 개체군의 상호 작용을 모델링하는 Lotka-Volterra 방정식에 기반한 환경을 보여줍니다. 여기에는 모델(Lotka-Volterra 방정식), 설정 매개변수(초기 포식자 및 피식자 개체군 크기, α, β, γ, δ), 관측값(주어진 시간에 포식자 및 피식자 개체군), 목표(개체군 예측) 등이 포함됩니다.
read the caption
Table 13: Predator-Prey Environment

Parameter	Description
Model	Forward regression model with priors for emotional response
Setup Parameters	Prize values, probabilities, outcome, LLM
Observations	Prediction in natural language of how a player feels and why
Goals	Predicting what a participant thinks a player feels on a likert scale of 8 emotions.

🔼 이 표는 논문의 ‘3.4 도메인’ 섹션에 있는 감정 예측 환경에 대한 설명입니다. 참가자가 돈이 걸린 게임에서 룰렛을 돌린 후 플레이어의 감정을 예측하는 시나리오를 보여줍니다. 표에는 모델의 매개변수, 관측값, 목표 등이 포함되어 더 자세한 내용을 이해하는 데 도움이 됩니다. 본질적으로 플레이어의 감정 반응을 예측하기 위해 사용되는 예측 모델의 구성 요소를 설명합니다.
read the caption
Table 14: Emotions From Outcomes Environment

Parameter	Description
Model	Logistic regression model with priors for moral decision-making
Setup Parameters	Character attributes, intervention type, LLM
Observations	Prediction in natural language of which group to save and why
Goals	Predicting which group participants choose to save

🔼 표 15는 도덕적 기계 환경에 대한 설명입니다. 자율 주행 자동차가 도덕적 딜레마 상황에서 어떤 그룹을 구할지 결정해야 하는 시나리오를 제시합니다. 각 그룹의 등장인물은 유모차, 소년, 소녀, 임산부, 남성 의사, 여성 의사, 여성 운동선수, 남성 운동선수, 여성 임원, 남성 임원, 큰 여성, 큰 남성, 노숙자, 노인 남성, 노인 여성, 범죄자, 개, 고양이 중 하나일 수 있습니다. 모델은 등장인물의 속성(성별, 나이, 사회적 지위, 체력, 종)과 개입 유형을 고려하여 그룹을 선택합니다. 표는 이러한 요소의 영향을 보여주는 회귀 계수를 포함합니다.
read the caption
Table 15: Moral Machines Environment

TL;DR#

Key Takeaways#

Why does it matter?#

Visual Insights#

In-depth insights#

LLM-Based Science#

BoxingGym Design#

EIG & Explanations#

Agent Performance#

Future Research#

More visual insights#

Full paper#