蜜蜂理论 – 基础 – 技术说明 XI

识别缺失参数：
步骤 1 – 系统相关性分析

在修改模型之前，本注释先诊断哪个可观测参数能最好地预测残余误差。我们以注释 VIII 中的 22 个星系校准集为基础，测试了预测误差与每一个有物理意义的变量的相关性，然后又测试了与每一个双变量组合的相关性，以严格确定当前模型遗漏了什么。

1.第一项结果

缺少的参数是中心表面密度

重子中心表面密度 $\Sigma_d$ 与预测误差具有最强的非三维相关性：$r = +0.62$，其本身的相关性为 $R^2 = 0.39$。

在一个二元模型中，将 $\Sigma_d$ 与磁盘大小 $R_d$ 结合起来，可以解释残差方差中的 $R^2 = 0.43$，而单独使用 $R_d$ 时的残差方差为 $R^2 = 0.07$。残差均方根从 $19.5\%$ 下降到 $14.9\%$。

在同时吸收了 $R_d$ 和 $\Sigma_d$ 之后，就没有额外的物理观测值携带有关残差的信息了。

2.方法

根据 22 个星系的校准集（注 VIII），我们可以得到每个星系的预测误差 $text{err} = (V_text{tot} – V_f)/V_f$ 和一系列可测量的物理参数。我们计算误差与每个候选变量之间的皮尔逊和斯皮尔曼相关性，然后检验形式为{text{tot}}的二元回归：

$$text{err}(%) \;=\; a \cdot R_d \;+\; b \cdot X \;+\; c$$

其中 $X$ 是每个候选变量。最佳的 $X$ 是能使 22 个星系的解释方差 $R^2$ 最大化的变量。自相关变量–那些从模型输出中得出的变量，如 $V_\text{wave}$ 或 $V_\text{tot}$ –被排除在搜索之外，因为它们与误差的相关性是同义的。

3.单变量相关性

按与误差的绝对皮尔逊相关性排列的 24 个候选测试变量。金色阴影行是由模型本身导出的变量（同义反复）；红色阴影行是$|r|>0.5$的真正物理观测变量。

可变	说明	皮尔逊 $r$	$p$-value	重要意义
Vw_over_Vf	Vw / Vf 比率	+0.974	0.0000	★★★
V_dynamical	V_dyn = √（GM_bar/Rd）	+0.632	0.0021	★★★
log_Sigma_d	log₁₀(Σ_d)	+0.622	0.0026	★★★
M_gas	气体质量（M_sun）	+0.609	0.0034	★★★
M_HI	HI 质量（M_sun）	+0.609	0.0034	★★★
T	哈勃类型	-0.585	0.0053	★★
Vbar	重子 Vbar（千米/秒）	+0.582	0.0057	★★
M_bar_over_Rd2	M_bar / Rd²	+0.559	0.0084	★★
Vtot	预测 Vtot（千米/秒）	+0.555	0.0090	★★
大众	波速 Vw（千米/秒）	+0.550	0.0098	★★
Vbar_over_Vf	Vbar / Vf 比率	+0.519	0.0158	★★
log_M_gas	log₁₀ (M_gas)	+0.506	0.0193	★★
log_M_bar	log₁₀(M_bar)	+0.505	0.0196	★★
M_bar	重子质量（M_sun）	+0.498	0.0214	★★
日志_M_星	log₁₀(M_star)	+0.449	0.0414	★★
西格玛_d	表面密度（升/平方厘米）	+0.426	0.0544	★★
M_star_over_Rd2	M_star / Rd²	+0.426	0.0544	★★
M_star	恒星质量（M_sun）	+0.389	0.0815	★

读表

最高的一个相关系数是 $V_\text{wave}/V_f = +0.974$。这是同义反复：根据构造，误差直接与 $V_\text{wave}$ 成比例，因此这个变量只是反映了预测公式的结构，而不是外部物理驱动力。

在真正的物理观测值中，相关性最高的是：$log(\Sigma_d) = +0.622$、$V_\text{dynamical} = +0.632$、$M_\text{gas} = +0.609$和哈勃类型 $T = -0.585$。这四个信号在物理上是相关联的：致密盘往往质量更大、类型更早、重子动力学速度更高。问题是哪一个才是根本驱动力。

4.过滤多余变量

其中几个相关性最高的变量本身与 $R_d$（已知会导致误差的变量）密切相关。问题是哪个变量携带独立信息。

可变	与 $R_d$ 的相关性	现状
$\log(M_\star)$	$r = +0.88$	与 $R_d$ 冗余
$\log(M_text{bar})$	$r = +0.87$	与 $R_d$ 冗余
$\log(M_text{gas})$	$r = +0.86$	与 $R_d$ 冗余
哈勃类型 $T$	$r = -0.66$	部分冗余
$V_text{dynamical}$	$r = +0.50$	部分独立
$M_\text{bar}/R_d^2$	$r = -0.19$	独立
$log(\Sigma_d)$	$r = +0.10$	独立

质量与 $R_d$ 几乎完全相关：更大的磁盘只是包含了更多的重子物质。因此，这些变量所携带的信息与 $R_d$ 本身基本相同。相反，在这个样本中，$\Sigma_d$（中心表面密度）和$M_\text{bar}/R_d^2$（平均重子表面密度）与$R_d$几乎是正交的：它们捕捉到了 “物质的紧密程度 “这一结构特性，而与 “磁盘的扩展程度 “无关。

5.误差与表面密度–可视化

与 $\log_{10}(\Sigma_d)$ 的单独误差对比图，按哈勃类型着色：

单变量拟合误差$(\%) = 33\log(\Sigma_d) – 60$，Pearson $r = 0.62$，$R^2 = 0.39$。

这一趋势是明显的、单调的：BeeTheory系统地高估了中心表面密度较高的星系，而低密度的弥漫盘则被低估了。每10年$\Sigma_d$的拟合斜率为33个百分点，在从15到605 $L_\odot/\text{pc}^2$的整个范围内都与数据十分吻合。

6.二元模型–比较

将 $R_d$ 添加到每个候选变量中可以得到更清晰的排序。下表显示了 $R_d$ 与第二个变量配对时的解释方差 $R^2$（同义反复的组合除外）：

二元模型	$R^2$	均方根残差	说明
$text{err} = a R_d + c$ （单变量基线）	0.074	$19.5\%$	参考，无第二个变量
$\text{err} = a R_d + b f_text{gas}+ c$	0.101	$19.3\%$	改善甚微
$text{err} = a R_d + b \log M_\star + c$	0.272	$17.3\%$	–
$\text{err} = a R_d + b V_text{bar}+ c$	0.345	$16.4\%$	–
$\text{err} = a R_d + b \log M_\text{gas}+ c$	0.359	$16.3\%$	–
$text{err} = a R_d + b T + c$	0.367	$16.2\%$	–
$\text{err} = a R_d + b \log M_\text{bar}+ c$	0.373	$16.1\%$	–
$\text{err} = a R_d + b\,V_text{dynamical} + c$	0.402	$15.7\%$	强大
$text{err} = a R_d + b\log\Sigma_d + c$	0.430	$15.3\%$	与 $R_d$ 无关
$\text{err} = a R_d + b (M_\text{bar}/R_d^2) + c$	0.459	$14.9\%$	最佳非同构模型

最佳双变量模型

$$\text{err}(%) \;=\; a\,R_d \;+\; b\,\frac{M_\text{bar}}{R_d^2}\c, qquad R^2 = 0.46$$

变量 $M_\text{bar}/R_d^2$ 是磁盘的平均重子表面密度，$\langle \Sigma_\text{bar} = M_\\text{bar}/R_d^2$ 是磁盘的平均重子表面密度。\rangle = M_\text{bar}/(\pi R_d^2)$.它包含了可见物质有多紧凑的信息，与磁盘有多大无关。这是 “蜜蜂理论 “目前无法解释的变量。

7.闭合检查 – 计算 $R_d$ 和 $\Sigma_d$ 后的剩余部分

如果 $R_d$ 和 $log \Sigma_d$ 一起捕捉到了结构缺陷，那么二元拟合的残差就应该与每个物理观测值无关。这就是形式上的闭合检验：

可变	与残差的相关性	现状
$R_d$	$+0.00$	按施工
$log \Sigma_d$	$+0.00$	按施工
$\log M_\star$	$-0.05$	吸收
$log M_text\{bar}$	$+0.07$	吸收
$log M_text\{gas}$	$+0.14$	吸收
哈勃类型 $T$	$-0.04$	吸收
$V_text{dynamical}$	$+0.08$	吸收
$V_\text{bar}$	$+0.05$	吸收
$f_\text{gas}$	$+0.28$	边缘；低于显著性

在考虑了 $R_d$ 和 $log \Sigma_d$ 后，没有任何物理观测变量与残差保持显著的相关性。误差中的结构信息已被这两个变量完全捕获。剩余的 15%$ 均方根误差与SPARC 输入参数的观测不确定性以及星系与星系之间的内在可变性是一致的，而这些总体描述因子都没有捕捉到。

8.物理解释

目前的蜜蜂理论模型在两个地方使用了磁盘尺度长度 $R_d$：作为重子分布的空间尺度（指数曲线 $Sigma propto e^{-R/R_d}$）和波核的相干长度（$ell = c_text{disk},R_d$）。重子剖面的振幅 $\Sigma_0$ 是隐含的，一旦积分就会按比例给出正确的恒星质量。

表面密度的物理意义

重子平均表面密度 $langle Sigma_text{bar} rangle = M_text{bar}/(pi R_d^2)$ 是圆盘单位面积的质量。两个$R_d$相同但$\Sigma_d$不同的星系，其几何范围相同，但所包含的物质数量不同。目前的模型只将几何范围（$R_d$）视为与波相干长度相关，而忽略了物质的集中程度。这正是残差分析认为缺少的参数。

影响的方向

相关性是正的：误差随表面密度的增加而增加。这意味着，对于固定的 $R_d$，模型对密度较大的圆盘预测过高–相对于旋转曲线，波场太强了。相反，对于给定的 $R_d$，模型对弥散的低密度盘的预测不足。一个合理的物理解释是：波的相干长度不仅取决于波源的几何范围，还取决于波源的密度。这自然会抑制高σ盘的波场振幅，而增强低σ盘的波场振幅。

9.步骤 1 摘要

1.在 22 个星系的校准集上，预测误差与真正物理观测值中的中心表面密度 $\Sigma_d$ （$r = +0.62$）相关性最强。

2.其他一些最初看起来相关性很强的变量（恒星质量、气体质量、重子质量）被证明与 $R_d$ 高度冗余（与 $R_d$ 的相关性为 $\geq 0.86$），因此几乎没有新的信息。

3.最佳的非自传二元模型是 $\text{err} = a\,R_d + b\,(M_\text{bar}/R_d^2) + c$，R^2 = 0.46$，均方根残差为 14.9%$。第二个变量是磁盘的平均重子表面密度。

4.在考虑 $R_d$ 和 $\Sigma_d$ 后，没有其他可观测变量与残差保持显著相关。诊断结束。

5.缺失的参数已经确定：目前的蜜蜂理论模型考虑了重子分布的几何范围（$R_d$），但没有考虑其表面密度（$\Sigma_d$）。下一步是把 $\Sigma_d$ 作为波相干长度的第二个输入，然后在 22 个星系集上重新拟合模型。

参考文献Lelli, F., McGaugh, S. S., Schombert, J. M. –SPARC: Mass Models for 175 DiskGalaxies with Spitzer Photometry and Accurate RotationCurves, AJ 152, 157 (2016).- Pearson, K. –Mathematical contributions to the theory of evolution III, Phil.Trans. R. Soc.R. Soc. A 187, 253 (1896).相关系数。- Dutertre, X. –Bee Theory™：Wave-BasedModeling of Gravity, v2, BeeTheory.com (2023).

识别缺失参数：步骤 1 – 系统相关性分析