BeeTheory – Fundamentos – Nota técnica XI

Identificar el parámetro que falta:
Paso 1 – Análisis de correlación sistemática

Antes de modificar el modelo, esta nota diagnostica qué parámetro observable predice mejor el error residual. Trabajando sobre el conjunto de calibración de 22 galaxias de la nota VIII, probamos la correlación del error de predicción con cada variable físicamente significativa, y luego con cada combinación bivariada, para identificar rigurosamente lo que el modelo actual ha omitido.

1. El resultado primero

El parámetro que falta es la densidad de superficie central

La densidad de superficie bariónica central $\Sigma_d$ tiene la correlación no trivial más fuerte con el error de predicción: $r = +0,62$, $R^2 = 0,39$ por sí sola.

La combinación de $\Sigma_d$ con el tamaño del disco $R_d$ en un modelo bivariante explica $R^2 = 0,43$ de la varianza residual, frente a $R^2 = 0,07$ con $R_d$ solo. El residual RMS desciende de $19,5\%$ a $14,9\%$.

Tras absorber tanto $R_d$ como $\Sigma_d$, ningún observable físico adicional aporta información sobre el residual.

2. Método

Trabajando sobre el conjunto de calibración de 22 galaxias (Nota VIII), para cada galaxia tenemos el error de predicción $text{err} = (V_text{tot} – V_f)/V_f$ y una lista de parámetros físicos medibles. Calculamos las correlaciones de Pearson y Spearman entre el error y cada variable candidata, y luego probamos regresiones bivariadas de la forma:

$$\text{err}(\%) \;=\; a \cdot R_d \;+\; b \cdot X \;+\; c$$

donde $X$ es cada variable candidata. La mejor $X$ es la que maximiza la varianza explicada $R^2$ en las 22 galaxias. Las variables autorreferenciales -las derivadas de la salida del modelo, como $V_\text{wave}$ o $V_\text{tot}$- se excluyen de la búsqueda, ya que su correlación con el error es tautológica.

3. Correlaciones univariantes

Las 24 variables candidatas probadas, clasificadas por correlación absoluta de Pearson con el error. Las filas sombreadas en dorado son variables derivadas del propio modelo (tautológicas); las filas sombreadas en rojo son auténticos observables físicos con $|r| > 0,5$.

Variable	Descripción	Pearson $r$	Valor $p	Significado
Vw_sobre_Vf	Relación Vw / Vf	+0.974	0.0000	★★★
V_dinámico	V_dyn = √(GM_bar/Rd)	+0.632	0.0021	★★★
log_Sigma_d	log₁₀(Σ_d)	+0.622	0.0026	★★★
M_gas	Masa de gas (M_sun)	+0.609	0.0034	★★★
M_HI	Masa HI (M_sun)	+0.609	0.0034	★★★
T	Tipo Hubble	-0.585	0.0053	★★
Vbar	Vbar bariónico (km/s)	+0.582	0.0057	★★
M_bar_sobre_Rd2	M_bar / Rd²	+0.559	0.0084	★★
Vtot	Vtot previsto (km/s)	+0.555	0.0090	★★
Vw	Onda Vw (km/s)	+0.550	0.0098	★★
Vbar_sobre_Vf	Relación Vbar / Vf	+0.519	0.0158	★★
log_M_gas	log₁₀(M_gas)	+0.506	0.0193	★★
log_M_bar	log₁₀(M_bar)	+0.505	0.0196	★★
M_bar	Masa bariónica (M_sun)	+0.498	0.0214	★★
log_M_estrella	log₁₀(estrella_M)	+0.449	0.0414	★★
Sigma_d	Densidad superficial (L/pc²)	+0.426	0.0544	★★
M_estrella_sobre_Rd2	M_star / Rd²	+0.426	0.0544	★★
M_star	Masa estelar (M_sun)	+0.389	0.0815	★

Lectura de la tabla

La correlación única más alta es $V_\text{wave}/V_f = +0,974$. Esto es tautológico: por construcción, el error escala directamente con $V_\text{onda}$, por lo que esta variable refleja simplemente la estructura de la fórmula de predicción, no un factor físico externo.

Entre los observables físicos genuinos, las correlaciones más altas son $\log(\Sigma_d) = +0,622$, $V_\text{dinámico} = +0,632$, $M_\text{gas} = +0,609$, y el tipo de Hubble $T = -0,585$. Estas cuatro señales están conectadas físicamente: los discos densos tienden a ser más masivos, de tipo más temprano, y tienen una velocidad dinámica bariónica más alta. La cuestión es cuál es el motor fundamental.

4. Filtrar las variables redundantes

Varias de las variables más correlacionadas están a su vez fuertemente correlacionadas con $R_d$, la variable que ya se sabe que impulsa el error. La cuestión es cuál lleva información independiente.

Variable	Correlación con $R_d$	Estado
$\log(M_\star)$	$r = +0.88$	Redundante con $R_d$
$\log(M_\text{bar})$	$r = +0.87$	Redundante con $R_d$
$\log(M_\text{gas})$	$r = +0.86$	Redundante con $R_d$
Hubble tipo $T$	$r = -0.66$	Parcialmente redundante
$V_\texto{dinámico}$	$r = +0.50$	Parcialmente independiente
$M_\text{bar}/R_d^2$	$r = -0.19$	Independiente
$\log(\Sigma_d)$	$r = +0.10$	Independiente

Las masas se correlacionan con $R_d$ casi a la perfección: un disco más grande simplemente contiene más material bariónico. Por tanto, estas variables aportan esencialmente la misma información que el propio $R_d$. En cambio, $\Sigma_d$ (densidad superficial central) y $M_\text{bar}/R_d^2$ (densidad superficial bariónica media) son casi ortogonales a $R_d$ en esta muestra: captan la propiedad estructural de «lo compacta que es la materia», independientemente de «lo extendido que esté el disco».

5. Error frente a densidad de superficie – visualización

Trazado del error frente a $\log_{10}(\Sigma_d)$ solo, coloreado por tipo Hubble:

Error de ajuste univariante$(\%) = 33\log(\Sigma_d) – 60$, Pearson $r = 0,62$, $R^2 = 0,39$.

La tendencia es clara y monótona: las galaxias con mayor densidad superficial central están sistemáticamente sobrepredichas por BeeTheory, mientras que los discos difusos de baja densidad están infrapredichos. La pendiente de ajuste de $33$ puntos porcentuales por década de $\Sigma_d$ coincide sólidamente con los datos en todo el rango de 15 a 605 $L_\odot/\text{pc}^2$.

6. Modelos bivariantes – comparación

Añadiendo $R_d$ a cada variable candidata se obtiene una clasificación más clara. La tabla siguiente muestra la varianza explicada $R^2$ cuando $R_d$ se empareja con cada segunda variable (combinaciones tautológicas excluidas):

Modelo bivariante	$R^2$	RMS residual	Notas
$\text{err} = a R_d + c$ (línea de base univariante)	0.074	$19.5\%$	Referencia, sin segunda variable
$\text{err} = a R_d + b f_\text{gas} + c$	0.101	$19.3\%$	Mejora insignificante
$\text{err} = a R_d + b \log M_\star + c$	0.272	$17.3\%$	–
$\text{err} = a R_d + b V_\text{bar} + c$	0.345	$16.4\%$	–
$\text{err} = a R_d + b \log M_\text{gas} + c$	0.359	$16.3\%$	–
$\text{err} = a R_d + b T + c$	0.367	$16.2\%$	–
$\text{err} = a R_d + b \log M_\text{bar} + c$	0.373	$16.1\%$	–
$\text{err} = a R_d + b\,V_\text{dinámica} + c$	0.402	$15.7\%$	Fuerte
$\text{err} = a R_d + b \log\Sigma_d + c$	0.430	$15.3\%$	Independiente de $R_d$
$\text{err} = a R_d + b (M_\text{bar}/R_d^2) + c$	0.459	$14.9\%$	Mejor modelo no tautológico

El mejor modelo bivariante

$$\text{err}(\%) \;=\; a\,R_d \;+\; b\,\frac{M_\text{bar}}{R_d^2} \;+\; c, \qquad R^2 = 0.46$$

La variable $M_\text{bar}/R_d^2$ es la densidad superficial bariónica media del disco, $\langle \Sigma_\text{bar} \rangle = M_\text{bar}/(\pi R_d^2)$. Conlleva información sobre lo compacta que es la materia visible, independientemente de lo grande que sea el disco. Esta es la variable que la Teoría de la Abeja no tiene en cuenta actualmente.

7. Comprobación de cierre: lo que queda después de contabilizar $R_d$ y $\Sigma_d$.

Si $R_d$ y $\log \Sigma_d$ capturan juntos el defecto estructural, el residuo del ajuste bivariante debería estar descorrelacionado con cada observable físico. Probar esto es la comprobación formal del cierre:

Variable	Correlación con el residuo	Estado
$R_d$	$+0.00$	Por construcción
$\log \Sigma_d$	$+0.00$	Por construcción
$\log M_\star$	$-0.05$	Absorbido
$\log M_\text{bar}$	$+0.07$	Absorbido
$\log M_\text{gas}$	$+0.14$	Absorbido
Hubble tipo $T$	$-0.04$	Absorbido
$V_\texto{dinámico}$	$+0.08$	Absorbido
$V_\text{bar}$	$+0.05$	Absorbido
$f_\text{gas}$	$+0.28$	Marginal; por debajo de la significación

Tras tener en cuenta $R_d$ y $\log \Sigma_d$, ningún observable físico conserva una correlación significativa con el error residual. La información estructural del error ha sido captada totalmente por estas dos variables. La dispersión RMS restante de $15%$ es coherente con la incertidumbre observacional en los parámetros de entrada del SPARC y con la variabilidad intrínseca de galaxia a galaxia no captada por ninguno de estos descriptores agregados.

8. Interpretación física

El modelo BeeTheory actual utiliza la longitud de escala del disco $R_d$ en dos lugares: como escala espacial de la distribución bariónica (el perfil exponencial $Sigma propto e^{-R/R_d}$) y como longitud de coherencia del núcleo de ondas ($ell = c_text{disk},R_d$). La amplitud del perfil bariónico $\Sigma_0$ está implícita, escalada para dar la masa estelar correcta una vez integrada.

Qué representa físicamente la densidad superficial

La densidad superficial bariónica media $langle Sigma_text{bar} rangle = M_text{bar}/(pi R_d^2)$ es la masa por unidad de superficie del disco. Dos galaxias con el mismo $R_d$ pero diferente $\Sigma_d$ tienen la misma extensión geométrica pero diferentes cantidades de materia empaquetada. El modelo actual sólo trata la extensión geométrica ($R_d$) como relevante para la longitud de coherencia de onda, ignorando lo concentrada que está la materia. Este es precisamente el parámetro que el análisis residual identifica como ausente.

La dirección del efecto

La correlación es positiva: el error crece con la densidad superficial. Esto significa que, para $R_d$ fija, los discos más densos son sobrepredichos por el modelo: el campo de ondas es demasiado fuerte en relación con la curva de rotación. A la inversa, para un $R_d$ dado, el modelo infrapredice los discos difusos de baja densidad. Una interpretación física plausible: la longitud de coherencia de la onda debería depender no sólo de la extensión geométrica de la fuente, sino también de su concentración, con una materia más densa que produce una respuesta de onda más localizada. Esto suprimiría de forma natural la amplitud del campo de ondas en los discos de alto$\Sigma$ y la aumentaría en los de bajo$\Sigma$.

9. Resumen de la etapa 1

1. En el conjunto de calibración de 22 galaxias, el error de predicción se correlaciona más fuertemente con la densidad de la superficie central $\Sigma_d$ ($r = +0,62$) entre los observables físicos genuinos.

2. Otras variables que inicialmente parecen fuertemente correlacionadas (masa estelar, masa de gas, masa bariónica) resultan ser muy redundantes con $R_d$ (correlaciones $\geq 0,86$ con $R_d$) y, por tanto, aportan poca información nueva.

3. El mejor modelo bivariante no tautológico es $\text{err} = a\,R_d + b\,(M_\text{bar}/R_d^2) + c$, con $R^2 = 0,46$ y RMS residual $14,9\%$. La segunda variable es la densidad superficial bariónica media del disco.

4. Tras tener en cuenta $R_d$ y $\Sigma_d$, ningún otro observable conserva una correlación significativa con el residuo. El diagnóstico está cerrado.

5. Se identifica el parámetro que falta: el modelo BeeTheory actual tiene en cuenta la extensión geométrica de la distribución bariónica ($R_d$) pero no su densidad superficial ($\Sigma_d$). El siguiente paso consiste en incorporar $\Sigma_d$ como una segunda entrada a la longitud de coherencia de onda y, a continuación, volver a ajustar el modelo en el conjunto de 22 galaxias.

Referencias. Lelli, F., McGaugh, S. S., Schombert, J. M. – SPARC: Modelos de masa para 175 galaxias de disco con fotometría Spitzer y curvas de rotación precisas, AJ 152, 157 (2016). – Pearson, K. – Contribuciones matemáticas a la teoría de la evolución III, Phil. Trans. R. Soc. A 187, 253 (1896). Coeficiente de correlación. – Dutertre, X. – Teoría Bee™: Modelización de la gravedad basada en ondas, v2, BeeTheory.com (2023).

Identificar el parámetro que falta:Paso 1 – Análisis de correlación sistemática