BeeTheory – Fondements – Note technique XI

Identifier le paramètre manquant :
Étape 1 – Analyse systématique des corrélations

Avant de modifier le modèle, cette note diagnostique quel paramètre observable prédit le mieux l’erreur résiduelle. En travaillant sur l’ensemble d’étalonnage de 22 galaxies de la note VIII, nous testons la corrélation de l’erreur de prédiction avec chaque variable physiquement significative, puis avec chaque combinaison bivariée, afin d’identifier rigoureusement ce que le modèle actuel a omis.

1. Le résultat d’abord

Le paramètre manquant est la densité de surface centrale

La densité de surface baryonique centrale $\Sigma_d$ a la corrélation non triviale la plus forte avec l’erreur de prédiction : $r = +0,62$, $R^2 = 0,39$ à elle seule.

La combinaison de $\Sigma_d$ et de la taille du disque $R_d$ dans un modèle bivarié explique $R^2 = 0,43$ de la variance résiduelle, contre $R^2 = 0,07$ avec $R_d$ seul. Le résidu RMS passe de $19,5\%$ à $14,9\%$.

Après avoir absorbé $R_d$ et $\Sigma_d$, aucune observable physique supplémentaire ne porte d’information sur le résidu.

2. La méthode

En travaillant sur l’ensemble d’étalonnage de 22 galaxies (Note VIII), nous disposons pour chaque galaxie de l’ erreur de prédiction $text{err} = (V_text{tot} – V_f)/V_f$ et d’une liste de paramètres physiques mesurables. Nous calculons les corrélations de Pearson et de Spearman entre l’erreur et chaque variable candidate, puis nous testons des régressions bivariées de la forme :

$$text{err}(\%) \;=\ ; a \cdot R_d \;+\ ; b \cdot X \;+\ ; c$$$

où $X$ est chaque variable candidate. La meilleure $X$ est celle qui maximise la variance expliquée $R^2$ sur les 22 galaxies. Les variables autoréférentielles – celles dérivées de la sortie du modèle, comme $V_\text{wave}$ ou $V_\text{tot}$ – sont exclues de la recherche, car leur corrélation avec l’erreur est tautologique.

3. Corrélations univariées

Les 24 variables candidates testées, classées par corrélation absolue de Pearson avec l’erreur. Les lignes ombrées en or sont des variables dérivées du modèle lui-même (tautologiques) ; les lignes ombrées en rouge sont de véritables observables physiques avec $|r| > 0,5$.

Variable	Description	Pearson $r$	Valeur $p	Importance
Vw_over_Vf	Rapport Vw / Vf	+0.974	0.0000	★★★
V_dynamique	V_dyn = √(GM_bar/Rd)	+0.632	0.0021	★★★
log_Sigma_d	log₁₀(Σ_d)	+0.622	0.0026	★★★
M_gas	Masse du gaz (M_sun)	+0.609	0.0034	★★★
M_HI	Masse de HI (M_sun)	+0.609	0.0034	★★★
T	Type de Hubble	-0.585	0.0053	★★
Vbar	Vbar baryonique (km/s)	+0.582	0.0057	★★
M_bar_over_Rd2	M_bar / Rd²	+0.559	0.0084	★★
Vtot	Vtot prévu (km/s)	+0.555	0.0090	★★
Vw	Vw (km/s)	+0.550	0.0098	★★
Vbar_over_Vf	Rapport Vbar / Vf	+0.519	0.0158	★★
log_M_gas	log₁₀(M_gas)	+0.506	0.0193	★★
log_M_bar	log₁₀(M_bar)	+0.505	0.0196	★★
M_bar	Masse baryonique (M_sun)	+0.498	0.0214	★★
log_M_star	log₁₀(M_star)	+0.449	0.0414	★★
Sigma_d	Densité de surface (L/pc²)	+0.426	0.0544	★★
M_star_over_Rd2	M_star / Rd²	+0.426	0.0544	★★
M_star	Masse stellaire (M_sun)	+0.389	0.0815	★

Lecture du tableau

La corrélation la plus élevée est $V_\text{wave}/V_f = +0.974$. Ceci est tautologique : par construction, l’erreur s’échelonne directement avec $V_\text{wave}$, de sorte que cette variable reflète simplement la structure de la formule de prédiction, et non un facteur physique externe.

Parmi les véritables observables physiques, les corrélations les plus élevées sont $\log(\Sigma_d) = +0.622$, $V_\text{dynamique} = +0.632$, $M_\text{gaz} = +0.609$, et le type de Hubble $T = -0.585$. Ces quatre signaux sont physiquement liés : les disques denses ont tendance à être plus massifs, de type plus précoce, et à avoir une vitesse dynamique baryonique plus élevée. La question est de savoir quel est le moteur fondamental.

4. Filtrage des variables redondantes

Plusieurs des variables les plus corrélées sont elles-mêmes fortement corrélées avec $R_d$, la variable dont on sait déjà qu’elle est à l’origine de l’erreur. La question est de savoir laquelle porte une information indépendante.

Variable	Corrélation avec $R_d$	Statut
$\log(M_\star)$ $\N-\N-\N-\N-\N-\N-\N-\N	$r = +0.88$	Redondant avec $R_d$
$\log(M_\text{bar})$\N-\N-\N-\N-\N-\N	$r = +0.87$	Redondant avec $R_d$
$\log(M_\text{gas})$ $\N-\N-\N-\N-\N-\N-\N-\N-\N	$r = +0.86$	Redondant avec $R_d$
Type de Hubble $T$	$r = -0.66$	Partiellement redondant
$V_\text{dynamical}$	$r = +0.50$	Partiellement indépendant
M_\text{bar}/R_d^2$	$r = -0.19$	Indépendants
Log(\Sigma_d)$ $ (en anglais)	$r = +0.10$	Indépendants

Les masses sont en corrélation presque parfaite avec $R_d$ : un disque plus grand contient simplement plus de matière baryonique. Ces variables portent donc essentiellement la même information que $R_d$ lui-même. En revanche, $\Sigma_d$ (densité de surface centrale) et $M_\text{bar}/R_d^2$ (densité de surface baryonique moyenne) sont presque orthogonales à $R_d$ dans cet échantillon : elles capturent la propriété structurelle de « la compacité de la matière », indépendamment de « l’extension du disque ».

5. Visualisation de l’erreur en fonction de la densité de surface

Représentation graphique de l’erreur par rapport à $\log_{10}(\Sigma_d)$ seul, coloré par le type de Hubble :

Erreur d’ajustement univariée$(\%) = 33\log(\Sigma_d) – 60$, Pearson $r = 0.62$, $R^2 = 0.39$.

La tendance est claire et monotone : les galaxies avec une densité de surface centrale plus élevée sont systématiquement sur-prédites par BeeTheory, alors que les disques diffus de faible densité sont sous-prédits. La pente de l’ajustement de $33$ points de pourcentage par décennie de $\Sigma_d$ correspond aux données de manière robuste sur toute la gamme de 15 à 605 $L_\odot/\text{pc}^2$.

6. Modèles à deux variables – comparaison

L’ajout de $R_d$ à chaque variable candidate permet d’obtenir un classement plus clair. Le tableau ci-dessous montre la variance expliquée $R^2$ lorsque $R_d$ est associé à chaque seconde variable (combinaisons tautologiques exclues) :

Modèle à deux variables	$R^2$	RMS résiduel	Notes
$\text{err} = a R_d + c$ (ligne de base univariée)	0.074	$19.5\%$	Référence, pas de deuxième variable
$\text{err} = a R_d + b f_\text{gas} + c$	0.101	$19.3\%$	Amélioration négligeable
$\text{err} = a R_d + b \log M_\star + c$	0.272	$17.3\%$	–
$\text{err} = a R_d + b V_\text{bar} + c$	0.345	$16.4\%$	–
$\text{err} = a R_d + b \log M_\text{gas} + c$	0.359	$16.3\%$	–
$\text{err} = a R_d + b T + c$	0.367	$16.2\%$	–
$\text{err} = a R_d + b \log M_\text{bar} + c$	0.373	$16.1\%$	–
$\text{err} = a R_d + b\,V_\text{dynamique} + c$.	0.402	$15.7\%$	Fort
$\text{err} = a R_d + b \log\Sigma_d + c$	0.430	$15.3\%$	Indépendante de $R_d$
$\text{err} = a R_d + b (M_\text{bar}/R_d^2) + c$.	0.459	$14.9\%$	Meilleur modèle non-tautologique

Le meilleur modèle bivarié

$$\text{err}(\%) \;=\ ; a\;R_d \;+\ ; b\;\frac{M_\text{bar}}{R_d^2} \N- +\N- c, \N-quad R^2 = 0.46$$.

La variable $M_\text{bar}/R_d^2$ est la densité baryonique moyenne de surface du disque, $\langle \Sigma_\text{bar} \rangle = M_\text{bar}/(\pi R_d^2)$. Elle renseigne sur la compacité de la matière visible, indépendamment de la taille du disque. C’est la variable que la théorie de l’abeille ne prend pas en compte actuellement.

7. Vérification de la fermeture – ce qui reste après la prise en compte de $R_d$ et $\Sigma_d$.

Si $R_d$ et $\log \Sigma_d$ capturent ensemble le défaut structurel, le résidu de l’ajustement bivarié devrait être non corrélé avec chaque observable physique. Le test de cette hypothèse est la vérification formelle de la fermeture :

Variable	Corrélation avec le résidu	Statut
R_d$	$+0.00$	Par construction
$\log \Sigma_d$	$+0.00$	Par construction
$\log M_\star$	$-0.05$	Absorbé
$\log M_\text{bar}$	$+0.07$	Absorbé
$\log M_\text{gas}$	$+0.14$	Absorbé
Type de Hubble $T$	$-0.04$	Absorbé
$V_\text{dynamical}$	$+0.08$	Absorbé
$V_\text{bar}$	$+0.05$	Absorbé
$f_\text{gas}$	$+0.28$	Marginal ; inférieur au seuil de signification

Après avoir pris en compte $R_d$ et $\log \Sigma_d$, aucune observable physique ne conserve de corrélation significative avec l’erreur résiduelle. L’information structurelle de l’erreur a été entièrement capturée par ces deux variables. La dispersion RMS restante de $15%$ est cohérente avec l’incertitude observationnelle sur les paramètres d’entrée de SPARC et avec la variabilité intrinsèque de galaxie à galaxie qui n’est capturée par aucun de ces descripteurs agrégés.

8. Interprétation physique

Le modèle BeeTheory actuel utilise la longueur d’échelle du disque $R_d$ à deux endroits : comme échelle spatiale de la distribution baryonique (le profil exponentiel $Sigma propto e^{-R/R_d}$) et comme longueur de cohérence du noyau d’onde ($ell = c_text{disk},R_d$). L’amplitude du profil baryonique $\Sigma_0$ est implicite, mise à l’échelle pour donner la masse stellaire correcte une fois intégrée.

Que représente physiquement la densité de surface ?

La densité de surface baryonique moyenne $langle Sigma_text{bar} rangle = M_text{bar}/(pi R_d^2)$ est la masse par unité de surface du disque. Deux galaxies ayant le même $R_d$ mais des $\Sigma_d$ différents ont la même étendue géométrique mais des quantités de matière différentes. Le modèle actuel ne considère que l’étendue géométrique ($R_d$) comme pertinente pour la longueur de cohérence des ondes, ignorant la concentration de la matière. C’est précisément le paramètre que l’analyse résiduelle identifie comme manquant.

La direction de l’effet

La corrélation est positive : l’erreur croît avec la densité de surface. Cela signifie que pour $R_d$ fixé, les disques plus denses sont sur-prédits par le modèle – le champ d’ondes est trop fort par rapport à la courbe de rotation. Inversement, pour un $R_d$ donné, le modèle sous-prédit les disques diffus de faible densité. Une interprétation physique plausible : la longueur de cohérence de l’onde devrait dépendre non seulement de l’étendue géométrique de la source mais aussi de sa concentration, la matière plus dense produisant une réponse d’onde plus localisée. Ceci devrait naturellement supprimer l’amplitude du champ d’ondes dans les disques à haut$\Sigma$ et l’augmenter dans les disques à bas$\Sigma$.

9. Résumé de l’étape 1

1. Sur l’ensemble de calibration de 22 galaxies, l’erreur de prédiction est le plus fortement corrélée avec la densité de surface centrale $\Sigma_d$ ($r = +0.62$) parmi les observables physiques authentiques.

2. D’autres variables qui semblent initialement fortement corrélées (masse stellaire, masse de gaz, masse baryonique) s’avèrent très redondantes avec $R_d$ (corrélations $\geq 0.86$ avec $R_d$) et apportent donc peu d’informations nouvelles.

3. Le meilleur modèle bivarié non tautologique est $\text{err} = a\,R_d + b\,(M_\text{bar}/R_d^2) + c$, avec $R^2 = 0.46$ et un résidu RMS de $14.9\%$. La deuxième variable est la densité baryonique moyenne de surface du disque.

4. Après avoir pris en compte $R_d$ et $\Sigma_d$, aucune autre observable ne conserve de corrélation significative avec le résidu. Le diagnostic est clos.

5. Le paramètre manquant est identifié : le modèle actuel de BeeTheory tient compte de l’étendue géométrique de la distribution baryonique ($R_d$) mais pas de sa densité de surface ($\Sigma_d$). L’étape suivante consiste à incorporer $\Sigma_d$ en tant que deuxième entrée de la longueur d’onde-cohérence, puis à réajuster le modèle sur l’ensemble des 22 galaxies.

Références. Lelli, F., McGaugh, S. S., Schombert, J. M. – SPARC : Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves, AJ 152, 157 (2016). – Pearson, K. – Mathematical contributions to the theory of evolution III, Phil. Trans. R. Soc. A 187, 253 (1896). Coefficient de corrélation. – Dutertre, X. – Bee Theory™ : Wave-Based Modeling of Gravity, v2, BeeTheory.com (2023).

Identifier le paramètre manquant :Étape 1 – Analyse systématique des corrélations