BeeTheory – Foundations – Uwaga techniczna XI

Identyfikacja brakującego parametru:
Krok 1 – Systematyczna analiza korelacji

Przed modyfikacją modelu, niniejsza notatka diagnozuje, który obserwowalny parametr najlepiej przewiduje błąd resztkowy. Pracując na zestawie kalibracyjnym 22 galaktyk z Notatki VIII, testujemy korelację błędu predykcji z każdą fizycznie znaczącą zmienną, a następnie z każdą kombinacją dwuwymiarową, aby rygorystycznie zidentyfikować, co pominął obecny model.

1. Wynik pierwszy

Brakującym parametrem jest centralna gęstość powierzchniowa

Centralna barionowa gęstość powierzchniowa $\Sigma_d$ ma najsilniejszą nietrywialną korelację z błędem predykcji: $r = +0,62$, $R^2 = 0,39$ samodzielnie.

Połączenie $\Sigma_d$ z rozmiarem dysku $R_d$ w modelu dwuwymiarowym wyjaśnia $R^2 = 0,43$ wariancji resztkowej, w porównaniu do $R^2 = 0,07$ z samym $R_d$. Reszta RMS spada z 19,5\%$ do 14,9\%$.

Po zaabsorbowaniu zarówno $R_d$, jak i $\Sigma_d$, żadna dodatkowa obserwowalność fizyczna nie przenosi informacji o residuum.

2. Metoda

Pracując na zestawie kalibracyjnym 22 galaktyk (Uwaga VIII), dla każdej galaktyki mamy błąd predykcji $text{err} = (V_text{tot} – V_f)/V_f$ oraz listę mierzalnych parametrów fizycznych. Obliczamy korelacje Pearsona i Spearmana między błędem a każdą zmienną kandydującą, a następnie testujemy regresje dwuwartościowe o postaci:

$$\text{err}(\%) \;=\; a \cdot R_d \;+\; b \cdot X \;+\; c$$

gdzie $X$ to każda zmienna kandydująca. Najlepsza zmienna $X$ to ta, która maksymalizuje wyjaśnioną wariancję $R^2$ dla 22 galaktyk. Zmienne autoreferencyjne – te pochodzące z danych wyjściowych modelu, takie jak $V_\text{wave}$ lub $V_\text{tot}$ – są wykluczone z wyszukiwania, ponieważ ich korelacja z błędem jest tautologiczna.

3. Korelacje jednoczynnikowe

24 przetestowane zmienne kandydujące, uszeregowane według bezwzględnej korelacji Pearsona z błędem. Wiersze zacienione na złoto to zmienne pochodzące z samego modelu (tautologiczne); wiersze zacienione na czerwono to prawdziwe obserwable fizyczne z $|r| > 0.5$.

Zmienna	Opis	Pearson $r$	Wartość $p$	Znaczenie
Vw_over_Vf	Stosunek Vw / Vf	+0.974	0.0000	★★★
V_dynamical	V_dyn = √(GM_bar/Rd)	+0.632	0.0021	★★★
log_Sigma_d	log₁₀(Σ_d)	+0.622	0.0026	★★★
M_gas	Masa gazu (M_sun)	+0.609	0.0034	★★★
M_HI	Masa HI (M_sun)	+0.609	0.0034	★★★
T	Typ Hubble’a	-0.585	0.0053	★★
Vbar	Barionowy Vbar (km/s)	+0.582	0.0057	★★
M_bar_over_Rd2	M_bar / Rd²	+0.559	0.0084	★★
Vtot	Przewidywane Vtot (km/s)	+0.555	0.0090	★★
Vw	Fala Vw (km/s)	+0.550	0.0098	★★
Vbar_over_Vf	Stosunek Vbar / Vf	+0.519	0.0158	★★
log_M_gas	log₁₀(M_gas)	+0.506	0.0193	★★
log_M_bar	log₁₀(M_bar)	+0.505	0.0196	★★
M_bar	Masa barionowa (M_sun)	+0.498	0.0214	★★
log_M_star	log₁₀(M_star)	+0.449	0.0414	★★
Sigma_d	Gęstość powierzchniowa (L/szt.)	+0.426	0.0544	★★
M_star_over_Rd2	M_star / Rd²	+0.426	0.0544	★★
M_star	Masa gwiazdowa (M_sun)	+0.389	0.0815	★

Proszę przeczytać tabelę

Pojedyncza najwyższa korelacja to $V_\text{wave}/V_f = +0,974$. Jest to tautologia: z założenia błąd skaluje się bezpośrednio z $V_\text{wave}$, więc zmienna ta po prostu odzwierciedla strukturę formuły predykcyjnej, a nie zewnętrzny czynnik fizyczny.

Wśród prawdziwych obserwabli fizycznych najwyższe korelacje wynoszą $\log(\Sigma_d) = +0,622$, $V_\text{dynamical} = +0,632$, $M_\text{gas} = +0,609$ i $T = -0,585$. Te cztery sygnały są fizycznie powiązane: gęste dyski są zwykle bardziej masywne, wcześniejszego typu i mają wyższą barionową prędkość dynamiczną. Pytanie brzmi, który z nich jest podstawowym czynnikiem sprawczym.

4. Odfiltrowanie zbędnych zmiennych

Kilka z najlepiej skorelowanych zmiennych jest silnie skorelowanych z $R_d$, zmienną, o której już wiadomo, że powoduje błąd. Pytanie brzmi, która z nich niesie niezależne informacje.

Zmienna	Korelacja z $R_d$	Status
$\log(M_\star)$.	$r = +0.88$	Zbędne z $R_d$
$\log(M_\text{bar})$	$r = +0.87$	Zbędne z $R_d$
$\log(M_\text{gas})$	$r = +0.86$	Zbędne z $R_d$
Typ $T$ Hubble’a	$r = -0.66$	Częściowo zbędne
$V_\text{dynamical}$.	$r = +0.50$	Częściowo niezależny
$M_\text{bar}/R_d^2$.	$r = -0.19$	Niezależny
$\log(\Sigma_d)$	$r = +0.10$	Niezależny

Masy korelują z $R_d$ niemal idealnie: większy dysk zawiera po prostu więcej materiału barionowego. Zmienne te niosą zatem zasadniczo tę samą informację, co sam $R_d$. W przeciwieństwie do tego, $\Sigma_d$ (centralna gęstość powierzchniowa) i $M_\text{bar}/R_d^2$ (średnia barionowa gęstość powierzchniowa) są prawie ortogonalne do $R_d$ w tej próbce: przechwytują strukturalną właściwość „jak zwarta jest materia”, niezależnie od „jak rozciągnięty jest dysk”.

5. Błąd a gęstość powierzchni – wizualizacja

Wykres błędu względem samego $\log_{10}(\Sigma_d)$, pokolorowany według typu Hubble’a:

Univariate fit error$(\%) = 33\log(\Sigma_d) – 60$, Pearson $r = 0.62$, $R^2 = 0.39$.

Trend jest wyraźny i monotoniczny: galaktyki o większej centralnej gęstości powierzchniowej są systematycznie nadmiernie przewidywane przez BeeTheory, podczas gdy rozproszone dyski o niskiej gęstości są niedostatecznie przewidywane. Nachylenie dopasowania wynoszące 33 punkty procentowe na dekadę $\Sigma_d$ solidnie pasuje do danych w pełnym zakresie od 15 do 605 $L_\odot/\text{pc}^2$.

6. Modele dwuwymiarowe – porównanie

Dodanie $R_d$ do każdej zmiennej kandydującej daje bardziej przejrzysty ranking. Poniższa tabela pokazuje wyjaśnioną wariancję $R^2$, gdy $R_d$ jest sparowany z każdą drugą zmienną (z wyłączeniem kombinacji tautologicznych):

Model dwuwymiarowy	$R^2$	Resztkowa wartość skuteczna	Uwagi
$\text{err} = a R_d + c$ (jednoczynnikowa wartość bazowa)	0.074	$19.5\%$	Odniesienie, brak drugiej zmiennej
$\text{err} = a R_d + b f_\text{gas} + c$	0.101	$19.3\%$	Nieznaczna poprawa
$\text{err} = a R_d + b \log M_\star + c$	0.272	$17.3\%$	–
$\text{err} = a R_d + b V_\text{bar} + c$	0.345	$16.4\%$	–
$\text{err} = a R_d + b \log M_\text{gas} + c$	0.359	$16.3\%$	–
$\text{err} = a R_d + b T + c$	0.367	$16.2\%$	–
$\text{err} = a R_d + b \log M_\text{bar} + c$	0.373	$16.1\%$	–
$\text{err} = a R_d + b\,V_\text{dynamical} + c$	0.402	$15.7\%$	Silny
$\text{err} = a R_d + b \log\Sigma_d + c$	0.430	$15.3\%$	Niezależne od $R_d$
$\text{err} = a R_d + b (M_\text{bar}/R_d^2) + c$	0.459	$14.9\%$	Najlepszy model nietautologiczny

Najlepszy model dwuwymiarowy

$$\text{err}(\%) \;=\; a\,R_d \;+\; b\,\frac{M_\text{bar}}{R_d^2} \;+\; c, \qquad R^2 = 0,46$$

Zmienna $M_\text{bar}/R_d^2$ to średnia barionowa gęstość powierzchniowa dysku, $\langle \Sigma_\text{bar} \rangle = M_\text{bar}/(\pi R_d^2)$. Niesie ona informację o tym, jak zwarta jest widoczna materia, niezależnie od tego, jak duży jest dysk. Jest to zmienna, której BeeTheory obecnie nie uwzględnia.

7. Sprawdzenie zamknięcia – co pozostaje po uwzględnieniu $R_d$ i $\Sigma_d$?

Jeśli $R_d$ i $\log \Sigma_d$ razem wychwytują defekt strukturalny, reszta dopasowania dwuwymiarowego powinna być nieskorelowana z każdą obserwowalną fizyczną. Testowanie tego jest formalnym sprawdzeniem zamknięcia:

Zmienna	Korelacja z wartością rezydualną	Status
$R_d$	$+0.00$	Przez budowę
$\log \Sigma_d$	$+0.00$	Przez budowę
$\log M_\star$	$-0.05$	Wchłonięty
$\log M_\text{bar}$	$+0.07$	Wchłonięty
$\log M_\text{gas}$	$+0.14$	Wchłonięty
Typ $T$ Hubble’a	$-0.04$	Wchłonięty
$V_\text{dynamical}$.	$+0.08$	Wchłonięty
$V_\text{bar}$	$+0.05$	Wchłonięty
$f_\text{gas}$.	$+0.28$	Marginalny; poniżej poziomu istotności

Po uwzględnieniu $R_d$ i $\log \Sigma_d$ żadna obserwowalna zmienna fizyczna nie zachowuje istotnej korelacji z błędem resztowym. Informacje strukturalne w błędzie zostały w pełni przechwycone przez te dwie zmienne. Pozostałe 15% $ rozrzutu RMS jest zgodne z niepewnością obserwacyjną parametrów wejściowych SPARC i wewnętrzną zmiennością między galaktykami, która nie została uchwycona przez żaden z tych zagregowanych deskryptorów.

8. Interpretacja fizyczna

Obecny model BeeTheory wykorzystuje długość skali dysku $R_d$ w dwóch miejscach: jako skalę przestrzenną rozkładu barionowego (profil wykładniczy $Sigma propto e^{-R/R_d}$) oraz jako długość koherencji jądra falowego ($ell = c_text{disk},R_d$). Amplituda profilu barionowego $\Sigma_0$ jest domyślna, skalowana w celu uzyskania prawidłowej masy gwiezdnej po zintegrowaniu.

Co fizycznie reprezentuje gęstość powierzchniowa?

Średnia barionowa gęstość powierzchniowa $langle Sigma_text{bar} rangle = M_text{bar}/(pi R_d^2)$ to masa na jednostkę powierzchni dysku. Dwie galaktyki o tym samym $R_d$, ale różnym $\Sigma_d$ mają ten sam zasięg geometryczny, ale różną ilość upakowanej materii. Obecny model traktuje jedynie rozciągłość geometryczną ($R_d$) jako istotną dla długości koherencji falowej, ignorując stopień koncentracji materii. Jest to dokładnie ten parametr, który analiza szczątkowa identyfikuje jako brakujący.

Kierunek efektu

Korelacja jest dodatnia: błąd rośnie wraz z gęstością powierzchni. Oznacza to, że dla ustalonego $R_d$ gęstsze dyski są nadmiernie przewidywane przez model – pole falowe jest zbyt silne w stosunku do krzywej rotacji. I odwrotnie, dla danego $R_d$, model niedostatecznie przewiduje rozproszone dyski o niskiej gęstości. Prawdopodobna interpretacja fizyczna: długość koherencji fali powinna zależeć nie tylko od geometrycznego zasięgu źródła, ale także od jego koncentracji, przy czym gęstsza materia wytwarza bardziej zlokalizowaną odpowiedź falową. To naturalnie tłumiłoby amplitudę pola falowego w dyskach o wysokiej \Sigma$ i zwiększało ją w dyskach o niskiej \Sigma$.

9. Podsumowanie kroku 1

1. Na zbiorze kalibracyjnym 22 galaktyk błąd przewidywania najsilniej koreluje z centralną gęstością powierzchniową $\Sigma_d$ ($r = +0,62$) spośród prawdziwych obserwabli fizycznych.

2. Inne zmienne, które początkowo wydają się silnie skorelowane (masa gwiazdowa, masa gazu, masa barionowa) okazują się być wysoce nadmiarowe z $R_d$ (korelacje $\geq 0.86$ z $R_d$), a zatem niosą niewiele nowych informacji.

3. Najlepszym nietautologicznym modelem dwuwymiarowym jest $\text{err} = a\,R_d + b\,(M_\text{bar}/R_d^2) + c$, z $R^2 = 0,46$ i wartością resztową RMS $14,9\%$. Drugą zmienną jest średnia barionowa gęstość powierzchniowa dysku.

4. Po uwzględnieniu $R_d$ i $\Sigma_d$ żadna inna obserwowalna zmienna nie zachowuje istotnej korelacji z wartością rezydualną. Diagnoza jest zamknięta.

5. Zidentyfikowano brakujący parametr: obecny model BeeTheory uwzględnia geometryczny zasięg rozkładu barionowego ($R_d$), ale nie jego gęstość powierzchniową ($\Sigma_d$). Następnym krokiem jest włączenie $\Sigma_d$ jako drugiego wejścia do długości koherencji falowej, a następnie ponowne dopasowanie modelu do zbioru 22 galaktyk.

Referencje. Lelli, F., McGaugh, S. S., Schombert, J. M. – SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves, AJ 152, 157 (2016). – Pearson, K. – Mathematical contributions to the theory of evolution III, Phil. Trans. R. Soc. A 187, 253 (1896). Współczynnik korelacji. – Dutertre, X. – Bee Theory™: Wave-Based Modeling of Gravity, v2, BeeTheory.com (2023).

Identyfikacja brakującego parametru:Krok 1 – Systematyczna analiza korelacji