BeeTheory – Foundations – Uwaga techniczna XI
Identyfikacja brakującego parametru:
Krok 1 – Systematyczna analiza korelacji
Przed modyfikacją modelu, niniejsza notatka diagnozuje, który obserwowalny parametr najlepiej przewiduje błąd resztkowy. Pracując na zestawie kalibracyjnym 22 galaktyk z Notatki VIII, testujemy korelację błędu predykcji z każdą fizycznie znaczącą zmienną, a następnie z każdą kombinacją dwuwymiarową, aby rygorystycznie zidentyfikować, co pominął obecny model.
1. Wynik pierwszy
Brakującym parametrem jest centralna gęstość powierzchniowa
Centralna barionowa gęstość powierzchniowa $\Sigma_d$ ma najsilniejszą nietrywialną korelację z błędem predykcji: $r = +0,62$, $R^2 = 0,39$ samodzielnie.
Połączenie $\Sigma_d$ z rozmiarem dysku $R_d$ w modelu dwuwymiarowym wyjaśnia $R^2 = 0,43$ wariancji resztkowej, w porównaniu do $R^2 = 0,07$ z samym $R_d$. Reszta RMS spada z 19,5\%$ do 14,9\%$.
Po zaabsorbowaniu zarówno $R_d$, jak i $\Sigma_d$, żadna dodatkowa obserwowalność fizyczna nie przenosi informacji o residuum.
2. Metoda
Pracując na zestawie kalibracyjnym 22 galaktyk (Uwaga VIII), dla każdej galaktyki mamy błąd predykcji $text{err} = (V_text{tot} – V_f)/V_f$ oraz listę mierzalnych parametrów fizycznych. Obliczamy korelacje Pearsona i Spearmana między błędem a każdą zmienną kandydującą, a następnie testujemy regresje dwuwartościowe o postaci:
$$\text{err}(\%) \;=\; a \cdot R_d \;+\; b \cdot X \;+\; c$$
gdzie $X$ to każda zmienna kandydująca. Najlepsza zmienna $X$ to ta, która maksymalizuje wyjaśnioną wariancję $R^2$ dla 22 galaktyk. Zmienne autoreferencyjne – te pochodzące z danych wyjściowych modelu, takie jak $V_\text{wave}$ lub $V_\text{tot}$ – są wykluczone z wyszukiwania, ponieważ ich korelacja z błędem jest tautologiczna.
3. Korelacje jednoczynnikowe
24 przetestowane zmienne kandydujące, uszeregowane według bezwzględnej korelacji Pearsona z błędem. Wiersze zacienione na złoto to zmienne pochodzące z samego modelu (tautologiczne); wiersze zacienione na czerwono to prawdziwe obserwable fizyczne z $|r| > 0.5$.
| Zmienna | Opis | Pearson $r$ | Wartość $p$ | Znaczenie |
|---|---|---|---|---|
| Vw_over_Vf | Stosunek Vw / Vf | +0.974 | 0.0000 | ★★★ |
| V_dynamical | V_dyn = √(GM_bar/Rd) | +0.632 | 0.0021 | ★★★ |
| log_Sigma_d | log₁₀(Σ_d) | +0.622 | 0.0026 | ★★★ |
| M_gas | Masa gazu (M_sun) | +0.609 | 0.0034 | ★★★ |
| M_HI | Masa HI (M_sun) | +0.609 | 0.0034 | ★★★ |
| T | Typ Hubble’a | -0.585 | 0.0053 | ★★ |
| Vbar | Barionowy Vbar (km/s) | +0.582 | 0.0057 | ★★ |
| M_bar_over_Rd2 | M_bar / Rd² | +0.559 | 0.0084 | ★★ |
| Vtot | Przewidywane Vtot (km/s) | +0.555 | 0.0090 | ★★ |
| Vw | Fala Vw (km/s) | +0.550 | 0.0098 | ★★ |
| Vbar_over_Vf | Stosunek Vbar / Vf | +0.519 | 0.0158 | ★★ |
| log_M_gas | log₁₀(M_gas) | +0.506 | 0.0193 | ★★ |
| log_M_bar | log₁₀(M_bar) | +0.505 | 0.0196 | ★★ |
| M_bar | Masa barionowa (M_sun) | +0.498 | 0.0214 | ★★ |
| log_M_star | log₁₀(M_star) | +0.449 | 0.0414 | ★★ |
| Sigma_d | Gęstość powierzchniowa (L/szt.) | +0.426 | 0.0544 | ★★ |
| M_star_over_Rd2 | M_star / Rd² | +0.426 | 0.0544 | ★★ |
| M_star | Masa gwiazdowa (M_sun) | +0.389 | 0.0815 | ★ |
Proszę przeczytać tabelę
Pojedyncza najwyższa korelacja to $V_\text{wave}/V_f = +0,974$. Jest to tautologia: z założenia błąd skaluje się bezpośrednio z $V_\text{wave}$, więc zmienna ta po prostu odzwierciedla strukturę formuły predykcyjnej, a nie zewnętrzny czynnik fizyczny.
Wśród prawdziwych obserwabli fizycznych najwyższe korelacje wynoszą $\log(\Sigma_d) = +0,622$, $V_\text{dynamical} = +0,632$, $M_\text{gas} = +0,609$ i $T = -0,585$. Te cztery sygnały są fizycznie powiązane: gęste dyski są zwykle bardziej masywne, wcześniejszego typu i mają wyższą barionową prędkość dynamiczną. Pytanie brzmi, który z nich jest podstawowym czynnikiem sprawczym.
4. Odfiltrowanie zbędnych zmiennych
Kilka z najlepiej skorelowanych zmiennych jest silnie skorelowanych z $R_d$, zmienną, o której już wiadomo, że powoduje błąd. Pytanie brzmi, która z nich niesie niezależne informacje.
| Zmienna | Korelacja z $R_d$ | Status |
|---|---|---|
| $\log(M_\star)$. | $r = +0.88$ | Zbędne z $R_d$ |
| $\log(M_\text{bar})$ | $r = +0.87$ | Zbędne z $R_d$ |
| $\log(M_\text{gas})$ | $r = +0.86$ | Zbędne z $R_d$ |
| Typ $T$ Hubble’a | $r = -0.66$ | Częściowo zbędne |
| $V_\text{dynamical}$. | $r = +0.50$ | Częściowo niezależny |
| $M_\text{bar}/R_d^2$. | $r = -0.19$ | Niezależny |
| $\log(\Sigma_d)$ | $r = +0.10$ | Niezależny |
Masy korelują z $R_d$ niemal idealnie: większy dysk zawiera po prostu więcej materiału barionowego. Zmienne te niosą zatem zasadniczo tę samą informację, co sam $R_d$. W przeciwieństwie do tego, $\Sigma_d$ (centralna gęstość powierzchniowa) i $M_\text{bar}/R_d^2$ (średnia barionowa gęstość powierzchniowa) są prawie ortogonalne do $R_d$ w tej próbce: przechwytują strukturalną właściwość „jak zwarta jest materia”, niezależnie od „jak rozciągnięty jest dysk”.
5. Błąd a gęstość powierzchni – wizualizacja
Wykres błędu względem samego $\log_{10}(\Sigma_d)$, pokolorowany według typu Hubble’a:
Trend jest wyraźny i monotoniczny: galaktyki o większej centralnej gęstości powierzchniowej są systematycznie nadmiernie przewidywane przez BeeTheory, podczas gdy rozproszone dyski o niskiej gęstości są niedostatecznie przewidywane. Nachylenie dopasowania wynoszące 33 punkty procentowe na dekadę $\Sigma_d$ solidnie pasuje do danych w pełnym zakresie od 15 do 605 $L_\odot/\text{pc}^2$.
6. Modele dwuwymiarowe – porównanie
Dodanie $R_d$ do każdej zmiennej kandydującej daje bardziej przejrzysty ranking. Poniższa tabela pokazuje wyjaśnioną wariancję $R^2$, gdy $R_d$ jest sparowany z każdą drugą zmienną (z wyłączeniem kombinacji tautologicznych):
| Model dwuwymiarowy | $R^2$ | Resztkowa wartość skuteczna | Uwagi |
|---|---|---|---|
| $\text{err} = a R_d + c$ (jednoczynnikowa wartość bazowa) | 0.074 | $19.5\%$ | Odniesienie, brak drugiej zmiennej |
| $\text{err} = a R_d + b f_\text{gas} + c$ | 0.101 | $19.3\%$ | Nieznaczna poprawa |
| $\text{err} = a R_d + b \log M_\star + c$ | 0.272 | $17.3\%$ | – |
| $\text{err} = a R_d + b V_\text{bar} + c$ | 0.345 | $16.4\%$ | – |
| $\text{err} = a R_d + b \log M_\text{gas} + c$ | 0.359 | $16.3\%$ | – |
| $\text{err} = a R_d + b T + c$ | 0.367 | $16.2\%$ | – |
| $\text{err} = a R_d + b \log M_\text{bar} + c$ | 0.373 | $16.1\%$ | – |
| $\text{err} = a R_d + b\,V_\text{dynamical} + c$ | 0.402 | $15.7\%$ | Silny |
| $\text{err} = a R_d + b \log\Sigma_d + c$ | 0.430 | $15.3\%$ | Niezależne od $R_d$ |
| $\text{err} = a R_d + b (M_\text{bar}/R_d^2) + c$ | 0.459 | $14.9\%$ | Najlepszy model nietautologiczny |
Najlepszy model dwuwymiarowy
$$\text{err}(\%) \;=\; a\,R_d \;+\; b\,\frac{M_\text{bar}}{R_d^2} \;+\; c, \qquad R^2 = 0,46$$
Zmienna $M_\text{bar}/R_d^2$ to średnia barionowa gęstość powierzchniowa dysku, $\langle \Sigma_\text{bar} \rangle = M_\text{bar}/(\pi R_d^2)$. Niesie ona informację o tym, jak zwarta jest widoczna materia, niezależnie od tego, jak duży jest dysk. Jest to zmienna, której BeeTheory obecnie nie uwzględnia.
7. Sprawdzenie zamknięcia – co pozostaje po uwzględnieniu $R_d$ i $\Sigma_d$?
Jeśli $R_d$ i $\log \Sigma_d$ razem wychwytują defekt strukturalny, reszta dopasowania dwuwymiarowego powinna być nieskorelowana z każdą obserwowalną fizyczną. Testowanie tego jest formalnym sprawdzeniem zamknięcia:
| Zmienna | Korelacja z wartością rezydualną | Status |
|---|---|---|
| $R_d$ | $+0.00$ | Przez budowę |
| $\log \Sigma_d$ | $+0.00$ | Przez budowę |
| $\log M_\star$ | $-0.05$ | Wchłonięty |
| $\log M_\text{bar}$ | $+0.07$ | Wchłonięty |
| $\log M_\text{gas}$ | $+0.14$ | Wchłonięty |
| Typ $T$ Hubble’a | $-0.04$ | Wchłonięty |
| $V_\text{dynamical}$. | $+0.08$ | Wchłonięty |
| $V_\text{bar}$ | $+0.05$ | Wchłonięty |
| $f_\text{gas}$. | $+0.28$ | Marginalny; poniżej poziomu istotności |
Po uwzględnieniu $R_d$ i $\log \Sigma_d$ żadna obserwowalna zmienna fizyczna nie zachowuje istotnej korelacji z błędem resztowym. Informacje strukturalne w błędzie zostały w pełni przechwycone przez te dwie zmienne. Pozostałe 15% $ rozrzutu RMS jest zgodne z niepewnością obserwacyjną parametrów wejściowych SPARC i wewnętrzną zmiennością między galaktykami, która nie została uchwycona przez żaden z tych zagregowanych deskryptorów.
8. Interpretacja fizyczna
Obecny model BeeTheory wykorzystuje długość skali dysku $R_d$ w dwóch miejscach: jako skalę przestrzenną rozkładu barionowego (profil wykładniczy $Sigma propto e^{-R/R_d}$) oraz jako długość koherencji jądra falowego ($ell = c_text{disk},R_d$). Amplituda profilu barionowego $\Sigma_0$ jest domyślna, skalowana w celu uzyskania prawidłowej masy gwiezdnej po zintegrowaniu.
Co fizycznie reprezentuje gęstość powierzchniowa?
Średnia barionowa gęstość powierzchniowa $langle Sigma_text{bar} rangle = M_text{bar}/(pi R_d^2)$ to masa na jednostkę powierzchni dysku. Dwie galaktyki o tym samym $R_d$, ale różnym $\Sigma_d$ mają ten sam zasięg geometryczny, ale różną ilość upakowanej materii. Obecny model traktuje jedynie rozciągłość geometryczną ($R_d$) jako istotną dla długości koherencji falowej, ignorując stopień koncentracji materii. Jest to dokładnie ten parametr, który analiza szczątkowa identyfikuje jako brakujący.
Kierunek efektu
Korelacja jest dodatnia: błąd rośnie wraz z gęstością powierzchni. Oznacza to, że dla ustalonego $R_d$ gęstsze dyski są nadmiernie przewidywane przez model – pole falowe jest zbyt silne w stosunku do krzywej rotacji. I odwrotnie, dla danego $R_d$, model niedostatecznie przewiduje rozproszone dyski o niskiej gęstości. Prawdopodobna interpretacja fizyczna: długość koherencji fali powinna zależeć nie tylko od geometrycznego zasięgu źródła, ale także od jego koncentracji, przy czym gęstsza materia wytwarza bardziej zlokalizowaną odpowiedź falową. To naturalnie tłumiłoby amplitudę pola falowego w dyskach o wysokiej \Sigma$ i zwiększało ją w dyskach o niskiej \Sigma$.
9. Podsumowanie kroku 1
1. Na zbiorze kalibracyjnym 22 galaktyk błąd przewidywania najsilniej koreluje z centralną gęstością powierzchniową $\Sigma_d$ ($r = +0,62$) spośród prawdziwych obserwabli fizycznych.
2. Inne zmienne, które początkowo wydają się silnie skorelowane (masa gwiazdowa, masa gazu, masa barionowa) okazują się być wysoce nadmiarowe z $R_d$ (korelacje $\geq 0.86$ z $R_d$), a zatem niosą niewiele nowych informacji.
3. Najlepszym nietautologicznym modelem dwuwymiarowym jest $\text{err} = a\,R_d + b\,(M_\text{bar}/R_d^2) + c$, z $R^2 = 0,46$ i wartością resztową RMS $14,9\%$. Drugą zmienną jest średnia barionowa gęstość powierzchniowa dysku.
4. Po uwzględnieniu $R_d$ i $\Sigma_d$ żadna inna obserwowalna zmienna nie zachowuje istotnej korelacji z wartością rezydualną. Diagnoza jest zamknięta.
5. Zidentyfikowano brakujący parametr: obecny model BeeTheory uwzględnia geometryczny zasięg rozkładu barionowego ($R_d$), ale nie jego gęstość powierzchniową ($\Sigma_d$). Następnym krokiem jest włączenie $\Sigma_d$ jako drugiego wejścia do długości koherencji falowej, a następnie ponowne dopasowanie modelu do zbioru 22 galaktyk.
Referencje. Lelli, F., McGaugh, S. S., Schombert, J. M. – SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves, AJ 152, 157 (2016). – Pearson, K. – Mathematical contributions to the theory of evolution III, Phil. Trans. R. Soc. A 187, 253 (1896). Współczynnik korelacji. – Dutertre, X. – Bee Theory™: Wave-Based Modeling of Gravity, v2, BeeTheory.com (2023).
BeeTheory.com – Kwantowa grawitacja oparta na falach – Krok diagnostyczny 1 – © Technoplane S.A.S. 2026