BeeTheory – Fundamentos – Nota técnica XI

Identificando o parâmetro ausente:
Etapa 1 – Análise de correlação sistemática

Antes de modificar o modelo, esta nota diagnostica qual parâmetro observável prevê melhor o erro residual. Trabalhando com o conjunto de calibração de 22 galáxias da Nota VIII, testamos a correlação do erro de previsão com cada variável fisicamente significativa e, em seguida, com cada combinação bivariada, para identificar rigorosamente o que o modelo atual omitiu.

1. O resultado primeiro

O parâmetro que falta é a densidade da superfície central

A densidade da superfície bariônica central $\Sigma_d$ tem a correlação não trivial mais forte com o erro de previsão: $r = +0,62$, $R^2 = 0,39$ por si só.

A combinação de $\Sigma_d$ com o tamanho do disco $R_d$ em um modelo bivariado explica $R^2 = 0,43$ da variação residual, em comparação com $R^2 = 0,07$ apenas com $R_d$. O resíduo RMS cai de $19,5\%$ para $14,9\%$.

Depois de absorver $R_d$ e $\Sigma_d$, nenhum observável físico adicional traz informações sobre o resíduo.

2. Método

Trabalhando no conjunto de calibração de 22 galáxias (Nota VIII), para cada galáxia temos o erro de previsão $text{err} = (V_text{tot} – V_f)/V_f$ e uma lista de parâmetros físicos mensuráveis. Calculamos as correlações de Pearson e Spearman entre o erro e cada variável candidata e, em seguida, testamos regressões bivariadas da forma:

$$\text{err}(\%) \;=\; a \cdot R_d \;+\; b \cdot X \;+\; c$$

onde $X$ é cada variável candidata. O melhor $X$ é aquele que maximiza a variância explicada $R^2$ nas 22 galáxias. As variáveis autorreferenciais – aquelas derivadas da saída do modelo, como $V_\text{wave}$ ou $V_\text{tot}$ – são excluídas da pesquisa, pois sua correlação com o erro é tautológica.

3. Correlações univariadas

As 24 variáveis candidatas testadas, classificadas pela correlação absoluta de Pearson com o erro. As linhas sombreadas em dourado são variáveis derivadas do próprio modelo (tautológico); as linhas sombreadas em vermelho são observáveis físicos genuínos com $|r| > 0,5$.

Variável	Descrição	Pearson $r$	Valor de $p	Importância
Vw_over_Vf	Relação Vw / Vf	+0.974	0.0000	★★★
V_dinâmico	V_dyn = √(GM_bar/Rd)	+0.632	0.0021	★★★
log_Sigma_d	log₁₀(Σ_d)	+0.622	0.0026	★★★
M_gas	Massa de gás (M_sun)	+0.609	0.0034	★★★
M_HI	Massa HI (M_sun)	+0.609	0.0034	★★★
T	Tipo Hubble	-0.585	0.0053	★★
Vbar	Vbar bariônico (km/s)	+0.582	0.0057	★★
M_bar_over_Rd2	M_bar / Rd²	+0.559	0.0084	★★
Vtot	Vtot previsto (km/s)	+0.555	0.0090	★★
Vw	Onda Vw (km/s)	+0.550	0.0098	★★
Vbar_over_Vf	Relação Vbar / Vf	+0.519	0.0158	★★
log_M_gas	log₁₀(M_gas)	+0.506	0.0193	★★
log_M_bar	log₁₀(M_bar)	+0.505	0.0196	★★
M_bar	Massa bariônica (M_sun)	+0.498	0.0214	★★
log_M_star	log₁₀(M_star)	+0.449	0.0414	★★
Sigma_d	Densidade da superfície (L/pc²)	+0.426	0.0544	★★
M_star_over_Rd2	M_star / Rd²	+0.426	0.0544	★★
M_star	Massa estelar (M_sun)	+0.389	0.0815	★

Leitura da tabela

A correlação única mais alta é $V_\text{wave}/V_f = +0,974$. Isso é tautológico: por construção, o erro é escalonado diretamente com $V_\text{wave}$, portanto, essa variável simplesmente reflete a estrutura da fórmula de previsão, e não um fator físico externo.

Entre os observáveis físicos genuínos, as correlações mais altas são $\log(\Sigma_d) = +0,622$, $V_\text{dynamical} = +0,632$, $M_\text{gas} = +0,609$ e tipo Hubble $T = -0,585$. Esses quatro sinais estão fisicamente conectados: os discos densos tendem a ser mais maciços, de tipo anterior, e têm maior velocidade dinâmica bariônica. A questão é saber qual é o fator fundamental.

4. Filtragem das variáveis redundantes

Várias das variáveis mais correlacionadas são, elas próprias, fortemente correlacionadas com $R_d$, a variável que já se sabe que gera o erro. A questão é saber qual delas contém informações independentes.

Variável	Correlação com $R_d$	Status
$\log(M_\star)$	$r = +0.88$	Redundante com $R_d$
$\log(M_\text{bar})$	$r = +0.87$	Redundante com $R_d$
$\log(M_\text{gas})$	$r = +0.86$	Redundante com $R_d$
Tipo de Hubble $T$	$r = -0.66$	Parcialmente redundante
$V_\text{dynamical}$	$r = +0.50$	Parcialmente independente
$M_\text{bar}/R_d^2$	$r = -0.19$	Independente
$\log(\Sigma_d)$	$r = +0.10$	Independente

As massas se correlacionam com $R_d$ quase perfeitamente: um disco maior simplesmente contém mais material bariônico. Portanto, essas variáveis carregam essencialmente as mesmas informações que o próprio $R_d$. Em contraste, $\Sigma_d$ (densidade da superfície central) e $M_\text{bar}/R_d^2$ (densidade média da superfície bariônica) são quase ortogonais a $R_d$ nessa amostra: elas capturam a propriedade estrutural de “quão compacta é a matéria”, independentemente de “quão extenso é o disco”.

5. Erro versus densidade da superfície – visualização

Plotagem do erro em relação a $\log_{10}(\Sigma_d)$ sozinho, colorido pelo tipo de Hubble:

Erro de ajuste univariado$(\%) = 33\log(\Sigma_d) – 60$, Pearson $r = 0,62$, $R^2 = 0,39$.

A tendência é clara e monotônica: as galáxias com maior densidade de superfície central são sistematicamente superprevistas pela BeeTheory, enquanto os discos difusos de baixa densidade são subprevistos. A inclinação do ajuste de $33$ pontos percentuais por década de $\Sigma_d$ corresponde aos dados de forma robusta em toda a faixa de 15 a 605 $L_\odot/\text{pc}^2$.

6. Modelos bivariados – comparação

A adição de $R_d$ a cada variável candidata proporciona uma classificação mais clara. A tabela abaixo mostra a variância explicada $R^2$ quando $R_d$ é emparelhado com cada segunda variável (combinações tautológicas excluídas):

Modelo bivariado	$R^2$	RMS residual	Notas
$\text{err} = a R_d + c$ (linha de base univariada)	0.074	$19.5\%$	Referência, sem segunda variável
$\text{err} = a R_d + b f_\text{gas} + c$	0.101	$19.3\%$	Melhoria insignificante
$\text{err} = a R_d + b \log M_\star + c$	0.272	$17.3\%$	–
$\text{err} = a R_d + b V_\text{bar} + c$	0.345	$16.4\%$	–
$\text{err} = a R_d + b \log M_\text{gas} + c$	0.359	$16.3\%$	–
$\text{err} = a R_d + b T + c$	0.367	$16.2\%$	–
$\text{err} = a R_d + b \log M_\text{bar} + c$	0.373	$16.1\%$	–
$\text{err} = a R_d + b\,V_\text{dynamical} + c$	0.402	$15.7\%$	Forte
$\text{err} = a R_d + b \log\Sigma_d + c$	0.430	$15.3\%$	Independente de $R_d$
$\text{err} = a R_d + b (M_\text{bar}/R_d^2) + c$	0.459	$14.9\%$	Melhor modelo não tautológico

O melhor modelo bivariado

$$\text{err}(\%) \;=\; a\,R_d \;+\; b\,\frac{M_\text{bar}}{R_d^2} \;+\; c, \qquad R^2 = 0,46$$

A variável $M_\text{bar}/R_d^2$ é a densidade média da superfície bariônica do disco, $\langle \Sigma_\text{bar} \rangle = M_\text{bar}/(\pi R_d^2)$. Ele contém informações sobre o quão compacta é a matéria visível, independentemente do tamanho do disco. Essa é a variável que a BeeTheory atualmente não leva em conta.

7. Verificação do fechamento – o que resta depois que $R_d$ e $\Sigma_d$ são contabilizados

Se $R_d$ e $\log \Sigma_d$ juntos capturam o defeito estrutural, o resíduo do ajuste bivariado deve ser não correlacionado com cada observável físico. Testar isso é a verificação formal de fechamento:

Variável	Correlação com resíduos	Status
$R_d$	$+0.00$	Por construção
$\log \Sigma_d$	$+0.00$	Por construção
$\log M_\star$	$-0.05$	Absorvido
$\log M_\text{bar}$	$+0.07$	Absorvido
$\log M_\text{gas}$	$+0.14$	Absorvido
Tipo de Hubble $T$	$-0.04$	Absorvido
$V_\text{dynamical}$	$+0.08$	Absorvido
$V_\text{bar}$	$+0.05$	Absorvido
$f_\text{gas}$	$+0.28$	Marginal; abaixo da significância

Após a contabilização de $R_d$ e $\log \Sigma_d$, nenhum observável físico mantém correlação significativa com o erro residual. As informações estruturais no erro foram totalmente capturadas por essas duas variáveis. A dispersão RMS restante de $15%$ é consistente com a incerteza observacional nos parâmetros de entrada do SPARC e com a variabilidade intrínseca de galáxia para galáxia não capturada por nenhum desses descritores agregados.

8. Interpretação física

O atual modelo BeeTheory usa o comprimento da escala do disco $R_d$ em dois lugares: como a escala espacial da distribuição bariônica (o perfil exponencial $Sigma propto e^{-R/R_d}$) e como o comprimento de coerência do núcleo da onda ($ell = c_text{disk},R_d$). A amplitude do perfil bariônico $\Sigma_0$ está implícita, dimensionada para fornecer a massa estelar correta depois de integrada.

O que a densidade da superfície representa fisicamente

A densidade média da superfície bariônica $langle Sigma_text{bar} rangle = M_text{bar}/(pi R_d^2)$ é a massa por unidade de área do disco. Duas galáxias com o mesmo $R_d$, mas com $\Sigma_d$ diferentes, têm a mesma extensão geométrica, mas quantidades diferentes de matéria empacotada. O modelo atual trata apenas a extensão geométrica ($R_d$) como relevante para o comprimento de coerência da onda, ignorando a concentração da matéria. Esse é exatamente o parâmetro que a análise residual identifica como ausente.

A direção do efeito

A correlação é positiva: o erro aumenta com a densidade da superfície. Isso significa que, para $R_d$ fixo, os discos mais densos são superprevistos pelo modelo – o campo de ondas é muito forte em relação à curva de rotação. Por outro lado, para um determinado $R_d$, o modelo prevê discos difusos de baixa densidade de forma insuficiente. Uma interpretação física plausível: o comprimento de coerência da onda deve depender não apenas da extensão geométrica da fonte, mas também de sua concentração, com a matéria mais densa produzindo uma resposta de onda mais localizada. Isso naturalmente suprimiria a amplitude do campo de ondas em discos de alto$\Sigma$ e a aumentaria em discos de baixo$\Sigma$.

9. Resumo da Etapa 1

1. No conjunto de calibração de 22 galáxias, o erro de previsão se correlaciona mais fortemente com a densidade da superfície central $\Sigma_d$ ($r = +0,62$) entre os observáveis físicos genuínos.

2. Outras variáveis que inicialmente parecem fortemente correlacionadas (massa estelar, massa de gás, massa bariônica) acabam sendo altamente redundantes com $R_d$ (correlações $\geq 0,86$ com $R_d$) e, portanto, trazem poucas informações novas.

3. O melhor modelo bivariado não tautológico é $\text{err} = a\,R_d + b\,(M_\text{bar}/R_d^2) + c$, com $R^2 = 0,46$ e resíduo RMS de $14,9\%$. A segunda variável é a densidade média da superfície bariônica do disco.

4. Após a contabilização de $R_d$ e $\Sigma_d$, nenhum outro observável mantém correlação significativa com o resíduo. O diagnóstico está fechado.

5. O parâmetro que faltava foi identificado: o modelo BeeTheory atual considera a extensão geométrica da distribuição bariônica ($R_d$), mas não sua densidade de superfície ($\Sigma_d$). A próxima etapa é incorporar $\Sigma_d$ como uma segunda entrada para o comprimento de coerência de onda e, em seguida, reajustar o modelo no conjunto de 22 galáxias.

Referências. Lelli, F., McGaugh, S. S., Schombert, J. M. – SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves, AJ 152, 157 (2016). – Pearson, K. – Mathematical contributions to the theory of evolution III (Contribuições matemáticas para a teoria da evolução III), Phil. Trans. R. Soc. A 187, 253 (1896). Coeficiente de correlação. – Dutertre, X. – Bee Theory™: Wave-Based Modeling of Gravity, v2, BeeTheory.com (2023).

Identificando o parâmetro ausente:Etapa 1 – Análise de correlação sistemática