Máxima verossimilhança

Em estatística, a estimativa por máxima verossimilhança (maximum-likelihood estimation- MLE) é um método para estimar os parâmetros de um modelo estatístico. Assim, a partir de um conjunto de dados e dado um modelo estatístico, a estimativa por máxima verossimilhança estima valores para os diferentes parâmetros do modelo.

Por exemplo, alguém pode estar interessado na altura de girafas fêmeas adultas, mas devido à restrições de custo ou tempo, medir a altura de todas essas girafas de uma população pode ser impossível. Podemos assumir que as alturas são normalmente distribuídas (modelo estatístico), mas desconhecemos a média e variância (parâmetros do modelo) dessa distribuição. Esses parâmetros da distribuição podem então ser estimados por MLE a partir da medição de uma amostra da população. O método busca aqueles valores para os parâmetros de maneira a maximizar a probabilidade dos dados amostrados, dado o modelo assumido (no caso, distribuição normal).

De maneira geral, posto um conjunto de dados e um modelo estatístico, o método de máxima verossimilhança estima os valores dos diferentes parâmetros do modelo estatístico de maneira a maximizar a probabilidade dos dados observados (isto é, busca parâmetros que maximizem a função de verossimilhança). O método de máxima verossimilhança apresenta-se como um método geral para estimação de parâmetros, principalmente no caso de distribuições normais.

História

Ronald Fisher em 1913

Foi recomendado, analisado e popularizado por R. A. Fisher entre 1912 e 1922, ainda que tenha sido utilizado antes por Carl Friedrich Gauss, Pierre-Simon Laplace, Thorvald N. Thiele e Francis Edgeworth.^[1] A determinação de regiões de confiança em torno de estimativas dos parâmetros só foi possível a partir da publicação, em 1938, do Teorema de Wilk's.^[2]

Fundamentos

Suponha-se que se tenha uma amostra x₁, x₂, …, x_n de n observações independentes e identicamente distribuídas extraídas de uma função de distribuição desconhecida com função densidade (ou função probabilidade) f₀(·). Se sabe, porém, que f₀ pertence a uma família de distribuições { f(·|θ), θ ∈ Θ }, chamada modelo paramétrico, de maneira que f₀ corresponde a θ = θ₀, que é o verdadeiro valor do parâmetro. Se deseja encontrar o valor $\scriptstyle {\hat {\theta }}$ (ou estimador) que esteja o mais próximo possível ao verdadeiro valor θ₀.

Tanto x_i como θ podem ser vetores.

A ideia desse método é encontrar primeiro a função densidade de todas as observações, que sob condições de independência, é

f(x_{1},x_{2},\ldots ,x_{n}\;|\;\theta )=f(x_{1}|\theta )\cdot f(x_{2}|\theta )\cdots f(x_{n}|\theta )\,

Observando esta função sob um ângulo ligeiramente distinto, pode-se supor que os valores observados x₁, x₂, …, x_n são fixos enquanto que θ pode variar livremente. Esta é a função de verossimilhança:

{\mathcal {L}}(\theta \,|\,x_{1},\ldots ,x_{n})=\prod _{i=1}^{n}f(x_{i}|\theta ).

Na prática, é geralmente usado o logaritmo dessa função:

{\hat {\ell }}(\theta \,|\,x_{1},\ldots ,x_{n})=\ln {\mathcal {L}}=\sum _{i=1}^{n}\ln f(x_{i}|\theta ).

O método da máxima verossimilhança estima θ₀ buscando o valor de θ que maximiza $\scriptstyle {\hat {\ell }}(\theta |x)$ . Este é o chamado estimador de máxima verossimilhança (MLE) de θ₀:

{\hat {\theta }}_{\mathrm {mle} }={\underset {\theta \in \Theta }{\operatorname {arg\,max} }}\ {\hat {\ell }}(\theta \,|\,x_{1},\ldots ,x_{n}).

Às vezes, esse estimador é uma função explícita dos dados observados x₁, …, x_n, mas muitas vezes se precisa recorrer à otimizações numéricas. Também pode acontecer que o máximo não seja único ou não exista.

Na exposição anterior, a independência das observações foi assumida, mas não é um requisito necessário: é suficiente para poder construir a função de probabilidade conjunta dos dados para poder aplicar o método. Um contexto em que isso é comum é a análise de séries temporais.

Propriedades do estimador de máxima verossimilhança

Em muitos casos, o estimador obtido por máxima verossimilhança possui um conjunto de propriedades assintóticas atrativas:

consistência,
normalidade assintótica,
eficiência,
e inclusive eficiência de segunda ordem depois de corrigir o viés.

Consistência

Sob certas condições bastante habituais,^[3] o estimador de máxima verossimilhança é consistente: se o número de observações n tende ao infinito, o estimador $\scriptstyle {\hat {\theta }}$ converge em probabilidade a seu valor verdadeiro:

{\hat {\theta }}_{\mathrm {mle} }\ {\xrightarrow {p}}\ \theta _{0}\ .

Sob condições um pouco mais fortes,^[3] a convergência é quase certa:

{\hat {\theta }}_{\mathrm {mle} }\ {\xrightarrow {a.s.}}\ \theta _{0}\ .

Normalidade assintótica 2

Se as condições de consistência forem atendidas e também,

$\theta _{0}\in interior(\theta )$ ;
$f(x|\theta )>0$ e é duas vezes continuamente diferenciável em relação a θ em algum entorno N de θ₀;
∫ sup_θ∈N||∇_θf(x|θ)||dx < ∞, y ∫ sup_θ∈N||∇_θθf(x|θ)||dx < ∞;
I = E[∇_θlnf(x|θ₀) ∇_θlnf(x|θ₀)′] existe e não é singular;
$E[sup_{\theta \in N}\parallel \bigtriangledown _{\theta \theta }\ln(f(x|\theta ))\parallel ]<\infty$ ,

então o estimador de probabilidade máxima tem uma distribuição assintótica normal:^[4]

{\sqrt {n}}{\big (}{\hat {\theta }}_{\mathrm {mle} }-\theta _{0}{\big )}\ {\xrightarrow {d}}\ {\mathcal {N}}(0,\,I^{-1}).

Invariância funcional

Se ${\widehat {\theta }}$ é o EMV de θ e g(θ) é uma transformação de θ, então o EMV de α = g(θ) é

{\widehat {\alpha }}=g({\widehat {\theta }}).\,\!

Além disso, o EMV é invariável contra certas transformações de dados. De fato se $Y=g(X)$ e $g$ uma aplicação bijetiva que não depende dos parâmetros estimados, a função densidade de Y é

f_{Y}(y)=f_{X}(x)/|g'(x)|

Ou seja, as funções de densidade de X e Y diferem apenas em um termo que não depende dos parâmetros. Então, por exemplo, o EMV para os parâmetros de uma distribuição log-normal são os mesmos que os de uma distribuição normal ajustada sobre o logaritmo dos dados de entrada.

Outras propriedades

O EMV é √n-consistente e assintoticamente eficiente. Em particular, isto significa que o viés é zero até a ordem n^−1/2. Entretanto, ao obter os termos de ordem mais alta da expansão de Edgeworth da distribuição do estimador, θ_emv tem um viés de ordem ⁻¹. Este viés é igual a^[5]

b_{s}\equiv \operatorname {E} [({\hat {\theta }}_{\mathrm {mle} }-\theta _{0})_{s}]={\frac {1}{n}}\cdot I^{si}I^{jk}{\big (}{\tfrac {1}{2}}K_{ijk}+J_{j,ik}{\big )},

fórmula onde se tem adotado a convenção de Einstein para expressar somas; I^jk representa l j,k-ésima componente da inversa da matriz de informação de Fisher e

{\tfrac {1}{2}}K_{ijk}+J_{j,ik}=\operatorname {E} {\bigg [}\;{\frac {1}{2}}{\frac {\partial ^{3}\ln f_{\theta _{0}}(x_{t})}{\partial \theta _{i}\,\partial \theta _{j}\,\partial \theta _{k}}}+{\frac {\partial \ln f_{\theta _{0}}(x_{t})}{\partial \theta _{j}}}{\frac {\partial ^{2}\ln f_{\theta _{0}}(x_{t})}{\partial \theta _{i}\,\partial \theta _{k}}}\;{\bigg ]}.

Graças a essas fórmulas, é possível estimar o viés de segunda ordem do estimador e corrigi-lo por subtração:

{\hat {\theta }}_{\mathrm {mle} }^{*}={\hat {\theta }}_{\mathrm {mle} }-{\hat {b}}.

Este estimador, sem viés até a ordem n⁻¹, se chama estimador de máxima verossimilhança com correção do viés.

Exemplos

Distribuição uniforme discreta

Suponha que n bolas numeradas de 1 a n sejam colocadas em uma urna e que uma delas seja sorteada aleatoriamente. Se n for desconhecido, seu EMV é o número m que aparece na bola extraída: a função de verossimilhança é 0 para n < m e 1/n para n ≥ m; que alcança seu máximo quando n = m. O valor esperado de ${\hat {n}}$ , é (n + 1)/2. Como consequência, o EMV de n subestimará o verdadeiro valor de n por (n − 1)/2.

Distribuição discreta com parâmetros discretos

Suponha-se que uma moeda inclinada seja jogada no ar 80 vezes. A amostra resultante pode ser algo assim como x₁ = H, x₂ = T, ..., x₈₀ = T, e se conta o número de caras, "H". A probabilidade que se obtenha cara é p e a de que se obtenha coroa, 1 − p (de modo que p é o parâmetro θ). Suponha-se que se obtenha 49 caras e 31 coroas. Imagine-e que a moeda foi extraída de uma caixa contendo três delas e que estas tem probabilidades p iguais a 1/3, 1/2 e 2/3 ainda que não se saiba qual delas é qual.

A partir dos dados obtidos do experimento se pode saber qual é a moeda com a máxima verossimilhança. Usando a função de probabilidade da distribuição binomial com uma amostra de tamanho 80, número de êxitos igual a 49 e distintos valores de p, a função de verossimilhança toma os seguintes três valores:

{\begin{aligned}\Pr(\mathrm {H} =49\mid p=1/3)&={\binom {80}{49}}(1/3)^{49}(1-1/3)^{31}\approx 0.000,\\[6pt]\Pr(\mathrm {H} =49\mid p=1/2)&={\binom {80}{49}}(1/2)^{49}(1-1/2)^{31}\approx 0.012,\\[6pt]\Pr(\mathrm {H} =49\mid p=2/3)&={\binom {80}{49}}(2/3)^{49}(1-2/3)^{31}\approx 0.054.\end{aligned}}

A verossimilhança é máxima quando p = 2/3 e este é, portanto, o EMV de p.

Distribuição discreta com parâmetros contínuos

Agora, suponha que houvesse apenas uma moeda, mas sua p poderia ter sido qualquer valor 0 ≤ p ≤ 1. A função de probabilidade a ser maximizada é

L(p)=f_{D}(\mathrm {H} =49\mid p)={\binom {80}{49}}p^{49}(1-p)^{31},

e a maximização está acima de todos os valores possíveis 0 ≤ p ≤ 1.

Probabilidade de diferentes valores de parâmetros de proporção para um processo binomial com t = 3 e n = 10

Uma maneira de maximizar essa função é por diferenciação com relação a p e definindo para zero:

{\begin{aligned}{0}&{}={\frac {\partial }{\partial p}}\left({\binom {80}{49}}p^{49}(1-p)^{31}\right)\\[8pt]&{}\propto 49p^{48}(1-p)^{31}-31p^{49}(1-p)^{30}\\[8pt]&{}=p^{48}(1-p)^{30}\left[49(1-p)-31p\right]\\[8pt]&{}=p^{48}(1-p)^{30}\left[49-80p\right]\end{aligned}}

a qual tem soluções p = 0, p = 1, e p = 49/80. A solução que maximiza a probabilidade é claramente p = 49/80 (desde que p = 0 e p = 1 resulta em uma probabilidade zero). Então o estimador de probabilidade máxima para p é 49/80.

Esse resultado é facilmente generalizado substituindo uma letra como t no lugar de 49 para representar o número observado de 'sucessos' de nossos ensaios de Bernoulli, e uma letra tal como n no lugar de 80 para representar o número de ensaios de Bernoulli. Exatamente o mesmo cálculo produz o estimador de probabilidade máxima t / n para qualquer sequência de n ensaios de Bernoulli resultando em t 'sucessos'.

Distribuição contínua com parâmetros contínuos

Para a distribuição normal ${\mathcal {N}}(\mu ,\sigma ^{2})$ a qual tem função densidade de probabilidade

f(x\mid \mu ,\sigma ^{2})={\frac {1}{{\sqrt {2\pi }}\ \sigma \ }}\exp {\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)},

a função densidade de probabilidade correspondente para uma amostra de n variáveis aleatórias variáveis aleatórias independentes e identicamente distribuídas normais (a probabilidade) é

f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\prod _{i=1}^{n}f(x_{i}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right),

ou mais convenientemente:

f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right),

onde ${\bar {x}}$ é a média amostral.

Esta família de distribuições possui dois parâmetros: θ = (μ, σ), então maximizamos a verossimilhança, ${\mathcal {L}}(\mu ,\sigma )=f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma )$ , sobre os dois parâmetros simultaneamente ou, se possível, individualmente.

Dado que logaritmo é uma função contínua estritamente crescente sobre o contradomínio da verossimilhança, os valores que maximizam a verossimilhança também maximizarão seu logaritmo. Como maximizar o logaritmo geralmente requer álgebra mais simples, é o logaritmo que é maximizado abaixo. (Nota: a verossimilhança de log está intimamente relacionada a entropia da informação e informação de Fisher.)

{\begin{aligned}0&={\frac {\partial }{\partial \mu }}\log \left(\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\right)\\[6pt]&={\frac {\partial }{\partial \mu }}\left(\log \left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=0-{\frac {-2n({\bar {x}}-\mu )}{2\sigma ^{2}}}\end{aligned}}

que é resolvido por

{\hat {\mu }}={\bar {x}}=\sum _{i=1}^{n}x_{i}/n.

Este é realmente o máximo da função, pois é o único ponto de virada em μ e a segunda derivada é estritamente menor que zero. Seu valor esperado é igual ao parâmetro μ da distribuição dada,

E\left[{\widehat {\mu }}\right]=\mu ,\,

o que significa que o estimador de verossimilhança máxima ${\widehat {\mu }}$ é imparcial.

Similarmente diferenciamos a verossimilhança de log em relação a σ e equivale a zero:

{\begin{aligned}0&={\frac {\partial }{\partial \sigma }}\log \left(\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\right)\\[6pt]&={\frac {\partial }{\partial \sigma }}\left({\frac {n}{2}}\log \left({\frac {1}{2\pi \sigma ^{2}}}\right)-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\[6pt]&=-{\frac {n}{\sigma }}+{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{\sigma ^{3}}}\end{aligned}}

que é resolvido por

{\widehat {\sigma }}^{2}=\sum _{i=1}^{n}(x_{i}-{\widehat {\mu }})^{2}/n.

Inserindo ${\widehat {\mu }}$ obtem-se

{\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}x_{i}x_{j}.

Para calcular seu valor esperado, é conveniente reescrever a expressão em termos de variáveis aleatórias com média zero (erro estatístico) $\delta _{i}\equiv \mu -x_{i}$ . Expressar a estimativa nessas variáveis resulta

{\widehat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(\mu -\delta _{i})^{2}-{\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}(\mu -\delta _{i})(\mu -\delta _{j}).

Simplificando a expressão acima, utilizando os fatos que $E\left[\delta _{i}\right]=0$ e $E[\delta _{i}^{2}]=\sigma ^{2}$ , nos permite obter

E\left[{\widehat {\sigma ^{2}}}\right]={\frac {n-1}{n}}\sigma ^{2}.

Isso significa que o estimador ${\widehat {\sigma }}$ é tendencioso. Contudo, ${\widehat {\sigma }}$ é consistente.

Formalmente dizemos que o estimador de máxima verossimilhança (EMV) para $\theta =(\mu ,\sigma ^{2})$ é:

{\widehat {\theta }}=\left({\widehat {\mu }},{\widehat {\sigma }}^{2}\right).

Neste caso os EMVs pode ser obtido individualmente. Em geral, esse pode não ser o caso, e o EMVs teria que ser obtido simultaneamente.

Variáveis não independentes

Pode ser que as variáveis estejam correlacionadas, ou seja, não sejam independentes. Duas variáveis aleatórias X e Y são independentes apenas se a função de densidade de probabilidade conjunta for o produto das funções individuais de densidade de probabilidade, i.e.

f(x,y)=f(x)f(y)\,

Suponha que se construa um vetor Gaussiano de ordem n fora de variáveis aleatórias $(x_{1},\ldots ,x_{n})\,$ , onde cada variável tem médias dadas por $(\mu _{1},\ldots ,\mu _{n})\,$ . Além disso, faz-se a matriz de covariância ser indicada por $\Sigma ,$

A função densidade de probabilidade conjunta dessas n variáveis randômicas é então dada por:

f(x_{1},\ldots ,x_{n})={\frac {1}{(2\pi )^{n/2}{\sqrt {{\text{det}}(\Sigma )}}}}\exp \left(-{\frac {1}{2}}\left[x_{1}-\mu _{1},\ldots ,x_{n}-\mu _{n}\right]\Sigma ^{-1}\left[x_{1}-\mu _{1},\ldots ,x_{n}-\mu _{n}\right]^{T}\right)

Nos dois casos variáveis, a função densidade de probabilidade conjunta é dada por:

f(x,y)={\frac {1}{2\pi \sigma _{x}\sigma _{y}{\sqrt {1-\rho ^{2}}}}}\exp \left[-{\frac {1}{2(1-\rho ^{2})}}\left({\frac {(x-\mu _{x})^{2}}{\sigma _{x}^{2}}}-{\frac {2\rho (x-\mu _{x})(y-\mu _{y})}{\sigma _{x}\sigma _{y}}}+{\frac {(y-\mu _{y})^{2}}{\sigma _{y}^{2}}}\right)\right]

Neste e em outros casos em que existe uma função de densidade articular, a função de probabilidade é definida como acima, em Fundamentos, usando essa densidade.

Referências

↑ Edgeworth (Set 1908, Dez 1908)
↑ Wilks, S. S. (1938). «The Large-Sample Distribution of the Likelihood Ratio for Testing Composite Hypotheses». Annals of Mathematical Statistics. 9: 60–62. doi:10.1214/aoms/1177732360
↑ ^a ^b Newey & McFadden (1994, Theorem 2.5.)
↑ Newey & McFadden (1994, Theorem 3.3.)
↑ Cox & Snell (1968, formula (20))

[1] Edgeworth (Set 1908, Dez 1908)

[2] Wilks, S. S. (1938). «The Large-Sample Distribution of the Likelihood Ratio for Testing Composite Hypotheses». Annals of Mathematical Statistics. 9: 60–62. doi:10.1214/aoms/1177732360

[Newey_1-3] Newey & McFadden (1994, Theorem 2.5.)

[4] Newey & McFadden (1994, Theorem 3.3.)

[5] Cox & Snell (1968, formula (20))

[1]

[2]

[3]

[4]

[5]