Distância de Mahalanobis

Em estatística, a distância de Mahalanobis é uma medida de distância introduzida pelo matemático indiano Prasanta Chandra Mahalanobis em 1936.[1] É baseada nas correlações entre variáveis com os quais distintos padrões podem ser identificados e analisados. É uma estatística útil para determinar a similaridade entre uma amostra desconhecida e uma conhecida. Distingue-se da distância euclidiana já que tem em conta as correlações do conjunto de dados e é invariante à escala, ou seja, não depende da escala das medições.

Os dados em ambos os grupos a comparar deverão ter o mesmo número de variáveis (ou seja, o mesmo número de colunas) mas não necessariamente o mesmo número de elementos (o número de linhas pode ser diferente).

Definição

editar

Formalmente, a distância de Mahalanobis entre um grupo de valores com média   e matriz de covariância   para um vector multivariado   é definida como:

 

A distância de Mahalanobis pode também definir-se como uma medida de dissimilaridade entre dois vectores aleatórios   e   com a mesma distribuição com a matriz de covariância   :

 

Se a matriz de covariância é a matriz identidade, a distância de Mahalanobis coincide com a distância euclidiana. Se a matriz de covariância é diagonal, então a medida de distância resultante é chamada distância euclidiana normalizada:

 

onde   é o desvio-padrão de   no conjunto amostral.

Exemplo

editar

Suponha-se que há dois grupos de dados, cada um dos quais consiste em duas variáveis (x, y).

Núm. x1 y1 x2 y2
1 2 2 6 5
2 6 5 8 7
3 2 5 7 4
4 4 7 5 4
5 7 3 5 6
6 6 4 - -
7 4 6 - -
8 2 5 - -
9 1 3 - -
10 5 3 - -

Centrando os dados na média aritmética de cada variável (subtrair a media a cada coluna) tem-se:

Núm. x1 y1 x2 y2
1 -1,90 -2,30 -0,20 -0,20
2 2,10 0,70 1,80 1,80
3 -1,90 0,70 0,80 -1,20
4 0,10 2,70 -1,20 -1,20
5 3,10 -1,30 -1,20 0,80
6 2,10 -0,30 - -
7 0,10 1,70 - -
8 -1,90 0,70 - -
9 -2,90 -1,30 - -
10 1,10 -1,30 - -

Calcula-se a covariância do grupo 1:

Cov. x1 y1
x1 3,89 0,13
y1 0,13 2,21

e a do grupo 2:

Cov. x2 y2
x2 1,36 0,56
y2 0,56 1,36

A matriz de covariância conjunta dos dois grupos é calculada como média ponderada das matrizes de covariância:

Cov. conj. x y
x 3,05 0,27
y 0,27 1,93

A distância de Mahalanobis é a multiplicação quadrática simples das médias diferenciais com a matriz inversa da matriz de covariância conjunta.

Mat. Inv. x y
x 0,332 -0,047
y -0,047 0,526

As médias diferenciais dão -2,3 e -0,9, tendo portanto a distância de Mahalanobis o valor final de D = 1,41041783998308 ou D² = 1,98927848334254.

Explicação intuitiva

editar

Considere-se o problema de estimar a probabilidade de um ponto de teste no espaço euclidiano N-dimensional pertencer ao conjunto, onde se tem pontos amostrais que certamente pertencem a esse conjunto. Um primeiro passo poderia ser a determinação da média do centro de massa dos pontos amostrais. Intuitivamente, quanto mais próximo estiver o ponto em questão deste centro de massa, mais provável é que pertença ao conjunto.

Todavia, precisa-se também de determinar a dimensão do conjunto. Uma abordagem simplista é estimar o desvio-padrão das distâncias dos pontos amostrais até ao centro de massa. Se a distância entre o ponto em teste e o centro de massa é menor que um desvio-padrão, poder-se-á concluir que é altamente provável que esse ponto pertença ao conjunto. Quanto mais distante esteja, mais provável é que o ponto não deva ser classificado como pertencente ao conjunto.

Esta abordagem intuitiva pode tornar-se quantificada ao definir-se a distância normalizada entre o ponto de teste e o conjunto como  . Relacionando isto com a distribuição normal obtém-se a probabilidade de o ponto de teste pertencer ao conjunto.

O problema com a abordagem descrita é a suposição de que os pontos amostrais são distribuídos à volta do centro de massa de um modo esférico. Se a distribuição fosse claramente não-esférica, por exemplo elipsoide, deveríamos esperar que a probabilidade de o ponto de teste pertencer ao conjunto iria depender não apenas da distância ao centro de massa, mas também da direção. Nestas direções onde o elipsoide tem um eixo menor o ponto de teste deverá estar mais próximo, mas se o eixo for maior então o ponto de teste poderá estar mais distante do centro de massa.

Colocando isto numa formulação matemática, o elipsoide que melhor representa a distribuição de probabilidade do conjunto pode ser estimado construindo a matriz de covariância da amostra. A distância de Mahalanobis é simplesmente a distância do ponto de teste ao centro de massa dividida pelo comprimento do elipsoide na direção do ponto de teste.

Esta última propriedade, de minimizar a distância entre o ponto de teste e a média, é comum a todas as divergências de Bregman, das quais a distância de Mahalanobis é um exemplo.

A distância de Mahalanobis tem em conta a variabilidade. Em vez de tratar todos os valores de igual modo quando calcula a distância ao ponto central, pondera-os pela diferença à amplitude de variação na direção do ponto de teste. A fronteira de Mahalanobis torna-se assim clara. Esta função constrói um espaço ao longo do eixo de alongamento elíptico que for detectado.

Em termos das medidas de Mahalanobis, uma amostra "A" terá um valor substancialmente menor de distância à média que uma amostra "B" se se distribuir ao longo do eixo do grupo com maior variabilidade. Assim, a amostra "A" é mais provavelmente classificada como relacionada com o grupo. As distâncias de Mahalanobis permitem observar não apenas as variações (variância) mas também a covariância. O grupo com as distâncias de Mahalanobis como medida define um espaço multidimensional cujas fronteiras determinam o intervalo de variação tido por aceitável para que amostras desconhecidas possam ser classificadas como relacionadas com uma distribuição.

Outra vantagem de usar a medida de Mahalanobis para discriminar é que as distâncias são calculadas em unidades de desvio-padrão a partir da média do grupo, o que faz com que a elipse englobante calculada formada à volta do cluster defina a zona de um desvio-padrão. Isto permite ao analista atribuir uma probabilidade estatística a essa medida. Em teoria, amostras com uma distância de Mahalanobis de 3 ou mais têm probabilidade de 0,01 ou menos e podem ser classificadas como não-membros do grupo em causa.

Relação com a estatística-alavanca

editar

A distância de Mahalanobis é claramente relacionada com a estatística-alavanca h. A distância de Mahalanobis de um ponto num conjunto de dados ao centróide de um conjunto de dados multivariado é (N − 1) vezes a estatística-alavanca desse ponto amostral, sendo N o número de elementos no conjunto amostral.

Aplicações

editar

A distância de Mahalanobis é amplamente utilizada em análise de clusters e outras técnicas de classificação. É fortemente relacionada com a distribuição T-quadrado de Hotelling usada em testes estatísticos multivariados.

Para que se possa usar a distância de Mahalanobis na classificação de um ponto de teste quanto à pertença a uma de entre N classes, convirá inicialmente determinar a matriz de covariância de cada classe, habitualmente baseando-se em amostras que se saibam pertencer a cada uma dessas classes. Então, dada uma amostra para teste, calcula-se a distância de Mahalanobis a cada uma dessas classes, e classifica-se o ponto de teste como pertencente à classe com a qual a distância de Mahalanobis seja a menor de todas. Usando a interpretação probabilística acima referida, isto é equivalente à selecção da classe que apresente a máxima verosimilhança.

A distância de Mahalanobis e a estatística-alavanca são também muito usadas para detectar valores atípicos (outliers), especialmente no desenvolvimento de modelos baseados em regressão linear. Um ponto que tenha uma distância de Mahalanobis maior do que o resto da população amostral de pontos é dito ter maior alavancagem já que tem uma maior influência no declive ou nos coeficientes da equação de regressão. A distância de Mahalanobis é também utilizada para determinar valores atípicos multivariados. As técnicas de regressão poderão ser utilizadas para determinar se um caso específico no contexto de uma população é ou não um valor atípico através da combinação de duas ou mais pontuações de variáveis. Um caso não necessita de ser um valor atípico univariado numa das variáveis para ser um valor atípico multivariado. A significância estatística da distância de Mahalanobis na detecção de valores atípicos multivariados pode ser avaliada por um teste chi-quadrado com k graus de liberdade.

Bibliografia

editar

Referências

  1. Mahalanobis, P C (1936). «On the generalised distância in statistics». Proceedings of the National Institute of Sciences of India. 2 (1): 49–55