Análise de componentes principais: diferenças entre revisões

Conteúdo apagado Conteúdo adicionado
MaskedAce (discussão | contribs)
Linha 5:
[[Imagem:GaussianScatterPCA.png|thumb|right|PCA de uma [[distribuição Gaussiana multivariada]] centrada em (1,3) com um desvio padrão de 3 aproximadamente na direção (0.878, 0.478) e desvio padrão 1 na direção ortogonal. Os vetores na figura são os autovetores da [[matriz de covariância]] multiplicados pela raiz quadrada do autovalor correspondente, e transladados de forma a iniciarem na média.]]
 
'''A Análise de Componentes Principais''' ou ''principal component analysis'' (PCA) é um procedimento matemático que utiliza uma [[transformação ortogonal]] para converter um conjunto de observações de variáveis possivelmente correlacionadas a um conjunto de valores de variáveis [[Correlação e dependência|linearmente descorrelacionadas]] chamadas '''componentes principais'''. O número de componentes principais é menor ou igual ao número de variáveis originais. Esta transformação é definida de forma que o primeiro componente principal tem a maior [[variância]] possível (ou seja, é responsável pelo máximo de variabilidade nos dados), e cada componente seguinte, por sua vez, tem a máxima variância sob a restrição de ser ortogonal a (i.e., não-correlacionado com) os componentes anteriores. Os componentes principais são garantidamente independentes apenas se os dados forem [[multivariate normal distribution|normalmente distribuídos]] (conjuntamente). O PCA é sensível à escala relativa das variáveis originais. Dependendo da área de aplicação, o PCA é também conhecido pelacomo ''' [[transformada [[Karhunen–Loèvede theorem|Karhunen–Loève]]''' ('''KLT''') discreta,'''transformada de [[Harold Hotelling|Hotelling]]''' ou '''decomposição ortogonal própria''' ('''POD''').
 
O PCA foi inventado em 1901 por [[Karl Pearson]].<ref>{{Cite journal| author = Pearson, K. | authorlink=Karl Pearson |year = 1901 | title = On Lines and Planes of Closest Fit to Systems of Points in Space | journal = Philosophical Magazine | volume = 2 | issue = 6 | pages = 559–572 | url = http://stat.smmu.edu.cn/history/pearson1901.pdf |format=PDF}}</ref> Agora, é mais comumente usado como uma ferramenta de [[análise exploratória de dados]] e para fazer [[modelos preditivos]]. PCA pode ser feito por [[decomposição em autovalores]] de uma matriz de [[covariância]] (ou de [[correlação]]) ou por [[decomposição em valores singulares]] de uma [[matriz de dados]], geralmente depois de centralizar (e normalizar ou usar pontuações-Z) a matriz de dados para cada atributo.<ref>{{Cite journal| author = Abdi. H., & Williams, L.J. | authorlink=AbdiWilliams |year = 2010 | title = Principal component analysis. | journal = Wiley Interdisciplinary Reviews: Computational Statistics, | volume = 2 | pages = 433-459}}</ref> Os resultados de PCA são geralmente discutidos em termos pontuações de componentes, também chamados de pontuações de fatores (os valores de variável transformados correspondem a um ponto de dado particular), e carregamentos (''loadings''), i.e., o peso pelo qual cada variável normalizada original deve ser multiplicada para se obter a pontuação de componente.<ref>Shaw P.J.A. (2003) ''Multivariate statistics for the Environmental Sciences'', Hodder-Arnold. ISBN 0-3408-0763-6. {{Page needed|date=June 2011}}</ref>