Análise de componentes principais: diferenças entre revisões

Conteúdo apagado Conteúdo adicionado
vocabulário técnico
Linha 3:
[[Imagem:GaussianScatterPCA.png|thumb|right|PCA de uma [[distribuição Gaussiana multivariada]] centrada em (1,3) com um desvio padrão de 3 aproximadamente na direção (0.878, 0.478) e desvio padrão 1 na direção ortogonal. Os vetores na figura são os autovetores da [[matriz de covariância]] multiplicados pela raiz quadrada do autovalor correspondente, e transladados de forma a iniciarem na média.]]
 
A '''Análise de Componentes Principais''' (ACP) ou ''Principal Component Analysis'' (PCA) é um procedimento matemático que utiliza uma [[transformação ortogonal]] (ortogonalização de vectores vetores) para converter um conjunto de observações de variáveis possivelmente correlacionadas num conjunto de valores de variáveis [[Correlação e dependência|linearmente não correlacionadas]] chamadas de '''componentes principais'''. O número de componentes principais é menor ou igual ao número de variáveis originais. Esta transformação é definida de forma que o primeiro componente principal tem a maior [[variância]] possível (ou seja, é responsável pelo máximo de variabilidade nos dados), e cada componente seguinte, por sua vez, tem a máxima variância sob a restrição de ser ortogonal a (i.e., não correlacionado com) os componentes anteriores. Os componentes principais são garantidamente independentes apenas se os dados forem [[Distribuição normal|normalmente distribuídos]] (conjuntamente). O PCA é sensível à escala relativa das variáveis originais. Dependendo da área de aplicação, o PCA é também conhecido como [[transformada de Karhunen-Loève]] (KLT) discreta, transformada de [[Harold Hotelling|Hotelling]] ou decomposição ortogonal própria (POD).
 
O PCA foi inventado em 1901 por [[Karl Pearson]].<ref>{{Cite journal| author = Pearson, K. | authorlink=Karl Pearson |year = 1901 | title = On Lines and Planes of Closest Fit to Systems of Points in Space | journal = Philosophical Magazine | volume = 2 | issue = 6 | pages = 559–572 | url = http://stat.smmu.edu.cn/history/pearson1901.pdf |format=PDF}}</ref> Agora, é mais comumente usado como uma ferramenta de [[análise exploratória de dados|Análise Exploratória de Dados]] e para fazer [[modelos preditivos]]. PCA pode ser feito por [[decomposição em autovalores]] (Valores Próprios) de uma matriz de [[covariância]], geralmente depois de centralizar (e normalizar ou usar pontuações-Z) a matriz de dados para cada atributo.<ref>{{Cite journal| author = Abdi. H., & Williams, L.J. | authorlink=AbdiWilliams |year = 2010 | title = Principal component analysis. | journal = Wiley Interdisciplinary Reviews: Computational Statistics, | volume = 2 | pages = 433-459}}</ref> Os resultados de PCA são geralmente discutidos em termos pontuações (''scores'') de componentes, também chamados de pontuações de fatores (os valores de variável transformados correspondem a um ponto de dado particular), e carregamentos (''loadings''), i.e., o peso pelo qual cada variável normalizada original deve ser multiplicada para se obter a pontuação de componente.<ref>Shaw P.J.A. (2003) ''Multivariate statistics for the Environmental Sciences'', Hodder-Arnold. ISBN 0-3408-0763-6. {{Page needed|date=June 2011}}</ref>
 
O PCA é a mais simples das verdadeiras análises multivariadas por [[autovetor]]es (Vetores Próprios). Com frequência, sua operação pode ser tomada como sendo reveladora da estrutura interna dos dados, de uma forma que melhor explica a variância nos dados. Se visualizarmos um conjunto de dados multivariados em um espaço de alta [[dimensão]], com 1 eixo por variável, o PCA pode ser usado para fornecer uma visualização em dimensões mais baixas dos mesmos dados, uma verdadeira "sombra" do objeto original quando visto de seu ponto mais informativo. Isto é feito usando-se apenas os primeiros componentes principais, de forma que a dimensionalidade dos dados transformados é reduzida.
 
O PCA é fortemente ligado à [[análise de fatores]] (Factorial Analysis); de fato, alguns pacotes estatísticos propositadamente confluem as técnicas. A verdadeira análise de fatores faz assunçõessuposições diferentes sobre a estrutura subjacente dos dados e encontra os autovetores de uma matriz levemente diferente.
 
== Detalhes ==