== Discussão ==
MeanSubtração subtractionde (a.k.a.média, ou "meancentralização centeringna média"), isé necessarynecessária for performingno PCA topara ensuregarantir thatque theos firstprimeiros principalcomponentes componentprincipais describesdescrevam thea directiondireção ofde maximummáxima variancevariância. IfSe meana subtractionsubtração isda notmédia performed,não thefor firstfeita, principalos componentprimeiros mightcomponentes insteadprincipais correspondpodem morecorresponder ormais lessou tomenos theà meanmédia ofdos the datadados. AUma meanmédia ofde zero isé needednecessária forpara findingencontrar a basisbase thatque minimizesminimiza theo [[Minimum mean square error|meanerro squarequadrado errormédio]] of the approximationda ofaproximação thedos datadados.<ref>A. A. Miranda, Y. A. Le Borgne, and G. Bontempi. [ New Routes from Minimal Approximation Error to Principal Components], Volume 27, Number 3 / June, 2008, Neural Processing Letters, Springer</ref>
Assuming zero [[empirical mean]] (the empirical mean of the distribution has been subtracted from the data set), the principal component ''w''<sub>1</sub> of a data set '''X''' can be defined as:
= \underset{\Vert \mathbf{w} \Vert = 1}{\operatorname{\arg\,max}}\,\operatorname{Var}\{ \mathbf{w}^\top \mathbf{X} \}
= \underset{\Vert \mathbf{w} \Vert = 1}{\operatorname{\arg\,max}}\,E\left\{ \left( \mathbf{w}^\top \mathbf{X}\right)^2 \right\}</math>
(Ver [[arg max]] para a notação.) Com os primeiros ''k''&nbsp;&minus;&nbsp;1 componentes, o ''k''-ésimo componente pode ser encontrado subtraíndo-se os primeiros <math>k - 1</math> componentes principais de '''X''':
:<math>\mathbf{\hat{X}}_{k - 1}
= \mathbf{X} -
\sum_{i = 1}^{k - 1}
\mathbf{w}_i \mathbf{w}_i^\top \mathbf{X}</math>
e substituíndo-se isso como o novo conjunto de dados cujo componente é obtido em
= \underset{\Vert \mathbf{w} \Vert = 1}{\operatorname{arg\,max}}\,E\left\{
\right)^2 \right\}.</math>
O PCA isé equivalentequivalente toa [[empirical orthogonal functions|funções ortogonais empíricas]] (EOF), aum namenome whichque isé usedusado inem [[meteorologymeteorologia]].
AnUma [[autoencoder]] [[ArtificialRede neural networkartificial|rede neural]] network ''[[autoencoder]]'' com withuma acamada linear hiddenescondida layer isé similar toao PCA. UponÀ convergenceconvergência, theos weightvetores vectorsde ofpeso thedos ''K'' neuronsneurônios inna thecamada hiddenescondida layerformarão willuma formbase apara basiso forespaço theformado spacepelos spanned by the firstprimeiros ''K'' principalcomponentes componentsprincipais. UnlikeDiferente do PCA, thisessa techniquetécnica willnão notnecessáriamente necessarily produceproduz [[orthogonalvetores ortogonais]] vectors.
O PCA isé auma populartécnica primaryfundamental technique inem [[patternreconhecimento de recognitionpadrões]]. ItNo is notentando, however,não é otimizado optimizedpara forseparabilidade classde separabilityclasses.<ref>{{Cite book| author=Fukunaga, Keinosuke | title = Introduction to Statistical Pattern Recognition |publisher=Elsevier | year = 1990 | url=| isbn=0122698517}}</ref> AnUma alternativealternativa isé thea [[linear discriminant analysis|LDA]], whichque doesleva takeesse thisaspecto intoem accountconsideração.
