BLOSUM: diferenças entre revisões

Conteúdo apagado Conteúdo adicionado
Linha 3:
A matriz '''BLOSUM''' ('''BLO'''cks of Amino Acid '''SU'''bstitution '''M'''atrix) é uma [[matriz de substituição]] usada para o [[alinhamento de sequências]] de [[proteína]]s. Matrizes BLOSUM são usadas para pontuar alinhamentos entre sequências de proteínas divergentes. Elas são baseadas em alinhamentos locais. As matrizes BLOSUM foram introduzidas pela primeira vez em um artigo de Henikoff e Henikoff.<ref name=henikoff>{{citar jornal| ano=1992| jornal=PNAS | volume=89 | página=10915–10919| pmid=1438297 | título = Amino Acid Substitution Matrices from Protein Blocks | doi = 10.1073/pnas.89.22.10915 | autor = Henikoff, S.; Henikoff, J.G.| número=22| pmc=50453}}</ref> Elas examinam o [[banco de dados BLOCKS]] buscando regiões muito conservadas de famílias de proteínas (que não têm lacunas no alinhamento de sequências) e depois contam a freqüência relativa de [[aminoácido]]s e as suas probabilidades de substituição. Então, elas calculam a pontuação do [[Razão de chance|logaritmo das razões de chance]] para cada uma das 210 possíveis substituições dos 20 aminoácidos-padrão. Todas as matrizes BLOSUM são baseadas em alinhamentos observados; não são extrapoladas a partir de comparações de proteínas intimamente relacionadas como as [[Point accepted mutation|Matrizes PAM]].
 
Vários conjuntos de matrizes BLOSUM existem usando bases de dados de alinhamento diferentes, batizadas com números. As matrizes BLOSUM com números elevados são projetadas para comparar seqüências intimamente relacionadas, enquanto que aquelas com baixos números são projetadas para comparar seqüências distantemente relacionadas. Por exemplo, a BLOSUM80 é usada para alinhamentos menos divergentes, e a BLOSUM45 é usada para alinhamentos mais divergentes. As matrizes foram criadas pela fusão (clustering) de todas as seqüências que eram mais semelhantes do que uma determinada percentagem em uma única seqüência e depois comparando somente estas seqüências (aquelas que foram mais divergentes do que o valor percentual determinado); reduzindo assim a contribuição de seqüências estreitamente relacionadas. O percentual utilizado foi acrescentada ao nome, formando BLOSUM80, por exemplo, quando sequencias mais de 80% idênticas foram agrupadas.
 
<!--
 
... The matrices were created by merging (clustering) all sequences that were more similar than a given percentage into one single sequence and then comparing those sequences (that were all more divergent than the given percentage value) only; thus reducing the contribution of closely related sequences. The percentage used was appended to the name, giving BLOSUM80 for example where sequences that were more than 80% identical were clustered.
 
Scores within a BLOSUM are log-odds scores that measure, in an alignment, the logarithm for the ratio of the likelihood of two amino acids appearing with a biological sense and the likelihood of the same amino acids appearing by chance.<ref name=handbook>{{cite book | url=http://books.google.com/?id=kDFltuQo1dMC&pg=PA673&lpg=PA673&dq=blosum+matrix | title=Handbook of Nature-Inspired And Innovative Computing | isbn=0387405321 | author=Albert Y. Zomaya | year=2006 | publisher=Springer | location=New York, NY}}page 673</ref> The matrices are based on the minimum percentage identity of the aligned protein sequence used in calculating them.<ref name=handbook /> Every possible identity or substitution is assigned a score based on its observed frequences in the alignment of related proteins.<ref>[http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Scoring2.html NIH "Scoring Systems"]</ref> A positive score is given to the more likely substitutions while a negative score is given to the less likely substitutions.