BLOSUM: diferenças entre revisões

Conteúdo apagado Conteúdo adicionado
Linha 5:
Vários conjuntos de matrizes BLOSUM existem usando bases de dados de alinhamento diferentes, batizadas com números. As matrizes BLOSUM com números elevados são projetadas para comparar seqüências intimamente relacionadas, enquanto que aquelas com baixos números são projetadas para comparar seqüências distantemente relacionadas. Por exemplo, a BLOSUM80 é usada para alinhamentos menos divergentes, e a BLOSUM45 é usada para alinhamentos mais divergentes. As matrizes foram criadas pela fusão (clustering) de todas as seqüências que eram mais semelhantes do que uma determinada percentagem em uma única seqüência e depois comparando somente estas seqüências (aquelas que foram mais divergentes do que o valor percentual determinado); reduzindo assim a contribuição de seqüências estreitamente relacionadas. O percentual utilizado foi acrescentada ao nome, formando BLOSUM80, por exemplo, quando sequencias mais de 80% idênticas foram agrupadas.
 
Escores dentro de uma BLOSUM são pontuações do [[Razão de chance|logaritmo das razões de chance]] que medem, em um alinhamento, o logaritmo para a razão entre a probabilidade de dois aminoácidos aparecendo com um sentido biológico e a probabilidade de os mesmos aminoácidos aparecendo por acaso <ref name=handbook>{{Referência a livro|autor=Albert Y. Zomaya |título=Handbook of Nature-Inspired And Innovative Computing|subtítulo=|idioma=inglês|edição=|local=New York|editora=Springer |ano=2006 |página=673|volumes=|volume=|id=|isbn=0-38740532-1 |url=http://books.google.com/?id=kDFltuQo1dMC&pg=PA673&lpg=PA673&dq=blosum+matrix}}</ref>. As matrizes são baseadas no mínimo percentual de identidade das sequência de proteínas alinhadas usado para o cálculo delas<ref name=handbook />. A cada identidade ou substituição possível é atribuída uma pontuação com base nas suas frequências observadas no alinhamento das proteínas relacionadas<ref>[http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Scoring2.html NIH "Scoring Systems"]</ref>. Um escore positivo é dado para as substituições mais prováveis, enquanto uma pontuação negativa é dada para as substituições menos prováveis.
 
Para calcular uma matriz BLOSUM, a seguinte equação é utilizada:
<!--
...<ref name=handbook>{{cite book | url=http://books.google.com/?id=kDFltuQo1dMC&pg=PA673&lpg=PA673&dq=blosum+matrix | title=Handbook of Nature-Inspired And Innovative Computing | isbn=0387405321 | author=Albert Y. Zomaya | year=2006 | publisher=Springer | location=New York, NY}}page 673</ref> The matrices are based on the minimum percentage identity of the aligned protein sequence used in calculating them.<ref name=handbook /> Every possible identity or substitution is assigned a score based on its observed frequences in the alignment of related proteins.<ref>[http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Scoring2.html NIH "Scoring Systems"]</ref> A positive score is given to the more likely substitutions while a negative score is given to the less likely substitutions.
 
To calculate a BLOSUM matrix, the following equation is used:
:<math>S_{ij}= \left( \frac{1}{\lambda} \right)\log{\left( \frac{p_{ij}}{q_i * q_j} \right)}</math>
 
<!--
 
Here, <math>p_{ij}</math> is the probability of two amino acids <math>i</math> and <math>j</math> replacing each other in a homologous sequence, and <math>q_i</math> and <math>q_j</math> are the background probabilities of finding the amino acids <math>i</math> and <math>j</math> in any protein sequence at random. The factor <math>\lambda</math> is a scaling factor, set such that the matrix contains easily computable integer values.