Alinhamento de sequências


Na bioinformática, alinhamento de sequência é uma técnica de organizar as sequências de DNA, RNA ou proteína para identificar regiões de similaridade que podem ser consequência de relações funcionais, estruturais ou evolutivas entre as sequências.[1] Esses alinhamentos são feitos por softwares cujo objetivo é maximizar o número de coincidências entre nucleotídeos ou aminoácidos nas diferentes sequências. Nucleotídeos ou aminoácidos são normalmente representadas como linhas em uma matriz.[2]

Exemplo de alinhamento entre duas sequências, produzido pelo programa ClustalW entre duas proteínas dedo-de-zinco humanas (human zinc finger proteins) identificadas por seus números de acesso no GenBank. (Key)

Essencialmente alinhar duas sequencias consiste na inserção de espaços (gaps) nas sequências de modo que elas fiquem do mesmo tamanho, e seja possível sobrepor-las para a comparação das bases. A partir de um alinhamento, é possível quantificar a similaridade entre duas sequências e usando um sistema de pontuação qualificar um alinhamento ótimo. Um alinhamento ótimo é aquele que melhor representa o cenário de evolução das sequências.

Abordagens computacionais para o alinhamento de sequências dividem-se, em geral, em duas categorias: alinhamentos globais e alinhamentos locais.

Alinhamentos globais e locais editar

Alinhamento global editar

Desenvolvido em 1970,[2] o Alinhamento global, também são conhecidos pelo nome de seus desenvolvedores, Needleman e Wunsch, envolvem o alinhamento de sequências inteiras em seu todo comprimento. Os alinhamentos globais são usados principalmente quando as sequências a serem estudadas são semelhantes em comprimento e homologias de sequências são esperadas. Devido ao seu nível de extensão, o método de alinhamento global é tipicamente usado em Alinhamentos par a par, já que se usado em alinhamentos múltiplos o cálculo é extremamente difícil e complexo[1].

Alinhamento local editar

Desenvolvido em 1981,[2] o Alinhamento local ou conhecido como Smith-Waterman, nome derivado de seus desenvolvedores, é o método de alinhamento que envolvem apenas regiões do comprimento de uma sequência (subsequências), e não toda sua extensão como o alinhamento global. O alinhamento local é usado quando duas sequências devem ser examinadas para a localização de homologias, mas nenhuma correspondência é esperada em toda a extensão da sequência. Esse é o método mais utilizado devido a sua precisão, especialmente em alinhamentos múltiplos e a capacidade de obtenção de alinhamentos corretos em regiões de baixa similaridade entre sequências biológicas distantemente relacionadas. O alinhamento local foi desenvolvido a partir de algoritmos para alinhamentos globais[2]. A ferramenta mais conhecida por realizar alinhamentos locais de forma rápida e eficiente chama-se BLAST (Basic Local Alignment Search Tool)[3].

Alinhamento par a par e Alinhamento de múltiplas sequências editar

Alinhamento par a par editar

Os métodos de alinhamento de sequência par a par são usados ​​para encontrar os alinhamentos (locais ou globais) de duas sequências. Este método de alinhamento utiliza programação dinâmica para alinhar duas sequencias e requer Ω (mn) para tempo e espaço, onde m e n são os comprimentos das sequências. Os alinhamentos par a par só podem ser usados em duas sequências por vez, porém são eficientes para calcular e são frequentemente usados ​​para métodos que não exigem extrema precisão.[1]

Alinhamento de múltiplas sequências editar

 
Alinhamento de 27 sequências de proteínas de hemaglutinina da gripe aviária coloridas por conservação de resíduos (parte superior) e propriedades de resíduos (parte inferior)

O alinhamento de múltiplas sequências é uma extensão do alinhamento par a par com o intuito de comparar mais de duas sequências por vez. Alinhamentos múltiplos são frequentemente usados ​​na identificação de regiões conservadas com um grupo de sequências que se supõe serem evolutivamente homólogas. Este tipo de alinhamento é considerado como sendo mais confiável que o alinhamento par a par que envolve apenas duas seqüências. A razão disto está em que o alinhamento múltiplo permite detectar mais facilmente as características estruturais comuns de proteínas homólogas[4].Alinhamentos de múltiplas sequências são computacionalmente difíceis de produzir e a maioria das formulações do problema levam a problemas de otimização e tempo. Por esses mesmos motivos técnicos de processamento, a utilização do alinhamento múltiplo com alinhamentos globais é desincentivada, já que seria um processo extremamente complexo, assim o alinhamento múltiplo de sequências é mais usado em alinhamentos locais.[2][5]

Representações e Interpretação editar

Representação editar

Na maioria das representações do resultado do alinhamento de sequências, as sequências são organizadas nas linhas da matriz de tal forma que os nucleotídeos ou aminoácidos estão um abaixo do outro (na mesma coluna). Os espaçamentos são substituídos por um sinal "-", chamado de gap (espaçamento), e denota um indel, ou seja, um local de possível inserção ou deleção.

Também é possível a representação por texto ao utilizar o formato FASTA, quando as sequências são escritas com espaçamentos, com o mesmo comprimento. Este tipo de representação é frequentemente usado por programas, e é conveniente para o processamento da máquina.

Neles, as sequências são escritas uma abaixo da outra, e na linha entre elas, diferentes símbolos indicam as diferentes relações entre os aminoácidos. Um espaço (ausência de um símbolo) indica a ausência de uma conexão entre aminoácidos, tanto em homologia quanto em função: o símbolo "*", e a letra "|"  (BLAST) são aminoácidos idênticos; ":" ou "+" são semelhantes em propriedades; "." — semelhantes em propriedades[6].

Interpretação editar

 
Um alinhamento de sequência, produzido por ClustalO, de proteínas histonas de mamíferos. As sequências são os aminoácidos dos resíduos 120 – 180 das proteínas. Os resíduos conservados em todas as sequências são destacados em cinza. Abaixo das sequências de proteínas há uma chave denotando sequência conservada (*), mutações conservadoras (:), mutações semiconservativas (.) e mutações não conservativas.[7]

Se duas sequências em um alinhamento comungam de um ancestral comum, as incompatibilidades podem ser interpretadas como mutações pontuais e os espaçamentos (gaps) como indels (ou seja, mutações de inserção ou deleção) introduzidas em uma ou ambas as linhagens desde que divergiram uma da outra.

Nos alinhamentos de sequências de proteínas, o grau de similaridade entre aminoácidos que ocupam uma posição específica na sequência pode ser interpretado como uma medida aproximada de quão conservada é uma determinada região ou motivo de sequência entre as linhagens. A ausência de substituições, ou a presença apenas de substituições muito conservadoras em uma determinada região da sequência, sugerem que esta região tem importância estrutural ou funcional[8].

Métodos editar

Programação dinâmica editar

A técnica de programação dinâmica é de grande importância para o alinhamento de sequências e para toda a bioinformática por sua grande precisão em achar um alinhamento ótimo. Os algoritmos mais conhecidos para o alinhamento de sequências utilizam este modelo, estes são o algoritmo de Needleman–Wunsch (utilizado em alinhamentos de sequências globais) e Algoritmo de Smith-Waterman (utilizado em alinhamentos de sequências locais). O algorítimo de Needleman-Wunsch foi a primeira aplicação desta técnica a comparação de sequências biológicas. Para a utilização deste método no alinhamento de sequências, é necessário a construção de uma matriz de pontuação, onde os casamentos, substituições e remoções nas sequências são usados como parâmetros relativos. Os resultados obtidos são guardados numa tabela, conhecida como a matriz de programação dinâmica. Seu tamanho é igual ao do produto do tamanho de s pelo tamanho de t, ou seja, o algorítimo de programação dinâmica exige um gasto proporcional a esse produto.[9] Embora a técnica de programação dinâmica seja aplicável a qualquer número de sequências, por ser computacionalmente custoso tanto em tempo quanto em memória, é raramente usado para mais de três ou quatro sequências em sua forma mais básica[10].

Método K-tuple editar

O método K-tuple é um método consideravelmente mais rápido para alinhar duas sequências (usado exclusivamente em alinhamento de sequências par a par). Ele começa identificando sequências curtas idênticas, também conhecidas como k-tuple, e depois usa programação dinâmica para alinhar as sequências com base nessas palavras. Embora não garantem encontrar um alinhamento ideal, são significativamente mais eficientes que o algoritmo Smith Waterman. O método K-tuple é especialmente utilizado nos pacotes de software FASTA e BLAST, por sua eficiência em localizar e identificar sequencias.

Alinhamento progressivo editar

O método de alinhamento progressivo é um método usado no alinhamento de múltiplas sequências, que utiliza o algoritmo de alinhamento par a par de Needleman e Wunsch iterativamente para alcançar o alinhamento múltiplo de um conjunto de sequências de proteínas e construir uma árvore evolutiva descrevendo sua relação. O Alinhamento progressivo é uma das maneiras mais eficiente de se realizar o alinhamento múltiplo de sequências, ao utilizar pouco tempo e memoria computacional. Ele é realizado em três etapas principais: determinar a distância entre as sequências em par a par que serão alinhadas, construir uma árvore filogenética partir da matriz de distâncias e construir finalmente o alinhamento múltiplo[11]. Muitas variações da implementação progressiva de Clustal[12] são usadas para alinhamento de sequências múltiplas, construção de árvores filogenéticas e como entrada para predição da estrutura de proteínas. Uma variante mais lenta, mas mais precisa do método progressivo é conhecida como T-Coffee;[13]

Alinhamento estrutural editar

Um alinhamento estrutural é um tipo de alinhamento de sequência baseado na comparação da forma das moléculas. Ou seja, os alinhamentos estruturais, que geralmente são específicos de sequências de proteínas e, às vezes, de RNA, usam informações sobre a estrutura secundária e terciária da proteína ou molécula de RNA para auxiliar no alinhamento das sequências[14]. Esses métodos podem ser usados ​​para duas ou mais sequências e normalmente produzem alinhamentos locais; no entanto, por dependerem da disponibilidade de informação estrutural das moléculas, só podem ser utilizados para sequências cujas estruturas correspondentes sejam conhecidas (em geral via cristalografia de raios X ou espectroscopia de RMN ). Como a estrutura da proteína e do RNA é mais conservada evolutivamente do que a sequência,[15] os alinhamentos estruturais podem ser mais confiáveis ​​entre sequências que estão muito distantemente relacionadas e que divergiram tão extensivamente que a comparação de sequências não pode detectar com segurança sua similaridade. Portanto, o alinhamento estrutural pode ser usado para sugerir relações evolutivas entre proteínas que compartilham uma sequência comum muito curta.

Sistema de Pontuação editar

O intuito do alinhamento de sequências é encontrar um alinhamento ótimo, para isso é criado um sistema de pontuação que permite quantificar a qualidade de um alinhamento. Desta forma é possível comparar alinhamentos, e assim, escolher um melhor, ou seja, aquele de maior relevância biológica. Um esquema de pontuação comumente empregado é aquele que diferencia concordâncias (matches), discordâncias (mismatches) e espaçamentos (gaps). Matches e mismatches ocorrem quando ha duas bases em uma mesma coluna. Para um match é necessário que as duas bases sejam iguais, sendo assim o alinhamento ganhara um ponto(s), caso contrario ocorreu mismatch, e o alinhamento perdera um ponto(s). Já um gap ocorre quando uma base é posicionada ao lado de um buraco, que correspondem aos indels que ocorreram no processo evolutivo, e será concedido uma penalidade ao alinhamento.[2][16]

A pontuação do alinhamento é dada pela soma das pontuações das colunas. Como cada parâmetro definido é penalizado ou premiado é definido pelo tipo, método de alinhamento de sequências, intuito e exigência do usuário.

Por exemplo:

Possível sistema de Pontuação do alinhamento global das sequências: match=1, mismatch=-1 e gap=-2.

Possível de sistema de pontuação do alinhamento local das sequências: match=3, mismatch=-3 e gap=-5.

A pontuação para alinhamento de bases pode ser feita não só por valores fixos de match e mismatch, mas também por matrizes de substituição. Matrizes de substituição indicam a possibilidade de mutação de um aminoácido i por um aminoácido j, ou seja, os valores de match e mismatch para os aminoácidos. Elas são geradas a partir de diversos alinhamentos de pares de sequências de aminoácidos.[2]

Portanto, um bom alinhamento depende do modelo utilizado para penalidade de gaps: linear, afim, ou ainda modelos logaritmos. Em modelos mais realísticos considera-se o gap como um único evento mutacional, cuja penalidade é proporcional ao seu tamanho. Diferentes abordagens são utilizadas para alinhar sequências, sejam de proteínas ou de DNA, são diferenciados nos métodos usados para construção do alinhamento, nos tipos de pontuações e nas heurísticas em que se baseiam.[2][16]

Uso editar

O alinhamento de sequências é um instrumento fundamental para a bioinformática, sendo amplamente utilizado em diversas áreas da pesquisa científica e aplicações práticas. O alinhamento de sequências é usado para determinar a homologia entre diferentes genes ou proteínas, identificar marcadores genéticos, localizar regiões não conservadas e regiões estruturais do genoma. O alinhamento da sequência também pode preanunciar as estruturas secundárias e terciárias das proteínas e prever localizações de genes e novos membros de famílias de genes. O alinhamento de sequência também é de grande importância no campo da filogenia, obtendo informações sobre a relação evolutiva entre as sequências alinhadas e tendo um grande papel na construção e interpretação de árvores filogenéticas.

Métodos usados para alinhamentos de sequências biológicas também podem ter aplicações em outros campos, e mais notavelmente no processamento de linguagem natural. As técnicas que geram o conjunto de elementos a partir dos quais as palavras serão selecionadas em algoritmos de geração de linguagem natural emprestaram técnicas de alinhamento de sequências à bioinformática para produzir versões linguísticas de testes matemáticos gerados por computador. O alinhamento de sequências também faz parte da montagem de genomas, na qual as sequências se alinham para encontrar sobreposições para que os chamados contigs (longos trechos de sequências) possam se formar. Outro uso é na análise de SNP, na qual sequências de diferentes indivíduos se alinham para encontrar pares de bases simples que muitas vezes são diferentes na população. O uso do método de alinhamento de sequências pode ser utilizados até mesmo em campos distantes da bioinformática, como, por exemplo, geologia[17].

Software editar

Existem diversas ferramentas de software usadas no alinhamento de sequências, com variados níveis de eficiências, finalidade, alcance e capacidade. Os mais comumente utilizados são os softwares da família BLAST que incluem uma ampla funcionalidade como sistemas de buscas em banco de dados e comparação. O ClustalW[18][19] é usado para o alinhamento progressivo local e global, assim como o T-coffe,[20] usado em alinhamento progressivos mais sensíveis.FASTA é um pacote de softwares essenciais para o método K-tuple.

Bibliografia editar

  • Korf, Ian;Yandell, Mark;Bedell, Joseph (2003). Blast. Beijing: O'Reilly. 339 páginas. ISBN 0-596-00299-8 
  • Markel, Scott; León, Darryl (2003). Sequence Analysis. Beijing: O'Reilly. 286 páginas. ISBN 0-596-00494-X 
  • Setubal, João; Meidanis, João (1997). Introduction to Computational Molecular Biology. Boston: PWS Publishing Company. 296 páginas. ISBN 0-534-95262-3 
  • Genômica. Mir, Luís. [S.l.]: Atheneu. 2004. p.105. ISBN 978-857-379-65-06

Referências

  1. a b c Gollery, Martin (1 de novembro de 2005). «Bioinformatics: Sequence and Genome Analysis, 2nd ed. David W. Mount. Cold Spring Harbor, NY: Cold Spring Harbor Laboratory Press, 2004, 692 pp., $75.00, paperback. ISBN 0-87969-712-1.». Clinical Chemistry (11): 2219–2219. ISSN 0009-9147. doi:10.1373/clinchem.2005.053850. Consultado em 26 de novembro de 2023 
  2. a b c d e f g h Angélica Lopes de Souza, Maria. «Alinhamento múltiplo progressivo de sequências de proteínas». Consultado em 26 de novembro de 2023 
  3. Bilha, E.; Di Grazia, E.; Ono, L. T.; Cardoso, M. R.; Smynniuk, M. C.; Rozante, L. C. (21 de junho de 2010). «ALGORITMOS DE ALINHAMENTO DE SEQÜÊNCIAS MOLECULARES». Revista de Informática Aplicada (1). ISSN 2179-2518. doi:10.13037/ras.vol1n1.94. Consultado em 28 de novembro de 2023 
  4. Santos Filho, Osvaldo Andrade; Alencastro, Ricardo Bicca de (março de 2003). «Modelagem de proteínas por homologia». Química Nova (2): 253–259. ISSN 0100-4042. doi:10.1590/s0100-40422003000200019. Consultado em 28 de novembro de 2023 
  5. Nuin, Paulo AS; Wang, Zhouzhi; Tillier, Elisabeth RM (24 de outubro de 2006). «The accuracy of several multiple sequence alignment programs for proteins». BMC Bioinformatics (1). ISSN 1471-2105. doi:10.1186/1471-2105-7-471. Consultado em 26 de novembro de 2023 
  6. «Exploring sequence alignment tools with Job Dispatcher». doi:10.6019/tol.jobdispatcher-w.2018.00001.1. Consultado em 26 de novembro de 2023 
  7. «EMBL-EBI < Help < Tools < ClustalW2 FAQ». web.archive.org. 24 de outubro de 2016. Consultado em 26 de novembro de 2023 
  8. Ng, Pauline C.; Henikoff, Steven (1 de maio de 2001). «Predicting Deleterious Amino Acid Substitutions». Genome Research (em inglês) (5): 863–874. ISSN 1088-9051. doi:10.1101/gr.176601. Consultado em 26 de novembro de 2023 
  9. Mir,, Luís (2004). Genômica. [S.l.]: Atheneu. p. 105. ISBN 978-857-379-65-06 
  10. Thompson, J. D.; Plewniak, F.; Poch, O. (1 de julho de 1999). «A comprehensive comparison of multiple sequence alignment programs». Nucleic Acids Research (13): 2682–2690. ISSN 0305-1048. doi:10.1093/nar/27.13.2682. Consultado em 28 de novembro de 2023 
  11. Feng, Da-Fei; Doolittle, Russell F. (1 de agosto de 1987). «Progressive sequence alignment as a prerequisitetto correct phylogenetic trees». Journal of Molecular Evolution (em inglês) (4): 351–360. ISSN 1432-1432. doi:10.1007/BF02603120. Consultado em 28 de novembro de 2023 
  12. Thompson, Julie D.; Higgins, Desmond G.; Gibson, Toby J. (1994). «CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice». Nucleic Acids Research (22): 4673–4680. ISSN 0305-1048. doi:10.1093/nar/22.22.4673. Consultado em 26 de novembro de 2023 
  13. Notredame, Cédric; Higgins, Desmond G; Heringa, Jaap (setembro de 2000). «T-coffee: a novel method for fast and accurate multiple sequence alignment 1 1Edited by J. Thornton». Journal of Molecular Biology (1): 205–217. ISSN 0022-2836. doi:10.1006/jmbi.2000.4042. Consultado em 26 de novembro de 2023 
  14. Sauder, J. Michael; Arthur, Jonathan W.; Dunbrack Jr., Roland L. (1 de julho de 2000). «Large-scale comparison of protein sequence alignment algorithms with structure alignments». Proteins: Structure, Function, and Genetics (em inglês) (1): 6–22. ISSN 0887-3585. doi:10.1002/(SICI)1097-0134(20000701)40:1<6::AID-PROT30>3.0.CO;2-7. Consultado em 28 de novembro de 2023 
  15. Chothia, C.; Lesk, A.M. (abril de 1986). «The relation between the divergence of sequence and structure in proteins.». The EMBO Journal (4): 823–826. ISSN 0261-4189. doi:10.1002/j.1460-2075.1986.tb04288.x. Consultado em 26 de novembro de 2023 
  16. a b Vingron, Martin; Waterman, Michael S. (7 de janeiro de 1994). «Sequence alignment and penalty choice: Review of concepts, case studies and implications». Journal of Molecular Biology (1): 1–12. ISSN 0022-2836. doi:10.1016/S0022-2836(05)80006-3. Consultado em 28 de novembro de 2023 
  17. Shoval, Noam; Isaacson, Michal (junho de 2007). «Sequence Alignment as a Method for Human Activity Analysis in Space and Time». Annals of the Association of American Geographers (em inglês) (2): 282–297. ISSN 0004-5608. doi:10.1111/j.1467-8306.2007.00536.x. Consultado em 28 de novembro de 2023 
  18. «ClustalW2 < Multiple Sequence Alignment < EMBL-EBI». www.ebi.ac.uk. Consultado em 26 de novembro de 2023 
  19. Jeanmougin, François; Thompson, Julie D.; Gouy, Manolo; Higgins, Desmond G.; Gibson, Toby J. (outubro de 1998). «Multiple sequence alignment with Clustal X». Trends in Biochemical Sciences (10): 403–405. ISSN 0968-0004. doi:10.1016/s0968-0004(98)01285-7. Consultado em 28 de novembro de 2023 
  20. «Tcoffee». web.archive.org. 18 de setembro de 2008. Consultado em 26 de novembro de 2023