AlphaFold

Programa de inteligência artificial da DeepMind

AlphaFold é um programa de inteligência artificial desenvolvido pela DeepMind do Google que realiza previsões da estrutura de proteínas.[1] O programa é projetado como um sistema de aprendizagem profunda.[2]

O software AlphaFold AI se destacou em duas versões principais. Uma equipe de pesquisadores que usou o AlphaFold 1 (2018) ficou em primeiro lugar na classificação geral da 13ª Avaliação Crítica de Técnicas para Predição de Estrutura de Proteínas (CASP em inglês) em dezembro de 2018. O programa foi particularmente bem-sucedido em prever a estrutura mais precisa para alvos classificados como os mais difíceis pelos organizadores da competição, onde nenhuma estrutura de modelo existente estava disponível a partir de proteínas com uma sequência parcialmente semelhante. Uma equipe que usou o AlphaFold 2 (2020) repetiu a colocação na competição CASP em novembro de 2020.[3] A equipe atingiu um nível de precisão muito maior do que qualquer outro grupo.[2] Ela pontuou acima de 90 para cerca de dois terços das proteínas no teste de distância global CASP (global distance test ou GDT em inglês), um teste que mede o grau em que a estrutura prevista por um programa computacional é semelhante à estrutura determinada no experimento de laboratório, com 100 sendo uma correspondência completa, dentro do corte de distância usado para calcular o GDT.[4]

Os resultados do AlphaFold 2 no CASP foram descritos como "surpreendentes"[5] e transformacionais.[6] Alguns pesquisadores notaram que a precisão não é alta o bastante para um terço de suas previsões e que o programa não revela o mecanismo ou as regras do dobramento de proteínas para que o problema de dobramento de proteínas seja considerado resolvido.[7][8] No entanto, tem havido um respeito generalizado pela conquista técnica.

Desde 5 de março de 2021, a DeepMind não disponibilizou nenhum código para o AlphaFold 2 publicamente. Quatro meses depois de anunciar os resultados do CASP14, o site da empresa afirma: "Estamos bem no início de explorar a melhor forma de permitir que outros grupos usem nossas previsões de estrutura, ao lado de preparar um artigo revisado por pares para publicação."[9]

Problema de dobramento de proteína editar

 
As cadeias de aminoácidos, conhecidas como polipeptídeos, dobram-se para formar uma proteína.

As proteínas consistem em cadeias de aminoácidos que se dobram espontaneamente, em um processo chamado de dobramento de proteínas, para formar as estruturas tridimensionais (3-D) das proteínas. A estrutura 3-D é crucial para a função biológica da proteína. No entanto, entender como a sequência de aminoácidos pode determinar a estrutura 3-D é altamente desafiador, dando origem ao "problema de dobramento de proteína".[10] O "problema de dobramento de proteínas" envolve a compreensão da termodinâmica das forças interatômicas que determinam a estrutura estável dobrada, o mecanismo e a via através da qual uma proteína pode atingir seu estado dobrado final com extrema rapidez e como a estrutura nativa de uma proteína pode ser prevista a partir de sua sequência de aminoácidos.[11]

As estruturas das proteínas são atualmente determinadas experimentalmente usando técnicas como cristalografia de raios X, microscopia crioeletrônica e ressonância magnética nuclear, técnicas que são caras e demoradas.[10] Esses esforços identificaram as estruturas de cerca de 170.000 proteínas nos últimos 60 anos, enquanto existem mais de 200 milhões de proteínas conhecidas em todas as formas de vida.[4] Se for possível prever a estrutura da proteína apenas a partir da sequência de aminoácidos, isso ajudaria muito no avanço da pesquisa científica. No entanto, o paradoxo de Levinthal mostra que enquanto uma proteína pode dobrar em milissegundos, o tempo que leva para calcular todas as estruturas possíveis aleatoriamente para determinar a verdadeira estrutura nativa é maior do que a idade do universo, o que tornou a previsão de estruturas de proteínas um grande desafio em biologia para cientistas.

Ao longo dos anos, os pesquisadores aplicaram vários métodos computacionais para resolver o problema da previsão da estrutura da proteína, mas sua precisão não se aproximou das técnicas experimentais, exceto para pequenas proteínas simples, limitando assim seu valor. O CASP, que foi lançado em 1994 para desafiar a comunidade científica a produzir melhores previsões de estrutura de proteína, descobriu que pontuações de GDT de apenas cerca de 40 em 100 podiam ser alcançadas para as proteínas mais difíceis até 2016.[4] AlphaFold começou a competir no CASP em 2018 usando uma técnica de aprendizado profundo de inteligência artificial (IA).[10]

Algoritmo editar

Embora os detalhes completos dos algoritmos do AlphaFold 2020 não tenham sido divulgados publicamente, mais detalhes são esperados quando a DeepMind publicar artigos científicos descrevendo seus métodos e resultados. Sabe-se que a DeepMind treinou o programa em mais de 170.000 proteínas de um repositório público de sequências e estruturas de proteínas. O programa usa uma forma de rede de atenção, uma técnica de aprendizado profundo que se concentra em fazer o algoritmo de IA identificar partes de um problema maior e, em seguida, juntá-las para obter a solução geral.[2] O treinamento geral foi conduzido em poder de processamento entre 100 e 200 GPUs. O treinamento do sistema neste hardware levou "algumas semanas", após as quais o programa levaria "uma questão de dias" para convergir para cada estrutura.[9]

AlphaFold 1, 2018 editar

O AlphaFold 1 (2018) foi construído com base no trabalho desenvolvido por várias equipes na década de 2010, trabalho que analisou os grandes bancos de dados de sequências de DNA agora disponíveis de muitos organismos diferentes (a maioria sem estruturas 3D conhecidas), para tentar encontrar mudanças em diferentes resíduos que pareciam estar correlacionados, embora os resíduos não fossem consecutivos na cadeia principal. Tais correlações sugerem que os resíduos podem estar próximos fisicamente, embora não próximos na sequência, permitindo a estimativa de um mapa de contato. Com base em um trabalho recente antes de 2018, AlphaFold 1 estendeu isso para estimar uma distribuição de probabilidade para quão perto os resíduos podem estar - transformando o mapa de contato em um mapa de distância provável. Ele também usou métodos de aprendizagem mais avançados do que antes para desenvolver a inferência. Combinando um potencial estatístico baseado nesta distribuição de probabilidade com a energia livre local calculada da configuração, a equipe foi então capaz de usar o gradiente de descida para uma solução que melhor se adequasse a ambos.[12]

AlphaFold 2, 2020 editar

A versão 2020 do programa (AlphaFold 2, 2020) é significativamente diferente da versão original que ganhou o CASP 13 em 2018, de acordo com a equipe da DeepMind.[13][14]

A equipe da DeepMind identificou que sua abordagem anterior, combinando física local com um guia potencial derivado do reconhecimento de padrões, tinha uma tendência de superestimar as interações entre os resíduos que estavam próximos na sequência em comparação com as interações entre os resíduos mais distantes ao longo da cadeia. Como resultado, AlphaFold 1 tinha uma tendência a preferir modelos com estrutura ligeiramente mais secundária (hélices alfa e folhas-beta) do que na realidade (uma forma de overfitting).[15]

A equipe AlphaFold declarou em novembro de 2020 que acredita que o AlphaFold pode ser mais desenvolvido, com espaço para mais melhorias na precisão.[13]

Competições editar

CASP13 editar

Em dezembro de 2018, o AlphaFold da DeepMind ficou em primeiro lugar na classificação geral da 13ª Avaliação Crítica de Técnicas para Predição de Estrutura de Proteínas (CASP).[16][17]

CASP14 editar

Em novembro de 2020, a nova versão da DeepMind, AlphaFold 2, ganhou o CASP14.[9][18] No geral, AlphaFold 2 fez a melhor previsão para 88 dos 97 alvos.[5]

Na medida de precisão do teste de distância global (GDT) preferido da competição, o programa alcançou uma pontuação média de 92,4 (de 100), o que significa que mais da metade de suas previsões foram pontuadas em mais de 92,4% por terem seus átomos no lugar certo,[19][20] um nível de precisão relatado para ser comparável a técnicas experimentais como cristalografia de raios-X.[13][6][21] Em 2018, o AlphaFold 1 só havia atingido esse nível de precisão em duas de todas as suas previsões.[5] 88% das previsões na competição de 2020 tiveram uma pontuação GDT_TS de mais de 80. No grupo de alvos classificados como os mais difíceis, AlphaFold 2 alcançou uma pontuação média de 87.

Respostas editar

AlphaFold 2 pontuando mais de 90 no teste de distância global CASP (GDT) é considerado uma conquista significativa em biologia computacional[4] e um grande progresso em direção a um grande desafio da biologia.[6] O vencedor do Prêmio Nobel e biólogo estrutural Venki Ramakrishnan chamou o resultado de "um avanço impressionante no problema de dobramento de proteínas", acrescentando que "Isso ocorreu décadas antes que muitas pessoas na área tivessem previsto. Será emocionante ver as muitas maneiras pelas quais mudará fundamentalmente a pesquisa biológica."[9]

Usos editar

SARS-CoV-2 editar

O AlphaFold foi usado para prever estruturas de proteínas de SARS-CoV-2, o agente causador de COVID-19. As estruturas dessas proteínas aguardavam detecção experimental no início de 2020.[22][6] Os resultados foram examinados pelos cientistas do Instituto Francis Crick no Reino Unido antes de serem divulgados para a comunidade de pesquisa. A equipe também confirmou a previsão precisa contra a proteína spike SARS-CoV-2 determinada experimentalmente que foi compartilhada no Protein Data Bank, um banco de dados internacional de acesso aberto, antes de lançar as estruturas determinadas computacionalmente das moléculas de proteína subestimadas.[23] A equipe reconheceu que, embora essas estruturas proteicas possam não ser objeto de esforços contínuos de pesquisa terapêutica, elas contribuirão para a compreensão da comunidade sobre o vírus SARS-CoV-2. Especificamente, a previsão do AlphaFold 2 da estrutura da proteína Orf3a era muito semelhante à estrutura determinada por pesquisadores da Universidade da Califórnia, Berkeley, usando microscopia crioeletrônica. Acredita-se que esta proteína específica auxilie o vírus a escapar da célula hospedeira, uma vez que se replique. Acredita-se que essa proteína também desempenhe um papel no desencadeamento da resposta inflamatória à infecção.[24]

Referências

  1. «AlphaFold». Deepmind. Consultado em 30 de Novembro de 2020 
  2. a b c «DeepMind's protein-folding AI has solved a 50-year-old grand challenge of biology». MIT Technology Review (em inglês). Consultado em 30 de novembro de 2020 
  3. Shead, Sam (30 de novembro de 2020). «DeepMind solves 50-year-old 'grand challenge' with protein folding A.I.». CNBC (em inglês). Consultado em 30 de novembro de 2020 
  4. a b c d Robert F. Service, ‘The game has changed.’ AI triumphs at solving protein structures, Science, 30 November 2020
  5. a b c Mohammed AlQuraishi, CASP14 scores just came out and they’re astounding, twitter, 30 November 2020.
  6. a b c d Callaway, Ewen (30 de novembro de 2020). «'It will change everything': DeepMind's AI makes gigantic leap in solving protein structures». Nature (em inglês). 588: 203–204. PMID 33257889. doi:10.1038/d41586-020-03348-4 
  7. Stephen Curry, No, DeepMind has not solved protein folding, Reciprocal Space (blog), 2 December 2020
  8. Balls, Phillip (9 de dezembro de 2020). «Behind the screens of AlphaFold». Chemistry World 
  9. a b c d «AlphaFold: a solution to a 50-year-old grand challenge in biology». Deepmind. Consultado em 30 de Novembro de 2020 
  10. a b c «AlphaFold: Using AI for scientific discovery». Deepmind. Consultado em 30 de novembro de 2020 
  11. Ken A. Dill, S. Banu Ozkan, M. Scott Shell, and Thomas R. Weikl (2008). «The Protein Folding Problem». Annual Reviews of Biophysics. 37: 289–316. PMC 2443096 . PMID 18573083. doi:10.1146/annurev.biophys.37.092707.153558 
  12. AlphaFold: Machine learning for protein structure prediction, Foldit, 31 January 2020
  13. a b c «DeepMind is answering one of biology's biggest challenges». The Economist. 30 de novembro de 2020. ISSN 0013-0613. Consultado em 30 de novembro de 2020 
  14. Jeremy Kahn, Lessons from DeepMind's breakthrough in protein-folding A.I., Fortune, 1 December 2020
  15. John Jumper et al., conference abstract (December 2020)
  16. Group performance based on combined z-scores, CASP 13, December 2018. (AlphaFold = Team 043: A7D)
  17. Sample, Ian (2 de dezembro de 2018). «Google's DeepMind predicts 3D shapes of proteins». The Guardian. Consultado em 30 de Novembro de 2020 
  18. «DeepMind's protein-folding AI has solved a 50-year-old grand challenge of biology». MIT Technology Review (em inglês). Consultado em 30 de novembro de 2020 
  19. For the GDT_TS measure used, each atom in the prediction scores a quarter of a point if it is within 8 ångströms (0,80 nm) of the experimental position; half a point if it is within 4 Å, three-quarters of a point if it is within 2 Å, and a whole point if it is within 1 Å.
  20. To achieve a GDT_TS score of 92.5, mathematically at least 70% of the structure must be accurate to within 1 Å, and at least 85% must be accurate to within 2 Å.
  21. «DeepMind Breakthrough Helps to Solve How Diseases Invade Cells». Bloomberg.com (em inglês). 30 de novembro de 2020. Consultado em 30 de novembro de 2020 
  22. «AI Can Help Scientists Find a Covid-19 Vaccine». Wired (em inglês). ISSN 1059-1028. Consultado em 1 de dezembro de 2020 
  23. «Computational predictions of protein structures associated with COVID-19». Deepmind. Consultado em 1 de dezembro de 2020 
  24. «How DeepMind's new protein-folding A.I. is already helping to combat the coronavirus pandemic.». Fortune (em inglês). Consultado em 1 de dezembro de 2020