Interação proteína-proteína

Interação proteína-proteína (IPP ou PPI do termo inglês "Protein-Protein Interaction") compreende todo contato físico com ligação molecular entre duas ou mais proteínas que ocorre em uma célula ou em um organismo vivo. Este contato físico deve ser especifico e não genérico.[1] As proteínas são alguns dos componentes de um organismo. Elas exercem diversas funções biológicas a partir das suas interações e são centrais para a maioria dos processos biológicos celulares do organismo,[2][3] desde o metabolismo até a resposta a estímulos. O mapeamento completo das interações de proteínas que podem ocorrer no sistema complexo de um organismo é chamado de interatoma e faz parte do estudo da Interatômica, que compreende todo o conjunto de interações moleculares que ocorre em uma determinada célula.

As interações de proteínas podem ser medidas por métodos biológicos experimentais ou preditas por métodos computacionais. Os métodos experimentais seguem duas categorias: (1) métodos binários que medem interações físicas diretas entre pares de proteínas, sendo o sistema duplo-híbrido em leveduras (Y2H do inglês "yeast two-hybrid") o método genético de larga escala mais utilizado; e (2) métodos co-complexos que medem interações físicas entre grupos de proteínas sem diferenciar se elas são diretas ou indiretas, sendo a purificação por afinidade em tandem acoplada a espectrometria de massas (TAP-MS do inglês "tandem affinity purification coupled to mass spectrometry") o método proteômico de larga escala mais utilizado.[1] Os métodos computacionais englobam predições de IPPs a partir da análise de dados biológicos heterogêneos, como sequência, evolução, expressão e estrutura de proteínas. A maioria dos métodos computacionais podem ser agrupados em tipos: (1) os baseados em simulação, usualmente feitos em baixa escala, devido a um alto custo computacional, e (2) os baseados em métodos estatísticos ou aprendizado de máquina, que podem ser aplicados em larga escala.[3]

Um mapa completo do interatoma de um organismo seria um passo enorme na direção de entender as funções de seus genes e o funcionamento do seu corpo a nível celular.[2] Porém este dado é inviável de ser obtido experimentalmente para especies mais complexas, desde a levedura, que possui o interatoma bastante estudado, até o humano, cujo interatoma ainda é pouco conhecido. Para completar o interatoma do ser humano, que possui em torno de 20 000 a 25 000 proteínas, seriam necessários de 20 000 * 20 000 / 2 a 25 000 * 25 000 / 2 experimentos, totalizando 200 milhões a 300 milhões experimentos.[4] Isto implica na incompletude dos dados, já que não sabemos de fato quais são estas interações, e não conseguimos medir todas elas. Logo, isto também implica na impossibilidade de validação dos métodos de detecção de interações. Sem validação, a frequência de falsos positivos detectados nos ensaios experimentais pode ser muito alta. Em um estudo de 2006, estimou-se que menos do que 50% do interatoma da levedura era conhecido e ainda menos se sabia sobre o interatoma humano.[4]

A recorrência de repetições das interações de proteínas em diferentes ensaios experimentais pode auxiliar na seleção de interações mais confiáveis, classificadas como "dados principais".[5] Logo, a disponibilização dos dados não tratados de interação de proteínas poderia contribuir na detecção do conjunto de "dados principais",[4] e na subsequente criação de bancos de dados de IPPs mais confiáveis. Apesar das limitações, o estudo das IPPs da levedura já revelou sua utilidade, descobrindo funções de proteínas, prevendo comportamento celular e na análise de regulação de genes complexos. Espera-se que as IPPs humanas sejam igualmente informativas.[4]

Figura 1: Rede IPP do HIV-1 Humano em visão de multi camadas, cada camada representa diferentes dados de interação de proteínas e à direita o resultado da agregação de todos

Rede IPPEditar

A rede de interação proteína-proteína (rede IPP) codifica as interações entre as proteínas de um organismo e auxilia no mapeamento do seu interatoma.[3] Para entender um sistema complexo, é necessário entender como seus componentes interagem ente si e as redes são ótimos modelos para codificar essas interações.[4] Uma rede é um catálogo dos componentes de um sistema, geralmente chamados de nós ou vértices, e das interações diretas entre eles, chamadas conexões ou arestas.[6] Na rede IPP, os nós são as proteínas e duas proteínas estão conectadas se existe evidência de que elas interagem. A representação matemática de uma rede é chamada de grafo segundo a Teoria dos Grafos.

Topologia livre de escalaEditar

Por muito tempo acreditava-se que as redes complexas tinham seus nós conectados de forma aleatória.[7] Porém isto implicaria na maioria dos nós tendo aproximadamente o mesmo número de conexões. Em contrapartida, estudos do início do século XXI em redes reais demonstraram que muitas delas são dominadas por poucos nós com muitas conexões, denominados "hubs", e muitos nós com poucas conexões.[8] Esta característica representa a topologia livre de escala (do inglês "scale-free") presente em diversas redes reais complexas, nas quais o número de nós com k conexões segue uma distribuição de lei de potência, p(k) = k, onde k é o grau do nó e γ é um expoente eespecífico de cada rede.[2][6] A natureza heterogênea da topologia de redes livres de escala tem consequências importantes na tolerância a erros e robustez das redes ccomplexas, e também foi detectada em redes IPPs (Figura 3a).[2] Tipicamente, para redes IPPs temos 2 < γ < 3.[2][5]

É bastante controverso se a natureza livre de escala das redes IPPs não é apenas um artefato da incompletude dos banco de dados existentes, cuja origem está na ausência de potenciais interações e na presença de falso positivos.[2][5] O estudo extenso em redes livres de escala indica que isto é improvável, pois uma amostragem aleatória de uma rede livre de escala também é uma rede livre de escala, o que é impossível de acontecer se a amostragem aleatória fosse feita em uma rede sem essa topologia.[2] Entretanto, a amostragem não é totalmente aleatória e o enviesamento dos bancos de dados de IPPs para proteínas mais abundantes e mais estudadas (por exemplo proteínas relacionadas a câncer) evidencia este fato.[3][1]

Muitas investigações propuseram que a natureza livre de escala observada nas redes IPPs pode ser resultado, em parte, da duplicação de genes, um processo que ocorre frequentemente na evolução. Cada evento de duplicação de gene leva a uma nova proteína que interage com as mesmas proteínas que a proteína produto do gene original duplicado (característica de crescimento da rede). Proteínas que possuem muitas conexões possuem mais chances de serem conectadas a um gene duplicante, e logo, ganhar novas interações com a nova proteína criada (característica de ligação preferencial, proteínas com muitas conexões aumentam suas interações mais rápido do que aquelas com poucas conexões - fenômeno do "rico fica mais rico", que gera desigualdade). Estes dois ingredientes resultantes da duplicação de genes, o crescimento e a ligação preferencial, são os ingredientes necessários para o surgimento de uma rede livre de escala,[2] e fortalecem a hipótese de que as redes IPP têm de fato essa topologia.

ModularidadeEditar

 
Figura 2: As proteínas são agrupadas com base em sua localização subcelular na rede das proteínas periféricas da membrana plasmática humana. 1: proteínas secretadas, 2: proteínas de membrana, 3: proteínas periféricas, 4: proteínas citoplasmáticas, 5: proteínas nucleares, 6: proteínas do sistema endomembranar, 7: proteínas mitocondriais e 8: proteínas ancoradas em lipídios. Proteínas com localização subcelular desconhecida estão ocultas nesta visão da rede

Modularidade pressupõe a existência de complexos de proteínas, grupos de proteínas que trabalham juntas para alcançar alguma função biológica bem definida ou estão envolvidas no mesmo processo biológico.[2][5] Da perspectiva da rede, estes módulos deveriam aparecer como grupos distintos de nós que são muito interconectados entre si mas que possuem poucas ligações com nós fora do modulo,[2] sendo que os hubs exercem um importante papel em interconectar tais módulos.[5] Em 2004, foi evidenciado que redes IPP apresentam um alto grau de modularidade, com uma organização hierárquica, caracterizada por um coeficiente de clusterização dependente do grau de cada nó dado por C(k) ≈ k, onde beta é o expoente de modularidade que caracteriza a modularidade hierárquica da rede. O coeficiente de clusterização Ci de um nó i mede a fração de conexões entre os nós da sua vizinhança (conjunto de todos os nós diretamente ligados a i). Foi encontrado β ≈ 2 para as rede IPPs analisadas (Figura 3b).[2] Uma observação interessante é que complexos de proteínas são geralmente evolutivamente conservados, e foi observado que tais módulos podem ser encontrados em diferentes organismos com padrões de interação idênticos ou similares, tais como entre levedura e mosca e entre humanos e mosca.[5] Além disso, esta modularidade também pode representar, em um certo grau, proteínas pertencentes a diferentes localizações celulares (Figura 2).[2]

Propriedade de mundo pequenoEditar

Outra propriedade importante das redes de interação de proteínas atuais é a fragmentação da rede em muitos clusters distintos, caracterizada pela presença de um cluster gigante que engloba uma fração significativa dos nós e de diversos clusters menores ou nós isolados (proteínas que não possuem interações conhecidas).[2] No de ciência de redes, um cluster, também chamado de componente, é um conjunto de nós que estão interligados, ou seja, existe um caminho passando pelas conexões destes nós que permitir sair de um nó e chegar a qualquer outro nó do mesmo cluster. Esta fragmentação pode ser um indicativo de que os banco de dados existentes contém apenas uma fração de todas as IPPs presentes nos organismos estudados (Figura 3c). De fato, se mais interações de proteínas forem descobertas, é esperado que o cluster gigante absorva uma grande fração de todas as proteínas, e uma rede de proteínas totalmente conectada poderia surgir com um único componente gigante. O cluster gigante das redes IPP é tipicamente muito interconectado, o que resulta em uma distância nó-a-nó (ou diâmetro) pequena. Este diâmetro pequeno é um indicativo de que as redes de interação de proteínas têm a propriedade de mundo pequeno, o que significa que a distância média nó-a-nó na rede é pequena. De fato, análises do cluster gigante para 4 diferentes bancos de dados de IPPs de 2004 mostraram que a distância média nó-a-nó variou de 4 a 8.[2]

 
Figura 3: Características de larga escala de quatro bancos de dados de IPPs de leveduras, mostradas em gráficos log-log. (a) Distribuição de grau. Observe que todos os conjuntos de dados têm uma cauda de lei de potência, indicando que a rede subjacente tem uma topologia de escala livre. A linha sólida é obtida a partir do ajuste na função P(k) ~ k nos dados DIP, o melhor ajuste indica γ ≈ 2.5 para o conjunto de dados DIP. (b) Distribuição do coeficiente de clusterização. A linha reta foi obtida a partir do ajuste da função C(k) ≈ k e tem inclinação igual a -2 (β ≈ 2). (c) Distribuição do tamanho do cluster. Além dos pontos correspondentes ao componente gigante (à direita), as curvas P(n), onde n é o tamanho do cluster, seguem uma lei de potência. A linha sólida é obtida a partir do ajuste dos mínimos quadrados para P(n) ~ n para o conjunto de dados MIPS, fornecendo α = 3.4

Características e métodos das IPPsEditar

A definição de IPPs deve considerar que: (1) a interface de interação entre as proteínas deve ser intencional e não acidental, ou seja, resultado de eventos/forças biomoleculares selecionadas especificamente; e (2) a interface de interação deve ser não-genérica, ou seja, evolui para um objetivo especifico distinto de funções totalmente genéricas como produção de proteínas, degradação e outras.[1] Outro elemento essencial para definir IPPs é o contexto biológico em que a interação acontece. As interações dependem do tipo celular em que as proteínas se encontram, da fase e do estado do ciclo celular, do estágio de desenvolvimento, de condições ambientais da célula, de modificações na proteína (por exemplo fosforilação), da presença de co-fatores, e da presença de outros parceiros para ligação.[1]

Tipos de interações proteína-proteínaEditar

As IPPs podem ser classificadas em 4 subdivisões diferentes, dependendo das características do complexo proteico (ou de proteínas) formado por duas ou mais proteínas envolvidas na interação:[3]

  1. Complexos homoméricos ou heteroméricos: se a interação ocorre entre proteínas (subunidades) idênticas, elas formam um complexo homomérico (em sua maioria simétrico e mais estável); em contrapartida, se a IPP ocorre entre proteínas (subunidades) diferentes, ela forma um complexo heteromérico (estabilidade variável).
  2. Complexos obrigatórios e não obrigatórios: se as proteínas envolvidas na IPP são instáveis quando isoladas e são estáveis no complexo, este é considerado obrigatório; caso contrário, se as proteínas são estáveis independentemente quando isoladas, o complexo resultante da IPP é não obrigatório.
  3. Complexos transientes e permanentes: se, após a ocorrência da IPP, as duas proteínas permanecem ligadas no complexo, este é dito permanente (usualmente muito estável); em contrapartida, complexos em interações transientes se associam e desassociam temporariamente e, dependendo da afinidade entre as proteínas, podem formar uma interação forte ou fraca. Complexos obrigatórios são permanentes enquanto que complexos não obrigatórios podem ser transientes ou permanentes.
  4. Complexos desordenados e ordenados: se a IPP envolve proteínas desordenadas, as quais possuem regiões não estruturadas que se adaptam à conformação da proteína parceira, o complexo é dito desordenado; caso contrário, se as estruturas das proteínas envolvidas na IPP são estáveis e ordenadas (suas estruturadas não se modificam ou adaptam na ligação) o complexo é dito ordenado.
 
Figura 4: A proteína humana fosfatase 2A (PP2A) em um complexo heteromérico, mostrado a interação entre a subunidade reguladora A (vermelho), subunidade reguladora B56 (verde), e a subunidade catalítica (azul escuro). Renderizado do PDB ID 2IAE

As estruturas de alguns dos complexos biológicos formados pelas IPPs podem ser encontradas em complexos cristalográficos obtidos por meio de cristalografia de raio-X no Banco Mundial de Proteínas (PDB do inglês "Protein Data Bank").[3][9] O PDB fornece as imagens e as sequências de aminoácidos de proteínas resolvidas e depositadas pela comunidade de biologia estrutural.

Métodos experimentaisEditar

A acurácia dos métodos experimentais de larga escala para a detecção de interações de proteínas sofre com uma alta taxa de falsos positivos, especialmente nos dados TAP-MS não editados para pares de proteína que estão no mesmo complexo, mas não em contato físico direto.[5] As conexões calculadas com o TAP-MS são atribuídas usando o modelo de estrela (em inglês "spoke model") para diminuir a taxa de falsos positivos (Figura 5). Neste modelo, uma proteína alvo é utilizada para "capturar" um grupo de proteínas presas, que interagem direta ou indiretamente com o alvo e são todas conectadas a este na rede.[1] Já no caso do sistema Y2H, o maior desafio é a falha em não considerar os aspectos dinâmicos da interação de proteínas. Isto gera falsos positivos na interação de proteínas que se encontram em compartimentos celulares completamente diferentes, e logo, não interagem de fato no organismo. E falsos negativos quando a interação ocorre após modificações pós-translacional, o que não é possível com o sistema Y2H.[3] Esta incerteza diminui a intersecção entre diferentes conjuntos de dados de interação de proteínas, e além disso, eles também são enviesados para proteínas mais abundantes.[3][1]

 
Figura 5: Interações da proteína ERICH5 em uma rede com topologia do modelo de estrela ("spoke model")

Métodos computacionais/preditivosEditar

A limitação dos métodos experimentais cria a necessidade de métodos computacionais de predição de interações de proteínas. Várias abordagens computacionais existem para predizer IPPs. Os métodos baseados em simulação modelam as forças governando as interações de proteínas, usualmente a nível atômico, e calculam a força da interação. Estes métodos incluem simulação dinâmica e docking de proteínas, e são mais utilizados no estudo da dinâmica das proteínas do que na determinação das suas interações, devido a um alto custo computacional. Por outro lado, os método estatísticos e de aprendizado de máquina podem ser aplicados em larga escala e utilizam informação de interações conhecidas de proteínas para fazer as predições. Além destes dois métodos principais, a predição computacional par-a-par de IPPs e sua análise pode ser feita usando mapeamento de ortólogos, eventos de fusão de gene/domínio, co-ocorrência de domínio, e co-expressão de gene.[3] Uma comparação destes métodos feita em 2016 é apresentada na tabela a seguir.[3]

Comparação de métodos preditivos de IPP
Método Entrada Melhor Predição (transiente/permanente) Avaliação da Energia Disponível
busca de ortólogos sequência completa do genoma de vários organismos usualmente para complexos obrigatórios mas não transientes sim
fusão de gene/domínio sequência completa do genoma de vários organismos/dados de associação de domínio de proteína bom para interações físicas permanentes, mas não é bom para interações promíscuas de domínios sim
clusterização de gene e vizinhança de gene sequência (não necessariamente completa) do genoma de vários organismos bom para interações funcionais, mas não é bom para interações físicas -
Acoplamento de resíduo e co-evolução sequência de aminoácidos de proteínas que interagem   bom para interações físicas e diretas sim
similaridade de filogenia sequência (não necessariamente completa) do genoma de vários organismos bom para interações funcionais e físicas não
topologia de rede dados de IPP binários Para interações funcionais e para interações permanentes e transientes não
perfil de co-expressão de genes dados de expressão de gene e ORF principalmente para interações funcionais não
docking estrutura da proteínas principalmente para interações diretas sim
aprendizado de máquina e mineração de texto diversos tipos de dados, incluindo sequência, estrutura, expressão de gene, literatura pode ser utilizado para interações funcionais e diretas e para interações transientes e permanentes sim

Banco de dados de IPPsEditar

É necessário distinguir bem entre as IPPs experimentais e as IPPs preditas. Na primeira situação, a IPP é provada experimentalmente, enquanto que na segunda a IPP é predita por dados biológicos vindo de outras técnicas, por exemplo de genes correspondentes, o que não prova de fato uma interação de proteína direta.[1] De toda forma, a junção destes diferentes métodos pode trazer mais confiança e acurácia para as redes IPP geradas. Uma lista com bancos de dados e repositórios de IPPs de 2016 está descrita na tabela a seguir.[3]

Lista de bancos de dados organizando IPPs experimentais e curadas pela literatura
Nome Link Web Método de Avaliação da Qualidade Número de Interações Número de Proteínas
DIP http://dip.doe-mbi.ucla.edu/ curado 78 191 27 098
MINT http://mint.bio.uniroma2.it/mint/ curado 241 458 35 553
IntAct http://www.ebi.ac.uk/intact/ curado 456 489 83 574
HPRD http://www.hprd.org/ curado 41 327 30 047
BIND http://bind.ca curado
MIPS http://mips.helmholtz-muenchen.de/proj/ppi/ curado
CORUM http://mips.helmholtz-muenchen.de/genre/proj/corum um recurso de complexos de proteínas anotados manualmente de organismos mamíferos
BioGRID http://thebiogrid.org/ interações de proteínas e genéticas curadas por publicações 345 577 53 561
Banco de Dados de Interatômica CCSB http://interactome.dfci.harvard.edu/ Y2H de larga escala, não curado 4 303 13 944
InWeb http://www.broadinstitute.org/mpg/dapple/dapple.php não curado, nota de confiança 428 430 12 793
STRING http://string-db.org/ não curado, nota de confiança >5 milhões
MiMI http://mimi.ncibi.org/MimiWeb/AboutPage.html avaliação e nota da qualidade 3.5 milhões 3.7 milhões
HIPPIE http://cbdm.mdc-berlin.de/tools/hippie/information.php avaliação e nota da qualidade 72 916 11 836
iRefWeb http://wodaklab.org/iRefWeb avaliação e nota da qualidade ∼18 000 (para humanos) ∼222 098 (para humanos)
HitPredict http://hintdb.hgc.jp/htp/ avaliação e nota da qualidade 176 983 36 930
IMID www.integrativebiology.org avaliação e nota da qualidade
HAPPI http://discern.uits.iu.edu:8340/HAPPI/ avaliação e nota da qualidade 2 922 202 32 125
HUPO http://www.psidev.info/groups/molecular-interactions avaliação e nota da qualidade
Pathway Databases
KEGG http://www.kegg.jp/ curado
BioCarta http://www.biocarta.com/genes/index.asp
Reactome http://www.reactome.org/ curado 7 041 (em humanos) 7 460(em humanos)
ConsensusPathDB http://consensuspathdb.org/ 416 872 154 537
SPIKE http://www.cs.tau.ac.il/~spike/ curado 20 412 34 338
NCI-PID http://pid.nci.nih.gov/index.shtml curado 9 248

PerspectivasEditar

As redes IPP podem fornecer uma visão complementar para os processos biológicas que englobam as proteínas correspondentes. Para o futuro desta área e para os provedores de banco de dados, restam dois desafios: (1) um filtro melhor de falsos positivos em coleções de IPP; e (2) uma distinção adequada do contexto biológico que especifica e determina a existência ou não de uma dada IPP em uma dada situação biológica.[1] Apesar de existirem muitos esforços para construir a interatômica em escala proteômica, a incerteza e falta de definição clara de uma interatômica dificultam o processo. Além disso, considerar a característica dinâmica, os compartimentos celulares, a estabilidade, a afinidade e dependência do tempo da interações de proteína é o objetivo final para ganhar mais informações sobre os mecanismos celulares por trás das redes IPPs.[3][5]

Referências

  1. a b c d e f g h i De Las Rivas, Javier; Fontanillo, Celia. (2010). «Protein–Protein Interactions Essentials: Key Concepts to Building and Analyzing Interactome Networks.». PLoS computational biology. 6. doi:10.1371/journal.pcbi.1000807. Consultado em 20 de junho de 2020 
  2. a b c d e f g h i j k l m n Yook, Soon-Hyung; Oltvai, Zoltan; Barabasi, Albert-Laszlo (2004). «Functional and topological characterization of protein interaction networks» (PDF). Proteomics. 4: 928-42. doi:10.1002/pmic.200300636. Consultado em 20 de junho de 2020 
  3. a b c d e f g h i j k l Keskin, Ozlem; Tuncbag, Nurcan; Gursoy, Attila (2016). «Predicting Protein-Protein Interactions from the Molecular to the Proteome Level». Chemical reviews. 116 (8). doi:10.1021/acs.chemrev.5b00683. Consultado em 20 de junho de 2020 
  4. a b c d e Hart, G.T.; Ramani, A.K.; Marcotte, E.M. (2006). «How complete are current yeast and human protein-interaction networks?». Genome Biol. 7 (120). doi:10.1186/gb-2006-7-11-120. Consultado em 20 de junho de 2020 
  5. a b c d e f g h Paola & Bock, Mary; Guerra, Concettina. (2012). «On the functional and structural characterization of hubs in protein-protein interaction networks.». Biotechnology advances. 31 (8). doi:10.1016/j.biotechadv.2012.12.002. Consultado em 20 de junho de 2020 
  6. a b Barabasi, Albert-Laszlo ; Pósfai, Márton. (2015). Network Science. [S.l.]: Cambridge University Press. ISBN 9781107076266. Consultado em 20 de junho de 2020 
  7. B. Bollobás (1985). «Random graphs». London Mathematical Society Monographs, Academic Press: 447. doi:10.1017/S0013091500028443. Consultado em 20 de junho de 2020 
  8. Barabasi, Albert-Laszlo; Albert, Reka. (1999). «Emergence of Scaling in Random Networks». Science. 286: 509-512. doi:10.1126/science.286.5439.509. Consultado em 20 de junho de 2020 
  9. H.M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T.N. Bhat, H. Weissig, I.N. Shindyalov, P.E. Bourne. (2000). «The Protein Data Bank». Nucleic Acids Research. 31 (2). doi:10.1016/j.biotechadv.2012.12.002. Consultado em 20 de junho de 2020