banner
Centro de notícias
Articulado e proficiente em seus conhecimentos.

Aprendendo a linguagem proteica do proteoma

Dec 03, 2023

Biologia da Comunicação volume 6, Número do artigo: 73 (2023) Cite este artigo

5883 acessos

10 Altmétrica

Detalhes das métricas

As interações proteína-proteína (PPIs) governam vias e processos celulares, influenciando significativamente a expressão funcional de proteínas. Portanto, a identificação precisa dos locais de ligação de interação proteína-proteína tornou-se um passo fundamental na análise funcional de proteínas. No entanto, como a maioria dos métodos computacionais é projetada com base em características biológicas, não há modelos de linguagem de proteína disponíveis para codificar diretamente sequências de aminoácidos em representações vetoriais distribuídas para modelar suas características para eventos de ligação proteína-proteína. Além disso, o número de sítios de interação de proteínas detectados experimentalmente é muito menor do que o de interações proteína-proteína ou sítios de proteínas em complexos de proteínas, resultando em conjuntos de dados desbalanceados que deixam espaço para melhorias em seu desempenho. Para resolver esses problemas, desenvolvemos um método de identificação de site (EDLMPPI) baseado em modelo de aprendizagem profunda (EDLM) baseado em interação proteína-proteína (PPI). Os resultados da avaliação mostram que o EDLMPPI supera as técnicas de ponta, incluindo vários modelos de previsão de locais PPI em três conjuntos de dados de referência amplamente usados, incluindo Dset_448, Dset_72 e Dset_164, que demonstraram que o EDLMPPI é superior aos modelos de previsão de locais PPI em quase 10 % em termos de precisão média. Além disso, as análises biológicas e interpretáveis ​​fornecem novos insights sobre os mecanismos de identificação e caracterização do sítio de ligação de proteínas de diferentes perspectivas. O servidor da Web EDLMPPI está disponível em http://www.edlmppi.top:5002/.

As interações proteína-proteína (PPIs) têm um papel essencial em todos os principais processos celulares que auxiliam na elucidação da função da proteína, mas também na interpretação da maior parte da biologia das células. Em particular, as proteínas-chave nessas interações protéicas podem fornecer a base para o desenvolvimento de drogas terapêuticas direcionadas nas doenças relacionadas, informando também sobre a base molecular subjacente das doenças1. Embora existam vários bancos de dados, como BioLip2 e PDB3, disponíveis para consultar os locais de interação proteína-proteína, eles parecem esmagadores devido ao número crescente de proteínas agora conhecidas pelos humanos4. Da mesma forma, experimentos biológicos para a detecção de sítios de ligação, como análise de dois híbridos e sistemas de afinidade, são muito demorados e caros5. Para preencher essa lacuna, muitos métodos computacionais foram desenvolvidos para abordar interações de proteínas e sites associados. Nos últimos anos, muitos modelos de identificação de sites de interação de proteínas baseados em aprendizado profundo foram propostos incorporando os poderosos recursos de extração de recursos de aprendizado profundo, resultando em um salto qualitativo no desempenho de previsão em comparação com o aprendizado de máquina tradicional. Por exemplo, Zeng et al.6 usaram o TextCNN como um extrator de recursos para aprender recursos usando kernels convolucionais de tamanhos diferentes, o que pode melhorar o desempenho da previsão. Xie et al.7 adotaram uma CNN simples para aprender as características locais entre os resíduos. Yang et al.8 apresentaram uma rede neural profunda com compartilhamento de peso local para prever os locais de interação de aminoácidos. Sun et al.9 desenvolveram uma arquitetura de aprendizado profundo baseada em redes neurais residuais para prever a interação de aminoácidos em proteínas transmembrana. Zhang et al.10 usaram um LSTM simplificado para prever o PPI, com o objetivo de aprender as informações contextuais dos recursos usando a capacidade do LSTM de compreender o contexto global. Li et al.11 integraram informações contextuais locais e dependências de longo alcance incorporando CNN e RNN, o que melhora o desempenho do modelo. Infelizmente, a maioria desses métodos computacionais são muito instáveis ​​e mal generalizados, especialmente para esses conjuntos de dados de referência altamente desbalanceados, o que implica algum espaço para melhorias.

acts as a sequence splitter that carries the attention of all residues, which indicates that for ProtT5, the overall identity of a sequence is determined by all amino acids together. Furthermore, Fig. 5b(d) shows clearly the flow of target amino acids in the different attention heads, verifying our previous statement that higher attention is seen with closer proximity. Moreover, Fig. 5c visualizes the evolution of each attention head in the different layers, as the layers deepened, the attention pattern shifted from focusing on the association between different amino acids to transmitting the expression of the amino acid sequences. In summary, ProtT5 can explore the connection between the protein-level structure and its function from local to global, providing a reasonable interpretation that EDLMPPI effectively predicts protein–protein interaction binding sites./p>