Em formação

Como prever as interações proteína-proteína a partir de um par de símbolos de genes?


Eu tenho uma lista de pares de símbolos de genes que interagem (supostamente) e gostaria de atribuir a cada par uma pontuação (e registrar outros detalhes) com base na interação proteína-proteína prevista (PPI). Os servidores da web PPI existentes que examinei (ClusPro e HADDOCK) exigem que eu use IDs de PDB como entrada. Infelizmente, nem sempre existem IDs de PDB para os símbolos de genes que gostaria de comparar. Eu acredito que preciso de:

  1. uma maneira de gerar arquivos PDB por conta própria (talvez com um programa dobrável?) e, em seguida, conectá-los / enviá-los a um servidor da web PPI.

ou

  1. uma maneira de encontrar a sequência mais semelhante que tenha um PDB ID e enviá-la para um servidor da web PPI.

Estou entendendo meu problema corretamente? Existem recursos que podem ajudar com 1 ou 2?


Isso pode ou não ser possível, dependendo de quais proteínas você está considerando. Gerar um arquivo PDB significa prever a estrutura da proteína. Não há métodos para prever o dobramento de proteínas com precisão a partir de dados de sequência simples, então você precisará algum dados experimentais sobre a estrutura de suas proteínas.

Se a estrutura de suas proteínas não foi determinada, a próxima melhor coisa é algum tipo de modelo de homologia, ou seja, uma previsão da estrutura de sua proteína com base em uma estrutura conhecida de uma proteína homóloga. Estes podem ser mais ou menos precisos, dependendo da proximidade da proteína homóloga. Se domínios específicos estiverem interagindo, pode ser suficiente criar um modelo apenas do domínio.

Existem ferramentas online disponíveis para modelagem de homologia, por exemplo, modelo suíço do site da expasy. No entanto, este não é um processo automatizado --- criar um modelo preciso requer algumas habilidades. Você deve ler as publicações que descrevem essas ferramentas e certificar-se de compreender o processo e as fontes de erro e, talvez, entrar em contato com um especialista em caso de dúvida. Boa sorte!


Fronteiras em genética

As afiliações do editor e dos revisores são as mais recentes fornecidas em seus perfis de pesquisa do Loop e podem não refletir sua situação no momento da revisão.



COMPARTILHAR NO

Ferramentas químicas para geração de imagens, manipulação e rastreamento de sistemas biológicos: diversos métodos para sistemas procarióticos e eucarióticos

Katherine Charov, Michael D. Burkart, em Methods in Enzymology, 2020

Resumo

As interações proteína-proteína (PPIs) são universais para a vida e seu estudo e compreensão são essenciais para a descoberta de drogas e esforços de bioengenharia. Historicamente, cristalografia de raios-X, calorimetria de titulação isotérmica e outros métodos biofísicos têm sido usados ​​para estudar PPIs, mas podem ser caros e de baixo rendimento, dificultando o progresso para uma avaliação rápida dessas interações. O interesse recente na segmentação dos PPIs e na engenharia de vias biossintéticas nas quais os PPIs desempenham um papel crítico tem impulsionado a inovação em sua avaliação, mas uma tela universal ainda é necessária. Um dos sistemas mais bem caracterizados que dependem de PPIs é Escherichia coli biossíntese de ácidos graxos do tipo II, na qual a proteína transportadora de acila central (EcACP) transporta substratos para uma série de enzimas parceiras. Aqui, apresentamos um método pelo qual EcACP é marcado com um corante solvatocrômico, 4-DMN, e então pode interagir com suas várias enzimas parceiras. Após a interação, ocorre um grande aumento na intensidade da fluorescência, que é facilmente monitorado por meio de um fluorômetro ou leitor de placas. Este método é útil no estudo de PPI conhecido, PPI hipotético e na avaliação de inibidores do sítio ativo da enzima parceira e do próprio PPI.


Mapas de interação de proteínas para genomas completos com base em eventos de fusão gênica

Um esforço em grande escala para medir, detectar e analisar as interações proteína-proteína usando métodos experimentais está em andamento 1,2. Estes incluem bioquímica, como co-imunoprecipitação ou reticulação, biologia molecular, como o sistema de dois híbridos ou exibição de fago, e genética, como a detecção de mutantes não complementares não vinculados 3. Usando o sistema de dois híbridos 4, um esforço internacional para analisar o genoma completo da levedura está em andamento 5. Evidentemente, todas essas abordagens são tediosas, trabalhosa e imprecisas 6. De uma perspectiva computacional, a questão é como podemos prever que duas proteínas interagem apenas a partir da estrutura ou da sequência. Aqui, apresentamos um método que identifica eventos de fusão gênica em genomas completos, exclusivamente com base na comparação de sequências. Como deve haver pressão seletiva para que certos genes se fundam ao longo da evolução, somos capazes de prever associações funcionais de proteínas. Mostramos que 215 genes ou proteínas nos genomas completos de Escherichia coli, Haemophilus influenzae e Methanococcus jannaschii estão envolvidos em 64 eventos de fusão únicos. A abordagem é geral e pode ser aplicada até mesmo a genes de função desconhecida.


Resultados

Modelo geral

Nosso método em geral opera em conjuntos de alinhamentos múltiplos de proteínas homólogas (ou domínios de proteínas) para os quais é conhecido que membros de um alinhamento múltiplo podem interagir com membros de outro alinhamento múltiplo. Para explicar o modelo, primeiro o descrevemos para o caso mais simples possível. Nesta situação, ilustrada na Figura 1, existem duas (grandes) famílias de proteínas ou domínios de proteínas, normalmente com vários membros parálogos por genoma, para os quais se sabe que em cada genoma cada membro da primeira família interage com um membro de a segunda família. O conjunto de todas as "soluções" possíveis para este problema corresponde a todas as maneiras possíveis em que podemos atribuir, para cada genoma, cada membro da primeira família a um membro da segunda família. Na Figura 1, os alinhamentos das duas famílias são mostrados lado a lado, com sequências agrupadas por genoma de cima para baixo. Uma atribuição de parceiros de interação uma corresponde a uma ordem vertical das sequências dentro de cada genoma, de modo que as sequências na mesma 'linha' horizontal são assumidas para interagir. Desta forma, uma tarefa uma implica um alinhamento múltiplo comum de todas as sequências de ambas as famílias.

Agora calculamos a probabilidade P(Duma) de observar todo o alinhamento múltiplo da junta D das sequências de ambas as famílias na atribuição uma. Assumimos que, para cada posição de alinhamento eu, a probabilidade de observar o aminoácido α nessa posição depende do aminoácido β que ocorre em uma outra posição j= π (eu) (o "pai" de eu) Uma árvore de dependência T (ver Figura 1) especifica a posição pai π (eu) para cada posição eu no alinhamento múltiplo da junta. As probabilidades condicionais p eu j (α∣β) são parâmetros desconhecidos que são integrados fora do problema. Conforme mostrado em Materiais e métodos, podemos derivar uma expressão explícita para a probabilidade P(DeuDj) de toda a coluna de alinhamento eu, dada coluna de alinhamento j em termos de contagens nαβ eu j o número de vezes que o par de aminoácidos (αβ) é observado nas colunas de alinhamento (eu j) A probabilidade P(Duma, T) dos dados, dada árvore de dependência T, é então o produto de probabilidades condicionais P(DeuDπ (eu)) (consulte a Figura 1) em todas as posições. A árvore de dependência desconhecida T é um chamado "parâmetro incômodo" e a teoria da probabilidade especifica (Jaynes, 2003) que obter P(Duma), devemos somar P(Duma, T) sobre todas as árvores de dependência possíveis. Usando um uniforme anterior sobre as árvores, isso equivale a uma média P(Duma, T) sobre todas as árvores dependentes (Meilá e Jaakkola, 2006). Nos casos em que este somatório é intratável computacionalmente, também podemos aproximar P(Duma) encontrando a árvore de dependência T * que maximiza P(Duma, T *) (ver Materiais e métodos).

Nós amostramos a distribuição posterior P(umaD) sobre todas as atribuições possíveis uma usando a amostragem de Monte-Carlo da cadeia de Markov e acompanhe a fração f(m, m′) De atribuições amostradas nas quais as proteínas m e m′ São parceiros de interação. No limite da amostragem longa, as frequências f(m′, m) dar as probabilidades posteriores P(m, m′∣D), naquela m e m′ Interagir. Conforme explicado em Materiais e métodos, essa abordagem pode ser estendida de várias maneiras, incluindo permitir mais de duas famílias parálogas e permitir um número desigual de membros nas diferentes famílias. Essas extensões são usadas para nossas previsões de interações de dois componentes abaixo.

Aplicação para TCSs

TCSs bacterianos são responsáveis ​​pela maior parte da transdução de sinal subjacente a comportamentos bacterianos complexos (Grebe e Stock, 1999 Stock et al, 2000 Ausmees e Jacobs-Wagner, 2003). Embora muito se saiba sobre a sinalização de TCS para subsistemas específicos em alguns organismos modelo, os parceiros de interação para a grande maioria dos genes de TCS não foram determinados experimentalmente. Previsões abrangentes de interações de sinalização TCS forneceriam, portanto, importantes insights sobre como diferentes bactérias respondem a seus ambientes, quais regulons estão sob o controle de quais sinais externos e quais subsistemas específicos estão conectados por vias de sinalização, com aplicações potencialmente importantes. Por exemplo, como a sinalização TCS é essencial para a interação patógeno-hospedeiro, os insights sobre essas interações podem ter aplicações importantes relacionadas à saúde humana. Além disso, muito pouco se sabe sobre a estrutura global das redes de sinalização TCS entre bactérias. Com cerca de 400 genomas totalmente sequenciados disponíveis, a previsão abrangente de redes de sinalização TCS em todas as bactérias, portanto, também forneceria um conjunto de dados significativo para estudar a estrutura global das redes de sinalização em bactérias.

Em sua forma mais simples, um TCS consiste em duas proteínas, uma histidina quinase e um regulador de resposta (Stock et al, 2000). A histidina quinase é, em muitos casos, uma proteína ligada à membrana contendo um domínio sensor extracelular, que responde a estímulos ambientais, e um domínio quinase citoplasmático. O domínio da quinase se autofosforila com a ativação do sensor, interage muito especificamente com o regulador de resposta e transfere o fosfato para o domínio receptor do regulador. A fosforilação normalmente leva à ativação do regulador, que freqüentemente atua como um fator de transcrição.

Por várias razões, os TCSs são particularmente atraentes para modelagem computacional. Primeiro, ambos os domínios da histidina quinase e do receptor exibem similaridade de sequência significativa e podem ser facilmente detectados em genomas totalmente sequenciados usando modelos de Markov ocultos (Bateman et al, 2004). Em segundo lugar, como os TCSs são muito abundantes no reino procariótico, com dezenas de pares interagindo em alguns genomas e milhares de exemplos em todos os genomas, eles fornecem dados suficientes para detectar dependências sutis entre os resíduos de domínios quinase / receptor em interação. Finalmente, uma fração significativa de todos os TCSs forma os chamados pares cognatos, nos quais um único par quinase / regulador está dentro de um operon no genoma. É geralmente assumido que tais pares cognatos são pares quinase / regulador em interação, o que é suportado experimentalmente por um número substancial de pares, e não há, até onde sabemos, nenhum exemplo que contradiga essa suposição. Portanto, os pares cognatos fornecem um conjunto de dados muito grande de pares de interação conhecidos que podem ser usados ​​para testar a precisão das previsões computacionais. Além disso, eles podem ser usados ​​como um "conjunto de treinamento" para prever interações entre todas as outras cinases e reguladores, isto é, entre cinases "órfãs" e reguladores que não ocorrem dentro de um operon com seu parceiro de interação.

Reunimos uma coleção exaustiva de proteínas TCS de 399 bactérias sequenciadas e multiplicamos todos os domínios de quinase e receptor. Considerando que todos os domínios do receptor podem ser alinhados em um único alinhamento, as quinases mostram diferentes arquiteturas de domínio e produzimos sete alinhamentos múltiplos separados para as sete arquiteturas de domínio da quinase mais abundantes (consulte Materiais e métodos). Também dividimos as cinases e reguladores em pares cognatos e órfãos.

Determinando resíduos interagentes

A classe HisKA é de longe a maior classe de quinases, com 3388 pares HisKA / regulador cognatos, correspondendo a 72% de todos os pares cognatos, e primeiro investigamos as evidências de dependências entre as posições de aminoácidos da quinase e os domínios do receptor desta classe. Para cada par de posições (eu j), Onde eu encontra-se na quinase e j no receptor, quantificamos a "dependência" pela razão de verossimilhança Reu j entre um modelo que assume que os aminoácidos nessas posições são extraídos de alguma distribuição de probabilidade conjunta e um modelo que assume que eles são extraídos de distribuições independentes (consulte Materiais e métodos). Esta medida Reu j para dependência entre posições eu e j está intimamente relacionado com a informação mútua da distribuição observada de aminoácidos nas posições eu e j, que por sua vez está relacionado ao acoplamento estatístico entre as posições introduzidas em (Lockless e Ranganathan, 1999). Conforme mostrado no painel superior esquerdo da Figura 2, quase 15% de todos os pares de posições têm um log positivo (Reu j), que corresponde a mais de 1000 pares. No entanto, como nosso conjunto de dados contém muitos exemplos de pares cognatos ortólogos, esperamos ver correlações "espúrias" que são apenas o resultado das relações evolutivas entre pares ortólogos. Para investigar se o log alto observado (Reu j) os valores podem ser explicados apenas pela filogenia, realizamos a seguinte randomização. Coletamos conjuntos de pares cognatos ortólogos em grupos ortólogos e identificamos pares de grupos ortólogos que ocorrem nos mesmos genomas. Em seguida, trocamos as atribuições de quinase / regulador entre esses pares de grupos ortólogos. Assim, cada quinase é agora atribuída a um domínio receptor errado, mas as relações filogenéticas de todos esses "pares falsos" são exatamente as mesmas que as relações filogenéticas dos pares cognatos verdadeiros. Se todas as correlações fossem devidas à filogenia, a distribuição dos observados Reu j os valores dos pares falsos devem ser iguais aos dos pares verdadeiros. Como mostra o painel superior esquerdo da Figura 2, o observado Reu j os valores dos pares verdadeiros são muito maiores do que podem ser explicados pela filogenia. Por exemplo, apenas cerca de 7% dos pares falsos mostram log positivo (Reu j) e não há pares falsos com log (Reu j) maior que 235.

Se os pares de posições com grandes Reu j os valores refletem restrições físico-químicas, podemos esperar que eles estejam em contato físico próximo durante a interação da quinase e do receptor. Embora nenhuma estrutura de um par de quinase / regulador HisKA esteja atualmente disponível, a estrutura da esporulação histidina fosfotransferase Spo0B com o regulador de resposta Spo0F (Zapf et al, 2000) foi determinado. Spo0B difere significativamente em sequência de HisKA quinases, mas pode, no entanto, ser razoavelmente alinhado ao perfil HisKA Pfam. Usamos a estrutura Spo0B / Spo0F junto com o alinhamento Spo0B / HisKA para estimar as distâncias físicas entre todos os pares de posições nos pares HisKA quinase / receptor. O painel superior direito da Figura 2 mostra que os pares de posições com maior Reu j estão significativamente mais próximos fisicamente do que outros pares (teste de soma de classificação P-valor 3 × 10-11). Além disso, a Figura 3 mostra os pares de aminoácidos com a maior Reu j valores no complexo Spo0B / Spo0F (linhas pretas). É impressionante que muitas das posições que se prevê dependam umas das outras estão de fato em contato físico próximo nas hélices α dos domínios da quinase e do receptor (próximo ao canto superior direito da figura). Prevê-se que outras interações ocorram entre os resíduos em uma hélice α do domínio da quinase e os resíduos nas alças do domínio do receptor. Algumas das interações previstas são mais intrigantes: elas envolvem resíduos não muito próximos, mas o Reu j os valores são muito altos para serem explicados por dependências filogenéticas. Alguns deles podem ser devido a diferenças estruturais entre o complexo Spo0B / Spo0F e o complexo HisKA / receptor, devido a erros de alinhamento ou dependências indiretas. Em resumo, o controle para o sinal filogenético, as distâncias entre pares com alta Reu j, e sua localização em uma estrutura relacionada, tudo isso apóia que nosso Reu j pontuações capturam dependências funcionais significativas entre pares individuais de posições na quinase e no receptor.

Previsão de interações cognatas

Em seguida, investigamos com que precisão o modelo pode reconstruir pares cognatos conhecidos de HisKA quinases e seus reguladores. Coletamos os alinhamentos múltiplos de todos os domínios da quinase HisKA e domínios do receptor de pares cognatos e amostramos o espaço de todas as atribuições possíveis, ou seja, todas as maneiras pelas quais cada quinase de cada genoma pode ser atribuída a um regulador do mesmo genoma. Classificamos todos os pares previstos por sua probabilidade posterior e medimos, em função de um corte na probabilidade posterior, a fração de todos os pares cognatos verdadeiros que estão entre as previsões (sensibilidade) e a fração de todas as previsões que correspondem ao cognato verdadeiro pares (valor preditivo positivo). Esses resultados são mostrados no painel inferior esquerdo da Figura 2, ambos ao se aproximar P(Duma) usando a árvore com maior probabilidade, ou seja, P(Duma) = maxT P(Duma, T) (curvas azuis), e ao calcular a média de todas as árvores de dependência P(Duma)=∑T P(Duma, T) (curvas vermelhas). Na primeira abordagem, a estrutura da árvore de dependência é calculada a partir dos pares cognatos emparelhados corretamente antes da amostragem, enquanto na segunda abordagem, nenhum conjunto de treinamento é usado. Em ambas as abordagens, os pares cognatos são reconstruídos com alta precisão, mas calcular a média das árvores de dependência tem o melhor desempenho. Isso não é surpreendente, uma vez que, como mencionado acima, calcular a média das árvores de dependência é a maneira correta de tratar o parâmetro de incômodo T. Usar apenas a melhor árvore pode resultar em overfitting.

Com sensibilidade de 60%, mais de 95% (curvas vermelhas) das previsões correspondem a pares verdadeiros. Com uma sensibilidade de 75%, a fração de previsões que são pares verdadeiros ainda é superior a 80% (curvas vermelhas). Esta alta precisão é muito surpreendente, particularmente considerando que o algoritmo não recebe um único exemplo de um par de interação verdadeiro, mas infere todos os pares cognatos em todos os genomas em paralelo, procurando por atribuições que maximizam a quantidade de dependência observada entre a quinase e sequências de receptor. Também previmos parceiros de interação para todas as quinases cognatas e reguladores da classe H3, que é a segunda classe mais abundante (Figura 2, painel inferior direito). Em contraste com a classe HisKA, para a classe H3 há um número significativo de genomas com apenas um pequeno número de pares cognatos H3 para os quais mesmo previsões aleatórias produziriam uma fração razoável de previsões corretas (curvas verdes). No entanto, ainda está claro que nosso modelo reconstrói os pares cognatos com alta precisão, ou seja, a uma sensibilidade de 80%, mais de 95% das previsões (curvas vermelhas) correspondem a pares verdadeiros. Nas informações suplementares, mostramos curvas análogas para as outras classes (menores) de quinases que mostram alta precisão de previsões, ilustrando que o modelo pode atingir alta precisão em conjuntos de dados relativamente pequenos. Por outro lado, uma vez que para essas classes de quinase menores muitas vezes existem apenas alguns pares cognatos por genoma, o problema de previsão é, obviamente, significativamente mais fácil. Em resumo, os resultados em pares cognatos sugerem que, pelo menos para quinases e reguladores cognatos, nosso algoritmo pode inferir parceiros de interação ab initio com alta precisão.

Previsão de interações órfãs

Obviamente, estamos mais interessados ​​em reconstruir aquelas partes das redes de sinalização de dois componentes bacterianas que atualmente não são conhecidas, isto é, prever parceiros de interação para as milhares de quinases e reguladores órfãos. A previsão de interações órfãs é mais difícil por dois motivos. Em primeiro lugar, embora para pares cognatos a suposição de que cada quinase e cada regulador interage principalmente com um parceiro seja provavelmente razoável, para quinases e reguladores órfãos isso é menos provável. Muitos genomas contêm números desiguais de quinases e reguladores, sugerindo que pelo menos alguns devem interagir com vários parceiros. Em segundo lugar, uma determinada bactéria normalmente contém quinases órfãs de várias classes e, portanto, também temos que inferir a qual classe de quinase cada um dos reguladores órfãos pertence.

Para prever interações órfãs, estendemos nosso modelo de várias maneiras. Primeiro, tratamos as várias classes de quinases em paralelo. Em segundo lugar, para contabilizar números desiguais de quinases órfãs e reguladores órfãos, para uma determinada atribuição algumas quinases e / ou reguladores podem permanecer sem um parceiro de interação e são pontuados separadamente (consulte Materiais e métodos). Finalmente, adicionamos todos os pares cognatos aos alinhamentos de cada classe, com os parceiros de interação corretamente atribuídos, e mantemos esses pares cognatos fixos. Desta forma, os pares cognatos "congelados" atuam como um conjunto de treinamento para as atribuições órfãs. O algoritmo novamente usa a cadeia de Markov Monte-Carlo para amostrar todas as maneiras de atribuir receptores órfãos a classes e todas as maneiras de atribuir parceiros de interação órfãos em cada classe. Devido a dificuldades numéricas na extensão de nosso modelo para várias classes (consulte Materiais e métodos), não podemos calcular a soma de todas as árvores de dependência com precisão suficiente. Portanto, usamos os pares cognatos para determinar a melhor árvore de dependência e aproximar P(Duma) com maxT P(Duma, T).

Para avaliar o desempenho deste modelo estendido, primeiro o usamos para prever parceiros de interação para todas as quinases e receptores cognatos, executando em todas as sete classes em paralelo. Uma vez que cada regulador cognato agora pode alternar dinamicamente entre todas as sete classes de quinases, o espaço de busca do modelo estendido é muito maior em comparação com o caso em que cada classe é tratada separadamente, e esperamos que isso afete negativamente o desempenho. Conforme mostrado nas informações suplementares, nossas previsões, no entanto, permanecem bastante precisas. Observe também que, para classes pequenas, como a classe HWE, muitas vezes há apenas uma quinase por genoma e a predição correta equivale a identificar o regulador que pertence à classe HWE, o que o modelo estendido realiza com alta precisão.

Usando nosso modelo estendido, previmos parceiros de interação órfãos em todo o genoma em todas as 399 bactérias. Atualmente, muito poucas interações órfãs foram medidas experimentalmente. De longe, o conhecimento mais amplo está disponível para os parceiros de interação das quinases órfãs HisKA em Caulobacter crescentus (Wu et al, 1999 Ohta e Newton, 2003 Skerker et al, 2005 Biondi et al, 2006). A Tabela I compara nossas previsões de interação órfã em Caulobacter com aqueles na literatura.

Surpreendentemente, para 10 das 11 quinases com parceiros de interação conhecidos, a predição computacional superior corresponde a uma interação conhecida. Na verdade, das 22 previsões na tabela, que inclui todas as 16 interações conhecidas para essas quinases, apenas cinco estão em desacordo com os dados experimentais atuais. Uma vez que existem 29 reguladores órfãos diferentes em Caulobacter, ou seja, há 29 candidatos de interação para cada quinase, isso constitui uma evidência altamente significativa de que nosso método prevê com precisão os parceiros de interação órfãos (P-valor de 7,5 × 10 −18 consulte as informações suplementares). Nas informações suplementares, também comparamos nossas previsões órfãs com as poucas interações órfãs experimentalmente determinadas em Helicobacter pylori, Bacillus subtilis, e Ehrlichia chaffeensis.

Previsão de interações entre PKSs

PKSs são uma família de proteínas bacterianas com extraordinárias capacidades biossintéticas. Dependendo de interações proteína-proteína muito específicas, elas formam cadeias multiproteicas nas quais a ordem das proteínas PKS determina a ordem dos monômeros do produto policetídeo sintetizado. Os PKSs são de particular interesse, pois, por meio da engenharia genética de novas cadeias de PKS, eles podem ser potencialmente usados ​​para obter bioquímica combinatória em laboratório (Weissman e Leadlay, 2005).

Acredita-se que a especificidade da interação de PKS seja determinada por um pequeno número de resíduos na cabeça (N-terminal) e na cauda (C-terminal). Aqui nos concentramos em um conjunto de dados de 149 pares cabeça-cauda interagindo publicados muito recentemente (Thattai et al, 2007). A análise deste conjunto de dados mostrou (Thattai et al, 2007) que ambas as sequências de cabeça e cauda podem ser filogeneticamente agrupadas em três grupos (H1 a H3 e T1 a T3), e que os pares de interação ocorrem apenas entre proteínas de grupos correspondentes. A associação ao grupo pode, portanto, ser usada para prever quais pares inicial e final provavelmente interagirão.

Aplicamos nosso método sem qualquer modificação (ou seja, conforme descrito na seção Modelo geral) ao conjunto de dados mencionado acima. Ou seja, consideramos cara e coroa como as famílias de proteínas 1 e 2 (ver Figura 1) e amostramos todas as formas possíveis de atribuir cada cabeça a exatamente uma cauda dentro do mesmo genoma. Isso implica que cabeças de PKSs dentro de uma via podem interagir com caudas de PKSs de uma via diferente, desde que pertençam ao mesmo genoma, o que é um problema mais difícil e provavelmente mais biologicamente relevante do que aquele considerado em (Thattai et al, 2007). Os resultados são mostrados no painel esquerdo da Figura 4. A curva vermelha mostra o desempenho do nosso modelo em que a probabilidade dos dados é calculada em média sobre todas as árvores de dependência possíveis, a curva azul mostra o desempenho de um modelo de classificação que só leva em considere as informações do grupo filogenético das sequências (consulte Informações suplementares), e a curva verde mostra o desempenho de previsões aleatórias. Observe que embora nosso modelo não leve em consideração nenhuma informação anterior sobre o agrupamento filogenético de cara e coroa, ele claramente supera o modelo de classificação usado em (Thattai et al, 2007 ).

Thattai et al (2007) mostraram que dentro do maior grupo de pares cabeça-cauda interagentes (o grupo H1-T1 contendo 90 pares), há uma série de pares de resíduos de aminoácidos que se encontram próximos na estrutura NMR de uma cabeça-cauda interagindo par e que mostram evidências significativas de co-evolução. No entanto, tentativas de Thattai et al (2007) para usar esses pares de posições para prever interações dentro da subclasse H1-T1 produziu resultados que foram apenas ligeiramente melhores do que aleatórios. Em contraste, conforme mostrado no painel direito da Figura 4, nosso modelo mostra excelente precisão de predição na subclasse H1-T1. Isso demonstra que, pelo menos para algumas famílias de proteínas, nosso modelo obtém previsões precisas em conjuntos de dados com menos de 100 sequências.

A estrutura das redes de sinalização de dois componentes entre bactérias

Nossas previsões de todo o genoma de interações de sinalização de TCS nos permitem, pela primeira vez, investigar e comparar a estrutura das redes de sinalização de TCS em bactérias. No entanto, em nossas previsões cognatas acima, presumimos que cada cognato interagiria apenas com um outro cognato, e as previsões dos órfãos também assumiram que os órfãos interagem apenas uns com os outros. Conforme explicado nos Materiais e métodos, para garantir que as previsões da rede sejam tão abrangentes e imparciais quanto possível, usamos um esquema de pontuação estática que trata cognatos e órfãos igualmente (permitindo interações entre órfãos e cognatos) e permite um número arbitrário de interação parceiros por proteína.

Antes de investigar as interações previstas, primeiro investigamos como o número de genes TCS de diferentes tipos varia entre os genomas. Como foi mostrado por van Nimwegen (2003), o número total de genes TCS varia significativamente entre bactérias e escala aproximadamente como o quadrado do número de genes no genoma, ou seja, sempre que o número total de genes dobra, o número total de Os genes TCS quase quadruplicam. A Figura 5 mostra o número total de cognatos e órfãos em genomas (painel esquerdo) e o número de quinases órfãs e receptores órfãos (painel direito). Há uma variação notavelmente grande no número relativo de órfãos e cognatos, ou seja, há exemplos de genomas com dezenas de pares cognatos sem nenhum órfão, e vice-versa genomas que possuem dezenas de órfãos e nenhum cognato. Além disso, parece haver pouca correlação entre o número de cognatos e o número de órfãos. Também não encontramos nenhuma correlação discernível entre o número de quinases órfãs e o número de reguladores cognatos, ou o número de reguladores órfãos e quinases cognatas (dados não mostrados). Em contraste, como observado antes (Alm et al, 2006), há uma correlação clara entre o número de quinases órfãs e o número de reguladores órfãos em um genoma (painel direito da Figura 5). Essas estatísticas fornecem uma primeira sugestão de que quinases órfãs e reguladores órfãos podem interagir predominantemente entre si, em vez de cognatos.

Para investigar isso mais a fundo, analisamos como o número total de interações previstas depende do número de genes TCS de diferentes tipos. Nós distinguimos quatro tipos de interações: interações cognato-cognatas entre quinases cognatas e receptores cognatos, interações órfãs-órfãs entre quinases órfãs e receptores órfãos, interações cognato-órfãs entre quinases cognatas e receptores órfãos e interações órfão-cognatas entre quinases órfãs e cognatos receptores. Para um genoma com C pares cognatos, K cinases órfãs, e R receptores órfãos, existem, respectivamente T=C 2 cognato-cognato, T=KR órfão-órfão, T=CR órfão-cognato, e T=KC possíveis interações órfão-cognato. Para cada genoma, determinamos as frações fcc, foo, fco, e foc de todas as interações possíveis em cada classe que estão previstas para ocorrer. Para cada categoria, classificamos os genomas pelo número total de interações T dessa categoria, e calculando as médias contínuas das frações (ver Materiais e métodos), determinamos a dependência das frações fcc, foo, fco, e foc no número total de interações possíveis T (Figura 6). Se cada interação possível tivesse uma probabilidade constante de ser prevista, então a fração observada de interações seria independente do número total de interações possíveis T. Em contraste, é mostrado na Figura 6 que todas as frações diminuem em função do número total de interações possíveis. T. Em uma aproximação razoável, todas as quatro frações caem como uma lei de potência do número total de interações possíveis T, com expoentes -0,4 para interações cognato-cognato e órfão-órfão, e -0,55 para interações cognato-órfão e órfão-cognato.

Para investigar as consequências desse dimensionamento para a estrutura da rede TCS em função do tamanho do genoma, vamos primeiro nos concentrar nas interações cognato-cognato. Para um genoma com N pares cognatos, existem T=N 2 possíveis interações, das quais uma fração T -0,4 existe. O número total de bordas cognato-cognatas, portanto, é dimensionado como T 0.6 =N 1.2. Ou seja, conforme o número de pares cognatos aumenta, o número total de interações entre os cognatos cresce um pouco mais rápido do que o linear. Isso implica que, embora a quantidade total de conversa cruzada entre cognatos seja pequena, a quantidade de conversa cruzada aumenta com o número de pares cognatos. Em particular, o número médio de parceiros de interação por gene cognato cresce à medida que N 0,2. Para se ter uma ideia da ordem de magnitude, para um genoma com quatro pares cognatos, o ajuste da lei de potência prevê um total de 3,5 interações, ou seja, essencialmente uma interação por gene. Para um genoma com 40 pares cognatos, um total de 56 interações cognato-cognato são previstas, o que equivale a 16 conversas cruzadas no topo das 40 interações cognatas. Para interações órfãs-órfãs, os números são muito semelhantes.

The power-law fits show that the fractions of cognate–orphan and orphan–cognate interactions decrease even faster with T. Consider for simplicity genomes with N cognate pairs, N orphan kinases, and N receivers. The total number of cognate–orphan and orphan–cognate interactions grows as N 0.9 in such genomes. Since this is slower than linear, it in particular implies that the average number of cognate–orphan and orphan–cognate interactions per gene decreases as N −0.1 . Apart from decreasing more rapidly with N, it is also shown in Figure 6 that cognate–orphan and orphan–cognate interactions are much less frequent than cognate–cognate and orphan–orphan interactions.

In summary, all our observations support the idea that orphans and cognates form two relatively separate TCS-signaling networks, that is, cognate–orphan and orphan–cognate interactions are relatively rare, and whereas the number of orphan–orphan and cognate–cognate cross-talks per gene increases with increasing network size, the number of cognate–orphan and orphan–cognate interactions per gene decreases with network size. As we saw above (Figure 5), this idea is also supported by the correlation in the number of orphan kinases and orphan receivers, and the absence of correlations between the numbers of cognates and numbers of orphans.

To provide additional evidence that orphans and cognates form relatively separate TCS-signaling networks, we mapped orthology relations of cognates and orphans across the 399 sequenced genomes (see Materials and methods Supplementary information). We find that, whenever both genes of a cognate pair have orthologs in another genome, the two orthologs are also a cognate pair in this genome 99.1% of the time. In 0.6% of the cases, the orthologs of the cognate pair are both orphans, and in the remaining 0.3% of the cases one ortholog is a cognate and the other an orphan. In cases where only the kinase of the cognate pair has an ortholog, the orthologous kinase is a cognate 79% of the time. Similarly, if only the receiver of the cognate pair has an ortholog, then this orthologous receiver is a cognate 78% of the time. Finally, orthologs of orphan kinases are orphans 86% of the time, and orthologs of orphan receivers are orphans 80% of the time. Thus, although both cognate and orphan TCS genes undoubtedly share a common phylogenetic ancestry, our results intriguingly suggest that on shorter evolutionary time scales orphans and cognates evolve relatively separately from each other, and support our finding that the orphans and cognates form two relatively separate interaction networks.

To shed some light on the difference between orphans and cognates, we determined the connectivity, that is, the number of predicted interaction partners, for each TCS protein, and calculated the distribution of connectivities separately for all orphans and all cognates. Figure 7 shows the reverse cumulative distribution of kinases (left panel) and regulators (right panel). The figure shows striking differences between the connectivity distributions of cognates (red) and orphans (blue). First, for both kinases and regulators, the reverse cumulative distribution initially falls rapidly and roughly exponentially. In this regime, which includes roughly 90% of all genes, the connectivity distributions of cognates and orphans are very similar, although there are slightly more cognates with at least one predicted interaction partner than orphans. However, for the remaining 10% of genes the connectivity distributions of cognates and orphans are very different. In particular, there is a much larger number of orphans with high connectivity. For all four curves, but especially clearly for the orphans, there are two regimes in the distribution: one corresponding to relatively low-connectivity genes, which includes about 90% of all genes, and a second regime of high-connectivity genes, which covers the remaining 10%. It thus appears that, to a rough approximation, there are two types of TCS genes. Most kinases and regulators interact with only a few (less than five) partners, but about 10% interact with a large number of partners. The kinases in this class thus distribute a signal to a large number of downstream regulators, and the regulators in this class integrate a large number of input signals. Most of these ‘hub’ kinases and regulators are orphans.


Introdução

With the overwhelming amount and exponential increase of biomedical literature, it is almost impossible for biologists to keep abreast of all the updated information in their research fields. Therefore, knowledge-based methods such as text mining techniques to discover hidden and updated knowledge from the unstructured free text are in great need [1]–[3]. One of the most important applications is mining correlations or associations such as protein-protein interactions (PPIs) from the literature [4], [5]. Plenty of PPI text mining approaches have been categorized into two groups, one is statistical calculation of the co-occurrence of genes or proteins, and the other is the computational linguistic method [2], [4].

Statistical methods are based on the hypothesis that if two genes or proteins appeared in the same sentences, paragraphs or articles frequently, there may exist certain kind of biologically meaningful relation between them [2]. Thus, the relations between genes or proteins could be uncovered by calculating their co-occurrence frequencies. In general, the higher the frequencies are, the more likely the interactions are. On the other hand, computational linguistic methods employ natural language processing (NLP) techniques to analyze the semantic meanings of relations (e.g. interaction) between genes or proteins. It first identifies gene or protein names in the sentences. Then it parses the sentences by employing the part-of-speech (POS) tagging. Based on the generated POS tags, a set of predefined protein-protein interaction patterns or rules are applied to extract the protein-protein interaction descriptions [4].

However, the two approaches both have limitations. A drawback of the statistical methods is its inability to tell the exact relations of the genes in co-occurrence. The computational linguistic methods that use one sentence as a processing unit might miss the contextual information [4]. Thus, a hybrid approach by combining the two methods that is termed as a frame-based approach has been developed to have better performance [2].

Biologists may have more interests in the predicted novel PPIs from these text-mining tools. It will be more straightforward to identify potential novel PPIs when the known PPIs are filtered in these algorithms. However, few algorithms have implemented this feature [3]. In this study, we developed a novel algorithm by a frame-based approach for a web-based tool, PPI Finder, which can not only find the related genes of the gene of interest based on their co-occurrence frequencies but also extract the semantic descriptions of interactions from the co-occurring literature by computational linguistic methods. In addition, we map the known interactions from the widely-used PPI databases to filter the known interactions. We also show the shared GO terms from the Gene Ontology database, in order to infer potential PPIs based on their functions in the same process or localization. This dedicated web server is helpful to the users to find both known and potential novel PPIs from literature.


Referências

Mellitus D. Diagnosis and classification of diabetes mellitus. Diabetes care. 2005 28(S37):S5–S10.

Davies JL, Kawaguchi Y, Bennett ST, et al. A genome-wide search for human type 1 diabetes susceptibility genes. Natureza. 1994 371(6493):130–6.

Butler AE, Bonner-Weir S, et al. Janson, J. Diabetes. 2003 52(1):102–10.

Buchanan TA, Xiang AH. Gestational diabetes mellitus. J Clin Invest. 2005 115(3):485–91.

Marx J. Unraveling the causes of diabetes. Ciência. 2002 296(5568):686.

Notkins AL. The causes of diabetes. Sci Am. 1979 241(5):62.

Loeken MR. Advances in understanding the molecular causes of diabetes-induced birth defects. J Soc Gynecologic Invest. 2006 13(1):2–10.

Nguyen C, Varney MD, Harrison LC, et al. Definition of high-risk type 1 diabetes HLA-DR and HLA-DQ types using only three single nucleotide polymorphisms. Diabetes. 2013 62(6):2135–40.

Hu X, Deutsch AJ, Lenz TL, et al. Additive and interaction effects at three amino acid positions in HLA-DQ and HLA-DR molecules drive type 1 diabetes risk. Nat Genet. 2015 47(8):898–905.

Chen LM. Association of the HLA-DQA1 and HLA-DQB1 Alleles in Type 2 Diabetes Mellitus and Diabetic Nephropathy in the Han Ethnicity of China. Exp Diabetes Res. 2013 2013:1–5.

Glazier AM, Nadeau JH, Aitman TJ. Finding Genes That Underlie Complex Traits. Ciência. 2002 298(5602):2345–9.

Lage K, Karlberg E, et al. A human phenome-interactome network of protein complexes implicated in genetic disorders. Nat Bio. 2007 25(3):309–16.

Aerts S, Lambrechts D, et al. Gene prioritization through genomic data fusion. Nat Biotech. 2006 24(5):537–44.

Adie E, Adams R, et al. SUSPECTS:enabling fast and effective prioritization of positional candidates. Bioinformatics. 2006 22(6):773–4.

Turner F, Clutterbuck D, Semple C. POCUS: mining genomic sequence annotation to predict disease genes. Genome Biology. 2003 4(11):R75.

Masotti D, Nardini C, et al. TOM: enhancement and extension of a tool suite for in silico approaches to multigenic hereditary disorders. Bioinformatics. 2008 24(3):428–9.

Chen J, Bardes EE, et al. ToppGene Suite for gene list enrichment analysis and candidate gene prioritization. Nucleic Acids Res. 2009 37(suppl 2):W305—11.

Adie EA, Adams RR, et al. Speeding disease gene discovery by sequence based candidate prioritization. BMC Bioinformatics. 2005 6(55):1–13.

Stelzl U, Wanker EE. The value of high quality protein-protein interaction networks for systems biology. Curr Opin Chem Biol. 2006 10:551–8.

Gandhi TKB, Zhong J, et al. Análise do interactoma da proteína humana e comparação com conjuntos de dados de interação de levedura, minhoca e mosca. Nat Genet. 2006 38:285–93.

Oti M, Snel B, Huynen MA, et al. Predicting disease genes using proteinCprotein interactions. J Med Genet. 2006 43(8):691–8.

Chen JY, Shen C, Sivachenko AY. Mining Alzheimer disease relevant proteins from integrated protein interactome data. Pac Symp Biocomput. 2006 11:367–78.

Erten S, Bebek G, et al. Disease gene prioritization based on topological similarity in protein-protein interaction networks. Res Comput Mol Biol. 2011 2011:54–68.

Sprinzak E, Sattath S, Margalit H. How Reliable are Experimental Protein-Protein Interaction DataJ Mol Biol. 2003 327(5):919–23.

Chen J, Yuan B. Detecting Functional Modules in the Yeast Protein-Protein Interaction Network. Bioinformatics. 2006 22(18):2283–90.

Bader GD, Hogue CWV. Analyzing yeast protein-protein interaction data obtained from different sources. Nat Biotechnol. 2002 20(10):991–7.

Batada N, Hurst LD, Tyers M.Evolutionary and physiological importance of hub proteins. PLoS Comp Bio. 2006 2:e88.

Collins SR, Kemmeren P, Zhao XC, et al. Toward a comprehensive atlas of the physical interactome of Saccharomyces cerevisiae. Mol Cell Proteomics. 2007 6(3):439–50.

Wu C, Zhu J, Zhang X. Integrating gene expression and protein-protein interaction network to prioritize cancer-associated genes. BMC Bioinformatics. 2012 13(1):182.

Li W, Chen L, He W, et al. Prioritizing Disease Candidate Proteins in Cardiomyopathy-Specific Protein-Protein Interaction Networks Based on “Guilt by Association” Analysis. PloS one. 2013 8(8):e71191.

Kumar A, Agarwal S, et al. Subcellular localization of the yeast proteome. Genes and development. 2002 16(6):707–19.

de Lichtenberg U, Jensen LJ, et al. Dynamic complex formation during the yeast cell cycle. science. 2005 307(5710):724–7.

Altshuler D, Daly M, Kruglyak L. Guilt by association. Nat Genet. 2000 26(2):135–8.

Kohler S, Bauer S, Horn D, et al. Walking the interactome for prioritization of candidate disease genes. Am J Hum Genet. 2008 82(4):949–58.

Huh WK, Falvo JV, et al. Global analysis of protein localization in budding yeast. Natureza. 2003 425(6959):686–91.

Peng X, Wang J, et al. An efficient method to identify essential proteins for different species by integrating protein subcellular localization information. Bioinformatics Biomed. 2015 2015:277–80.

Peng X, Wang J, et al. Rechecking the Centrality-Lethality Rule in the Scope of Protein Subcellular Localization Interaction Networks. PloS one. 2015 10(6):1–22.

Tang X, Wang J, et al. Predicting essential proteins based on weighted degree centrality. IEEE/ACM Trans Comput Biol Bioinformatics. 2014 11(2):407–18.

Binder JX, Pletscher-Frankild S, et al. COMPARTMENTS: unification and visualization of protein subcellular localization evidence. Database. 2014 2014. bau012.

Stark C, Breitkreutz BJ, et al. Biogrid: a general repository for interaction datasets. Nucleic Acids Res. 2006 34(1):D535—9.

Rende D, Baysal N, Kirdar B. Complex disease interventions from a network model for type 2 diabetes. PloS One. 2013 8(6):e65854.

Manabe Y, Tochigi M, et al. Insulin-like growth factor 1 mRNA expression in the uterus of streptozotocin-treated diabetic mice. J Reprod Dev. 2013 59(4):398–404.

Liu X, Xu J. Reduced Histone H3 Acetylation in CD4. Disease Markers. 2015 2015:1–8.

Linner C, Svartberg J, Giwercman A, et al. Estrogen receptor alpha single nucleotide polymorphism as predictor of diabetes type 2 risk in hypogonadal men. Aging Male. 2013 16(2):52–7.

Wei FJ, Cai CY, et al. Quantitative candidate gene association studies of metabolic traits in Han Chinese type 2 diabetes patients. Genet Mol Res GMR. 2015 14(4):15471.

Devaney JM, Gordish-Dressman H, et al. AKT1 polymorphisms are associated with risk for metabolic syndrome. Hum Genet. 2011 129(2):129–39.

Hami J, Kerachian MA, et al. Effects of streptozotocin-induced type 1 maternal diabetes on PI3K/AKT signaling pathway in the hippocampus of rat neonates. J Receptors Signal Transduction. 2015 2015:1–7.

Zheng H, Fu J, et al. CNC-bZIP protein Nrf1-dependent regulation of glucose-stimulated insulin secretion. Antioxidants Redox Signal. 2015 22(10):819–31.

Hirotsu Y, Higashi C, et al. Transcription factor NF-E2-related factor 1 impairs glucose metabolism in mice. Genes Cells. 2014 19(8):650–65.

Ferre S, de Baaij JHF, et al. Mutations in PCBD1 cause hypomagnesemia and renal magnesium wasting. J Am Soc Nephrol. 2013 2013. ASN 2013040337.

Simaite D, Kofent J, et al.Recessive mutations in PCBD1 cause a new type of early-onset diabetes. Diabetes. 2014 63(10):3557–64.

Han J, Zhang M, et al. The Identification of Novel Protein-Protein Interactions in Liver that Affect Glucagon Receptor Activity. PloS one. 2015 10(6):e0129226.

Sakiyama H, Wynn RM, et al. Regulation of Nuclear Import/Export of Carbohydrate Response Element-binding Protein (ChREBP) INTERACTION OF AN alpha-HELIX OF ChREBP WITH THE 14–3-3 PROTEINS AND REGULATION BY PHOSPHORYLATION. J Biol Chem. 2008 283(36):24899–908.

Somanath PR. 14-3-3 beta-Rac1-p21 activated kinase signaling regulates Akt1-mediated cytoskeletal organization, lamellipodia formation and fibronectin matrix assembly. J Cell Physiol. 2009 218(2):394–404.

Chen J, Chen JK, et al. EGFR signaling promotes TGF-dependent renal fibrosis. J Am Soc Nephrol. 2012 23(2):215–24.

Chen J, Chen JK, Harris RC. EGF receptor deletion in podocytes attenuates diabetic nephropathy. J Am Soc Nephrol. 2015 26(5):1115–25.

Hwang KW, Won TJ, et al. Erratum to “Characterization of the regulatory roles of the SUMO”. Diabetes/metabolism Res Rev. 2012 28(2):196–202.

Hwang KW, Won TJ, et al. Characterization of the regulatory roles of the SUMO. Diabetes/metabolism Res Rev. 2011 27(8):854–61.

Owerbach D, Pina L, Gabbay KH. A 212-kb region on chromosome 6q25 containing the TAB2 gene is associated with susceptibility to type 1 diabetes. Diabetes. 2004 53(7):1890–3.


Concept recognition for relation extraction: the protein interaction pairs subtask

Finally, the most detailed level of information that may interest a bench biologist is the extracted interaction data itself. This information could be presented to the biologist as the results of a literature search. Alternatively, the methods used to extract the data could be used to support database expansion and management. For the IPS subtask [42] we used OpenDMAP, which is a concept recognition system that has been developed by our group. As is typical for concept recognizers using manually constructed grammars, our system is geared toward optimizing precision. The procedure begins with preprocessing the HTML, and then moves to species recognition, entity tagging and part of speech tagging, followed by extraction of protein-protein interactions. Our approach for detecting interacting protein pairs relies heavily on the systems generated for the GM and GN tasks.

Preprocessing

HTML parsing

The HTML parser developed to process the raw HTML documents was an extension of a similar parser developed for the TREC Genomics 2006 task [36]. The title, abstract, paragraphs, sentences, section headings, and subsection headings were extracted for each document. Document sections were inferred based on the section heading text. Sentence boundaries were detected using the LingPipe sentence chunker [6]. Sentences were mapped back to the original HTML using a dynamic programming approach.

Protein mention tagging

We used a variant of the system developed for the GM task to tag genes/proteins in which the outputs of ABNER [7] (both models) and LingPipe [6] (BioCreative04 model) were combined using the combining filter (see the section on GM, above). As we pointed out in the GM task introduction, the distinction between gene and protein mentions in text is often vague, and therefore for the purposes of the analyses conducted in this paper we consider them to be equivalent.

Linguistic tagging

Part of speech (POS) tagging was done using the GENIA POS Tagger [43].

Species classification

Species classification was done using a modified dictionary search. The species dictionary was constructed from the intersection of words from the National Center for Biotechnology Information (NCBI) names.dmp file (a list of all known scientific names and synonyms for organisms) and the set of NCBI taxonomy identifiers present in the IPS training set. These words were then combined into a single regular expression pattern for each species. In the flanking region of ± 50 characters around each detected species, we searched for bigrams that would further indicate a particular species in order to filter out false positive identifications. This set of 'indicator bigrams' was created by calculating the frequency of bigrams in the flanking region of the IPS training data. Each indicator bigram was assigned a log-odds score using the formula:

Log-odds scores were summed to determine the score of a single species match. The total score for a given species classification for a single article was calculated by combining the number of times a species match was made and the sum of the log-odds for indicator bigrams per match. Once scored, the species for a given document was returned in rank order. We experimented with the optimal number of species results to return and found the best results when the maximum number of species returned from the ranked list was two.

Protein mention normalization

Gene/protein lexicon construction

Dictionaries were constructed for each species that was observed in the IPS training data by extracting information from the uniprot_light_table_updated.txt file supplied by the BioCreative organizers.

Protein mention normalization

Each gene/protein mention was normalized using the procedure described above for the GN task, using the dictionary for the identified species. We experimented with the optimal number of normalized identifiers to return and found the best results when we limited the output to one normalized entry per gene mention in text.

OpenDMAP and conceptual patterns

We extracted protein-protein interaction pairs by applying OpenDMAP [3], an open source, ontology-based concept recognition system available at [44]. It works by associating manually written patterns to concepts in free text. The patterns combine information about concepts, keywords, parts of speech, phrase types, and other syntactic features into single patterns.

OpenDMAP patterns are written in a regular grammar syntax that consists of nonterminal elements on the left-hand side and terminal and nonterminal elements on the right. Nonterminal elements are linked to a Protégé ontology [45], which describes the protein-protein interaction frame with an interaction class that has two slots: interactor1 and interactor2. An example of an OpenDMAP pattern for the IPS task looks like the following expression:

= [interactor1] interacts with [interactor2]

Where elements presented in represent classes in the ontology, elements in [brackets] correspond to slots of the class on the left-hand side of the pattern, and bare strings are terminals. The slots are constrained in the ontology to have specific features for the IPS task, the slot elements [interactor1] and [interactor2] are constrained to be proteins.

When a sentence is input to the system, OpenDMAP recognizes that the marked proteins tagged by our GM system match the constraints on the frame slots [interactor1] and [interactor2]. When OpenDMAP matches the rest of the pattern elements, an instance of a protein-protein interaction frame is created. The interactor1 and interactor2 slots are filled with the protein instances from text that matched the pattern. The output is a protein-protein interaction frame from the ontology, filled in with instances of the interactors found in the text. See Figure 1 for a step-by-step representation of this process.

IPS: steps of the protein-protein interaction extraction system. IPS, interaction pair subtask.

We used a variety of discovery procedures to build the patterns, including interview sessions with 'native speakers' (scientists with expertise in biology), and examination of corpora for pattern elements. The interviews were used to determine the set of predicates that described protein-protein interaction. Biologists were given a set of sentences in varying constructions (active, passive, and so on) and asked to determine whether plugging in the verbs from a list would result in a sentence denoting physical protein-protein interaction.

The corpus investigation uncovered frequently occurring n-grams and frequently occurring strings between protein mentions [46]. We used the BioCreative 2006 IPS, ISS, and IAS training data the PICorpus (available at [47]) [48, 49] material generated by Jörg Hakenberg [50] and Anna Veuthey and the Prodisen corpus (available at [51]).

The final grammar consisted of 67 rules. The patterns used in the IPS task are available at [44]. The grammar handles verbal and nominalization constructions, and various forms of conjunction, but not negation. We experimented with using unbounded wildcards, the results of which were higher recall but very low precision. We also experimented with the insertion of various parts of speech and phrase types between the protein slot pattern elements, with the result that the final pattern set includes adjective, adverb, and determiner POS elements, as well as various prepositional phrase types.


Baixe e imprima este artigo para seu uso acadêmico, de pesquisa e educacional.

Compre uma única edição de Ciência por apenas $ 15 USD.

Ciência

Vol 302, Issue 5644
17 October 2003

Ferramentas de artigo

Faça login para adicionar um alerta para este artigo.

By Ronald Jansen , Haiyuan Yu , Dov Greenbaum , Yuval Kluger , Nevan J. Krogan , Sambath Chung , Andrew Emili , Michael Snyder , Jack F. Greenblatt , Mark Gerstein

Ciência 17 Oct 2003 : 449-453


Leveraging polygenic enrichments of gene features to predict genes underlying complex traits and diseases

Genome-wide association studies (GWAS) are a valuable tool for understanding the biology of complex traits, but the associations found rarely point directly to causal genes. Here, we introduce a new method to identify the causal genes by integrating GWAS summary statistics with gene expression, biological pathway, and predicted protein-protein interaction data. We further propose an approach that effectively leverages both polygenic and locus-specific genetic signals by combining results across multiple gene prioritization methods, increasing confidence in prioritized genes. Using a large set of gold standard genes to evaluate our approach, we prioritize 8,402 unique gene-trait pairs with greater than 75% estimated precision across 113 complex traits and diseases, including known genes such as SORT1 for LDL cholesterol, SMIM1 for red blood cell count, and DRD2 for schizophrenia, as well as novel genes such as TTC39B for cholelithiasis. Our results demonstrate that a polygenic approach is a powerful tool for gene prioritization and, in combination with locus-specific signal, improves upon existing methods.

Declaração de interesses concorrentes

J.C.U reports compensation from consulting services with Goldfinch Bio and AVROBIO. R.S.F. is an employee of Vertex Pharmaceuticals. C.P.F. is an employee of Bristol Myers Squibb. J.O.M. reports compensation for consulting services with Cellarity. A.R. is a co-founder and equity holder of Celsius Therapeutics, an equity holder in Immunitas, and was an SAB member of ThermoFisher Scientific, Syros Pharmaceuticals, Neogene Therapeutics and Asimov until July 31, 2020. From August 1, 2020, A.R. is an employee of Genentech. J.N.H. served on the Scientific Advisory Board of and consults for Camp4 Therapeutics. E.S.L. serves on the Board of Directors for Codiak BioSciences and Neon Therapeutics, and serves on the Scientific Advisory Board of F-Prime Capital Partners and Third Rock Ventures he is also affiliated with several non-profit organizations including serving on the Board of Directors of the Innocence Project, Count Me In, and Biden Cancer Initiative, and the Board of Trustees for the Parker Institute for Cancer Immunotherapy. He has served and continues to serve on various federal advisory committees.

Declaração de Financiamento

This research was conducted using the UK Biobank Resource under project 31063. H.K.F. was funded by NIH grant DP5 OD024582 and by Eric and Wendy Schmidt. J.M.E. was supported by a Pathway to Independence Award (K99HG00917 and R00HG009917), the Harvard Society of Fellows, and the Base Research Initiative at Stanford University. J.M. and J.N.H. were supported by NIH grant R01DK075787. R.S.F. was supported by NHGRI NIH F31HG009850. J.O.M was supported by the Richard and Susan Smith Family Foundation, the HHMI Damon Runyon Cancer Research Foundation Fellowship (DRG-2274-16), the AGA Research Foundation's AGA-Takeda Pharmaceuticals Research Scholar Award in IBD AGA2020-13-01, the HDDC Pilot and Feasibility P30 DK034854, and the Food Allergy Science Initiative.

Declarações do Autor

Confirmo que todas as diretrizes éticas relevantes foram seguidas e todas as aprovações necessárias do IRB e / ou do comitê de ética foram obtidas.

Os detalhes do IRB / órgão de supervisão que forneceu a aprovação ou isenção para a pesquisa descrita são fornecidos abaixo:

Todo o consentimento necessário do paciente / participante foi obtido e os formulários institucionais apropriados foram arquivados.

Eu entendo que todos os ensaios clínicos e quaisquer outros estudos prospectivos de intervenção devem ser registrados com um registro aprovado pelo ICMJE, como ClinicalTrials.gov. Confirmo que qualquer estudo relatado no manuscrito foi registrado e a ID de registro do ensaio foi fornecida (observação: se postar um estudo prospectivo registrado retrospectivamente, forneça uma declaração no campo ID do ensaio explicando por que o estudo não foi registrado com antecedência) .

Eu segui todas as diretrizes de relatório de pesquisa apropriadas e carreguei a (s) lista (s) de verificação de relatório de pesquisa da Rede EQUATOR e outros materiais pertinentes como arquivos suplementares, se aplicável.


Assista o vídeo: Wybierz prawdziwe informacje dotyczące białek a białka to wielkocząsteczkowe związki naturalne (Dezembro 2021).