Em formação

Filtrar proteínas por domínio com InterProScan


Eu tenho um monte de proteínas (mais de 300.000) no formato fasta e quero encontrar aquelas que contêm um domínio específico (usando um acesso específico do InterPro).

Posso executar o InterPro nas proteínas e obter todos os domínios que elas têm, mas com tantas proteínas, isso vai levar muito tempo, e estou com pouco tempo. Gostaria de limitar minha pesquisa ao domínio específico que procuro, pois presumo que será consideravelmente mais rápido.

Existe uma maneira de fazer isso com a InterPro? Consultar os documentos não me dá nenhuma esperança. Se a InterPro não fosse capaz disso, seria possível com um único banco de dados como Pfam ou CDD?


1. Limite a digitalização do InterPro a um banco de dados específico:
Como você disse, sabe o domínio no qual está interessado, então você sabe em qual banco de dados ele está, então você pode limitar sua digitalização do InterPro a esse banco de dados, o que economizará muito tempo:
Em seguida, selecione apenas o banco de dados no qual o domínio está armazenado (por exemplo, ProSite)


2. Se o seu domínio estiver no banco de dados ProSite (o que provavelmente está), você pode usar o ScanProsite e limitar sua pesquisa a um domínio específico. Você pode fazer isso acessando o link acima e selecionando a última opção:
Em seguida, se você rolar um pouco para baixo, pode inserir um código de acesso ProSite do domínio / perfil em que está interessado:


3. Use varredura PFAM

Nunca usei isso antes, então não sei se isso seria mais rápido do que limitar a varredura do InterPro para o banco de dados PFAMa. Você pode, é claro, verificar isso.


4. Clustering suas sequências primeiro

Isso só funcionará se suas sequências forem parecidas. Dependendo do tamanho do domínio e da localização nas sequências, você pode agrupar todas as suas sequências primeiro (usando, por exemplo, CD-HIT). Em seguida, escolha uma sequência representativa para cada cluster e use-a para sujeitar a sua análise. Por exemplo, quando você sabe que seu domínio está sempre no final da sequência, você apara a primeira parte de cada sequência e agrupa as proteínas em todo o comprimento com 100% de identidade. Se você determinar se cada cluster contém o domínio ou não (com base na sequência representativa, que o CD-HIT fornecerá), poderá atribuir esses resultados às sequências que constituem cada cluster. Mas é claro que isso só irá reduzir o espaço de pesquisa sempre que suas sequências se parecerem (ou se as partes forem)


5. Pesquisa MOTIF usando perfil baixado ou HMM

A pesquisa MOTIF permite que você faça pesquisas em bancos de dados servidores, como PFAM, CDD, PROSITE etc. Mais interessante, também permite que você especifique seu próprio perfil ou HMM.
Assim, você pode baixar o HMM do domínio desejado em, por exemplo, PFAM ou o perfil de domínio do Prosite.


6. Baixar HMM e usar HMMscan (ou HMMER)
Isso foi sugerido por @ seven11, você pode pesquisar seu domínio HMM no banco de dados PFAM e usar o HMMscan.

Conclusão


Se você estiver realmente interessado em um domínio. Acho que baixar a ferramenta de verificação ProSite seria sua melhor opção. Notavelmente, todas as ferramentas da web que mencionei acima estão disponíveis como ferramentas de linha de comando, e é disso que você precisa quando tem essa quantidade de sequências. De volta à verificação do ProSite, você pode fazer o download aqui e não se esqueça do README. Conforme mencionado no leia-me:

Entrada / Saída: -e: especifique o ID ou AC de uma entrada no arquivo de sequência -o: especifique um formato de saída: $ formatos_string -d: especifique um arquivo prosite.dat -p: especifique um padrão ou o AC de um prosite motivo -f: especifica um motivo AC para escanear junto com todos os seus motivos de pós-processamento releatados (mas mostra apenas ocorrências de motivo especificadas)

Você pode usar o-ppara especificar o acc do padrão desejado.

Estou muito ocupado, então digitei este muito rápido, por favor, me avise quando algo não estiver claro.


Pesquisa de sequência¶

Uma sequência pode ser enviada no formato FASTA na área de texto dedicada ou enviando um arquivo fasta. O "Opções avançadas”Permite que os usuários selecionem os bancos de dados de membros do InterPro de interesse para pesquisar (por padrão, todos são selecionados). A busca de sequência é realizada usando o software InterProScan. Enquanto a pesquisa de sequência está em execução, o usuário pode continuar a navegar pelo site, outras guias do navegador ou aplicativos e receberá uma notificação pop-up quando o trabalho for concluído (isso requer que as notificações do navegador sejam permitidas).

Resultados da pesquisa de sequência¶

Os resultados de uma pesquisa de sequência de proteínas estão disponíveis no Resultados guia no menu de navegação em Suas pesquisas InterProScan seção. Esta página exibe as pesquisas de sequência de proteínas que você realizou nos últimos sete dias, com a mais recente exibida no topo. A coluna de status indica se a pesquisa foi concluída ou não (marca de seleção verde / pesquisa), se a pesquisa foi salva localmente (os resultados ainda estarão disponíveis mesmo após o limite de sete dias configurado nos servidores InterPro), ou se os resultados foram importados (símbolo de arquivo). Clicar no texto na coluna de resultados abre uma página onde os resultados são resumidos em um visualizador de sequência de proteína (informações mais detalhadas são fornecidas para o visualizador de sequência de proteína).

Pesquisas executadas anteriormente podem ser importadas digitando o ID do trabalho no Importar caixa de texto, para pesquisas realizadas nos últimos sete dias em nossos servidores, ou enviando um arquivo de saída InterProScan em formato JSON, o trabalho é adicionado à tabela de resultados. Se a segunda opção for escolhida e o InterProScan tiver sido executado usando sequências de nucleotídeos, um resultado de trabalho é criado para cada Estrutura de Leitura Aberta (ORF) e ORFs da mesma sequência de nucleotídeos são agrupados de acordo. Este recurso de importação pode ser usado por usuários que requerem formatos de saída gráfica InterProScan para publicações e outros usos.

Resumo dos trabalhos de buscas em sequência. ¶

Exemplo de visualizador de sequência de proteínas conforme exibido na página de resultados da pesquisa. ¶

Na página de resultados da pesquisa, algumas informações gerais sobre a sequência enviada são fornecidas, seguidas pela associação prevista da família de proteínas do InterPro, quando disponível ([1] na figura acima). A pesquisa pode ser salva clicando no Salvar no navegador botão. O status será alterado para “Arquivo importado”. Isso significa que os resultados estarão disponíveis dentro do limite normal de sete dias no navegador e na máquina em que o salvamento foi feito, e só serão excluídos se o usuário excluir o trabalho clicando no ícone de lixeira.

A sequência enviada é mostrada em seu comprimento total no topo do visualizador de sequência de proteínas (barra cinza) [2]. A barra roxa / cinza abaixo indica a hidrofobicidade prevista dos resíduos da sequência [3]. Isso é seguido abaixo por entradas de InterPro e correspondências de assinaturas, exibidas em categorias classificadas por tipos de entrada de InterPro. Cada barra colorida representa um domínio, família de proteínas ou local importante que foi correspondido a parte ou a todo o comprimento da sequência de proteína enviada.

A barra colorida superior representa a entrada do InterPro [4a, 5a].

Diretamente abaixo da entrada do InterPro, barras coloridas adicionais exibem as assinaturas do banco de dados de membros que contribuíram para essa entrada do InterPro [4b, 5b].

No exemplo acima, quatro entradas do InterPro (1 família e 3 entradas de domínio) foram encontradas correspondendo à sequência enviada. A primeira entrada do InterPro é para uma família de proteínas [4a], contendo uma assinatura de banco de dados membro, neste caso da Prosite (PR01022) [4b]. As três correspondências InterPro a seguir são domínios. A entrada superior do domínio InterPro [5a] contém assinaturas de 3 bancos de dados membros (Pfam, CDD e Prosite) [5b], que representam o mesmo domínio. Os dois domínios InterPro restantes contêm uma assinatura de banco de dados membro.


IMPLEMENTAÇÃO DO SERVIDOR WEB

O servidor da web d-Omix é organizado em cinco seções: Guia de dados para envio de dados e quatro serviços, incluindo guia em árvore para evolução comparativa de proteínas com base em distâncias de domínio Guia de gráfico para combinação de domínio comparativa com base em gráficos de domínio Guia de alinhamento para proteomas comparativos com base na arquitetura de domínio alinhamentos e guia Interação para construir uma rede de interação de proteína putativa a partir de DDIs.

Envio de dados

O servidor da web d-Omix requer um arquivo InterProScan (26) em formato bruto como entrada. Na guia Dados, os usuários podem fazer upload de vários arquivos e mesclar alguns deles para as análises comparativas entre conjuntos de proteínas (por exemplo, entre vias no mesmo organismo ou entre organismos para a mesma via). Normalmente, os arquivos InterProScan gerados a partir dos proteomas de organismos modelo com sequências de genoma estarão disponíveis (por exemplo, TAIR8_all.domains of Arabidopsis thaliana (Arabidopsis) de http://www.arabidopsis.org/, all.interpro do TIGR Rice versão 6 de http://rice.Plantbiology.msu.edu/). Os usuários com apenas sequências de proteínas também podem preparar o arquivo InterProScan usando o recurso ‘Preparar arquivo InterProScan’. A Figura 1A mostra a guia Dados com Exemplo 1 conjuntos de dados de proteínas de Arabidopsis e proteomas de arroz que estão relacionados por DAs às três proteínas de processamento de microRNA em Arabidopsis: DCL1 (AT1G01040), AGO1 (AT1G48410) e DRB4 (AT3G62800).

Capturas de tela da interface da web do d-Omix. (UMA) Guia de dados com Exemplo 1 conjuntos de dados. (B) A árvore baseada em DA gerada a partir do mergefile entre conjuntos de dados TAIR8 e TIGR6 em Exemplo 1. (C) Os resultados de alinhamento entre os conjuntos de dados TAIR8 e TAIR8_same que são o mesmo conjunto de proteínas de Arabidopsis e entre Arabidopsis como fonte- (TAIR8) e arroz como alvo- (TIGR6) conjuntos de dados. (D) O gráfico de domínio construído a partir do mergefile no Exemplo 1. O nó destacado no gráfico de domínio corresponde à linha destacada na tabela de resumo à esquerda. As cores das bordas do gráfico indicam diferentes fontes de conjuntos de proteínas. (E) Uma rede de proteína putativa de dados TAIR8_select com os DDIs detalhados entre as proteínas DCL1 (AT1G01040.1) e DRB4 (AT3G62800.1).

Capturas de tela da interface da web do d-Omix. (UMA) Guia de dados com Exemplo 1 conjuntos de dados. (B) A árvore baseada em DA gerada a partir do mergefile entre conjuntos de dados TAIR8 e TIGR6 em Exemplo 1. (C) Os resultados de alinhamento entre os conjuntos de dados TAIR8 e TAIR8_same que são o mesmo conjunto de proteínas de Arabidopsis e entre Arabidopsis como fonte- (TAIR8) e arroz como alvo- (TIGR6) conjuntos de dados. (D) O gráfico de domínio construído a partir do mergefile no Exemplo 1. O nó destacado no gráfico de domínio corresponde à linha destacada na tabela de resumo à esquerda. As cores das bordas do gráfico indicam diferentes fontes de conjuntos de proteínas. (E) Uma rede de proteína putativa de dados TAIR8_select com os DDIs detalhados entre as proteínas DCL1 (AT1G01040.1) e DRB4 (AT3G62800.1).

Todos os serviços do d-Omix são compostos de conjuntos de dados de entrada selecionados e / ou mesclados da guia Dados e onze ferramentas de busca de domínio incorporadas ao InterProScan. Os usuários podem escolher apenas alguns conjuntos de dados e ferramentas de pesquisa de domínio para uma execução específica. Uma análise para um grande conjunto de dados será agrupada. Os resultados de todos os serviços serão apresentados como uma série de guias de conjuntos de dados escolhidos para a ferramenta de pesquisa destacada. Os usuários podem alternar a representação entre o ID do domínio de proteína (por exemplo, PF03368) e AC (por exemplo, DUF283) se ambos estiverem disponíveis nos arquivos de dados de entrada. O clique em um domínio de proteína será vinculado ao seu banco de dados online correspondente.

Evolução comparativa de proteínas

A guia Árvore permite que os usuários explorem ancestrais comuns, conservação ou DAs específicos de linhagem entre as proteínas. Ele usa PHYLIP (27) para construir uma árvore filogenética para um conjunto de proteínas selecionado a partir de uma matriz de distância de pontuações DA calculada a partir de todos os pares de proteínas. CLUSTALW (28) também é incorporado para permitir a construção de árvore filogenética alternativa com base em alinhamentos de sequência global. A árvore baseada em DA complementa a árvore baseada em sequência. Ele revela o vizinho mais próximo para cada arquitetura de domínio e categoriza de forma eficiente proteínas de múltiplos domínios que estão distantemente relacionadas ou contendo "domínios promíscuos" (18). Domínios promíscuos como PF00017 (SH2) e PF00400 (WD40) são pequenos, versáteis, tipicamente repetitivos e ocorrem em proteínas com uma variedade de funções (9). Os usuários podem comparar árvores geradas a partir de diferentes ferramentas de pesquisa de domínio (por exemplo, hmmpfam, hmmsmart, etc.) ou matrizes de distância (por exemplo, com base em DA, com base em sequência). Proteínas com DAs iguais ou semelhantes serão agrupadas. As cores das proteínas nas árvores indicam seus conjuntos de dados de origem. Os usuários podem exportar árvores em formato SVG, JPG, BMP ou NEWICK e editar a árvore usando PhyloWidget (29). A árvore baseada em DA construída a partir do mergefile conjunto de dados em Exemplo 1 (Figura 1B) revela a conservação das proteínas Dicer e Argonaute entre a Arabidopsis e o arroz. Os conjuntos agrupados são categorizados por seus DAs detalhados que podem ser causados ​​por inserção / exclusão de domínio, sugerindo possíveis modificações funcionais. Além disso, sugere co-ocorrências específicas dos domínios PAZ (PF02170), DUF1785 (PF08699) e Piwi (PF02171) no agrupamento de proteínas Argonaute e os domínios PAZ e DUF283 nas proteínas Dicer.

Proteoma comparativo

A guia Alinhamento permite que os usuários comparem a similaridade e explorem a diversificação de proteínas com base em arquiteturas de domínio dentro e entre conjuntos de dados. Ele calcula pontuações DA para todos os pares de proteínas entre os conjuntos de dados de origem e de destino. É análogo ao BLAST com comparação baseada em DA. Os usuários podem limitar os resultados do alinhamento usando a pontuação DA e limitar o acerto, pois a pontuação DA mais baixa representa os DAs mais semelhantes. Os resultados do alinhamento são resumidos em uma tabela, onde cada linha mostra um nome de proteína com seu DA do conjunto de dados de origem e o número de proteínas atingidas com pontuações DA satisfatórias de cada conjunto de dados de destino. O número de acertos sugere conservação de DA, proteínas com funções redundantes ou relacionadas e possíveis anotações para proteínas desconhecidas. Para explorar os alinhamentos em detalhes, os usuários podem clicar para obter mais informações sobre o número de acerto. A Figura 1C mostra os resultados de alinhamento dentro do mesmo conjunto de proteínas de Arabidopsis e entre Arabidopsis como fonte - e arroz como alvo - conjuntos de dados. Os resultados com o DA exatamente correspondente (pontuação DA = 0) mostram que a maioria das proteínas de Arabidopsis atingiu algumas proteínas de arroz com o mesmo DA. Existem 11 e 22 proteínas respectivamente em Arabidopsis e arroz tendo exatamente o mesmo DA da proteína AGO1 (AT1G48410) em Arabidopsis.

Combinação de domínio comparativo

A guia Graph constrói gráficos de domínio (15) que permitem aos usuários (i) investigar a versatilidade e abundância de domínios de proteínas e pares de domínios, (ii) explorar a modularidade dos domínios de proteínas com base no coeficiente de agrupamento (30) e (iii) comparar compartilhados e pares de domínio específicos em conjuntos de dados. Os resultados incluem uma tabela de resumo com versatilidade classificável e abundância de todos os domínios que ocorrem em sequências de proteínas de um conjunto de dados selecionado e ferramenta de pesquisa de domínio. O clique em um domínio na tabela de resumo destacará seu nó e vizinhos correspondentes (domínios co-presentes) no gráfico de domínio à direita com o coeficiente de agrupamento. Domínios em um pequeno cluster com coeficiente de agrupamento próximo a 1 tendem a ter alta homogeneidade funcional (17). O número de vizinhos de um domínio no gráfico representa a versatilidade do domínio. A maioria dos domínios versáteis tendem a ser centros funcionais em diferentes aspectos biológicos (15, 16). O clique em um número de abundância co-presente na tabela de resumo ou em um rótulo de borda no gráfico fornecerá sua lista de proteínas correspondente para o par de domínio. Uma seta em um gráfico de domínio com direção indica a presença de ambos os domínios em uma ordem consecutiva de N- a C- terminais. Os usuários podem salvar gráficos de domínio no formato SVG, JPG, BMP ou DOT e explorar um grande gráfico usando ZGRViewer (31) com recursos suaves de zoom. O gráfico de domínio construído a partir do mergefile no Exemplo 1 é mostrado na Figura 1D. As funções do domínio DUF283 e seus vizinhos (por exemplo, PAZ, dsrm) tendem a ser homogêneas. Isso corresponde ao relatório anterior de que o domínio DUF283 contém uma dobra de ligação ao RNA de fita dupla e envolve a seleção de siRNA / miRNA (32). A co-presença dos domínios DUF1785, Piwi e PAZ em ambas as proteínas de Arabidopsis e arroz sugere suas funções relacionadas no silenciamento de RNA de AGO1.

Construindo interação de proteína putativa

A guia Interação permite que os usuários investiguem possíveis PPIs para um conjunto de proteínas de entrada. Ele constrói uma rede de interação de proteínas putativa com base em DDIs de DOMINE (33). Cada borda entre um PPI putativo representa um DDI existente entre as duas proteínas, onde sua cor denota o nível de confiança DDI de DOMINE. Os usuários podem filtrar a rede com base nesses níveis de confiança. O detalhe do alinhamento DA à direita mostra as DAs de todas as proteínas participantes na rede à esquerda. O clique em um PPI na rede limitará o detalhe do alinhamento DA à direita para os DAs das duas proteínas do PPI. O clique em um domínio com os DDIs entre as duas proteínas destacará o domínio e seus parceiros de interação. A guia DDI lista todos os DDIs de origem da rede de interação de proteína putativa atual. Os usuários podem filtrar a rede para se concentrar em um domínio específico de interesse e seus DDIs. Todos os PPIs na rede de proteínas são listados na guia PPI e atualizados interativamente de acordo com as condições de filtragem. O maior número de DDIs com alto nível de confiança entre um par de proteínas sugere uma chance maior de interação de proteínas. Todos os DDIs de um PPI serão mostrados na guia DDIofPPI quando o número de todos os DDIs for clicado. Semelhante aos gráficos de domínio, os usuários podem enviar a rede de proteína atual para ZGRViewer para recursos de zoom suave. A Figura 1E mostra uma rede de proteína putativa de proteínas selecionadas de Arabidopsis (conjunto de dados TAIR8_select em Exemplo 1) em que cada proteína é o representante de um cluster ou grupo de proteínas com o mesmo DA resultante da árvore baseada em DA e do alinhamento de DA. O possível PPI entre as proteínas DCL1 (AT1G01040.1) e DRB4 (AT3G62800.1) vem de cinco DDIs de DOMINE, onde três deles mostram alto nível de confiança de DDI. Foi relatado que DRB4 e HYL1 (AT1G09700.1) interagem com DCL4 (AT5G20320.1) e DCL1, respectivamente (34). DCL4 tem o mesmo DA de DCL1 enquanto HYL1 tem o mesmo DA de DRB4. Embora um PPI putativo possa não ter os parceiros participantes exatos, ele sugere e / ou restringe possíveis parceiros e seus domínios relacionados para a interação.


Conclusão

Neste artigo, apresentamos um pipeline de clonagem HTP eficaz e uma estratégia de predição de limite de domínio / domínio (DDBP). Com este pipeline, quatro placas de 96 poços de genes poderiam ser clonadas em um vetor de expressão em sete dias.Depois de integrar a estratégia de predição de limite de domínio / domínio, a taxa de sucesso de purificação e cristalização mostrou aumentar dramaticamente. Além disso, este pipeline de clonagem, combinado com o nosso pipeline de expressão de proteína recombinante HTP e a plataforma de triagem de cristal, constitui uma plataforma completa para estrutura genômica / proteômica. No próximo estágio, vamos melhorar a precisão da análise de bioinformática de domínio e limites de domínio e automatizar todos os procedimentos de bioinformática.


Opções de acesso

Obtenha acesso completo ao diário por 1 ano

Todos os preços são preços NET.
O IVA será adicionado mais tarde no check-out.
O cálculo do imposto será finalizado durante o checkout.

Obtenha acesso limitado por tempo ou ao artigo completo no ReadCube.

Todos os preços são preços NET.


Filtrar proteínas por domínio com InterProScan - Biologia

Sua cesta está vazia no momento. i & ltp> Ao navegar por diferentes proteínas UniProt, você pode usar a 'cesta' para salvá-las, para que possa voltar para encontrá-las ou analisá-las mais tarde. & ltp> & lta href = '/ help / basket' target = '_ top'> Mais. & lt / a> & lt / p>

Selecione o (s) item (ns) e clique em "Adicionar à cesta" para criar sua própria coleção aqui
(Máximo de 400 entradas)

Pesquisas de similaridade de sequência

Última modificação em 30 de abril de 2021

Selecione os Explosão guia da barra de ferramentas para executar uma pesquisa de similaridade de sequência com o programa BLAST (Basic Local Alignment Search Tool):

  1. Insira uma proteína ou sequência de nucleotídeos (sequência bruta ou formato fasta) ou um identificador UniProt no campo de formulário.
  2. Clique no Explosão botão.

Os seguintes tipos de identificadores UniProt são suportados:

P00750Entrada UniProtKB
P00750-2Sequência de isoforma de entrada UniProtKB
P00750 [1-20]Parte da sequência de entrada UniProtKB, de seu 1º ao 20º resíduo de aminoácido (inclusive)
A4_HUMANNome de entrada UniProtKB
UPI0000000001Entrada UniParc
UniRef100_P00750Entrada UniRef

Se você selecionar o Explosão guia da barra de ferramentas de uma página de entrada UniProtKB, UniRef ou UniParc, a sequência atual é pré-preenchida no formulário.


Domínios de proteína, classificação e filogenia

Use conjuntos de dados padrão para comparar a classificação de proteínas por diferentes métodos de aprendizado de máquina.

Pesquise informações sobre taxonomia numérica de todas as estruturas conhecidas no Protein Data Bank (PDB).

Realizar classificação de proteínas, análise de expressão e triagem de função SNP.

Pesquise uma ampla gama de dados e informações sobre proteínas por meio deste banco de dados biológico unificado.

Detecte ortólogos para análise de genoma funcional.

Recursos para análise filogenômica estrutural.

Detecte domínios estruturais e funcionais em sequências de proteínas.

Identifique o domínio conservado em uma sequência de proteína.

Identifique o domínio conservado em uma sequência de proteína.

A comparação de aglomerados entre árvores filogenéticas facilitada.

Uma ferramenta de recuperação para arquitetura de domínio de proteína conservada.

Explore a hierarquia da estrutura do domínio da proteína.

Identifica automaticamente os domínios estruturais da proteína, dadas as coordenadas tridimensionais de uma proteína.

Um servidor de predição de domínio de proteína preciso.

Detecta domínios de proteínas distantemente relacionados.

Analise árvores filogenéticas.

Identifique sequências de domínio de proteína homóloga.

Pesquise informações sobre a mudança funcional dentro da família de proteínas.

Pesquise e investigue sequências de motivos proteicos.

Identifique domínios, padrões, motivos, famílias de proteínas e locais funcionais da família de proteínas (e DNA).

Pesquisar clusters de grupos ortólogos de proteínas (COGs) para sete (quase) genomas eucarióticos completos.

Um banco de dados de alinhamentos de estrutura construídos manualmente para pares de domínio duplicados.

Pesquise matrizes de pontuação específicas de posição para um grande número de sequências e famílias estruturais de domínios de proteínas.

Um serviço integrado dedicado à análise de sequências de proteínas.

Pesquise dados de taxonomia para o conjunto completo de espécies representadas no SWISS-PROT, bem como aquelas armazenadas no NCBI.

Navegue por genomas completos em vários clados.

Um banco de dados de marcadores genômicos ortólogos para a filogenética placentária de mamíferos.

Pesquise alinhamentos de várias sequências e árvores filogenéticas cobrindo muitos domínios de proteínas comuns.

Navegue e pesquise proteínas com base em suas funções biológicas.

Um programa para análise de correlação canônica de dados multivariados e continuamente avaliados de espécies biológicas.

Calcular filogenias de máxima verossimilhança a partir de sequências de DNA e proteínas.

Uma ferramenta para auxiliar a análise filogenética de alto rendimento.

Realize análises filogenéticas de pipeline de fácil utilização de proteínas ou sequências de DNA.

Reconhecer e classificar os receptores acoplados à proteína G (GPCRs) no nível familiar.

Pesquise impressões digitais de proteínas.

Encontre informações sobre as relações entre proteínas.

Um banco de dados abrangente de receptores de reconhecimento de padrões e seus ligantes.

Uma coleção abrangente de domínios e famílias de proteínas, representados como alinhamentos de várias sequências e como modelos de Markov ocultos de perfil.

Oferece uma visão do GenBank sob medida para a filogenética molecular.

Phylemon é um servidor web que integra um conjunto selecionado de mais de 20 ferramentas diferentes dos programas autônomos mais populares de análise filogenética e evolutiva.

Use para encontrar informações sobre características relacionadas.

Visualize e analise a distribuição filogenética de um ou mais domínios eucarióticos.

Encontre informações sobre os parâmetros metabólicos das espécies a partir de dados filogenéticos.

Use este banco de dados para ver onde na evolução algumas linhagens filogenéticas foram iniciadas e sobre quais espécies elas estavam contidas.

Calcula várias métricas de estrutura de comunidade filogenética e semelhança de traços dentro das comunidades.

Um serviço da web dedicado a reconstruir e analisar relações filogenéticas entre sequências moleculares.

Um programa de linha de comando que executa análises ou modificações simples em árvores e matrizes de dados.

Pesquise e analise famílias de domínio de proteínas.

Uma ferramenta para a construção de grandes árvores filogenéticas com base em distâncias de perfil.

Encontre informações sobre sequências de proteínas relacionadas.

Encontre a homologia da estrutura local.

Classifique proteínas usando agrupamento hierárquico automático do banco de dados de proteínas SWISS-PROT.

Encontre informações sobre as especificidades das proteínas que se ligam ao RNA.

Pesquise informações sobre domínios catalíticos de enzimas.

Classifique as regiões de ligação às proteínas.

Identifique os locais de interação do domínio SH3 putativos nas sequências de proteínas.

Pesquise a matriz de similaridade pré-calculada de sequências de proteínas.

Use esta ferramenta para identificar e anotar domínios de proteínas.

Analise e compare famílias de proteínas homólogas em um banco de dados de alinhamento de sequência múltipla de estrutura conhecida ou desconhecida.

Classifique uma proteína em família funcional a partir de sua sequência primária.

Identifique a família de proteínas, domínios, padrões, motivos, famílias de proteínas e locais funcionais.

Conduza a sequência da proteína e a análise da estrutura usando um conjunto de ferramentas de software.

Prever a estrutura e função da proteína com base na sequência da proteína.

Pesquise por sequências de domínio de proteínas, estruturas, funções, etc.

Partição de todo o espaço da sequência da proteína por um procedimento totalmente automático.

Pesquise informações com curadoria de famílias de proteínas com base em modelos de Markov ocultos.

Visualize a estrutura e a filogenia de domínios de proteínas.

Procure por mosaicismo filogenético entre um ou mais alinhamentos múltiplos de sequências de DNA ou proteína e sequências não alinhadas adicionais.

Uma ferramenta de captura de árvore filogenética.

Encontre informações sobre os domínios da proteína na função, interação e evolução da proteína.

Pesquise informações integradas e abrangentes sobre as relações familiares e características estruturais / funcionais das proteínas.

O Sistema de Bibliotecas de Ciências da Saúde apóia as Ciências da Saúde da Universidade de Pittsburgh.

& copy 1996-2014 Health Sciences Library System, University of Pittsburgh. Todos os direitos reservados.
Entre em contato com o webmaster


Conclusões

Relatamos aqui dois novos genomas de Amoebophrya spp. (A25 e A120) parasitas, linhagem irmã de Dinophyceae. Embora essas duas cepas sejam filogeneticamente distantes demais para fornecer informações significativas sobre o parasitismo e a especificidade do hospedeiro [21], elas são essenciais para a compreensão da evolução dos miozoários. Ambas as cepas compartilham muitas semelhanças com outros dinoflagelados no nível do genoma: seus cromossomos parecem estar condensados ​​na maioria das vezes (apesar da ausência de um dinocário típico) e permanecem ligados à membrana nuclear [16] eles codificam para DVNPs [7] alguns de seus transcritos maduros contêm um motivo DinoSL truncado encontrado em outros dinoflagelados [12], resultante do trans-splicing de pré-mRNAs, eles compartilham mais genes ortólogos com Dinophyceae do que com qualquer outro miozoário. Contudo, Amoebophrya diferem das Dinophyceae por várias características genômicas, sendo as mais proeminentes a compactação de seus genomas, a perda de seus plastídios e a redução de suas mitocôndrias. Por exemplo, a perda concomitante de todos os complexos de desidrogenase não tem precedente em miozoários retendo um TCA funcional. Esta via metabólica essencial pode ainda persistir graças à retenção de vias alternativas também detectadas em linhagens irmãs e provavelmente herdadas de um ancestral miozoário. O efeito cumulativo de um pequeno número de elementos transponíveis, juntamente com íntrons curtos e regiões intergênicas, e o número limitado de famílias de genes contribuem para a compactação do Amoebophrya genomas quando comparados a outros dinoflagelados. Um genoma compacto e a forte sintenia observada entre as duas cepas sugerem uma restrição evolutiva de longo prazo na organização dos cromossomos dentro do Amoebophrya clado em contraste com o que foi observado em Symbiodiniaceae. Enquanto isso, os baixos valores de similaridade de sequência de proteínas estão potencialmente ligados ao parasitismo, já que este modo de vida freqüentemente coincide com restrições funcionais relaxadas levando a taxas de substituição mais altas [65]. Os locais de emenda não canônicos, a grande diversidade de tamanho e os motivos DR tornam o Amoebophrya intronadores (IEs) um novo tipo de elemento repetitivo para o qual o mecanismo de splicing deve ser distinto da máquina de splicing eucariótica onipresente. Amoebophrya Os IEs podem formar estruturas secundárias de haste-alça putativas que podem estar envolvidas em sua mobilização. Esses mecanismos são comuns a ambos Amoebophrya as cepas devem ter precedido sua divergência, permitindo a retenção e proliferação dos IEs. Tomados em conjunto, nossos resultados sugerem que o sequenciamento de Amoebophrya genomas e transcriptomas são necessários para a exploração da origem e disseminação de NCIs e IEs, e também para investigar seu impacto potencial na evolução de proteínas. No geral, genomas adicionais bem anotados de outros Syndiniales basais lançarão luz sobre os mecanismos subjacentes às organizações genômicas atípicas e contrastantes observadas em dinoflagelados, isto é, de genomas altamente compactos restritos a gigantismo relaxado.


Filtrar proteínas por domínio com InterProScan - Biologia

    O modelo de domínio deve ser: (1) o domínio NCBI curado com a melhor classificação (melhor valor E) ou (2) o modelo de domínio com a melhor classificação de uma fonte externa, se não houver um domínio com curadoria de NCBI que atenda todos os critérios para um hit específico.

Se vários modelos de domínio curados pelo NCBI se alinharem a um determinado intervalo em uma sequência de proteína de consulta e passarem pelos dois critérios acima, o modelo de pontuação mais alta será a ocorrência específica e os outros modelos serão listados como ocorrências não específicas. O modelo de pontuação mais alta é, em geral, aquele com o melhor valor E, mas se dois ou mais modelos têm o mesmo valor E, então sua pontuação de bits é usada para desempatar. Por exemplo, os resultados da pesquisa de CD para a sequência de proteína NP_229631 NP_229631 mostram vários domínios com curadoria de NCBI alinhados à mesma região da consulta. Os domínios com curadoria de NCBI mais bem classificados são cd05297 (GH4_alpha_glucosidase_galactosidase) e cd05197 (GH4_glycoside_hydrolases), ambos os quais têm um valor E de 2e-169 (em 08 de março de 2010). No entanto, a pontuação de bits para a ocorrência de cd05297 (590,69) é maior do que a pontuação de bits para cd05197 (590,65), portanto, cd05297 é exibido nos resultados da pesquisa de CD como a ocorrência específica e cd05197 é exibido como uma ocorrência não específica. No caso improvável de que a pontuação de bits seja insuficiente para desempatar, apenas um acerto é escolhido aleatoriamente para ser um acerto específico. (Observação: a pontuação de bits de um resultado do CD-Search para um modelo de domínio pode ser vista clicando no sinal de mais (+) à esquerda do seu número de acesso na tabela "Lista de acessos do domínio" na página de resultados do CD-Search . Além disso, a pontuação de bits do limite específico do domínio para um domínio curado pelo NCBI é exibida na caixa de estatísticas da página de resumo do CD do modelo de domínio.)

Em contraste, algumas sequências de consulta de proteína podem ter vários resultados para domínios com curadoria do NCBI e nenhum deles aparecerá como um resultado específico. Isso é verdade nos resultados de CD_Search para a sequência de proteína NP_486772 (em 08 de março de 2010). Nesse caso, cd01662 (Ubiquinol oxidase I) é o domínio com curadoria do NCBI com melhor classificação (melhor valor E), no entanto, não é mostrado como um acerto específico porque a pontuação de bits desse acerto não atinge ou excede o domínio- limite específico. Os resultados para dois outros domínios com curadoria do NCBI, cd01663 (Cyt_c_Oxidase_I) e cd00919 (Heme_Cu_Oxidase_I), têm pontuações de bits que atendem ou excedem os limites específicos do domínio para esses modelos, mas não são listados como resultados específicos porque nenhum deles é o domínio com curadoria do NCBI com melhor classificação (isto é, melhor valor E).

Para ser um acerto específico, um modelo de domínio deve: (a) ser o modelo de domínio com melhor classificação * E * (b) ter uma pontuação de bits que atenda ou exceda a pontuação limite específica do domínio. A combinação dos dois critérios reduziu o número de chamadas de falsos positivos.

  • Existe um alto nível de confiança de que a sequência da proteína de consulta é um membro da família de proteínas representada pelo modelo de domínio e tem a função específica anotada nesse domínio.
  • Se a sequência da consulta residir no banco de dados da proteína Entrez, a função inferida é anotada como "região" no registro da sequência da proteína, mostrando o nome do modelo de domínio de alta pontuação e sua extensão de base. Se a ocorrência específica for para um modelo de domínio curado por NCBI que inclui recursos conservados (resíduos envolvidos na catálise ou ligação), esses são anotados no registro de sequência de proteína como "sites". Se o hit específico for para um modelo de domínio de uma fonte externa e o modelo pertencer a uma superfamília cujo representante é um domínio curado por NCBI que tem tais anotações, então os recursos / sites conservados que foram anotados no representante da superfamília serão mapeado para a sequência de consulta.
  • A função geral da superfamília do domínio pode ser inferida para a sequência da proteína de consulta, mas a função específica é menos certa.
  • Se a sequência da proteína de consulta residir no banco de dados da proteína Entrez, o nome e a função geral da superfamília do domínio são anotados no registro da sequência da proteína (como uma "região"). O nome e o texto da função são derivados do modelo de domínio que foi selecionado como o representante da superfamília. As características conservadas ("locais") também são anotadas no registro da sequência da proteína se o representante da superfamília for um domínio curado pelo NCBI que tenha tais anotações.

Como posso ver vários alinhamentos de sequência com minha sequência de consulta incorporada?

Visualização de alinhamento incluindo estruturas 3D

Se você exibir uma visualização de alinhamento que inclui uma sequência de consulta, também poderá visualizar o mesmo alinhamento no programa Cn3D pressionando o botão Visualização da Estrutura. (A instalação do Cn3D leva apenas alguns minutos e um tutorial descreve os recursos e funções do programa. O programa deve ser instalado para que o botão Structure View funcione.)

Se uma sequência de proteína de uma estrutura 3D for incluída entre as sequências usadas para curar um modelo de domínio, o Cn3D mostrará a estrutura 3D também. Se o modelo de domínio incluir sequências de mais de uma estrutura 3D, todas as estruturas serão exibidas, sobrepostas umas às outras, e suas sequências serão exibidas no alinhamento de sequência múltipla.

Cn3D oferece coloração específica de coluna por conservação de sequência quando invocado com múltiplas visualizações de alinhamento. Este é um recurso conveniente para estudar a conservação de sequência dentro de um alinhamento de CD e descobrir como a consulta alinhada se ajusta aos padrões existentes de conservação e variabilidade.

Quanto tempo tenho que esperar pelos resultados da pesquisa de CD?

O CD-Search é executado em paralelo à proteína BLAST: & # 160Quando as solicitações de pesquisa acabam no BLAST-Queue?

Posso executar o RPS-BLAST localmente?
Como posso fazer meu próprio banco de dados de pesquisa para pesquisas locais?
Como posso obter o banco de dados de pesquisa CDD do NCBI para pesquisas locais?

Sim, você pode executar o RPS-BLAST localmente. Uma versão independente do RPS-BLAST é fornecida com os executáveis ​​BLAST disponíveis no site FTP do NCBI e também está disponível como parte da distribuição do kit de ferramentas NCBI (consulte ftp://ftp.ncbi.nih.gov/toolbox).

Diretórios separados no site FTP fornecem documentos que descrevem cada um dos aplicativos BLAST, incluindo documentos para RPS-BLAST e um aplicativo Formatrpsdb que podem ser usados ​​para construir bancos de dados de pesquisa que são formatados adequadamente para uso com RPS-BLAST.

Bancos de dados de pesquisa pré-formatados, que já foram processados ​​pelo Formatrpsdb, estão disponíveis no site FTP do CDD. Um arquivo README no site FTP do CDD também fornece mais detalhes sobre a personalização de bancos de dados de pesquisa.

O que explica as diferenças nos resultados da pesquisa gerados pelo serviço da web CD-Search e pelo RPS-BLAST autônomo?

Existem várias diferenças entre o serviço da web CD-Search e o RPS-BLAST autônomo, conforme distribuído pelo NCBI e usado com bancos de dados de pesquisa conforme distribuídos pelo grupo CDD.

O servidor da web é otimizado para o uso mais comum do recurso CDD, que é anotar sequências de proteínas com domínios de proteínas claramente identificados e bem compreendidos, e também é otimizado para velocidade a fim de acomodar um alto volume de pesquisas.

Em contraste, o RPS-BLAST autônomo não emprega o parâmetro de tamanho de banco de dados assumido constante. Portanto, quando você usa um conjunto de pesquisa baixado do site de FTP do CDD, o tamanho do banco de dados pode ser diferente daquele usado pelo serviço da web do CD-Search e o mesmo resultado de sua proteína de consulta para um modelo receberá um valor E diferente no resultado autônomo. Por exemplo, se o tamanho do banco de dados FTP for menor do que o serviço da web CD-Search assume em seu parâmetro de tamanho de banco de dados, o mesmo acerto de sua proteína de consulta para um modelo receberá um valor E inferior no autônomo. Por outro lado, se o tamanho do banco de dados FTP for maior do que o serviço da web CD-Search assume em seu parâmetro de tamanho de banco de dados, o mesmo acerto de sua proteína de consulta para um modelo de domínio conservado receberá um valor E mais alto no autônomo .

Se você deseja que o RPS-BLAST autônomo use o mesmo parâmetro de tamanho do banco de dados que é usado para o servidor da web (e, assim, reproduza os mesmos valores E com RPS-BLAST autônomo que são gerados pelo serviço da web), você pode fazer isso criando um arquivo "alias" em seu computador local e colocando-o no mesmo diretório que o executável RPS-BLAST autônomo. O arquivo pode ter um nome como "mycdd.pal" e conteúdo como o seguinte (onde as linhas que começam com "#" são comentários):
Isso agora permitirá que você pesquise no banco de dados denominado "Cdd" usando os dois parâmetros de tamanho do conjunto de pesquisa conforme especificado, por exemplo: Além dos diferentes parâmetros estatísticos, o serviço da web CD-Search não filtra regiões com composição parcial na sequência de consulta por padrão. Ele usa pontuação corrigida por composição para mitigar os efeitos do viés de composição. Em contraste, o RPS-BLAST autônomo filtra segmentos polarizados de composição e não emprega pontuação corrigida por composição. No RPS-BLAST atual versão 2.2.29 (a partir de fevereiro de 2014), você pode definir parâmetros para replicar as configurações do CD-Search especificando "-comp_based_stats 1" e "-seg no" na linha de comandos. Se essas opções não forem especificadas, o RPS-BLAST autônomo pode recuperar resultados um pouco diferentes. Finalmente, algumas opções avançadas no RPS-BLAST autônomo não estão disponíveis no serviço da web, como a capacidade de usar um modo de hit único / duas passagens para detectar relacionamentos homólogos mais distantes. Os usuários que selecionam essas opções na versão autônoma podem obter resultados de pesquisa diferentes com o serviço da web.

Como posso obter o banco de dados de pesquisa CDD do NCBI para pesquisas locais?

Como posso fazer meu próprio banco de dados de pesquisa para pesquisas locais?

 
Documento de ajuda do Batch CD-Search

  • Apenas sequências de proteínas
    • Pesquisa de CD em lote aceita apenas sequências de proteínas . O número máximo de consultas por solicitação é 4.000, conforme observado na entrada máxima, abaixo. (Padrão CD-Search, que é usado para inserir consultas individuais, pode aceitar sequências de proteínas ou de nucleotídeos.)
    • Uma lista de proteínas de consulta pode ser inserida diretamente (digitada ou copiada / colada) na caixa de texto na página da Web do Batch CD-Search ou carregada como um arquivo de texto. (Uma seção separada deste documento descreve downloads de dados com script.)
    • As proteínas de consulta podem ser representadas como uma lista de identificadores de sequência ou como dados de sequência, separados por quebras de linha, conforme descrito abaixo.
    • Cada trabalho recebe um ID de pesquisa exclusivo gerado aleatoriamente.
    • Nota: Se várias proteínas de consulta forem inseridas inadvertidamente na página normal de pesquisa de CD, sua consulta será redirecionada automaticamente para a ferramenta de pesquisa de CD em lote. Se não houver quebras de linha entre as proteínas de consulta, no entanto, uma mensagem de erro será exibida e nenhum redirecionamento ocorrerá. Observe também que a pesquisa de CD em lote não aceita consultas de sequências de nucleotídeos, no entanto, podem ser enviadas individualmente para a ferramenta de pesquisa de CD padrão.

    Para ser considerado VÁLIDO, um GI ou acesso deve estar presente em (1) o banco de dados ativo Entrez Protein (estes são considerados identificadores CURRENT) OU (2) no backend, banco de dados de arquivo, que contém CURRENT bem como NOT CURRENT ( ou seja, identificadores obsoletos ou preliminares.

    Observe que os identificadores NOT CURRENT são processados ​​pelo Batch CD-Search apenas se a opção de incluir sequências retiradas (originalmente chamada de "pesquisar ID1 para identificadores desconhecidos") estiver ativada. Se estiver desativado, quaisquer identificadores não atuais em sua lista de consulta serão ignorados pelo Batch CD-Search e os resultados serão retornados apenas para os identificadores atuais. A saída do Batch CD-Search sinalizará cada identificador não atual com a mensagem, "Aviso: este registro de sequência pode estar obsoleto ou preliminar."

    Se um identificador não for encontrado no banco de dados ativo Entrez Protein ou no banco de dados de arquivo, ele será considerado INVÁLIDO e será ignorado pelo programa Batch CD-Search. Identificadores inválidos não aparecerão na tabela de dados de amostra da página de resumo do trabalho preliminar ou em arquivos de dados de saída baixados. Eles irão, entretanto, aparecer no menu "navegar resultados" da exibição gráfica dos resultados da pesquisa, listados como "Consulta #N - XXXXXXXX (inválido)" em fonte esmaecida.

    • Formato FASTA ou dados de sequência simples - as sequências de proteínas de consulta também podem ser inseridas no Batch CD-Search no formato FASTA ou simplesmente como dados de sequência simples (código de uma única letra). Em ambos os casos, os dados da proteína devem terminar com uma linha vazia (ou seja, os dados da sequência devem ser seguidos por dois caracteres de nova linha consecutivos ( n n) para indicar o final dos dados). Para o formato FASTA, o caractere ">" deve aparecer como o primeiro caractere da linha de definição (defline) da sequência formatada em FASTA, caso contrário, o defline pode ser analisado como um identificador e, portanto, será interpretado como uma consulta diferente dos dados da sequência.
    • Até 4.000 sequências de proteínas e / ou identificadores podem ser inseridos no Batch CD-Search, seja por meio da interface da web ou por meio de scripts. Solicitações contendo mais de 4.000 consultas serão rejeitadas, pois o pico de uso desse recurso compartilhado aumentou significativamente e prejudicou a disponibilidade do serviço.

    Por padrão, o "modo de pesquisa" é definido como "automático". Este modo aplica automaticamente os parâmetros de pesquisa que foram usados ​​para gerar resultados pré-calculados para todas as sequências no banco de dados do NCBI Protein e fornece a maneira mais rápida de obter resultados de pesquisa de CD em lote.

    O modo de pesquisa mudará automaticamente para "pesquisa ao vivo apenas" se você alterar o banco de dados no qual deseja pesquisar, usar um valor esperado menos rigoroso, aplicar pontuação corrigida por composição ou aplicar o filtro de baixa complexidade.

    Se você alterar o modo de pesquisa de volta para "automático", os parâmetros de pesquisa serão redefinidos para seus valores padrão.

    Nota: modificar o "número máximo de acertos" ou ativar / desativar a opção "incluir sequências retiradas" não altera o modo de pesquisa. Em vez disso, ele apenas filtra os resultados da pesquisa conforme você especificou.

    Mais detalhes sobre o modo de pesquisa e cada um dos outros parâmetros são fornecidos abaixo:

    • Modo de pesquisa
      • automático - O programa Batch CD-Search opta por recuperar os resultados da pesquisa pré-calculados ou ao vivo para cada item separado na lista de consulta, dependendo da natureza do item. Por exemplo, se o item de consulta for um UID válido, o programa sempre tentará recuperar o resultado da pesquisa pré-calculado. Se isso falhar, o programa tentará uma pesquisa RPS-BLAST ao vivo. No entanto, se os dados da sequência forem enviados explicitamente (como FASTA ou sequência de base), o programa vai diretamente para a pesquisa ao vivo. (Observe que o modo de pesquisa "automática" usa os parâmetros de pesquisa padrão. Se você quiser alterar os parâmetros de suas configurações padrão, use o modo "apenas pesquisa ao vivo".)
      • somente pré-calculado - O programa Batch CD-Search recuperará apenas dados pré-calculados para identificadores de sequência em sua lista de consulta. Se os dados pré-calculados não estiverem disponíveis para um determinado identificador de sequência, nenhum resultado da pesquisa será retornado para aquele item. Observe que este modo de pesquisa funciona apenas para entrada que foi inserida como identificadores de sequência, se sua entrada foi dados de sequência, nenhum resultado será retornado. (Observe também que o modo "apenas pré-calculado" usa os parâmetros de pesquisa padrão. Se você quiser alterar os parâmetros de suas configurações padrão, use o modo "apenas pesquisa ao vivo".)
      • pesquisa ao vivo apenas - O programa Batch CD-Search fará uma pesquisa PRS-BLAST ao vivo para cada item na lista de entrada, seja o item um identificador de sequência ou dados de sequência. Este modo também permite que você altere os parâmetros de pesquisa de suas configurações padrão.
      • Se o filtro de baixa complexidade estava LIGADO para a pesquisa, as regiões com polarização de composição NÃO foram USADAS na pesquisa no banco de dados do domínio e são mostradas como blocos ciano SÓLIDOS. (Por exemplo, abra os resultados de pesquisa de CD padrão para P14780, GI 269849668, com a filtragem ativada.) No entanto, essas regiões ainda podem se sobrepor ou ser incluídas em uma pegada de domínio e o alinhamento de pares gerado por RPS-BLAST .

      • Se o filtro de baixa complexidade foi DESLIGADO para a pesquisa, as regiões com polarização composicional foram USADAS na pesquisa e são mostradas como blocos DESLIZADOS em ciano. (Como exemplo, abra os resultados do CD-Search para P14780, GI 269849668, com a filtragem DESLIGADA.) Lembre-se, entretanto, que as regiões com composição tendenciosa podem causar anotações imprecisas da sequência de consulta.

      • Se o filtro de baixa complexidade NÃO DETECTOU nenhuma região com composição tendenciosa na sequência de consulta, ele será exibido como uma barra cinza simples (sem regiões ciano), conforme mostrado nas ilustrações da amostra de exibição concisa e exibição completa do CD-Search resultados.
      • Esta opção procura no banco de dados de arquivamento de backend ID1 por quaisquer identificadores de sequência de proteína em sua lista de entrada que não sejam reconhecidos como sendo atuais no banco de dados Entrez Protein ativo. Se esses identificadores de sequência forem encontrados no banco de dados de arquivamento, o programa Batch CD-Search recuperará os resultados para eles, mesmo que tenham sido descontinuados. Esta opção é ativada por padrão. Se estiver desativado, quaisquer identificadores não atuais em sua lista de consulta serão ignorados pelo Batch CD-Search e os resultados serão retornados apenas para os identificadores atuais. (Consulte a seção sobre validação de UID para obter detalhes adicionais.)
      • Uma string arbitrária pode ser especificada como um título para um determinado trabalho de pesquisa, com no máximo 256 caracteres. (Se um mais forte for fornecido, ele será truncado.) O título do trabalho não é usado de forma alguma pelo mecanismo de pesquisa. Portanto, é totalmente opcional, mas recomendado para fácil identificação dos resultados da pesquisa, especialmente quando vários trabalhos são enviados simultaneamente.
      • Você pode fornecer um ou mais endereços de e-mail aqui para receber uma notificação quando o trabalho de pesquisa for concluído. Vários endereços de e-mail devem ser separados por vírgulas. O título do trabalho, se atribuído, aparecerá na linha de assunto.
      • Quando uma Pesquisa de CD em Lote é enviada com êxito, um identificador exclusivo gerado aleatoriamente ou "ID de Pesquisa" é designado para identificar a pesquisa (por exemplo, QM2-qcdsearch-xxxxxxxxxxx). O ID de pesquisa pode ser usado para recuperar o status / resultados da pesquisa por até 2 dias após a primeira execução da pesquisa. Para fazer isso, insira o ID de pesquisa na caixa de texto "Recuperar uma pesquisa anterior" na página Pesquisa de CD em lote e clique no botão "Recuperar". Mais detalhes sobre IDs de pesquisa são fornecidos em uma parte separada deste documento.
      • _______________________
      • _______________________
      • _______________________
        • _____________
        • _____________
        • _____________
        • Resumo do trabalho
          • Pesquisa concluída com êxito - Após a execução bem-sucedida de uma Pesquisa de CD em lote (consulte os códigos de status do trabalho), uma página da web preliminar é exibida com a mensagem "pesquisa concluída com êxito". Isso indica que os resultados completos da pesquisa foram compilados em um banco de dados temporário, que serve como uma estrutura de dados mestre da qual você pode escolher fazer o download dos dados (ocorrências de domínio, detalhes de alinhamento ou recursos) ou visualizar os resultados graficamente. Depois de selecionar o download desejado ou a opção de visualização gráfica, o programa extrai a saída especificada da estrutura de dados mestre e a apresenta como um arquivo de texto ou exibição na web. A estrutura de dados mestre permanece disponível para você por até 2 dias após a primeira execução da pesquisa. Certifique-se de salvar o ID de pesquisa para recuperar os resultados durante esse período de tempo, seja por meio da caixa de texto "recuperar uma pesquisa anterior" na página inicial do Batch CD-Search ou por meio de downloads de dados em script usando uma API da Web.
          • Estatisticas
ID de pesquisa Quando uma pesquisa é iniciada, um ID de pesquisa exclusivo gerado aleatoriamente é retornado para identificar a consulta e a estrutura de dados mestre que contém o conjunto completo de resultados recuperados pela pesquisa. (O programa mais tarde usa essa estrutura de dados mestre para extrair qualquer subconjunto de informações que o usuário solicitou e constrói a saída final, dependendo dos parâmetros que você especificar.) O ID de pesquisa começa com "QM2-qcdsearch-" como uma assinatura e é seguido por um número hexadecimal gerado aleatoriamente (xxxxxxxxxxx), por exemplo: QM2-qcdsearch-xxxxxxxxxxx

Ambas as formas de ID de pesquisa são válidas como entrada para a caixa de texto "recuperar uma pesquisa anterior" na página inicial do Batch CD-Search e para download / tratamento de dados com script (usando o parâmetro cdsid). O ID de pesquisa pode ser usado para recuperar o status / resultados da pesquisa por até 2 dias após a primeira execução da pesquisa.

As explicações dos cabeçalhos das colunas que aparecem na tabela de dados de amostra são fornecidas na seção de ocorrências de domínio deste documento de ajuda e também podem ser acessadas clicando nos cabeçalhos das colunas no arquivo de saída de amostra.

  • Tipo de dados (dados de destino)
    • Resultados de domínio - uma lista de modelos de domínio conservados, do banco de dados que você selecionou para pesquisar, que têm resultados estatisticamente significativos para as sequências de proteínas em sua lista de consulta. (Um exemplo é fornecido em um arquivo separado.)

    Formato: tabela delimitada por tabulação que lista as seguintes informações para cada sequência de proteína em sua lista de consulta:

    Q # N - XXXXXXXX Número da consulta: o número ordinal (N) da sequência de consulta da lista de entrada original. O número da consulta é registrado como Q # N - XXXXXXXX, onde XXXXXXXX é o identificador de sequência, os primeiros 15 caracteres da linha de definição FASTA ou os primeiros 15 aminoácidos de dados de sequência simples.

    Observação: se seus identificadores de sequência listados de entrada e alguns desses identificadores forem inválidos, seus números de consulta e identificadores estarão ausentes no arquivo de saída, mas podem ser vistos no menu "navegar pelos resultados" da exibição gráfica dos resultados da pesquisa, se desejado . Por exemplo, se seu arquivo de entrada continha quatro identificadores de sequência e o terceiro era inválido, o arquivo de saída mostrará os resultados de Q # 1, Q # 2 e Q # 4. A consulta inválida (Q # 3) pode ser vista, no entanto, como texto acinzentado no formato "Consulta # 3 - XXXXXXXX (inválido)" no visor gráfico.

    Tipo de acerto Os resultados da pesquisa de CD podem incluir tipos de hit que representam vários níveis de confiança (hits específicos, hits não específicos) e escopo do modelo de domínio (superfamílias, multi-domínios). Eles podem ser vistos tanto no display conciso quanto no display completo, exceto para ocorrências não específicas, que são mostradas apenas no display completo.
    PSSM-ID Um PSSM ID é o identificador exclusivo para uma matriz de pontuação específica de posição (PSSM) do modelo de domínio. Se o PSSM de um modelo de domínio for alterado de alguma forma como resultado de atualizações em seu alinhamento de sequência múltipla, ele receberá um novo ID de PSSM. Cada registro de superfamília no Conserved Domain Database também tem um PSSM ID, que se refere ao conjunto específico de PSSM IDs de domínio conservado que compõem a superfamília, em vez de uma matriz de pontuação específica de posição real para a superfamília geral. mais. (Observações adicionais: cada registro de superfamília no banco de dados de domínio conservado também tem um ID de PSSM, que se refere ao conjunto específico de IDs de PSSM de domínio conservado que compõem a superfamília, em vez de uma matriz de pontuação específica de posição real para a superfamília geral. Obsoleto PSSMs (por exemplo, 667) não podem ser recuperados por meio da interface de pesquisa do Entrez CDD porque eles não são mais indexados. No entanto, eles podem ser recuperados da cópia de arquivo do banco de dados usando a opção "Busca direta via UID" nos métodos de pesquisa do CDD página.)
    De para A faixa de aminoácidos na sequência da proteína de consulta à qual o modelo de domínio se alinha. (Observação: se o alinhamento encontrado pelo RPS-BLAST omitiu mais de 20% da extensão do CD no terminal n ou c ou em ambos, a natureza parcial do acerto é indicada na coluna "Incompleto" da tabela de acertos . Os acertos parciais também podem ser vistos na exibição gráfica como desenhos animados do modelo de domínio com bordas irregulares (exemplo ilustrado).) (Observação: o intervalo em um arquivo de saída baixado não indica se um acerto é parcial, ou seja, se o alinhamento encontrado por O RPS-BLAST omitiu mais de 20% da extensão do CD no terminal n ou c, ou ambos. No entanto, acertos parciais podem ser vistos na exibição gráfica como desenhos animados do modelo de domínio com bordas irregulares (exemplo ilustrado).)
    Valor E O valor esperado, ou valor E, indica a significância estatística do acerto como a probabilidade de o acerto ter sido encontrado por acaso. mais.
    Pontuação de bits O valor S 'é derivado da pontuação de alinhamento bruta S pontuação de alinhamento bruta S na qual as propriedades estatísticas do sistema de pontuação usado foram levadas em consideração. Como as pontuações de bits foram normalizadas em relação ao sistema de pontuação, elas podem ser usadas para comparar as pontuações de alinhamento de diferentes pesquisas. (Uma pontuação de bits é definida no glossário do BLAST do manual do NCBI e no glossário do Guia de campo.)
    Adesão O número de acesso do hit, que pode ser um modelo de domínio ou um cluster de superfamília. (Se o hit for um modelo de domínio, o número de acesso (cl *) do cluster da superfamília ao qual pertence é listado na coluna "Superfamília" do arquivo de saída.)
    Nome curto O nome abreviado de um domínio conservado, que define o domínio de maneira concisa. Por exemplo, "ClC controlado por tensão" é o título abreviado do modelo de domínio conservado com curadoria do NCBI para o canal de cloreto controlado por tensão (cd00400).
    Incompleto Se o acerto para um domínio conservado for parcial (ou seja, se o alinhamento encontrado pelo RPS-BLAST omitiu mais de 20% da extensão do CD no terminal n ou c ou em ambos), esta coluna será preenchida com um dos os seguintes valores:
    & # 160 & # 160 & # 160 & # 160 & # 160 N: & # 160 & # 160 & # 160 & # 160 & # 160 incompleto no terminal N
    & # 160 & # 160 & # 160 & # 160 & # 160 C: & # 160 & # 160 & # 160 & # 160 & # 160 incompleto no terminal C
    & # 160 & # 160 & # 160 & # 160 & # 160 NC: & # 160 & # 160 & # 160 incompletos no terminal N e terminal C
    (o aligmnent encontrado por RPS-BLAST omitido
    mais de 40% da extensão total do CD)
    Se o acesso a um domínio conservado for concluído, esta coluna será preenchida com um traço (-).
    (Observação: acertos parciais também podem ser vistos na exibição gráfica como desenhos animados do modelo de domínio com bordas irregulares (exemplo ilustrado).)
    Superfamília Esta coluna é preenchida apenas para modelos de domínio que são resultados específicos ou não específicos e lista o número de acesso da superfamília à qual o modelo de domínio pertence.

    (Se o resultado for para uma superfamília em si, então esta coluna é simplesmente preenchida com um traço porque a adesão da superfamília já está listada na coluna "Acesso" anterior.)

    ______ ______

    Texto ASN XML JSON Texto BLAST
         

    Clique em qualquer um dos três primeiros formatos acima para ler mais sobre ele. O formato de texto do BLAST é descrito abaixo.

    O formato de texto BLAST para baixar os detalhes de alinhamento dos resultados do Batch CD-Search exibe um alinhamento de pares entre a sequência de consulta de proteína e a sequência de consenso de cada modelo de domínio e / ou superfamília que teve uma ocorrência na sequência. As correspondências exatas são marcadas por um símbolo de barra vertical ("|") entre a consulta e a sequência do banco de dados.Como exemplo, abaixo está um trecho dos detalhes de alinhamento de texto formatado do BLAST para ocorrências de domínio em NP_000240 (GI: 4557757). Clique no exemplo abaixo para abrir o arquivo de amostra completo, representando os resultados concisos para essa sequência de consulta a partir de 01 de novembro de 2010:

    Formato: tabela delimitada por tabulação que lista as seguintes informações para cada sequência de proteína em sua lista de consulta:

    Q # N - XXXXXXXX Número da consulta: o número ordinal (N) da sequência de consulta da lista de entrada original. O número da consulta é registrado como Q # N - XXXXXXXX, onde XXXXXXXX é o identificador de sequência, os primeiros 15 caracteres da linha de definição FASTA ou os primeiros 15 aminoácidos de dados de sequência simples.

    Nota: Se algum número de consulta estiver faltando no arquivo de saída, isso indica que: (a) nenhum recurso foi encontrado nessas sequências de proteínas ou (b) os identificadores de sequência eram inválidos. (Identificadores de sequência inválidos podem ser vistos no menu "navegar resultados" da exibição gráfica dos resultados da pesquisa, se desejado. Por exemplo, se seu arquivo de entrada contiver quatro identificadores de sequência e o terceiro for inválido, o arquivo de saída mostrará os resultados para Q # 1, Q # 2 e Q # 4. A consulta inválida (Q # 3) pode ser vista, no entanto, como texto acinzentado no formato "Consulta # 3 - XXXXXXXX (inválido)" no visor gráfico. )

    Modelo O tipo de recurso pode ser:

    específico: recursos / sites conservados que foram mapeados no conjunto de sequências de consulta de acessos específicos.

    genérico: recursos / sites conservados que foram mapeados no conjunto de sequências de consulta de ocorrências não específicas, porque essas ocorrências não específicas pertencem a uma superfamília cujo representante é um domínio com curadoria do NCBI que possui tais anotações.

    Título O breve nome do recurso / local conservado, por exemplo, "local ativo", "tétrade catalítica", "local de ligação de Ca2 +" etc.
    Coordenadas Uma lista delimitada por vírgulas dos códigos de aminoácidos de uma única letra e suas posições na sequência de consulta, indicando quais resíduos na proteína de consulta se alinham ao recurso / local conservado anotado no modelo de domínio. Por exemplo: D50, Y55, K84, H117
    Tamanho completo O número total de resíduos no recurso / local conservado que foi anotado no modelo de domínio.
    Tamanho mapeado O número de resíduos na sequência da proteína de consulta que correspondem aos resíduos na característica / local conservado que foi anotado no modelo de domínio.
    Domínio de origem O PSSM ID do modelo de domínio no qual o recurso / site conservado foi anotado.
    ______ ______

    1. O painel esquerdo oferece controles que permitem selecionar qualquer proteína individual de sua lista de consulta para a qual você deseja visualizar graficamente as anotações de domínio ou baixar os resultados completos da pesquisa.
      • Resultados de navegação - O lado esquerdo da janela do navegador contém uma caixa "Resultados de navegação" que lista cada sequência de consulta de sua lista de entrada original. As sequências são mostradas no formato Q # N - XXXXXXXX, onde Q # N é o número da consulta e XXXXXXXX é o identificador da sequência, os primeiros 15 caracteres da linha de definição FASTA ou os primeiros 15 aminoácidos dos dados da sequência simples. Clique em qualquer sequência de consulta para ver uma exibição gráfica de seus acessos e recursos de domínio. Se desejar selecionar várias sequências de consulta da lista, use as teclas CTRL ou SHIFT enquanto clica nas sequências desejadas.
        • Modo compacto - A opção "Modo compacto" na caixa "Resultados da navegação" exibe a arquitetura de domínio de cada sequência de consulta em uma única linha. Esse tipo de exibição é particularmente útil se você selecionar duas ou mais proteínas de consulta da lista e quiser comparar suas arquiteturas de domínio. (Conforme observado acima, você pode usar as teclas CTRL ou SHIFT enquanto clica nas proteínas de consulta que estão listadas na caixa "Navegar resultados", se desejar selecionar várias sequências dessa lista.)
        • Observação: se seus identificadores de sequência listados de entrada e alguns desses identificadores forem inválidos, seus números de consulta e identificadores aparecem como texto esmaecido no formato "Consulta #N - XXXXXXXX (inválido)" no menu "navegar pelos resultados". (Identificadores inválidos e seus números de consulta não aparecerão, no entanto, nos arquivos de dados baixados.)
      • Baixar dados - As "opções de download de dados" abaixo da caixa "navegar pelos resultados" são as mesmas exibidas na página de resumo do trabalho.

    • A exibição inicial mostra as pegadas do domínio na primeira sequência de consulta. Use a caixa "Navegar nos resultados" para selecionar qualquer outra sequência de consulta de proteína de sua lista de entrada. Uma exibição concisa (exemplo ilustrado) de domínios é mostrada por padrão. Se recursos / sites conservados também foram encontrados, eles aparecerão como pequenos triângulos (exemplo ilustrado).
    • Os controles "Mostrar sites funcionais" e "Exibir: Conciso / Padrão / Exibição completa" na extremidade direita do visor gráfico permitem ativar ou desativar as anotações de recursos e selecionar o nível de detalhe desejado no visor.
    • Passe o mouse sobre qualquer área de cobertura do domínio para visualizar um alinhamento de pares da sequência de consulta com a sequência de consenso do modelo de domínio.
      • Se a pegada representa uma superfamília, clique na pegada para abrir o registro da superfamília correspondente, que por sua vez lista os vários modelos de domínio englobados nela.
      • Se o footprint for um hit específico (visível na exibição concisa e completa dos resultados da pesquisa) ou um hit não específico (visível apenas na exibição completa dos resultados da pesquisa), você pode clicar no footprint para ver a sequência de consulta incorporada no alinhamento de sequência múltipla para o modelo de domínio.
      • Clique no triângulo para ver detalhes adicionais sobre o recurso, incluindo um alinhamento de sequência múltipla de sua sequência de consulta e as sequências de proteínas usadas para curar o modelo de domínio, onde as marcas hash (#) acima das sequências alinhadas mostram a localização dos resíduos de recurso conservados .
      • Se uma estrutura 3D for incluída entre as evidências usadas para anotar o recurso, a página de detalhes mostrará uma imagem em miniatura, que fornece uma visão aproximada da localização do recurso em 3 dimensões e permite que você abra uma visualização da estrutura 3D interativa no Cn3D gratuito programa.

      DOWNLOADS DE DADOS SCRIPTED (WEB API)

      Se chamado com parâmetros, o Batch CD-Search pode ser usado como uma interface para download / tratamento de dados com script. Uma consulta pode ser enviada como uma solicitação HTTP GET ou HTTP POST.

      Uma solicitação HTTP GET é enviada como um URL e pode conter no máximo aproximadamente 1000 caracteres. Não há limite de caracteres no comprimento de uma solicitação HTTP POST, mas há um limite de 4.000 sequências de proteínas e / ou identificadores em uma única solicitação Batch CD-Search.

      O programa recupera os dados de saída em duas etapas: primeiro faz a pesquisa e coleta todas as informações disponíveis dos resultados da pesquisa em uma estrutura de dados mestre, em seguida, extrai o subconjunto de informações que o usuário solicitou e constrói a saída final.

      Ambas as formas de ID de pesquisa são válidas como entrada (usando o parâmetro cdsid) para download / tratamento de dados com script. O ID de pesquisa pode ser usado para recuperar o status / resultados da pesquisa por até 2 dias após a primeira execução da pesquisa.

      para verificar o status ou recuperar resultados de uma pesquisa anterior:
      cdsid Especifique a sequência do ID de pesquisa, por exemplo, "cdsid = QM2-qcdsearch-xxxxxxxxxxx" se desejar verificar o status de uma pesquisa anterior. Inclua um segundo número hexadecimal, por exemplo, "cdsid = QM2-qcdsearch-xxxxxxxxxxx-yyyyyyyyyyy" se desejar recuperar dados de saída específicos que foram solicitados anteriormente para a pesquisa. (Ambas as formas de ID de pesquisa são válidas por até 2 dias após a pesquisa ter sido executada pela primeira vez.) Se você deseja recuperar um subconjunto diferente de dados de saída para uma pesquisa executada anteriormente, especifique a sequência de ID de pesquisa, por exemplo, "cdsid = QM2-qcdsearch-xxxxxxxxxxx, "mais qualquer um dos parâmetros de saída descritos abaixo.
      para fazer uma nova pesquisa:
      db Especifique o nome do banco de dados. Os valores permitidos incluem: "cdd," "pfam," "smart," "tigrfam," "cog," "kog". Este parâmetro só se aplica se o modo de pesquisa (smode) estiver ativo. Se o modo de pesquisa for definido como pré-calculado ou automático, o banco de dados CDD padrão será pesquisado.
      dbpath Especifique o diretório no qual o banco de dados está localizado. Este parâmetro é apenas para uso interno.
      smode Especifique o modo de pesquisa desejado: "auto" (automático), "prec" (apenas pré-calculado) ou "ao vivo" (ao vivo)
      useid1 "true" / "false", este parâmetro especifica se o programa deve pesquisar o banco de dados de arquivamento de backend para quaisquer identificadores de sequência de proteínas em sua lista de entrada que não sejam reconhecidos como sendo atuais no banco de dados Entrez Protein ativo. Se esses identificadores de sequência forem encontrados no banco de dados de arquivamento, o programa Batch CD-Search recuperará os resultados para eles, mesmo que tenham sido descontinuados. Esta opção é ativada por padrão. Se estiver desativado, quaisquer identificadores não atuais em sua lista de consulta serão ignorados pelo Batch CD-Search e os resultados serão retornados apenas para os identificadores atuais. (Consulte a seção sobre validação de UID para obter detalhes adicionais.)
      compbasedadj "0" / "1" 2 "/" 3 "->, este parâmetro especifica se o programa empregará pontuação corrigida por composição. Os valores possíveis são:

      0: NoCompositionBasedStats (estatísticas baseadas em composição desativadas)
      1: CompositionBasedStats (estatísticas baseadas em composição ativadas (padrão))
      2: CompositionMatrixAdjust
      3: CompoForceFullMatrixAdjust

      filtro "true" / "false", este parâmetro especifica se o programa filtrará as regiões com polarização de composição das sequências de consulta. A configuração padrão é falsa".
      Nota: Em geral, se o filtro de baixa complexidade estiver ativado, a pontuação corrigida pela composição deve ser desativada. No entanto, é possível ter as duas opções ativadas ao mesmo tempo (para filtrar falsos positivos que escapam pelas rachaduras da correção de composição), ou desativadas ao mesmo tempo (para encontrar parentes mais distantes para consultas com viés de composição), se desejado. consultas Especifique as proteínas de consulta, como identificadores exclusivos ou como dados de sequência. Consulte a seção "entrada" deste documento para regras. avaliar Número de ponto flutuante, especifica o valor esperado (valor E) de corte, que ajusta o limite de significância estatística usado para relatar correspondências contra PSSMs no banco de dados. Este parâmetro só se aplica se o modo de pesquisa (smode) estiver ativo. Se o modo de pesquisa for definido como pré-calculado ou automático, o valor E padrão de 0,01 será aplicado. maxhit Número inteiro, especifica o número máximo de ocorrências a serem retornadas para cada proteína na lista de consulta. Este parâmetro só se aplica se o modo de pesquisa (smode) estiver ativo. Se o modo de pesquisa for definido como pré-calculado ou automático, o número maxhit padrão de 500 será aplicado. para especificar a saída desejada para uma pesquisa nova ou anterior: tdata Especifique o tipo de dados (dados de destino) desejado na saída. Os valores permitidos são: "hits" (hits de domínio), "alinha" (detalhes de alinhamento) ou "talentos" (recursos). Alnfmt Se você especificou tdata = aligns (detalhes de alinhamento), pode usar o parâmetro "alnfmt" para especificar o formato de download desejado. Os valores permitidos são: "asn", "xml" ou "json". dmode Especifique o modo de dados desejado na saída. Os valores permitidos são:
      "rep" (hit de maior pontuação, para cada região da sequência de consulta, conforme mostrado nos resultados concisos), ou
      "std" (hit de melhor pontuação de cada banco de dados de origem, para cada região da sequência de consulta, conforme mostrado nos resultados padrão), ou
      "full" (o conjunto completo de ocorrências nos resultados completos).
      (O valor "all" ainda é permitido e anteriormente era usado para exibir o resultado completo, mas agora exibe o resultado padrão, desde 12 de fevereiro de 2014, quando o modo padrão tornou-se disponível como uma nova opção de exibição.) qdefl "true" / "false", este parâmetro especifica se deseja incluir linhas de definição para as proteínas de consulta na saída. cddefl "true" / "false", este parâmetro especifica se deseja incluir os títulos de domínios conservados na saída. ___BLUE_CELL___  

      Amostra nº 1: enviar proteínas de consulta com identificadores de sequência 116863, 122, 1065303 e 109389365 verificar o banco de dados de arquivamento de back-end em busca de identificadores de sequência inválidos e retornar uma lista concisa (que é a configuração padrão, já que nenhum parâmetro dmode é especificado) de hits de domínio em a saída:

      https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi?queries=116863%0A122%0A1065303%0A109389365&useid1=true&tdata=hits

      Amostra # 2: Para uma pesquisa executada anteriormente com cdsid = QM2-qcdsearch-xxxxxxxxxxx, recupere os detalhes de alinhamento (tdata = aligns) no formato XML (alnfmt = xml) para os resultados completos (dmode = all):

      https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi?cdsid=QM2-qcdsearch-xxxxxxxxxxx&tdata=aligns&alnfmt=xml&dmode=all

      Exemplo nº 3: _____Descrição_of_what_this_HTTP_GET_request_will_do_______:

      Observe que o ID de pesquisa de amostra acima não funcionará neste momento porque um ID de pesquisa é válido por apenas 2 dias após a pesquisa ter sido executada pela primeira vez. Ele é fornecido aqui apenas como um exemplo.

      0 Trabalho realizado com sucesso
      1 ID de pesquisa inválido
      2 Nenhuma entrada efetiva (geralmente sem proteínas de consulta ou ID de pesquisa especificados)
      3 O trabalho ainda está em execução / esperando
      4 Erro de serviço do gerenciador de filas (qman)
      5 Os dados estão corrompidos ou não estão mais disponíveis (limpeza de cache, etc)
      ___BLUE_CELL___  
      • arquivo de entrada de amostra - Um arquivo de entrada pode conter identificadores de sequência de proteínas e / ou dados de sequência. O exemplo a seguir (com o nome de arquivo "samplefile.in") contém uma mistura de IGs, acessos e dados de sequência bruta:

      Citando o Conserved Domain Database (CDD):

      Uma página de resumo da estrutura fornece as seguintes informações para um registro de estrutura macromolecular tridimensional (exemplo: __PDB_ACCN_AND_MMDB_ID__: ___short_title_of_record):

      CDD: domínios conservados e estrutura tridimensional da proteína. Nucleic Acids Res. Janeiro de 2013, 141 (D1): D348-52. Epub 28 de novembro de 2012 [PubMed PMID: 23197659] [Texto completo] CDD: um banco de dados de domínio conservado para a anotação funcional de proteínas. Nucleic Acids Res. 2011 Jan39 (problema de banco de dados): D225-9. Epub 2010, 24 de novembro. CDD: anotação funcional específica com o Conserved Domain Database. Nucleic Acids Res. 37 de janeiro de 2009 (problema do banco de dados): D205-10.
      Lu S, Wang J, Chitsaz F, Derbyshire MK, Geer RC, Gonzales NR, Gwadz M, Hurwitz DI, Marchler GH, Song JS, Thanki N, Yamashita RA, Yang M, Zhang D, Zheng C, Lanczycki CJ, Marchler- Bauer A. CDD / SPARCLE: o banco de dados de domínio conservado em 2020. Nucleic Acids Res. Janeiro 2020 848 (D1): D265-D268. doi: 10.1093 / nar / gkz991. (Epub 2019 28 de novembro) [PubMed PMID: 31777944] [Full Text at Oxford Academic]
      Marchler-Bauer A, Bo Y, Han L, He J, Lanczycki CJ, Lu S, Chitsaz F, Derbyshire MK, Geer RC, Gonzales NR, Gwadz M, Hurwitz DI, Lu F, Marchler GH, Song JS, Thanki N, Wang Z, Yamashita RA, Zhang D, Zheng C, Geer LY, Bryant SH. CDD / SPARCLE: classificação funcional de proteínas via arquiteturas de domínio de subfamília. Nucleic Acids Res. Janeiro de 2017, 445 (D1): D200-D203. doi: 10.1093 / nar / gkw1129. Epub 2016 Nov 29 [PubMed PMID: 27899674] [Full Text at Oxford Academic] [Full Text in PubMed Central] Marchler-Bauer A, Derbyshire MK, Gonzales NR, Lu S, Chitsaz F, Geer LY, Geer RC, He J, Gwadz M, Hurwitz DI, Lanczycki CJ, Lu F, Marchler GH, Song JS, Thanki N, Wang Z, Yamashita RA, Zhang D, Zheng C, Bryant SH. CDD: banco de dados de domínio conservado do NCBI. Nucleic Acids Res. Janeiro de 2015 de 2843 (problema de banco de dados): D222-2. doi: 10.1093 / nar / gku1221. Epub 20 de novembro de 2014 [PubMed PMID: 25414356] [Texto completo]

      Citando a ferramenta CD-Search ou Batch CD-Search:

      Uma página de resumo da estrutura fornece as seguintes informações para um registro de estrutura macromolecular tridimensional (exemplo: __PDB_ACCN_AND_MMDB_ID__: ___short_title_of_record):


      Assista o vídeo: InterPro. How To Know About Domain In Protein Structure u0026 Their Function in 5 mins. Bioinformatics (Dezembro 2021).