Em formação

Como baixar seletivamente 3 campos de cada registro no UniProtKB?


Quero baixar uma tabela abrangente de nomes de proteínas em uniprot.org.

Mais precisamente, desejo gerar uma tabela delimitada por tabulação que consiste emEu iria(adesão),nome de entrada, enomes de proteínas"colunas" do banco de dados UniProtKB.

Quero obter essas três colunas / campos para todos os registros de 80 milhões em UniProtKB e não quero especificar todos os IDs Uniprot por meio de, por exemplo, um bazilhão de consultas codificadas por URL. Além disso, preciso fazer isso de um host que só posso acessar por meio de uma interface de texto, o que basicamente exclui soluções baseadas em navegador.

Acabei de passar algumas horas indo e voltando sobre os documentos do site do Uniprot, e não consigo encontrar nada útil. O exemplo Perl dado lá1 mostra como fazer download registros completos, mas baixar todos os registros completos do UniProtKB seria muito lento e oneroso para ser considerado2.

Alguém sabe como modificar o exemplo Perl (ou qualquer outra forma) para baixar apenas as três colunas desejadas do UniProtKB?


1 Você precisa clicar na frase "Exemplo de Perl" para ver o código.
2 Eu baixei uma pequena amostra de teste de 1000 registros completos, descobri que o tamanho das informações que eu realmente quero desses registros é de apenas 0,2% do total. IOW, baixar os registros completos levaria cerca de 500 vezes, enquanto baixar apenas as informações desejadas.


Use BioMart. Ele recupera informações do UniProt e você pode selecionar os recursos que deseja. Esses arquivos não serão tão grandes. Assim, você pode baixá-lo em seu PC e SFTP para onde quer que esteja fazendo sua análise. A melhor maneira é instalar o BioMart em sua estação de trabalho. Consulte a documentação do BioMart.


Como combinar e analisar dados de vários conjuntos de dados usando o Excel Power Pivot

Se você tem muitos dados e muitas análises para fazer, mas pouco tempo ou habilidade, precisa do recurso Power Pivot do Excel. Veja como começar.

O Excel Power Pivot é um recurso de análise de dados fácil de usar, tem uma curva de aprendizado curta e, o mais importante, é flexível e versátil o suficiente para lidar com toneladas de dados e necessidades personalizadas. Com um pouco de conhecimento e planejamento, você pode transformar dados em informações significativas sem recorrer a desenvolvedores de banco de dados qualificados. Ele não substitui a tecnologia de banco de dados de forma alguma, mas fornece uma ferramenta poderosa para o usuário sem esses recursos. Além disso, é rápido - você obtém resultados rapidamente!

Se você estiver usando o Excel 2010, deve baixar e instalar o Power Pivot. Se você estiver usando o Excel 2013 ou 2016, faz parte do pacote! Estou usando o Excel 2016 (desktop) em um sistema Windows 10 de 64 bits. As instruções serão semelhantes às versões anteriores. Para sua conveniência, você pode baixar o arquivo de demonstração .xlsx.

Mais sobre o Office

Você pode querer começar lendo Como usar o modelo de dados do Excel para transformar dados relacionados em informações significativas. Este artigo fornece uma revisão básica do recurso, orientando você no processo de criação de um relacionamento entre dois conjuntos de dados. Neste artigo, avançaremos criando vários relacionamentos e adicionando uma coluna calculada.


Introdução

Durante a evolução da enzima, a duplicação de genes e o acúmulo de mutações que afetam os resíduos envolvidos na catálise deram origem a um grupo de proteínas relacionadas com enzimas que perderam sua capacidade de catalisar reações bioquímicas [1, 2] (Thornton et al., esse problema). Apesar da perda de sua função catalítica original, essas proteínas, conhecidas como pseudoenzimas, são notavelmente bem conservadas. Eles são encontrados em quase todas as famílias de enzimas, onde representam entre 10% e 15% dos membros, e estão distribuídos por toda a árvore da vida. Os últimos anos testemunharam um aumento na pesquisa de pseudoenzimas revelando seus papéis biológicos, particularmente aqueles pertencentes aos grupos de enzimas mais abundantes, a saber quinases [3-5], fosfatases [4] e proteases [6, 7]. Esses estudos revelaram que, apesar da falta de atividade enzimática, essas proteínas desenvolveram funções catalíticas independentes essenciais, explicando por que houve uma pressão seletiva para retê-las. Essas funções, que são descritas com mais detalhes na Ref. [8, 9], incluem: (a) ativação alostérica de uma enzima ativa, por exemplo, pseudofosfatase relacionada à miotubularina MTMR9 [base de conhecimento de proteína universal (UniProtKB) Q96QG7] se liga a MTMR6 e aumenta a atividade de lipídio fosfatase MTMR6 [10] (b) o controle da localização e / ou montagem de complexos macromoleculares, por exemplo, pseudofosfatase STYX (proteína que interage com serina / treonina / tirosina, UniProtKB Q8WUJ0) ancora as proteínas quinases ativadas por mitogênio MAPK1 e MAPK3 na montagem do núcleo [11] (c) de cascatas de sinalização, por exemplo, o supressor de quinase de Ras 1 (KSR1 UniProtKB Q8IVT5) recruta vários componentes da cascata de sinalização MAPK / Erk [12] e (d) competição por ligação de substrato ou montagem complexa, por exemplo, Caenorhabditis elegans a pseudofosfatase ovo-4 (UniProtKB O01767) sequestra e inibe a quinase fosforilada mbk-2 [13].

Tornou-se aparente a partir desses estudos que algumas pseudoenzimas também estão ligadas a doenças [4, 14]. Um caso bem caracterizado é a doença de Charcot-Marie-Tooth, um distúrbio neurodegenerativo causado por mutações que afetam as pseudofosfatases SBF2 / MTMR13 (UniProtKB Q86WG5) e SBF1 / MTMR5 (UniProtKB O95248) [15, 16]. Em parte devido à sua capacidade de regular enzimas, as pseudoenzimas também têm atraído interesse como alvos potenciais para tratamentos terapêuticos [14].

O crescente interesse por pseudoenzimas levou a duas reuniões internacionais bem-sucedidas em 2016 e 2018, onde vários tópicos foram discutidos, incluindo como as ferramentas de bioinformática poderiam avançar no estudo de pseudoenzimas. Entre essas ferramentas, os bancos de dados de proteínas desempenham um papel instrumental, fornecendo repositórios para dados relacionados a proteínas, onde informações funcionais e sequências de proteínas são reunidas. Por exemplo, o recurso Protein Kinase Ontology [17] estabeleceu uma lista de todas as pseudoquinases conhecidas e previstas em todos os reinos da vida [18]. Da mesma forma, a base de dados de peptidase MEROPS inclui pseudoproteases onde são definidas como homólogos de não peptidase [19]. Embora esses recursos forneçam dados valiosos, eles se concentram apenas em uma família de enzimas específica.

O UniProt Knowledgebase (UniProtKB) fornece à comunidade científica acesso gratuito a mais de 150 milhões de sequências de proteínas (release 2019_05) anotadas com informações funcionais de alta qualidade [20]. As entradas revisadas (também conhecidas como entradas UniProtKB / Swiss-Prot) foram enriquecidas com informações extraídas da literatura revisada por pares por curadores especialistas. Entradas não revisadas (também conhecidas como entradas UniProtKB / TrEMBL) têm informações funcionais adicionadas automaticamente pela transferência de anotações de ortólogos bem estudados e intimamente relacionados.

Os registros UniProtKB são avaliados e revisados ​​regularmente para integrar novos avanços no campo da biologia de proteínas. Isso garante que forneceremos aos usuários informações precisas e atualizadas. Os avanços recentes feitos no campo das pseudoenzimas nos levaram a revisitar esses registros no UniProtKB que descrevem as pseudoenzimas e atualizar seu conteúdo.

Neste estudo, apresentamos um esboço do processo e os desafios enfrentados na revisão de pseudoenzimas, incluindo como são identificadas, como as informações relacionadas à sua perda de atividade são capturadas e apresentadas de forma concisa e, finalmente, como melhoramos sua descoberta. As melhorias contínuas na anotação de pseudoenzimas fornecerão à comunidade científica um recurso valioso para facilitar a biologia da pseudoenzima e o estudo da evolução da pseudoenzima e da enzima.


Introdução

A curadoria manual é um processo demorado e caro, mas sem dúvida agrega grande valor a recursos como o UniProt Knowledgebase (UniProtKB). UniProtKB compreende duas seções, UniProtKB / Swiss-Prot, a seção revisada contendo registros curados manualmente com informações extraídas da literatura e análise computacional avaliada por curador, e UniProtKB / TrEMBL, a seção não revisada com registros anotados automaticamente (1).

As bases de conhecimento desempenham um papel cada vez mais importante no auxílio à pesquisa e descoberta científica, fornecendo dados em formatos facilmente acessíveis. Diversos relatórios recentes levantaram a questão da confiabilidade desses recursos e destacaram a presença de erros e / ou informações incompletas contidas nas bases de dados e suas consequências. Por exemplo, um artigo publicado pelo grupo de Babbitt investigou os níveis de anotação incorreta para a função molecular em quatro bancos de dados de sequência de proteínas públicas para um conjunto de 37 famílias de enzimas para as quais extensas informações experimentais estão disponíveis e concluiu que o nível de anotação incorreta era muito mais alto em automaticamente bancos de dados anotados do que em recursos com curadoria manual (2). A qualidade das anotações eletrônicas do Gene Ontology (GO) e suas limitações também foram avaliadas (3), demonstrando uma variabilidade significativa entre os métodos de inferência, tipos de anotações e espécies, ao mesmo tempo em que mostra uma melhoria contínua dessas anotações. Artigo recente relatou como um erro de anotação em uma entrada UniProtKB / Swiss-Prot, devido à interpretação de um trabalho de caracterização funcional incompleto, persistiu por 20 anos e foi disseminado para outras bases de dados (4).

Embora esses artigos descrevam erros de curadoria, eles não examinam o processo de curadoria em diferentes bases de conhecimento. Um bom entendimento do conteúdo de anotação de um banco de dados e como ele é gerado é necessário para seu uso correto. Isso é exemplificado por um artigo publicado em PLoS Computional Biology que concluíram que os genes parálogos nos genomas de camundongos ou humanos são mais funcionalmente semelhantes, em média, do que os genes ortólogos entre esses genomas (5). Esta análise, que foi baseada na anotação experimental GO, sofreu de um entendimento incompleto das anotações GO que enviesou os resultados. Conforme demonstrado posteriormente por outro grupo (6), as diferenças nas anotações entre pares de genes ortólogos refletem complementaridade em abordagens experimentais ao invés de diferenças na função biológica, com alguns tipos de experimentos sendo realizados em um organismo e não no outro. Além disso, as anotações GO são frequentemente incompletas, resultando em diferenças de anotação mesmo na ausência de diferenças funcionais.

É claro que as bases de conhecimento contêm uma pequena proporção de erros, e alguns deles são devidos à má interpretação dos dados por curadores, mas resultados contraditórios ou incorretos na literatura científica complicam muito a tarefa de curadoria, e os curadores freqüentemente têm que tentar reconciliar os conflitos dados de diferentes publicações. Um artigo recente publicado em O economista (Problemas no laboratório www.economist.com/news/briefing/21588057-scientists-think-science-self-correcting-alarming-degree-it-not-trouble) mostrou como o número crescente de erros encontrados na literatura científica é alcançando um nível tão alarmante que a autocorreção da ciência não é mais possível. O artigo cita uma série de estudos que tentaram reproduzir resultados encontrados na literatura, sem sucesso. Em um artigo em Natureza , por exemplo, cientistas da Amgen relataram que só conseguiram reproduzir 6 dos 53 estudos considerados marcos no campo da pesquisa do câncer (7). Outra publicação, de pesquisadores da Bayer HealthCare, relatou que eles conseguiram reproduzir os resultados com sucesso em apenas 25% dos casos (8).

Tomando o exemplo da sirtuin-5 (SIRT5), um caso de anotação complexo dentro do que foi considerado uma família de proteínas bem caracterizada, descreveremos como a curadoria de especialistas é realizada no UniProtKB / Swiss-Prot. SIRT5 pertence à subfamília classe III das sirtuínas, uma subfamília conservada de humanos a bactérias. Embora a atividade da proteína desacetilase tenha sido relatada inicialmente para SIRT5 em humanos e camundongos, dados recentes lançaram uma nova luz sobre sua atividade, mostrando que ela atua como uma proteína desacilase. Detalharemos como relatamos resultados conflitantes encontrados na literatura e descreveremos as colaborações com outros recursos. Também mostraremos como a curadoria de informações facilita sua disseminação, bem como seu uso subsequente em sistemas de anotação automática e predição de função, estabelecendo um pipeline onde os processos de anotação manual e automática estão vinculados. Acreditamos que uma melhor compreensão do processo de curadoria manual é um pré-requisito para a correta interpretação e utilização do conteúdo das bases de conhecimento.


2. Materiais e métodos

2.1 PubTator

PubTator (http://www.ncbi.nlm.nih.gov/bionlp/pubtator) é um aplicativo baseado na web que anota automaticamente todos os artigos no PubMed com os principais conceitos biológicos por meio de ferramentas avançadas de software de mineração de texto (Wei et al., 2013). Para atender às necessidades específicas da curadoria do UniProt, várias personalizações foram feitas nos resultados das anotações e na interface do usuário. Em primeiro lugar, todas as anotações de gene / proteína extraídas de texto com identificadores do gene NCBI correspondentes foram convertidas em acessos UniProt. Em seguida, desenvolvemos uma abordagem baseada em frequência para classificar artigos com informações ricas em proteínas. Primeiro adicionamos uma terceira categoria para curadores UniProt para classificar um artigo - sem prioridade - além de 'Curável' e 'Não curável'. Além disso, cinco subcategorias foram inseridas na categoria existente 'Não curável': 'Fora do escopo', 'Redundante', 'Alto rendimento', 'Evidência insuficiente' e 'Revisão / comentário' (Fig. 1).

Captura de tela da ferramenta PubTator. Algumas das funcionalidades do PubTator incluem: (1) exportação de identificadores PubMed e anotações para os diferentes conjuntos (por exemplo, curáveis ​​e não curáveis) (2) menu para opções não curáveis ​​acesso ao resumo com anotações e tabela com anotações e com links para UniProt acessões

Captura de tela da ferramenta PubTator. Algumas das funcionalidades do PubTator incluem: (1) exportação de identificadores PubMed e anotações para os diferentes conjuntos (por exemplo, curáveis ​​e não curáveis) (2) menu para opções não curáveis ​​acesso ao resumo com anotações e tabela com anotações e com links para UniProt acessões

2.2 Preparação de conjuntos de dados

2.2.1 Amostragem aleatória de 500 artigos PubMed

Para avaliar a proporção de artigos PubMed que são relevantes para a curadoria UniProt, primeiro geramos um conjunto de 500 artigos PubMed publicados de 2013 a 2015 (166 artigos em 2013 e 167 em 2014 e 2015) por amostragem aleatória.

2.2.2 Coleta semanal de periódicos selecionados

A cada semana, o PubTator gera uma atualização para novos artigos publicados em um conjunto selecionado de periódicos relevantes para a pesquisa de proteínas (Cell, Developmental Cell, Elife, Genes and Development, Molecular Cell, Nature Cell Biology, Nature Genetics, Nature, PLoS Biology, PLoS Genetics , Science, The EMBO Journal, The Plant Cell). Todos os novos artigos são primeiro analisados ​​em busca de informações sobre proteínas e espécies e, em seguida, classificados com base na frequência de menções de proteínas.

2.2.3 Fluxo de trabalho de curadoria centrada em proteína

Os curadores UniProt selecionados para esta análise trabalham em diferentes programas de anotação. E.B. é especializada em curadoria de proteínas vegetais H.B.-A.-J. é especializada em curadoria de Caenorhabditis elegans proteínas M.L.F. é especializada em curadoria de proteínas associadas a doenças genéticas em B.R. é especializada em curadoria de proteínas de vertebrados S.P. cura proteínas em uma variedade de organismos.

Os cinco curadores UniProt pesquisam primeiro no PubTator artigos relevantes para uma proteína específica (por exemplo, APC13 e Arabidopsis). O PubTator mostra exatamente os mesmos resultados da pesquisa que o PubMed. Uma vez que o título de um artigo é clicado nos resultados da pesquisa, o PubTator direciona os usuários para sua página de curadoria (também conhecida como página de resumo), onde as pré-anotações automáticas do computador podem ser examinadas (e revisadas). Todas as edições e comentários são registrados no PubTator e podem ser baixados, em massa ou por artigo único, para posterior análise.


INTRODUÇÃO

Estamos em um ponto crítico no desenvolvimento de bancos de dados de sequência de proteínas. Os avanços contínuos no sequenciamento da próxima geração significam que para cada proteína caracterizada experimentalmente, existem agora muitas centenas de proteínas que nunca serão caracterizadas experimentalmente em laboratório. Além disso, existem novos tipos de dados sendo introduzidos pelo desenvolvimento de tecnologias de alto rendimento em proteômica e genômica. A combinação de ambos fornece novas oportunidades para as ciências da vida e o domínio biomédico. Portanto, é crucial identificar caracterizações experimentais de proteínas na literatura e capturar e integrar esse conhecimento em uma estrutura em combinação com dados de alto rendimento e abordagens de anotação automática para permitir que seja totalmente explorado. O UniProt facilita a descoberta científica, organizando o conhecimento biológico e permitindo que os pesquisadores compreendam rapidamente áreas complexas da biologia.

Em resumo, o UniProt é composto de vários componentes importantes. A seção do UniProt que contém entradas selecionadas e revisadas manualmente é conhecida como UniProtKB / Swiss-Prot e atualmente contém cerca de meio milhão de sequências. Esta seção cresce à medida que novas proteínas são caracterizadas experimentalmente (1). Todas as outras sequências são coletadas na seção não revisada do UniProt, conhecida como UniProtKB / TrEMBL. Esta parte do UniProt atualmente contém cerca de 80 milhões de sequências e está crescendo exponencialmente. Embora as entradas em UniProtKB / TrEMBL não sejam organizadas manualmente, elas são complementadas por anotações geradas automaticamente. O UniProt também disponibiliza três conjuntos de sequências que se tornaram não redundantes em vários níveis de identidade de sequências: UniRef100, UniRef90 e UniRef50 (2). O banco de dados UniParc é um conjunto abrangente de todas as sequências conhecidas indexadas por suas somas de verificação de sequência exclusivas e atualmente contém mais de 70 milhões de entradas de sequências (3). O banco de dados UniProt tem referências cruzadas para mais de 150 bancos de dados e atua como um hub central para organizar informações sobre proteínas. Seus números de acesso são um mecanismo primário para marcação precisa e sustentável de proteínas em aplicações de informática.

Neste manuscrito, descrevemos o progresso mais recente no desenvolvimento do UniProt. Existem inúmeros desafios enfrentados pelo objetivo do UniProt de organizar e anotar o universo de sequências de proteínas. Em particular, o grande crescimento de sequências de cepas microbianas nos motivou a criar um novo identificador de proteoma, que é descrito com mais detalhes a seguir. Uma atividade central do UniProt é selecionar informações sobre proteínas da literatura primária. Neste artigo, examinamos a anotação de enzimas com foco nas atividades de enzimas órfãs. O banco de dados UniProt é usado por milhares de cientistas em todo o mundo todos os dias e seu site foi visitado por mais de 400.000 visitantes únicos em 2013. Descrevemos um redesenvolvimento completo do site com base em um processo de design de experiência do usuário abaixo.


Variações humanas em UniProtKB / Swiss-Prot

Embora seja essencial para descrever um proteoma humano de referência para o qual curamos conhecimento funcional, é igualmente importante capturar a diversidade desse proteoma dentro da população humana. A variabilidade é alta entre os genomas de dois indivíduos não relacionados com uma diferença estimada a cada mil pares de bases e um total de ∼3,3 milhões de polimorfismos de nucleotídeo único (SNPs). Embora a maioria desses SNPs seja neutra, ou seja, não alterando a função da proteína, alguns alteram dramaticamente as proteínas e são responsáveis ​​por fenótipos e doenças (24).

No UniProtKB / Swiss-Prot, a prioridade é dada à curadoria de polimorfismos de um único aminoácido associados a doenças e fenótipos descritos na literatura revisada por pares. Atualmente, 72 960 variantes genéticas são anotadas nas entradas UniProtKB / Swiss-Prot. 40% deles estão associados a uma doença genética e 12% contêm informações sobre sua consequência funcional nas proteínas. Isso indica que uma grande fração das variantes são de significado desconhecido no que diz respeito à função da proteína e que nosso conhecimento bioquímico e celular ainda é escasso. Todas as variantes UniProtKB / Swiss-Prot podem ser encontradas na tabela humsavar.txt (http://www.uniprot.org/docs/humsavar) e para cada proteína, na seção 'Sequências' (http: //www.uniprot .org / help / sequence_section).

As informações relacionadas à doença são encontradas na seção de entradas ‘Patologia e Biotecnologia’ (http://www.uniprot.org/help/pathology_and_biotech_section). Por exemplo, nesta seção da entrada que descreve a pseudoquinase FAM20A (UniProtKB Q96MK3), mencionamos que o gene está associado a uma forma de amelogênese imperfeita, um distúrbio que afeta o esmalte dentário (Figura 2). A doença é descrita em um formato estruturado com base na nomenclatura de doença OMIM, se disponível, e contém referências cruzadas para o banco de dados OMIM e os termos MeSH [informações detalhadas sobre variações e doenças humanas em UniProtKB / Swiss-Prot são descritas em (25)] . Um forte valor agregado vem da curadoria de especialistas da caracterização molecular detalhada de variantes de proteínas. Capturamos especificamente seu efeito nas propriedades da proteína em termos de função, localização, interação e PTM, entre outros. Anotamos esses efeitos levando em consideração o que já está descrito em toda a entrada, principalmente nas seções ‘Função’, ‘Localização subcelular’, ‘Interação’ ou ‘PTM / Processamento’. Para FAM20A, existem seis variantes naturais anotadas na entrada. Quatro deles, associados à amelogênese imperfeita, são relatados na seção ‘Patologia e Biotecnologia’ juntamente com sua caracterização, quando disponível. Eles afetam a capacidade do FAM20A de ativar a proteína quinase serina / treonina de Golgi FAM20C, que é descrita na seção "Função" da entrada (Figura 2). Portanto, pode-se fazer uma ligação clara entre a patologia e a função da proteína. A descrição de texto livre de variantes caracterizadas funcionalmente, no entanto, não pode ser lida por um computador e estamos trabalhando para melhorar sua representação. A fim de facilitar a pesquisa e recuperação dessas variantes, as anotações de texto livre serão reestruturadas usando uma combinação de vocabulários controlados para descrever os efeitos das variantes ( Famiglietti et al. , em preparação).

Captura de tela das seções ‘Função’ e ‘Patologia e Biotecnologia’ da entrada FAM20A humana (UniProtKB Q96MK3, http://www.uniprot.org/uniprot/Q96MK3).

Captura de tela das seções ‘Função’ e ‘Patologia e Biotecnologia’ da entrada FAM20A humana (UniProtKB Q96MK3, http://www.uniprot.org/uniprot/Q96MK3).

Avanços recentes na tecnologia de sequenciamento geram grandes conjuntos de dados de variantes que fornecem uma visão abrangente da variação genética humana (1). Portanto, é importante complementar a curadoria de especialistas em andamento de variantes da literatura com a incorporação de variantes de projetos de grande escala no UniProtKB. Variantes do 1000 Genomes Project e COSMIC versão v71 são mapeadas automaticamente para UniProtKB e podem ser encontradas no servidor FTP UniProt, no arquivo homo_sapiens_variation.txt.gz que contém um catálogo de novos SNPs para UniProtKB / Swiss-Prot e UniProtKB / Sequências TrEMBL (http: // ftp: //ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/variants /).


Uso de dados proteômicos para confirmar a complexidade do proteoma humano

Os resultados de experimentos de proteômica baseados em espectrometria de massa também constituem uma fonte valiosa de informações para a curadoria do proteoma humano. Nós os usamos para confirmar a existência de proteínas e proteínas PTMs. No entanto, existem vários desafios para a integração de dados de proteômica de alto rendimento no UniProtKB. Publicações e relatórios de conjuntos de dados de experimentos de proteômica exibem níveis altamente variáveis ​​de qualidade e confiabilidade. Isso se deve à heterogeneidade dos protocolos experimentais de proteômica de um lado e ao rigor computacional e interpretacional dos resultados do outro. Como o número total de falsas identificações aumenta com o número de conjuntos de dados incorporados, a integração de identificações de peptídeos que podem tolerar até 1% de falsos positivos pode levar ao acúmulo e propagação de anotações errôneas. Isso pode ter um custo potencialmente alto em tempo e recursos se a identificação de uma proteína com falsos positivos estiver na origem de estudos biológicos adicionais e pode prejudicar o valor de bancos de dados como o UniProtKB (26).

Para limitar o número de falsos positivos e apenas integrar dados confiáveis, desenvolvemos um pipeline de análise dirigido por especialistas para integração de dados proteômicos em UniProtKB / Swiss-Prot (Figura 3). O pipeline consiste na avaliação de publicações de curadores com experiência em proteômica. Em primeiro lugar, confirmamos que as publicações são compatíveis com o padrão MIAPE (Minimum Information About a Proteomics Experiment) para relatar experimentos de proteômica, fornecendo acesso aos dados brutos e aos metadados associados (27). A relevância dos artigos científicos e dos métodos utilizados, como a precisão dos instrumentos, o software de identificação de peptídeos utilizado, os valores de corte de seleção e os métodos de pós-processamento também são revisados.

Esquema de anotação para integração de dados proteômicos em UniProtKB.

Esquema de anotação para integração de dados proteômicos em UniProtKB.

Após esta primeira etapa de avaliação, reprocessamos completamente os dados de peptídeos identificados nas publicações. Extrair dados de publicações pode ser um desafio, uma vez que os resultados são fornecidos em formatos heterogêneos (como arquivos PDF, planilhas do Excel, materiais suplementares e links para páginas da web dos autores). Implementamos um sistema robusto de extração e filtragem para manter apenas informações confiáveis ​​e consistentes. Os dados de espectrometria de massa não são reanalisados, mas cortes rigorosos são aplicados nas pontuações de peptídeo fornecidas nas publicações para remover identificações duvidosas (28, 29). Também verificamos a relevância biológica dos PTMs (um local de fosforilação não deve estar localizado em uma região transmembrana, por exemplo). Em última análise, a identificação da proteína deve ser inequívoca. A maior parte do software de identificação usa uma abordagem de parcimônia, ou seja, uma lista mínima de proteínas que podem produzir os peptídeos identificados é usada. Isso não significa que a proteína relatada está definitivamente na amostra ou que outras proteínas não estão presentes e, geralmente, isso não permite a atribuição inequívoca de um peptídeo a uma proteína. Para abordar essas questões, cada peptídeo é comparado a uma tabela de "Unicidade", que contém todos os peptídeos únicos teóricos do proteoma humano completo. Esta tabela também leva em consideração anotações de sequência experimental e prevista do UniProtKB / Swiss-Prot, incluindo diferenças de isoformas, eventos de processamento de sequência e variantes naturais.

Por exemplo, Bian et al. (30) analisaram recentemente o fosfoproteoma hepático e relataram a identificação de 55 061 peptídeos para 22 446 sítios de fosforilação em 6526 proteínas diferentes. Após o reprocessamento e avaliação de seus resultados de acordo com regras de filtragem rigorosas [como uma pontuação mínima do mascote de 40 ou uma probabilidade de erro posterior (PEP) de (lt) 1% ou uma pontuação de localização PTM mínima (Ascore) de 19], apenas 26 497 peptídeos únicos são validados e 5197 locais de fosforilação são anotados em 4118 entradas UniProtKB / Swiss-Prot (28, 29, 31).

Essas regras rigorosas permitem limitar a heterogeneidade entre diferentes publicações, reduzindo o número de falsos positivos para extrair apenas o conhecimento padrão-ouro. Até agora, avaliamos 65 artigos de proteômica de alto rendimento que tratam de amostras humanas. 39 foram integrados ao UniProtKB / Swiss-Prot, enquanto 26 não foram considerados porque a metodologia não atendia aos nossos critérios de qualidade ou porque os dados não estavam totalmente acessíveis. Destas 39 publicações, 90 889 péptidos passaram nos passos de filtragem, enriquecendo o proteoma humano de 23 092 PTMs através de 5822 entradas UniProtKB / Swiss-Prot.

Além da abordagem acima, que fornece dados de proteômica de alta qualidade da literatura publicada, também desenvolvemos um pipeline automatizado para fornecer mapeamentos de peptídeos humanos identificados a partir de repositórios de proteômica de espectrometria de massa públicos para sequências UniProtKB. Eles estão disponíveis em um diretório dedicado 'proteomics_mapping' no site FTP UniProt (http: // ftp: //ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/proteomics_mapping /) junto com uma descrição de como o mapeamentos são gerados. Isso inclui peptídeos de PeptideAtlas (32) e MaxQB (33) para o proteoma humano, bem como para várias outras espécies. Em versões futuras do UniProt, planejamos adicionar dados de mais repositórios. Para garantir a qualidade dos dados, as identificações são filtradas com base em limites definidos por nós de acordo com as métricas de qualidade global fornecidas por cada recurso de proteômica. Esses mapeamentos de peptídeos aumentam muito a proporção de proteínas humanas em UniProtKB, cuja existência é apoiada por dados proteômicos experimentais com o pipeline fornecendo evidências de espectrometria de massa para 69.639 sequências de proteoma humano.


Você pode dar uma olhada no esquema information_schema. Ele tem uma lista de todas as tabelas e todos os campos que estão em uma tabela. Você pode então executar consultas usando as informações obtidas nesta tabela.

As tabelas envolvidas são SCHEMATA, TABLES e COLUMNS. Existem chaves estrangeiras para que você possa construir exatamente como as tabelas são criadas em um esquema.

Você poderia fazer um SQLDump do banco de dados (e seus dados) e, em seguida, pesquisar esse arquivo.

Se você tiver o phpMyAdmin instalado, use o recurso 'Pesquisar'.

  • Selecione seu banco de dados
  • Certifique-se de ter um banco de dados selecionado (ou seja, não uma tabela, caso contrário, você obterá uma caixa de diálogo de pesquisa completamente diferente)
  • Clique na guia 'Pesquisar'
  • Escolha o termo de pesquisa que você deseja
  • Escolha as tabelas para pesquisar

Eu usei isso em até 250 bancos de dados de mesa / 10 GB (em um servidor rápido) e o tempo de resposta é simplesmente incrível.

Se você está evitando procedimentos armazenados como a peste, ou não consegue fazer um mysql_dump devido a permissões, ou se depara com outros motivos diversos.

Eu sugeriria uma abordagem de três etapas como esta:

1) Onde esta consulta cria um monte de consultas como um conjunto de resultados.

Os resultados devem ser assim:

2) Você pode então clicar com o botão direito e usar Copiar linha (separado por tabulação)

3) Cole os resultados em uma nova janela de consulta e execute o que quiser.

Detalhe: excluo os esquemas do sistema que você normalmente não vê em seu ambiente de trabalho, a menos que tenha a opção Mostrar metadados e esquemas internos marcada.

Fiz isso para fornecer uma maneira rápida de ANALISAR um HOST ou banco de dados inteiro, se necessário, ou para executar instruções OPTIMIZE para oferecer suporte a melhorias de desempenho.

Tenho certeza que existem diferente maneiras de fazer isso, mas aqui está o que funciona para mim:


Assista o vídeo: Bioedit Installation (Janeiro 2022).