Em formação

Kit de ferramentas online que fornece pontuações de similaridade funcional (na forma de uma matriz) entre dois conjuntos de genes funcionais no contexto da ontologia de genes


Onde posso encontrar um kit de ferramentas online que fornece pontuações de similaridade funcional (na forma de uma matriz) entre dois conjuntos de genes funcionais no contexto da ontologia genética?

Eu tentei o seguinte:

  1. Ferramenta em lote para GSFS: PROBLEMA: Diz que meus genes de levedura de entrada não são genes humanos (o que provavelmente significa que a ferramenta funcionará apenas com genes humanos).

  2. http://bioinformatics.clemson.edu/G-SESAME/Program/geneCompareTwo1.php: PROBLEMA: fornece pontuação para cada entrada de par de genes. Eu tenho ~ 3600 genes. Impossível fazer isso por cada par.

  3. O visualizador de lote DAVID fornece uma matriz 1xN (pontuação de similaridade funcional de um gene para um conjunto de N genes, quando eu quero todos os pares possíveis de semelhanças que darão uma matriz NxN)

  4. GO funsimmat- Não consigo fazer isso funcionar, então não tenho certeza se ele vai me dar os resultados desejados.

  5. GO FastSemSim- igual a 4.


Acho que você poderia tentar uma abordagem semelhante ao GSFS:

  • usar transdução em proteínas (se você não souber o código estrela, então você deve usar 3 strings para cada gene)

  • usar uma ferramenta básica (uma ferramenta autônoma como UNIPROT) para identificar o tipo de domínio protéico (cadeia alfa, ...)

  • dividir os genes por tipo de domínio protéico (pdt): que contém quais pdt e as frequências de ordem pdt

Agora, você pode usar DAVID ou similar (tente wconsensus: é antigo, básico, mas muito personalizado) para comparar sequências semelhantes e obter suas pontuações.


Atualização FunSimMat: novos recursos para explorar similaridade funcional

Quantificar a similaridade funcional de genes e seus produtos com base na anotação Gene Ontology é uma ferramenta importante para diversas aplicações, como a análise de dados de expressão gênica, a previsão e validação de funções e interações de proteínas e a priorização de genes de doenças. A Matriz de Similaridade Funcional (FunSimMat, http://www.funsimmat.de) é um banco de dados abrangente que fornece vários valores de similaridade funcional pré-computados para proteínas em UniProtKB e para famílias de proteínas em Pfam e SMART. Com esta atualização, aumentamos significativamente a cobertura do FunSimMat adicionando dados do projeto Gene Ontology Annotation, bem como novas medidas de similaridade funcional. A aplicabilidade do banco de dados é amplamente ampliada com a implementação de um novo método baseado em Gene Ontology para priorização de genes de doenças. Duas novas ferramentas de visualização permitem uma análise interativa das relações funcionais entre proteínas ou famílias de proteínas. Isso é aprimorado ainda mais pela introdução de uma hierarquia derivada automaticamente de classes de anotação. Mudanças adicionais incluem um front-end de usuário revisado e uma nova interface RESTlike para melhorar a facilidade de uso e acessibilidade online do FunSimMat.


Estendendo o princípio de similaridade de pequenas moléculas a todos os níveis de biologia com o Verificador Químico

Moléculas pequenas são geralmente comparadas por sua estrutura química, mas não existe uma estrutura analítica unificada para representar e comparar sua atividade biológica. Apresentamos o Chemical Checker (CC), que fornece dados de bioatividade processados, harmonizados e integrados sobre

800.000 pequenas moléculas. O CC divide os dados em cinco níveis de complexidade crescente, desde as propriedades químicas dos compostos até seus resultados clínicos. Entre eles, inclui alvos, fora dos alvos, redes e informações em nível de célula, como dados ômicos, inibição de crescimento e morfologia. Os dados de bioatividade são expressos em formato vetorial, estendendo o conceito de similaridade química à similaridade entre as assinaturas de bioatividade. Mostramos como as assinaturas de CC podem ajudar nas tarefas de descoberta de medicamentos, incluindo a identificação de alvos e a caracterização de bibliotecas. Também demonstramos a descoberta de compostos que revertem e imitam as assinaturas biológicas de modelos de doenças e perturbações genéticas em casos que não poderiam ser tratados apenas com informações químicas. No geral, as assinaturas CC facilitam a conversão de dados de bioatividade em um formato que é prontamente adequado para métodos de aprendizado de máquina.


Materiais e métodos

Para avaliar as medidas de similaridade funcional baseadas em IC existentes que têm sido usadas no contexto de aplicações biomédicas e bioinformáticas, usamos diferentes dados funcionais, incluindo sequência de proteína, domínio Pfam e dados de similaridade de comissão enzimática (EC), expressão de gene humano (microarray) e conjuntos de dados de interação proteína-proteína (PPI). Todos esses dados representam alguma forma de & # x02018 agrupamento & # x02019 de proteínas que devem estar funcionalmente relacionadas e, portanto, fornecem testes úteis para medidas de similaridade GO. O conjunto completo de dados GO e associações de termos proteína-GO foram extraídos dos bancos de dados GO e GOA, respectivamente, divulgados em 15 de abril de 2014. Consideramos três abordagens baseadas em topologia, a saber, a métrica universal GO proposta por Mazandu e Mulder [9], e os métodos de Wang et al. [24] e Zhang et al. [25]. Em geral, o conteúdo de informação (IC) ou valor semântico de um determinado termo t é calculado da seguinte forma:

Onde é a frequência relativa de ocorrência do termo no conjunto de dados de anotação de proteína em consideração [16], que é o valor D [25] e a característica de posição topológica de no contexto da família de anotações, as abordagens Zhang e GO-universal, respectivamente. Observe que o Zhang et al. modelo para calcular o escore IC segue o Seco et al. abordagem [26] em sua concepção e está adaptada ao contexto do GO-DAG. Para o Wang et al. método, a pontuação de IC de um determinado termo é a soma do valor S do termo e os de todos os seus ancestrais [24]. O termo pontuação de similaridade semântica entre os termos GO e pode ser obtido a partir da seguinte fórmula [8]:

Onde e denota o conjunto de ancestrais do termo , e são medidas da semelhança entre e da descrição de e , respectivamente. A fórmula 2 é uma fórmula unificada de todos os modelos de similaridade semântica de termos com base nos valores IC ou SV dos termos. Observe que outros modelos de similaridade semântica de termos que não usam apenas ou diretamente valores de IC foram propostos. Estes incluem o método Hybrid Relative Specificity Similarity (HRSS) [27], que adapta os conceitos baseados em nós e bordas, e a Shortest Semantic Differentiation Distance (SSDD), que avalia a distância entre os termos no GO DAG a fim de medir seu escore de similaridade semântica [28], e esses métodos estão além do escopo deste estudo.

Medindo a similaridade de proteínas no nível funcional

Várias medidas foram propostas para estimar os escores de similaridade funcional no contexto de abordagens de IC baseadas em anotações para facilitar as comparações de proteínas no nível funcional. Esses escores de similaridade funcional são obtidos usando medidas estatísticas de proximidade, como média (Avg), máximo (Max), melhor correspondência média (BMA) e média de todas as melhores correspondências (ABM). As medidas médias e máximas são calculadas da seguinte forma:

Onde é um conjunto de termos GO em representando a função molecular (MF), processo biológico (BP) ou ontologia de componente celular (CC) anotando uma determinada proteína e e são o número de termos GO nesses conjuntos, e é a pontuação de semelhança semântica.

O ABM [2] para duas proteínas anotadas é a média das melhores correspondências dos termos GO de cada proteína em relação à outra, dada pela seguinte fórmula:

com . The Best Match Average (BMA) [2], [9] para duas proteínas anotadas e é a média dos dois valores a seguir: média das melhores correspondências de termos GO anotados na proteína contra aqueles anotados em proteína , e a média das melhores correspondências de termos GO anotados para proteína contra aqueles anotados em proteína , dado pela seguinte fórmula:

Observe que as quatro medidas de similaridade funcional acima requerem pontuações de similaridade semântica do termo GO e são referidas como termo não direto baseado em IC ou similaridade semântica de termo ou medidas baseadas em pares de termos [2]. Para a família baseada em topologia, cada abordagem foi sugerida com sua medida de similaridade funcional. A métrica universal GO [9] usa BMA, e ABM foi usado em Wang et al. abordagem [24]. O Zhang et al. medida [25] é uma abordagem dependente do contexto e os autores sugeriram inicialmente o uso da abordagem proposta por Lord et al. [16], que é o esquema Avg para medir os escores de similaridade funcional entre proteínas.

No contexto da família baseada em anotações, observou-se que medir a semelhança semântica de dois termos GO com base apenas nos termos ancestrais comuns mais informativos não pode discernir as contribuições semânticas dos termos ancestrais para esses dois termos específicos e, portanto, pode negativamente impactar pontuações de similaridade funcional. As abordagens GraSM e XGraSM foram propostas e demonstraram ter um desempenho melhor do que aquelas que usam apenas a estratégia de ancestrais comuns mais informativos (MICA) [8]. Esse argumento foi confirmado por meio da avaliação de desempenho da medida SimGIC sugerida por Pesquita et al. [22], que usa um índice de Jaccard ponderado por IC de termos, incorporando assim as características de todos os ancestrais dos termos. A medida SimGIC calcula a pontuação de similaridade funcional entre duas proteínas e do seguinte modo:

Onde é o valor do conteúdo de informação do termo [8] e um conjunto de termos GO junto com seus ancestrais em representando a ontologia (MF, BP ou CC) anotando uma determinada proteína .

Usando a observação acima, propusemos dois outros possíveis esquemas de similaridade funcional [2], [9], usando Dice (medida semelhante a Czekanowski ou Lin) e índices universais, referidos como SimDIC e SimUIC, respectivamente, e dados pelas seguintes fórmulas:

Observe que este estudo fornece a primeira avaliação dessas medidas SimDIC e SimUIC e sua comparação com outras medidas de similaridade funcional. Ao contrário das medidas Avg, Max, ABM e BMA, nas quais a similaridade semântica entre os termos GO é necessária no cálculo dos escores de similaridade funcional, as medidas SimGIC, SimDIC e SimUIC usam o IC dos termos diretamente e são referidos como baseados em IC medidas diretas de prazo. Observe que existem outros modelos de similaridade funcional, como shortest-path graph kernel (spgk) [29], usando a topologia intrínseca do GO DAG para estimar diretamente os escores de similaridade funcional da proteína sem calcular os escores IC dos termos GO ou escores de similaridade semântica entre os termos. Aqui, estamos apenas nos concentrando em modelos de similaridade funcional de proteínas que usam o IC de termos.

Avaliando diferentes medidas de similaridade funcional

Avaliamos sistematicamente diferentes medidas de similaridade funcional em diferentes tipos de dados funcionais, incluindo similaridade de sequência, domínio Pfam e dados de similaridade da Enzyme Commission (EC) em um conjunto selecionado de proteínas, e interação proteína-proteína humana (PPI) e redes de coexpressão. Esses conjuntos de dados representam diferentes tipos de dados biológicos usados ​​para avaliar as medidas de similaridade semântica do GO [10]. Dependendo desses dados biológicos, diferentes medidas de desempenho são usadas para elucidar a & # x02018best & # x02019 medida ou abordagem de similaridade semântica.

Correlação com EC, Pfam e similaridade de sequência

Geralmente, a comparação de diferentes medidas de similaridade semântica é realizada usando medidas de correlação de Pearson com dados de similaridade de sequência, domínio Pfam e Comissão de Enzima (EC). Esta correlação fornece uma indicação de quão eficaz é a medida de similaridade funcional na captura de similaridade de sequência, Pfam e EC. Isso significa que uma medida com uma correlação mais alta é melhor, uma vez que captura bem essas semelhanças e é provável que seja uma medida imparcial. Para comparar diferentes medidas, executamos a ferramenta online Avaliação Colaborativa de Medidas de Similaridade Semântica (CESSM) [30] em http://xldb.di.fc.ul.pt/tools/cessm/ para BP e MF usando um conjunto de dados selecionados proteínas com relações conhecidas baixadas do site do CESSM.

Avaliação de desempenho usando uma rede PPI

Diferentes medidas foram avaliadas em termos de sua capacidade de capturar coerência funcional em uma rede PPI humana com base em como as proteínas que interagem estão funcionalmente relacionadas umas às outras. Conjuntos de dados PPI humanos foram baixados de vários bancos de dados PPI diferentes, incluindo os bancos de dados IntAct, DIP, BIND, MIPS, MINT e BioGRID, e integrados em uma única rede na qual apenas as interações previstas por pelo menos duas abordagens diferentes e encontradas no conjunto de dados STRING são considerado, para reduzir o impacto de falsos positivos. Isso produziu uma rede PPI humana com 6031 interações, das quais um total de 5366 e 5580 interações com ambos os parceiros de interação estavam entre 29844 e 31683 proteínas anotadas em relação às ontologias GO BP e CC, respectivamente. Esses conjuntos de dados de interação estão disponíveis nos dados suplementares (ver Tabelas S1, S2 e S3 no Arquivo S1) e também podem ser baixados do site da CBIO em http://web.cbio.uct.ac.za/ITGOM/funcsimdata.

O conjunto dessas interações 5366 e 5580 é considerado um conjunto positivo, enquanto o conjunto negativo consiste no mesmo número de interações selecionadas aleatoriamente entre pares de proteínas humanas anotadas. Isso é consistente, pois a chance de selecionar aleatoriamente um PPI detectado é muito pequena (menos de 0,0012%). Consideramos apenas proteínas anotadas com termos BP e CC na rede produzida, uma vez que duas proteínas que interagem fisicamente têm maior probabilidade de estar envolvidas em processos biológicos semelhantes ou localizadas no mesmo componente celular, mas não há garantia de que compartilhem funções moleculares [9 ] O poder de classificação de diferentes medidas de similaridade funcional foi testado usando a análise da curva Receiver Operator Characteristic (ROC), que avalia a área sob a curva (AUC), traçando a taxa de verdadeiro positivo ou sensibilidade vs a taxa de falso positivo ou 1-especificidade. Este valor de AUC é usado como uma medida de poder discriminativo e um classificador realista deve ter um AUC maior que 0,5.

Poder de agrupamento em um conjunto de dados de expressão gênica

Usamos a rede de co-expressão humana recuperada do Bossi et al. [31] e a rede humana STRING. Nós recuperamos 7228 pares de proteínas co-expressas, dos quais um total de 6995 pares têm ambas as proteínas encontradas entre 29844 proteínas humanas anotadas com termos BP (ver Tabelas S4 e S5 no Arquivo S1, ou vá para http: //web.cbio.uct. ac.za/ITGOM/funcsimdata). Estamos apenas considerando a ontologia BP porque os genes co-expressos são mais propensos a compartilhar processos comuns e podem, pelo menos, pertencer à mesma via ou contribuir para um processo biológico semelhante [32]. Nós particionamos essas proteínas co-expressas em grupos diferentes usando o Blondel et al. método [33] e a partição correspondente é considerada uma verdade fundamental, ou seja, a partição verdadeira da rede coexpressa real. Depois disso, as interações da rede coexpressa são ponderadas usando pontuações de similaridade funcional e proteínas agrupadas usando o mesmo método de agrupamento. Avaliamos o poder de agrupamento de uma determinada medida de similaridade funcional, comparando esse resultado de agrupamento com a verdade básica usando a Informação Mútua Normalizada e o Índice de Classificação de membros do agrupamento par a par [34].

Deixar ser o número de proteínas na rede com a verdade fundamental (g) tendo p partições, cada uma com proteínas, , e resultado de clustering (c) com q partições, cada uma com proteínas, . A entropia de um determinado agrupamento (d) tendo r partições, cada uma com proteínas, , É dado por:

e a informação mútua entre as duas partições é calculado da seguinte forma:

Onde é o número de proteínas comuns entre as o grupo na verdade fundamental e o o cluster no resultado do agrupamento. Isso implica que a informação mútua normalizada É dado por:

Finalmente, o Índice de Classificação de associações de cluster em pares é calculado da seguinte forma:

Onde é o número de pares de proteínas pertencentes ao mesmo cluster na verdade fundamental e resultado de agrupamento, e o número de pares de proteínas pertencentes a diferentes grupos na verdade fundamental e resultado do agrupamento. A medida de similaridade funcional que fornece informações mútuas normalizadas mais altas e pontuações de precisão é considerada a & # x02018 melhor & # x02019.


MATERIAIS E MÉTODOS

Classes de anotação

A revisão atual do FunSimMat contém mais de 4,6 milhões de proteínas e famílias de proteínas. Como as medidas de similaridade funcional são simétricas, cerca de 10 trilhões de cálculos de valores de similaridade funcional seriam necessários para uma comparação completa. No entanto, nem toda proteína ou família de proteínas é anotada com uma combinação única de termos GO. Portanto, definimos uma classe de anotação como uma lista específica, classificada lexicamente, de termos GO de uma ontologia. Uma classe de anotação pode ser identificada por um número de acesso exclusivo.

Cada proteína ou família de proteínas é atribuída a três classes de anotação que correspondem aos termos GO anotados, uma classe para o processo biológico (BPclass), uma para a função molecular (MFclass) e uma para o componente celular (CCclass). Por exemplo, os termos 'herança de mitocôndria' (GO: 0000001) e 'montagem de remendo cortical de actina' (GO: 0000147) constituem uma classe BP. Se UMA e B são duas classes de anotação, então todos os pares de proteínas p und q que pertencem a UMA e B , respectivamente, obtêm o mesmo valor de similaridade funcional. Isso diminui a quantidade de cálculos necessários em várias ordens de magnitude. Além da definição de BPclasses, MFclasses e CCclasses, também definimos classes de anotação GO (GOclasses). Cada GOclass consiste em uma BPclass, uma MFclass e uma CCclass. Teoricamente, mais de um trilhão de GOclasses diferentes poderiam ser derivados das classes BP, MFclasses e CCclasses disponíveis. No entanto, apenas 52 493 GOclasses ocorrem na prática, o que reduz consideravelmente o espaço de pesquisa ao comparar uma proteína ou família de proteínas com o banco de dados completo. A definição das classes de anotação, bem como o mapeamento de proteínas e famílias de proteínas para classes de anotação estão disponíveis para download no site.

Fontes de dados

Em setembro de 2007, nosso banco de dados MySQL FunSimMat inclui 4 629 251 proteínas com anotações GO do UniProtKB versão 10.5. Além disso, o banco de dados contém 8.957 famílias Pfam (Pfam versão 21.0) e 704 famílias SMART (do InterPro versão 15) anotadas em uma das proteínas. Atualmente, as proteínas e famílias de proteínas podem ser atribuídas a 17 140 classes de anotação de processos biológicos, 20 649 classes de função molecular e 4978 classes de componentes celulares. Como o número de classes de anotação é pequeno em contraste com o número de proteínas no banco de dados, prevemos que nossa abordagem será bem dimensionada com o número crescente de proteínas e anotações que podem ser esperados nos próximos anos. Pretendemos atualizar os bancos de dados a cada 3 meses, o que leva cerca de 1 semana de tempo de computação usando duas CPUs.


4. CONCLUSÃO

Aqui, exploramos os requisitos para inferir uma ontologia a partir de uma matriz de similaridade e os métodos disponíveis para fazer isso, bem como propusemos um novo método, o CliXO. Descobrimos que o CliXO supera outros métodos quando uma matriz de similaridade confiável está disponível. Ao usar dados -omics, descobrimos que o CliXO supera outros métodos em dois dos três conjuntos de dados testados e vincula o algoritmo NeXO no terceiro, onde ambos foram capazes de inferir com sucesso uma ontologia semelhante ao GO BP. Além disso, o CliXO provou ser significativamente mais estável do que o NeXO para mudanças nos parâmetros. Este estudo fornece a base algorítmica para a construção de ontologias genéticas por meio da captura de estruturas hierárquicas e pleiotrópicas embutidas em dados biomoleculares.


Conclusões

A fim de fornecer uma visão geral inicial abrangente da essência funcional dos dados genômicos de alto rendimento, o funcExplorer realiza agrupamento automatizado e análise de enriquecimento funcional. O resultado visualmente compacto destaca as partes mais relevantes do conjunto de dados em questão. Além disso, o usuário pode explorar facilmente seu experimento com mais detalhes usando os recursos interativos fornecidos por nossa ferramenta. Além disso, esperamos que o funcExplorer avance a reprodutibilidade científica, fornecendo resultados online que podem ser facilmente compartilhados entre os pares.


Blast2GO: Um Conjunto Abrangente para Análise Funcional em Genômica de Plantas

A anotação funcional de novos dados de sequência é um requisito primário para a utilização de abordagens de genômica funcional na pesquisa de plantas. Neste artigo, descrevemos o pacote Blast2GO como uma ferramenta de bioinformática abrangente para anotação funcional de sequências e mineração de dados nas anotações resultantes, principalmente com base no vocabulário de ontologia genética (GO). O Blast2GO otimiza a transferência de funções de sequências homólogas por meio de um algoritmo elaborado que considera a similaridade, a extensão da homologia, o banco de dados de escolha, a hierarquia GO e a qualidade das anotações originais. A ferramenta inclui várias funções para visualização, gerenciamento e análise estatística de resultados de anotação, incluindo análise de enriquecimento de conjunto de genes. O aplicativo é compatível com InterPro, códigos de enzimas, vias KEGG, gráficos acíclicos diretos GO (DAGs) e GOSlim. O Blast2GO é uma ferramenta adequada para pesquisas genômicas de plantas devido à sua versatilidade, fácil instalação e uso amigável.

1. Introdução

A pesquisa de genômica funcional se expandiu enormemente & # 13 na última década e, particularmente, a comunidade de pesquisa em biologia vegetal & # 13 incluiu amplamente abordagens de genômica funcional em suas pesquisas recentes & # 13 propostas. O número de GeneChips de plantas Affymetrix, por exemplo, dobrou & # 13 nos últimos dois anos [1] e existem extensos consórcios genômicos internacionais & # 13 para as principais safras (veja os últimos relatórios da Conferência PAG para uma impressão atualizada sobre & # 13 genômica de planta atual, http://www.intl-pag.org). Não menos importante, muitos grupos de pesquisa de médio porte & # 13 também estão configurando projetos de EST de plantas e produzindo plataformas de microarray & # 13 personalizadas [2]. Esta geração massiva de dados de sequência de plantas e & # 13 rápida disseminação de tecnologias de genômica funcional entre os laboratórios de pesquisa de plantas & # 13 criou uma forte demanda por recursos de bioinformática adaptados às espécies vegetativas & # 13. A anotação funcional de novas sequências de DNA de plantas é provavelmente um dos & # 13 principais requisitos em genômica funcional de plantas, visto que esta detém, em grande & # 13 extensão, a chave para a interpretação biológica dos resultados experimentais. & # 13 Vocabulários controlados impuseram ao longo do forma como a estratégia de escolha & # 13 para a anotação eficaz da função dos produtos gênicos. O uso de & # 13 vocabulários controlados facilita muito a troca de conhecimento biológico & # 13 e o benefício dos recursos computacionais que gerenciam esse & # 13 conhecimento. A ontologia do gene (GO, http://www.geneontology.org) & # 13 [3] é provavelmente o esquema mais extenso hoje para a descrição das funções do produto do gene & # 13, mas também outros sistemas, como códigos de enzimas [4], As vias KEGG & # 13 [5], FunCat [6] ou COG [7] são amplamente utilizadas em bancos de dados moleculares & # 13. Muitas ferramentas de bioinformática e métodos & # 13 foram desenvolvidos para auxiliar na atribuição de termos funcionais aos produtos do gene & # 13 (revisado em [8]). Menos recursos, no entanto, estão disponíveis quando & # 13 se trata da anotação funcional em grande escala de novos dados de sequência de & # 13 espécies não-modelo, como seria especificamente necessário em muitos projetos genômicos funcionais de plantas & # 13. Ferramentas baseadas na web para a anotação funcional de novas sequências & # 13 incluem AutoFact [9], GOanna / AgBase [10], GOAnno [11], Goblet [12], & # 13 GoFigure + GoDel [13], GoPET [14] , Gotcha [15], HT-GO-FAT & # 13 (liru.ars.usda.gov/ht-go-fat.htm), InterProScan [16], JAFA [17], OntoBlast [18], & # 13 e PFP [19]. Além disso, os recursos de anotação funcional são geralmente & # 13 incorporados em pipelines de análise EST. Alguns exemplos relevantes são & # 13 ESTExplorer, ESTIMA, ESTree. ou JUICE (consulte [2] para uma pesquisa em EST & # 13 analysis). Esses recursos são ferramentas valiosas & # 13 para a atribuição de termos funcionais a sequências não caracterizadas, mas & # 13 geralmente carecem de recursos de alto rendimento e mineração de dados, no primeiro caso, & # 13 ou fornecem soluções automáticas sem muita interatividade do usuário, no segundo. Neste artigo & # 13, descrevemos o aplicativo Blast2GO (B2G, www.blast2go.org) para a & # 13 anotação funcional, gerenciamento e mineração de dados de novos dados de sequência & # 13 por meio do uso de esquemas de vocabulário controlados comuns. A filosofia por trás do desenvolvimento de & # 13 B2G foi a criação de uma estrutura ampla, amigável e orientada para a pesquisa & # 13 para atribuições de funções em larga escala. O principal & # 13 domínio de aplicação da ferramenta é a genômica funcional de organismos não modelos & # 13 e tem como objetivo principal apoiar pesquisas em laboratórios experimentais onde & # 13 o suporte de bioinformática pode não ser forte. Desde seu lançamento em setembro de 2005 & # 13 [20], mais de 100 laboratórios em todo o mundo se tornaram usuários B2G e o aplicativo & # 13 foi referenciado em mais de trinta publicações revisadas por pares & # 13 (www.blast2go.org/citations). Embora o B2G tenha um amplo escopo de aplicação de espécies & # 13, o projeto se originou em um ambiente de pesquisa de genômica de cultura e há & # 13 bastante experiência acumulada no uso de B2G em plantas, que & # 13 inclui milho, tabaco, frutas cítricas, soja, uva ou tomate. Os projetos variam de & # 13 atribuições funcionais de ESTs [21-24] a anotação de termo GO de microarranjos de plantas customizados ou & # 13 comerciais [25, 26], estudos de perfis funcionais [27-29] e & # 13 caracterização funcional de genes específicos de plantas famílias [30, 31].

Nas seções a seguir, explicaremos mais & # 13 extensivamente os conceitos por trás do Blast2GO. Descreveremos em detalhes as principais & # 13 funcionalidades do aplicativo e mostraremos um caso de uso que ilustra a & # 13 aplicabilidade do B2G à pesquisa genômica funcional de plantas.

2. Destaques do Blast2GO

Quatro conceitos principais de direção formam a base do & # 13 software Blast2GO: orientação de biologia, alto rendimento, flexibilidade de anotação & # 13 e capacidade de mineração de dados.

Orientação de biologia. Os usuários-alvo do & # 13 Blast2GO são pesquisadores de biologia que trabalham em projetos de genômica funcional em & # 13 laboratórios onde um forte suporte de bioinformática não está necessariamente presente. Portanto, & # 13 o aplicativo foi concebido para ser fácil de instalar, ter requisitos mínimos de configuração & # 13 e manutenção, e para oferecer uma interface de usuário intuitiva. O B2G foi implementado como um aplicativo de desktop Java multiplataforma, acessível pela tecnologia Java Webstart. Esta solução emprega a maior versatilidade de um aplicativo em execução local & # 13, ao mesmo tempo que garante atualizações automáticas, desde que uma conexão de Internet & # 13 esteja disponível. Esta implementação provou funcionar muito & # 13 eficientemente na transferência rápida para os usuários de novas funcionalidades e para correção de bugs & # 13. Além disso, o acesso aos dados no & # 13 B2G é reforçado por parâmetros gráficos que, por um lado, permitem a fácil identificação e seleção de sequências & # 13 em vários estágios do processo de anotação & # 13 e, por outro lado, permitem a visualização conjunta da anotação & # 13 resultados e destaque dos recursos mais relevantes.

Alto rendimento enquanto interativo. O Blast2GO se esforça para & # 13 ser a aplicação de escolha para a anotação de novas sequências em & # 13 projetos de genômica funcional onde milhares de fragmentos precisam ser & # 13 caracterizados. Em princípio, o B2G aceita qualquer quantidade de registros dentro dos recursos de memória & # 13 da estação de trabalho do usuário. Arquivos de dados típicos de 20 a 30 & # 13 mil sequências podem ser facilmente anotados em um PC de 2 Giga RAM (projetos maiores & # 13 podem usar a versão gratuita da interface gráfica do Blast2GO). Durante o processo de anotação & # 13, os resultados intermediários podem ser acessados ​​e modificados pelo usuário & # 13, se desejado.

Anotação flexível. A anotação funcional & # 13 no Blast2GO é baseada na transferência de homologia. Dentro desta estrutura, & # 13 o procedimento de anotação real é configurável e permite o projeto de & # 13 estratégias de anotação diferentes. Os parâmetros de anotação do Blast2GO incluem a escolha & # 13 do banco de dados de pesquisa, a força e o número dos resultados da explosão, a extensão & # 13 da correspondência de acerto da consulta, a qualidade das anotações transferidas, & # 13 e a inclusão de anotação de motivo. Os vocabulários suportados pelo B2G são termos de ontologia de gene e # 13, códigos de enzima (EC), InterPro IDs e vias KEGG.

Mineração de dados em resultados de anotação. O Blast2GO não é um mero gerador de anotações funcionais. O aplicativo inclui uma ampla gama & # 13 de funções estatísticas e gráficas para a avaliação do procedimento de anotação & # 13 e os resultados finais. Especialmente, a abundância (relativa) de termos funcionais & # 13 pode ser facilmente avaliada e visualizada.

A primeira versão do B2G cobriu o aplicativo básico & # 13 funcionalidades: explosão de alto rendimento contra NCBI ou bancos de dados locais, & # 13 mapeamento, anotação e análise de enriquecimento de conjunto de genes gráficos vetoriais escalares (SVG) & # 13 gráficos combinados e gráficos de distribuição básica. Módulos aprimorados para explosão maciça & # 13, modificação de intensidade de anotação, curadoria, vocabulários adicionais, & # 13 gráficos personalizáveis ​​de alto desempenho e diagramas de caminho, mineração de dados e & # 13 manipulação de sequência, bem como uma ampla gama de formatos de entrada e saída têm & # 13 foi incorporado ao pacote Blast2GO.

3. O aplicativo Blast2GO

A Figura 1 mostra os componentes básicos do pacote Blast2GO & # 13. As atribuições funcionais prosseguem por meio de um elaborado procedimento de anotação & # 13 que compreende uma estratégia central mais funções de refinamento. Em seguida, & # 13 os mecanismos de visualização e mineração de dados permitem explorar os resultados da anotação & # 13 para obter conhecimento funcional.


Introdução

Avaliar as propriedades funcionais de conjuntos de genes é uma etapa de rotina na compreensão de dados biológicos de alto rendimento 1,2 e é comumente usado para verificar se os genes implicados em um experimento biológico são funcionalmente relevantes 1 e para descobrir funções compartilhadas inesperadas entre esses genes 3 , 4. Muitos bancos de dados de anotações funcionais foram desenvolvidos a fim de classificar os genes de acordo com seus vários papéis na célula 5,6,7,8,9. Entre estes, o Gene Ontology (GO) 10,11 é um dos mais amplamente utilizados por muitas ferramentas de enriquecimento funcional (por exemplo 1,2,12,13,14) e é altamente considerado por sua abrangência e sua abordagem unificada para anotando genes em espécies diferentes para o mesmo conjunto básico de funções subjacentes 10.

Recentemente, foi observado que muitos bancos de dados de classificação, incluindo o Gene Ontology, exibem uma distribuição de cauda pesada no número de genes anotados em categorias individuais 15. No entanto, tem havido pouca investigação sobre como essas propriedades de anotação subjacentes podem influenciar os resultados das técnicas de análise funcional. Neste trabalho, descobrimos que as abordagens tradicionais de enriquecimento funcional identificam espúrias associações significativas entre termos funcionais em GO e aleatória conjuntos de genes, se o número de anotações feitas aos genes no conjunto de genes for alto. We also investigate the properties of curated experimentally-derived gene signatures, i.e. sets of genes whose combined expressed patterns are associated with specific biological conditions and find that many contain a disproportionate number of highly annotated genes. Furthermore, traditional overlap statistics report significant associations between these signatures and randomly constructed collections of functional terms. Consequently, we propose a scheme, called Annotation Enrichment Analysis (AEA), that evaluates the overlap in annotations between a set of genes and the set of terms belonging to a branch of the GO hierarchy, using a randomization protocol to build a null model. By looking at annotation overlap instead of gene overlap, our approach takes into account the annotation properties of the Gene Ontology. It effectively eliminates biases due to database construction and highlights relevant biological functions in experimentally-defined gene signatures. We also provide a simple analytic approximation to AEA (which we call AEA-A, for Annotation Enrichment Analysis Approximation) that is able to partially compensate for the biases we find using traditional approaches. Implementations of both AEA and AEA-A are provided at http://www.networks.umd.edu.

In this study, we primarily focus on Gene Ontology annotations associated with human genes. The Gene Ontology 10 takes the form of a directed acyclic graph (DAG) in which “child” functional categories (“terms”) are subclassified under one or more other, more general categories, called “parent” terms. “Branches” in the Gene Ontology can therefore be defined as sets of terms that contain a parent term and all of its progeny. Note that these branches contain overlapping sets of terms since each term can be a descendant of multiple ancestors at each level of the DAG. Using this structure, individual genes are annotated to various functional categories. These annotations are transitive up the hierarchy such that a parent term will take on all the gene annotations associated with any of its progeny 16 . Consequently, terms with many progeny often contain many gene annotations whereas terms with few progeny generally have fewer associated genes. “Biological Process,” “Molecular Function,” and “Cellular Component” are the three most general terms in GO, defining three independent branches such that every other term can only belong to one of these three categories. As a consequence all genes in GO are annotated to at least one and often all three, of these categories.

The most widely used statistics for evaluating which functional categories are enriched in a set of genes are based on gene counts and include Fisher's Exact Test, the binomial test and the chi-squared test 17 . Although these statistics vary in exact implementation, they all rely on the same basic underlying assumption that all genes have an equal probability of being selected under the null hypothesis. Of these tests, Fisher's Exact Test (FET) is the most common statistic and is used by many of the most popular functional enrichment tools (see Table 2 in 18 ) and therefore we choose it to represent a “typical” evaluation of gene set functional enrichment. FET estimates enrichment by evaluating the overlap between genes in a given experimental gene set with genes annotated to a GO term. Genes in the experimentally-derived gene set are assumed to have an equal likelihood of being identified, consistent with the null model of FET. By mathematical construction FET also assumes that the genes annotated to a functional term are equally likely to be identified (see Equation 3 in the Methods section) however, because some genes are annotated to many functional terms while others are only annotated to a few, it follows that genes do not have an equal likelihood of being identified in the context of gene functional annotations, inconsistent with FET's null model. We investigate how this false assumption might alter predictions made in the context of functional enrichment analysis.

Since functional enrichment analysis often involves comparing a gene set to all the terms in GO, multiple-hypothesis corrections are generally applied to the results of these statistical tests 18 . These corrections decrease the value at which a comparison between a gene set and a GO term should be considered significant. Commonly used multiple-hypothesis corrections include the Bonferroni, Benjamini and the False Discovery Rate. Of these, the Bonferroni is the most conservative and adjusts the value at which a test is considered “significant” by the number of tests made 19 . The False Discovery Rate (FDR) adjusts the value at which a test is considered “significant” based on the rank of the predicted level of significance 20,21 . It provides approximately the same correction as the Bonferroni for the most significantly-ranked p-values but will not adjust tests that are the least-significant. It is important to note that although these corrections will change the critical value of individual tests, they do not affect the rank ordering of the results.


Resumo

Structural variants (SVs) underlie important crop improvement and domestication traits. However, resolving the extent, diversity, and quantitative impact of SVs has been challenging. We used long-read nanopore sequencing to capture 238,490 SVs in 100 diverse tomato lines. This panSV genome, along with 14 new reference assemblies, revealed large-scale intermixing of diverse genotypes, as well as thousands of SVs intersecting genes and cis-regulatory regions. Hundreds of SV-gene pairs exhibit subtle and significant expression changes, which could broadly influence quantitative trait variation. By combining quantitative genetics with genome editing, we show how multiple SVs that changed gene dosage and expression levels modified fruit flavor, size, and production. In the last example, higher order epistasis among four SVs affecting three related transcription factors allowed introduction of an important harvesting trait in modern tomato. Our findings highlight the underexplored role of SVs in genotype-to-phenotype relationships and their widespread importance and utility in crop improvement.