Em formação

Bancos de dados de genótipo-fenótipo?


Além do banco de dados de HIV de Stanford, que outros bancos de dados fornecem um conjunto de dados ligando genótipo de vírus / bactéria ao fenótipo quantitativo? Estou procurando conjuntos de dados de alta qualidade para testar pipelines de aprendizado de máquina. Minhas próprias pesquisas geralmente rendem apenas bancos de dados que curam mutações relacionadas à classe de resistência aos medicamentos ("resistente, possivelmente resistente, suscetível), mas não informações quantitativas em uma forma padronizada como o banco de dados de Stanford.


Classificações de variantes, bancos de dados e correlações genótipo-fenótipo

Porque CFTR estudos de genes agora representam uma das análises genéticas mais frequentes realizadas rotineiramente em todo o mundo, o número de raras CFTR variantes identificadas em várias situações clínicas, aumenta regularmente. Para fornecer diagnóstico e prognóstico adequados aos pacientes com FC, bem como aconselhamento genético adequado às famílias, o impacto clínico e o espectro fenotípico das variantes identificadas por técnicas de diagnóstico precisam ser caracterizados. Três bancos de dados complementares específicos de locus, chamados CFTR1, CFTR2 e CFTR-France foi desenvolvido para resolver esses problemas. Além disso, o crescente conhecimento da fisiopatologia da FC e a evolução técnica em biologia molecular permitiram identificar genes modificadores candidatos, loci reguladores, perfis epigenéticos e trans-reguladores que podem ajudar a refinar as correlações genótipo-fenótipo no nível individual. Esses diferentes fatores podem contribuir para a grande variabilidade fenotípica entre pacientes com FC, mesmo quando são portadores de CFTR variantes, em relação à função pulmonar, susceptibilidade do íleo meconial ou o risco de desenvolver diabetes relacionado com CFTR e doença hepática. Finalmente, a disponibilidade de novas terapias que têm como alvo a proteína CFTR para um número de pacientes com FC levou à identificação de respondedores "bons" e "ruins", levantando assim questões de fatores farmacogenéticos que podem influenciar a eficiência do tratamento como uma nova característica da complexidade de Manejo de pacientes com FC.

© 2020 Sociedade Francesa de Pediatria. Publicado por Elsevier Masson SAS. Todos os direitos reservados.


Introdução

O problema de compreender as relações entre genótipo e fenótipo tornou-se muito mais complicado com a explosão da informação genética produzida pelo sequenciamento de última geração (NGS). Essa informação complicou muito não apenas nossa habilidade de entender características complexas, mas também nossa compreensão de características monogênicas não é mais tão direta. Na verdade, artigos recentes sugeriram a necessidade de desenvolver novas abordagens para lidar com a complexidade cada vez maior das relações genótipo / fenótipo, como 'genética de sistemas' [1] e 'genética de partículas' [2].

No entanto, talvez o mais confuso do ponto de vista da genética 'tradicional' tenha sido a revelação de quantidades inesperadas de variação genética em indivíduos normais, por exemplo, através do 1000 Genomes Project Consortium [3, 4] (http://www.1000genomes.org ) e os projetos Cancer Genome Atlas (http://www.cancergenome.nih.gov). Além disso, as comparações de múltiplas sequências entre e dentro dos tecidos de um indivíduo revelaram extensa inter e intra-heterogeneidade genética do tecido [5-7]. Essas descobertas levantaram algumas questões fundamentais sobre nossos pressupostos genéticos mais básicos, entre os quais estão os seguintes: (i) Os estudos genéticos ainda podem contar com um exclusivo Sequência de DNA ou RNA derivada de sangue ou tecido doente para determinar o fenótipo? (ii) Existe realmente uma sequência de referência definitiva e prática do genoma humano ou, pelo menos, a sequência de referência adotada pelo NCBI (RefSeqGen) pode ser útil na determinação das relações genótipo / fenótipo? e (iii) A heterogeneidade genética em tecidos normais e doentes implica que em certos tecidos o genoma de um indivíduo irá naturalmente sofrer mudanças somáticas desde a concepção até a morte, conforme sugerido na Figura 1. Em particular, dados de heterogeneidade genética recentemente revelados podem ajudar a explicar o longo observado, mas conceitos mal compreendidos de expressividade variável e penetrância reduzida. Tradicionalmente, seus efeitos sobre as diferenças fenotípicas têm sido considerados relativamente insignificantes, particularmente para expressividade variável. Para complicar ainda mais as coisas, variações fenotípicas foram encontradas, onde alterações idênticas de genes foram associadas a (i) fenótipos de doenças consideravelmente diferentes, por exemplo, na deficiência de fenilalanina hidroxilase (PAH) [8], ou (ii) de uma maneira mais extrema em o gene do receptor de andrógeno (AR), com a síndrome de insensibilidade ao andrógeno (SIA) e câncer de próstata [9].

Fatores que podem afetar o genoma de um indivíduo desde a concepção até a morte. (1) Postulamos que as mutações somáticas podem ocorrer durante a embriogênese, e então são selecionadas para mais tarde na vida, para enfatizar a importância da identificação de mutações no início do desenvolvimento e o papel da seleção na determinação do fenótipo.

Além disso, também houve um aumento na descoberta de eventos modificadores de fenótipo significativos, incluindo modificações epigenéticas, edição de RNA e interações de proteínas que podem influenciar claramente eventos transcricionais e não transcricionais envolvidos na determinação do fenótipo. Assim, essas influências complexas também tendem a tornar problemática nossa compreensão tradicional da relação entre genótipo e fenótipo. Além disso, uma revisão recente da dissociação de genótipo / fenótipo que discutiu a possível base molecular da penetrância reduzida na doença hereditária humana, destacou 12 eventos moleculares que podem influenciar a penetrância reduzida [10], alguns dos quais também estão provavelmente envolvidos em situações de expressividade variável. Na Figura 2, sugerimos um modelo que incorpora alguns desses processos e como eles podem influenciar o fenótipo, com ênfase especial na influência da heterogeneidade genética intra-organismo e intra-tecido. Tradicionalmente, os bancos de dados genéticos têm sido as ferramentas de escolha na determinação das relações genótipo / fenótipo, entretanto, em sua forma atual, são totalmente inadequados para lidar com essas questões. Portanto, estamos sugerindo que é hora de criar bancos de dados genéticos de última geração (NGDB) que serão capazes de incorporar e analisar todos os fatores que podem contribuir para a dissociação do genótipo do fenótipo, incluindo aqueles que podem contribuir para a penetração reduzida e expressividade variável.

Fatores modificadores fenotípicos. (1) Mutações somáticas podem incluir variantes de nucleotídeo único e alterações estruturais, como variações no número de cópias, que podem então resultar em mosaicismo somático e clonal. (2) A pressão de seleção do microambiente celular pode funcionar no (i) nível de DNA, ou seja, devido a mutações somáticas ou (A) edição de DNA (ii) nível de RNA, ou seja, devido a (B) edição de RNA, (C) RNAs de interação , ou (D) fatores epigenéticos, etc. ou (iii) nível de proteína, isto é, devido a (E) interações proteína-proteína. (3) A pressão de seleção do microambiente do tecido pode selecionar um produto de proteína diferente. Setas cruzadas refletem o fato de que a seleção pode ir em qualquer direção.

Fatores que demonstraram influenciar o fenótipo

Mutações somáticas que resultam em heterogeneidade genética intra-organismo e intra-tecido

Até recentemente, presumia-se que as mutações somáticas estavam quase exclusivamente associadas aos cânceres e eram uniformes dentro de uma neoplasia individual. No entanto, diferentes conjuntos de mutações somáticas foram encontrados nos tecidos cancerosos de um único indivíduo, como em um estudo recente de cânceres ovarianos serosos de alto grau que revelou uma quantidade considerável de heterogeneidade genética intratumoral [11].

Variantes de sequência somática em tecidos normais também foram examinadas em relação à oncogênese. Um estudo concluiu que as variantes da sequência somática em populações de células normais podem ser o estágio inicial da oncogênese [12]. Evidências de que o desenvolvimento alterado da glândula mamária e a predisposição ao câncer de mama são devidos a no utero a exposição a desreguladores endócrinos sugeriu que a seleção de células com diferentes propriedades fenotípicas, presumivelmente como resultado de mutações somáticas muito precoces, pode ocorrer nos estágios iniciais do desenvolvimento do tecido mamário [13]. Assim, podemos precisar reconsiderar se o acúmulo de um número crítico de mutações oncogênicas, por exemplo, o acúmulo de mutações somáticas condutoras, é a razão pela qual muitos cânceres ocorrem mais tarde na vida. Em vez disso, foi proposto que, embora as origens genéticas do câncer possam ocorrer no início do desenvolvimento fetal, pressão de seleção posterior poderia explicar a relação entre envelhecimento e câncer [14]. Curiosamente, um possível mecanismo para produzir mutações somáticas muito precoces, ou seja, o adiamento temporário do reparo de lesões de DNA encontradas durante a replicação do tecido, que foi denominado bypass de dano, foi identificado como responsável pela hipermutação somática do gene da imunoglobina [15]. Independentemente de qual hipótese de oncogênese seja eventualmente comprovada, as implicações para a construção de NGDB para cânceres são provavelmente profundas, já que NGDBs precisarão considerar a incorporação de dados de sequência de estágios muito anteriores no desenvolvimento de um tecido, particularmente de tecidos que têm o potencial de se tornar canceroso. Obviamente, a capacidade de fazer isso no momento não é prática, mas é possível imaginar que, no futuro, novas técnicas de micro-amostragem, juntamente com o contínuo declínio dramático no custo de NGS, tornarão tal abordagem muito mais realista.

Além disso, como tecidos específicos estão sendo sequenciados rotineiramente, o número de outros tecidos doentes nos quais foram encontradas mutações somáticas aumentou consideravelmente [16]. Estudos mais detalhados também relataram mosaicismo somático em uma série de outras condições, incluindo a síndrome de Proteus [17] e hemimegalencefalia [18].

Além disso, um estudo de variantes do número de cópias (CNVs) em tecidos humanos somáticos revelou um número significativo de alterações genômicas intra-individuais entre os tecidos [19]. Outros estudos de anormalidades cromossômicas, incluindo CNVs, revelaram mosaicismo clonal associado ao envelhecimento e câncer [14], além de relacioná-lo a um maior risco de câncer hematológico [20].

Edição de DNA

No estado atual de nosso conhecimento, este processo ainda é considerado extremamente raro e de pouco significado fenotípico [21].

Edição de RNA

Evidências recentes, embora controversas, sugerem que a edição de RNA ocorre com mais frequência do que se pensava anteriormente [22, 23], embora tenham surgido questões de quão comum é realmente em tecidos normais e a validade do relatório original [24-26]. No entanto, parece haver casos em que as modificações dos fenótipos da doença estão relacionadas à edição do RNA [27, 28].

Correguladores: RNAs não codificantes

Nos últimos anos, descobriu-se que RNAs não codificantes (ncRNA) desempenham um papel importante na expressão fenotípica da produção genômica transcrita. Esta família de RNAs não traduzidos inclui pequenos RNAs nucleolares (snoRNAs), que facilitam o splicing do mRNA, regulam os fatores de transcrição e reprimem a expressão gênica [via microRNAs (miRNAs)]. Também foram identificados pequenos RNAs nucleares (snRNAs) que alteram a proliferação celular e a apoptose por meio de pequenos RNAs interferentes (siRNAs) [29]. RNAs não codificantes longos (lncRNAs) também foram identificados como possíveis reguladores da transcrição e expressão gênica. Assim, o uso de NGS para inferir os níveis de expressão da transcrição em geral, especificamente através da ncRNAs, está se tornando cada vez mais comum em laboratórios moleculares e clínicos [30]. Portanto, não é surpreendente que os ncRNAs tenham sido implicados como sendo responsáveis ​​por uma série de fenótipos de doenças [31].

Fatores epigenéticos

Epigenética descreve eventos baseados em cromatina que regulam processos modelados por DNA e resultam em reprogramação estável da expressão gênica em resposta a estímulos externos transitórios. Fatores epigenéticos primários incluem modificações no DNA e histonas que são dinamicamente adicionadas e removidas por enzimas modificadoras da cromatina de uma maneira altamente regulada. Os mecanismos epigenéticos identificados incluem metilação, fosforilação, ubiquitilação, sumoilação, interferência de RNA e variação de histonas do DNA. Além disso, tais modificações epigenéticas desempenham um papel crítico na regulação de processos baseados em DNA, como transcrição, reparo de DNA e replicação, que podem afetar a expressão do fenótipo. Assim, os padrões de expressão anormais ou mudanças genômicas nos reguladores da cromatina podem ter efeitos profundos nos processos de doenças humanas [32]. Na verdade, a epigenética é considerada um fator unificador na etiologia de alguns traços complexos [33].

Reguladores e outros tipos de proteínas de interação

Nos últimos anos, a expressão fenotípica também foi influenciada pela interação de proteínas. Alterações nas superfícies de interação de uma molécula específica [34] ou nas próprias proteínas interagindo podem resultar em interações proteína-proteína defeituosas e contribuir para um fenótipo de doença [35].

Pressão de seleção por microambientes celulares e de tecido

Foi proposto que a morfologia e o fenótipo do tumor são impulsionados pela pressão seletiva do microambiente do tecido [36, 37]. Esta hipótese foi expandida para incluir outros fenótipos doentes e não-doentes geneticamente determinados [38]. A capacidade de realizar sequenciamento ultra-profundo usando sequenciadores de próxima geração revelou muito mais variantes de um gene dentro dos tecidos e, portanto, a possibilidade de que a evolução no nível do tecido contribua para fenótipos de doenças como o câncer [37, 38].

Desconexões de genótipo / fenótipo e possíveis mecanismos

À luz de todos os fatores potenciais de modificação do fenótipo (Figura 2), que geralmente não são documentados em bancos de dados genéticos tradicionais, é fácil entender por que tais bancos de dados, em sua tentativa de vincular um genótipo definido a um fenótipo específico, tendem a evitar comentar sobre desconexões genótipo / fenótipo, devido à falta de informações sobre os mecanismos que poderiam produzir tais efeitos. No entanto, uma revisão recente destacou a importância de compreender essas desconexões, com mais de 650 referências citadas na proposição de 12 mecanismos moleculares para explicar a penetrância reduzida [10]. Da mesma forma, uma série de mecanismos possíveis foram sugeridos para explicar a expressividade variável, por exemplo, mosaicismo somático [39], genes modificadores [40], microRNA [41], processos epigenéticos [42] e heterogeneidade alélica [43]. Originalmente, o conceito de penetrância reduzida era baseado em estudos de condições genéticas bem conhecidas em que uma árvore genealógica previa um fenótipo de doença, mas esse fenótipo não foi observado. Embora na maioria dos casos a probabilidade de penetrância reduzida fosse pequena, ela serviu a um propósito útil no cálculo da possibilidade de um indivíduo ter um fenótipo doente. O conceito foi ainda mais expandido quando estudos em grande escala começaram a registrar a presença de mutações em genes específicos associados a doenças multifatoriais, como o câncer, um exemplo importante sendo os genes BRCA do câncer de mama. Nestes casos, a previsão da penetrância foi considerada importante na avaliação do risco de doença. O que complicou ainda mais a questão, como observamos, foram os dados recentes do Projeto 1000 Genomes e outros projetos de sequenciamento em grande escala, que relataram que indivíduos normais podem conter dezenas de alelos associados a doenças potencialmente graves [10]. Assim, em vez de falar sobre penetrância reduzida de uma variante patogênica em uma coorte que é conhecida por expressar o fenótipo da doença, agora temos que considerar por que essas variantes patogênicas não são penetrantes em um número significativo de indivíduos normais saudáveis.

Redefinindo a sequência de referência do genoma humano

Claramente, a chegada do sequenciamento do genoma inteiro relativamente barato e o subsequente sequenciamento de um grande número de indivíduos não doentes, revelou a presença crescente de variantes de genes associadas a doenças conhecidas em indivíduos não doentes. Isso foi inicialmente mostrado quando a primeira sequência do genoma coreano foi comparada a outros genomas asiáticos [44]. Estudos mais detalhados encontraram variantes de sequência em genes associados a distúrbios genéticos específicos, em indivíduos com fenótipos normais. Tais exemplos foram recentemente descobertos em uma análise genômica de 10 indivíduos saudáveis, onde cada indivíduo tinha o que foi dito ser 'variância saudável' em 19 a 31 genes OMIM, já que eles não exibiam nenhum dos sinais, sintomas ou fenótipos do doenças genéticas associadas [45]. No entanto, deve-se notar que nem todas as variantes de sequência nos genes OMIM são sempre patogênicas, como foi recentemente relatado de forma abrangente [10]. No entanto, uma pesquisa sistemática de variantes de perda de função (LoF) identificou 26 variantes conhecidas e 21 preditas causadoras de doenças graves na análise de 2.951 variantes LoF putativas obtidas de 185 genomas humanos [46]. O que é ainda mais problemático é que nosso próprio trabalho identificou variantes de sequência patogênica específica no gene AR em indivíduos com fenótipos completamente normais, ou seja, exatamente as mesmas variantes AR encontradas em indivíduos doentes [9].

Acreditamos que esses dados questionam a validade de nossos métodos atuais de definição do chamado genoma humano normal. Em particular, as desconexões de genótipo / fenótipo de tecido normal criaram claramente questões relacionadas à praticidade de confiar em uma única sequência de referência única como o preditor definitivo do fenótipo. O comitê de nomenclatura da Human Genome Variation Society (HGVS) estudou esta questão (http://www.hgvs.org/mutnomen/refseq.html) e recomendou que o NCBI RefSeqGen seja usado e que as diretrizes de sequência de referência sigam a Referência do Locus Formato de sequência genômica (LRG) [47], que sugere o uso de um registro de arquivo único contendo uma sequência única de referência estável. Essas recomendações eram adequadas no início da NGS, quando a extensão da variância em indivíduos normais era relativamente desconhecida. Naturalmente, entendemos que uma sequência de referência definitiva é importante na definição de parâmetros exônicos, intrônicos e outros parâmetros estruturais dos genes. No entanto, a questão de correlacionar o fenótipo com uma sequência específica tornou-se claramente muito mais complexa.

Para lidar com esse problema, a quantidade crescente de variabilidade de sequência em indivíduos normais foi incorporada à versão mais recente do NCBI RefSeqGen (GRC37p13) (http://www.ncbi.nlm.nih.gov/projects/genome/assembly/ grc / humano), com a ideia de que essas variantes poderiam ser usadas como um filtro contextual para determinar a relação entre genótipo e fenótipo. Além disso, ferramentas adicionais foram configuradas para lidar com a questão da variância normal, como considerar referências específicas da população onde os alelos principais são incluídos em cada local, ou gerar uma sequência de referência onde todos os alelos foram identificados como parte do linhagem ancestral comum dos humanos modernos. No entanto, poderíamos argumentar que apenas a integração da variância humana normal, embora matizada, em uma versão geral do RefSeqGen falha em lidar com o problema crescente da associação da mesma variante do gene com os fenótipos normais e doentes. Assim, confiar apenas em uma sequência de referência baseada em DNA, por mais sofisticada que seja, tornará muito difícil distinguir entre alterações genéticas benignas e causadoras de doenças, pelo menos em bancos de dados genéticos tradicionais, onde a classificação fenotípica de variantes genéticas específicas é baseada em ter uma sequência de referência única que está exclusivamente associada a um fenótipo normal.

Possível organização de bancos de dados genéticos de última geração

Como um princípio subjacente, NGDBs precisam ser organizados para levar em consideração, especialmente para doenças multifatoriais, a genética geral contexto de qualquer mutação identificada. No entanto, o contexto envolve tanto a heterogeneidade genética intra-orgânica quanto outros fatores modificadores do fenótipo (Figura 2). Esses fatores de modificação também precisam ser considerados no contexto da "análise do caminho" [48]. À luz dos muitos fatores contextuais que podem afetar a expressão do genótipo / fenótipo, parece razoável que o futuro dos bancos de dados locus-specific (LSDBs) devam ser organizados para levar em consideração o máximo possível de informações sobre o fenótipo específico, incluindo fatores modificadores do genótipo, ao contrário da maioria dos LSDBs presentes que são principalmente centrados no genótipo.

A questão de como lidar com a crescente identificação de mutações somáticas e heterogeneidade genética intra-organismo também precisa ser investigada. Tradicionalmente, as mutações somáticas não têm sido associadas a bancos de dados, a menos que um fenótipo de câncer esteja envolvido. Atualmente, a maioria dos bancos de dados baseados em doenças associadas a doenças multifatoriais comuns, como câncer, diabetes e doenças cardiovasculares, muitas vezes carecem de tecidos e dados específicos individuais. Na verdade, apenas o banco de dados COSMIC [49] lista um espectro abrangente de mutações somáticas associadas a tecidos específicos e amostras individuais. Além disso, atualmente, não há descrição das variantes de suscetibilidade da linha germinativa encontradas em tecidos de controle correspondentes, o que torna difícil tirar conclusões definitivas quanto ao significado de muitas mutações somáticas. A situação se tornará ainda mais complexa quando os dados de heterogeneidade genética inter e intratumorais forem adicionados. Claramente, os bancos de dados de arquivo simples tradicionais não serão capazes de lidar com esses dados e o que é necessário são estruturas de banco de dados radicalmente diferentes que incluem ferramentas de análise muito mais poderosas. Em particular, será necessário incorporar "ferramentas de análise de sistema" complexas que podem analisar as relações intrincadas entre ontologia genotípica e fenotípica [50]. Essas ferramentas de análise precisarão incorporar mecanismos de análise de conhecimento extremamente poderosos, possivelmente semelhantes em design e organização aos desenvolvidos pelo Google e outras empresas de mecanismos de pesquisa.

Esses mecanismos de conhecimento, para 'análise genética de sistemas', exigirão a criação de novas ferramentas de bioinformática poderosas e recursos de banco de dados tremendamente expandidos, particularmente para bancos de dados baseados em doenças. Em particular, eles serão obrigados a analisar genético e não genético variação em muitos conjuntos de dados, de diferentes subgrupos étnicos ou populações geográficas, com o objetivo final de integrar todos os bancos de dados genéticos e não genéticos para uma condição específica, especialmente se uma análise inicial baseada na população falhar em gerar quaisquer percepções significativas sobre o genótipo / relações de fenótipo. No momento, tal tarefa está claramente além de nossas capacidades, no entanto, estudos iniciais usando ratos começaram a gerar as ferramentas de bioinformática e recursos de banco de dados necessários para criar tais NGDBs [51]. Como os NGDBs incluirão heterogeneidade genética inter e intra-tecidos, um fator que precisa ser considerado é a importância de quantificar variantes que resultam em heterogeneidade genética, particularmente se estiverem presentes em genes individuais, em vez de simplesmente registrar sua presença. De fato, analisamos recentemente a heterogeneidade genética intra-tecido no gene AR em tecidos cancerígenos e não cancerosos retirados de tumores de mama e quantificamos as variantes de AR em amostras de tecido individuais usando uma nova técnica NGS [52]. Outra abordagem foi considerar o que foi denominado "genética de partículas", onde cada célula é considerada geneticamente única, usando loci de característica probabilística (PTL) para ligar regiões genômicas a probabilidades de características celulares [2].

Levando todos esses fatores em consideração, proporíamos um modelo NGDB que integra bancos de dados separados para cada um dos fatores de modificação do genoma potenciais, juntamente com um banco de dados de genótipos que incorpora heterogeneidade genética, com todos os bancos de dados individuais vinculados a um banco de dados de fenótipo associado , e os dados são então processados ​​e analisados ​​por meio de um mecanismo de conhecimento muito sofisticado (Figura 3).

Um modelo para bancos de dados genéticos de última geração. (1) Banco de dados de genótipos: (A) heterogeneidade genética nos tecidos sanguíneos e (B, C e D) em outros tecidos de um organismo. Cada um dos seguintes bancos de dados contém informações específicas associadas a diferenças fenotípicas: (2) banco de dados de edição de DNA, (3) banco de dados de edição de RNA, (4) banco de dados de co-reguladores, (5) banco de dados epigenético e (6) banco de dados de proteínas de interação. (7) Pressão seletiva do microambiente para diferentes fenótipos.

Resumo das possíveis ações necessárias para criar NGDBs

A seguir estão algumas das ações mais significativas que precisam ser realizadas na criação de NGDBs:

Trabalhe em conjunto com o consórcio 1000 Genomes Project e o Human Variome Project (HVP) para definir os limites e a importância da variação normal do genoma.

Incorporar heterogeneidade genética individual inter e intra-individual em NGDBs.

Estabeleça diretrizes quanto à importância do número de leituras necessárias para confirmar uma determinada variante. Observe que a profundidade de sequenciamento NGS inicial começou na cobertura de 4 × a 10 × e aumentou rapidamente para onde a cobertura de 30 × a 50 × é considerada normal. No entanto, estudos recentes mostram que o aumento da cobertura provavelmente resultará no aumento da detecção de variantes [53, 54], que no caso da cobertura de diagnóstico de tumor agora atingiu até 20.000 leituras.

Determine como a frequência diferente de ocorrência de variantes de genes múltiplos dentro de indivíduos deve ser incorporada em NGDBs. Deve-se notar que, no momento, tais frequências geralmente não são incorporadas em bancos de dados, principalmente em LSDBs. Também ajudaria claramente a integrar dados de variantes estruturais, como CNVs, em LSDBs.

Incorpore dados de expressão efetivamente em parâmetros de dados de fenótipo em NGDBs. Observe que exemplos de variações específicas de tecido na expressão gênica já foram relatados [55]. Além disso, os dados do projeto Genotype-Tissue Expression [56] podem ser inestimáveis ​​na determinação das relações entre a expressão do gene do tecido e o fenótipo da doença.

Finalmente, pesquise os parâmetros de bioinformática e de dados necessários para construir NGDBs que podem incorporar e analisar todos os dados acima. Para ser realmente eficaz, acreditamos que esse esforço deva envolver especialistas em genética, bioinformática e motores de busca e conhecimento baseados em biologia de sistemas, bem como um esforço mundial de coleta de variação genética como, por exemplo, proposto pelo HVP.

Sugestões de ações futuras a serem tomadas pelo HVP

Acreditamos que a HVP seja uma organização que poderia desempenhar um papel de liderança no desenvolvimento de NGDBs, primeiro criando um comitê especial para examinar projetos futuros de bancos de dados genéticos para lidar com algumas das questões levantadas neste artigo. Esse comitê pode incluir não apenas especialistas em nomenclatura, mas também especialistas na criação dos algoritmos necessários para projetar os bancos de dados, bem como os mecanismos de pesquisa e analíticos. Com base nas recomendações desse comitê, o HVP poderia então criar um Instituto de Pesquisa de Banco de Dados Genético, que além de ser responsável pelo projeto do NGDB, poderia criar um modelo de trabalho da infraestrutura necessária para executar tais bancos de dados em escala mundial. Em particular, será importante estabelecer uma estrutura de desenho universal para que todos os NGDBs tenham um alto grau de compatibilidade, e acreditamos que se tal desenho for coordenado por meio de HVP, que já desempenha tal papel na nomenclatura genética, é muito mais probabilidade de ser aceito. Finalmente, na era das nuvens de dados e plataformas de comunicação sofisticadas, tal instituição não precisa ter uma estrutura física, mas pode ser um instituto virtual, que permitiria a participação de especialistas de todo o mundo.


Introdução

Osteogenesis imperfecta (OI) é um grupo fenotipicamente e geneticamente heterogêneo de doenças ósseas caracterizadas por fragilidade óssea e deformidade esquelética, devido à anormalidade do colágeno tipo I formado por duas cadeias & # x3b11 (I) (codificadas por COL1A1 gene) e uma cadeia & # x3b12 (I) (codificada por COL1A2 gene). Indivíduos com OI apresentam baixa massa óssea, o que resulta em deformidade de ossos longos, anomalias vertebrais e fraturas, encurtamento de extremidades e defeito no crânio (Marini et al., 2007). Os fenótipos extraesqueléticos observados incluem dentinogênese imperfeita (DI), pele fina, esclera azul, escoliose, anormalidades do sistema cardiovascular e pulmonar, face triangular e deficiência auditiva (Foster et al., 2014 Marini et al., 2017). Estudos anteriores categorizam OI em quatro subtipos (tipos I & # x2013IV) com base em achados clínicos, padrões de herança e características radiográficas: OI tipo I é a forma mais branda, OI tipo II é a forma letal perinatal, enquanto OI tipo III é o mais grave forma, e OI tipo IV é caracterizado pela forma leve a moderada (Sillence et al., 1979 Rauch et al., 2010 Lin et al., 2015 Mrosk et al., 2018). Com uma compreensão aprofundada da doença de OI, mais subtipos foram definidos e adicionados ao sistema de classificação original OI & # x2019s, tornando o número de subtipos atualizado para 18 (Forlino e Marini, 2016 Marini et al., 2017 Lu et al., 2019).

Evidências atuais demonstram que COL1A1 e COL1A2 são os principais fatores na causa da OI, visto que aproximadamente 85% a 90% dos casos são perturbados por eles, e todos os quatro subtipos estão envolvidos em COL1A1 e COL1A2 genes (http://www.le.ac.uk/ge/collagen/). Existem duas categorias gerais de defeitos mutacionais ocorridos em COL1A1/COL1A2. A primeira é a mutação missense, envolvendo principalmente a substituição de glicina dentro da repetição Gly-Xaa-Yaa (a substituição missense Gly), que resulta na síntese de colágeno com estrutura anormal (Lin et al., 2015). O segundo é um grupo de variações que inclui mutações frameshift, nonsense e splicing, que levam principalmente à redução da quantidade de colágeno tipo I normal. Estudos anteriores mostraram que o segundo grupo de variação está frequentemente associado a fenótipos mais suaves, enquanto o missense de substituição de Gly geralmente leva a fenótipos mais graves (Rauch et al., 2010 Zhang et al., 2012). Considerando a especificidade fenotípica do missense de substituição de Gly, gostaríamos de investigar mutações de substituição de Gly mais potencialmente patogênicas para a exploração do mecanismo de OI.

Além dos genes de colágeno relacionados à OI confirmados (COL1A1 e COL1A2), na última década, uma série de estudos descobriram que um conjunto de novos defeitos gênicos não colágenos afetam o processamento pós-tradução normal, o dobramento molecular do colágeno tipo I, a formação de fibrilas, a diferenciação de osteoblastos e a mineralização, levando a raros casos autossômicos formas recessivas, dominantes e ligadas ao X de OI (Bregou Bourgeois et al., 2016 Lindert et al., 2016 Marom et al., 2016 Marini et al., 2017). Com o rápido desenvolvimento da tecnologia de sequenciamento de próxima geração, quase 18 genes patogênicos não colágenos foram gradualmente identificados (Forlino e Marini, 2016 Marini et al., 2017 Mrosk et al., 2018), incluindo BMP1, CRTAP, P3H1, PPIB, TMEM38B, SERPINH1, FKBP10, PLOD2, IFITM5, SERPINF1, WNT1, CREB3L1, SP7, SPARC, MBTPS2, P4HB, PLS3, e SEC24D. Based on the complexity of bone formation and clinical observation, we believe that new potential disease-related genes remain to be identified.

Genotype and phenotype associations can provide new insights into understanding the disease mechanism (Geng et al., 2017 Li et al., 2017). The phenotypic severity depends not only on the affected gene, but also on the position of the mutation in the gene. To identify new missense mutations associated with OI, in the present study, we firstly collected genotypic and phenotypic information on 155 patients from literature and evaluated the genotype–phenotype associations. Next, we identified a set of disease-associated variations in COL1A1 e COL1A2 by integrative analysis with several software designed to predict functional effect of human missense mutations. In addition, considering the fact that each biological function is accomplished by the interactions of multiple proteins, we performed network-based analysis and pathway enrichment analysis to identify novel candidate risk genes potentially contributing to the development of OI. Considering limited availability of the patient size and the complex pathogenesis for OI, our comprehensive analysis could promote better understanding of OI in the clinical diagnose, genetic counseling, and prenatal diagnosis.


A comprehensive global genotype–phenotype database for rare diseases

The ability to discover genetic variants in a patient runs far ahead of the ability to interpret them. Databases with accurate descriptions of the causal relationship between the variants and the phenotype are valuable since these are critical tools in clinical genetic diagnostics. Here, we introduce a comprehensive and global genotype–phenotype database focusing on rare diseases.

Métodos

This database (CentoMD ® ) is a browser-based tool that enables access to a comprehensive, independently curated system utilizing stringent high-quality criteria and a quickly growing repository of genetic and human phenotype ontology (HPO)-based clinical information. Its main goals are to aid the evaluation of genetic variants, to enhance the validity of the genetic analytical workflow, to increase the quality of genetic diagnoses, and to improve evaluation of treatment options for patients with hereditary diseases. The database software correlates clinical information from consented patients and probands of different geographical backgrounds with a large dataset of genetic variants and, when available, biomarker information. An automated follow-up tool is incorporated that informs all users whenever a variant classification has changed. These unique features fully embedded in a CLIA/CAP-accredited quality management system allow appropriate data quality and enhanced patient safety.

Resultados

More than 100,000 genetically screened individuals are documented in the database, resulting in more than 470 million variant detections. Approximately, 57% of the clinically relevant and uncertain variants in the database are novel. Notably, 3% of the genetic variants identified and previously reported in the literature as being associated with a particular rare disease were reclassified, based on internal evidence, as clinically irrelevant.

Conclusões

The database offers a comprehensive summary of the clinical validity and causality of detected gene variants with their associated phenotypes, and is a valuable tool for identifying new disease genes through the correlation of novel genetic variants with specific, well-defined phenotypes.


Major racial bias found in leading genomics databases

Researchers have confirmed for the first time that two of the top genomic databases, which are in wide use today by clinical geneticists, reflect a measurable bias toward genetic data based on European ancestry over that of African ancestry. The results of their study were published in the latest issue of Nature Communications.

The research team was led by Principal Investigator Timothy O'Connor PhD, assistant professor at the University of Maryland School of Medicine (UM SOM) and a faculty member of the school's Institute of Genomic Sciences. He is also a specialist in the areas of Human Evolutionary Genomics, Genotype/Phenotype Architecture, and Computational Biology. Other members of the study included researchers from UM SOM's Department of Medicine and the Program in Personalized and Genomic Medicine, and from the Johns Hopkins University, the University of Colorado, and the Henry Ford Health System.

This deficit in African ancestry genomic data was identified during an 18-month long study conducted under the auspices of the larger Consortium on Asthma among African-Ancestry Populations in the Americas (CAAPA). To create a benchmark for comparison to current database results, the researchers first created the largest, high-quality non-European genome data set ever assembled. Genetic samples of 642 subjects from the African diaspora, including representatives from US, African, and Afro-Caribbean populations, were sequenced in order to produce this unique data set. Then, when compared with current clinical genomic databases, researchers found a clearer preference in those databases for European genetic variants over non-European variants.

"By better understanding the important role of African ancestry in clinical genetics, we can begin to actually identify a disease that has been forgotten or is not part of an individual's self-identification," says O'Connor. "For example, if an African-American patient walks in the door, he might have 20 percent European ancestry, while another might have 20 percent African ancestry. That difference will dramatically change how many variants are found in their genome, and what disease risks they might encounter. That's why we need to expand these databases to include a broader range of ancestries, in order to produce more accurate medical genetic diagnoses."

O'Connor also points out that this shortfall in genomic data also comes at a financial cost. "If you translate the review time it takes for each one of these variants to be sequenced in terms of cost in a clinical setting, you're looking at a difference of about $1,000 more to analyze an African American's genome than a European American's genome -- and you still receive less accurate results," he notes.

"This groundbreaking research by Dr. O'Connor and his team clearly underscores the need for greater diversity in today's genomic databases," says UM SOM Dean E. Albert Reece, MD, PhD, MBA, who is also Vice President of Medical Affairs at the University of Maryland and the John Z. and Akiko Bowers Distinguished Professor at UM SOM. "By applying the genetic ancestry data of all major racial backgrounds, we can perform more precise and cost-effective clinical diagnoses that benefit patients and physicians alike."


Reconhecimentos

  • Head developer: James Staley
  • Production team: James Staley, Mihir Kamat, James Blackshaw, Praveen Surendran, Adam Butterworth & Robin Young
  • Acknowledgements: Benjamin Sun, Steve Ellis, Dirk Paul, Stephen Burgess, Daniel Freitag & John Danesh
  • Funders: UK Medical Research Council (G0800270), British Heart Foundation (SP/09/002), UK National Institute for Health Research Cambridge Biomedical Research Centre And European Research Council (268834) & European Commission Framework Programme 7 (HEALTH-F2-2012-279233)

Referências

Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases. In: Proceedings of the 1993 ACM SIGMOD international conference on management of data. 2. Washington DC: ACM Press 1993. p. 207–16.

American Psychiatric Association. Manual diagnóstico e estatístico de transtornos mentais: DSM-IV-TR. Washington, DC: American Psychiatric Association 2000.

Baum AE, Akula N, Cabanero M, Cardona I, Corona W, et al. A genome-wide association study implicates diacylglycerol kinase eta (DGKH) and several other genes in the etiology of bipolar disorder. Mol Psychiatry. 200813:197–207. https://doi.org/10.1038/sj.mp.4002012.

Benjamini Y. Simultaneous and selective inference: current successes and future challenges. Biom J. 201052:708–21. https://doi.org/10.1002/bimj.200900299.

Benjamini Y, Hochberg Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. J R Stat Soc Ser B (Methodological). 199557:289–300.

Biel M, Seeliger M, Pfeifer A, Kohler K, Gerstner A, Ludwig A, Jaissle G, Fauser S, Zrenner E, Hofmann F. Selective loss of cone function in mice lacking the cyclic nucleotide-gated channel CNG3. Proc Natl Acad Sei USA. 199996:7553–7.

Cichon S, Mühleisen TW, Degenhardt FA, Mattheisen M, Miró X, et al. Genome-wide association study identifies genetic variation in neurocan as a susceptibility factor for bipolar disorder. Am J Hum Genet. 201188:372–81. https://doi.org/10.1016/j.ajhg.2011.01.017.

Craddock N, O’Donovan MC, Owen MJ. The genetics of schizophrenia and bipolar disorder: dissecting psychosis. J Med Genet. 200542:193–204. https://doi.org/10.1136/jmg.2005.030718.

Ding X-Q, Fitzgerald JB, Quiambao AB, Harry CS, Malykhina AP. Molecular pathogenesis of achromatopsia associated with mutations in the cone cyclic nucleotide-gated channel CNGA3 subunit. Adv Exp Med Biol. 2010664:245–53. https://doi.org/10.1007/978-1-4419-1399-9_28.

Fangerau H, Ohlraun S, Granath RO, Nöthen MM, Rietschel M, et al. Computer-assisted phenotype characterization for genetic research in psychiatry. Hum Hered. 200458:122–30. https://doi.org/10.1159/000083538.

Han J, Kamber M. Data mining concepts and techniques, second edition. 2ª ed. Amsterdam: Elsevier Morgan Kaufmann Publishers 2006.

Heine S, Michalakis S, Kallenborn-Gerhardt W, Lu R, Lim HY, Weiland J, Del Turco D, Deller T, Tegeder I, Biel M, Geisslinger G, Schmidtko A. CNGA3: a target of spinal nitric oxide/cGMP signaling and modulator of inflammatory pain hypersensitivity. J Neurosci. 201131:11184–92.

Kotsiantis S, Kanellopoulos D. Association rules mining: a recent overview. Int Trans Comput Sci Eng. 200632:71–82.

Lam K, Guo H, Wilson GA, Kohl S, Wong F. Identification of variants in CNGA3 as cause for achromatopsia by exome sequencing of a single patient. Arch Ophthalmol. 2011129:1212–7. https://doi.org/10.1001/archophthalmol.2011.254.

Lango Allen H, Estrada K, Lettre G, Berndt SI, Weedon MN, et al. Hundreds of variants clustered in genomic loci and biological pathways affect human height. Natureza. 2010467:832–8. https://doi.org/10.1038/nature09410.

Lee SH, Wray NR, Goddard ME, Visscher PM. Estimating missing heritability for disease from genome-wide association studies. Am J Hum Genet. 201188:294–305. https://doi.org/10.1016/j.ajhg.2011.02.002.

Lee KW, Woon PS, Teo YY, Sim K. Genome wide association studies (GWAS) and copy number variation (CNV) studies of the major psychoses: what have we learnt? Neurosci Biobehav Rev. 2012a36:556–71. https://doi.org/10.1016/j.neubiorev.2011.09.001.

Lee SH, DeCandia TR, Ripke S, Yang J, Schizophrenia Psychiatric Genome-Wide Association Study Consortium (PGC-SCZ), International Schizophrenia Consortium (ISC), Molecular Genetics of Schizophrenia Collaboration (MGS), Sullivan PF, Goddard ME, Keller MC, Visscher PM, Wray NR. Estimating the proportion of variation in susceptibility to schizophrenia captured by common SNPs. Nat Genet. 2012b44:247–50.

Leinders-Zufall T, Cockerham RE, Michalakis S, Biel M, Garbers DL, Reed RR, Zufall F, Munger SD. Contribution of the receptor guanylyl cyclase GC-D to chemosensory function in the olfactory epithelium. Proc Natl Acad Sei USA. 2007104(36):14507–12.

Le-Niculescu H, Patel SD, Bhat M, Kuczenski R, Faraone SV, et al. Convergent functional genomics of genome-wide association data for bipolar disorder: comprehensive identification of candidate genes, pathways and mechanisms. Am J Med Genet Part B Neuropsychiatr Genet. 2009150B:155–81. https://doi.org/10.1002/ajmg.b.30887.

Liu Y-C, Cheng C-P, Tseng VS. Discovering relational-based association rules with multiple minimum supports on microarray datasets. Bioinformatics. 201127:3142–8. https://doi.org/10.1093/bioinformatics/btr526.

Maimon OZ, Rokach L. Data mining and knowledge discovery handbook. New York: Springer 2005.

Mansour HA, Wood J, Logue T, Chowdari KV, Dayal M, et al. Association study of eight circadian genes with bipolar I disorder, schizoaffective disorder and schizophrenia. Genes Brain Behav. 20065:150–7. https://doi.org/10.1111/j.1601-183X.2005.00147.x.

Martinez R, Pasquier N, Pasquier C. GenMiner: mining non-redundant association rules from integrated gene expression data and annotations. Bioinformatics. 200824:2643–4. https://doi.org/10.1093/bioinformatics/btn490.

McElroy SL, Kotwal R, Keck PE Jr. Comorbidity of eating disorders with bipolar disorder and treatment implications. Bipolar Disord. 20068:686–95. https://doi.org/10.1111/j.1399-5618.2006.00401.x.

McElroy SL, Frye MA, Hellemann G, Altshuler L, Leverich GS, et al. Prevalence and correlates of eating disorders in 875 patients with bipolar disorder. J Affect Disord. 2011128:191–8. https://doi.org/10.1016/j.jad.2010.06.037.

McGuffin P, Rijsdijk F, Andrew M, Sham P, Katz R, et al. The heritability of bipolar affective disorder and the genetic relationship to unipolar depression. Arch Gen Psychiatry. 200360:497–502. https://doi.org/10.1001/archpsyc.60.5.497.

McMahon FJ, Akula N, Schulze TG, Muglia P, Tozzi F, et al. Meta-analysis of genome-wide association data identifies a risk locus for major mood disorders on 3p21.1. Nat Genet. 201042:128–31. https://doi.org/10.1038/ng.523.

Michalakis S, Kleppisch T, Polta SA, Wotjak CT, Koch S, et al. Altered synaptic plasticity and behavioral abnormalities in CNGA3-deficient mice. Genes Brain Behav. 201110:137–48. https://doi.org/10.1111/j.1601-183X.2010.00646.x.

Munger SD, Leinders-Zufall T, McDougall LM, Cockerham RE, Schmid A, et al. An olfactory subsystem that detects carbon disulfide and mediates food-related social learning. Curr Biol. 201020:1438–44. https://doi.org/10.1016/j.cub.2010.06.021.

Nakatani N. Genome-wide expression analysis detects eight genes with robust alterations specific to bipolar I disorder: relevance to neuronal network perturbation. Hum Mol Genet. 200615:1949–62. https://doi.org/10.1093/hmg/ddl118.

Ngai EWT, Xiu L, Chau DCK. Application of data mining techniques in customer relationship management: a literature review and classification. Expert Syst Appl. 200936:2592–602. https://doi.org/10.1016/j.eswa.2008.02.021.

Nievergelt CM, Kripke DF, Barrett TB, Burg E, Remick RA, et al. Suggestive evidence for association of the circadian genes PERIOD3 and ARNTL with bipolar disorder. Am J Med Genet B Neuropsychiatr Genet. 2006141B:234–41. https://doi.org/10.1002/ajmg.b.30252.

Nurnberger JI Jr, Blehar MC, Kaufmann CA, York-Cooler C, Simpson SG, et al. Diagnostic interview for genetic studies. Rationale, unique features, and training. NIMH Genetics Initiative. Arch Gen Psychiatry. 199451:849–59 (discussion 863–864).

Pinheiro AP, Bulik CM, Thornton LM, Sullivan PF, Root TL, et al. Association study of 182 candidate genes in anorexia nervosa. Am J Med Genet B Neuropsychiatr Genet. 2010153B:1070–80. https://doi.org/10.1002/ajmg.b.31082.

Potash JB, Toolan J, Steele J, Miller EB, Pearl J, et al. The bipolar disorder phenome database: a resource for genetic studies. Am J Psychiatry. 2007164:1229–37. https://doi.org/10.1176/appi.ajp.2007.06122045.

Purcell S, Neale B, Todd-Brown K, Thomas L, Ferreira MAR, et al. PLINK: um conjunto de ferramentas para associação de genoma inteiro e análises de ligação com base na população. Am J Hum Genet. 200781:559–75. https://doi.org/10.1086/519795.

Purcell SM, Wray NR, Stone JL, Visscher PM, O’Donovan MC, et al. Common polygenic variation contributes to risk of schizophrenia and bipolar disorder. Natureza. 2009460:748–52. https://doi.org/10.1038/nature08185.

Schulze TG. What is familial about familial bipolar disorder? Resemblance among relatives across a broad spectrum of phenotypic characteristics. Arch Gen Psychiatry. 200663:1368. https://doi.org/10.1001/archpsyc.63.12.1368.

Schulze TG, Akula N, Breuer R, Steele J, Nalls MA, Singleton AB, Degenhardt FA, Nöthen MM, Cichon S, Rietschel M, Bipolar Genome Study, McMahon FJ. Molecular genetic overlap in bipolar disorder, schizophrenia, and major depressive disorder. World J Biol Psychiatry. 201415:200–8.

Shi J, Wittke-Thompson JK, Badner JA, Hattori E, Potash JB, et al. Clock genes may influence bipolar disorder susceptibility and dysfunctional circadian rhythm. Am J Med Genet Part B Neuropsychiatr Genet. 2008147B:1047–55. https://doi.org/10.1002/ajmg.b.30714.

Sipilä T, Kananen L, Greco D, Donner J, Silander K, et al. An association analysis of circadian genes in anxiety disorders. Biol Psychiatry. 201067:1163–70. https://doi.org/10.1016/j.biopsych.2009.12.011.

Sklar P, Ripke S, Scott LJ, Andreassen OA, Cichon S, et al. Large-scale genome-wide association analysis of bipolar disorder identifies a new susceptibility locus near ODZ4. Nat Genet. 201143:977–83. https://doi.org/10.1038/ng.943.

Smith EN, Bloss CS, Badner JA, Barrett T, Belmonte PL, et al. Genome-wide association study of bipolar disorder in European American and African American individuals. Mol Psychiatry. 200914:755–63. https://doi.org/10.1038/mp.2009.43.

Smith EN, Koller DL, Panganiban C, Szelinger S, Zhang P, et al. Genome-wide association of bipolar disorder suggests an enrichment of replicable associations in regions near genes. PLoS Genet. 20117:e1002134. https://doi.org/10.1371/journal.pgen.1002134.

Spitzer RL, Williams JB, Gibbon M, First MB. The structured clinical interview for DSM-III-R (SCID). I: history, rationale, and description. Arch Gen Psychiatry. 199249:624–9.

Sullivan PF, Daly MJ, O’Donovan M. Genetic architectures of psychiatric disorders: the emerging picture and its implications. Nat Rev Genet. 201213:537–51. https://doi.org/10.1038/nrg3240.

Wang C, Cao D, Wang Q, Wang D-Z. Synergistic activation of cardiac genes by myocardin and Tbx5. PLoS ONE. 20116:e24242. https://doi.org/10.1371/journal.pone.0024242.

Webb GI. Discovering significant rules. In: Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. New York: ACM Press 2006. p. 434–43. https://doi.org/10.1145/1150402.1150451.

Organização Mundial da Saúde. International statistical classification of diseases and related health problems. Geneva: World Health Organization 2011.


Discussão

Based on the breakdown of total number of associated pairs for each laboratory condition (Figure 2) for the 0.8 correlation data set, the phenotypes that have 10 or more associated COGs have a more likely chance of containing confirmed literature hits. This is roughly 3% of the total number of phenotype-COG pairs. However, there are labs such as B30/Oxidase, FAM/Mannose, and FAT/Trehalose with only 2 results, but all are confirmed at 100%. The 0.9 correlation data set has 86% confirmed associations out of all the characterized pairs, while the 0.8 correlation data set has 66%.

Diagram of correlation analysis for associating COGs to lab condition phenotypes. The correlation analysis measures the association between a COG's organism profile (presence or absence of an organism) and a lab condition's organism survival profile. Organisms that have a COG (red) are mapped to the organism's response to adverse growth conditions (blue) creating two vectors that are used for the correlation calculation.

Number of COG-phenotype associated pairs in each subset of the 0.8 and 0.9 threshold correlation score data sets. The resulting data sets of the (a) 0.8 correlation threshold and the (b) 0.9 correlation threshold are broken down into four different subsets. Total number (dark blue) is the total number of COG-phenotype associated pairs found at the 0.8 and 0.9 thresholds respectively. Characterized (light purple) refers to those pairs where the COG has a known function. Annotated (blue-green) are those pairs which were selected for literature verification. Finally, confirmed (light blue) are the associations which were validated in the literature. This is shown for each lab indicated by its GIDEON identifier.

This study reports a percentage of confirmed associations in order to approximate the accuracy of these results. However, this number is most likely a lower bound, since it is possible that some of the predicted associations mentioned in this paper will be experimentally corroborated in the future, raising these percentages.

In addition, although we used the literature as a means of verifying associations, in essence, it is those associations which we were unable to verify that are perhaps the most interesting because these represent new testable hypotheses. By uncovering these novel relationships, it is possible to make inferences about the interrelatedness of what at the outset seem disparate processes. In a similar fashion, for the purpose of assessing our method we were unable to include the COGs with unknown function, but ideally we would like to extend this method to make predictions regarding possible functions of these uncharacterized COGs on the basis of the phenotypes they are most associated with. Finally, while the data in the GIDEON database is extensive, not all assays were performed on all microbes resulting in some missing data.


An atlas of mitochondrial DNA genotype-phenotype associations in the UK Biobank

Published in Nature Genetics, a collaboration between Public Health and Primary Care, Clinical Neurosciences and the MRC Mitochondrial Biology Unit has shown that genetic variants of maternally-inherited mitochondrial DNA (mtDNA) modify our risk of developing common diseases including type 2 diabetes and multiple sclerosis, and also affect our liver and kidney function, and many different blood cell measurements.

Studying 358,916 UK Biobank participants, Kate Yonova-Doing and Claudia Calabrese working with Jo Howson and Patrick Chinnery, developed methods to study 553 mtDNA variants across the UK. Remarkably, mtDNA affects 227 different human phenotypes including the number of red cells and platelets in our blood. MtDNA and nuclear DNA are independently inherited, but some mtDNAs were more likely to be found in people with a Scottish, Welsh or Northumbrian nuclear genetic ancestry – implying the two genomes interact in the population.

Jo Howson said: “mtDNA has been largely ignored in large genetic studies. Here we show this small circular genome plays an important role in many common diseases, and should be factored in to future genetics analyses using the methods we have developed’. Patrick Chinnery said: “We were surprised to see how our mtDNA can influence so many human characteristics. Until recently, populations variants of mtDNA were thought to have no function. Here we show that DNA we inherit from our mother can even influence our height and how long we live”.

Publication Reference: Yonova-Doing, E et al. An atlas of mitochondrial DNA genotype-phenotype associations in the UK Biobank. Nature Genetics 17 May 2021 DOI: 10.1038/s41588-021-00868-1


Assista o vídeo: FENOTIPO Y GENOTIPO (Dezembro 2021).