Em formação

O que se entende por 'genes que se sobrepõem a variantes estruturais herdadas'?


Estou lendo um artigo de jornal sobre genes relacionados ao autismo e me deparei com a seguinte declaração:

Para avaliar a semelhança da função biológica entre alelos de risco raros, comparamos o conhecimento funcional de genes que se sobrepõem a variantes estruturais herdadas em indivíduos com TEA idiopáticos em relação a controles saudáveis

Não tenho certeza do que se entende por "genes que se sobrepõem a variantes estruturais herdadas". Eu pesquisei a definição de variantes estruturais e, de acordo com a Wikipedia, variação estrutural se refere à variação na estrutura do cromossomo de um organismo, como deleções, duplicações, variantes de número de cópias, inserções, inversões e translocações.

No entanto, não tenho certeza do que se entende por genes que se sobrepõem às variantes estruturais herdadas. Isso significa que, para variantes estruturais comuns entre indivíduos com TEA, existem alguns genes comuns que são encontrados nessas regiões (as variantes estruturais herdadas)? Todos os insights são apreciados.


Se bem entendi, o que este artigo está analisando é uma rara variação do número de cópias em casos de ASD em relação aos controles. Portanto, no contexto do artigo, a passagem que você citou está basicamente dizendo que encontramos genes que tinham variação de número de cópias entre casos e controles, ou seja, os casos tinham um padrão de mais / menos cópias de um trecho do genoma que inclui um gene do que os controles. Em seguida, eles examinam as funções dos genes que encontraram em um banco de dados de ontologia de genes para ver se eles parecem estar relacionados ao TEA.


Mutações e variantes do coronavírus: o que isso significa?

Os organismos em geral, sejam humanos, plantas, insetos, bactérias ou vírus, sofrem mutações genéticas que podem ser benéficas ou prejudiciais. Embora os vírus não estejam tecnicamente vivos, eles também sofrem mutação e evoluem à medida que infectam a célula de um hospedeiro, se replicam e se movem para outra célula ou um novo hospedeiro. O processo pelo qual um vírus se espalha é o que chamamos de transmissão. Existem diferenças nas taxas de mutações entre os diferentes tipos de vírus. Como exemplo, o coronavírus SARS-CoV-2, que causa a entidade clínica que conhecemos como COVID-19, sofre mutação aproximadamente a cada 11-15 dias. Isso é cerca de metade da taxa de influenza (gripe) e cerca de um quarto das taxas de HIV. As mutações geram variabilidade dentro de uma população, o que permite que a seleção natural amplifique características que são benéficas, neste caso, para a partícula viral, uma vez que os vírus não são considerados organismos per se.

Sabemos que o coronavírus tem atualmente 12.700 mutações identificadas, 12 tipos principais do vírus (identificados como 19 A, o tipo original, até 20 J), cinco cepas e quase 4.000 variantes. As cepas são conhecidas como L, a cepa original, que sofreu mutação na cepa S seguida por V e G (com mais mutação em GR, GH e GV, e várias mutações infrequentes agrupadas coletivamente como O). As cepas G são agora a cepa dominante em todo o mundo. Variantes do SARS-CoV-2 com mutações da proteína spike (S) D614G tornaram-se a variante mais comum. É assim denominado porque um aminoácido é alterado de D (aspartato) para G (glicina) na posição número 614 das proteínas de pico viral. A proteína spike medeia a ligação aos receptores alvo e a fusão à membrana da célula humana. A proteína S se estende da membrana viral dando à superfície do vírus uma aparência de coroa, para a qual o vírus é denominado corona é coroa em latim. A maioria das variantes preocupantes contém mutações no domínio de ligação ao receptor (RBD). Parece que essas mutações são responsáveis ​​pelo aumento da infectividade viral, virulência e potência de evasão imunológica. Sabe-se que o RBD está envolvido no reconhecimento viral e na ligação e interação com o receptor celular, portanto, quaisquer alterações estruturais parecem estar diretamente relacionadas à transmissibilidade e virulência viral. Também foi identificado em vários estudos que os anticorpos desenvolvidos contra o RBD demonstraram ter potência máxima contra o SARS-CoV-2.

Tudo começa no genoma do RNA do coronavírus, que é composto por 30.000 nucleotídeos, a unidade estrutural básica dos ácidos nucléicos. A melhor maneira de pensar sobre isso é como um alfabeto de 30.000 letras que formam as sequências de 29 genes. O próprio vírus é uma bobina de material genético em uma casca de proteína com um envelope externo na maioria das vezes. O vírus se liga a um receptor de célula-alvo humana, injeta seu material genético e assume o controle da célula, transformando-se em uma fábrica de replicação de vírus. À medida que se replica, podem ocorrer mutações e ajudar ou comprometer o vírus. Muitas das mutações identificadas são irrelevantes, pois não alteram a biologia do vírus. As mutações são transmitidas por meio da linhagem, melhor descritas como um ramo da árvore genealógica. Um grupo de coronavírus que possuem o mesmo conjunto herdado de mutações muito distintas é chamado de variante. A linhagem passa a ser conhecida como cepa e, neste exemplo específico, o COVID-19 é causado por uma cepa de coronavírus conhecida como SARS-CoV-2. Durante o curso da pandemia, identificamos várias variantes globalmente, cinco das quais são preocupantes, pois as cepas estão associadas a taxas de transmissão mais altas que podem impactar a eficácia da vacina e da terapia, e parece que o aumento da mortalidade pode estar associado a pelo menos uma variante. Mais recentemente, várias variantes foram identificadas nos Estados Unidos que compartilham algumas mutações com as variantes mais agressivas inicialmente identificadas em outros países.

O primeiro passo para compreender as variantes e o impacto que elas têm na infecção, reinfecção e possíveis efeitos nas vacinas e tratamentos é conhecer as mutações. Embora existam milhares de mutações na maior parte, até agora, sete delas são as mais críticas de saber.

D614G Spike Mutation

A mutação D614G Spike foi a primeira mutação preocupante identificada na China no início da pandemia. Essa mutação se espalhou rapidamente pelo mundo, permitindo que os vírus mutados substituíssem rapidamente as cepas sem a mutação. Embora pareça aumentar a infecciosidade, não foi associado a doenças mais graves ou redução da eficácia da vacina.

Mutação A222V

A primeira mutação associada à variante observada na Europa é conhecida como A222V, identificada na variante B.1.177 (20A.EU1) que se originou na Espanha e dominou a paisagem europeia por meses. Não ouvimos muito sobre isso, porque não tem sido associado ao aumento da transmissão.

N501Y Spike Mutation

Mais preocupantes são as próximas cinco mutações identificadas. A primeira é a mutação N501Y Spike, que foi identificada em pelo menos três variantes preocupantes. Encontrada na ponta da proteína Spike, essa mutação parece causar um ajuste mais firme e, portanto, mais eficaz aos receptores de células humanas.

E484K Spike Mutation

A mutação E484K Spike é uma preocupação significativa, pois foi identificada não apenas em três das variantes globais, mas também nas variantes americanas recentemente descritas. Foi observado in vitro que esta mutação altera a forma das proteínas no pico viral, o que pode potencialmente mascarar a porção antigênica de anticorpos. Tem havido muita especulação se esta mutação pode impactar a eficácia dos tratamentos com anticorpos monoclonais e causar reinfecção em alguns pacientes.

Mutação L452R

A próxima mutação, embora infrequente nos Estados Unidos, foi associada a muitos casos na Califórnia. L452R desencadeou o surgimento de numerosas variantes globais e está presente nas duas variantes da Califórnia recentemente identificadas, que também carregam outras mutações. A mutação L452R pode aumentar a interação entre o vírus e a célula hospedeira, o que, por sua vez, pode aumentar significativamente a transmissão viral e a virulência. Também pode reduzir a capacidade de neutralização de vírus de anticorpos que visam especificamente o pico de RBD.

Mutação K417N / T

A sexta é a mutação K417N / T localizada na ponta da proteína spike, uma área importante para o processo de reconhecimento de anticorpos. Em alguns experimentos, a mutação K417N / T foi associada com diminuição do reconhecimento de anticorpos e possível resistência a alguns anticorpos. A possibilidade de um processo de ligação vírus / célula mais eficaz também foi descrita.

Mutação Q677

Mais recentemente, a mutação Q677 foi descrita em pelo menos sete linhagens inicialmente identificadas na Louisiana e no Novo México. Agora está em sete estados, principalmente no centro-sul e sudeste dos Estados Unidos. Esta mutação está a quatro aminoácidos de distância do local de clivagem S1 / S2, uma área onde outras mutações foram identificadas nas cepas mais infecciosas. Não está claro atualmente se esta mutação aumenta as taxas de transmissão.

B.1.1.7 Variante

Os centros de controle de doenças definiram três níveis diferentes de ameaças associadas às variantes. Estas são variantes de interesse (B.1.526, B.1.525 e P.2), variantes de interesse (B.1.1.7, P.1, B.1.351, B.1.427 e B.1.429) e variantes de alta consequência. Nos EUA, identificamos apenas as duas primeiras categorias. Para as variantes preocupantes, há evidências de maior transmissibilidade, doenças mais graves e eficácia terapêutica reduzida. Atualmente, variantes identificadas globalmente foram detectadas em vários estados. Identificada pela primeira vez no Reino Unido é a variante conhecida como B.1.1.7, agora presente em pelo menos 90 países e 51 estados, incluindo Washington. Esta variante acumulou um grande número de mutações, incluindo várias na proteína do pico. Dos 17 identificados, o mais notável é a mutação N501Y, que ajuda o vírus a formar uma ligação mais firme aos receptores ACE2. Esta variante é aproximadamente 50% mais infecciosa do que o tipo selvagem de vírus e estima-se que dobre nos EUA a cada 10 dias.

B.1.351 Variante

Assim que a variante B.1.1.7 estava sendo identificada, outra variante com o mesmo tipo de mutação N501Y foi identificada na África do Sul. Esta variante é conhecida como B.1.351 e contém mutações adicionais, como a K417N, e mais preocupante a mutação E484K. Este último foi identificado em 48 países e 30 estados, incluindo Washington. Estudos in vitro sugeriram um potencial para uma resposta imune embotada e um pequeno impacto na eficácia da vacina.

P.1 Variante

Uma variante com origem no Brasil foi relatada pela primeira vez no Japão, conforme identificada em quatro pessoas rastreadas na chegada a um aeroporto fora de Tóquio. Postula-se que os viajantes adquiriram a variante conhecida como P.1 enquanto estavam no Brasil, onde a linhagem é traçada até a cidade de Manaus, a maior cidade da região amazônica. Esta variante tem 17 mutações únicas na proteína spike que incluem o N501Y, E484K e K417N discutido anteriormente. Ele foi identificado em pelo menos 25 países e 22 estados, incluindo Washington. De particular preocupação são os relatos anedóticos de reinfecção em pessoas que se recuperaram da doença.

CAL.20C - B.1.427 e B.1.429

Várias outras variantes foram identificadas nos EUA nos últimos meses. Uma dessas variantes com a mutação L452R foi identificada na Califórnia e é considerada uma variante preocupante. A variante designada como CAL.20C tem duas formas: B.1.427 e B.1.429. Acredita-se que causa uma fixação mais forte que pode impedir que anticorpos neutralizantes interfiram no processo de fixação. Trabalho adicional é necessário para determinar o impacto que isso tem na transmissibilidade e na gravidade da doença.

B.1.526 e B.1.525

As variantes B.1.526 e B.1.525 identificadas em Nova York e rastreadas até Washington Heights, um bairro de Manhattan, a variante B.1.526 tem dois tipos: uma com a mutação de pico E484K que pode embotar a resposta do anticorpo e outra com a S477N mutação que pode aumentar a eficácia do processo de fixação. A mutação E484K também está presente nas variantes brasileiras e sul-africanas. Estas, além do P.2 identificado no Brasil, são atualmente classificadas como variantes de interesse.

Novas variantes do meio-oeste

No meio-oeste, especificamente em Columbus, Ohio, duas novas variantes do clado 20G do SARS-CoV-2 foram identificadas. A variante predominante tem várias mutações, incluindo o Q677H e foi identificada em vários estados do meio-oeste superior. É conhecido como a variante “Centro-Oeste”. Posteriormente, uma segunda variante com a mutação S N501Y, que é um marcador de B.1.1.7, mas sem todas as outras mutações associadas a essa cepa, foi identificada. Esta mutação também foi associada à variante sul-africana. Será importante determinar melhor o impacto que essas variantes terão no padrão pandêmico geral.

É importante lembrar que o que a maioria dessas variantes têm em comum é um padrão de transmissão mais eficaz, que tem sido associado a um surto de infecções em várias áreas do mundo. Além disso, alguns dados sugerem que o aumento da morbidade e talvez da mortalidade pode estar associado a algumas das variantes. O impacto sobre o tratamento e as vacinas ainda está sendo determinado, embora os dados preliminares apontem para um impacto mínimo na eficácia da vacina. Além disso, os fabricantes de vacinas têm capacidades significativas na reformulação de vacinas.

Também sabemos que o modo de transmissão é o mesmo do coronavírus do tipo selvagem (inalterado), portanto, a prevenção da infecção deve seguir uma orientação de saúde pública semelhante: coberturas faciais, distanciamento social, evitando encontros e praticando higiene e saneamento adequados. Essas regras simples, juntamente com o aumento da imunização e níveis apropriados de testes, continuam a ser os pilares principais em nossa gestão da pandemia.


4. Como o NCBI exibe dados de variantes

Capturando informações de variantes

A variação estrutural (VS) pode ser complexa para representar. As tecnologias atuais raramente fornecem resolução de par de base para pontos de interrupção variantes. No entanto, existe um conjunto básico de dados que captura todas as informações necessárias sobre uma variante, incluindo o grau de incerteza presente na localização dos pontos de interrupção. Este conjunto de dados inclui:

coordenadas start-stop: usado para definir eventos onde os pontos de interrupção são conhecidos por resolução de pares de base. Para inserções, start = stop, indicando a base imediatamente antes de a sequência inserida.

Coordenadas internas de start-stop: usado para definir regiões que são conhecido por ser afetado por uma variante, mas não define os pontos de interrupção reais. Os pontos de interrupção mentem lado de fora da região definida.

coordenadas externas de start-stop: usado para definir o limite externo absoluto de um evento de variação, mas não define os pontos de interrupção reais. Os pontos de interrupção mentem dentro da região definida.

comprimento do alelo: o comprimento da variante afetada. Por exemplo, o mapeamento de extremidade emparelhada pode identificar uma exclusão de 5 kb que é conhecida por residir em um intervalo definido de 40 kb, mas seus pontos de interrupção não são conhecidos. O comprimento do alelo (neste caso, 5 kb) não precisa ser exato - aproximações são aceitáveis, dependendo do método.

Representação visual de variantes

Exibindo a incerteza das localizações dos pontos de interrupção

Exibir a incerteza na definição das regiões depende da combinação de coordenadas que estão associadas à variante:

Comece e pare apenas: Isso implica que temos uma resolução de ponto de interrupção e é representado simplesmente:

Partida / parada interna / externa: Típico de um método baseado em sonda, mas também pode ocorrer com outros métodos. A partida / parada interna define a região conhecida por estar envolvida com o evento. A partida / parada externa define a região onde o ponto de interrupção provavelmente ocorrerá.

Partida / parada interna apenas: Pode ocorrer em estudos de sondagem, estudos com curadoria ou estudos históricos.

Partida / parada externa apenas: Provável de ocorrer com estudos de mapeamento, mas pode aparecer em outros estudos também. Observe as setas cinza apontando para dentro, que indicam que os limites internos não são conhecidos.


Discussão

Nenhum estudo anterior comparou de forma abrangente a precisão dos algoritmos de detecção de VS existentes. Embora os artigos que descrevem novos algoritmos de detecção de SV geralmente incluam alguns benchmarking, eles o fizeram usando apenas um número limitado de algoritmos de comparação. Um estudo recente comparou os desempenhos de sete algoritmos de detecção de MEI existentes [74], e os resultados estão bem correlacionados com nossos resultados de avaliação de algoritmos de detecção de MEI. Apesar da consistência geral na classificação de precisão dos algoritmos entre os conjuntos de dados (Arquivo adicional 1: Figura S12), os valores de rechamada para os dados reais foram geralmente baixos em relação aos dos dados simulados. Isso seria em parte devido à presença de SVs redundantes sobrepostos nos dados de SV de referência do NA12878, porque os dados DGV são derivados de várias fontes de estudos. Como alternativa, vários SVs falsamente detectados podem ser incluídos no conjunto de referência. Além disso, os níveis mais baixos de precisão observados nos dados reais, especialmente para chamadas DUP e INV, seriam em parte devido a um número de DUPs / INVs não identificados ausentes do conjunto de dados SV de referência NA12878. Refinamento mais elaborado, envolvendo validação experimental, dos dados de referência do NA12878 SV deve ser feito no futuro. Apesar dessas deficiências, os valores de recall e precisão para os dados reais podem ser considerados como valores relativos para classificar os desempenhos relativos dos algoritmos.

Com base em nossos resultados de avaliação, listamos os algoritmos que exibem maior precisão e valores de recuperação para os conjuntos de dados reais simulados e NA12878 (Tabela 1, consulte também Arquivo adicional 1: Tabela S19 para uma lista estendida), embora esta lista possa ser alterada dependendo de qual nível de precisão ou recall é necessário. Ele mostra os 2–7 principais (os 30% principais para a Tabela S19) algoritmos para cada categoria exibindo altos valores da soma do normalizado F-medidas dos dados simulados e reais e exibindo curto tempo de execução (& lt 200 min na Fig. 5). No geral, GRIDSS, Lumpy, SVseq2, SoftSV e Manta mostram bons desempenhos na chamada de DELs de diversos tamanhos. TIDDIT [75], forestSV [76], ERDS e CNVnator chamam DELs grandes, enquanto algoritmos de detecção de SV usando leituras longas, incluindo pbsv, Sniffles e PBHoney, são bons na detecção de DELs pequenos. Para detecção de DUP, boas opções incluem Wham, SoftSV, MATCHCLIP e GRIDSS. CNVnator, ERDS e iCopyDAV [77] alcançam bons desempenhos na chamada de grandes tamanhos de DUPs. Para INSs, MELT, Mobster, inGAP-sv e algoritmos de detecção de SV com dados de leitura longos efetivamente chamariam variantes confiáveis. AS-GENESENG, Control-FREEC, OncoSNP-Seq e GenomeSTRiP podem detectar SVs com mais precisão em outros tipos de aplicativos, como detecção de SV somática ou chamada de SV com dados de sequenciamento de exoma inteiros ou dados de amostra múltipla, porque esses algoritmos foram projetados de forma mais intensiva para tais aplicações. Também listamos os algoritmos de baixo desempenho na Tabela S20 no arquivo adicional 1.

Em quase todos os casos, os SVs chamados em comum entre vários algoritmos exibem maior precisão e menor recall do que aqueles chamados com um único algoritmo, mas o grau de maior precisão e diminuição do recall varia com base na combinação específica de algoritmos, incluindo ambos de leitura curta - e longos algoritmos baseados em leitura. Mills et al. examinou a precisão de chamadas sobrepostas entre cinco métodos e demonstrou que combinar algoritmos baseados no mesmo método aumentava a precisão, mas o aumento era menor do que quando combinava algoritmos baseados em métodos diferentes [14]. Isso é consistente com nossas observações. No entanto, a combinação de algoritmos com base nos mesmos métodos fornece um aumento moderado na precisão e menos diminuição no recall. Estudos anteriores selecionaram chamadas de VS sobrepostas entre pelo menos dois conjuntos de vários conjuntos de chamadas de VS para aumentar a precisão [13, 14, 24,25,26,27,28]. No entanto, essa estratégia pode aceitar chamadas sobrepostas de pares “ruins” de algoritmos cujas chamadas sobrepostas fornecem apenas um pequeno aumento na precisão com uma diminuição considerável no recall. É promissor, portanto, mesclar iterativamente as chamadas sobrepostas dos pares de algoritmos selecionados, dando alta qualidade das chamadas sobrepostas, gerando assim um conjunto de chamadas SV com alta precisão e recuperação. Além disso, o uso de chamadas sobrepostas também deve melhorar a precisão dos BPs, tamanhos e genótipos dos VSs, pois podemos selecionar os BPs / tamanhos / genótipos de algoritmos que fornecem maior precisão para essas propriedades de VS, mostrados neste estudo.


Associação de traços e genética clínica

A maioria dos estudos de associação de características em grande escala considerou apenas SNVs em estudos de associação de todo o genoma (GWAS). Aproveitando o tamanho da amostra e a resolução de gnomAD-SV, avaliamos se os SNVs associados a características humanas podem estar em desequilíbrio de ligação com os SVs não genotipados diretamente em GWAS. Identificamos 15.634 SVs comuns (frequência de alelo & gt1%) em desequilíbrio de ligação forte (R 2 ≥ 0,8) com pelo menos uma variante curta comum (Fig. 7 suplementar), 14,8% dos quais corresponderam a uma associação relatada do catálogo NHGRI-EBI GWAS ou a uma análise recente de 4.203 fenótipos no UK Biobank 33,34. SVs comuns em desequilíbrio de ligação com variantes de GWAS foram enriquecidos para SVs gênicos em várias categorias funcionais (Tabela Suplementar 6) e incluíram SVs candidatos, como uma deleção de um potenciador de tireoide no primeiro íntron de ATP6V0D1 em um locus 34 associado ao hipotireoidismo (dados estendidos Fig. 7). Também identificamos correspondências para SVs causais propostas anteriormente marcadas por SNVs comuns, incluindo exclusões de pLoF de CFHR3 ou CFHR1 em nefropatias e de LCE3B ou LCE3C na psoríase 35,36. Esses resultados demonstram o valor de imputar VSs em GWAS, e para a eventual unificação de variantes curtas e VSs em todos os estudos de associação de traços. Dado o valor potencial deste recurso, liberamos esses mapas de desequilíbrio de ligação na Tabela Suplementar 7.

À medida que a medicina genômica avança para a triagem diagnóstica na resolução de sequência, métodos computacionais para descoberta de variantes do WGS e referências populacionais para interpretação se tornarão indispensáveis. Uma categoria de VSs associados à doença, CNVs recorrentes mediados por duplicações segmentares homólogas conhecidas como distúrbios genômicos, são particularmente importantes porque representam coletivamente uma causa comum de distúrbios do desenvolvimento 37. A detecção precisa de CNVs grandes e mediados por repetição é, portanto, crucial para o teste de diagnóstico baseado em WGS, uma vez que o microarray cromossômico é a triagem diagnóstica de primeira linha recomendada no momento para transtornos de desenvolvimento inexplicáveis ​​37. Usando gnomAD-SV, avaliamos nossa capacidade de detectar distúrbios genômicos em dados WGS calculando frequências portadoras de CNV para 49 distúrbios genômicos em 10.047 amostras não relacionadas sem doença neuropsiquiátrica conhecida e descobrimos que as frequências portadoras de CNV em gnomAD-SV eram consistentes com aquelas relatadas de microarray cromossômico no Reino Unido Biobank 38 (R 2 = 0,669 teste de correlação de Pearson, P = 7,38 × 10 −13) (Fig. 6a, Tabela suplementar 8, Fig. 20 suplementar). As frequências de portadores de doenças genômicas não variaram significativamente entre as populações, com exceção de duplicações de NPHP1 em 2q13, em que as frequências portadoras em amostras do Leste Asiático foram até 4,6 vezes maiores do que em outras populações, destacando ainda mais o potencial para a interpretação de variantes ser confundida pela diversidade limitada de referências de SV existentes (Fig. 21 complementar).

uma, Comparação de frequências portadoras para 49 deleções supostamente associadas a doenças (vermelho) e duplicações (azul) em loci de desordem genômica entre gnomAD-SV e análises de microarray no UK Biobank (UKBB) 38. Barras claras indicam intervalos de confiança binomiais de 95%. A linha cinza sólida representa o melhor ajuste linear. b, Pelo menos um pLoF ou SV com ganho de cópia foi detectado em 36,9% e 23,7% de todos os genes autossômicos, respectivamente. 'Restrito' e 'não restrito' inclui o mínimo e o mais restrito 15% de todos os genes com base em LOEUF 4, respectivamente. c, Taxas de portadores para SVs pLoF muito raros (frequência de alelo & lt 0,1%) em genes clinicamente relevantes em várias listas de genes 7,39,44. VVs por categoria listada na Tabela Suplementar 9. d, Taxas de portadores para SVs autossômicos raros muito grandes (≥1 Mb) entre 12.653 genomas. As barras representam intervalos de confiança binomiais de 95%. e, Um SV complexo envolvendo pelo menos 49 pontos de interrupção e sete cromossomos (ver também dados estendidos Fig. 8). As setas azul-petróleo indicam o ponto de inserção no cromossomo 1.

No contexto da interpretação de variantes, o recurso atual do gnomAD-SV permitirá um limiar de triagem de frequências de alelos inferiores a 0,1% ao combinar a ancestralidade com as populações amostradas aqui, e frequências de alelos inferiores a 0,004% globalmente. Na versão atual, catalogamos pelo menos um pLoF ou variante de ganho de cópia para 36,9% e 23,7% de todos os genes autossômicos, respectivamente, e 490 genes com pelo menos um pLoF SV homozigoto (Fig. 6b, Dados estendidos Fig. 6e, Suplementar Fig. 22). Também comparamos as taxas de portadores para várias categorias de variantes clinicamente relevantes no gnomAD-SV. Em primeiro lugar, 0,32% das amostras carregavam um SV muito raro (frequência de alelo & lt 0,1%) resultando em pLoF de um gene para o qual achados incidentais são clinicamente acionáveis, quase metade dos quais (isto é, 0,13% de todas as amostras) atenderia aos critérios de diagnóstico como patogênico ou provavelmente patogênico com base nas recomendações do American College of Medical Genetics (ACMG) 7 (Fig. 6c). Em segundo lugar, 7,22% dos indivíduos eram portadores heterozigotos de pLoF SVs raros em genes de transtorno de desenvolvimento recessivo conhecidos 39. Terceiro, estimamos que 3,8% da população em geral (intervalo de confiança de 95% de 3,2-4,6%) carrega pelo menos uma VS autossômica rara muito grande (≥1 Mb), cerca de metade da qual (45,2%) era equilibrada ou complexa ( Fig. 6d). Entre eles estava um exemplo de quebra de cromossomos localizados envolvendo pelo menos 49 pontos de quebra, ainda resultando em produtos amplamente equilibrados, uma reminiscência de cromotripsia, em um adulto sem doença grave conhecida ou defeito de reparo de DNA 13,14,22 (Fig. 6e, Dados Estendidos Fig. 8). Coletivamente, essas análises destacam o potencial dos métodos de SV com base em gnomAD-SV e WGS para aumentar os estudos de associação de doenças e a interpretação clínica em um amplo espectro de classes variantes e projetos de estudo.


DISCUSSÃO

Apresentamos o primeiro estudo a usar fenotipagem comportamental e métodos genômicos para abordar a genética subjacente da personalidade e traços comportamentais em cães domésticos. Nós identificamos e re-sequenciamos um locus candidato associado à WBS em humanos e conhecido por estar sob seleção positiva no genoma do cão doméstico (19) Descobrimos que esta região também abriga um grande número de SVs altamente polimórficos em caninos, alguns dos quais são privados de um cão ou raça individual. Este achado é concordante com a heterogeneidade genética da WBS em humanos, onde as deleções variam de 100 kb a 1,8 Mb em tamanho com pontos de quebra variáveis, atribuídos à instabilidade cromossômica (4143) Portanto, não é surpreendente que o mesmo seja verdadeiro para os cães. Aqui, identificamos VSs encontrados em vários indivíduos que estavam significativamente associados a um ou mais traços comportamentais quantificados informativos sobre HYP e cognição.

Notavelmente, nosso estudo revelou uma associação estatisticamente significativa entre VSs em GTF2I e GTF2IRD1, fatores de transcrição basais que regulam o desenvolvimento dos vertebrados (4448), com medidas de comportamento social dirigido por humanos típicos da EAP. Haploinsuficiência de GTF2I e GTF2IRD1 foi repetidamente associada a HYP em camundongos knockout e pacientes de WBS (34, 35, 37, 48, 49) Surpreendentemente, pacientes com WBS com intacta GTF2I e GTF2IRD1 não exibiu HYP (36, 46) Além disso, um estudo recente vinculado GTF2I polimorfismos para os níveis de oxitocina salivar dependente do contexto social em humanos, sugerindo um possível mecanismo pelo qual GTF2I pode exercer seus efeitos sobre a sociabilidade (50) A variação do número de cópias associada à WBS é conhecida por reduzir a transcrição de ambos os genes dentro e flanqueando as deleções hemizigóticas, uma assinatura molecular também encontrada em outras síndromes humanas (por exemplo, síndrome de Smith-Magenis e síndrome de DiGeorge) (42, 51) Os SVs causais foram confirmados em um modelo de camundongo para reduzir a transcrição, consistente com as mudanças na dosagem do gene, e resultar em HYP, taxas de crescimento retardadas e defeitos cognitivos (35).

Nosso terceiro gene descrito, WBSCR17, não foi previamente associado à sociabilidade. No entanto, este gene é regulado positivamente em células tratadas com N-acetilglucosamina, um derivado de glicose, sugerindo um papel no metabolismo de carboidratos (52) SVs em WBSCR17 pode representar uma adaptação a uma dieta rica em amido típica de viver em assentamentos humanos, uma especulação concordante com um estudo anterior (53).

Dois dos SVs mais associados com HYP, uma característica exibida exclusivamente em cães domésticos entre os canídeos, foram SINE (elemento nuclear intercalado curto) e TEs LINE (elemento nuclear intercalado longo), subtipos de retrotransposons que têm altas taxas de inserção [por exemplo , 1 em 108 nascimentos humanos tem uma inserção L1 de novo (54)]. Com grandes consequências fenotípicas devido à amplificação de alguns loci, esses elementos móveis têm sido implicados na evolução do genoma canídeo (55, 56), bem como doenças caninas, síndromes e morfologia (5762) Por causa de seu recente desenvolvimento e forte cruzamento seletivo, uma arquitetura genética simples controlando muitas características caninas é esperada. Isso foi bem documentado para uma série de características complexas caninas, como o comportamento (16, 63, 64), cor da pelagem (59, 65), tamanho do corpo (60), e comprimento da perna (61).

Nós pesquisamos esses TEs em uma amostra extensa de caninos selvagens e domésticos e descobrimos que eles são extremamente raros em coiotes, enquanto outras inserções foram derivadas e encontradas apenas para segregar dentro de cães domésticos. Com um tamanho de amostra maior e aproveitando os fenótipos comportamentais dos estereótipos da raça, encontramos uma associação significativa entre o número de cópias TE e o comportamento. Conseqüentemente, é concebível que a seleção atuando nos TEs associados ao HYP possa ter ajudado a moldar a evolução da família dos canídeos. Além disso, sugerimos que os SVs vinculados à PCI canina provavelmente contribuem para o atraso de desenvolvimento que facilita a formação de laços interespécies e o HYP juvenil exibido em relação a esses companheiros sociais na idade adulta. Este acoplamento apresenta um paralelo intrigante para os mesmos processos observados em indivíduos afetados por WBS (20) Juntos, esses resultados sugerem um papel importante para a família TFII-I de fatores de transcrição em um fenótipo comportamental definidor de cães domésticos, mapeando assim o HYP canino para os genes associados ao HYP em humanos com WBS. Nosso estudo exemplifica a estratégia bem-sucedida de estudos genéticos caninos para mapear uma região heterogênea, informada por e relevante para um traço humano complexo ortólogo.

À luz de nossos achados, propomos uma hipótese unificadora para explicar um aspecto da domesticação canina, onde indivíduos com tendências hipersociais foram favorecidos sob reprodução seletiva, acentuando um comportamento provavelmente influenciado por VS no locus da PCI canina. Ao contrário da hipótese de domesticação de "cognição social semelhante à humana" (3), which argues that dogs developed advanced forms of social cognition otherwise unique to human beings, the HYP hypothesis presented here posits that adult dogs show exaggerated motivation to seek social contact, which is absent in adult wolves. Our findings provide insight into one genetic mechanism by which the hypersocial response of domestic dogs toward humans compared with human-reared wolves can be acted on and shaped by selection during species domestication. This mechanism is expected to predispose dogs for hypersocial responses toward any bonded companion. This is consistent with the finding that domestic dogs appear to maintain, or even increase, the duration of social engagements with humans and conspecifics as they approach adulthood, with the opposite trend found in wolves (66) In summary, our findings suggest that the same region affected by structural variants in human WBS is associated with the exuberant sociability of domestic dogs. The evidence presented here represents a shift regarding the role of domestication in the evolution of canine behavior, from a vehicle of advanced social cognition to one of HYP.


Agradecimentos

The authors thank Caitlin Clements, Patience Gallagher, Stephanie Kravitz, and Preetha Palasuberniam for their assistance in conducting the literature review for this paper. Dr. Dunn was supported in part by funding from the Center on the Developing Child at Harvard University. Dr. Smoller was funded in part by NIMH grant K24MH094614. Dr. Nugent was funded in part by NIMH grant K01MH087240. The content is solely the responsibility of the authors and does not necessarily represent the official views of the National Institute of Mental Health or the National Institutes of Health.


Genetic link between face and brain shape

An interdisciplinary team led by KU Leuven and Stanford has identified 76 overlapping genetic locations that shape both our face and our brain. What the researchers didn't find is evidence that this genetic overlap also predicts someone's behavioural-cognitive traits or risk of conditions such as Alzheimer's disease. This means that the findings help to debunk several persistent pseudoscientific claims about what our face reveals about us.

There were already indications of a genetic link between the shape of our face and that of our brain, says Professor Peter Claes from the Laboratory for Imaging Genetics at KU Leuven, who is the joint senior author of the study with Professor Joanna Wysocka from the Stanford University School of Medicine. "But our knowledge on this link was based on model organism research and clinical knowledge of extremely rare conditions," Claes continues. "We set out to map the genetic link between individuals' face and brain shape much more broadly, and for commonly occurring genetic variation in the larger, non-clinical population."

Brain scans and DNA from the UK Biobank

To study genetic underpinnings of brain shape, the team applied a methodology that Peter Claes and his colleagues had already used in the past to identify genes that determine the shape of our face. Claes: "In these previous studies, we analysed 3D images of faces and linked several data points on these faces to genetic information to find correlations." This way, the researchers were able to identify various genes that shape our face.

For the current study, the team relied on these previously acquired insights as well as the data available in the UK Biobank, a database from which they used the MRI brain scans and genetic information of 20,000 individuals. Claes: "To be able to analyse the MRI scans, we had to measure the brains shown on the scans. Our specific focus was on variations in the folded external surface of the brain -- the typical 'walnut shape'. We then went on to link the data from the image analyses to the available genetic information. This way, we identified 472 genomic locations that have an impact on the shape of our brain. 351 of these locations have never been reported before. To our surprise, we found that as many as 76 genomic locations predictive of the brain shape had previously already been found to be linked to the face shape. This makes the genetic link between face and brain shape a convincing one."

The team also found evidence that genetic signals that influence both brain and face shape are enriched in the regions of the genome that regulate gene activity during embryogenesis, either in facial progenitor cells or in the developing brain. This makes sense, Wysocka explains, as the development of the brain and the face are coordinated. "But we did not expect that this developmental cross-talk would be so genetically complex and would have such a broad impact on human variation."

No genetic link with behaviour or neuropsychiatric disorders

At least as important is what the researchers did not find, says Dr Sahin Naqvi from the Stanford University School of Medicine, who is the first author of this study. "We found a clear genetic link between someone's face and their brain shape, but this overlap is almost completely unrelated to that individual's behavioural-cognitive traits."

Concretely: even with advanced technologies, it is impossible to predict someone's behaviour based on their facial features. Peter Claes continues: "Our results confirm that there is no genetic evidence for a link between someone's face and that individual's behaviour. Therefore, we explicitly dissociate ourselves from pseudoscientific claims to the contrary. For instance, some people claim that they can detect aggressive tendencies in faces by means of artificial intelligence. Not only are such projects completely unethical, they also lack a scientific foundation."

In their study, the authors also briefly address conditions such as Alzheimer's, schizophrenia, and bipolar disorder. Claes: "As a starting point, we used the results that were previously published by other teams about the genetic basis of such neuropsychiatric disorders. The possible link with the genes that determine the shape of our face had never been examined before. If you compare existing findings with our new ones, you see a relatively large overlap between the genetic variants that contribute to specific neuropsychiatric disorders and those that play a role in the shape of our brain, but not for those that contribute to our face." In other words: our risk of developing a neuropsychiatric disorder is not written on our face either.

This research is a collaboration between KU Leuven, Stanford University School of Medicine, University of Pittsburgh, Pennsylvania State University, Indiana University Purdue University Indianapolis, Cardiff University, and George Mason University.


Materiais e métodos

Plant material

Seeds for 1135 Arabidopsis (A. thaliana) genotypes were obtained from the 1001 genomes catalog of UMA. thaliana genetic variation (https://1001genomes.org/). All Arabidopsis genotypes were grown at 22°C/24°C (day/night) under long-day conditions (16 hr of light/8 hr of dark). Two independent replicates were performed, each of them included the full set of genotypes. The replicates obtained from independent maternal plants were grown in randomized fashion. In the analyses, only accessions from Europe and around Europe were included (Figure 3A), resulting in an analysis of 797 accessions. A list of the accessions can be found in Supplementary file 1.

GSL extractions and analyses

3 mg of seeds were harvested in 200 μL of 90% methanol. Samples were homogenized for 3 min in a paint shaker, centrifuged, and the supernatants were transferred to a 96-well filter plate with DEAE sephadex. The filter plate with DEAE sephadex was washed with water, 90% methanol and water again. The sephadex-bound GSLs were eluted after an overnight incubation with 110 μL of sulfatase. Individual desulfo-GSLs within each sample were separated and detected by HPLC-DAD, identified, quantified by comparison to standard curves from purified compounds and further normalized to the weight. A list of GSLs and their structure is given in Supplementary file 1A. Raw GSLs data are given in Supplementary file 1B.

Statistics, heritability and data visualization

Statistical analyses were conducted using R software (https://www.R-project.org/) with the RStudio interface (http://www.rstudio.com/). For each independent GLS, a linear model followed by ANOVA was utilized to analyze the effect of accession, replicate and location in the experiment plate upon the measured GLS amount. Broad-sense heritability (Supplementary file 1C) for the different metabolites was estimated from this model by taking the variance due to accession and dividing it by the total variance. Estimated marginal means (emmeans) for each accession were calculated for each metabolite from the same model using the package emmeans (CRAN, 2021a Supplementary file 1D). PCAs were done with FactoMineR and factoextra packages (Abdi and Williams, 2010). Data analyses and visualization were done using R software with tidyverse (Wickham et al., 2019) and ggplot2 (Kahle and Wickham, 2013) packages.

Maps were generated using ggmap package (Kahle and Wickham, 2013).

Phenotypic classification based on GSL content

For each accession, the expressed enzyme in each of the following families was determined based on the content (presence and amounts) of short-chained aliphatic GSLs.

MAM enzymes: The total amount of three carbon GSLs and four carbon GSLs was calculated for each accession. Three carbon GSLs include 3MT, 3MSO, 3OHP and Allyl GSL. Four carbon GSLs include 4MT, 4MSO, 4OHB, 3-Butenyl and 2-OH-3-Butenyl GSL (for structures and details, see Supplementary file 1). Accessions that the majority of aliphatic short-chained GSL contained three carbons in their side chains were classified as MAM2 expressed (Figure 4—figure supplement 1). Accessions that the majority of aliphatic short-chained GSL contained four carbons in their side chains were classified as MAM1 expressed (Figure 4—figure supplement 1). The accessions were plotted on a map based on their original collection sites (Figure 4—figure supplement 1).

AOP enzymes: The relative amount of alkenyl GSL, alkyl GSL and MSO GSL was calculated in respect to the total short-chained aliphatic GSL as follows:

The expressed AOP enzyme was determined based on those ratios: Accessions with majority alkenyl GSL were classified as AOP2 expressed. Accessions with majority of alkyl GSL were classified as AOP3 expressed. Accessions with majority of MSO GSL were classified as AOP null. The accessions were plotted on a map based on their original collection sites (Figure 4—figure supplement 2).

GS-OH enzyme: The ratio between 2-OH-3-Butenyl GSL to 3-Butenyl GSL was calculated only for MAM1-expressed accessions (accessions that the majority of GSLs contain four carbons in their side chain). Accessions with high amounts of 2-OH-3-Butenyl GSL were classified as GS-OH functional. Accessions with high amounts of 3-Butenyl GSL were classified as GS-OH non-functional. The accessions were plotted on a map based on their original collection sites (Figure 4—figure supplement 3).

Each accession was classified to one of seven aliphatic short-chained GSLs based on the combination of the dominancy of the enzymes as follows: MAM2, AOP null: classified as 3MSO dominant. MAM1, AOP null: classified as 4MSO dominant. MAM2, AOP3: classified as 3OHP dominant. MAM1, AOP3: classified as 4OHB dominant. MAM2, AOP2: classified as Allyl dominant. MAM1, AOP2, GS-OH non-functional: classified as 3-Butenyl dominant. MAM1, AOP2, GS-OH functional: classified as 2-OH-3-Butenyl dominant. The accessions were plotted on a map based on their original collection sites and colored based on their dominant chemotype (Figure 4).

Environmental and demographic data

Environmental and demographic data (referred to as ‘genomic group’) were obtained from the 1001 genomes website (https://1001genomes.org/, for geographical and demographic data) and from the Arabidopsis CLIMtools (http://www.personal.psu.edu/sma3/CLIMtools.html, Ferrero-Serrano and Assmann, 2019) for environmental data. We chose the five variables that captured a majority of the variance in this dataset based on PCA using different combinations of variables. The chosen variables are maximal temperature of warmest month (WC2_BIO5), minimal temperature of coldest month (WC2_BIO6), precipitation of wettest month (WC2_BIO13), precipitation of driest month (WC2_BIO14) and distance to the coast (in km). Each one of the above variables (including genomic group) was assigned to each one of the accessions.

Environmental models

Linear models to test the effect of geographical and environmental parameters (Figure 3—figure supplement 1 and Figure 4—source data 1) were conducted using dplyr package (CRAN, 2021b) and included the following parameters:

Figure 3—figure supplement 1 linear models for collection sites: PC score

Latitude + Longitude + Latitude * Longitude.

Table 1 and Figure 4—source data 1 for all the data: C length (C3 and C4) or the chemotypes (Allyl and 2-OH-3Butenyl)

Genomic group + Geography (north versus south) + Max temperature of warmest month + Min temperature of coldest month + Precipitation of wettest month + Precipitation of driest month + Distance to the coast + Geography * Genomic group + Geography * Max temperature of warmest month + Geography * Min temperature of coldest month + Geography * Precipitation of driest month + Geography * Precipitation of wettest month + Geography * Distance to the coast.

For the north and the south: C length (C3 and C4) or the chemotypes (Allyl and 2-OH-3Butenyl)

Genomic group + Geography (north versus south)+ Max temperature of warmest month + Min temperature of coldest month + Precipitation of wettest month + Precipitation of driest month + Distance to the coast.

Genome-wide association studies

The phenotypes for GWA studies were each accession value for PC1 and 2. GWA was implemented with the easyGWAS tool (Grimm et al., 2017) using the EMMAX algorithms (Kang et al., 2010) and a minor allele frequency (MAF) cutoff of 5%. The results were visualized as Manhattan plots using the qqman package in R (Turner, 2014).

Filogenia

Genomic sequences from the accessions for MAM3 – AT5G23020, AOP2 – Chr4, 1351568 until 1354216, AOP3 – AT4G03050.2, GS-OH – AT2G25450 and MYB37 – AT5G23000 were obtained using the Pseudogenomes tool (https://tools.1001genomes.org/pseudogenomes/#select_strains).

Multiple sequence alignment was done with the msa package (default settings) in R using the ClustalW, ClustalOmega and Muscle algorithms (Bodenhofer et al., 2015). Phylogenetic trees were generated with the ‘ape’ package (neighbor-joining tree) (Paradis and Schliep, 2019) and were visualized with ggtree package in R (Yu, 2020). Each tree was rooted by the genes matching A. lyrata’s functional orthologue or closest homologue.

Bootstrap analyses (Bootstrap = 100) was done with ‘ape’ package in R (Paradis and Schliep, 2019), with the same tree inference method as described before. Para MAM3 bootstrap analysis, the accessions with low-quality sequencing were excluded.

Amino acid phylogenies: Sequences were taken from Abrahams et al., 2020, which uses A. thaliana Col-0 genome and the MAM2 amino acid sequence 1006452109 from the Arabidopsis Information Resource (TAIR) database. Alignments were run using MAFFT (Katoh et al., 2017 Kuraku et al., 2013) and cleaned using Phyutility at a 50% occupancy threshold (Smith and Dunn, 2008). RAxML was used for phylogenetic inference (Stamatakis, 2014) with the PROTCATWAG model (Bootstrap = 1000).

Sequencing

PacBio long read-based de novo genome assemblies of the relevant accession were generated as part of the 1001 Genomes Plus project. The genomes were assembled with Canu (v1.71) (Koren et al., 2017) and polished using the long reads followed by a second polishing step with PCR-free short reads.


Assista o vídeo: PCR - sposób na DNA. PCR - way to DNA - Damian Sojka, ADAMED SmartUP (Novembro 2021).