Em formação

O conceito de alta carga genética de doença e segregação não aleatória de variantes deletérias


Sou novo neste campo. Eu estava lendo Shakeel et al. (2018) e deparei com as frases abaixo

A taxa de emergência e distribuição de variantes deletérias nas populações é importante para determinar os padrões de carga genética subjacente para doenças, porque o aumento do acúmulo de carga genética de doenças devido à segregação não aleatória de variantes deletérias é tão prejudicial que a fixação ou quase fixação dessas mutações pode desempenhar um papel significativo na extinção de populações isoladas com pequeno tamanho efetivo de população.

Não tenho certeza de entender corretamente o conceito das frases, especialmente

carga genética da doença e seu acúmulo devido à segregação não aleatória de variantes deletérias.

Você poderia, por favor, me explicar um pouco sobre isso?

Muito obrigado antecipadamente


Avanços recentes na compreensão da base genética molecular da doença mitocondrial

Robert W. Taylor, Wellcome Centre for Mitochondrial Research, Institute of Neuroscience, Newcastle University, Framlington Place, Newcastle upon Tyne, NE2 4HH, UK.

Wellcome Center for Mitochondrial Research, Institute of Neuroscience, Newcastle University, Newcastle upon Tyne, Reino Unido

Wellcome Center for Mitochondrial Research, Institute of Neuroscience, Newcastle University, Newcastle upon Tyne, Reino Unido

Wellcome Center for Mitochondrial Research, Institute of Neuroscience, Newcastle University, Newcastle upon Tyne, Reino Unido

Wellcome Center for Mitochondrial Research, Institute of Neuroscience, Newcastle University, Newcastle upon Tyne, Reino Unido

Wellcome Center for Mitocondrial Research, Institute of Genetic Medicine, Newcastle University, Newcastle upon Tyne, Reino Unido

Wellcome Center for Mitochondrial Research, Institute of Neuroscience, Newcastle University, Newcastle upon Tyne, Reino Unido

Laboratório de diagnóstico mitocondrial altamente especializado do NHS, Newcastle upon Tyne Hospitals NHS Foundation Trust, Newcastle upon Tyne, Reino Unido

Wellcome Center for Mitochondrial Research, Institute of Neuroscience, Newcastle University, Newcastle upon Tyne, Reino Unido

Laboratório de diagnóstico mitocondrial altamente especializado do NHS, Newcastle upon Tyne Hospitals NHS Foundation Trust, Newcastle upon Tyne, Reino Unido

Wellcome Center for Mitochondrial Research, Institute of Neuroscience, Newcastle University, Newcastle upon Tyne, Reino Unido

Wellcome Center for Mitochondrial Research, Institute of Neuroscience, Newcastle University, Newcastle upon Tyne, Reino Unido

Wellcome Center for Mitochondrial Research, Institute of Neuroscience, Newcastle University, Newcastle upon Tyne, Reino Unido

Laboratório de diagnóstico mitocondrial altamente especializado do NHS, Newcastle upon Tyne Hospitals NHS Foundation Trust, Newcastle upon Tyne, Reino Unido

Robert W. Taylor, Wellcome Centre for Mitochondrial Research, Institute of Neuroscience, Newcastle University, Framlington Place, Newcastle upon Tyne, NE2 4HH, UK.

Editor de comunicação: Verena Peters

Informações de financiamento: Medical Research Council, Grant / Award Number: G0800674 National Institute for Health Research, Grant / Award Number: NIHR-HCS-D12-03-04 The Lily Foundation UK NHS Serviço altamente especializado para doenças mitocondriais raras Wellcome Trust, Grant / Award Number: 203105 / Z / 16 / Z


Um conceito para pomares de sementes com base em marcadores de genes isoenzimáticos

Métodos silviculturais avançados na Turíngia, bem como a necessidade de preservar os recursos genéticos de espécies de árvores ameaçadas de extinção, levaram ao objetivo de estabelecer pomares de sementes de abeto prateado (Abies Alba Moinho.). A fim de combinar várias características econômicas e genéticas na construção desses pomares de sementes, os clones foram escolhidos usando um procedimento de várias etapas acompanhado por levantamentos genéticos em loci isoenzimáticos.

Do material inicial constituído por 26 povoamentos indígenas, 500 árvores positivas foram selecionadas de acordo com sua vitalidade e crescimento. Com base em várias estratégias de amostragem onde as coleções de clones foram estratificadas de acordo com o nível de diversidade gênica, ocorrência de alelos raros e grau de homozigosidade, 130 clones foram finalmente escolhidos da coleção plus-tree. Presume-se que esses clones incluam todas as características essenciais atribuídas a um pomar de sementes que deve produzir uma colheita de sementes vital e melhorada e preservar o patrimônio genético do abeto prateado.


Resultados

A estrutura do GRIPT

GRIPT é projetado especificamente para a descoberta de genes de doenças de Mendel, priorizando genes com carga de mutação deletéria significativamente maior em pacientes do que controles como genes candidatos. Na implementação, GRIPT primeiro classifica as variantes dentro de cada gene para cada indivíduo em ambos os pacientes e coortes de controle de acordo com a pontuação do efeito variante fornecida pelos usuários, por exemplo, pontuação CADD [19] (Fig. 1, consulte a seção "Métodos"). Com base nas pontuações das variantes, uma pontuação do gene é calculada para cada gene medindo a carga de mutação deletéria do gene em cada indivíduo sob um determinado modelo de herança, ou seja, autossômica dominante (AD), autossômica recessiva (AR), ligada ao X dominante ( XD), ou modelo recessivo vinculado ao X (XR) (consulte a seção “Métodos”). Em seguida, um teste de Fisher construído sobre a combinação de um teste binomial e um teste de soma de postos de Wilcoxon (WRST) é aplicado para comparar as distribuições de pontuação de gene em pacientes e controles para cada gene, e um teste significativo p o valor associado à estatística de teste é atribuído. Este teste composto é especialmente adequado para comparar duas distribuições altamente enviesadas com excessos de zero, como as distribuições de pontuação do gene nas coortes de caso e controle (Fig. 2, consulte a seção “Métodos”) [20]. Finalmente, GRIPT compara e classifica todos os genes com base na estatística de teste de cada gene (Fig. 1).

O fluxograma lógico do GRIPT. Em primeiro lugar, as amostras das coortes de caso e controle serão coletadas e submetidas a NGS, por exemplo, WES. Após a chamada da variante, as variantes comuns e / ou benignas conhecidas serão filtradas com base na anotação da variante e sua frequência de alelo em grandes bancos de dados de populações normais e bancos de dados internos. Assim, para cada gene, apenas algumas variantes raras serão deixadas. Em seguida, GRIPT irá anotar e classificar os danos de cada variante, por exemplo, usando a pontuação CADD. Com base nas pontuações das variantes, uma pontuação do gene será calculada para medir a carga de mutação deletéria de cada gene em cada indivíduo de acordo com um determinado modelo de herança (consulte a seção “Métodos”). Em seguida, um teste de Fisher construído sobre a combinação de um teste binomial e um teste de soma de postos de Wilcoxon (WRST) será calculado para medir a diferença de distribuições de pontuação de gene entre a coorte de paciente e a coorte de controle para cada gene, e um significativo p o valor associado à estatística de teste será atribuído. Este teste composto é especialmente adequado para medir a diferença de duas distribuições altamente distorcidas com excessos de 0, como a distribuição da pontuação do gene na coorte paciente / controle calculada pelo GRIPT (Fig. 2). Finalmente, de acordo com a estatística de teste de cada gene, GRIPT compara e classifica todos os genes

O exemplo da distribuição da pontuação do gene. Esta figura mostra as distribuições de pontuação gênica de USH2A em uma coorte de doenças da retina de 250 pacientes (em vermelho) e em uma coorte de controle de 250 indivíduos (em azul). X eixo: a pontuação do gene de USH2A por indivíduo. Y eixo: o número de pacientes ou controles com a pontuação correspondente. Como o gene USH2A, as distribuições de pontuação do gene da maioria dos genes são altamente distorcidas com excessos de zeros

A análise de simulação testa a sensibilidade e especificidade do GRIPT

Para avaliar a sensibilidade e especificidade do GRIPT, simulamos os dados do WES para coortes de pacientes e de controle nos modelos de herança AR e AD com base no perfil variante do genoma humano no banco de dados ExAC [21] (consulte a seção "Métodos") . Para imitar a coorte de pacientes com alta heterogeneidade do locus da doença, onde um determinado gene da doença representa apenas uma pequena proporção dos pacientes, mutações patogênicas do mesmo gene foram selecionadas aleatoriamente do banco de dados de mutação do gene humano (HGMD) e aumentadas em uma pequena proporção (por exemplo, 0,5%, 1%, 2% ou 3%, respectivamente) dos indivíduos na coorte de pacientes (consulte a seção “Métodos”). O tamanho da coorte de pacientes foi estabelecido em 600 e a coorte de controle em 5000. A simulação para cada cenário foi repetida 30 vezes. Um nível de significância estatística de todo o genoma (GWSL) de 2,7 × 10 −6 foi usado como o nível de significância p valor de corte para correção de múltiplos testes (dados cerca de 18.500 genes codificadores de proteínas autossômicas anotados por genes RefSeq). O desempenho do GRIPT foi medido com três parâmetros: (1) a classificação do gene da doença com mutações patogênicas de pico, indicando a sensibilidade da ferramenta (2) a porcentagem de execuções de simulação em que o gene da doença passa GWSL, indicando o poder estatístico da ferramenta e (3) o número de genes candidatos autossômicos significativos, indicando a especificidade da ferramenta. Além disso, o desempenho do GRIPT foi comparado com quatro ferramentas populares de análise de coorte, incluindo o localizador de genes da doença de Mendel, VAAST2, e três testes de associação em grupo, o CMC (teste de carga), SKAT e KBAC (modelo de kernel), no mesmos conjuntos de dados [11, 14, 15, 17, 22].

A sensibilidade e especificidade do GRIPT sob os modelos AR e AD

Para testar o desempenho do GRIPT na identificação do gene da doença AR, RPE65 foi usado como exemplo. RPE65 é um gene bem estudado com mutações conhecidas por causar amaurose congênita (LCA) e retinite pigmentosa (RP) de AR Leber [23,24,25]. O desempenho dos quatro testes é resumido na Fig. 3 e no arquivo adicional 1: Tabela S1. Figura 3a – ce Arquivo adicional 1: Tabela S1 demonstra que GRIPT tem grande sensibilidade e especificidade na detecção RPE65, mesmo quando a proporção de RPE65 o número de pacientes era muito baixo, mimetizando o cenário de coorte de pacientes com alta heterogeneidade de locus. Quando o RPE65 a proporção de pacientes foi tão baixa quanto 0,5%, GRIPT classificado RPE65 em média em sexto, atingindo 66,67% de potência. Quando o RPE65 proporção de pacientes atingiu ≥ 1%, GRIPT classificado RPE65 primeiro em todos os testes com 100% de potência. Em toda a gama de RPE65 proporções de pacientes, o GRIPT identificou em média três candidatos significativos por simulação. Em contraste, com uma baixa proporção de RPE65 pacientes, os outros quatro algoritmos tiveram sensibilidade e potência significativamente menores do que GRIPT (WRST, p valor, consulte Arquivo adicional 1: Tabela S1). Por exemplo, quando o RPE65 proporção de pacientes foi ≤ 1%, os poderes dos outros quatro testes foram ≤ 10% e a classificação média de RPE65 estava entre 38 e 3068. Cada um dos outros quatro métodos identificou em média zero ou um gene candidato significativo.

Análise de simulação de GRIPT, VAAST2, CMC, SKAT e KBAC sob os modelos AR e AD. Os modelos AR e AD foram testados com 0,5%, 1%, 2% e 3% dos pacientes portadores de mutações patogênicas de RPE65 ou TINF2, respectivamente. O tamanho da coorte de pacientes foi de 600. O tamanho da coorte de controle foi de 5000. O desempenho de GRIPT, VAAST2, CMC, SKAT e KBAC é mostrado em vermelho, azul, verde, roxo e laranja, respectivamente. uma A classificação de RPE65 sob o modelo AR é mostrado no boxplot. b O poder das cinco ferramentas foi medido como a proporção de execuções de simulação em que PRE65 passou no GWSL mostrado no gráfico de pontos. c O número de genes candidatos autossômicos significativos no modelo AR é mostrado no boxplot. d A classificação de TINF2 sob o modelo AD. e O poder das cinco ferramentas para TINF2. f O número de candidatos autossômicos significativos no modelo AD. As classificações de RPE65 / TINF2 gerados por GRIPT foram comparados com aqueles gerados pelos outros quatro métodos, respectivamente, com WRST unilateral. Os métodos que geraram classificação significativamente pior do que GRIPT foram marcados com “*” se p valor & lt 0,05, “**” se p valor & lt 0,01 e “***” se p valor & lt 0,001

Paralelamente, o desempenho do GRIPT na identificação do gene da doença de AD foi testado usando TINF2 como um exemplo. TINF2 é um conhecido gene causador de doenças da síndrome de AD Revesz e disqueratose congênita [26,27,28]. Conforme mostrado na Fig. 3d-fe arquivo adicional 1: Tabela S1, GRIPT faltou energia quando o TINF2 a proporção de pacientes era muito baixa, mas seu desempenho melhorou muito à medida que TINF2 aumento da proporção de pacientes. Especificamente, como TINF2 a proporção de pacientes aumentou de 0,5 para 1%, o poder do GRIPT aumentou de 3,33 para 53,33%. Quando o TINF2 a proporção de pacientes atingiu ≥ 2%, TINF2 sempre foi classificado em primeiro lugar pelo GRIPT com 100% de poder. Em média, o GRIPT identificou cerca de dois genes candidatos significativos. Em comparação, os outros quatro métodos tiveram um desempenho significativamente pior do que GRIPT (WRST, p valor, consulte Arquivo adicional 1: Tabela S1). Por exemplo, quando TINF2 a proporção de pacientes aumentou de 0,5 para 1%, o poder do VAAST2 aumentou de 0 para 13,33%, CMC de 0 para 36,67%, SKAT de 0 para 6,67% e KBAC de 0 para 6,67%.

Referência em 400 genes de doenças conhecidas selecionados aleatoriamente

Para expandir ainda mais a avaliação do GRIPT, realizamos simulação usando 400 genes causadores de doenças de Mendel selecionados aleatoriamente do banco de dados OMIM, incluindo 200 genes de doenças AR e 200 DA. Para cada gene, simulamos as coortes de pacientes com tamanho de 600 e usamos a mesma coorte de controle simulada com tamanho de 5000. Os resultados estão resumidos na Fig. 4 e no arquivo adicional 1: Tabela S2.

Referência de GRIPT, VAAST2, CMC, SKAT e KBAC em 400 genes de doenças de Mendel. Os modelos AR e AD foram testados com 0,5%, 1%, 2% e 3% dos pacientes portadores das mutações patogênicas de cada um dos 200 genes AR e cada um dos 200 genes AD, respectivamente. O tamanho da coorte de pacientes foi de 600. O tamanho da coorte de controle foi de 5000. O desempenho de GRIPT, VAAST2, CMC, SKAT e KBAC é mostrado em vermelho, azul, verde, roxo e laranja, respectivamente. uma A classificação de 200 genes AR. b O poder dos cinco testes para 200 genes AR. c O número de candidatos autossômicos significativos no modelo AR. d A classificação de 200 genes AD. e O poder dos cinco testes para 200 genes AD. f O número de candidatos autossômicos significativos no modelo AD. As classificações dos genes AR / AD gerados pelo GRIPT foram comparadas às geradas pelos outros quatro métodos, respectivamente, com o WRST unilateral. Os métodos que geraram classificação significativamente pior do que GRIPT foram marcados com “*” se p valor & lt 0,05, “**” se p valor & lt 0,01, e “***” se p valor & lt 0,001

Consistente com os resultados para RPE65, GRIPT mostrou excelente sensibilidade e especificidade na detecção dos 200 genes AR, mesmo quando a proporção de pacientes atribuídos ao mesmo gene da doença era muito baixa (Fig. 4a-c). De forma consistente, VAAST2, CMC, SKAT e KBAC mostraram desempenho significativamente pior do que GRIPT quando a coorte de pacientes tinha alta heterogeneidade de locus (Fig. 4a – c, WRST, p valor, consulte Arquivo adicional 1: Tabela S2). Quando a proporção de pacientes atribuídos ao mesmo gene da doença foi de apenas 0,5%, os genes da doença foram classificados em média em 24º pelo GRIPT, atingindo 52,5% de poder, enquanto os outros quatro métodos tiveram um poder de 0%. Quando a proporção de pacientes era igual a 1%, os genes da doença foram classificados em média primeiro pelo GRIPT com poder de 97%. Em contraste, o poder dos outros quatro métodos ficou entre 0,5 e 11,5%. Quando a proporção de pacientes atingiu ≥ 2%, os genes da doença sempre foram classificados em primeiro lugar pelo GRIPT com 100% de poder. Em comparação, o poder dos quatro métodos ficou entre 11,5 e 97,5%. Em toda a gama de proporções de pacientes, o GRIPT identificou em média um gene candidato significativo em comparação com zero ou um candidato por cada um dos outros quatro métodos.

Consistente com os resultados de TINF2, o desempenho geral do GRIPT foi melhor ou comparável aos outros quatro métodos na detecção dos 200 genes AD (WRST, p valor, consulte Arquivo adicional 1: Tabela S2). Quando a proporção de pacientes atribuídos ao mesmo gene da doença foi ≤ 1%, GRIPT e os outros quatro testes têm poder muito baixo, ou seja, ≤ 29,5% para GRIPT, ≤ 13% para VAAST2, ≤ 21,5% para CMC, ≤ 31% para SKAT e ≤ 4,5% para KBAC (Fig. 4d – f). Quando a proporção de pacientes atribuída ao mesmo gene aumentou para 2%, os genes da doença foram classificados, em média, em terceiro lugar no GRIPT com 87% de poder. Em comparação, o poder dos outros quatro testes ficou entre 68 e 85,5%. Quando a proporção de pacientes atingiu 3%, os genes da doença foram classificados em primeiro lugar em 97,5% das simulações do GRIPT com 99% de poder. Comparativamente, o poder dos outros quatro testes aumentou para 93–99%. Em toda a faixa de proporções de pacientes, em média, um a dois genes candidatos significativos foram identificados pelo GRIPT, em comparação com zero a cinco candidatos pelos outros quatro métodos.

Simulações sugerem que GRIPT é altamente robusto

O desempenho da análise de coorte caso-controle pode ser potencialmente afetado por vários fatores de confusão, como tamanho da coorte do paciente, estratificação da população e corte de frequência de filtragem de variante e tamanho da coorte de controle. Para avaliar seu impacto, realizamos simulações usando RPE65 e TINF2 como exemplos nos modelos AR e AD, respectivamente, e comparou GRIPT com VAAST2, CMC, SKAT e KBAC usando os mesmos conjuntos de dados em cada cenário. Além disso, testamos o efeito de diferentes sistemas de pontuação de variantes no desempenho do GRIPT.

O tamanho da amostra da coorte de pacientes

Simulamos as coortes de pacientes em uma variedade de tamanhos, ou seja, 50, 100, 300, 600 e 800, com 2% dos pacientes portadores de mutações patogênicas dos mesmos genes da doença e coortes de controle com tamanho de 5000. Os resultados estão resumidos na Fig. 5 e no arquivo adicional 1: Tabela S3.

O impacto dos tamanhos da coorte de pacientes. Os tamanhos da coorte de pacientes foram testados em 50, 100, 300, 600 e 800. O tamanho da coorte de controle foi estabelecido em 5000. A porcentagem de pacientes portadores de mutações patogênicas de RPE65 ou TINF2 foi fixado em 2%. O desempenho de GRIPT, VAAST2, CMC, SKAT e KBAC é mostrado em vermelho, azul, verde, roxo e laranja, respectivamente. uma A classificação de RPE65 sob o modelo AR. b O poder dos cinco testes para RPE65. c O número de candidatos autossômicos significativos no modelo AR. d A classificação de TINF2 sob o modelo AD. e O poder dos cinco testes para TINF2. f O número de candidatos autossômicos significativos no modelo AD. As classificações de RPE65 / TINF2 gerados por GRIPT foram comparados com aqueles gerados pelos outros quatro métodos, respectivamente, com WRST unilateral. Os métodos que geraram classificação significativamente pior do que GRIPT foram marcados com “*” se p valor & lt 0,05, “**” se p valor & lt 0,01, e “***” se p valor & lt 0,001

Conforme mostrado na Fig. 5a-c, no modelo AR, GRIPT mantém alta sensibilidade para coortes de pacientes com uma variedade de tamanhos e alta heterogeneidade de locus, embora sua especificidade tenha diminuído para pequenas coortes de pacientes com alta heterogeneidade de locus. Em comparação, os outros quatro métodos tiveram um desempenho significativamente pior do que GRIPT nas mesmas situações (WRST, p valor, consulte Arquivo adicional 1: Tabela S3). Especificamente, como o tamanho da coorte de pacientes aumentou de 50 para 300 com 2% dos pacientes carregando o RPE65 mutações patogênicas, a classificação média de RPE65 aumenta de 31 para 1 por GRIPT com 100% de potência. O número de candidatos significativos identificados pelo GRIPT diminuiu de 107 para 8. Quando o tamanho da coorte de pacientes atingiu ≥ 300, o GRIPT sempre foi classificado RPE65 primeiro com 100% de potência. O número médio de candidatos significativos diminuiu para entre um e oito. Em contraste, o poder dos outros quatro métodos foi de 0% quando o tamanho da coorte do paciente é & lt 300. Quando o tamanho da coorte do paciente atingiu ≥ 300, o poder foi 33,33–100% para VAAST2, 0–40% para CMC, 3– 56,67% para SKAT e 0-16,67% para KBAC. E o número médio de candidatos significativos identificados por cada um dos quatro métodos estava entre 0 e 26.

No modelo AD, quando a coorte de pacientes era pequena e tinha alta heterogeneidade de locus, GRIPT tinha baixa sensibilidade e especificidade, mas seu desempenho melhorou muito à medida que o tamanho da coorte de pacientes aumentou (Fig. 5d-f). Os outros quatro métodos tiveram um desempenho comparável ou significativamente pior nos mesmos cenários (Fig. 5d-f, WRST, p valor, consulte Arquivo adicional 1: Tabela S3). Especificamente, quando o tamanho da coorte de pacientes aumentou de 50 para 100 com 2% dos pacientes atribuídos a TINF2, o poder do GRIPT aumentou de 6,67 para 33,33% e o número médio de candidatos significativos diminuiu de 79 para 28. Quando o tamanho da coorte de pacientes aumentou para ≥ 300, TINF2 foi classificado em primeiro lugar em média pelo GRIPT com 100% de potência. O número médio de candidatos significativos pelo GRIPT ficou entre dois e oito. Em comparação, quando o tamanho da coorte de pacientes é & lt 300, a potência aumentou de 6,67 para 36,67% para CMC e permaneceu em 0% para VAAST2, SKAT e KBAC. Quando o tamanho da coorte de pacientes atingiu ≥ 300, o poder foi entre 3,33 e 100% para os quatro testes. O número médio de candidatos significativos em cada um dos quatro testes foi entre 0 e 103.

Estratificação da população de coortes

Foi observado que o espectro variante de um gene de doença é diferente entre populações de diferentes etnias e que a estratificação de alta população pode prejudicar o desempenho da análise de coorte [16]. Para testar o impacto da estratificação da população no GRIPT, simulamos coortes de pacientes como uma mistura de indivíduos africanos e latinos e coortes de controle apenas com indivíduos latinos, com base na frequência de alelos no banco de dados ExAC com etnia correspondente (consulte a seção "Métodos"). A proporção incomparável entre as coortes de caso e controle foi simulada em 0%, 20%, 40%, 60%, 80% e 100%. O tamanho da coorte de pacientes foi estabelecido em 500 e o coorte de controle em 5000. A proporção de pacientes portadores de mutações patogênicas do mesmo gene foi fixada em 1%. Os resultados estão resumidos na Fig. 6 e no arquivo adicional 1: Tabela S4.

O impacto da estratificação da população. As proporções incomparáveis ​​entre a coorte de pacientes e a coorte de controle foram testadas em 0%, 20%, 40%, 60%, 80% e 100%. A porcentagem de pacientes que carregam o RPE65 ou TINF2 mutações patogênicas foi fixado em 1%. O tamanho da coorte de pacientes foi de 500. O tamanho da coorte de controle foi de 5000. O desempenho de GRIPT, VAAST2, CMC, SKAT e KBAC é mostrado em vermelho, azul, verde, roxo e laranja, respectivamente. uma A classificação de RPE65 sob o modelo AR. b O poder dos cinco testes para RPE65. c O número de candidatos autossômicos significativos no modelo AR. d A classificação de TINF2 sob o modelo AD. e O poder dos cinco testes para TINF2. f O número de candidatos autossômicos significativos no modelo AD. As classificações de RPE65 / TINF2 os genes gerados pelo GRIPT foram comparados aos gerados pelos outros quatro métodos, respectivamente, com WRST unilateral. Os métodos que geraram classificação significativamente pior do que GRIPT foram marcados com “*” se p valor & lt 0,05, “**” se p valor & lt 0,01 e “***” se p valor & lt 0,001

Conforme mostrado na Fig. 6a-f, a sensibilidade e especificidade do GRIPT diminuíram ligeiramente à medida que a proporção de etnia incomparável entre casos e controles aumentou. No entanto, GRIPT é significativamente menos afetado pela estratificação da população do que os outros quatro métodos, mesmo quando a coorte de pacientes tinha alta heterogeneidade de locus (WRST, p valor, consulte Arquivo adicional 1: Tabela S4). Especificamente, sob o modelo de AR, como a proporção de etnia sem correspondência entre pacientes e controles aumentou de 0 a 100% (ou seja, de completamente compatível para completamente não correspondido), a classificação média de RPE65 caiu de 1 para 32 pelo GRIPT, mas sempre com 100% da potência (Fig. 6a-c). A especificidade foi reduzida à medida que o número médio de genes candidatos significativos aumentou de 2 para 111 (Fig. 6a-c). Em comparação, os poderes do CMC, SKAT e KBAC estavam entre 0 e 20%. O número médio de genes candidatos significativos aumentou de 1 para 1929 para CMC, de 0 para 2.603 para SKAT e de 0 para 1921 para KBAC. Além disso, conforme a proporção de etnia incomparável aumentou, o tempo de execução do VAAST2 aumentou drasticamente (por exemplo, precisa de 120–240 h com cinco CPUs paralelas para terminar uma execução de simulação). Portanto, VAAST2 foi testado apenas para a proporção de etnia incomparável variando de 0 a 60%. Nesses cenários, o poder do VAAST2 estava entre 10 e 26,7%. O número médio de genes candidatos significativos identificados por VAAST2 aumentou de 0 para 1502.

No modelo AD, GRIPT também é significativamente menos afetado pela estratificação da população (WRST, p valor, consulte Arquivo adicional 1: Tabela S4). À medida que a proporção de etnias incomparáveis ​​aumentou de 0 a 100%, a classificação média de TINF2 caiu de dois para nove pelo GRIPT com 96,67–100% da potência (Fig. 6d – f). O número médio de genes candidatos significativos aumentou de 3 para 19. Em comparação, a classificação média de TINF2 caiu de 3 para 75 para VAAST2, de 7 para 57 para CMC, de 44 para 166 para SKAT e de 3 para 33 para KBAC. A potência foi de 0–13,33% para VAAST2, 53,33–66,67% para CMC, 0–3,33% para SKAT e 0–6,67% para KBAC. O número médio de genes candidatos significativos aumentou de zero para cinco para VAAST2, de 4 para 35 para CMC, de zero para dois para SKAT e de zero para um para KBAC. (Fig. 6d-f).

Filtragem de frequência de variante

Prevê-se que as mutações causadoras da doença de Mendel sejam muito raras na população e as variantes humanas comuns são provavelmente benignas para as doenças de Mendel raras. Portanto, para reduzir a complexidade de análise / computação, as variantes do WES são convencionalmente filtradas primeiro variantes do genoma humano comum com base na frequência do alelo em um grande banco de dados de variantes do genoma humano, por exemplo, gnomAD e ExAC [21]. Para imitar este cenário, as coortes de paciente e controle acima foram simuladas usando as variantes cuja frequência máxima da população é ≤ 0,5% no banco de dados ExAC para o modelo AR e cuja frequência máxima da população é ≤ 0,01% para o modelo AD. Aqui, examinamos o impacto de um corte de filtragem de frequência relaxado (ou seja, mais alto) nos métodos de identificação de genes de doenças. Simulamos os dados de WES de coortes de paciente e controle usando uma faixa de corte de frequência variante, respectivamente: ≤ 0,5%, ≤ 1% e ≤ 2% para o modelo AR e ≤ 0,01%, ≤ 0,5% e ≤ 1% para o Modelo AD. A proporção de pacientes atribuídos ao mesmo gene foi fixada em 1%. O tamanho da coorte de pacientes foi definido em 600 e a coorte de controle em 5000. Os resultados mostram que a inclusão de mais variantes / ruído por indivíduo usando o corte de filtragem de frequência mais alta teve pouco impacto no desempenho do GRIPT no modelo AR, mas reduziu seu poder sob o modelo AD. Os desempenhos dos outros quatro métodos foram amplamente comprometidos e foram significativamente piores ou comparáveis ​​aos do GRIPT (Fig. 7a-f, Arquivo adicional 1: Tabela S5).

O impacto da filtragem de frequência variante. O corte da frequência de filtragem da variante foi testado em 0,5%, 1% e 2% no modelo AR e em 0,01%, 0,5% e 1% no modelo AD. A porcentagem de pacientes que carregam o RPE65 ou TINF2 mutações patogênicas foi fixado em 1%. O tamanho da coorte de pacientes foi de 600. O tamanho da coorte de controle foi de 5000. O desempenho de GRIPT, VAAST2, CMC, SKAT e KBAC é mostrado em vermelho, azul, verde, roxo e laranja, respectivamente. uma A classificação de RPE65 sob o modelo AR. b O poder dos cinco testes para RPE65. c O número de candidatos autossômicos significativos no modelo AR. d A classificação de TINF2 sob o modelo AD. e O poder dos cinco testes para TINF2. f O número de candidatos autossômicos significativos no modelo AD. As classificações de RPE65 / TINF2 gerados por GRIPT foram comparados com aqueles gerados pelos outros quatro métodos, respectivamente, com WRST unilateral. Os métodos que geraram classificação significativamente pior do que GRIPT foram marcados com “*” se p valor & lt 0,05, “**” se p valor & lt 0,01 e “***” se p valor & lt 0,001

Especificamente, no modelo AR, à medida que o corte de filtragem de frequência aumentou de 0,5 para 2%, GRIPT classificou RPE65 primeiro em 98,89% das simulações, sempre atingindo 100% de potência. O número médio de genes candidatos significativos foi cerca de três (Fig. 7a-c). Em contraste, a classificação de RPE65 pelos outros quatro testes foi amplamente reduzido, com ≤ 10% de potência para VAAST2 e 0% de potência para CMC, SKAT e KBAC. Sob o modelo AD, como o corte de frequência variante aumentou de 0,01 para 1%, a classificação média de TINF2 caiu de 5 para 590 por GRIPT com a potência diminuindo de 53,33 para cerca de 3%. O número médio de genes candidatos significativos estava entre zero e dois (Fig. 7d-f). O poder do VAAST2 diminuiu de 13,33 para 10%, CMC de 36,67 para 0%, SKAT de 6,67 para 0% para SKAT e KBAC de 6,67 para 0%.

O efeito do tamanho da coorte de controle

Teoricamente, o espectro variante de um gene em uma grande coorte de controle deve ser menos tendencioso e mais próximo da verdadeira distribuição do que em uma pequena coorte de controle. Assim, grandes coortes de controle podem servir melhor como controle / linha de base, por exemplo, para excluir os genes com grande número de variantes benignas raras na população. Para testar o efeito do tamanho da coorte de controle, simulamos coortes de controle menores com tamanho de 600 e usamos as coortes de caso anteriores com tamanho de 600 para repetir a análise. Os resultados estão resumidos na Fig. 8 e no arquivo adicional 1: Tabela S6.

O efeito dos tamanhos de coorte de controle. Os modelos AR e AD foram testados com 0,5%, 1%, 2% e 3% dos pacientes portadores de mutações patogênicas de RPE65 ou TINF2, respectivamente. O tamanho da coorte de pacientes foi de 600. O tamanho da coorte de controle foi de 600. O desempenho de GRIPT, VAAST2, CMC, SKAT e KBAC é mostrado em vermelho, azul, verde, roxo e laranja, respectivamente. uma A classificação de RPE65 sob o modelo AR. b O poder das cinco ferramentas para RPE65. c O número de candidatos autossômicos significativos no modelo AR. d A classificação de TINF2 sob o modelo AD. e O poder das cinco ferramentas para TINF2. f O número de candidatos autossômicos significativos no modelo AD. As classificações de RPE65 / TINF2 gerados por GRIPT foram comparados com aqueles gerados pelos outros quatro métodos, respectivamente, com WRST unilateral. Os métodos que geraram classificação significativamente pior do que GRIPT foram marcados com “*” se p valor & lt 0,05, “**” se p valor & lt 0,01, e “***” se p valor & lt 0,001

No modelo AR, GRIPT permaneceu sensível na classificação RPE65. Quando o RPE65 a proporção de pacientes aumentou de 0,5 para ≥ 2%, a classificação média de RPE65 aumentou de 45 para 1. No entanto, o p valor de RPE65 não passou no GWSL em nenhuma das simulações, apresentando GRIPT com 0% de potência. Consistente com os resultados com coorte de controle maior, as outras quatro ferramentas tiveram um desempenho significativamente pior do que GRIPT (Fig. 8a – c, WRST, p valor, consulte o arquivo adicional 1: Tabela S6). Por exemplo, quando o RPE65 proporção de pacientes igual a 1%, a classificação média de RPE65 foi 981 para VAAST2, 6243 para CMC, 7611 para SKAT e 2892 para KBAC. Da mesma forma, o p valores de RPE65 dos outros quatro testes também não passou no GWSL para a maioria das simulações, mostrado como o poder do teste abaixo de 13,33%.

Sob o modelo AD com as pequenas coortes de controle, as classificações de TINF2 por GRIPT e os outros quatro métodos foram consistentes com os grandes coortes de controle (Fig. 8d-f, Arquivo adicional 1: Tabela S6). Os cinco métodos deram TINF2 uma classificação baixa quando o TINF2 a proporção de pacientes era baixa. Mas a classificação de TINF2 rosa como o TINF2 proporção de pacientes aumentada. Quando a proporção de pacientes TINF2 aumentou para 3%, todos os cinco métodos foram classificados TINF2 para o topo. However, similar to the results under the AR model, the p value of TINF2 by the five methods did not pass the GWSL in the majority of the simulations under the AD model, shown as the power below 36.67% (Fig. 8d–f).

The effect of different variant scoring systems

To test whether the performance of GRIPT will be affected by different variant score systems, besides CADD score, we applied the Deleterious Annotation of genetic variants using Neural Networks (DANN) and Rare Exome Variant Ensemble Learner (REVEL) scores to annotate the variant scores in GRIPT respectively and repeated the aforementioned analyses. DANN scoring system shares the same feature set and training data as CADD (which was trained with a linear kernel support vector machine, SVM) but was trained with a non-linear deep neural network. DANN achieves about a 19% relative reduction in the error rate and about a 14% relative increase in the area under the curve (AUC) metric over CADD’s SVM methodology [29]. REVEL is an ensemble method for predicting the pathogenicity of missense variants by integrating the individual tools, including MutPred, FATHMM, VEST, PolyPhen, SIFT, PROVEAN, MutationAssessor, MutationTaster, LRT, GERP, SiPhy, phyloP, and phastCons. REVEL outperformed (p < 10 −12 ) individual tools and seven ensemble methods (i.e., MetaSVM, MetaLR, KGGSeq, Condel, CADD, DANN, and Eigen) in analyzing independent test sets and also showed the best performance for distinguishing pathogenic from rare neutral variants with allele frequencies < 0.5% [30]. As shown in Additional file 2: Figure S1-S4 and Additional file 1: Table S2-S5, the benchmark analysis with 400 AR and AD genes, the analyses of the impacts of patient cohort size, population stratification, and variant frequency filtering all showed that the results based on DANN and REVEL scores are consistent with the previous results based on CADD score. The consistency based on different variant score systems demonstrated the reliability and robustness of the statistic test framework of GRIPT.

Comparison to the traditional GWAS single variant test

To compare the performance of GRIPT with the traditional GWAS single variant test, we simulated the basic scenario with 0.5–3% of patients carrying the pathogenic mutations of RPE65 e TINF2, respectively, and applied GRIPT and Fisher’s exact test to the data. As shown in Fig. 9 and Additional file 1: Table S1, Fisher’s exact test performed much worse than GRIPT. Under the AR model, when the RPE65 patient proportion was 0.5%, RPE65 was ranked on average sixth by GRIPT with 66.67% power. Quando o RPE65 patient proportion was ≥ 1%, RPE65 was always ranked first by GRIPT with 100% power. In contrast, the average ranking of RPE65 by Fisher’s exact test was in the range of 890 to 32,000, always with 0% power (Fig. 9a–c). Under the AD model, as TINF2 patient proportion increased from 0.5 to 1%, the power of GRIPT increased from 3.33 to 53.33%. Quando o TINF2 patient proportion was ≥ 2%, GRIPT always ranked TINF2 first with 100% power. In comparison, as the proportion of TINF2 patients increased, the average ranking of TINF2 by Fisher’s exact test was improved from 12,675th to 23th, but the test power remained at 0% (Fig. 9d–f). The reasons may be as follows: (1) GRIPT is a gene-wise test that ranks the functional effects of variants and incorporates the Mendelian inheritance models to compute the gene score. In contrast, the traditional single variant test considers one variant in a gene each time and is mainly based on the allele frequency difference between cases and controls. Thus, the single variant test does not have sufficient power to detect the heterogeneous rare deleterious variants in Mendelian disease cohorts, although it might be suitable for common complex diseases. (2) The multiple test correction requests a much more stringent p value cutoff for the single variant test than the gene-wise GRIPT due to the larger number of tests applied in the single variant test than in GRIPT (i.e., variants vs. genes).

The comparison of the performance of Fisher’s exact test with GRIPT. The AR and AD models were tested with 0.5%, 1%, 2%, and 3% of patients carrying the pathogenic mutations of RPE65 ou TINF2, respectivamente. The patient cohort size was 600. The control cohort size was 5000. The performance of GRIPT and Fisher’s exact test are shown in red and blue, respectively. uma The ranking of RPE65 under the AR model. b The power of the two tests for RPE65. c The number of significant autosomal candidate genes under the AR model. d The ranking of TINF2 under the AD model. e The power of the two tests for TINF2. f The number of significant autosomal candidates under the AD model. The rankings of RPE65/TINF2 generated by GRIPT were compared to those generated by Fisher’s exact test with one-tailed WRST. The methods that generated significantly worse ranking than GRIPT were marked with “*” if p value < 0.05, “**” if p value < 0.01, and “***” if p value < 0.001

The performance to detect genes with modest-effect variants

To test the performance of GRIPT in detecting genes with modest-effect variants, we simulated the scenario of patients carrying allele complex composed of modest-effect mutations by concurrently spiking two known modest-effect mutations of ABCA4, chr1:94476467:T>A (p.Asn1868Ile), and chr1: 94517254:C>G (p.Gly863Ala) [31] into the varying percentages (i.e., 0.5%, 1%, 2%, and 3%) of patients under the AR model. Both GRIPT and the collapsing test CMC were applied to the data. As shown in Fig. 10 and Additional file 1: Table S7, GRIPT significantly outperformed the collapsing test in detecting genes with modest-effect variants. The reason behind might be that GRIPT ranks the functional effects of variants and takes account of the Mendelian inheritance model to compute the gene score. In contrast, the collapsing test aggregates all the variants within a gene regardless of their functional effect and the Mendelian inheritance mode to compute the mutation burden, resulting in higher background noise therefore, it is less sensitive and more prone to false positives for genes with large numbers of rare benign variants.

The performance of GRIPT and CMC on detecting genes with modest-effect variants. The AR model was tested with 0.5%, 1%, 2%, and 3% of patients concurrently carrying the modest-effect variants (p.Asn1868Ile and p.Gly863Ala) of ABCA4, respectivamente. The patient cohort size was 600. The control cohort size was 5000. The performance of GRIPT and CMC are shown in red and blue, respectively. uma The ranking of ABCA4 under the AR model. b The power of the two tests for ABCA4. c The number of significant autosomal candidate genes under the AR model. The rankings of ABCA4 generated by GRIPT were compared to those generated by CMC with one-tailed WRST. The methods that generated significantly worse ranking than GRIPT were marked with “*” if p value < 0.05, “**” if p value < 0.01, and “***” if p value < 0.001

Analysis of real patient cohort data displays GRIPT’s excellent performance

To further validate the performance of GRIPT, we applied it to real WES data of three different patient cohorts respectively, including a Leber’s congenital amaurosis (LCA) cohort, a retinitis pigmentosa (RP) cohort, and a congenital disorder of glycosylation (CDG) cohort. Both the LCA cohort and RP cohort were composed of the patients carrying the pathogenic mutations of different genes, and the proportion of patients attributed to each disease gene was small. Furthermore, the patient ethnicity of the LCA cohort or RP cohort was an admixture of Caucasian, African American, Latino, and Asian, whereas the CDG cohort was composed of the patients all attributed to PGM3 from two families. The performance of GRIPT was also compared with VAAST2, CMC, SKAT, and KBAC on the same datasets.

The LCA cohort

LCA is a genetic heterogeneous disease and can be caused by mutations in at least 22 genes (http://www.sph.uth.tmc.edu/RetNet, accessed as of September 3, 2017). We performed WES on 115 sporadic LCA patients. As LCA is a rare Mendelian disorder, variants with maximum population allele frequency > 0.5% were filtered out based on the allele frequency in the large public databases of normal populations (i.e., 1000 genome, dbSNP, ESP6500, ExAC, gnomAD) and an internal database. We only focused on rare protein-changing variants including nonsense variants, splicing donor/acceptor variants, missense variants, and small INDELs, since they are more likely to be the disease-causing mutations. One previously simulated control cohort (n = 5000) was used as the control cohort for these tests.

GRIPT showed high sensitivity for the LCA cohort with high locus and ethnicity heterogeneity. It successfully detected the disease gene that only accounted for ≤ 1% of the patients. Specifically, the first nine candidate genes ranked by GRIPT were all known retinal disease genes (Table 1). Among a total of 203 significant candidates, 19 genes were known disease genes, each of which accounted for 0.87–6.09% (one to seven patients) of the cohort. Most interestingly, GRIPT was able to identify novel retinal disease genes, i.e., POMGNT1 (p = 2.81 × 10 −10 ) and MFSD8 (p = 2.81 × 10 −10 ). POMGNT1 was a gene causing non-syndromic RP newly discovered in 2016 [32] and accounted for one patient of this cohort, who carried a stop-gain mutation and a missense mutation in POMGNT1. Mutações em MFSD8 have been linked to macular dystrophy recently [33] and accounted for one patient of the LCA cohort, who carried a splice donor mutation and a missense mutation in MFSD8.

In comparison, the other tools lacked power in detecting the disease genes accounting for small proportions of this cohort. A total of 7 significant candidates were identified by VAAST2, 27 by CMC, 6 by SKAT, and 1 by KBAC. Among them, 5 genes by VAAST2 were known disease genes, 3 genes by CMC, 2 genes by SKAT, and 1 gene by KBAC, each of which accounted for 2.61–6.09% (three to seven patients) of the cohort. However, none of these known genes were the recently identified novel retinal disease genes.

The RP cohort

RP is an inherited retinal disease with even greater genetic heterogeneity compared to LCA. So far, mutations in more than 65 genes were found to cause the disease (http://www.sph.uth.tmc.edu/RetNet, accessed by September 3, 2017). WES was performed for 154 sporadic RP patients. After filtering, the WES data of the real patient cohort and a simulated control cohort (n = 5000) were subjected to analysis. GRIPT again showed excellent power in identifying low-frequency disease genes underlying the cohort with high locus and ethnicity heterogeneity. As shown in Table 2, eight genes whose rankings ranged from first to 11th by GRIPT were known retinal disease genes. Among the 157 significant candidates (p < 2.7e−6) identified by GRIPT, 17 are known disease genes, each of which explained 0.649–8.44% (1 to 13 patients) of the cohort. Furthermore, GRIPT was able to identify three novel retinal disease genes recently published, i.e., POMGNT1 (p = 3.95 × 10 −15 ), TRNT1 (p = 6.25 × 10 −8 ) and HGSNAT (p = 2.10 × 10 −7 ). Mutações em POMGNT1 [32] accounted for two patients of the cohort, who carried two different homozygous missense mutations. Mutações em HGSNAT, a gene causing nonsyndromic RP [34], explained two patients in this cohort. One patient carried two missense mutations, and the other carried a disruptive inframe deletion and a missense mutation. Mutações em TRNT1, a gene causing RP and erythrocytic microcytosis [35], accounted for one patient in the cohort, who carried a frameshift mutation and a missense mutation in TRNT1.

In comparison, the other tools had weak power in detecting the low-frequency disease genes underlying this cohort. A total of 4 significant candidate genes were identified by VAAST2, 25 by CMC, 6 by SKAT, and 2 by KBAC. Among them, 2 genes by VAAST2 were known disease genes, 0 by CMC, 1 by SKAT, and 0 by KBAC, each of which accounted for 5.19–8.44% (8 to 13 patients) of the cohort. And none of these known genes were the novel retinal disease genes recently identified.

The CDG cohort

The CDG cohort was composed of six patients from two families who all carry the pathogenic mutations of PGM3 gene [36, 37]. The WES data were downloaded from dbGaP (phs000809.v1.p1) [36]. Thus, this cohort serves as a real data example of a genetic homogeneous disease with extremely small case cohort size from an independent external source. After filtering and annotation, the real WES data and a simulated control cohort (n = 5000) were analyzed by the five tools. GRIPT showed the highest accuracy and efficiency in analyzing this homogeneous external cohort. GRIPT correctly ranked PGM3 first (p = 0), taking less than 30 min with one CPU. VAAST2 also ranked PGM3 first (p = 2.50 × 10 −6 ) but took about 6 h with five parallel CPUs. CMC ranked PGM3 11th (p = 3.79 × 10 −64 ) and took about 2.5 h with one CPU. o p value of PGM3 by SKAT equals to 0 but is the same as the other 162 genes (p = 0), taking 9.3 h with one CPU. o p value of PGM3 by KBAC equals to 2 × 10 −6 but is the same as the other 62 genes (p = 2 × 10 −6 ), taking 7.8 h and one CPU.


Biology of mtDNA

Although the vast majority of mitochondrial protein transcription and translation is encoded for and controlled by the nucleus ( Ryan & Hoogenraad 2007 ), mitochondria retain their own DNA — a remnant of an α-proteobacteria ancestry ( Gray et al. 1999). The roles of mtDNA are well conserved across the eukaryotes, not least the encoding of vital components of the oxidative phosphorylation pathway ( Saraste 1999 ). On the other hand, the size and structure of the mitochondrial genome can vary dramatically across eukaryotes ( Burger et al. 2003). In animals, they are mostly double-stranded, circular, and lack introns, with highly conserved size and gene content: genomes range between 15 and 20 kb and generally encode 22 transfer RNAs, two ribosomal RNAs and 13 subunits of the oxidative phosphorylation pathway ( Wolstenholme & Clary 1985 Kocher et al. 1989 Shadel & Clayton 1997 ). mtDNA may aggregate into nucleoprotein complexes on the inner mitochondrial membrane, referred to as nucleoids, with 2 to 10 mtDNA copies per nucleoid ( Satoh & Kuroiwa 1991 Legros et al. 2004 Malka et al. 2006 ), the evolution and dynamics of which are now beginning to be understood ( Kucej & Butow 2007 Bogenhagen et al. 2008). Total cellular mtDNA copy number can vary between cell types (Table 1).

Tipo de célula Per mitochondrion Per cell (×10 3 )
Somático 1–15 (average 4.6) 2 1.6–4.1 1
Mature oocyte 1–2 3,4 100–200 5,6
Mature sperm 1 7 0.1 7

Replication of mtDNA, which occurs semi-autonomously from nuclear control ( Larsson et al. 1998 Ekstrand et al. 2004 Ryan & Hoogenraad 2007 ), is relaxed so that some of the multiple mtDNA copies in a healthy organelle replicate more than others by chance, or because they possess some intrinsic replicative advantage ( Birky 1994 , 2001 ). Segregation of mtDNA between cells in mitosis and meiosis occurs vegetatively due to: (i) relaxed replication of mtDNA, (ii) its stochastic partitioning into daughter organelles, and (iii) the stochastic partitioning of organelles into daughter cells ( Birky 2001 ). Intergenerational transmission of mtDNA is characterised by a genetic bottleneck at early developmental stages, through which mtDNA molecules must pass (Box 1 Box 1 The mitochondrial bottleneck The paradox of dramatic shifts in frequency of mtDNA genotypes across few generations, despite vast numbers of mtDNA molecules in mature oocytes ( Hauswirth & Laipis 1982 Ashley et al. 1989 ), can be explained, in part, by a mitochondrial bottleneck that occurs during early developmental stages ( Bergstrom & Pritchard 1998 ). Although not the only factor likely at work ( Birky 2001 Cao et al. 2007 ), this bottleneck may prevent an accumulation of deleterious mutations and ‘mutational meltdown’, that would otherwise occur in a clonally inherited molecule via Muller's ratchet ( Bergstrom & Pritchard 1998 Shoubridge & Wai 2007 ). While there is little contention about their existence, what remains debated is whether it is at embryogenesis, or oogenesis, that the strongest effects of mitochondrial bottlenecks are felt ( Jenuth et al. 1996 Smith et al. 2002 Cao et al. 2007 Cree et al. 2008 Khrapko 2008 ). During mammalian embryogenesis, total embryonic mtDNA content remains constant during early stages of the cleaving embryo ( Cao et al. 2007 Cree et al. 2008 ), with mitochondria being equally apportioned to daughter cells. Most of the blastocyst forms extra-embryonic tissues thus, only a subset of all cells (the inner cell mass, ICM) will contribute to the developing embryo ( Hogan et al. 1986 Fleming et al. 1992 ). The apportionment of mitochondria to the ICM constitutes a numerical bottleneck, during which rare mtDNA haplotypes are prone to loss ( Bergstrom & Pritchard 1998 ). During mammalian oogenesis, the vast number of germ cells at maturity originates from a limited number of progenitor germ cells (PGCs), each of which contains approximately 10–100 mitochondria ( Shoubridge & Wai 2007 ). There is then an enormous expansion in cell number (to

10 7 primary oocytes in mice and human, respectively), and increase in mitochondria number. The number of mtDNA molecules increases dramatically to around 200 000 mtDNA copies in mature oocytes ( Jansen & de Boer 1998 Shoubridge & Wai 2007 ). This large decrease in mtDNA per cell during embryogenesis, and dramatic increase in oogenesis, means only a subset of maternal mtDNAs will re-populate successive generations. For a heteroplasmic individual this often means a return to homoplasmy, but can lead to strong founder effects ( Bergstrom & Pritchard 1998 ).
, Fig. 1). This bottleneck, which may result in a reduction from millions to as few as 100 mtDNA copies ( Jenuth et al. 1996 Wolff et al. unpublished), can have a dramatic effect on offspring mtDNA genotype ( Koehler et al. 1991 Blok et al. 1997 Cree et al. 2008 ).

The mammalian mitochondrial bottleneck. 1 and 2 represent the stages that have the strongest effect on haplotype segregation. ICM, inner cell mass PGC, progenitor germ cell. Estimates of mtDNA copy per cell come from Cao et al. (2007 ) and Shoubridge & Wai (2007 ).


Opções de acesso

Obtenha acesso completo ao diário por 1 ano

Todos os preços são preços NET.
O IVA será adicionado mais tarde no check-out.
O cálculo do imposto será finalizado durante o checkout.

Obtenha acesso limitado por tempo ou ao artigo completo no ReadCube.

Todos os preços são preços NET.


Conclusão

In this review, we put forward our proposition that hybrid necrosis resulting from immune incompatibility would function as a potential opposing force to the expression heterosis in hybrids. Our reasoning bases on recent molecular and genetic findings on hybrid necrosis in plant species covering both natural and selectively bred germplasms. Autoimmunity is a major mechanism underlying hybrid necrosis arising from a new combination of highly diversified immune components from different parental origins, which obligatorily results in compromise in growth and yield. Thus, hybrid necrosis illustrates an extreme degree of trade-off manifestation between growth and immunity. In the plant performance equilibrium model that we propose, the shifted equilibrium to the extremes is expressed as either hybrid necrosis or heterosis. Although the degree of contribution made from anti-hybrid necrosis to determining heterosis is yet to be examined, yield penalty associated with enhanced resistance observed throughout breeding history, including hybrid breeding in rice, clearly points to the link between heterosis and disease resistance traits. We encourage rice researchers to revisit the cases of underperforming hybrids in the breeding panel under the new concept of hybrid necrosis as an opposing force to heterosis. Despite the seemingly low breeding interests, such underperformance, when addressed under epistatic interactions and environmental variables affecting performances, might reveal an underestimated contribution of hybrid necrosis to restrict the full manifestation of heterosis. The findings will not only shed light on guided breeding strategies in the post-genome era but also greatly inform us of evolutionary processes shaping up an immune system including the valuable R gene repertoire. The more we understand the downside of hybrid performance, the better could we combine beneficial traits of yield and disease resistance. Valuable rice germplasms bred throughout history await a new wave of immune-centered breeding for heterosis.


Disorders - Psychiatric Genetics

Twin studies
- DZ 10-20% concordance
- MZ 50-60% concordance
- Metananalysis: 81% heritable in twin studies (BPD: 80, AD: 55, ASD: 90, MDD 30(F)/40(M))
- Offspring of MZ twins discordant for psychosis = 12% Sz in child of affected vs 7% in unaffected, 21% BPD in child of affected vs 25% in unaffected

Adoption studies
- Sz in biological parents = increased risk
- Sz in adoptive parents = no increased risk

Parentage(family) - Denmark whole pop.
- discordant MZ twins.
. with both parents Sz, risk: 67.5% any psych disorder, 39.5% related disorders, 27% Sz
. with both parents BPD, risk: 44.2% any psych disorder, 36% BPD or MDD, 24.9% BPD
. with one parent Sz, one BPD, risk: 15.6% Sz, 11.7% BPD

Chromosomal abnormality
- triosomy 21: icnreased risk
- 22q11DS: 1/4000, 25% Sz or psychosis. VCFS patients account for 0.3% patients with Sz
- CNVs (1kb-millions) e.g. low copy repeats undergo non-allelic homologous recombinations 2 + 2 -> 3 + 1

GWAS
- each loci impacts OR1.1-1.12
- so thousands of variants required to cause schizophrenia
- Loci may elude to disease mechanism, informing treatment despite small effect size

CNV
- confirmed CNVs found in 2.5% Sz cases, 0.6% controls
- 12 loci (0.2-0.4mb) certain to cause Sz: others will exist but too rare or effect size too small to have been found
- CNV implicated in Sz cause other phenotypes (ie pleiotropic) (Heart defects in 22q11DS & chr7dup/del (WBS), 16p13.1 in ADHD, 1q21.1 in microcephaly, 10p11.2dup in ASD)
- all Sz CNVs also impicated in developmental delay/ASD/congenital malformation (DD/ASD/CM)
- large CNVs don't play large role in BPD
- De novo CNVs in Sz found in 5% cases, 2.2% controls, essentially specific abnormalities of postsynpatic signalling complexes in pathogenesis

64% decreased fecundity in Sz represents strong selection coefficient, so lower frequency of mutant allele in population BUT is dependent on mutation rate.

common variants may be beneficial e.g. increase creativity

CNV penetrance is much higher for DD/ASM/Cm than for Sz
- Sz CNVs have incomplete penetrance, but associated disorders eg 22q11DS are much highr (20-100% penetrance)

Low mood/anhedonia
+ fatigue, psychomotor retardation, insomnia, loss of appetite, poor concentration, suicidality, helplessness

Elevated mood/irritability
+ goal directed activity, psychomotor agitation, decreased need for sleep, racing thoughts & speech, distractable, increased libido & self esteem

Mania vs Hypomania
- 1 week : 4 days
- marked impairment : not impaired in social functioning
- maybe hospitalised : not
- may have psychotic features : doesn't

When euthymic.
- cognitive abnormality
- reduced response inhibition
- executive deficits
- decreased attention
- increased impulsivity
- poor problem solving

POSTNATAL DEPRESSION
10-15%, a fews days to 6 months postpartum, duration "weeks to months to years", present with typical MDD symptoms, treat with CBT +/- antidepressants

POSTPARTUM PSYCHOSIS
1 in 1000, with around 50% first episode of psychosis. Typically up to 2 weeks postpartum, lasts "weeks to months", present with severe affective psychosis, mood disorder, mixed psychosis, perplexity. "Kaleidoscopic" - rapidly changing & progressing clinical picture. treat as psychiatric emergency, antipsychotics, hospital admission

PPP causes suffering for women & impacts relationships with partner and child with possible long term conseqeunces for social & cognitive development of child

uses:
- research interview
- case note review
- questionnaire

perinatal episodes highest in women with BP1 (BP2 less so). PMH of BP1 = 3% mania, mixed, affective psychosis in first 6 weeks PP (2013)

increased risk perinatal depression in BP1, BP2, MDD

increased risk perinatal mania/psychotic depression in BP1

much greater RR admission of women with BPD than with Sz or MDD

Bio-psycho-social triggers:
- Stress (birth=significant life event)
- specific issues in transition to parenthood
- sleep disruption
- hormonal changes (sex steroids, thyroid, HPA axis)
- immunological)

Parity strongly associated with PPP risk
- BP1 30-40% parity 1 pregnancies affected but < 0.2% after that
- no association in parity with PND

Pre-eclampsia (placental dysfunction = global effect)
- inadequate placentation -> abnormal release of angiogenic & antiangiogenic factors -> systemic illness with CNS effects and disruption of BBB
- psychosis not merely posictal (after seizure)
- associated with mood symptoms - why??

Sleep loss
- associated with PPP but not PND
- sleep disturbance is key symptom of BPD

1) Profound, progressive loss of dopaminergic neurons in substantia nigra pars compacta
2) Intracellular inclusions (Lewy bodies) in brain stem & cortical areas (made up of alpha-synuclein)

Motor symptoms not apparent until degeneration of 70-80% nigrostriatal nerve terminals

Parkin (PARK2)
- AR
- early onset PD (20% EOPD WW)
- Dups, triplications, deletions, frameshift, nonsense & splice mutations reported
- No Lewy bodies, condition closely resembles sporadic PD

PINK1
- AR, EOPD
- PINK1 kinase domain affected by dels, missense, frameshift, nonsense
- no specific pathology reported

DJ1
- AR, <10% EOPD
- ThiJ/Pfpl-like domain affected by rearrangements, framshift, splic, missense
- no specific pathology reported

PARK8/LRRK2
- AD, late onset PD (mean onset around 60)
- asymetrical, levodopa-responsive PD (L-dopa: amino-acid precursor of dopamine, acts by replenishing depleted striatal dopamine) usually with Lewy bodies
- encodes protein Padarin
- Kinase domain deletion exon 41: G2019S (WW found in 4% familial PD, 1% sporadic. Rare in N. Europe. 40% familial, sporadic PD in N. African Arabian & 10-30% in Ashkenazi population

Glucocerebrosidase (GBA)
- AD, Lewy bodies & dementia
- homozygous/compound hets = Gaucher's disease (parkinsonian symptoms in many GD patients, relatives of GD have heightened risk: ?carriers have increased risk PD)
- mutlicentre study confirmed 5x increased risk PD
- GD 1/850 in AJ pop. 1/50,000 usually.
- >300 mutations described in GBA1 gene (N370S, L444P are majority in PD, GD)
- lifetime incidence for carriers: 20% at 70, 30% at 80


Monogenic causes of non-obstructive azoospermia: challenges, established knowledge, limitations and perspectives

20% of azoospermia cases remain idiopathic. Non-obstructive azoospermia (NOA) is mostly explained by congenital factors leading to spermatogenic failure, such as chromosome abnormalities. The knowledge of the monogenic causes of NOA is very limited. High genetic heterogeneity due to the complexity of spermatogenesis and testicular function, lack of non-consanguineous familial cases and confirmatory studies challenge the field. The reported monogenic defects cause syndromic NOA phenotypes presenting also additional congenital problems and isolated NOA cases, explained by spermatogenic defects. The established and recently reported NOA genes (n = 38) represent essential guardians of meiosis, transcriptional and endocrine regulators of reproduction. Despite the list being short, 92% of these loci are predicted to functionally interact with each other (STRING analysis: average 5.21 connections/gene, enrichment P < 10 –16 ). Notavelmente,


Materiais e métodos

Monte Carlo Simulations of a Single Adaptive Mutation in Fisher's Model.

We investigate the evolution of a single locus in Fisher's geometric model (9). Alleles are represented by vectors (r) in an abstract, d-dimensional Euclidean phenotype space. Mutant alleles are obtained by adding a mutation vector (m) to the parental allele: rb = ruma + m. The directions of mutation vectors are distributed uniformly mutation sizes (m) are distributed according to a probability distribution P(m) with an average mutation size <m& gt. We consider two such distributions in detail, the uniform distribution P(m) ∝ uniform(0,2<m>) and the exponential distribution P(m) ∝ exp(−m/<m>). Haploid organismal phenotypes are equal to the allelic phenotype. In diploids, the phenotype is a weighted average of its two constituent alleles. In the case of the heterozygous mutant, the phenotype can be expressed as rab = ruma + hm, com h being the phenotypic dominance of the mutant allele.

The fitness of a phenotype is determined by its distance from the fitness optimum r*. Following precedent (10, 11), we use a Gaussian fitness function: C(r) = exp[−(r-r*) 2 /(2σC 2 )]. For convenience, we set the origin of the phenotype space to be at r* and choose the scale of the space such that σC 2 = 1. We begin by considering mutations arising in a population that is monomorphic for the wild-type allele ruma = (2,0,…,0). The invasion probability of new mutations is then approximately πhap(m) = 2[C(rb)/C(ruma) − 1] in haploids (10). In diploids, we assume that mutants initially exist only as heterozygotes, therefore: πdip(m) = 2[C(rab)/C(ruma) − 1].

Results in Figs. S1 and S2 were obtained from Monte Carlo simulations of the above model based on 10 7 randomly drawn mutations per data point. The ratios vocêdip/vocêhap of the rates at which adaptive mutations occur in diploids vs. haploids were estimated by counting the overall numbers of mutations where rbαhap in haploids or, respectively, rabαdip in diploids. For the ratios vdip/vhap of the rates at which adaptive mutations invade the population, each adaptive mutation was additionally weighted by its respective invasion probability, πhap ou πdip. Among successfully invading mutations, the expectation values, <C(rab) − C(ruma)> in diploids and <C(rb) − C(ruma)> in haploids, were measured to estimate the ratios <ΔCdip>/<ΔChap& gt. Estimates of δvocê were obtained by counting the fraction of adaptive mutations with heterozygote advantage in the diploid scenario. Para δv, each adaptive mutation was thereby additionally weighted by its respective invasion probability.

Simulation of Adaptive Walks Toward a Fixed Fitness Optimum.

To investigate adaptive walks toward a fixed fitness optimum, we simulated the full stochastic population dynamics in the above scenario under an infinite alleles assumption. We focused on the instructive case of a 2D Fisher's model with complete phenotypic codominance (h = 1/2). The phenotype of a heterozygous diploid is then always the coordinate-wise average of its two alleles: rab = (ruma + rb)/2.

Mutations are modeled by a Poisson process with rate µ = 2.5⋅10 −7 per individual and generation. Mutation directions are drawn uniformly, and mutation sizes are sampled from an exponential distribution with mean <m> = 1. Population sizes are Nhap = 10 5 for haploids and Ndip = 5⋅10 4 for diploids, ensuring that new mutations arise at equal overall rates in the two populations (Θ = 2cNμ = 0.05, where c is ploidy).

The state of the population at any given time point is specified by the set of alleles <reu> present in the population and their associated population frequencies <xeu>. Allele frequency dynamics are modeled in a Wright–Fisher framework with selection (44). For haploids, we use the standard Wright–Fisher sampling procedure in which allele frequencies xeu(t + 1) in the next generation are drawn from a multinomial distribution P(N,<peu hap (t)>) with selection-adjusted probabilities: peu hap (t) ∝ C(reu)xeu(t) In the case of diploids, we first convert allele frequencies into genotype frequencies (assuming Hardy–Weinberg equilibrium) to calculate the selection-adjusted probabilities: peu dip (t) ∝ ∑jC(rij)xeu(t)xj(t) Allele frequencies xeu(t + 1) are then drawn from P(2N,<peu dip (t)>). In both cases, peu e xeu are normalized such that ∑eupeu = ∑euxeu = 1.

As specified above, simulations start from a population that is monomorphic for the wild type ruma = (2,0) with the optimal phenotype located at the origin, yielding an initial population average fitness of C(ruma) ∼0.13. Populations are then evolved for 10 4 generations, which typically suffices to approach the fitness optimum closely (<w> > 0.96 at end of a run Fig. S4UMA).

Simulations Under a Moving Fitness Optimum.

For the analysis of the moving optimum scenario, we adjust our simulation as follows. At the start of the simulation, the population is initialized to be monomorphic for the optimal phenotype: r*(t = 0) = ruma = (0,0). In each subsequent generation, the optimum r*(t) moves one step in a random direction and the size of the mutation is sampled from the positive half of a Gaussian distribution with variance σenv 2 In a single simulation run, the population is evolved for 10 7 generations (∼100N) We exclude the first 10 5 generations of each run from our analysis as a “burn-in” period so as to remove the influence of the initial state of the population.

Ascertainment of Balanced Polymorphisms During Adaptive Walks.

Balanced polymorphisms can consist of several alleles (45, 46). We determine the presence of a balanced polymorphism at a given time point in our simulation runs using Kimura's analytic conditions (47). Assume that n alleles <r1,…,rn> are present in the population with diploid fitness values given by C(rij) Deixar T be the matrix defined by Tij = C(rij) − C(rno) − C(rjn) + C(rnn) (eu,j = 1,…,n) Let Δeu be the determinant obtained when substituting all elements in the euth column of the fitness-matrix C(rij) (eu,j = 1,…,n) with 1. The necessary and sufficient conditions for the existence of a stable equilibrium with all individual population frequencies xeu of the alleles being nonzero are then that T is negative definite and that (−1) n − 1 Δeu > 0 for all eu = 1,…,n. Geometrically, these first two conditions specify a peak in n-dimensional fitness space, and only one such peak is allowed for all alleles to coexist (47).

For heterozygote advantage to be consequential (i.e., to be capable of effectively stabilizing a balanced polymorphism against the stochastic fluctuations arising from random genetic drift), the fitness advantages of a heterozygote over its two homozygote have to be at least of order 1/N (10). Because we are only interested in such consequential cases of heterozygote advantage, we thus require, as a third condition, that for at least one pair of alleles in a balanced polymorphism, it holds that C(rij) > max[C(rii),C(rjj)] + 1/N.

In our simulations, we evaluate these three conditions for the fitness matrix of all alleles with frequencies 0.05 < xeu < 0.95. Negative definiteness of T is tested by numerically calculating eigenvalues using symmetrical bidiagonalization with the QR reduction method (48) and checking for the negativity of all eigenvalues. Signs of determinants Δeu are estimated using numerical LU decompositions (48).


Assista o vídeo: 6. Doenças genéticas (Janeiro 2022).