Em formação

Número de genes de fator de transcrição no genoma humano


Qual é o número de genes do fator de transcrição presentes no genoma humano? Este valor difere em comparação com Mus musculus, Drosophila melanogaster, Arabidopsis thaliana, C. elegans e S. cerevisiae? Além disso, a proporção muda entre eucariotos e procariontes?


Aqui, assumirei que estamos falando sobre fatores de transcrição específicos de sequência eucariótica (ssTFs) e tentarei responder à primeira e parte da segunda pergunta. Em qualquer caso, ainda não existe uma resposta definitiva.

Uma estimativa dos genes ssTFs em humanos é fornecida no artigo de 2009 da Nature Reviews Genetics, de Vaquerizas, JM et al, Um censo de fatores de transcrição humana: função, expressão e evolução.

Um trecho do resumo:

Aqui, apresentamos uma análise de 1.391 fatores de transcrição de ligação ao DNA específicos de sequência curados manualmente, suas funções, organização genômica e conservação evolutiva.

Os números são um pouco mais altos agora. Wingender et al. contaram 1.558 genes humanos em seu banco de dados TFClass, artigo NAR de 2013. Em seu artigo do NAR de 2014, eles incluíram 1.557 humanos, 1.147 camundongos e 1.105 ortólogos de ratos.

Outra maneira de procurar por essas informações é ver o número de entradas listadas nos bancos de dados TF, como por exemplo JASPAR. Isso tem a vantagem de incluir outras espécies. No entanto, a cobertura aqui depende da disponibilidade de matrizes de peso de posição (PWMs) para as especificidades de ligação. Muitos FT não caracterizados podem não ser encontrados.


Para tentar responder à sua terceira pergunta, isto é, qual é a proporção de TFs nas diferentes espécies, uma abordagem ingênua seria dividir o número de TFs previstos pelo número de genes previstos no genoma alvo. Por exemplo, tomar as últimas estimativas acima com o número previsto de genes codificadores do banco de dados Ensembl (versão 78) retornará estas porcentagens:

# Human 100 * 1557/20364 = 7,64% # Mouse 100 * 1147/22606 = 5,07% # Rat 100 * 1105/22777 = 4,85%

Isso sugere que os humanos têm uma proporção ligeiramente maior de FTs do que os roedores. No entanto, essas diferenças não são muito grandes e podem ser dependentes da precisão das diferentes estimativas sobre TFs e números de genes. Por si só, esses números não são tão interessantes.

Uma questão muito mais interessante é se as famílias de TF se expandiram mais ou menos em espécies diferentes (isto é, se o número de proteínas dentro de cada família aumentou, independentemente da proporção do número total de genes no genoma). Eu poderia encontrar pelo menos um artigo onde isso foi feito sistematicamente para várias espécies eucarióticas, cobrindo animais, plantas e fungos, e focando em FTs comuns aos encontrados em plantas. A principal conclusão do artigo é que algumas famílias de FT se expandiram mais em plantas do que em outros organismos. Citado do resumo:

Para investigar se existem diferenças nos padrões de expansão das famílias de genes de TF entre plantas e outros eucariotos, primeiro usamos TFs de Arabidopsis (Arabidopsis thaliana) para identificar domínios de ligação ao DNA de TF. Esses domínios de ligação de DNA foram então usados ​​para identificar sequências relacionadas em 25 outros genomas eucarióticos. Curiosamente, entre 19 famílias que são compartilhadas entre animais e plantas, mais de 14 são maiores em plantas do que em animais. Depois de examinar a expansão específica de linhagem de famílias de FT em duas plantas, oito animais e dois fungos, descobrimos que as famílias de FT compartilhadas entre esses organismos sofreram uma expansão muito mais dramática nas plantas do que em outros eucariotos. Além disso, esta elevada taxa de expansão do FT da planta não se deve apenas a taxas de duplicação mais altas dos genomas das plantas, mas também a um maior grau de expansão em comparação com outros genes de plantas.


Fator de transcrição E2F5

& ltp> A pontuação da anotação fornece uma medida heurística do conteúdo da anotação de uma entrada UniProtKB ou proteoma. Esta pontuação & ltstrong> não pode & lt / strong> ser usada como uma medida da precisão da anotação, pois não podemos definir a 'anotação correta' para qualquer proteína. & Ltp> & lta href = '/ help / annotation_score' target = '_ top'> Mais. & lt / a> & lt / p> - Evidência experimental no nível de proteína i & ltp> Isso indica o tipo de evidência que apóia a existência da proteína. Observe que a evidência de 'existência de proteína' não fornece informações sobre a precisão ou correção da (s) sequência (s) exibida (s). & Ltp> & lta href = '/ help / protein_existence' target = '_ top'> Mais. & lt / a> & lt / p>

Selecione uma seção à esquerda para ver o conteúdo.


Resumo

MicroRNAs (miRNAs) são pequenas moléculas de RNA envolvidas na regulação da expressão gênica de mamíferos. Juntamente com outros reguladores de transcrição, os miRNAs modulam a expressão de genes e, assim, contribuem potencialmente para a diversidade de tecidos e espécies. Para identificar miRNAs que são expressos diferencialmente entre tecidos e / ou espécies, e os genes regulados por eles, quantificamos a expressão de miRNAs e RNAs mensageiros em cinco tecidos de vários indivíduos humanos, chimpanzés e macacos rhesus usando sequenciamento de alto rendimento. A amplitude desses dados de tecido e espécie nos permite mostrar que a regulação negativa de genes alvo por miRNAs é mais pronunciada entre os tecidos do que entre as espécies e que a regulação negativa é mais pronunciada para genes com menos sítios de ligação para miRNAs expressos. Curiosamente, descobrimos que miRNAs específicos de tecido e espécie têm como alvo genes do fator de transcrição (TFs) significativamente mais frequentemente do que o esperado. Por meio de seu efeito regulatório sobre os fatores de transcrição, os miRNAs podem, portanto, exercer uma influência indireta sobre uma proporção maior de genes do que se pensava anteriormente.


Resultados

Um catálogo abrangente de GRFs humanos para estudar a evolução regulatória

Para investigar os papéis dos GRFs durante a evolução humana, reunimos o catálogo mais atualizado de genes de GRF combinando as informações de oito estudos (tabela 1 e Métodos suplementares .pdf, Material Suplementar online). No total, nosso catálogo abrange 3.344 genes (tabela suplementar S1, Material Suplementar online).

Composição de 3.344 genes GRF considerados neste estudo (consulte o material suplementar, material suplementar online, para critérios de seleção) e as fontes onde esses genes foram previamente catalogados

Inventários existentes GRFs humanos. Genes incluídos. % Incluído.
Messina et al. (2004) 1,640 84.1
Vaquerizas et al. (2009) 1,804 96.6
Ravasi et al. (2010) 1,734 87.2
Nowick et al. (2011) 572 96.5
Corsinotti et al. (2013) 339 96.3
Tripathi et al. (2013) 2,998 92.3
Karolchik et al. (2012) 2,225 86.6
Wingender et al. (2015) 1,506 99.8
Trabalho atual 3,344 100
Inventários existentes GRFs humanos. Genes incluídos. % Incluído.
Messina et al. (2004) 1,640 84.1
Vaquerizas et al. (2009) 1,804 96.6
Ravasi et al. (2010) 1,734 87.2
Nowick et al. (2011) 572 96.5
Corsinotti et al. (2013) 339 96.3
Tripathi et al. (2013) 2,998 92.3
Karolchik et al. (2012) 2,225 86.6
Wingender et al. (2015) 1,506 99.8
Trabalho atual 3,344 100

Composição de 3.344 genes GRF considerados neste estudo (consulte o material suplementar, material suplementar online, para critérios de seleção) e as fontes onde esses genes foram previamente catalogados

Inventários existentes GRFs humanos. Genes incluídos. % Incluído.
Messina et al. (2004) 1,640 84.1
Vaquerizas et al. (2009) 1,804 96.6
Ravasi et al. (2010) 1,734 87.2
Nowick et al. (2011) 572 96.5
Corsinotti et al. (2013) 339 96.3
Tripathi et al. (2013) 2,998 92.3
Karolchik et al. (2012) 2,225 86.6
Wingender et al. (2015) 1,506 99.8
Trabalho atual 3,344 100
Inventários existentes GRFs humanos. Genes incluídos. % Incluído.
Messina et al. (2004) 1,640 84.1
Vaquerizas et al. (2009) 1,804 96.6
Ravasi et al. (2010) 1,734 87.2
Nowick et al. (2011) 572 96.5
Corsinotti et al. (2013) 339 96.3
Tripathi et al. (2013) 2,998 92.3
Karolchik et al. (2012) 2,225 86.6
Wingender et al. (2015) 1,506 99.8
Trabalho atual 3,344 100

Seguindo a classificação detalhada e com curadoria de genes de TF de ligação ao DNA (Wingender et al. 2015), agrupamos funcionalmente 1.509 genes de GRF em 40 classes de TF. Os genes ZNF são de longe a classe mais abundante (807 genes) que ainda se subdividem em dez subclasses, das quais o KRAB-ZNF (410 genes) e o não KRAB C2H2 (280 genes) são os mais abundantes. Eles são seguidos pelas classes de Domínio Homebox (229 genes) e Helix-Loop-Helix básico (bHLH, 107 genes) (fig. S1 suplementar, Material Suplementar online).

Genes GRF estão superrepresentados em regiões candidatas para seleção positiva

Para identificar GRFs localizados em regiões genômicas potencialmente sujeitas à seleção positiva, analisamos as pontuações de classificação de todo o genoma para quatro métodos diferentes: a razão de verossimilhança composta de locus múltiplos (CLR) (Nielsen et al. 2009), CLR de população cruzada (XP -CLR) (Chen et al. 2010), homozigosidade de haplótipo estendido de população cruzada (XP-EHH) (Sabeti et al. 2007), e FST (Weir e Cockerham 1984), em três populações humanas (CEU, CHB e YRI). As regiões que obtêm as pontuações mais altas com esses métodos exibem padrões de variação consistentes com a diferenciação genética entre as populações e a seleção positiva putativa. GRFs são enriquecidos entre os 5% principais das pontuações classificadas com os métodos baseados em janela CLR e XP-CLR para a maioria das populações e comparações de pares (teste exato de Fisher, Bonferroni corrigido P & lt 0,01) (tabela 2). Com o teste XP-EHH, encontramos depleção ou nenhuma diferença na distribuição da pontuação classificada entre GRFs e outros genes ao comparar CEU e CHB versus YRI. É possível que o menor número de blocos de haplótipos característicos das populações subsaarianas (Gabriel et al. 2002 International HapMap Consortium et al. 2007) possa ter causado esse esgotamento observado. É importante ressaltar que não houve diferença significativa entre as distribuições das taxas de recombinação entre genes GRF e não GRF (teste de Kolmogorov-Smirnov D = 0.019 P = 0,18) e apenas uma correlação muito pequena, embora significativa, entre o comprimento do gene e a pontuação de classificação (correlação de classificação de Spearman, P & lt 2.2e-16, ρ = 0,009) ao nível da população (Métodos suplementares .pdf, Material suplementar online). Isso indica que as diferenças nas taxas de recombinação e no comprimento do gene provavelmente não influenciaram nossos resultados.

Associação entre genes GRF e não GRF e o nível de significância para três estatísticas para identificar regiões candidatas para seleção positiva e medição da diferenciação genética (FST).

Teste . Populações. Teste Exato de Fisher (Bonferroni corrigido P) . Razão de probabilidade . Recurso .
CLR CEU 3,96E-15 1.207 Enriquecimento
CHB 9,72E-02 1.066 Sem diferença
YRI 2,70E-07 1.132 Enriquecimento
XP-CLR CEU versus CHB 3,96E-04 1.145 Enriquecimento
CEU contra YRI 1.58E-14 1.278 Enriquecimento
CHB versus CEU 3,42E-10 1.235 Enriquecimento
CHB versus YRI 8,64E-08 1.203 Enriquecimento
YRI versus CEU 4,50E-09 1.219 Enriquecimento
YRI contra CHB 1 1.01 Sem diferença
XP-EHH CEU versus CHB 3,96E-15 1.367 Enriquecimento
CEU versus YRI 3,96E-15 0.906 Esgotamento
CHB versus CEU 1.73E-03 1.043 Sem diferença
CHB versus YRI 3,96E-15 0.896 Esgotamento
YRI versus CEU 1 1.016 Sem diferença
YRI contra CHB 1 0.988 Sem diferença
FSTCEU versus CHB 1.04E-01 0.971 Sem diferença
YRI versus CEU 1.19E-01 1.023 Sem diferença
YRI contra CHB 1 1.013 Sem diferença
Teste . Populações. Teste Exato de Fisher (Bonferroni corrigido P) . Razão de probabilidade . Recurso .
CLR CEU 3,96E-15 1.207 Enriquecimento
CHB 9,72E-02 1.066 Sem diferença
YRI 2,70E-07 1.132 Enriquecimento
XP-CLR CEU versus CHB 3,96E-04 1.145 Enriquecimento
CEU contra YRI 1.58E-14 1.278 Enriquecimento
CHB versus CEU 3,42E-10 1.235 Enriquecimento
CHB versus YRI 8,64E-08 1.203 Enriquecimento
YRI versus CEU 4,50E-09 1.219 Enriquecimento
YRI contra CHB 1 1.01 Sem diferença
XP-EHH CEU versus CHB 3,96E-15 1.367 Enriquecimento
CEU versus YRI 3,96E-15 0.906 Esgotamento
CHB versus CEU 1.73E-03 1.043 Sem diferença
CHB versus YRI 3,96E-15 0.896 Esgotamento
YRI versus CEU 1 1.016 Sem diferença
YRI contra CHB 1 0.988 Sem diferença
FSTCEU versus CHB 1.04E-01 0.971 Sem diferença
YRI versus CEU 1.19E-01 1.023 Sem diferença
YRI contra CHB 1 1.013 Sem diferença

Associação entre genes GRF e não GRF e o nível de significância para três estatísticas para identificar regiões candidatas para seleção positiva e medição da diferenciação genética (FST).

Teste . Populações. Teste Exato de Fisher (Bonferroni corrigido P) . Razão de probabilidade . Recurso .
CLR CEU 3,96E-15 1.207 Enriquecimento
CHB 9,72E-02 1.066 Sem diferença
YRI 2,70E-07 1.132 Enriquecimento
XP-CLR CEU versus CHB 3,96E-04 1.145 Enriquecimento
CEU contra YRI 1.58E-14 1.278 Enriquecimento
CHB versus CEU 3.42E-10 1.235 Enriquecimento
CHB versus YRI 8,64E-08 1.203 Enriquecimento
YRI versus CEU 4,50E-09 1.219 Enriquecimento
YRI contra CHB 1 1.01 Sem diferença
XP-EHH CEU versus CHB 3,96E-15 1.367 Enriquecimento
CEU contra YRI 3,96E-15 0.906 Esgotamento
CHB versus CEU 1.73E-03 1.043 Sem diferença
CHB versus YRI 3,96E-15 0.896 Esgotamento
YRI versus CEU 1 1.016 Sem diferença
YRI contra CHB 1 0.988 Sem diferença
FSTCEU versus CHB 1.04E-01 0.971 Sem diferença
YRI versus CEU 1.19E-01 1.023 Sem diferença
YRI contra CHB 1 1.013 Sem diferença
Teste . Populações. Teste Exato de Fisher (Bonferroni corrigido P) . Razão de probabilidade . Recurso .
CLR CEU 3,96E-15 1.207 Enriquecimento
CHB 9,72E-02 1.066 Sem diferença
YRI 2,70E-07 1.132 Enriquecimento
XP-CLR CEU versus CHB 3,96E-04 1.145 Enriquecimento
CEU contra YRI 1.58E-14 1.278 Enriquecimento
CHB versus CEU 3,42E-10 1.235 Enriquecimento
CHB versus YRI 8,64E-08 1.203 Enriquecimento
YRI versus CEU 4,50E-09 1.219 Enriquecimento
YRI contra CHB 1 1.01 Sem diferença
XP-EHH CEU versus CHB 3,96E-15 1.367 Enriquecimento
CEU contra YRI 3,96E-15 0.906 Esgotamento
CHB versus CEU 1.73E-03 1.043 Sem diferença
CHB versus YRI 3,96E-15 0.896 Esgotamento
YRI versus CEU 1 1.016 Sem diferença
YRI contra CHB 1 0.988 Sem diferença
FSTCEU versus CHB 1.04E-01 0.971 Sem diferença
YRI versus CEU 1.19E-01 1.023 Sem diferença
YRI contra CHB 1 1.013 Sem diferença

Em seguida, selecionamos como candidatos para seleção positiva, por cada população, genes GRF que são encontrados entre os 5% principais da distribuição de pontuação de classificação de todo o genoma em todos os três métodos de detecção de seleção (CLR, XP-CLR e XP-EHH) . Isso rendeu 902 genes GRF para CEU, 759 genes GRF para CHB e 1.697 genes GRF para YRI (tabela suplementar S2, Material Suplementar online). Posteriormente, cruzamos as listas entre as populações e descobrimos que 306 genes GRF são encontrados como candidatos em todas as três populações (fig. S2 suplementar, Material Suplementar online). Embora o YRI tenha a maioria dos candidatos específicos à população (892 GRFs, 53%), o CEU e o CHB exibem uma sobreposição maior entre os pares de comparações (entre 74% e 76% do total de candidatos, respectivamente).

Em seguida, avaliamos se alguma das 40 classes de GRF foi enriquecida entre os 5% melhores candidatos com pontuações mais altas. Embora as classes enriquecidas (teste exato de Fisher, Bonferroni corrigiu P & lt 0,05) diferiu ligeiramente dependendo do método e da população (fig. 1 e tabela suplementar S3, Material Suplementar online), cinco das dez maiores classes de GRF foram repetidamente super-representadas: KRAB-ZNFs, não C2H2, domínio Homeo, HMG de alta mobilidade e TFs de caixa de forkhead (fig. 1).

—Análises de enriquecimento para genes das dez maiores classes de GRFs de ligação de DNA localizadas em regiões que exibem altas pontuações para quatro métodos de detecção de regiões candidatas para seleção positiva e um para medição de diferenciação genética. Este mapa de calor mostra os resultados do teste exato de Fisher após a correção para testes múltiplos usando a correção de Bonferroni para cada população ou comparação cruzada de população, respectivamente.

—Análises de enriquecimento para genes das dez maiores classes de GRFs de ligação de DNA localizadas em regiões que exibem altas pontuações para quatro métodos de detecção de regiões candidatas para seleção positiva e um para medição de diferenciação genética. Este mapa de calor mostra os resultados do teste exato de Fisher após a correção para múltiplos testes usando a correção de Bonferroni para cada população ou comparação cruzada de população, respectivamente.

No total, essas cinco classes GRF contêm 180 candidatos para seleção positiva. Cento e vinte e um desses genes pertencem à classe TF C2H2 (68 candidatos não-KRAB C2H2 e 53 KRAB-ZNF). Eles são seguidos por domínio Homeo com 31, Cabeça de garfo / hélice alada com 19 e domínio HMG de alta mobilidade com nove candidatos (tabela suplementar S4, Material Suplementar online). Mesmo que as classes maiores tivessem mais genes localizados nos primeiros 5% das pontuações mais altas, em porcentagem eles também estão sobrerrepresentados: não-KRAB C2H2 (24%), KRAB-ZNF (13%), domínio Homeo (13%), caixa Forkhead (28%) e HMG de alta mobilidade (21%). Destes 180 GRF, apenas 21 genes (12%) também foram listados em varreduras anteriores para seleção (Sabeti et al. 2007 Pickrell et al. 2009 Metspalu et al. 2011 Grossman et al, 2013 Huber et al. 2016), seis deles sendo C2H2 não KRAB (ZFAT, ZBTB41, ZNF827, IKZF2, ZNF438, e ZBTB20) e quatro KRAB-ZNF (ZNF546, ZNF780A, ZNF780B, e ZNF492) genes (tabela suplementar S5, Material suplementar online). Como um grupo, essas cinco classes de GRF são relevantes para processos como embriogênese, desenvolvimento, modificação da cromatina, replicação e reparo de DNA, entre outros (tabela 3).

Principais funções biológicas das cinco classes GRF enriquecidas repetidamente dentro dos 5% principais das regiões putativas para seleção positiva

Família GRF. Exemplos de funções regulatórias principais.
Caixas de empilhadeira Crescimento celular, proliferação, diferenciação e longevidade desenvolvimento embrionário, migração de células, desenvolvimento de órgãos, proliferação de linfócitos T (Jonsson e Peng 2005 Tuteja e Kaestner 2007a, 2007b).
C2H2 Estabelecimento do desenvolvimento embrionário da arquitetura cromossômica, diferenciação e proliferação celular, regulação do ciclo celular e apoptose (Fedotova et al. 2017).
KRAB-ZNF Recrutamento de TRIM28 / KAP-1 para repressão da expressão gênica, silenciamento epigenético, repressão do desenvolvimento embrionário precoce de ERVs e estabelecimento de elementos transponíveis de isolamento reprodutivo pós-zigótico (especiação) (Nowick et al. 2013 Wolf et al. 2015 Kapopoulou et al. 2016 Fedotova et al. 2016 Fedotova et al. al. 2017). A função da maioria deles ainda é desconhecida.
Domínio Homeo Especificação do plano corporal durante a embriogênese, regulação do padrão axial, segmento ou identidade celular e formação de proliferação e determinação do destino celular no desenvolvimento de metazoários, crucial para o desenvolvimento temporoespacial normal de membros e órgãos (Banerjee-Basu e Baxevanis 2001).
HMG de alta mobilidade Ligue-se temporariamente aos nucleossomos para modificar a replicação do DNA da arquitetura da cromatina local e reparar as proteínas arquitetônicas do núcleo e dos reguladores de sinalização do DNA mitocondrial no citoplasma e como citocinas inflamatórias (Wang et al. 1999 Lim et al. 2004 Malarkey e Churchill 2012).
Família GRF. Exemplos de funções regulatórias principais.
Caixas de empilhadeira Crescimento celular, proliferação, diferenciação e longevidade desenvolvimento embrionário, migração de células, desenvolvimento de órgãos, proliferação de linfócitos T (Jonsson e Peng 2005 Tuteja e Kaestner 2007a, 2007b).
C2H2 Estabelecimento do desenvolvimento embrionário da arquitetura cromossômica, diferenciação e proliferação celular, regulação do ciclo celular e apoptose (Fedotova et al. 2017).
KRAB-ZNF Recrutamento de TRIM28 / KAP-1 para repressão da expressão gênica, silenciamento epigenético, repressão do desenvolvimento embrionário precoce de ERVs e estabelecimento de elementos transponíveis de isolamento reprodutivo pós-zigótico (especiação) (Nowick et al. 2013 Wolf et al. 2015 Kapopoulou et al. 2016 Fedotova et al. 2016 Fedotova et al. al. 2017). A função da maioria deles ainda é desconhecida.
Domínio Homeo Especificação do plano corporal durante a embriogênese, regulação do padrão axial, segmento ou identidade celular e formação de proliferação e determinação do destino celular no desenvolvimento de metazoários, crucial para o desenvolvimento temporoespacial normal de membros e órgãos (Banerjee-Basu e Baxevanis 2001).
HMG de alta mobilidade Ligue-se temporariamente aos nucleossomos para modificar a replicação do DNA da arquitetura da cromatina local e reparar as proteínas arquitetônicas do núcleo e dos reguladores de sinalização do DNA mitocondrial no citoplasma e como citocinas inflamatórias (Wang et al. 1999 Lim et al. 2004 Malarkey e Churchill 2012).

Principais funções biológicas das cinco classes GRF enriquecidas repetidamente dentro dos 5% principais das regiões putativas para seleção positiva

Família GRF. Exemplos de funções regulatórias principais.
Caixas de empilhadeira Crescimento celular, proliferação, diferenciação e longevidade desenvolvimento embrionário, migração de células, desenvolvimento de órgãos, proliferação de linfócitos T (Jonsson e Peng 2005 Tuteja e Kaestner 2007a, 2007b).
C2H2 Estabelecimento do desenvolvimento embrionário da arquitetura cromossômica, diferenciação e proliferação celular, regulação do ciclo celular e apoptose (Fedotova et al. 2017).
KRAB-ZNF Recrutamento de TRIM28 / KAP-1 para repressão da expressão gênica, silenciamento epigenético, repressão do desenvolvimento embrionário precoce de ERVs e estabelecimento de elementos transponíveis de isolamento reprodutivo pós-zigótico (especiação) (Nowick et al. 2013 Wolf et al. 2015 Kapopoulou et al. 2016 Fedotova et al. 2016 Fedotova et al. al. 2017). A função da maioria deles ainda é desconhecida.
Domínio Homeo Especificação do plano corporal durante a embriogênese, regulação do padrão axial, segmento ou identidade celular e formação de proliferação e determinação do destino celular no desenvolvimento de metazoários, crucial para o desenvolvimento temporoespacial normal de membros e órgãos (Banerjee-Basu e Baxevanis 2001).
HMG de alta mobilidade Ligue-se temporariamente aos nucleossomos para modificar a replicação do DNA da arquitetura da cromatina local e reparar as proteínas arquitetônicas do núcleo e dos reguladores de sinalização do DNA mitocondrial no citoplasma e como citocinas inflamatórias (Wang et al. 1999 Lim et al. 2004 Malarkey e Churchill 2012).
Família GRF. Exemplos de funções regulatórias principais.
Caixas de empilhadeira Crescimento celular, proliferação, diferenciação e longevidade desenvolvimento embrionário, migração de células, desenvolvimento de órgãos, proliferação de linfócitos T (Jonsson e Peng 2005 Tuteja e Kaestner 2007a, 2007b).
C2H2 Estabelecimento do desenvolvimento embrionário da arquitetura cromossômica, diferenciação e proliferação celular, regulação do ciclo celular e apoptose (Fedotova et al. 2017).
KRAB-ZNF Recrutamento de TRIM28 / KAP-1 para repressão da expressão gênica, silenciamento epigenético, repressão do desenvolvimento embrionário precoce de ERVs e estabelecimento de elementos transponíveis de isolamento reprodutivo pós-zigótico (especiação) (Nowick et al. 2013 Wolf et al. 2015 Kapopoulou et al. 2016 Fedotova et al. 2016 Fedotova et al. al. 2017). A função da maioria deles ainda é desconhecida.
Domínio Homeo Especificação do plano corporal durante a embriogênese, regulação do padrão axial, segmento ou identidade celular e formação de proliferação e determinação do destino celular no desenvolvimento de metazoários, crucial para o desenvolvimento temporoespacial normal de membros e órgãos (Banerjee-Basu e Baxevanis 2001).
HMG de alta mobilidade Ligue-se temporariamente aos nucleossomos para modificar a replicação do DNA da arquitetura da cromatina local e reparar as proteínas arquitetônicas do núcleo e dos reguladores de sinalização do DNA mitocondrial no citoplasma e como citocinas inflamatórias (Wang et al. 1999 Lim et al. 2004 Malarkey e Churchill 2012).

Alta diferenciação genética não-sinônima dentro dos agrupamentos de genes KRAB-ZNF entre as populações

De todas as classes de TF de ligação ao DNA, os genes KRAB-ZNF carregam o maior número de SNPs não sinônimos geneticamente diferenciados que afetam as sequências em domínios de proteína (FST & gt 0,15) (Métodos suplementares .pdf, fig. suplementar S3 e tabela suplementar S6, Material suplementar online). Uma característica principal da classe KRAB-ZNF é que a maioria de seus membros estão localizados em regiões genômicas (clusters de genes) que abrangem mais de 150 kb (Huntley et al. 2006). Assim, analisamos todos os principais agrupamentos de genes KRAB-ZNF para variação adaptativa putativa, em que apenas sítios polimórficos em populações CEU, CHB e YRI com frequência de alelo menor & gt0,001 foram considerados. Em seguida, exploramos manualmente onde nas proteínas as alterações não-sinônimas supostamente selecionadas estão localizadas para deduzir possíveis efeitos funcionais.

Mudanças nos resíduos de cisteína e histidina envolvidos na formação da estrutura em forma de dedo para a ligação ao DNA das proteínas C2H2 e KRAB-ZNF, nas posições -1, 2, 3 e 6 que interagem diretamente com nucleotídeos específicos, ou nos ligantes que determinam o espaço entre os dedos, espera-se que alterem a especificidade de ligação ao DNA das proteínas ZNF (Ryan e Darby 1998 Laity et al. 2000 Wolfe et al. 2000). Encontramos 42 SNPs não sinônimos com diferenciação genética alta a muito alta (FST & gt 0,15 & lt 0,95) dentro de 11 agrupamentos KRAB-ZNF nos cromossomos 1, 3, 9, 12, 16, 18 e 19. Trinta e dois desses 42 SNPs estão em genes C2H2 (16 KRAB-ZNF e um não-KRAB- Genes ZNF) (tabela suplementar S7, material suplementar online). Dentro deste conjunto de 42 SNPs não sinônimos, 11 SNPs alteram resíduos de aminoácidos de ZNFs para oito genes KRAB-ZNF (ZNF695, ZKSCAN7, ZNF502, ZNF571, ZNF132, ZNF10, ZNF90, e ZNF568), enquanto sete outros SNPs afetam os aminoácidos dos ligantes entre ZNFs para quatro KRAB-ZNFs (ZNF668, ZNF646, ZNF844, e ZNF492), e cinco SNPs alteram os domínios KRAB de três proteínas (ZNF695, ZKSCAN7, e ZNF48) (tabela complementar S7, Material complementar online). Um SNP não sinônimo altamente diferenciado modifica o resíduo de aminoácido de uma das duas cisteínas de coordenação de zinco. Como essas duas cisteínas (C2) junto com duas histidinas (H2) coordenam tetraedricamente um íon zinco, que é essencial para manter a estabilidade e a estrutura globular dos ZNFs (Eun 1996 Wolfe et al. 2000), esta modificação muito provavelmente interrompe o DNA -capacidade de encadernação do sétimo motivo ZNF de ZNF492. Além disso, identificamos sete SNPs que afetam a sequência de aminoácidos de sete proteínas C2H2 fora dos domínios funcionais mencionados acima (ZNF695, ZNF445, ZNF35, ZNF501, ZNF768, ZNF510, e ZNF568) Além dos SNPs não sinônimos que afetam os genes KRAB-ZNF, nove outros SNPs não sinônimos altamente diferenciados ocorrem em sete outros genes localizados dentro dos agrupamentos KRAB-ZNF, dos quais um, KAT8, é um GRF (tabela suplementar S7, Material suplementar online).

Tomados em conjunto, alguns genes C2H2 e KRAB-ZNF não KRAB carregam mais de um SNP não sinônimo altamente diferenciado que modifica a sequência das proteínas. Com base nas localizações desses SNPs não sinônimos, sugerimos que eles influenciam a interação dessas proteínas ZNF com DNA (alterações nos dedos), RNA, ou com KAP1, um cofator que interage com o domínio KRAB promovendo a atividade repressora de KRAB- Proteínas ZNF.

Os clusters de genes KRAB-ZNF contêm vários locais como alvos candidatos de seleção em CEU e CHB

A seleção positiva altera as frequências alélicas dos SNPs na vizinhança do alelo selecionado, criando assim um padrão mensurável enviesado de variação genética. Nossos resultados sugerem que pelo menos 32 dos 85 grupos de genes KRAB-ZNF do genoma humano carregam genes com padrões de variação consistentes com seleção positiva em pelo menos uma das três populações estudadas aqui (tabela suplementar S8, Material Suplementar online). Para avaliar se os padrões de variação que encontramos se assemelham a cenários de varreduras seletivas, e para avaliar se as pontuações observadas calculadas a partir dos dados empíricos são excepcionalmente altas quando comparadas com as expectativas sob neutralidade, realizamos simulações coalescentes usando um ajuste fino (melhor ajuste ) modelo para demografia humana gerado para essas três populações humanas (Schaffner et al. 2005) e ajustando-o de acordo com Pybus et al. (2015) (ver Métodos).

Nossos resultados sugerem que 15 dos 32 clusters KRAB-ZNF mencionados acima abrigam pelo menos 27 regiões com padrões de variação que são improváveis ​​de serem esperados sob neutralidade (P & lt 0,01) (tabela 4). Dezenove dessas regiões mostram pontuações de classificação que estão entre o 1% superior de toda a distribuição genômica. Usando o teste H12 (Garud et al. 2015) (Métodos suplementares .pdf, Material Suplementar online), também descobrimos que 24 dessas 27 regiões exibem um ou mais haplótipos de alta frequência com EHH (de 50 kb a 385 kb). Os padrões de variação genética nessas 27 regiões podem ter resultado de seleção positiva (fig. 2, figs. S4-S6 suplementares, Material Suplementar online, tabela 4 e tabela suplementar S9, Material Suplementar online).

Clusters KRAB-ZNF exibindo candidato de uma a várias regiões para seleção positiva em três populações humanas (CEU, CHB e YRI)

Cromossomo. Começar . Fim . Haplótipo de comprimento. População . GRF Genes. Genes não GRF. P .
chr19 9746367 9886927 0.14 CEU ZNF562, ZNF812, ZNF846 0.001
chr19 9679258 9871747 0.19 CHB ZNF561, ZNF812, ZNF121, ZNF562, ZNF846 0.001
chr19 9623427 9710798 0.09 CEU ZNF121, ZNF426OR7D20.001
chr19 9433260 9579560 0.15 CHB ZNF177, ZNF266, ZNF560, ZNF559, ZNF559-ZNF177 0.039
chr7 99049790 99226981 0.18 CEU CPSF4, ZKSCAN5, ZNF394, ZNF655, ZNF789, ZSCAN25ATP5J2, FAM200A, LOC100289187, TRNA_Trp, ATP5J2-PTCD10.001
chr19 12290691 12477728 0.19 CEU ZNF442, ZNF44, ZNF563, ZNF136AK023304, AX7211230.001
chr19 11569316 11654956 0.09 CEU ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11569316 11651077 0.08 CHB ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11681367 11763981 0.08 CHB ZNF627, ZNF833PACP50.001
chr19 11911546 12194995 0.28 CHB ZNF433, ZNF439, ZNF440, ZNF69, ZNF700, ZNF763, ZNF844, ZNF878, ZNF491AX7474050.001
chr19 19518253 19658472 0.14 CEU NDUFA13, GATAD2ACILP2, TSSK6, YJEFN30.041
chr19 20219280 20473261 0.25 CEU ZNF90, ZNF486, ZNF826P 0.001
chr19 22736627 22847686 0.11 CEU ZNF492LOC440518 (GOLGA2P9), AC011516.20.001
chr19 22849806 23075779 0.23 CEU ZNF492, ZNF723 + NP, ZNF99 0.001
chr19 22736073 22789623 0.05 CHB LOC440518 (GOLGA2P9)0.032
chr19 22797143 23066423 0.27 CHB ZNF492, ZNF723 + NP, ZNF99AC011516.20.008
chr19 23167970 23274391 0.11 CEU ZNF728 0.001
chr19 23566484 23647327 0.08 CEU ZNF91LINC012240.014
chr19 24159713 24258543 0.1 CEU ZNF254AK092080, AK0921500.001
chr19 24165702 24249831 0.08 CHB ZNF254AK092080, AK0921500.001
chr19 20912174 21159445 0.25 CHB ZNF85, ZNF66 0.009
chr19 20961835 21046198 0.08 YRI ZNF66 0.009
chr19 35379737 35443530 0.06 CHB ZNF30LINC00904 e 17 PiRNAs0.001
chr19 37401178 37684941 0.28 CHB ZNF829, ZNF585A, ZNF585B, ZNF345, ZNF568, ZNF420 0.003
chr19 38129568 38255337 0.13 CHB ZNF781, ZNF607, ZFP30, ZNF573 0.039
chr19 52350176 52471785 0.12 CHB ZNF577, ZNF649, ZNF613, ZNF350TRNA_Lys0.033
chr19 52350054 52407858 0.06 CEU ZNF577, ZNF649, ZNF613, ZNF350 0.005
chr19 52409615 52511217 0.1 CEU ZNF613, ZNF350, ZNF615TRNA_Lys0.025
chr19 52533305 52665989 0.13 CEU ZNF432, ZNF841, ZNF616, ZNF836 0.014
chr19 52995729 53064163 0.07 CEU ZNF578, ZNF808 0.031
chr3 40531136 40630291 0.1 CEU ZNF619, ZNF620, ZNF621 0.031
chr6 28040581 28337801 0.3 CEU ZSCAN12P1, ZSCAN16, ZNF187, ZNF192, ZNF192P1, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, NKAPLTRNA_Ser, TOB2P1, piRNA (DQ581281)0.001
chr6 28342884 28426378 0.08 CEU ZSCAN12, ZSCAN23 0.003
chr12 1,33E + 08 1,34E + 08 0.3 CHB ZNF891 + N, ZNF605, ZNF26, ZNF84, ZNF140, ZNF10, ZNF268 0.001
chr1 2,47E + 08 2,47E + 08 0.1 ZNF124, ZNF669, ZNF670, ZNF670-ZNF695, ZNF695C1orf2290.001
chr3 44554702 44742478 0.19 CHB ZNF167, ZNF197, ZNF35, ZNF445, ZNF660, ZNF852 0.001
chr16 31009588 31165239 0.16 FBXL19, KAT8, SETD1A, SRCAP, TBC1D10B, ZNF48, ZNF629, ZNF646, ZNF668, ZNF688, ZNF689, ZNF747, ZNF764, ZNF768, ZNF7717 AK056973, BC039500, BC073928, BCKDK, BCL7C, C16orf93, CD2BP2, CTF1, DCTPP1, FBRS, HSD3B7, ITGAL, MIR4518, MIR4519, MIR762, MYLPF, ORAI3, PHKG2, PRSS8, PRSSPT1, RSS53, PRSS53, PRSS53, PRSS53, PRSS340, PRSS53, PRSS340, PRSS3640, PRSS336, PRSS340, PRSS340, PRSS3640, SESS3640, SESS640, SESS3640, SESSF3, SESS3640, PHKG2, SESS8, ORAI403, PHKG2, SESS36, ORAI403, PHKG2, SESS8, ORAI403, PHKG2. SNORA30, STX1B, STX4, VKORC10.001
Cromossomo. Começar . Fim . Haplótipo de comprimento. População . GRF Genes. Genes não GRF. P .
chr19 9746367 9886927 0.14 CEU ZNF562, ZNF812, ZNF846 0.001
chr19 9679258 9871747 0.19 CHB ZNF561, ZNF812, ZNF121, ZNF562, ZNF846 0.001
chr19 9623427 9710798 0.09 CEU ZNF121, ZNF426OR7D20.001
chr19 9433260 9579560 0.15 CHB ZNF177, ZNF266, ZNF560, ZNF559, ZNF559-ZNF177 0.039
chr7 99049790 99226981 0.18 CEU CPSF4, ZKSCAN5, ZNF394, ZNF655, ZNF789, ZSCAN25ATP5J2, FAM200A, LOC100289187, TRNA_Trp, ATP5J2-PTCD10.001
chr19 12290691 12477728 0.19 CEU ZNF442, ZNF44, ZNF563, ZNF136AK023304, AX7211230.001
chr19 11569316 11654956 0.09 CEU ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11569316 11651077 0.08 CHB ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11681367 11763981 0.08 CHB ZNF627, ZNF833PACP50.001
chr19 11911546 12194995 0.28 CHB ZNF433, ZNF439, ZNF440, ZNF69, ZNF700, ZNF763, ZNF844, ZNF878, ZNF491AX7474050.001
chr19 19518253 19658472 0.14 CEU NDUFA13, GATAD2ACILP2, TSSK6, YJEFN30.041
chr19 20219280 20473261 0.25 CEU ZNF90, ZNF486, ZNF826P 0.001
chr19 22736627 22847686 0.11 CEU ZNF492LOC440518 (GOLGA2P9), AC011516.20.001
chr19 22849806 23075779 0.23 CEU ZNF492, ZNF723 + NP, ZNF99 0.001
chr19 22736073 22789623 0.05 CHB LOC440518 (GOLGA2P9)0.032
chr19 22797143 23066423 0.27 CHB ZNF492, ZNF723 + NP, ZNF99AC011516.20.008
chr19 23167970 23274391 0.11 CEU ZNF728 0.001
chr19 23566484 23647327 0.08 CEU ZNF91LINC012240.014
chr19 24159713 24258543 0.1 CEU ZNF254AK092080, AK0921500.001
chr19 24165702 24249831 0.08 CHB ZNF254AK092080, AK0921500.001
chr19 20912174 21159445 0.25 CHB ZNF85, ZNF66 0.009
chr19 20961835 21046198 0.08 YRI ZNF66 0.009
chr19 35379737 35443530 0.06 CHB ZNF30LINC00904 e 17 PiRNAs0.001
chr19 37401178 37684941 0.28 CHB ZNF829, ZNF585A, ZNF585B, ZNF345, ZNF568, ZNF420 0.003
chr19 38129568 38255337 0.13 CHB ZNF781, ZNF607, ZFP30, ZNF573 0.039
chr19 52350176 52471785 0.12 CHB ZNF577, ZNF649, ZNF613, ZNF350TRNA_Lys0.033
chr19 52350054 52407858 0.06 CEU ZNF577, ZNF649, ZNF613, ZNF350 0.005
chr19 52409615 52511217 0.1 CEU ZNF613, ZNF350, ZNF615TRNA_Lys0.025
chr19 52533305 52665989 0.13 CEU ZNF432, ZNF841, ZNF616, ZNF836 0.014
chr19 52995729 53064163 0.07 CEU ZNF578, ZNF808 0.031
chr3 40531136 40630291 0.1 CEU ZNF619, ZNF620, ZNF621 0.031
chr6 28040581 28337801 0.3 CEU ZSCAN12P1, ZSCAN16, ZNF187, ZNF192, ZNF192P1, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, NKAPLTRNA_Ser, TOB2P1, piRNA (DQ581281)0.001
chr6 28342884 28426378 0.08 CEU ZSCAN12, ZSCAN23 0.003
chr12 1,33E + 08 1,34E + 08 0.3 CHB ZNF891 + N, ZNF605, ZNF26, ZNF84, ZNF140, ZNF10, ZNF268 0.001
chr1 2,47E + 08 2,47E + 08 0.1 ZNF124, ZNF669, ZNF670, ZNF670-ZNF695, ZNF695C1orf2290.001
chr3 44554702 44742478 0.19 CHB ZNF167, ZNF197, ZNF35, ZNF445, ZNF660, ZNF852 0.001
chr16 31009588 31165239 0.16 FBXL19, KAT8, SETD1A, SRCAP, TBC1D10B, ZNF48, ZNF629, ZNF646, ZNF668, ZNF688, ZNF689, ZNF747, ZNF764, ZNF768, ZNF7717 AK056973, BC039500, BC073928, BCKDK, BCL7C, C16orf93, CD2BP2, CTF1, DCTPP1, FBRS, HSD3B7, ITGAL, MIR4518, MIR4519, MIR762, MYLPF, ORAI3, PHKG2, PRSS8, PRSSPT1, RSS53, PRSS53, PRSS53, PRSS53, PRSS340, PRSS53, PRSS340, PRSS3640, PRSS336, PRSS340, PRSS340, PRSS3640, SESS3640, SESS640, SESS3640, SESSF3, SESS3640, PHKG2, SESS8, ORAI403, PHKG2, SESS36, ORAI403, PHKG2, SESS8, ORAI403, PHKG2. SNORA30, STX1B, STX4, VKORC10.001

Nota. —Os padrões de variação são considerados improváveis ​​de serem esperados sob neutralidade com base nos resultados de nossos dados simulados. As regiões encontradas em duas populações foram mantidas separadamente. A significância foi avaliada simulando um modelo nulo usando coalescência (ver Materiais e Métodos). Uma versão ampliada desta tabela pode ser encontrada na tabela suplementar S9, Material suplementar online.

Clusters KRAB-ZNF exibindo candidato de uma a várias regiões para seleção positiva em três populações humanas (CEU, CHB e YRI)

Cromossomo. Começar . Fim . Haplótipo de comprimento. População . GRF Genes. Genes não GRF. P .
chr19 9746367 9886927 0.14 CEU ZNF562, ZNF812, ZNF846 0.001
chr19 9679258 9871747 0.19 CHB ZNF561, ZNF812, ZNF121, ZNF562, ZNF846 0.001
chr19 9623427 9710798 0.09 CEU ZNF121, ZNF426OR7D20.001
chr19 9433260 9579560 0.15 CHB ZNF177, ZNF266, ZNF560, ZNF559, ZNF559-ZNF177 0.039
chr7 99049790 99226981 0.18 CEU CPSF4, ZKSCAN5, ZNF394, ZNF655, ZNF789, ZSCAN25ATP5J2, FAM200A, LOC100289187, TRNA_Trp, ATP5J2-PTCD10.001
chr19 12290691 12477728 0.19 CEU ZNF442, ZNF44, ZNF563, ZNF136AK023304, AX7211230.001
chr19 11569316 11654956 0.09 CEU ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11569316 11651077 0.08 CHB ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11681367 11763981 0.08 CHB ZNF627, ZNF833PACP50.001
chr19 11911546 12194995 0.28 CHB ZNF433, ZNF439, ZNF440, ZNF69, ZNF700, ZNF763, ZNF844, ZNF878, ZNF491AX7474050.001
chr19 19518253 19658472 0.14 CEU NDUFA13, GATAD2ACILP2, TSSK6, YJEFN30.041
chr19 20219280 20473261 0.25 CEU ZNF90, ZNF486, ZNF826P 0.001
chr19 22736627 22847686 0.11 CEU ZNF492LOC440518 (GOLGA2P9), AC011516.20.001
chr19 22849806 23075779 0.23 CEU ZNF492, ZNF723 + NP, ZNF99 0.001
chr19 22736073 22789623 0.05 CHB LOC440518 (GOLGA2P9)0.032
chr19 22797143 23066423 0.27 CHB ZNF492, ZNF723 + NP, ZNF99AC011516.20.008
chr19 23167970 23274391 0.11 CEU ZNF728 0.001
chr19 23566484 23647327 0.08 CEU ZNF91LINC012240.014
chr19 24159713 24258543 0.1 CEU ZNF254AK092080, AK0921500.001
chr19 24165702 24249831 0.08 CHB ZNF254AK092080, AK0921500.001
chr19 20912174 21159445 0.25 CHB ZNF85, ZNF66 0.009
chr19 20961835 21046198 0.08 YRI ZNF66 0.009
chr19 35379737 35443530 0.06 CHB ZNF30LINC00904 e 17 PiRNAs0.001
chr19 37401178 37684941 0.28 CHB ZNF829, ZNF585A, ZNF585B, ZNF345, ZNF568, ZNF420 0.003
chr19 38129568 38255337 0.13 CHB ZNF781, ZNF607, ZFP30, ZNF573 0.039
chr19 52350176 52471785 0.12 CHB ZNF577, ZNF649, ZNF613, ZNF350TRNA_Lys0.033
chr19 52350054 52407858 0.06 CEU ZNF577, ZNF649, ZNF613, ZNF350 0.005
chr19 52409615 52511217 0.1 CEU ZNF613, ZNF350, ZNF615TRNA_Lys0.025
chr19 52533305 52665989 0.13 CEU ZNF432, ZNF841, ZNF616, ZNF836 0.014
chr19 52995729 53064163 0.07 CEU ZNF578, ZNF808 0.031
chr3 40531136 40630291 0.1 CEU ZNF619, ZNF620, ZNF621 0.031
chr6 28040581 28337801 0.3 CEU ZSCAN12P1, ZSCAN16, ZNF187, ZNF192, ZNF192P1, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, NKAPLTRNA_Ser, TOB2P1, piRNA (DQ581281)0.001
chr6 28342884 28426378 0.08 CEU ZSCAN12, ZSCAN23 0.003
chr12 1,33E + 08 1,34E + 08 0.3 CHB ZNF891 + N, ZNF605, ZNF26, ZNF84, ZNF140, ZNF10, ZNF268 0.001
chr1 2,47E + 08 2,47E + 08 0.1 ZNF124, ZNF669, ZNF670, ZNF670-ZNF695, ZNF695C1orf2290.001
chr3 44554702 44742478 0.19 CHB ZNF167, ZNF197, ZNF35, ZNF445, ZNF660, ZNF852 0.001
chr16 31009588 31165239 0.16 FBXL19, KAT8, SETD1A, SRCAP, TBC1D10B, ZNF48, ZNF629, ZNF646, ZNF668, ZNF688, ZNF689, ZNF747, ZNF764, ZNF768, ZNF7717 AK056973, BC039500, BC073928, BCKDK, BCL7C, C16orf93, CD2BP2, CTF1, DCTPP1, FBRS, HSD3B7, ITGAL, MIR4518, MIR4519, MIR762, MYLPF, ORAI3, PHKG2, PRR14, PRSS36, PRSS53, PRSS8, RNF40, SEPHS2, SEPT1, SNORA30, STX1B, STX4, VKORC10.001
Cromossomo. Começar . Fim . Haplótipo de comprimento. População . GRF Genes. Genes não GRF. P .
chr19 9746367 9886927 0.14 CEU ZNF562, ZNF812, ZNF846 0.001
chr19 9679258 9871747 0.19 CHB ZNF561, ZNF812, ZNF121, ZNF562, ZNF846 0.001
chr19 9623427 9710798 0.09 CEU ZNF121, ZNF426OR7D20.001
chr19 9433260 9579560 0.15 CHB ZNF177, ZNF266, ZNF560, ZNF559, ZNF559-ZNF177 0.039
chr7 99049790 99226981 0.18 CEU CPSF4, ZKSCAN5, ZNF394, ZNF655, ZNF789, ZSCAN25ATP5J2, FAM200A, LOC100289187, TRNA_Trp, ATP5J2-PTCD10.001
chr19 12290691 12477728 0.19 CEU ZNF442, ZNF44, ZNF563, ZNF136AK023304, AX7211230.001
chr19 11569316 11654956 0.09 CEU ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11569316 11651077 0.08 CHB ZNF653ECSIT, ELAVL3, CNN10.001
chr19 11681367 11763981 0.08 CHB ZNF627, ZNF833PACP50.001
chr19 11911546 12194995 0.28 CHB ZNF433, ZNF439, ZNF440, ZNF69, ZNF700, ZNF763, ZNF844, ZNF878, ZNF491AX7474050.001
chr19 19518253 19658472 0.14 CEU NDUFA13, GATAD2ACILP2, TSSK6, YJEFN30.041
chr19 20219280 20473261 0.25 CEU ZNF90, ZNF486, ZNF826P 0.001
chr19 22736627 22847686 0.11 CEU ZNF492LOC440518 (GOLGA2P9), AC011516.20.001
chr19 22849806 23075779 0.23 CEU ZNF492, ZNF723 + NP, ZNF99 0.001
chr19 22736073 22789623 0.05 CHB LOC440518 (GOLGA2P9)0.032
chr19 22797143 23066423 0.27 CHB ZNF492, ZNF723 + NP, ZNF99AC011516.20.008
chr19 23167970 23274391 0.11 CEU ZNF728 0.001
chr19 23566484 23647327 0.08 CEU ZNF91LINC012240.014
chr19 24159713 24258543 0.1 CEU ZNF254AK092080, AK0921500.001
chr19 24165702 24249831 0.08 CHB ZNF254AK092080, AK0921500.001
chr19 20912174 21159445 0.25 CHB ZNF85, ZNF66 0.009
chr19 20961835 21046198 0.08 YRI ZNF66 0.009
chr19 35379737 35443530 0.06 CHB ZNF30LINC00904 e 17 PiRNAs0.001
chr19 37401178 37684941 0.28 CHB ZNF829, ZNF585A, ZNF585B, ZNF345, ZNF568, ZNF420 0.003
chr19 38129568 38255337 0.13 CHB ZNF781, ZNF607, ZFP30, ZNF573 0.039
chr19 52350176 52471785 0.12 CHB ZNF577, ZNF649, ZNF613, ZNF350TRNA_Lys0.033
chr19 52350054 52407858 0.06 CEU ZNF577, ZNF649, ZNF613, ZNF350 0.005
chr19 52409615 52511217 0.1 CEU ZNF613, ZNF350, ZNF615TRNA_Lys0.025
chr19 52533305 52665989 0.13 CEU ZNF432, ZNF841, ZNF616, ZNF836 0.014
chr19 52995729 53064163 0.07 CEU ZNF578, ZNF808 0.031
chr3 40531136 40630291 0.1 CEU ZNF619, ZNF620, ZNF621 0.031
chr6 28040581 28337801 0.3 CEU ZSCAN12P1, ZSCAN16, ZNF187, ZNF192, ZNF192P1, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, NKAPLTRNA_Ser, TOB2P1, piRNA (DQ581281)0.001
chr6 28342884 28426378 0.08 CEU ZSCAN12, ZSCAN23 0.003
chr12 1,33E + 08 1,34E + 08 0.3 CHB ZNF891 + N, ZNF605, ZNF26, ZNF84, ZNF140, ZNF10, ZNF268 0.001
chr1 2,47E + 08 2,47E + 08 0.1 ZNF124, ZNF669, ZNF670, ZNF670-ZNF695, ZNF695C1orf2290.001
chr3 44554702 44742478 0.19 CHB ZNF167, ZNF197, ZNF35, ZNF445, ZNF660, ZNF852 0.001
chr16 31009588 31165239 0.16 FBXL19, KAT8, SETD1A, SRCAP, TBC1D10B, ZNF48, ZNF629, ZNF646, ZNF668, ZNF688, ZNF689, ZNF747, ZNF764, ZNF768, ZNF7717 AK056973, BC039500, BC073928, BCKDK, BCL7C, C16orf93, CD2BP2, CTF1, DCTPP1, FBRS, HSD3B7, ITGAL, MIR4518, MIR4519, MIR762, MYLPF, ORAI3, PHKG2, PRR14, PRSS36, PRSS53, PRSS8, RNF40, SEPHS2, SEPT1, SNORA30, STX1B, STX4, VKORC10.001

Nota. —Os padrões de variação são considerados improváveis ​​de serem esperados sob neutralidade com base nos resultados de nossos dados simulados. As regiões encontradas em duas populações foram mantidas separadamente. A significância foi avaliada simulando um modelo nulo usando coalescência (ver Materiais e Métodos). Uma versão ampliada desta tabela pode ser encontrada na tabela suplementar S9, Material suplementar online.

—Grupo de genes KRAB-ZNF localizado no cromossomo 6 de quatro populações europeias (6: 28.04-28.42) exibindo diferenciação genética muito alta (uma), alto CLR (b) e XP-CLR (c) pontuações, EHH longo (e, f) e vários haplótipos de alta frequência. Observe que a escala no y eixo difere entre os gráficos. Todos os valores correspondem às pontuações brutas obtidas para cada método. No FST acompanhar (uma), SNPs nas linhas sólidas indicando moderado (FST & gt 0,15, linha azul) e alto (FST & gt 0,25, linha vermelha) diferenciação genética. Pontos maiores indicam dois SNPs altamente diferenciados, rs1635 (CEU vs. CHB, vermelho) e rs1997660 (CEU vs. YRI, verde). Estatísticas da trilha H12 (e) mostra as pontuações H para: homozigosidade do haplótipo mais frequente (H1), homozigosidade calculada usando todos, exceto o haplótipo mais frequente (H2), a razão entre H2 / H1 e a combinação do segundo haplótipo mais frequente ( H12). Na faixa H12 (f) para quatro populações de origem europeia, uma de origem asiática e uma de origem africana. O limiar H12 foi definido em todo o genoma (linha vermelha sólida, 0,1). A linha vertical pontilhada indica a extensão da região selecionada positivamente dentro deste cluster KRAB-ZNF.

—Grupo de genes KRAB-ZNF localizado no cromossomo 6 de quatro populações europeias (6: 28.04-28.42) exibindo diferenciação genética muito alta (uma), alto CLR (b) e XP-CLR (c) pontuações, EHH longo (e, f) e vários haplótipos de alta frequência. Observe que a escala do y eixo difere entre os gráficos. Todos os valores correspondem às pontuações brutas obtidas para cada método. No FST acompanhar (uma), SNPs nas linhas sólidas indicando moderado (FST & gt 0,15, linha azul) e alto (FST & gt 0,25, linha vermelha) diferenciação genética. Pontos maiores indicam dois SNPs altamente diferenciados, rs1635 (CEU vs. CHB, vermelho) e rs1997660 (CEU vs. YRI, verde). Estatísticas da trilha H12 (e) mostra as pontuações H para: homozigosidade do haplótipo mais frequente (H1), homozigosidade calculada usando todos, exceto o haplótipo mais frequente (H2), a razão entre H2 / H1 e a combinação do segundo haplótipo mais frequente ( H12). Na faixa H12 (f) para quatro populações de origem europeia, uma de origem asiática e uma de origem africana. O limiar H12 foi definido em todo o genoma (linha vermelha sólida, 0,1). A linha vertical pontilhada indica a extensão da região selecionada positivamente dentro deste cluster KRAB-ZNF.

Usando um catálogo abrangente com curadoria de genes e variantes associados a doenças humanas e as associações gene-doença do banco de dados MEDLINE, ambos disponíveis em DisGeNET (Piñero et al. 2017), identificamos que, das 27 regiões com um ou mais haplótipos em alta frequência, 17 carregam genes GRF que foram associados a condições médicas, como fraqueza muscular, obesidade, hiperparatireoidismo, poliartrite degenerativa, doenças cardíacas, azoospermia, deficiências cognitivas e vários tipos de câncer, entre outros (tabela suplementar S9, Material Suplementar online ) Reconhecendo que a caracterização biológica, molecular e funcional, além de sua função regulatória do gene putativo, da maioria dos GRFs e especialmente das proteínas KRAB-ZNF, ainda é incipiente, apresentamos e discutimos aqui três regiões para as quais funções e relevância médica foram descritas durante nas últimas duas décadas. Discutimos ainda seus supostos papéis reguladores na evolução e adaptação de características específicas do ser humano. Informações mais detalhadas para outras regiões podem ser encontradas na tabela suplementar S10, Material suplementar online e nas figs suplementares. S4 – S6, Material Complementar online.

A varredura seletiva em um agrupamento de genes KRAB-ZNF em CEU está associada à esquizofrenia em CHB

Um cluster KRAB-ZNF localizado no cromossomo 6 (28,04–28,42) exibe várias regiões com altas pontuações CLR, XP-CLR e XP-EHH no CEU. Ele também contém variantes que sugerem uma diferenciação genética muito alta (FST) entre CEU em comparação com CHB e YRI (fig. 2). Além disso, mais de 100 SNPs exibem alta FST (& gt0.15 & lt 0,52) ao comparar CEU com as outras duas populações (fig. 2, FST acompanhar). Também detectamos que o nível de diferenciação genética nesta região era incomumente alto quando comparado com regiões evoluindo em cenários de neutralidade (dados simulados, P & lt 0,001, fig. S7, Material Suplementar online). A variação genética dentro deste agrupamento de genes KRAB-ZNF foi associada a pelo menos três condições médicas em humanos: hemocromatose (sobrecarga de ferro, a condição genética mais prevalente em europeus), taxas de linfócitos CD4: CD8, baixa produção de memória efetora CD8 + (TEM) e duplo negativo (TDN) Células T e esquizofrenia.

Este cluster KRAB-ZNF é composto por pelo menos 16 elementos genômicos: 11 genes GRF (ZSCAN16, ZNF187, ZNF192, ZNF389, ZNF193, ZKSCAN4, ZKSCAN3, ZNF165, ZNF323, PGBD1, e NKAPL), três pseudogenes (ZSCAN12P1, ZNF192P1, e TOB2P1), um tRNA-Ser e um piRNA-DQ581281. Dos 100 SNPs altamente diferenciados, apenas três correspondem a SNPs não sinônimos em regiões codificantes de dois genes, a saber, no primeiro exon de NKAPL (rs12000 e rs1635) e no sétimo exon de PGBD1 (rs1997660) (fig. 2, FST faixa, tabela suplementar S10, Material suplementar online). Curiosamente, o genótipo rs1635 está quase fixado no CEU com cerca de 95% dos indivíduos portadores da variante C | C. Em contraste, este genótipo é encontrado em apenas cerca de 50% dos indivíduos de CHB e YRI. Nessas populações, o estado heterozigoto A | C é frequente com 40% e 45%, respectivamente (fig. 3). Variantes alélicas em rs1635 e rs12000 foram associadas à esquizofrenia em chineses Han (Chen et al. 2014 Wang et al. 2015). Ao contrário do rs1635, o genótipo G | G para SNP rs1997660 (PGBD1 gene) é encontrado em quase todos os indivíduos do YRI (95%), sendo em menor frequência no CHB (36%) e em baixíssima frequência no CEU (0,8%) (fig. 3). Considerando as diferenças claras nas frequências dos genótipos para rs1635 e rs1997660 entre as populações, sugerimos que esses dois SNPs estão envolvidos na adaptação local.

- Três variantes missense localizadas em dois genes dentro de um agrupamento de genes KRAB-ZNF que podem ter sofrido seleção positiva em populações europeias. Superior esquerdo e intermediário, frequências alélicas de dois SNPs não sinônimos localizados em NKAPL gene. Em cima, à direita, frequências alélicas de um SNP não sinônimo localizado em PGDB1 gene. Frequências genotípicas inferiores para CEU, CHB e YRI.

- Três variantes missense localizadas em dois genes dentro de um agrupamento de genes KRAB-ZNF que podem ter sofrido seleção positiva em populações europeias. Superior esquerdo e intermediário, frequências alélicas de dois SNPs não sinônimos localizados em NKAPL gene. Canto superior direito, frequências alélicas de um SNP não sinônimo localizado em PGDB1 gene. Frequências genotípicas inferiores para CEU, CHB e YRI.

Uma exploração adicional sugere que os genes dentro deste cluster KRAB-ZNF podem ter experimentado uma varredura seletiva recente em CEU e em quatro outras populações europeias: Finlandês na Finlândia, Toscani na Itália e Britânico na Inglaterra e Escócia (fig. 2, faixa H12). Usando estatísticas H12, fomos capazes de detectar que este cluster KRAB-ZNF contém duas regiões com um haplótipo predominante com EHH longo com cerca de cinco kb de distância um do outro que, juntos, abrangem cerca de 400 kb em CEU (fig. 2 e fig. S3 suplementar h e eu, tabela complementar S10, Material complementar online). O comprimento do EHH para essas populações europeias varia de 300 kb em italiano a 490 kb em finlandês (figura suplementar S8, Material suplementar online), sugerindo que é muito provável que a extensão, a força e o tempo deste evento seletivo difiram entre Populações europeias.

Seleção Positiva em um Cluster KRAB-ZNF Específico Humano Envolvido no Desenvolvimento do Olho

Duas regiões próximas no cromossomo 19, 7 kb separadas uma da outra, abrangendo cerca de 340 kb (chr19: 22,7-23,04), carregam uma diferenciação genética muito alta (FST) e EHH longo em populações CEU e CHB. Quando comparadas com a população YRI, essas regiões também apresentaram altos escores CLR e XP-EHH, o que sugere uma varredura seletiva (fig. S9 suplementar, Material Suplementar online). Ao analisar a razão das estatísticas H2 / H1, que tende a aumentar à medida que a varredura se torna mais suave (Garud et al. 2015), sugerimos que CEU pode ter experimentado uma varredura mais difícil do que a população CHB (fig. S4 suplementar UMA, d e e e figo suplementar. S9, material suplementar online). Na verdade, é possível observar dois haplótipos bem definidos que estão em alta frequência para CHB (figura suplementar S4 B, e e f, Material Suplementar online). Um gene dentro desta região, o gene específico para humanos ZNF492 (Nowick et al. 2010), foi recentemente relatado como um gene selecionado positivamente em nove indivíduos de origem europeia (Huber et al. 2016).

O ZNF492 regula a expressão da proteína específica do epitélio pigmentar da retina (RPE) (RPE65) (Lu et al. 2006). Descobrimos que ambos os genes, ZNF492 e RPE65, exibem expressão média mais elevada na retina humana em comparação com a maioria dos outros tecidos. ZNF492 é mais altamente expresso no EPR durante o desenvolvimento do que durante a idade adulta (suplementar fig. S10, Material Suplementar online), sugerindo que pode desempenhar um papel importante durante o desenvolvimento do EPR. Três SNPs não sinônimos podem ser encontrados dentro ZNF492. Dois SNPs missense (rs138844698 e rs141989264) referem-se a alterações de aminoácidos que são totalmente conservadas em CEU e CHB (100%), mas não em YRI (66%). Estas duas variantes alteram a configuração de aminoácidos do ligante entre o primeiro e o segundo ZNFs de ZNF492, que se espera que altere a configuração cap do terminal C (C-cap) do primeiro dedo, ajuste sua afinidade de ligação ao DNA (Laity et al. 2000 Wolfe et al. 2000) e, potencialmente, afete suas propriedades regulatórias. O terceiro SNP (rs144581197) altera um resíduo de cisteína altamente conservado (TGT) com papel essencial no dobramento adequado do sétimo ZNF de ZNF492 em uma tirosina (TAT) (fig. Suplementar S11, Material Suplementar online). Apesar de UMA alelo para rs144581197 é relativamente frequente em YRI (∼56%) e outras populações africanas (entre 39% e 57%, das populações africanas do projeto 1000 genomas), é encontrado em & lt1% dos indivíduos de CEU e CHB (suplementar fig. S11, material suplementar online). o UMA alelo também está presente em indivíduos de populações localizadas em regiões com índice de UV solar moderado a alto (OMS 2002): porto-riquenhos, 8% colombianos, 7% espanhóis ibéricos, 4% peruanos, 3,5% mexicanos, 2% toscanos, 2%, o que é intrigante para um gene expresso no EPR e em outros tecidos oculares.

Esta região KRAB-ZNF resultou de múltiplas duplicações segmentares intracromossômicas (Bailey et al. 2002) que deram origem a ZNF492. Embora a similaridade de sequência de toda a região seja de cerca de 98-99% entre humanos modernos e arcaicos (Denisovan e Neandertal, respectivamente), é de apenas 89% entre humanos e chimpanzés. Portanto, é provável que os eventos de duplicação e os rearranjos dessa região tenham ocorrido durante a evolução da espécie homo. Além disso, exploramos os três SNPs não sinônimos de ZNF492 em Denisovan e Neanderthal. Concluímos que indivíduos de humanos arcaicos carregam as variantes fixadas em CEU, CHB. Isso sugere que as variantes alternativas que observamos para esses SNPs, especialmente rs144581197, podem ter resultado de mutações de novo em YRI e outras populações africanas.

Varredura seletiva incompleta recente em um agrupamento de genes KRAB-ZNF no cromossomo 3 pode contribuir para a fertilidade masculina

Um agrupamento KRAB-ZNF localizado no cromossomo 3 (44,55-44,74) exibe EHH longo, pontuações altas para CLR e XP-CLR e alta diferenciação genética entre CHB e as outras duas populações (fig. 4). O EHH se estende por cerca de 272 kb em uma região que contém três genes KRAB-ZNF (ZNF167, ZNF197, e ZNF445) e três C2H2 (ZNF35, ZNF660, e ZNF852) Os dados de aumento hierárquico para classificar varreduras difíceis em populações humanas (Pybus et al. 2015) indicaram que este cluster KRAB-ZNF pode ter experimentado uma varredura seletiva incompleta e recente em CHB (fig. 4).

—Grupo de genes KRAB-ZNF exibindo varredura difícil no cromossomo 3 da população CHB (3: 44.55-44.74). Três métodos para detectar a seleção positiva e FST para medir a diferenciação genética produziu pontuações muito altas para esta região (umad) quando comparado com outras regiões do genoma. Observe que a escala no y eixo difere entre os gráficos. Todos os valores correspondem às pontuações brutas obtidas para cada método. FST (b) e XP-EHH (d) os resultados indicam uma diferenciação genética muito alta e um haplótipo com EHH que se estende por cerca de 188 kb (linhas pontilhadas verticais). Este cluster KRAB-ZNF contém oito genes ZNF. As regiões que flanqueiam a montante e a jusante deste haplótipo de 188 kb também exibem EHH, o que sugere que elas correspondem à mesma varredura seletiva (cerca de 272 kb). Quatro SNPs não sinônimos altamente diferenciados (verde: CHB vs. YRI vermelho: CEU vs. YRI) em regiões que codificam para domínios de proteína de ZKSCAN7, ZNF35, ZNF501, e ZNF502 pode ser de relevância funcional. Resultados de impulso hierárquico (e) sugerem que isso corresponde a uma varredura seletiva recente incompleta. Linhas horizontais sólidas e pontilhadas indicam limites para FST (azul: FST & gt 0,15, vermelho: FST & gt0.25) e limiares de significância de reforço, conforme definido por Pybus et al (2015) (vermelho: completo, laranja: incompleto, azul: recente e roxo: antigo), respectivamente.

—Grupo de genes KRAB-ZNF exibindo varredura difícil no cromossomo 3 da população CHB (3: 44.55-44.74). Três métodos para detectar a seleção positiva e FST para medir a diferenciação genética produziu pontuações muito altas para esta região (umad) quando comparado com outras regiões do genoma. Observe que a escala do y eixo difere entre os gráficos. Todos os valores correspondem às pontuações brutas obtidas para cada método. FST (b) e XP-EHH (d) os resultados indicam uma diferenciação genética muito alta e um haplótipo com EHH que se estende por cerca de 188 kb (linhas pontilhadas verticais). Este cluster KRAB-ZNF contém oito genes ZNF. As regiões que flanqueiam a montante e a jusante deste haplótipo de 188 kb também exibem EHH, o que sugere que correspondem à mesma varredura seletiva (cerca de 272 kb). Quatro SNPs não sinônimos altamente diferenciados (verde: CHB vs. YRI vermelho: CEU vs. YRI) em regiões que codificam para domínios de proteína de ZKSCAN7, ZNF35, ZNF501, e ZNF502 pode ser de relevância funcional. Resultados de aumento hierárquico (e) sugerem que isso corresponde a uma varredura seletiva recente incompleta. Linhas horizontais sólidas e pontilhadas indicam limites para FST (azul: FST & gt 0,15, vermelho: FST & gt0.25) e limiares de significância de reforço, conforme definido por Pybus et al (2015) (vermelho: completo, laranja: incompleto, azul: recente e roxo: antigo), respectivamente.

Uma exploração posterior revelou seis SNPs não sinônimos com alta diferenciação genética entre as populações. O SNP rs2272044, localizado no segundo exon do gene ZNF35, exibem grande diferenciação genética (FST & gt 0,56 & lt 0,8) (fig. 4). Embora cerca de 98% dos indivíduos de CHB sejam portadores do alelo G, este está presente em apenas 30% dos indivíduos de CEU e ausente no YRI (100%). Apesar da compreensão dos papéis funcionais de ZNF35 gene em humanos ainda é escasso, seu homólogo altamente conservado em camundongos sugere que ele pode desempenhar papéis importantes na fertilidade masculina (Przybourski et al. 1998), regulando as vias envolvidas na liberação de células espermatogênicas diferenciadas no lúmen central do túbulo seminífero em testículos de adultos (Zhou et al. 2010). A exclusão de ZNF35 causa a liberação prematura de espermatócitos paquitênicos indiferenciados no lúmen de indivíduos subférteis (Zhou et al. 2010). Certamente, ZNF35 é altamente expresso em espermatócitos paquitênicos e espermátides redondas (Przybourski et al. 1998 Zhou et al. 2010), bem como em testículos (GTEx Consortium et al. 2017), e sua proteína foi encontrada em células espermatogênicas (Zhou et al. 2010).

Dois outros SNPs não sinônimos localizados no gene ZKSCAN7 (rs13081859, rs9835485) também sugerem diferenciação genética muito alta (FST & gt 0,23) FST (fig. 4 e tabela complementar S7, Material complementar online). Esses dois SNPs afetam a sequência de aminoácidos do domínio KRAB e o primeiro aminoácido entre as duas histidinas do primeiro ZNF de ZKSCAN7, respectivamente. Ambas as variantes podem ter implicação funcional nas interações de ZKSCAN7 com o co-regulador KAP1 (TRIM28) e os locais de ligação ao DNA.


Número de genes de fatores de transcrição no genoma humano - Biologia

A pegada de molécula única (SMF) resolve a heterogeneidade da ocupação do fator de transcrição (TF) em uma população celular.

A detecção de múltiplos TFs em moléculas de DNA individuais pode quantificar a co-ocupação e inferir dependências.

O SMF permite estudos de como grandes coleções de variantes genéticas afetam a ligação ao TF e a ativação da transcrição.

O desenvolvimento futuro de métodos de molécula única permitirá estudos integrativos dos múltiplos processos controlados por TFs.

Cerca de 7% do genoma humano codifica cis- elementos reguladores (CREs) que funcionam como interruptores reguladores para modular a expressão dos genes. Essas curtas sequências genéticas controlam as complexas mudanças transcricionais necessárias para o desenvolvimento do organismo. Um desafio tópico no campo é entender como os fatores de transcrição (TFs) lêem e traduzem essas informações em padrões de expressão gênica. Aqui, eu reviso como o desenvolvimento de pegada de molécula única (SMF) que resolve a ocupação do genoma de TFs na resolução de moléculas de DNA individuais contribui para nossa capacidade de estabelecer como a informação genética regulatória é interpretada no nível mecanicista. Discuto ainda como os desenvolvimentos futuros no campo nascente da genômica de molécula única (SMG) podem impactar nossa compreensão dos mecanismos de regulação gênica.


Mudanças genéticas desempenham um grande papel na evolução humana


Um estudo de Cornell oferece mais provas de que a divergência entre humanos e chimpanzés, cerca de 4 a 6 milhões de anos atrás, foi profundamente influenciada por mutações em sequências de DNA que desempenham papéis na ativação e desativação de genes.

O estudo, publicado em 9 de junho na Nature Genetics, fornece evidências para uma hipótese de 40 anos de que a regulação dos genes deve desempenhar um papel importante na evolução, uma vez que há pouca diferença entre humanos e chimpanzés nas proteínas produzidas pelos genes. Na verdade, as proteínas humanas e de chimpanzés são mais de 99% idênticas.

Os pesquisadores mostraram que o número de adaptações evolutivas à parte da máquina que regula os genes, chamadas locais de ligação do fator de transcrição, pode ser aproximadamente igual às adaptações aos próprios genes.

“Esta é a análise mais abrangente e direta até hoje da evolução das sequências regulatórias de genes em humanos”, disse o autor sênior Adam Siepel, professor associado de estatística biológica e biologia computacional da Cornell.

“Foram necessários 40 anos para obter uma imagem clara do que está acontecendo nessas sequências porque não tínhamos os dados até muito recentemente”, disse Leonardo Arbiza, pesquisador de pós-doutorado no laboratório de Siepel e principal autor do artigo.

Menos de 2% do genoma humano - o conjunto completo de material genético - contém genes que codificam proteínas. Nas células, essas proteínas são fundamentais nas vias biológicas que afetam a saúde, a aparência e o comportamento de um organismo.

Muito menos se sabe sobre os 98% restantes do genoma; entretanto, na década de 1960, os cientistas reconheceram que parte do DNA não codificado por proteínas regula quando e onde os genes são ativados e desativados e a quantidade de proteína que eles produzem. O mecanismo regulatório funciona quando proteínas chamadas fatores de transcrição se ligam a sequências curtas específicas de DNA que flanqueiam o gene, chamadas de sítios de ligação de fatores de transcrição, e, ao fazer isso, ligam e desligam os genes.

Entre as descobertas, o estudo relata que, quando comparado com genes codificadores de proteínas, o DNA do sítio de ligação mostra quase três vezes mais "mutações fracamente deletérias", ou seja, mutações que podem enfraquecer ou tornar um indivíduo mais suscetível à doença, mas geralmente são não severo. Mutações fracamente deletérias existem em baixas frequências em uma população e são eventualmente eliminadas com o tempo. Essas mutações são responsáveis ​​por muitas doenças humanas hereditárias.

Embora os genes geralmente tendam a resistir à mudança, uma mutação ocasionalmente leva a uma característica favorável e aumenta em uma população, isso é chamado de seleção positiva. Em contraste, "os locais de ligação do fator de transcrição mostram quantidades consideráveis ​​de seleção positiva", disse Arbiza, com evidências de adaptação em locais de ligação que regulam os genes que controlam as células do sangue, função cerebral e imunidade, entre outros.

“O quadro geral mostra mais flexibilidade evolutiva nos locais de ligação do que nos genes codificadores de proteínas”, disse Siepel. “Isso tem implicações importantes em como pensamos sobre a evolução humana e as doenças”.

Este é um dos primeiros estudos a combinar dados recentes que identificam sítios de ligação de fatores de transcrição, dados sobre variação genética humana e comparações de genoma entre humanos e macacos. Um novo método computacional denominado INSIGHT (Inferência de Seleção Natural de Elementos Interspersos Genomicamente Coerentes), projetado por Ilan Gronau, um pesquisador de pós-doutorado no laboratório de Siepel e coautor do estudo, permitiu aos cientistas integrar esses diversos tipos de dados e encontrar evidências da seleção natural no DNA regulador.

“Os locais de ligação do fator de transcrição são provavelmente os elementos regulatórios sobre os quais mais sabemos”, disse Arbiza. “Se você quiser entender a evolução da regulação da expressão gênica, esse é um bom ponto de partida.”

O INSIGHT agora pode ser usado por outros pesquisadores para analisar outras sequências regulatórias curtas de DNA, como micro-RNAs, moléculas não codificantes que também desempenham um papel na regulação gênica.

O estudo foi financiado pela Packard Foundation, Alfred P. Sloan Foundation, National Science Foundation, National Institutes of Health (Instituto Nacional de Ciências Médicas Gerais) e uma bolsa do Cornell Center for Vertebrate Genomics.


& ltp> Esta seção fornece qualquer informação útil sobre a proteína, principalmente conhecimento biológico. & ltp> & lta href = '/ help / function_section' target = '_ top'> Mais. & lt / a> & lt / p> Função i

Ativador de transcrição que se liga ao DNA cooperativamente com proteínas DP através do local de reconhecimento E2, 5'-TTTC [CG] CGC-3 'encontrado na região promotora de uma série de genes cujos produtos estão envolvidos na regulação do ciclo celular ou na replicação do DNA. O complexo DRTF1 / E2F funciona no controle da progressão do ciclo celular da fase g1 para a fase s. E2F2 liga-se especificamente a RB1 de uma maneira dependente do ciclo celular.


A expressão do gene é controlada por uma série de recursos - regulação da transcrição e tradução:

Em eucariotos, a transcrição ou genes alvo podem ser estimulados ou inibidos quando fatores de transcrição específicos se movem do citoplasma para o núcleo. Como apenas genes-alvo são transcritos, isso significa que proteínas específicas são feitas. Cada tipo de célula corporal tem células-alvo diferentes, de modo que dão características diferentes, ou seja, uma célula nervosa é diferente de uma célula vermelha do sangue. Fatores de transcrição podem alterar a taxa de transcrição e o processo é o seguinte:

  • Os fatores de transcrição se movem por difusão para o núcleo a partir do citoplasma.
  • Quando no núcleo, eles podem se ligar à sequência do promotor (a sequência que é o início do gene alvo).
  • Os fatores de transcrição aumentam ou diminuem a taxa de transcrição dependendo se eles se ligaram à sequência do promotor.

Alguns fatores de transcrição são chamados de ativadores, onde aumentam a taxa de transcrição. Isso é feito pelos fatores de transcrição que ajudam a RNA polimerase a se ligar à sequência do promotor para ativar a transcrição. Outros são chamados de repressores, onde diminuem a taxa de transcrição. Isso é feito pela ligação dos fatores de transcrição à sequência do promotor, evitando a ligação da RNA polimerase. Isso interrompe a transcrição.

O estrogênio pode iniciar a transcrição de genes-alvo. NB: Às vezes, pode fazer com que um fator de transcrição seja um repressor. Você não precisa saber disso para o exame AQA. Um fator de transcrição pode ser ligado a um inibidor, impedindo-o de se ligar à sequência do promotor. O estrogênio se liga ao fator de transcrição formando um complexo estrogênio-receptor de estrogênio e muda o local onde o inibidor se junta (chamado local de ligação ao DNA). Isso significa que o inibidor é destacado, permitindo que o fator de transcrição se ligue à sequência do promotor. NB: você não precisa saber o nome do inibidor. Além disso, o sítio de ligação do DNA no fator de transcrição permanece alterado enquanto o estrogênio se liga a ele.

Em eucariotos e alguns procariotos, a tradução do mRNA produzido a partir de genes alvo pode ser inibida pela interferência de RNA conhecida como RNAi. Moléculas curtas de RNA, como micro RNA, conhecido como miRNA, e pequenos RNA de interferência, conhecido como siRNA, formam um complexo de silenciamento induzido por RNA, conhecido como RISC, com proteínas. NB: As pequenas moléculas de RNA conhecidas por serem de fita dupla nos guias de revisão ou em livros didáticos, isso é confuso, então é melhor iniciar o processo como miRNA e siRNA sendo de fita simples. O RNA forma um complexo com uma proteína que é uma enzima chamada RNA hidrolase. miRNA não forma um complexo com RNA hidrolase, mas outra proteína. Cada uma dessas moléculas de RNA pode formar um RISC com mais de uma proteína e as proteínas envolvidas não precisam ser conhecidas para AQA. Cada um dos complexos se liga à sua sequência de mRNA alvo e evita a tradução de maneiras diferentes. É assim que isso é feito para cada pequena molécula de RNA:

  • siRNA / miRNA em plantas:
  • As bases do siRNA ligam-se às bases do mRNA por emparelhamento de bases complementares.
  • A hidrolase de RNA hidrolisa a fita de mRNA em fragmentos, evitando que a tradução ocorra, pois toda a cadeia polipeptídica não será feita

NB: Não é necessário saber que os fragmentos estão degradados no corpo de processamento. Se você quiser aprender isso, não há mal nenhum.

  • miRNA em mamíferos:
  • As bases do miRNA ligam-se às bases do mRNA por emparelhamento de bases complementares.
  • Os ribossomos são impedidos de se anexar à fita de mRNA, impedindo que a tradução ocorra.

NB: Novamente aqui, não é necessário saber que o mRNA está degradado ou armazenado no corpo de processamento.

A epigenética envolve mudanças hereditárias na função do gene, sem mudanças na sequência de bases do DNA. Essas mudanças são causadas por mudanças no meio ambiente (mais exposição à poluição) que inibem a transcrição por:

  • Aumento da metilação do DNA:Um grupo metil (conhecido como marca epigenética) se liga à citosina, que deve ser parte do nucleotídeo que está ligado à guanina por uma ligação fosfodiéster. NB: Você pode estar confuso agora, mas olhe para o diagrama abaixo de uma fita de DNA e observe a qual dos nucleotídeos da citosina o grupo metil se junta. Observe que o nucleotídeo na extremidade direita da fita e o terceiro na esquerda não tem um grupo metil, pois eles não estão próximos a um nucleotídeo com guanina como base. A união do grupo metil não deve ser confundida com a união à citosina, que é complementar à guanina na outra fita, pois isso é errado. Também o grupo metil & # 8211 CH3 & # 8211 não altera a sequência de base, mas a estrutura. Como a estrutura mudou, ficou mais difícil para as enzimas se anexarem ao DNA, impedindo a expressão de um gene. Se o gene supressor de tumor não for transcrito, ele pode causar câncer.

  • Diminuição de histonas associadas: Um grupo acetil & # 8211 COCH3 & # 8211 é outra marca epigenética que se liga às proteínas histonas para tornar a cromatina (mistura de DNA enrolada em torno das proteínas histonas) menos condensada para que ocorra uma expressão genética fácil. O problema surge quando a histona desacetilase quebra a ligação entre a proteína histona e o grupo acetil. O DNA torna-se altamente condensado, tornando difícil para as enzimas realizarem a expressão do gene. NB: A histona desacetilase pode ser abreviada para HDAC, mas é melhor que você fique com o nome completo.

Felizmente, as alterações epigenéticas do DNA são reversíveis, portanto, são bons alvos de drogas para interromper os efeitos da epigenética. Essas drogas podem interromper a metilação do DNA ou inibir a histona desacetilase, permitindo que os grupos acetila permaneçam ligados ao DNA.


Endereço atual: Instituto Max-Planck de Física de Sistemas Complexos, Nöthnitzer Str. 38, 01187, Dresden, Alemanha

Afiliações

Centro para RNA não codificante em Tecnologia e Saúde, Universidade de Copenhagen, Grønnegårdsvej 3, 1870, Frederiksberg C, Dinamarca

Nikolai Hecker, Stefan E. Seemann, Asli Silahtaroglu, Walter L. Ruzzo e Jan Gorodkin

Departamento de Veterinária e Ciências Animais, Universidade de Copenhagen, Grønnegårdsvej 3, 1870, Frederiksberg C, Dinamarca

Nikolai Hecker, Stefan E. Seemann e Jan Gorodkin

Instituto Max-Planck de Biologia Celular e Molecular e Genética, Pfotenhauerstr. 108, 01307, Dresden, Alemanha

Departamento de Medicina Celular e Molecular, Universidade de Copenhagen, Blegdamsvej 3B, 2200, Copenhagen N, Dinamarca

Paul G. Allen School of Computer Science & amp Engineering, and Department of Genome Sciences, University of Washington, 185 Stevens Way, WA, 98195-2350, Seattle, EUA

Fred Hutchinson Cancer Research Center, 1100 Fairview Ave. N., WA, 98109, Seattle, EUA

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Contribuições

Todos os autores contribuíram com a concepção do projeto. N.H. realizou a análise e redigiu o manuscrito completo. W.L.R. e N.H. concebeu a abordagem de regressão e a abordagem para a análise filogenética. S.E.S. contribuiu para a análise de estruturas secundárias de RNA. COMO. contribuiu para a interpretação da relevância biológica dos resultados. J.G. delineou e supervisionou o projeto. Todos os autores revisaram criticamente e aprovaram o manuscrito.

Autores correspondentes


Considerações finais

O número sem precedentes de elementos funcionais identificados neste estudo fornece um recurso valioso para a comunidade científica, além de aumentar significativamente nossa compreensão do genoma humano. Nossas análises revelaram muitos aspectos novos da expressão e regulação do gene, bem como a organização de tais informações, conforme ilustrado pelos documentos anexos (consulte http://www.encodeproject.org/ENCODE/pubs.html para publicações ENCODE coletadas). No entanto, ainda existem muitos detalhes específicos, principalmente sobre os processos mecanísticos que geram esses elementos e como e onde funcionam, que requerem experimentos adicionais para serem elucidados.

A grande propagação da cobertura - de nossa resolução mais alta, conjunto mais conservador de bases implicadas nos exons do gene que codifica a proteína GENCODE (2,9%) ou ligação de DNA de proteína específica (8,5%) ao conjunto mais amplo e geral de marcas que cobrem o genoma ( aproximadamente 80%), com muitas gradações intermediárias - apresenta um espectro de elementos com diferentes propriedades funcionais descobertas por ENCODE. Um total de 99% das bases conhecidas no genoma estão dentro de 1,7 kb de qualquer elemento ENCODE, enquanto 95% das bases estão dentro de 8 kb de um motivo de fator de transcrição ligado ou pegada de DNase I. Curiosamente, mesmo usando as estimativas mais conservadoras, a fração de bases susceptíveis de estarem envolvidas na regulação gênica direta, mesmo que incompleta, é significativamente maior do que a atribuída aos exons codificadores de proteínas (1,2%), levantando a possibilidade de que mais informações no o genoma humano pode ser importante para a regulação gênica do que para a função bioquímica. Muitos dos elementos reguladores não são limitados ao longo da evolução dos mamíferos, que até agora tem sido uma das indicações mais confiáveis ​​de um importante evento bioquímico para o organismo. Assim, nossos dados fornecem indicadores ortólogos para sugerir possíveis elementos funcionais.

É importante notar que, pela primeira vez, temos poder estatístico suficiente para avaliar o impacto da seleção negativa em elementos específicos de primatas, e todas as classes ENCODE exibem evidências de seleção negativa nesses elementos exclusivos para primatas. Além disso, mesmo com nossa estimativa mais conservadora de elementos funcionais (8,5% do DNA putativo / regiões de ligação de proteína) e supondo que já tenhamos amostrado metade dos elementos de nosso fator de transcrição e diversidade de tipo de célula, poderíamos estimar que, no mínimo 20% (17% da ligação às proteínas e 2,9% dos exons do gene codificador de proteínas) do genoma participa dessas funções específicas, com o número provável significativamente mais alto.

A ampla cobertura das anotações ENCODE aumenta nossa compreensão de doenças comuns com um componente genético, doenças genéticas raras e câncer, conforme demonstrado por nossa capacidade de vincular associações de outra forma anônimas a um elemento funcional. ENCODE e estudos semelhantes fornecem um primeiro passo para interpretar o resto do genoma - além dos genes codificadores de proteínas - aumentando assim os estudos genéticos de doenças comuns com hipóteses testáveis. Essas informações justificam a realização do sequenciamento do genoma completo (ao invés do exoma apenas, 1,2% do genoma) em doenças raras e a investigação de variantes somáticas em elementos funcionais não codificantes, por exemplo, no câncer. Além disso, como as análises de GWAS normalmente associam a doença a SNPs em grandes regiões, a comparação com os elementos funcionais não codificantes ENCODE pode ajudar a identificar variantes causais putativas, além do refinamento da localização por técnicas de mapeamento fino 78. A combinação de dados ENCODE com informações específicas do alelo derivadas de sequências individuais do genoma fornece uma visão específica sobre o impacto de uma variante genética. Na verdade, acreditamos que um objetivo significativo seria usar dados funcionais como os derivados deste projeto para atribuir a cada variante genômica seu possível impacto sobre os fenótipos humanos.


Assista o vídeo: Transcrição (Janeiro 2022).