Em formação

Que fatores fazem uma sequência evoluir de forma não aleatória?


Na página da Wikipedia sobre Fay e Wu's H, fala sobre uma sequência de evolução não aleatória que pode ser devido a alguma ação de seleção ou uma varredura seletiva ou expansão / contração da população. Minhas perguntas sobre esses fatores que afetam a evolução da sequência não aleatória são:

  1. A seleção negativa difere de uma varredura seletiva porque uma varredura é uma forma de seleção positiva?
  2. Após uma varredura seletiva, quaisquer mutações raras que você vê devem ter ocorrido após a varredura seletiva. É porque eles não podem ter vindo durante o processo, do contrário eles seriam "diluídos" pelos alelos selecionados positivamente?
  3. A contração da população pode criar um gargalo, o que faz com que todos os indivíduos tenham um ancestral comum. Mas como a expansão populacional faz uma sequência evoluir de forma não aleatória?

O teste de Fay e Wu é um teste que compara sequências esperadas sob um modelo de teoria coalescente padrão, que é uma única população panmítica com geração não sobreposta de tamanho constante $ N $ e população efetiva $ Ne = N $, que é a variância no alelo a frequência em qualquer geração seguinte é $ frac {p (1-p)} {2N} $, onde $ p $ é a frequência de um determinado alelo. Como tal, Fay e Wu (bem como o D de Tajima e outros testes) não são apenas testes de neutralidade seletiva, mas também testes de neutralidade demográfica, conforme sublinhado em Nielsen 2001.

Pode ser difícil fazer boas previsões sobre a extensão e direção em que um determinado evento seletivo ou demográfico afetará uma determinada estatística, como Fay e Wu's H. Portanto, ao responder às seguintes perguntas, não sou específico de Fay e Wu's H Além disso, responder às perguntas por completo exigiria fazer uma introdução à teoria coalescente, que está sujeita a um livro inteiro, em vez de uma simples postagem. Para compreender totalmente esse teste, você precisará seguir uma introdução à teoria coalescente. Você pode dar uma olhada nos livros recomendados no parágrafo Livros de entrada geral para genética populacional desta resposta.

  1. A seleção negativa difere de uma varredura seletiva porque uma varredura é uma forma de seleção positiva?

Vamos primeiro esclarecer os termos para o caso. A redução do polimorfismo em loci ligados devido à seleção positiva é chamada de "varredura seletiva", enquanto que, quando devido à seleção negativa, é chamada de "seleção de fundo".

De modo geral, a varredura seletiva é muito mais forte do que a seleção de fundo. Além disso, a varredura seletiva tem um impacto maior no D de Tajima do que na seleção de fundo.

Pelo que sei, os métodos que tentam separar os dois processos de varredura seletiva e seleção de fundo usam principalmente comparações entre espécies para inferir que tipos de sequências estão em causa. Se A perda de polimorfismo é adjacente a uma sequência altamente conservada e é encontrada em espécies relacionadas, então provavelmente é a seleção de fundo em jogo. Se houver uma mutação fixa que não é encontrada em espécies relacionadas e a perda de polimorfismo não é encontrada nessas espécies relacionadas, então é provavelmente a varredura seletiva.

  1. Após uma varredura seletiva, quaisquer mutações raras que você vê devem ter ocorrido após a varredura seletiva. É porque eles não podem ter vindo durante o processo, do contrário eles seriam "diluídos" pelos alelos selecionados positivamente?

Uma varredura seletiva realmente modifica o espectro de frequência do local (SFS, distribuição de frequências de alelos) para criar um excesso de variantes de alta frequência (ou uma relativa falta de variantes de baixa frequência). Veja wikipedia> Tajima's D

  1. A contração da população pode criar um gargalo, o que faz com que todos os indivíduos tenham um ancestral comum. Mas como a expansão populacional faz uma sequência evoluir de forma não aleatória?

A expansão da população resulta em tempos coalescentes mais longos e, portanto, falta de alelos raros. Veja a introdução de Excoffier et al. 2009 para uma boa explicação e figura.


Espécies

Em biologia, um espécies é a unidade básica de classificação e uma classificação taxonômica de um organismo, bem como uma unidade de biodiversidade. Uma espécie é freqüentemente definida como o maior grupo de organismos em que quaisquer dois indivíduos dos sexos ou tipos de acasalamento apropriados podem produzir descendentes férteis, normalmente por reprodução sexuada. Outras maneiras de definir espécies incluem seu cariótipo, sequência de DNA, morfologia, comportamento ou nicho ecológico. Além disso, os paleontólogos usam o conceito de cronospécies, uma vez que a reprodução fóssil não pode ser examinada.

O número total de espécies é estimado entre 8 e 8,7 milhões. [1] [2] [3] No entanto, apenas cerca de 14% deles foram descritos em 2011. [3]

Todas as espécies (exceto vírus) recebem um nome de duas partes, um "binômio". A primeira parte de um binômio é o gênero ao qual a espécie pertence. A segunda parte é chamada de nome específico ou epíteto específico (na nomenclatura botânica, às vezes também na nomenclatura zoológica). Por exemplo, jibóia é uma das quatro espécies do gênero Boa, com constritor sendo o epíteto da espécie.

Embora as definições dadas acima possam parecer adequadas à primeira vista, quando examinadas mais de perto, elas representam conceitos de espécie problemáticos. Por exemplo, os limites entre espécies intimamente relacionadas tornam-se obscuros com a hibridação, em um complexo de espécies de centenas de microespécies semelhantes e em uma espécie em anel. Além disso, entre os organismos que se reproduzem apenas assexuadamente, o conceito de espécie reprodutiva se quebra, e cada clone é potencialmente uma microespécie. Embora nenhuma dessas definições sejam inteiramente satisfatórias, e embora o conceito de espécie possa não ser um modelo perfeito de vida, ainda é uma ferramenta incrivelmente útil para cientistas e conservacionistas no estudo da vida na Terra, independentemente das dificuldades teóricas. Se as espécies fossem fixas e claramente distintas umas das outras, não haveria problema, mas os processos evolutivos fazem com que as espécies mudem continuamente e se graduem umas nas outras.

As espécies eram vistas desde o tempo de Aristóteles até o século 18 como categorias fixas que podiam ser organizadas em uma hierarquia, a grande cadeia do ser. No século 19, os biólogos perceberam que as espécies poderiam evoluir com tempo suficiente. Livro de Charles Darwin de 1859 Na origem das espécies explicou como as espécies podem surgir por seleção natural. Esse entendimento foi amplamente ampliado no século 20 por meio da genética e da ecologia populacional. A variabilidade genética surge de mutações e recombinação, enquanto os próprios organismos são móveis, levando ao isolamento geográfico e à deriva genética com pressões de seleção variáveis. Os genes às vezes podem ser trocados entre as espécies por transferência horizontal de genes. Novas espécies podem surgir rapidamente por meio da hibridização e da poliploidia, e as espécies podem se extinguir por uma variedade de razões. Os vírus são um caso especial, impulsionado por um equilíbrio de mutação e seleção, e podem ser tratados como quase-espécies.


Que fatores fazem uma sequência evoluir de forma não aleatória? - Biologia

Evolução na cena do crime
Março de 2006, atualizado em agosto de 2012

Quando os cientistas forenses examinam o DNA no laboratório, cada amostra aparece como uma sequência única de barras escuras. Os padrões das barras são comparados para encontrar uma correspondência. No exemplo hipotético mostrado aqui, parece que o suspeito nº 2 deixou algum DNA na cena do crime.
Os testes confirmam, sem sombra de dúvida, que Roger Keith Coleman o fez, mas Alan Crotzer não. Em 1992, Coleman foi executado pelo estupro e assassinato de sua cunhada. Em 1981, Crotzer foi condenado a 130 anos de prisão por um roubo e dois estupros. Embora os crimes em si sejam antigos, os julgamentos proferidos há muito tempo e as punições já aplicadas, para muitos observadores, a verdadeira culpa ou inocência desses dois réus por dois crimes diferentes foi resolvida apenas por um teste cada vez mais importante: a impressão digital de DNA. Testes de DNA recentes revelaram que era, de fato, sêmen de Coleman no corpo de sua vítima, e que ele havia realmente cometido o crime pelo qual foi executado há mais de 10 anos. E recentes testes de DNA revelaram que Crotzer não é um estuprador e passou 24 anos na prisão por crimes que não cometeu.

Onde está a evolução?
A impressão digital do DNA permite que os cientistas forenses determinem se o DNA encontrado na cena do crime veio de um determinado indivíduo. Mas como essa técnica funciona e o que isso tem a ver com a evolução? Responder a essa pergunta depende da compreensão da variação genética nas populações humanas e das taxas nas quais as diferentes partes do genoma evoluem.

Os humanos são 96% geneticamente idênticos ao nosso parente vivo mais próximo, o chimpanzé. Obviamente, somos ainda mais semelhantes um ao outro: espera-se que duas pessoas escolhidas aleatoriamente de qualquer lugar da Terra sejam 99,9% geneticamente idênticas. Então, como o DNA de uma pessoa pode ser único o suficiente para identificá-la como o perpetrador de um crime específico? A resposta, ao que parece, é o volume: o genoma humano é composto de três bilhões de pares de bases! Mesmo com 99,9% de similaridade, quaisquer duas pessoas ainda serão diferentes em cerca de três milhões de pares de bases. Na verdade, não existem duas pessoas na Terra que tenham exatamente a mesma sequência genética, exceto gêmeos idênticos.

Algumas dessas diferenças genéticas influenciam o conjunto único de características que o constituem: cor dos olhos, cor do cabelo, altura, tendência a doenças cardíacas e várias outras características. Mas a maioria dessas diferenças genéticas não tem nenhum efeito perceptível em seu fenótipo ou conjunto de características físicas. E são nessas diferenças genéticas que os biólogos se concentram quando estão tentando identificar ou exonerar um suspeito usando impressões digitais de DNA.

Diferentes partes do genoma evoluem em taxas diferentes. O DNA que codifica características importantes tende a evoluir lentamente. Isso ocorre porque a maioria (embora não todas) as mutações em regiões críticas do genoma provavelmente causam efeitos prejudiciais e são selecionadas rapidamente da população. Se um trecho de DNA evolui lentamente, poucas mudanças em sua sequência ocorrerão e muitas pessoas na população provavelmente carregarão sequências idênticas. Embora importantes, essas regiões do genoma não serão muito úteis para a identificação.

Por outro lado, algumas regiões do genoma parecem não fazer nada em particular. Como a variação nessas regiões tem pouco efeito sobre as características do organismo, as variantes são em grande parte "invisíveis" à seleção natural. Aqui, as mutações se acumulam sem muitas consequências e as frequências gênicas mudam por meio da deriva genética. Essas regiões evoluem rapidamente e, como consequência, diferentes indivíduos na população carregam sequências diferentes nessas regiões.

Mesmo dentro de regiões de evolução rápida do genoma, pode haver "pontos críticos" de mutação específicos, cuja sequência é incomumente variável. Muitas dessas regiões contêm DNA que repete a mesma sequência de bases continuamente (por exemplo, ATGGATGGATGGATGG.). Os biólogos pensam que as células freqüentemente cometem erros ao copiar essas regiões, produzindo acidentalmente mais ou menos repetições do que na sequência original do DNA e, portanto, causando uma nova mutação. Como eles evoluem muito rapidamente e variam muito no número de repetições, esses pontos de acesso são alvos ideais para impressões digitais de DNA.

Na impressão digital de DNA, os cientistas coletam amostras de DNA de diferentes fontes & # 151, por exemplo, de um cabelo deixado para trás na cena do crime e do sangue de vítimas e suspeitos (veja o diagrama abaixo). Eles então se concentram nos trechos de DNA repetitivos espalhados por essas amostras. O perfil das regiões repetitivas em uma determinada amostra representa sua impressão digital de DNA, que acaba se parecendo um pouco com um código de barras. Cada barra do código de barras representa um trecho específico de DNA repetitivo. Uma vez que essas regiões repetitivas são comuns no genoma e altamente variáveis ​​de indivíduo para indivíduo, duas pessoas (exceto gêmeos idênticos) não terão exatamente o mesmo conjunto de regiões repetitivas e, portanto, a mesma impressão digital de DNA.

A importância da impressão digital de DNA para descobrir quem estava envolvido em um crime específico é clara: desde o advento da técnica, as evidências de DNA exoneraram mais de 150 pessoas condenadas por engano e se tornou uma linha de evidência aceita e esperada em muitos milhares de julgamentos . A abordagem também tem outras aplicações, incluindo a determinação de relações familiares (como em processos de paternidade) e ajudando biólogos a estudar hábitos de acasalamento na natureza. No entanto, é importante ter em mente que a técnica só funciona porque a evolução funciona: o genoma humano está em constante evolução, adquirindo novas mutações ao longo do tempo & # 151 e é a variação gerada por essa evolução que os cientistas forenses utilizam para ajudar a solucionar crimes.

Em 2006, explicamos como a história evolutiva permite que as impressões digitais de DNA sejam usadas para capturar criminosos. Agora, dúvidas estão surgindo sobre uma extensão desta técnica chamada busca familiar. Na impressão digital padrão, os cientistas forenses procuram uma correspondência exata entre o DNA da cena do crime e o de um suspeito ou infrator anterior. Sem problemas aí. No entanto, se uma correspondência exata não for encontrada, em alguns estados, a pesquisa familiar será usada. Nesse caso, o banco de dados criminal é pesquisado em busca de uma correspondência parcial, o que pode indicar que o perpetrador é parente próximo de um criminoso conhecido. A palavra chave aqui é poderia. No início deste ano, cientistas da Universidade de Washington e da UC Berkeley mostraram que essa prática pode levar ao preconceito racial. Uma perspectiva evolutiva nos ajuda a entender por quê.

Pessoas com ancestralidade evolutiva compartilhada recente (por exemplo, a mesma etnia) provavelmente têm sequências genéticas semelhantes. Por exemplo, duas pessoas de ascendência vietnamita têm mais probabilidade de ambas terem uma sequência de 49 repetições 'GT' em um ponto específico do genoma do que duas pessoas de origens étnicas diferentes. Você pode pensar que isso faz com que muitas pessoas sejam falsamente acusadas de crimes, mas não porque os cientistas forenses examinam pelo menos 10 regiões diferentes do genoma, não apenas uma. Essas diferentes regiões são padronizadas e foram selecionadas devido à sua capacidade de discriminar entre diferentes indivíduos. Pessoas com a mesma origem étnica podem combinar em alguns desses pontos, mas é astronomicamente improvável que combinem em todos os 10 (a menos que sejam gêmeos idênticos). No entanto, a pesquisa familiar envolve a procura de parcial fósforos. Duas pessoas de uma determinada etnia (por exemplo, um criminoso e um indivíduo não relacionado, que por acaso são vietnamitas) combinam em cinco diferentes regiões do genoma? A resposta depende de qual grupo étnico as pessoas pertencem, sugere a nova pesquisa. As regiões do genoma envolvidas na impressão digital de DNA criminoso foram selecionadas com base em sequências genéticas de descendentes de afro-americanos, europeus, latinos do sudeste e latinos do sudoeste. Mas outros grupos étnicos não foram estudados para esse fim. Esses grupos podem ter baixa variabilidade nessas regiões (ou baixa variabilidade geral) e, portanto, indivíduos não aparentados podem ter maior probabilidade de correspondência. O problema é ainda mais exacerbado se esses grupos já estiverem sobrerrepresentados nas bases de dados criminais. Por causa desses problemas, a busca familiar provavelmente fará com que pessoas de ascendência asiática e nativa americana sejam investigadas erroneamente em taxas alarmantes.

Atualmente, a pesquisa familiar é usada pela Califórnia, Virgínia e Colorado. Embora possa permitir que a polícia identifique criminosos em alguns casos difíceis, a adoção da técnica tem sido lenta devido a preocupações com a privacidade e preconceito racial.

    Jeffreys, A.J., Wilson, V. e Thein, S.L. (1985). 'Impressões digitais' específicas de cada indivíduo do DNA humano. Natureza 316(6023):76-79.

    a partir de EUA hoje e a Associated Press

Recursos de compreensão do Evolution:

Discussão e questões de extensão

    O que é um fenótipo? Descreva duas maneiras pelas quais a sequência de seu DNA pode afetar seu fenótipo. Por que as sequências repetitivas descritas no artigo não parecem afetar o fenótipo do portador?

Lições relacionadas e recursos de ensino

    : Esta atividade online para as séries 9-12 ensina os fundamentos da impressão digital de DNA enquanto os alunos resolvem um crime. Lições relacionadas estão incluídas na seção Atividades de Ensino do site.

    DNA: Virginia executou o homem certo. (2006, 12 de janeiro). CNN.
    Obtido em 26 de janeiro de 2006 da CNN


Resultados

As tendências de preferência são generalizadas em espécies multicelulares

Exons de oito espécies de metazoários (humanos (Hs), camundongos (Mm), Danio rerio (Dr), Caenorrhabditis elegans (Ce), Caenorrhabditis briggsae (Cb), Anopheles gambiae (Ag), Drosophila melanogaster (Dm), Apis mellifera (Am)), uma planta (Arabidopsis thaliana (At)) e dois fungos ascomicetos (S. cerevisiae (Sc), Schizosaccharomyces pombe (Sp)), foram examinados quanto às tendências na composição de aminoácidos à medida que se aproxima do limite exon-íntron. As espécies foram escolhidas entre um conjunto relativamente pequeno de organismos para os quais dados comparativos de alta qualidade sobre proteínas reguladoras de splice tornaram-se recentemente disponíveis [13]. Como os sinais do local de splice podem se estender para os exons e nosso foco está na regulação do splicing exônico, removemos o primeiro códon completo no limite exon-íntron (consulte Materiais e métodos). Posteriormente, as correlações de classificação (rho) entre a distância da fronteira (34 códons no exon, consulte Materiais e métodos) e o uso proporcional do aminoácido foram calculadas independentemente para as regiões 5 'e 3' dos exons. Além disso, para todos os aminoácidos independentemente, ajustamos uma regressão linear extraindo a inclinação da linha a ser usada como um diagnóstico bruto para a força da preferência / evitação de aminoácidos. A Figura 1 ilustra os diferentes tipos de relacionamento observados.

Natureza e diversidade das tendências de abundância de aminoácidos perto dos limites exon-intron. Abundância relativa de glutamina (Q), metionina (M) e lisina (K) em função da distância do limite nas extremidades 5 'de D. melanogaster exons é mostrado. A glutamina é significativamente evitada perto do limite (rho = 0,86, P & lt 1.84E-7), a lisina é preferida (rho = -0,65, P & lt 6.2E-5), embora nenhuma tendência significativa seja evidente para a metionina (rho = 0,096, P = 0,59). Observe que um valor de declive / rho negativo indica uma preferência perto do limite exon-íntron. Normalmente, onde os padrões de preferência / evitação são evidentes, observamos diminuições / aumentos quase monotônicos na abundância relativa em toda a faixa de sequência analisada.

Os blocos de duas e quatro vezes dos aminoácidos degenerados seis vezes foram considerados agrupamentos distintos de modo que um total de 46 testes (23 grupos de aminoácidos 5 'e 3') foram realizados para cada espécie. As Tabelas 1 e 2 fornecem uma visão geral abrangente por espécie das preferências / evitações de aminoácidos, significativas após a correção de Bonferroni (N = 46 comparações, P & lt 0,0011). O arquivo de dados adicionais 1 contém o conjunto completo de correlações de classificação para todas as 11 espécies.

A característica mais conspícua das Tabelas 1 e 2 é indiscutivelmente a semelhança de tendências nos metazoários e a escassez de tendências nas espécies de leveduras ascomicetas. O bloco duplo de leucina (L2) em S. cerevisiae é o único agrupamento de aminoácidos exibindo uma tendência de preferência significativa (rho = -0,4482, P & lt 0,0003). Isso contrasta fortemente com o conjunto de eucariotos multicelulares, onde uma ampla gama de tendências de evitação e preferência é observada. Apenas três espécies multicelulares exibem menos de 13 tendências significativas (Dm, Ag, At) enquanto cinco (Hs, Mm, Ce, Cb, Am) exibem mais de 20. Para D. melanogaster e C. elegans, testamos se os resultados podem ser tendenciosos como resultado da homologia do exon, mas em ambos os casos, os padrões de abundância de aminoácidos nas extremidades do exon são virtualmente idênticos em um conjunto de genes com homologia reduzida (Dm, N = 8.840 Ce, N = 11.790 arquivos de dados adicionais 2 e 3).

O papel da orientação exônica na organização de splicing foi ligada a vários aspectos da composição do genoma e estrutura pré-mRNA, incluindo comprimento de íntron / exon [15, 16], número de íntron [7] e densidade [17] e conteúdo de informação do local de splice [ 7, 18, 19]. O número de tendências significativas de aminoácidos por espécie varia fortemente com alguns desses fatores, notavelmente o número médio de íntrons por gene (rho = 0,95, P & lt 0,0001), sequência de codificação média (CDS médio) por gene (rho = -0,97, P & lt 0,0007), número genômico de íntrons (rho = 0,86, P & lt 0,003), e comprimento do íntron (log10 (comprimento médio): rho = 0,83, P & lt 0,006) como esperado em um modelo onde transcrições complexas com vários íntrons longos suscitam confiança crescente na definição de exon [15]. Por outro lado, nem o tamanho da família de proteínas SR (rho = 0,59, P = 0,09) nem emenda conteúdo de informações do site (5 ', rho = -0,26, P = 0,50 3 ', rho = 0,43, P = 0,25) mostram qualquer relação com o número de distorções de aminoácidos perto dos limites de íntron-exon. A última observação é talvez a mais interessante, pois sugere que não há uma relação compensatória direta entre o conteúdo da informação do site de splice e a necessidade de regulação exônica entre as espécies.

Finalmente, o número de exões dos quais as tendências de aminoácidos foram derivadas, embora correlacionado com o número de tendências (rho = 0,86, P & lt 0,003), não aparece entre os principais preditores quando a multicolinearidade é controlada (Arquivos de dados adicionais 4-6). Juntamente com a observação de que encontramos relativamente poucas tendências em Arabidopsis, apesar do número substancial de exões amostrados, isso sugere que o tamanho da amostra não é o fator crítico na detecção de diferentes números de tendências entre as espécies. Devemos ressaltar, entretanto, que os resultados acima devem ser considerados estritamente exploratórios, dado o pequeno número de observações (arquivo de dados adicionais 4). Um número maior de espécies com amostragem filogenética mais abrangente será necessário para validar os resultados no futuro.

A preeminência da estrutura exon-íntron na previsão do número de tendências de aminoácidos sugere que os fungos ascomicetos pobres em íntrons analisados ​​aqui podem não ser representativos de seu reino. Portanto, analisamos a composição das extremidades do exon em Cryptococcus neoformans (Cn), um basidiomiceto rico em íntrons. Surpreendentemente, encontramos um grande número (26) de tendências de preferência e evitação nesta espécie (Tabela 3 e arquivo de dados adicionais 1), com algumas semelhanças marcantes em comparação com tendências de metazoários, particularmente 5 '. Além disso, a inclusão de C. neoformans dados na análise de variáveis ​​preditoras potenciais não alteram substancialmente os resultados anteriores: o número médio de íntrons por gene (rho = 0,91, P & lt 0,0002), CDS médio por gene (rho = -0,68, P & lt 0,032) e o número genômico de íntrons (rho = 0,72, P & lt 0,02) permanecem fortes preditores (arquivo de dados adicionais 6).

Praticamente nada se sabe sobre o mecanismo de emenda em C. neoformans mas a demonstração de vias alternativas de splicing nesta espécie [20], bem como baixo conteúdo de informação do local de splice (arquivo de dados adicionais 5) [7], tornam a presença de regulação de splicing exônica uma possibilidade crível. Consistente com isso, o previsto C. neoformans proteoma contém várias proteínas semelhantes às proteínas eucarióticas SR conhecidas, particularmente no sentido de que abrigam domínios de reconhecimento de RNA (arquivo de dados adicionais 7). Isso é sugestivo de envolvimento no splicing, embora evidentemente insuficiente para chegar a conclusões sobre papéis funcionais específicos dessas proteínas.

Padrões entre espécies

Embora os espectros de aminoácidos preferidos / evitados por espécies individuais sejam, em última análise, únicos em amplitude (quantas tendências) e composição (quais aminoácidos são afetados), há uma sobreposição cruzada considerável em termos de se uma tendência particular está presente. , sua direção e força relativa (conforme medido pela inclinação da linha de melhor ajuste). As tabelas 1 e 2 ilustram que esse acordo particular é virtualmente perfeito entre humanos e camundongos [2], com diferenças marginais na força relativa das tendências individuais, e que a direcionalidade é totalmente conservada. Considerando o peixe-zebra (Dr) como o único outro vertebrado em nossa amostra ao lado dessas espécies, notamos que seu espectro é ligeiramente diminuído em largura e contém algumas tendências não vistas nos dois mamíferos (G (3 '), V (5', 3 ')). No entanto, a concordância geral em composição e força ainda é notavelmente boa, e o 'padrão de direcionalidade dos mamíferos' perfeitamente aderido. O par de nematóides quase corresponde à díade humano-camundongo em termos de concordância geral de padrões de preferência, com direcionalidade perfeitamente conservada.

Na maior parte, os padrões de preferência / evitação são repetíveis entre as espécies. A Tabela 4 mostra comparações de pares entre espécies dando correlações de classificação (rho) para as inclinações derivadas de todos os 23 agrupamentos de aminoácidos. Para o grupo de vertebrados ambas as correlações 5 'e 3' são muito altas (todos rho & gt 0,9, todos P & lt 1.81E-06 90 testes, limite de significância, P & lt 5.56E-04), com humano e camundongo em concordância quase perfeita. Mais notavelmente, no entanto, algumas correlações fortes também existem 3 'entre os vertebrados e, por exemplo, Anopheles (todos rho & gt 0,87, todos P & lt 2.94E-06) e Drosófila (todos rho & gt 0,75, todos P & lt 2.9E-05). As correlações 3 'são menos impressionantes para as espécies restantes (Am, At, Cn), mas Apis (todos rho & gt 0,75, todos P & lt 4.11E-05) e mesmo Cryptococcus (todos rho & gt 0,69, todos P & lt 5.56E-04) apresentam correlações 5 'notavelmente fortes com os vertebrados. Focando nas tendências de aminoácidos específicos, a isoleucina (I) se destaca por ser fortemente preferida perto dos limites 3 'em todas as espécies, os outros estão bem representados, embora não sejam universais, em toda a filogenia - por exemplo, evitação 5' da glutamina (Q ), e preferência 3 'para fenilalanina (F).

Nemátodos desviantes

A forte concordância entre espécies nos padrões de preferência torna uma observação ainda mais surpreendente. Os espectros do nematóide 5 'se comportam de uma maneira altamente contra-intuitiva em que o' padrão de direcionalidade dos mamíferos 'é violado em várias ocasiões: onde encontramos tendências significativas em nematóides e outras espécies (E, K, L2, Q, R4, R2, T), todos exceto a glutamina (Q) mostram direcionalidade discrepante (Tabela 2). Por exemplo, enquanto a lisina (K) é fortemente preferida perto dos limites em vertebrados e alguns insetos (Dm, Am), ela parece ser fortemente evitada na região 5 'dos ​​exons de nematóides (Figura 2). A Tabela 4 também destaca a posição excepcional dos nematóides: as correlações 5 'entre os nematóides e qualquer outra espécie são amplamente negativas. Nenhuma correlação única em todos os aminoácidos é significativamente diferente de zero aplicando o limite de significância ajustado (P & lt 5.56E-04), devido a várias tendências que se tornam insignificantes, em vez de inverter totalmente o sinal. No entanto, a abrangência deste padrão é, no entanto, notável, especialmente considerando que o mesmo não é o caso para os espectros 3 ', onde encontramos uma concordância coerente entre nematóides e vertebrados (rho mínimo & gt 0,65, todos significativos em P & lt 5.92E-04) e apenas o bloco duplo de serina (S2) mostra um padrão reverso de direcionalidade entre as tendências significativas para aminoácidos individuais.

Abundância relativa de aminoácidos de lisina (K) nas extremidades 5 'dos ​​exões em seis espécies. Uso proporcional de lisina vis-à-vis todos os outros aminoácidos são representados graficamente contra a distância do limite exon-íntron medida em aminoácidos. Graus variáveis ​​de preferência por lisina perto da fronteira são evidentes para espécies não nematóides (Am, rho = -0,67, P = 2,71E-05, β (inclinação) = -0,017 Dr, rho = -0,79, P = 6,51E-07, β = -0,035 Dm, rho = -0,65, P = 6,11E-05, β = -0,020 Hs, rho = -0,90, P = 3,67E-09, β = -0,041), enquanto os nematóides mostram fortes tendências de evitação (Ce, rho = 0,89, P = 5,26E-08, β = 0,030 Cb, rho = 0,92, P = 0, β = 0,033).

Muitas espécies obedecem a um padrão aproximadamente simétrico de tendências de preferência 5 'e 3'

Esta curiosa discrepância entre os espectros 5 'e 3' das tendências de aminoácidos em nematóides nos levou a investigar mais a relação dos padrões 5 'e 3' entre as espécies. Considerando todas as tendências de aminoácidos simultaneamente, classifique as correlações entre os coeficientes de inclinação (5 '

3 ') foram calculados. Além disso, queríamos testar explicitamente a hipótese de que as tendências de preferência mostram um comportamento 'simétrico', ou seja, que aminoácidos individuais exibem tendências de preferência de força e direção semelhantes nas extremidades 5 'e 3'. Para este fim, realizamos regressões de eixo principal padronizadas (SMA, consulte Materiais e métodos) [21, 22] para tendências 5 'versus 3' em cada espécie e comparamos a linha de regressão resultante com uma esperada sob simetria perfeita (y = x) . Os resultados são dados na Tabela 5 e representados graficamente na Figura 3. Humanos e camundongos mostram correlações positivas muito substanciais entre as tendências de preferência 5 'e 3' (Hs, rho = 0,8528, P = 1,96E-06 Mm, rho = 0,8626, P = 2.28E-06). Embora diminua em força, também vemos correlações significativas para Drosófila e Danio. Como esperado da análise anterior, as correlações para nematóides são negativas, embora não de forma significativa (Ce, rho = -0,1413, P = 0,5185 Cb, rho = -0,4358, P = 0,0388). No entanto, os resultados do SMA nos permitem rejeitar qualquer noção de C. elegans ou C. briggsae aderindo a um padrão simétrico de uso de aminoácidos, os respectivos intervalos de confiança (CIs) descartando uma inclinação de simetria de β = 1 (CI (Ce), [-1,118 -0,7309] CI (Cb), [-0,7474 -0,5139]) . Nenhuma outra espécie para a qual um SMA poderia ser realizado (Tabela 5 Materiais e métodos) se desvia significativamente de um modelo simétrico, embora a simetria das tendências de aminoácidos varie muito e só possa realmente ser chamada de uma característica definidora de extremidades de exon em vertebrados.

Correlações 3 'de inclinações de preferência para todos os 23 agrupamentos de aminoácidos

Simetria variável nas tendências de abundância de aminoácidos comparando as extremidades dos exões 5 'e 3' dentro das espécies. Correlações intraespecíficas entre as inclinações 5 '(eixo x) e 3' (eixo y), conforme extraídas de modelos lineares ajustados individualmente, considerando todos os 23 agrupamentos de aminoácidos são mostradas. Arranjos aproximadamente simétricos são particularmente evidentes para algumas espécies (notavelmente vertebrados), enquanto arranjos de nematóides (Ce, Cb) não são simétricos. Ainda mais notável é a maior variabilidade dos coeficientes de inclinação em algumas espécies (vertebrados e nematóides) vis-à-vis outros (Am, At). Os aminoácidos são representados por seu código de uma letra (os blocos duplos são indicados por '2'). As linhas de regressão são de regressões SMA. As linhas não foram instaladas para Arabidopsis, Cryptococcus e S. cerevisiae dadas as preocupações sobre a adequação desta técnica para esses conjuntos de dados (consulte Materiais e métodos). Para estatísticas associadas, consulte a Tabela 5.

As tendências de aminoácidos são amplamente consistentes com a participação em motivos ESE

Curiosamente, as assimetrias na composição de aminoácidos das extremidades dos exões dos nemátodes parecem ser espelhadas por uma assimetria correspondente de motivos reguladores. Robinson [23], usando uma abordagem computacional para caracterizar ESEs candidatos em C. elegans, descobriram que as extremidades 5 'e 3' foram distinguidas por diferentes classes de motivos de consenso. Crucialmente, ele descobriu que motivos candidatos semelhantes aos humanos ricos em purinas estão associados às extremidades 3 ', mas não às extremidades 5' dos exões de nematóides, o que é amplamente consistente com a nossa observação de que os aminoácidos codificados por códons ricos em purinas tendem a ser, em contraste a outros animais, desfavorecidos nas extremidades 5 '(Tabela 2 e Figura 3).

Para mamíferos, a previsão de que os aminoácidos preferidos próximos aos limites devem corresponder aos favorecidos em ESEs foi testada por Parmley et al. [2]. Os autores definiram uma métrica que quantifica o envolvimento de aminoácidos em hexâmeros intensificadores de splice em relação à expectativa nula de que cada códon é representado em ESEs em torno de sua frequência genômica. Conforme previsto, esses índices de preferência de hexâmero (HPIs), calculados para cada agrupamento de aminoácidos, foram encontrados para correlacionar com tendências de preferência, aminoácidos fortemente preferidos em média associados com valores de HPI mais elevados.

Esta relação é verdadeira para conjuntos de ESE humanos e murinos e tendências de aminoácidos, considerando os coeficientes de correlação de classificação (rhox Hs HPI

rhox, rho = -0,54, P & lt 0,00001, N = 46 Mm HPI

rhox, rho = -0,49, P = 0,0005, N = 46) ou a inclinação (β) do modelo linear ajustado (Hs HPI

β, rho = -0,57, P & lt 0,0001, N = 46 Mm HPI

β, rho = -0,52, P = 0,0002, N = 46).

Como esperado a partir da demonstração de que ESEs podem atuar em distâncias variáveis ​​do local de emenda [14], ESEs humanos não exibem um viés de quadro de leitura além do que é esperado das frequências genômicas dos códons subjacentes (arquivo de dados adicionais 8). Eles também podem, em princípio, incorporar a maioria dos códons (arquivo de dados adicionais 8). Em consequência, o conjunto definido de aminoácidos que encontramos evitado ou preferido não é provavelmente devido à exclusão final de certos códons, mas porque a eficácia e especificidade diferentes entre ESEs significam que muitas vezes apenas um subconjunto bem definido de códons pode ser usado para especificar o desejado ESE.

Inesperadamente, quando derivamos HPIs para aminoácidos de peixe-zebra, usando um conjunto de ESEs obtidos da mesma fonte [24], encontramos uma correlação significativa de sinal reverso (Dr HPI

rhox (5 '), rho = 0,6, P & lt 0,003, N = 46 HPI

rhox (3 '), rho = 0,59, P & lt 0,0033, N = 46). Muitos ESEs verificados experimentalmente foram caracterizados como ricos em A e pobres em C em relação à frequência de fundo desses nucleotídeos na sequência de codificação. Embora descobrimos que este é o caso para motivos ESE humanos putativos não compartilhados com peixe-zebra (A, 47,38% (ESE) versus 25,57% (exônico) C, 15,28% versus 25,99%, N (ESE) = 204), e para ESEs presentes em ambas as espécies (A, 50% versus 25,57% C, 6,37% versus 25,99%, N = 34), ESEs de peixe-zebra exclusivas (isto é, ESEs não presentes em humanos) deste conjunto de dados foram excepcionalmente enriquecidos em C (39,47% versus 25,99%, N = 288) e relativamente pobre em A (18,40% versus 25,57%). Embora se esperasse que os motivos ESE variassem entre os táxons, as discrepâncias são tão pronunciadas a ponto de ficarem estranhamente próximas às semelhanças substanciais nas tendências de aminoácidos (Tabelas 1 e 2). Um critério usado pelo grupo de Burge [25] para identificar motivos ESE candidatos era que tais motivos fossem mais comuns perto de sites de emenda fracos versus fortes. Portanto, uma possível explicação é que a riqueza C é uma característica dos ESEs do peixe-zebra perto de locais de splice fracos, mas não geralmente, de modo que os ESEs previstos não são representativos dos ESEs em todo o genoma do peixe-zebra. Alternativamente, a qualidade comparativamente inferior do, então recente, construção do genoma do peixe-zebra pode ser responsável pelos resultados divergentes. Um reexame dessas ESEs putativas do peixe-zebra com uma compilação do genoma atualizado pode valer a pena.

Taxas reduzidas de evolução perto do limite exon-íntron em espécies onde ESEs são componentes essenciais da máquina de splicing

Para avançar ainda mais a hipótese de que gradientes na abundância de aminoácidos próximos aos limites exon-íntron são uma característica crítica das extremidades do exon em metazoários, examinamos o grau de conservação de aminoácidos em função da distância do limite. Para três pares de espécies (S. cerevisiae-Saccharomyces castellii, D. melanogaster-Drosophila pseudoobscura (Dps) C. elegans-C. briggsae) conjuntos de exons internos ortólogos foram derivados de várias fontes e alinhados no nível de aminoácidos (consulte Materiais e métodos). Espelhando os resultados de uma comparação de ortólogos humanos-camundongos [2], encontramos correlações positivas fortes e altamente significativas de caráter surpreendentemente linear (Figura 4) entre a distância do limite e a taxa de substituição de aminoácidos para o Drosófila e Caenorhabditis pares, enquanto a proximidade com o limite não parece conferir um maior nível de conservação de aminoácidos no Saccharomyces comparação. Restringindo a análise a exons de pelo menos 70 códons de comprimento, obtivemos resultados qualitativamente equivalentes (Drosophilae 5 ', rho = 0,53, P & lt 0,002, N = 3,690 Drosophilae 3 ', rho = 0,77, P = 9,70E-07, N = 3,690 Caenorhabdites 5 ', rho = 0,74, P = 2,33E-06, N = 6,273 Caenorhabdites 3 ', rho = 0,58, P = 4.5E-04, N = 6.273). Essa restrição garante que todos os exons contribuam com uma parcela aproximadamente igual de informações para cada posição de códon da fronteira e elimina o potencial confundidor que exons curtos podem, por razões não relacionadas ao splicing, apresentar-se com mais frequência em genes altamente conservados e criar tendências enganosas em virtude de sua contribuição desproporcional para a informação da taxa de substituição mais perto da fronteira.

Freqüência de mudança não-sinônima em função da distância do limite exon-íntron. Os aminoácidos são significativamente mais propensos a serem conservados perto da fronteira exon-intron comparando (uma) C. elegans-C. briggsae (5 ', rho = 0,957, P = 0 3 ', rho = 0,96. P = 0 N = 19.347 exões) e (b) D. melanogaster-D. pseudoobscura (5 ', rho = 0,87, P = 1,02E-07 3 ', rho = 0,95, P = 0 N = 7.545 exões). As tendências parecem aproximadamente monótonas e lineares. Os níveis de conservação dependentes da localização também aparecem ligeiramente mais altos perto da fronteira comparando (c) S. cerevisiae-S. castellii mas isso não é significativo (5 ', rho = 0,11, P = 0,55, N = 51 3 ', rho = 0,11, P = 0,55, N = 39 agrupados 3 '/ 5', rho = 0,12, P = 0,51, N = 90) ou de monotonia comparável (mas consulte o arquivo de dados adicionais 9).

Dado que o conjunto de alinhado Saccharomyces exons consistiam inteiramente de exons terminais (ver Materiais e métodos), repetimos a análise para um conjunto de 5.352 pares ortólogos de exons terminais de nosso Drosófila conjunto de dados a fim de descartar que as diferenças sejam causadas por quaisquer características especiais dos exons terminais. As correlações observadas para os exões terminais se assemelham muito às dos exões internos (5 ', rho = 0,83, P = 3,8E-07 3 ', rho = 0,75, P = 1.95E-06), aliviando tais preocupações.

Os resultados acima parecem consistentes com maior significância funcional da composição de aminoácidos proximal na fronteira em metazoários, proposta para ser pelo menos em parte devido à sua utilização mais extensa de sequências reguladoras de splice exônicas. No entanto, após amostragem aleatória repetida (k = 10.000) de 90 exons terminais alinhados do Drosófila conjunto de dados e posterior análise estatística, não podemos rejeitar a possibilidade de que o Saccharomyces as estatísticas foram amostradas a partir da mesma distribuição subjacente (arquivo de dados adicionais 9), o que implica que as diferenças na conservação perto dos limites exon-íntron não podem ser estabelecidas a partir dos dados disponíveis.

Tendo detectado níveis mais altos de conservação de aminoácidos perto dos limites do exon-íntron, esperamos que os genes com uma alta proporção de sequências perto dos limites ('flanco pesado') evoluam mais lentamente. Isso é realmente o que descobrimos quando consideramos K UMAcomo uma função da proporção da sequência dentro de 70 bp do limite (Drosophilae, rho = -0,26, P = 2,2E-16, N = 4,132 Caenorhabdites, rho = -0,08, P = 6,18E-09, N = 5.248 Figura 5). Relatamos K UMAao invés de K UMA/K S, mais comumente usado como uma medida de seleção na sequência de proteínas, porque a premissa subjacente de K UMA/K S, a saber que K Sreflete taxas neutras de evolução, é violado para ESEs de codificação de sequência [26].

A taxa de evolução não sinônima se correlaciona negativamente com a proporção da sequência limite-proximal. K UMAé traçado como uma função da proporção da sequência de codificação localizada dentro de 70 bp de um limite exon-íntron para (uma) D. melanogaster-D. pseudoobscura genes ortólogos (rho = -0,26, P = 2,2E-16, N = 4,132) e (b) C. elegans-C. briggsae genes ortólogos (rho = -0,08, P = 6,18E-09, N = 5.248). Os dados foram divididos em caixas ao longo de intervalos decimais regulares (0,1, 0,2 e assim por diante) e a média K UMAdentro de cada compartimento plotado contra a proporção média da sequência perto do limite. O último (a) e o primeiro (b) três compartimentos, respectivamente, foram agrupados para obter tamanhos de compartimento aproximadamente iguais. Tendências negativas estão presentes para ambos os conjuntos de genes alinhados, mas um desvio da tendência geral é evidente para genes de nematóides com uma baixa proporção de sequência limite-proximal.

Os resultados não são afetados qualitativamente pela contração (50 bp) ou expansão (100 bp) da região considerada para constituir o flanco de fronteira (arquivo de dados adicionais 10). Focalizando os bins terminais na Figura 5a, parece que entre D. melanogaster e D. pseudoobscura um gene com menos de 10% da sequência de codificação perto de um limite exon-íntron evolui, em média, quase duas vezes mais rápido (média K UMA= 0,195) como um gene com mais de 70% da sequência limite-proximal (média K UMA= 0,099). Discrepâncias na taxa evolutiva entre caixas 'pesadas no flanco' e 'pesadas no núcleo' parecem menos marcadas para o par de nematóides (média K UMA(% CDS perto do limite & gt0,9) = 0,12 média K UMA(% CDS perto do limite & lt0.3) = 0,18). No entanto, a Figura 5b sugere que isso se deve principalmente a níveis curiosamente elevados de conservação para genes com uma pequena proporção de sequência perto da fronteira, ou seja, genes com exons muito grandes, uma característica que não encontramos na análise de qualquer um dos insetos ( Dm-Dps) ou ortólogos de mamíferos (Hs-Mm) [2].

É importante ressaltar que esta anomalia destaca uma reserva mais geral, ou seja, que qualquer medida que capture a proporção da sequência perto da fronteira covariará fortemente com o comprimento do exon, que por sua vez pode covariar com determinantes funcionais subjacentes da taxa evolutiva totalmente não relacionados ao controle de splicing. Assim, a fim de controlar quaisquer efeitos supostamente distorcivos da classe funcional sobre K UMA, empregamos a seguinte estratégia: para cada gene alinhado, concatenamos as regiões flanqueadoras de todos os exons, 5 'e 3', definidas como os primeiros 72 bp na fronteira com a junção exon-íntron dos exons aparados. Por implicação, genes sem exon maior que 144 bp tiveram que ser excluídos desta análise. Simultaneamente, concatenamos as seções centrais de todos os exons de comprimento suficiente no respectivo gene, definido como o bloco de sequência delimitado pelas duas regiões flanqueadoras. Como estimativa precisa de K UMAprovavelmente requer um mínimo de 100 códons, restringimos ainda mais a análise aos genes com pelo menos 300 bp nos flancos concatenados e nos núcleos concatenados dos exons. Para cada gene que atende aos critérios acima, determinamos as taxas de evolução de aminoácidos nas seções centrais concatenadas (K Ac) e seções de flanco (K Af) Nós achamos isso mais Drosófila Genes ortólogos do que o esperado por acaso têm regiões centrais de evolução mais rápida (mediana (K Ac- K Af)/K Af) = 0,14, teste de classificação sinalizada de Wilcoxon P & lt 0,0001, N = 1.237 Figura 6), consistente com a evidência, apresentada acima, para restrição de sequência adicional operando em regiões de flanco. Uma tendência significativa para uma evolução mais rápida nas seções centrais também é evidente quando confinamos a amostra a genes com pelo menos 600 bp nos flancos, bem como nas regiões centrais (mediana (K Ac- K Af)/K Af) = 0,14, teste de classificação sinalizada de Wilcoxon P & lt 0,0001, N = 785). Apesar de exibir a mudança esperada para uma média superior K UMAno núcleo dos exons, esta tendência é muito menos pronunciada do que em uma comparação relatada anteriormente de ortólogos humanos-camundongos (mediana (K Ac- K Af)/K Af) = 0,68, teste de classificação sinalizada de Wilcoxon P & lt 0,0001, N = 360 Figura 6c, e veja Parmley et al. [2] para detalhes). Curiosamente, para o par de nematóides, encontramos evidências significativas para uma correlação reversa (300 bp, mediana (K Ac- K Af)/K Af) = -0,07, teste de classificação sinalizada de Wilcoxon P & lt 0,0001, N = 1,102 600 bp, mediana (K Ac- K Af)/K Af) = -0.014, P & lt 0,038, N = 496), ou seja, na maioria dos genes, as regiões flanqueadoras evoluem a uma taxa ligeiramente mais alta do que as regiões centrais.

Os flancos e núcleos de exons evoluem em taxas diferentes. Histogramas de registrados Kr índices (K Ac/K Af), usando 100 caixas, para (uma) D. melanogaster-D. pseudoobscura genes ortólogos (N = 1.237), (b) C. elegans-C. Briggsae genes ortólogos (N = 1.102), e (c) genes ortólogos humano-camundongo (N = 360) com um mínimo de 300 bp de meio concatenado e sequência de flanqueamento de exons são plotados. A linha tracejada em cada gráfico indica ln (Kr) = 0, o ponto em que as seções do meio e de flanco evoluem na mesma taxa média. As setas indicam a mediana registrada Kr proporções de (a) 0,128, (b) -0,065 e (c) 0,559, respectivamente. Todos os três são significativamente diferentes da expectativa nula de ln (Kr) = 0 (P & lt 0,0001). Observe o afastamento muito mais acentuado da expectativa nula no conjunto de dados de mamíferos.


Genes que evoluem do zero expandem a diversidade de proteínas

Uma das questões mais importantes da biologia é a rapidez com que novas proteínas evoluem nos organismos. As proteínas são os blocos de construção que realizam as funções básicas da vida. À medida que os genes que as produzem mudam, as proteínas também mudam, introduzindo novas funcionalidades ou características que podem eventualmente levar à evolução de novas espécies.

Um novo estudo publicado em Ecologia e evolução da natureza liderado por cientistas da Universidade de Chicago desafia uma das suposições clássicas sobre como as novas proteínas evoluem. A pesquisa mostra que seções aleatórias e não codificantes de DNA podem evoluir rapidamente para produzir novas proteínas. Esses genes de novo, ou "do zero", fornecem uma maneira nova e inexplorada pela qual as proteínas evoluem e contribuem para a biodiversidade.

"Usando uma grande comparação do genoma, mostramos que as sequências não codificantes podem evoluir para proteínas completamente novas. Essa é uma grande descoberta", disse Manyuan Long, PhD, a Edna K. Papazian Distinguished Service Professora de Ecologia e Evolução na UChicago e autora sênior do novo estudo.

Uma terceira maneira de os genes evoluírem

Durante décadas, os cientistas acreditaram que havia apenas duas maneiras de desenvolver novos genes: duplicação e divergência ou recombinação. Durante o processo normal de replicação e reparo, uma seção do DNA é copiada e cria uma versão duplicada do gene. Então, uma dessas cópias pode adquirir mutações que mudam sua funcionalidade o suficiente para divergir e se tornar um novo gene distinto. Com a recombinação, pedaços de material genético são reorganizados para criar novas combinações e novos genes. No entanto, esses dois métodos respondem apenas por um número relativamente pequeno de proteínas, dado o número total de combinações possíveis de aminoácidos que as compõem.

Os cientistas há muito se perguntam sobre um terceiro mecanismo, onde genes de novo poderiam evoluir do zero. Todos os organismos têm longos trechos de material genético que não codificam proteínas, às vezes até 97% do genoma total. É possível que essas seções não codificantes adquiram mutações que repentinamente as tornam funcionais?

Isso tem sido difícil de estudar porque requer genomas de referência de alta qualidade de várias espécies estreitamente relacionadas que mostram tanto as sequências ancestrais não codificantes quanto os novos genes subsequentes que evoluíram a partir delas. Sem essa linha de evolução clara e visível, não há como provar que é realmente um gene de novo. Os supostos novos genes relatados anteriormente poderiam ser apenas um "gene órfão" que divergiu ou foi transferido de organismos não relacionados em algum ponto, então todos os vestígios de seus predecessores desapareceram.

Para superar esses desafios, a equipe de Long tirou proveito de 13 novos genomas sequenciados e anotados recentemente de 11 espécies estreitamente relacionadas de plantas de arroz, incluindo Oryza sativa, a cultura alimentar mais comum. Ele trabalhou com grupos liderados pelo Prof. Rod Wing na Universidade do Arizona. O Prof. Yidan Ouyang da Huazhong Agricultural University, China, também liderou uma equipe que cultivou suas próprias plantas de arroz em Hainan, uma ilha tropical na costa sul da China, e as colheu para amostragem proteômica.

Depois de analisar os genomas dessas plantas, eles detectaram pelo menos 175 genes de novo. A análise de espectrometria de massa adicional da atividade da proteína foi conduzida por outro grupo liderado pelo Prof. Siqi Liu em BGI-Shenzhen, um centro de sequenciamento de genoma localizado em Shenzhen, Guangdong, China. Eles encontraram evidências de que 57 por cento desses genes realmente se traduziram em novas proteínas, incluindo mais de 300 novos peptídeos.

Com este primeiro grande conjunto de dados de genes de novo autênticos, a equipe de Long detectou um padrão em sua evolução. Tudo começou com a evolução inicial da expressão, seguida por mutação subsequente em potenciais de codificação de proteínas para quase todos os genes de novo.

"Isso faz sentido dada a expressão amplamente observada de regiões intergênicas em vários organismos", disse Li Zhang, pesquisador de pós-doutorado na UChicago e principal autor do artigo.

Long diz que as plantas Oryza são bons genomas para procurar genes de novo porque são relativamente jovens - você ainda pode ver evidências de evolução em seus genomas existentes.

"As 11 espécies divergiram umas das outras apenas cerca de três a quatro milhões de anos atrás, então são todas espécies jovens", disse ele. "Por essa razão, quando sequenciamos os genomas, todas as sequências são muito semelhantes. Eles não acumularam várias gerações de mudanças, então todas as seções anteriores não codificantes ainda estão lá."

Long e sua equipe querem estudar as novas proteínas para entender melhor sua função e evolução e ver se há algo único em sua estrutura. Se os genes de novo abrirem um caminho inexplorado para a evolução, eles podem revelar mecanismos para a criação de funções celulares novas e aprimoradas. Por exemplo, os pesquisadores detectaram evidências da ação da seleção natural para corrigir inserções e deleções no genoma para gerar novas sequências de proteínas e a evolução da sequência em direção a funções aprimoradas.

"As novas proteínas podem tornar certas funções melhores ou ajudar a regular melhor os genes", disse ele. "A cada passo do caminho, eles podem trazer algum tipo de benefício ao organismo até que ele gradualmente se fixe no genoma."


Os receptores nucleares estão envolvidos em uma miríade de processos fisiológicos, respondendo a ligantes e ligando-se ao DNA em sequências específicas ciselementos -regulatórios. Esta ligação ocorre no contexto da cromatina, um fator crítico na regulação da transcrição eucariótica. Ensaios recentes de alto rendimento examinaram a ação do receptor nuclear em todo o genoma, aprimorando nossa compreensão da ligação do receptor a elementos reguladores. Aqui, discutimos o conhecimento atual da ocupação de elementos de resposta em todo o genoma por receptores e a função das redes de fatores de transcrição na regulação da ação do receptor nuclear. Destacamos papéis emergentes para o epigenoma, remodelação da cromatina, modificação da histona, variantes da histona e interações cromossômicas de longo alcance na ligação ao receptor nuclear e regulação do gene dependente do receptor. Esses mecanismos contribuem de maneira importante para a ação dos receptores nucleares na saúde e na doença.

Usamos cookies para ajudar a fornecer e aprimorar nosso serviço e personalizar conteúdo e anúncios. Ao continuar, você concorda com os uso de cookies .


Voltado para o leitor leigo interessado, Infinitas formas mais bonitas (o título vem do último parágrafo do livro de Darwin Origem das especies) é uma homenagem aos avanços recentes na genética do desenvolvimento e ao que eles podem nos dizer sobre o processo evolutivo. A peça central do livro é a descoberta inesperada de que os genes que controlam os planos corporais de todos os animais bilaterais, incluindo vermes, insetos, sapos e humanos, são em grande parte idênticos. Estes são os ‘homeobox’ (Hox) genes, cujos produtos se ligam ao DNA de outros genes, desencadeando uma cascata de processos que, por fim, produzem olhos, membros, corações e outras estruturas complexas.

O conservadorismo evolucionário desses genes em espécies há muito divergentes é impressionante. Apenas um biólogo cansado não poderia se surpreender com a capacidade do Pax-6 Hox gene de camundongos (que desencadeia a formação de olhos) para induzir na mosca da fruta Drosófila a formação de olhos de mosca em todo o corpo, até nas asas. Notavelmente, Pax-6 ajuda a organizar olhos compostos em moscas e olhos de câmera em lulas e vertebrados - estruturas que se pensava ter evoluído de forma independente. Outro Hox gene, homem de Lata, induz a formação de coração em insetos e vertebrados, e Sem distal controla o desenvolvimento de pernas de moscas, nadadeiras de peixes e pés tubulares de ouriços-do-mar.

Sean Carroll, um líder no campo da biologia evolutiva do desenvolvimento (evo-devo), é um comunicador hábil, transmitindo as complexidades do desenvolvimento em prosa clara e viva. Ele abrange a história da biologia, ligando o conceito inicial de 'indutores' à visão mais complexa de redes de desenvolvimento de hoje e explora as implicações da evo – devo para a explosão cambriana, a biologia dos dinossauros, os cérebros dos humanos e a striping de zebras.

Infinitas formas mais bonitas é uma introdução de primeira classe a evo – devo para os cientificamente curiosos, mas sua mensagem levemente autocongratulatória - que os problemas mais importantes para entender a evolução do desenvolvimento foram resolvidos - me deixou desconfortável. Carroll apresenta sua visão do campo sem admitir que grandes partes dessa visão permanecem controversas. Eu teria apreciado uma advertência ou duas, e os não-cientistas podem acreditar erroneamente que Carroll apresenta o consenso científico sobre evolução e desenvolvimento.

Carroll enfatiza que a evolução da forma e complexidade animal resulta de três fatores. O primeiro é a modularidade da organização: o plano básico de animais bilaterais envolve segmentos repetidos que podem evoluir de forma independente. A lagosta, por exemplo, é um verdadeiro crustáceo do "Exército Suíço", cujos diversos apêndices - antenas, aparelhos bucais, garras, pernas que caminham, pernas nadadoras e cauda - são todos membros ancestrais modificados. O segundo fator é que a maioria dos animais compartilha um conjunto pequeno, mas semelhante, de "genes do kit de ferramentas" que regulam o desenvolvimento de diferentes módulos. Esses genes, que produzem proteínas regulatórias chamadas fatores de transcrição, são altamente conservados em função Hox os genes são o exemplo canônico.

Mas a modularidade e um kit de ferramentas genéticas compartilhadas não podem por si mesmas explicar “formas infinitas”, porque genes conservados não podem explicar a diversidade. Carroll, portanto, enfatiza repetidamente sua terceira tese: que o principal motor da evolução não é a mudança nos genes codificadores de proteínas, mas nos interruptores que os controlam. Mudanças nesses interruptores - os promotores e intensificadores no DNA que regulam a transcrição de genes codificadores de proteínas - supostamente promovem a evolução, fazendo com que os genes existentes sejam expressos em novos tempos e lugares. Essa ideia está conosco há muito tempo. Por volta de 1970, os biólogos Roy Britten, Eric Davidson e Allan Wilson já estavam argumentando que o "gene regulador" é o locus da evolução, e a ideia agora é sabedoria aceita entre evo-devotos.

A evidência para esta hipótese crítica, no entanto, repousa mais na inferência do que na observação ou experimento. Carroll observa primeiro que espécies diferentes podem de fato ser geneticamente semelhantes: “Camundongos e humanos têm conjuntos quase idênticos de cerca de 25.000 genes” e “chimpanzés e humanos são quase 99% idênticos no nível do DNA. Uma vez que os conjuntos de genes são amplamente compartilhados, como surgem as diferenças? ” Sua resposta é a evolução dos elementos regulatórios não codificantes: se você é um homem ou um camundongo, aparentemente depende apenas de seus promotores e potencializadores.Mas as estatísticas subjacentes são enganosas, mesmo uma diferença de 1% na sequência do DNA implica uma diferença substancial na sequência da proteína. Agora sabemos que humanos e chimpanzés têm sequências de aminoácidos diferentes em pelo menos 55% de suas proteínas, um número que sobe para 95% para humanos e camundongos. Portanto, não podemos excluir a evolução da sequência de proteínas como uma razão importante pela qual não temos bigodes e caudas.

Carroll também afirma que as proteínas são resistentes à mudança evolutiva: elas estão frequentemente envolvidas em muitas vias e, portanto, uma mudança na sequência da proteína, ao mesmo tempo que aumenta um aspecto das muitas funções da proteína, pode danificar vários outros. Em contraste, a alteração de um intensificador ou promotor pode afetar a expressão de uma única proteína sem alterar sua estrutura, portanto, essas alterações têm maior probabilidade de ser adaptativas. Ele deduz que "a evolução de‘ novos genes ’não é a explicação para a origem da diversidade da maioria dos grupos de animais". Em vez disso, “são as chaves que codificam instruções exclusivas para espécies individuais e que permitem que diferentes animais sejam feitos usando essencialmente o mesmo kit de ferramentas”, diz ele. “A evolução da forma é muito mais uma questão de ensinar novos truques a genes muito antigos!”

Mas dados recentes lançam dúvidas sobre esse argumento. Os humanos têm cerca de 32.000 genes codificadores de proteínas, as moscas, apenas 13.000. Claramente, a diferença entre essas espécies envolve a origem de novas proteínas: de fato, entre 40% e 50% dos nossos genes codificadores de proteínas não têm homólogos conhecidos em moscas. Portanto, pode-se argumentar que a evolução da forma é muito mais uma questão de ensinar genes antigos a fazer novos genes. E, dados os dados, isso não pode ser difícil.

Existem várias maneiras pelas quais a estrutura da proteína pode evoluir sem efeitos colaterais prejudiciais. Um dos mais comuns é a duplicação de genes. Cópias extras de um gene podem surgir por cruzamento desigual ou por transcrição reversa, permitindo que uma cópia retenha sua função enquanto a outra assume uma nova função. Este processo tem sido uma grande força na evolução. Uma grande fração dos genes (pelo menos 39% em humanos) são membros de famílias derivadas de repetidas duplicações e diversificação de genes ancestrais, um processo que rendeu muitas novidades evolutivas. Essas famílias incluem as globinas (como a mioglobina e as várias hemoglobinas), imunoglobulinas, opsinas (que levaram à visão em cores nos primatas do Velho Mundo) e receptores olfativos (quase certamente envolvidos na evolução de um olfato aguçado em animais terrestres). A lactalbumina, que ajuda a produzir leite em mamíferos, resultou de uma duplicação da lisozima, e as cristalinas de nossas lentes oculares são, em última análise, derivadas de genes de choque térmico.

Este modelo de "multiplicação e diversificação" da evolução molecular não depende apenas da duplicação de genes individuais; a evolução dos tetrápodes aparentemente envolveu pelo menos dois episódios de duplicação do genoma inteiro. Muitos evolucionistas concordam com a conclusão do geneticista Wen-Hsiung Li de que “agora há ampla evidência de que a duplicação de genes é o mecanismo mais importante para a geração de novos genes e novos processos bioquímicos que facilitaram a evolução de organismos complexos a partir dos primitivos”. Carroll, no entanto, parece muito apaixonado por sua tese de "regulamentação é tudo" para considerar essa visão alternativa.

Além da duplicação de genes, existem outras maneiras pelas quais as proteínas evoluíram de forma adaptativa. Isso inclui a conversão gênica, o recrutamento de genes para novas funções (responsáveis ​​por criar as glicoproteínas anticongelantes que permitem que os peixes vivam em águas frias), o embaralhamento de exon (envolvido na evolução dos fatores de coagulação do sangue) e a adição de elementos transponíveis às sequências de codificação. Finalmente, e o mais simples de tudo, temos muitos exemplos de mudanças adaptativas da sequência de proteínas entre espécies intimamente relacionadas, incluindo diferenças na cor da pelagem de camundongos, as enzimas digestivas de herbívoros e as hemoglobinas de pássaros e mamíferos de grande altitude.

Em contraste, as evidências para a divergência adaptativa de trocas genéticas ainda são escassas. O melhor caso envolve a perda de armadura protetora e espinhos em sticklebacks, ambos devido a mudanças nos elementos regulatórios. Mas esses exemplos representam a perda de características, ao invés da origem das novidades evolutivas. Carroll também dá muitos casos de diferentes padrões de expressão de Hox genes associados à aquisição de novas estruturas (como membros, asas de insetos e manchas oculares de borboletas), mas essas observações são apenas correlações. Pode-se até argumentar que são triviais. Dada a centralidade de Hox genes em desenvolvimento, é quase inevitável que tais genes estejam envolvidos na evolução de uma nova característica. As correlações de Carroll, entretanto, não nos levam a acreditar que as mudanças nesses genes sejam o fator-chave na evolução de tais características. Agora sabemos que Hox genes e outros fatores de transcrição têm muitos papéis além de induzir o padrão corporal, e sua função geral no desenvolvimento - quanto mais na evolução - permanece obscura.

No final, simplesmente não sabemos a importância relativa das alterações de proteínas e não proteínas na criação da diversidade biológica. Em muitos casos, ambos devem ter evoluído em conjunto, visto que diferentes membros de famílias de genes são frequentemente expressos em diferentes tecidos ou em momentos diferentes. Por exemplo, a sequência proteica da γ-hemoglobina fetal evoluiu adaptativamente para extrair oxigênio do sangue da mãe, mas seu gene é desligado após o nascimento, provavelmente por novos reguladores. A ênfase de Carroll nas trocas de genes pode se provar correta, mas isso aguarda o trabalho da próxima geração de biólogos.

Embora Infinitas formas mais bonitas é um resumo lúcido e valioso de evo – devo, ele proclama uma hipótese inteligente, mas ainda não comprovada como central para o processo evolutivo. Como o próprio Carroll observa: “A simplificação pode de fato ser necessária para artigos de notícias, mas pode distorcer as realidades mais complexas e sutis dos padrões e mecanismos evolutivos”.


Cientistas revelam sequência do genoma de Daphnia pulex nova e aprimorada

Ao compreender como as espécies de Daphnia respondem a elementos tóxicos, como contaminantes industriais, proliferação de algas tóxicas ou estresse térmico, os cientistas podem observar como as mudanças ambientais causadas pela agricultura e pelo escoamento das estradas ou pelo aquecimento das temperaturas e mudanças climáticas podem impactar as populações de lagos, rios e corpos em pé. de água. Crédito: Matt Cashore / Universidade de Notre Dame

Para muitos, a experiência com Daphnia, comumente conhecida como pulgas d'água, termina no ensino médio. O organismo é frequentemente usado para experimentos científicos que exploram a toxicidade da água, devido à sua sensibilidade aos fatores ambientais. Mas os minúsculos microcrustáceos transparentes têm sido estudados intensamente por mais de 150 anos, e uma nova pesquisa publicada e apresentada na capa da revista G3 revela que os cientistas podem agora dar uma olhada em seu genoma.

Os pesquisadores concluíram uma sequência de genoma nova e aprimorada de Daphnia pulex (D. pulex), fornecendo um roteiro mais claro do genoma do organismo para que possam identificar os genes e as vias que tornam esse organismo tão bem-sucedido em ecossistemas de água doce.

Populações de Daphnia, quase invisíveis a olho nu, podem ser encontradas em praticamente todas as massas de água do planeta, incluindo a Antártica. Eles evoluem rapidamente e são mestres em responder às condições de seu ambiente. Sentindo os sinais químicos de predadores próximos, algumas espécies de Daphnia desenvolvem estruturas defensivas elaboradas, como espinhos e capacetes, que os tornam mais difíceis de comer. Embora os cientistas tenham adquirido uma compreensão completa do que essas pequenas pulgas d'água fazem para se adaptar a condições variáveis, eles ainda não sabem como o fazem.

"É por isso que um sistema como este é tão poderoso", disse Michael E. Pfrender, diretor do Genomics & Bioinformatics Core Facility e professor associado do Departamento de Ciências Biológicas e da Iniciativa de Mudança Ambiental da Universidade de Notre Dame. "Precisamos dessa infraestrutura genômica para adicionar ao contexto ecológico que já temos para obter uma melhor compreensão de como Daphnia se adapta. Como temos uma sequência de genoma aprimorada, podemos obter um catálogo mais preciso de genes e ao pensar na resposta ao ambiente e pistas químicas, é a ativação e desativação de genes e vias que é importante. O quadro é muito mais completo do que era antes. "

Chamando-o de genoma "Portland Arch", após a Reserva Natural de Indiana, onde o Daphnia foi coletado, a nova montagem vem seis anos após a primeira sequência de D. pulex em 2011. O estudo atual descreve como os cientistas usaram a tecnologia mais recente como parte de um processo metódico e completo, cujo resultado levou à identificação de 18.440 genes.

D. pulex desempenha um papel vital na ecologia da Terra. Alimentando-se de algas e fitoplâncton em águas doces paradas, eles são os principais herbívoros nesses ambientes, as "vacas dos lagos", disse Pfrender. Eles também são forragem primária, transferindo toda essa energia para os peixes que os comem. Ao compreender como as espécies de Daphnia respondem a elementos tóxicos como contaminantes industriais, proliferação de algas tóxicas ou estresse térmico, os cientistas podem observar como as mudanças ambientais causadas pela agricultura e pelo escoamento das estradas ou pelo aquecimento das temperaturas e mudanças climáticas podem impactar as populações de lagos, rios e corpos em pé. de água.

"O que acontece com essa parte vital do ecossistema quando as condições mudam muito rapidamente? Quais genes permitem que algumas populações lidem com essas mudanças enquanto outras falham?" Pfrender disse. "Isso é o que queremos descobrir. Esta sequência do genoma fornece o kit de ferramentas."


Perguntas para responder e ponderar

  • Usando um diagrama, considere os efeitos de inverter uma região cromossômica (180 graus) na expressão do gene.
  • Considere os efeitos de tais rearranjos no pareamento de cromossomos durante a meiose.
  • Como a reprodução sexual aumenta a diversidade genética dentro de uma população?
  • Especule sobre quais fatores seletivos podem favorecer a reprodução sexual em relação à reprodução assexuada (e vice-versa).
  • Fornece uma explicação para a persistência de genes duplicados. Que forças atuariam para removê-los?
  • Que tipo de evento levaria à duplicação total do genoma?
  • Por que alguns genes são freqüentemente perdidos após a duplicação do genoma?

Estudo da galinha revela que fatores ambientais, não apenas o acaso, podem impulsionar a evolução das espécies

Na versão da teoria da evolução com a qual a maioria de nós está familiarizada, variações que ocorrem aleatoriamente nas características, causadas por mutações em nosso DNA, podem ser fixadas em uma população por meio da seleção natural. No entanto, escrevendo em Epigenética Journal, uma equipe de pesquisadores suecos da Linköping University sugere que mutações que podem ser causadas por mudanças ambientais, não apenas por acaso, podem ser responsáveis ​​pela diversidade de espécies.

Até bem recentemente, presumia-se que as mutações no DNA que causavam novas variações genéticas ocorriam mais ou menos aleatoriamente. Embora ocorram mutações aleatórias, pesquisas recentes mostraram que os genes também podem ser alterados por influências ambientais. De acordo com um estudo publicado em Epigenética Journal, um tipo particular de mutação, ligada a mudanças epigenéticas, tem, ao longo do tempo, levado a novas raças de animais - e pode ser responsável por novas espécies.

A mutação genética leva à variação

O DNA é composto por uma longa sequência de quatro substâncias químicas (bases), representadas pelas letras A, T, C e G. A ordem desse 'código genético' determina as características que definem as espécies e torna os organismos individuais uns dos outros.

Mutações na composição genética podem causar variações nos genes. Em humanos, isso pode levar a - por exemplo - cores de cabelo ou olhos diferentes e até doenças genéticas.

A mutação nem sempre é aleatória

As mutações podem ocorrer com mais frequência em determinados locais do genoma do que em outros, conforme explicado pelo Dr. Carlos Guerrero-Bosagna, professor assistente na Universidade de Linköping e último autor do Epigenética estude.

O sítio "A" CpG 'é onde você obtém uma base C e uma base G uma ao lado da outra em uma fita de DNA. Esses locais são muito mais suscetíveis à metilação epigenética do que outras sequências de duas bases ", disse ele.

As modificações epigenéticas, como a metilação do DNA, não alteram os genes, mas podem afetar a atividade do gene, por exemplo, como as proteínas interagem com o DNA para ligar ou desligar um gene. Eles também podem ocorrer em resposta a mudanças ambientais. Em um estudo com plantas, por exemplo, as modificações epigenéticas foram responsáveis ​​por atrasar a floração durante os meses frios de inverno, até a primavera, quando as temperaturas são mais favoráveis.

"Em um local CpG, um" C 'metilado está a apenas uma reação química de se tornar um "T' - uma base inteiramente diferente. Portanto, embora as modificações epigenéticas induzidas pelo ambiente não causem mutações per se, a chance de um C- permanente a mutação to-T é muito maior em locais CpG. "

Esses "polimorfismos de nucleotídeo único", ou SNPs para abreviar, podem alterar a função de um gene ou até mesmo levar a doenças genéticas. O chamado "gene do câncer de mama" BRCA1, por exemplo, está ligado à mutação em um local CpG.

Mas as mutações do local CpG orientadas pelo ambiente são responsáveis ​​pela evolução?

De acordo com este estudo, isso é totalmente plausível.

"É por isso que usamos galinhas como modelo para nosso estudo", diz o Dr. Guerrero-Bosagna.

As muitas variedades de galinhas domesticadas existentes hoje em dia foram criadas em um período relativamente curto de um ancestral comum: o Red Jungle Fowl, que ainda existe em partes da Ásia hoje.

"Ao analisar a dinâmica de mutação de locais CpG nos genomas de Red Jungle Fowl e várias variedades de frango domesticado, descobrimos que as mutações relacionadas ao CpG desempenharam um papel importante na diversificação do genoma de frango. Além disso, descobrimos que quanto mais longe do Red Jungle Fowl, uma raça de frango é - evolutivamente falando - a variação genética mais relacionada ao CpG que eles têm. "

O Dr. Fábio Pértille, pesquisador de pós-doutorado no laboratório, acrescentou: "Um ponto forte de nosso estudo é que usamos uma combinação de técnicas para examinar a composição genômica e a metilação do DNA nas mesmas amostras."

Os resultados do estudo sugerem fortemente que o aumento da frequência de mutação ocorrendo em locais CpG - potencialmente impulsionado pelo aumento da atividade epigenética ambiental - leva a mudanças permanentes e hereditárias no genoma. Com o tempo, é provável que isso tenha contribuído significativamente para a diversificação das espécies.


Materiais e métodos

Classificação funcional

Genes humanos codificadores de proteínas com anotação funcional (14.062 genes) foram extraídos de Ensembl [49] para a classificação GO de 'função molecular' e 'processo biológico' [50]. Observe que os termos GO são organizados em estruturas chamadas de gráficos acíclicos direcionados, de modo que um termo especializado pode ser associado a vários termos menos especializados. Por exemplo, um gene anotado com o termo 'atividade de fator de transcrição' também será automaticamente anotado como 'ligação de DNA' e 'ligação de ácido nucleico', que são termos pais dos termos anteriores no banco de dados GO. Analisamos todas as categorias de função molecular GO e todas as categorias de processos biológicos que têm mais de 100 genes humanos anotados com seus termos (135 e 242, respectivamente). Realizamos nossa análise com e sem anotação inferida eletronicamente (isso representa 54% das anotações para o processo biológico e 69% para a função molecular), e as conclusões são consistentes usando ambas as versões da anotação GO (dados não mostrados). Além disso, embora tenhamos usado todos os genes Ensembl com anotações GO (14.062 genes) para nosso estudo, repetimos a análise usando apenas genes incluídos na base de dados RefSeq [51], encontrando essencialmente os mesmos resultados (dados não mostrados).

Além dessas categorias, introduzimos uma categoria nossa de fatores de transcrição de ligação ao DNA específicos para sequência previstos. Esta categoria é definida a partir do banco de dados DBD, que contém repertórios de fatores de transcrição previstos para genomas completamente sequenciados com base em atribuições de domínio das bibliotecas de modelos ocultos de Markov SUPERFAMILY e PFAM [52]. Além disso, dividimos essa categoria em: fatores de transcrição do desenvolvimento (ou seja, também anotados com o termo de processo biológico GO 'desenvolvimento') e todos os outros (TF-DBD).

No esquema de classificação funcional alternativo considerado, o banco de dados KOGs [29], existem grupos ortólogos de proteínas de sete genomas eucarióticos: três animais (o nematóide C. elegans, a mosca da fruta Drosophila melanogaster e Homo sapiens), uma planta, Arabidopsis thaliana, dois fungos (Saccharomyces cerevisiae e Schizosaccharomyces pombe), e o parasita microsporídeo intracelular Encephalitozoon cuniculi [29]. Os grupos ortólogos de proteínas são classificados em uma das 25 categorias funcionais sempre que possível, portanto, há menos categorias maiores neste esquema em comparação com o esquema GO.

Genomas e grupos filogenéticos

Proteínas do genoma humano (NCBI36 - Ensembl v.42) foram utilizadas para a análise. Além disso, as seguintes versões de outros genomas eucarióticos concluídos fazem parte de nossa análise. Mamíferos: dois roedores, camundongo (Mus musculus - NCBIM36) e rato (Rattus norvegicus - RGSC3.4), cão (Canis familiaris - CanFam2.0), vaca (Bos taurus - Btau2.0), gambá (Monodelphis domestica - MonDom4.0). Outros vertebrados: frango (Gallus gallus - WASHUC2) e Frog (Xenopus tropicalis - JGI4.1), e três peixes ósseos, peixe-zebra (Danio rerio - Zv6), fugu (Rubricas de Takifugu - FUGU4) e tetraodon (Tetraodon nigroviridis - TETRAODON7). Invertebrados: mosquito (Anopheles gambiae - AgamP3), mosca da fruta (D. melanogaster - BDGP4.3), ouriço do mar (Ciona intestinalis - JGI2), verme (Caenorhabditis elegans - WS160) e fermento (S. cerevisiae - SGD1.01).

Homologia e ortologia

A semelhança entre pares para todos os genes humanos uns contra os outros e os outros genomas foi obtida em Ensembl-Compara (v42.0) [49]. Essas relações foram calculadas usando WUBLASTP (v2.0) [53] para cada gene considerando apenas a isoforma de peptídeo mais longa. Homólogos são definidos como aquelas sequências com uma correspondência com um valor E ≤10 -10 em outros genomas, enquanto os ortólogos em Ensembl-Compara são atribuídos com base em árvores de genes filogenéticos de máxima verossimilhança.

A presença de um ortólogo para uma proteína humana em outro genoma fornece informações mais precisas sobre a conservação da proteína do que a presença de um homólogo. No entanto, a detecção de ortologia é propensa a erros para relacionamentos evolutivos distantes e para famílias de proteínas com muitas duplicações e perdas. Portanto, decidimos usar ambos, ortólogos e homólogos, em nosso estudo.

Categorias funcionais e sua divergência evolutiva relativa: FRED

Desenvolvemos um esquema para quantificar a divergência relativa da sequência de proteínas de diferentes categorias funcionais entre um par de genomas, que usamos para comparar humanos com 15 outros genomas. Chamamos essa estrutura de FRED, para categorias funcionais e sua divergência evolutiva relativa, que é esboçada na Figura 1 e descrita abaixo.

Medidas de conservação

A principal medida da taxa evolutiva que usamos é a evolução da sequência de aminoácidos através do CS [54]. Usamos o CS mediano para todos os ortólogos de humano para outro genoma em uma categoria funcional particular. Isso significa que o conjunto de proteínas consideradas para uma determinada categoria funcional pode diferir ao comparar o humano a um genoma ou outro devido ao ganho e perda de genes ao longo da evolução. No entanto, normalizamos a taxa de divergência de sequência para cada categoria funcional pela divergência média para o par de genomas considerado. Isso significa que o ganho e a perda de genes em uma determinada categoria são implicitamente comparados com as taxas em outras categorias funcionais quando estudamos a divergência de sequência. Além disso, também consideramos o conjunto de ortólogos universalmente conservados em eucariotos do banco de dados KOGs [29] e testamos nossas conclusões sobre este conjunto. Além disso, analisamos a extensão da existência de ortólogos e homólogos aos genes humanos nos outros 15 genomas e discutimos a extensão da correlação entre as diferentes medidas da taxa evolutiva.

Pontuação de conservação

O CS é uma estimativa da divergência que ocorreu entre um par de proteínas durante a evolução e é independente do comprimento das proteínas [54]. O valor de CS foi calculado para cada gene humano dividindo a pontuação WUBLASTP do ortólogo (ou o homólogo mais próximo) no outro organismo pela pontuação WUBLASTP da proteína contra si mesma, conforme relatado em outro lugar [54]: ortólogo CS ou homólogo = WUBLASTP score ortholog or homólogo / score WUBLASTP self.

O CS é responsável pela proporção da proteína de consulta combinada por WUBLASTP e a qualidade da combinação, mas é independente do comprimento da proteína de consulta. O CS varia de 0, quando nenhum ortólogo ou homólogo é detectado, a 1, quando o homólogo mais próximo é idêntico à proteína humana. Observe que, para todas as nossas análises usando CS, usamos apenas valores superiores a 0, o que significa que levamos em consideração apenas genes com ortólogos ou homólogos detectáveis ​​e significativos. Esta pontuação é indicativa de como uma proteína permaneceu conservada ao longo da evolução e, portanto, o grau em que as mutações dentro da sequência foram toleradas. Não consideramos os detalhes moleculares das diferenças nas taxas de mutação, como variações na proporção de resíduos que são necessários para a função adequada da proteína. Em vez disso, consideramos o resultado líquido de mutações aceitas nas categorias funcionais.

Na Figura 2b, exibimos em cores o CS relativo de cada gene em um determinado organismo. Para fazer isso, classificamos todos os genes humanos com homólogos no outro genoma de acordo com seu CS. O gene com maior CS é mostrado em vermelho e aquele com menor CS em azul, com todos os outros em cores intermediárias de acordo com sua classificação por CS. Assim, cores em direção ao vermelho significam CS relativo alto da proteína, verde é CS relativo médio e azul CS relativo baixo.

Observe que para os ortólogos do esquema de classificação KOGs, o valor CS foi calculado para cada gene humano dividindo a pontuação BLASTP do parceiro KOG mais próximo no outro organismo pela pontuação BLASTP da proteína contra ela mesma.

Simulações para cálculos de pontuação Z

Conforme descrito acima e resumido na Figura 1, agrupamos os genes por função molecular GO e categoria de processo biológico e, em seguida, calculamos a média e a mediana de CS para ortólogos e homólogos, bem como o número de genes com homólogos ou ortólogos em um determinado genoma. Para testar se houve um desvio significativo da expectativa aleatória para essas medidas, usamos o Z-score:

Onde µ xé a média, e σ x ¯ MathType @ CFMP @ 5 @ 5 @ + = feaafiart1ev1aaatCvAUfeBSjuyZL2yd9gzLbvyNv2Caerbhv2BYDwAHbqedmvETj2BSbqee0evGueE0jxyaibaiKI8 = vI8viVeY = Nipec8Eeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + fsy = rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaeq4Wdm3aaSbaaSqaaiqadIhagaqeaaqabaaaaa @ 32A7 @ é o erro padrão. A σ x ¯ MathType @ CFMP @ 5 @ 5 @ + = feaafiart1ev1aaatCvAUfeBSjuyZL2yd9gzLbvyNv2Caerbhv2BYDwAHbqedmvETj2BSbqee0evGueE0jxyaibaiKI8 = vI8viVeY = Nipec8Eeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + fsy = rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaeq4Wdm3aaSbaaSqaaiqadIhagaqeaaqabaaaaa @ 32A7 @ para o número de genes com homólogos e ortólogos foi calculada como:

Onde ρ é a proporção de genes na categoria em questão que têm homólogos ou ortólogos, e N é o número total de genes na categoria. Para calcular σ x ¯ MathType @ CFMP @ 5 @ 5 @ + = feaafiart1ev1aaatCvAUfeBSjuyZL2yd9gzLbvyNv2Caerbhv2BYDwAHbqedmvETj2BSbqee0evGueE0jxyaibaiKI8 = vI8viVeY = Nipec8Eeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + fsy = rqGqVepae9pg0db9vqaiVgFr0xfr = xfr = xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaeq4Wdm3aaSbaaSqaaiqadIhagaqeaaqabaaaaa @ 32A7 @ para o CS média e mediana de cada uma das categorias GO (X), selecionamos aleatoriamente 10.000 conjuntos de dados de proteínas humanas de tamanhos de amostra idênticos à categoria em questão e repetimos o cálculo para cada conjunto aleatório. Os escores Z para os valores médios e medianos de CS para categorias funcionais produzem essencialmente os mesmos resultados, pois os coeficientes de correlação entre as duas medidas são maiores que 0,9 para todas as categorias funcionais e genomas.

Exibimos matrizes de valores de pontuação Z em que cada célula é representada por uma escala codificada por cores. Vermelho significa conservação (ou maior número de homólogos ou ortólogos do que o fundo, ou maior pontuação média de conservação do que o fundo) e azul significa divergência. Cinza significa que não há diferença significativa no nível de conservação em comparação com o fundo.

Ao ajustar o convencional α valor (0,05, o p-value threshold) usando a correção de Bonferroni para múltiplos testes, obtemos um corrigido α de 1,3 × 10 -4, levando em consideração que estamos fazendo 377 testes (135 funções moleculares e 242 categorias de processos biológicos GO). Portanto, consideramos como escores Z absolutos significativos maiores do que 3,652 (| Z | & gt 3,652), o que corresponde a um analítico p-valor de 1,3 × 10 -4. Este é um limite rigoroso, pois Bonferroni é uma correção conservadora, especialmente para a estrutura de dados considerada aqui.

Observe que nossa medida de grau de conservação de uma classe funcional (Z-score) é sempre relativa à conservação de todos os genes naquele genoma em comparação com o humano. Por exemplo, os fatores de transcrição estão divergindo rapidamente na mosca em relação ao humano, mas têm conservação média em camundongos, o que significa que os fatores de transcrição mosca-humanos ortólogos divergiram rapidamente em comparação com ortólogos mosca-humanos em outras categorias funcionais, não comparados com os de camundongo-humanos ortólogos. A velocidade de divergência de uma categoria dependerá da divergência de genes conservados antigos e genes que surgiram dentro da linhagem particular considerada. Claramente, haverá mais ortólogos humanos que surgiram recentemente em organismos intimamente relacionados aos humanos. A expectativa é que um gene duplicado recentemente terá uma taxa relativamente alta de divergência de sequência para subfuncionalizar ou neofuncionalizar. A contribuição de tais genes para várias categorias funcionais será desigual, uma vez que se sabe que algumas categorias se expandem mais rapidamente do que outras [18]. Ao mesmo tempo, a restrição de proteínas na maioria das categorias funcionais será mais semelhante em organismos mais próximos do ser humano e pode mudar em organismos mais distantemente relacionados aos humanos (mesmo se houver ortólogos dentro da categoria). Para controlar esses problemas, recalculamos os escores Z para categorias funcionais de KOGs em proteínas que são universalmente conservadas em todos os sete eucariotos no banco de dados KOGs (ver texto principal).

Perfil de divergência de regiões ortólogas entre mamíferos: GERP

Para compreender a história evolutiva das regiões codificantes nas posições de nível de base, consideramos o perfil de divergência das regiões ortólogas entre os mamíferos. Usamos o método GERP desenvolvido por Cooper e colegas [34], onde a taxa de divergência de cada posição de base é comparada com uma taxa esperada. Uma posição base evolutivamente conservada tem uma pontuação GERP baixa, enquanto uma posição divergente tem uma pontuação alta.

Em primeiro lugar, as informações ortológicas para genes humanos em sete outros genomas de mamíferos, a saber, chimpanzé, macaco, rato, camundongo, cachorro, vaca, gambá, foram coletadas do Ensembl-Compara v37 e 42. Consideramos apenas ortólogos com & gt100 aminoácidos alinhados por muito tempo pelo menos 70% da proteína humana. O alinhamento múltiplo do nível de DNA foi realizado usando DIALIGN [55]. A árvore filogenética neutra dos genomas de mamíferos foi construída eliminando nós que não estavam presentes em nosso estudo da árvore fornecida por Cooper et al. [34]. A taxa média neutra de substituição para os genomas de mamíferos incluídos na análise foi considerada como 1,93 substituições por base. Semphy [56] foi usado pelo GERP para calcular a taxa observada de divergência em uma base base a base. A pontuação para divergência evolutiva foi calculada como pontuação GERP = Taxa observada - Taxa esperada. Cerca de 15.000 genes que tinham ortólogos em 4 ou mais genomas de mamíferos foram submetidos à análise GERP.

Medimos a pontuação GERP média para todos os nucleotídeos de codificação para cada categoria funcional e avaliamos usando a análise FRED se esses valores diferem significativamente entre os grupos funcionais (Figura S5 no arquivo de dados adicionais 1).

Taxas de substituição não sinônimas: dN

Os dados de dN para os genes foram retirados de Ensembl-Compara v45 [49]. Calculamos a correlação entre dN e CS para ortólogos de genes humanos em camundongos (16.040 genes) e ratos (14.726 genes) (Figura S6 no arquivo de dados adicionais 1). Nós avaliamos usando a análise FRED se os valores de dN para humano-camundongo e humano-rato diferem significativamente entre os grupos funcionais (Figura S5 no arquivo de dados adicionais 1).


Assista o vídeo: Ekologiczny dom - bajka edukacyjna (Dezembro 2021).