Em formação

3.2.9: Revisão - Biologia


Resumo

Depois de concluir este capítulo, você deve ser capaz de ...

  • Descreva a biodiversidade como o equilíbrio das taxas de extinção e especiação naturalmente flutuantes.
  • Resuma as causas potenciais de extinções em massa e a perda de biodiversidade associada.
  • Compare a taxa atual de extinção com a taxa de extinção de fundo.
  • Descreva as causas e consequências da sexta extinção em massa.
  • Descreva como a perda de biodiversidade é medida.
  • Distinguir entre as categorias da Lista Vermelha.
  • Cite, defina e forneça exemplos das cinco principais ameaças à biodiversidade.
  • Forneça exemplos de sucessos e fracassos do controle biológico na regulação de espécies invasoras.

Cinco extinções em massa com perdas de mais de 50 por cento das espécies existentes são observáveis ​​no registro fóssil. o sexta extinção em massa está atualmente em andamento com taxas de extinção atuais muito maiores do que o taxa de extinção de fundo.

As principais ameaças à biodiversidade são o crescimento da população humana e o uso insustentável de recursos. São eles: perda de habitat, superexploração, poluição, espécies invasoras e mudanças climáticas. Perda de habitat ocorre por meio de desmatamento, represamento de rios e outras atividades. Água e ar poluição introduzir substâncias tóxicas no meio ambiente que prejudicam plantas e animais. Super exploração é uma ameaça especialmente para as espécies aquáticas, mas a caça furtiva de animais terrestres e a coleta excessiva de plantas e fungos também colocam as espécies em risco. Espécies invasivas têm sido a causa de uma série de extinções e são especialmente prejudiciais para ilhas e lagos. Das Alterações Climáticas está forçando mudanças de alcance que podem levar à extinção. Também está afetando as adaptações ao tempo de disponibilidade de recursos que afetam negativamente as espécies em ambientes sazonais. A mudança climática também aumentará o nível do mar, eliminando algumas ilhas e reduzindo a área de todas as outras.


3.2.9: Revisão - Biologia

Instrutor: Professor Junping Shi

Capítulo 1: Derivação de equações de reação-difusão (18 páginas)
Capítulo 2: Equação de difusão em um domínio limitado (22 páginas)
Capítulo 3: Difusão com fonte pontual
Capítulo 4: Equações de difusão de reação escalar não lineares
Capítulo 5: Sistemas de difusão de reação

1/19 Introdução - Aula 1
1/24 Revisão de cálculo, revisão de modelos básicos de população Aula 2
1/26 Não dimensionalização, derivação de modelos de reação-difusão
Aula 3
2/9 Movimento browniano e difusão (Paul Dunlap)
Artigo 2/16 de Fisher de 1937 (Ryan Carpenter)
2/21 Equação de difusão não linear (Daniel Grady)
Artigo 2/23 de Skellam de 1953 (Patrick Lucey)
2/28 Uma solução aproximada para a equação de Fisher em alta dimensão (Fumie Hirata)
2/28 Solução exata de onda viajante para a equação de difusão com efeito Allee (Tina Little)
3/21 Evolução e dispersão de genes, equação de Fisher Aula 4 (powerpoint)
3/30 Estabilidade em sistemas dinâmicos e instabilidade de Turing Aula 5
4/4 Instabilidade e bifurcação de Turing Aula 6 Padrões de Turing em casacos de animais
4/6 Quimiotaxia e modelo de bolor limoso
Aula 7
4/11
Uma equação de reação-advecção-difusão da mistura química caótica. Aula 8
4/13 Soluções periódicas de sistemas Aula 9

Trabalho de casa
([S] são as notas de aula de Shi, [B] é o livro de Britton)

Lição de casa 1 (vencimento em 31/01, terça-feira): [B] página 15 (1.6, 1.8), [S] Capítulo 1 (1,2,3,4,10)
Lição de casa 2 (vencimento em 8/2, quarta-feira): [B] página 153 (5.5,5.7) [S] Capítulo 1 (8,9,13) Capítulo 2 (2,4,5)
Lição de casa 3 (vencimento em 15/2, quarta-feira): [S] Capítulo 2 (7 (você pode usar o resultado de 6), 12,14)
Procedimento 4 (vencimento em 22/2, quarta-feira): [B] página 158 (5.9, 5.11) e os seguintes problemas:
(1) Encontre uma onda viajante exata da equação u_t = D u_+ ku (1-u ^ m), onde D & gt0, k & gt0 e m & gt0.
(Dica: use Maple, e a forma da solução é u (x, t) = v (x-ct), v (z) = 1 / (1 + exp (az)) ^ <2 / m>
(2) (opcional, não sei a resposta ou se existe uma resposta)
Encontre uma onda de viagem exata da equação u_t = D u_+ ku ^ m (1-u), onde D & gt0, k & gt0 e m & gt1.
(Dica: use Maple, e talvez também a mesma forma acima, mas não tenho solução para este)
Trabalho de casa 5 (vencimento em 29/3, quarta-feira)
(1) [S] Capítulo 4 (5) Você não precisa escrever o código Maple real, mas escrever o "código psedo" que reflete as condições de contorno de Robin.
(2) [S] Capítulo 4 (11) (Dica: use Maple para resolver u_2)

Projetos / Apresentações

  1. Equação de difusão do movimento browniano (artigo original de Robert Brown em 1827, artigo (e tradução para o inglês) de Albert Einstein em 1905, notas de aula do curso aberto do MIT, ver Aula 1 lá)
  2. Transformada de Fourier em equação de difusão e música (http://www.mathreference.com/la-xf-four,intro.html)
  3. Fisher, RA 1937 A onda de avanço de genes vantajosos. Annals of Eugenics, 7: 355-369 (papel)
  4. Derive animal aggreration model (artigo de Turchin: Population Consequences of Aggregative Movement. Journal of Animal Ecology 58, (1989), 75-100.)
  5. Solution of porous media equation (página 339-343, Elements of Mathematical Ecology. Por Mark Kot, Cambridge University Press, (2001) página 402-405, Mathematical Biology, Vol. 1: An Introduction. Por James Dickson Murray, Springer-Verlag , Nova York, (2002).)
  6. Skellam, JG, 1951 Dispersão aleatória em populações teóricas, Biometrika (papel)
  7. Autofunções do Laplaciano para bolas em 2-d e 3-d
  8. Derive a solução analítica da equação logística difusiva com fonte pontual (S. Puri, K. R. Elder e R. C. Desai, Soluções assintóticas aproximadas para a equação de Fisher d-Dimensional, Phys. Lett. UMA, 142, 357 (1989).) Artigo da biblioteca de física
  9. Derive a solução analítica da solução de onda viajante da equação logística difusiva (equação de Fisher com difusão dependente da densidade: soluções especiais, artigo de S Harris 2004 J. Phys. A 37 6267-6268)
  10. Derive a solução exata de um modelo populacional com migração dependente da densidade e efeito Allee (Petrovskii, Sergei Li, Bai-Lian, Um modelo exatamente solucionável da dinâmica populacional com migrações dependentes da densidade e o efeito Allee. Matemática. Biosci.186 (2003), no. 1, 79-91. papel)
  11. Janet Raloff, Pescando respostas: redes de arrasto profundas deixam destruição em seu rastro - mas por quanto tempo? Science News, 150 (1996) 268--271. (Seção 16 de Taubes, Modeling Differential Equations in Biology, 2000, página 246-257)
  1. Derive e resolva Black-ScholesPDE em finanças. ( P. Dunlap)
  2. Modelagem de tumor ([B] Capítulo 8) (M. Zuk)
  3. Quimiotaxia ([B] 5.3 e 7.6 e outros)
  4. Derive e analise a equação de FitzHugh-Nagumo ([B] 6.4 e outros) . (P. Lucey)
  5. Onda itinerante em modelos de epidemia ([B] Capítulo 3 e 5.7 e outros)
  6. Onda viajante em ambiente periódico
  7. Reação-difusão em ambiente heterogêneo (diferentes taxas de difusão correspondentes à qualidade do habitat)
  8. A invasão e a evolução da velocidade nos sapos-cururus australianos (artigo da Nature de 16 de fevereiro de 2006) (D. Bigelow)
  9. Padrões regulares e irregulares na vegetação semiárida (artigo de Klausmeier, Science, Vol. 284, 1826--1828, 1999) (D. LaMontagne)
  10. Diversidade de padrões de vegetação e desertificação (artigo de von Hardenberg, et.al. Phys. Rev. Let, 198101, 2001) (T. Little)
  11. Uma equação de reação-advecção-difusão da mistura química caótica (artigo de Neufeld, et al, Chaos, Vol 12, 426-438, 2002, artigo de Menon, et al, Phys. Rev. E. Vol 71, 066201, 2005, e pré-impressão pelo Prof. Shi)
  12. Bifurcação e solução periódica em sistemas de reação-difusão da interação predador-presa
  13. Reações químicas autocatalíticas (artigo de Rovinsky et al. Phys Rev A, Vol 46, 6315-6322, 1992, artigo de Horvath, et.al, 1997) (R. Carpenter)
  14. Equação diferencial-Integro com crescimento logístico a partir do crescimento populacional
  15. Equação logística não local (artigo de Schnerb, Phys. Rev. E Vol 69, 061917 (2004), artigo de Fuentes, et al Phys. Rev. Lett. 91, 158104 (2003))
  16. Sincronização em modelos de reação-difusão de condução neural. (L. Osborne)
  17. Soluções de tipo de onda para a equação de Fisher em dimensões superiores. (F. Hirata)
  18. Métodos numéricos de equações e sistemas de reação-difusão

Programas Maple e Matlab

Gráficos 3-d: Demonstrar comandos Maple para gráficos 3-d
Tarefa de casa 1: resposta da tarefa de casa 1 (prob 1-3) e resolver equações diferenciais
Série de Fourier de uma solução de equação de difusão: demonstrar o efeito sufocante da difusão
Equações diferenciais: demonstram como resolver o problema do valor inicial, o problema do valor limite de ODE e PDE
Condições de limite e efeito de suavização Demonstram o efeito de diferentes condições de limite e o efeito de suavização de difusão
Problema químico: mostre como resolver o problema de mistura química
Condição de limite de Robin: cálculo de autovalores de limite de Robin e tamanho do patch crítico
Modelo difusivo de Malthus: mostra o efeito de diferentes taxas de crescimento sobre o destino da população que vive em uma região delimitada
Padrões de autofunção em 2-d: padrões espaciais de autofunções de Laplaciano em um quadrado
Difusão com uma fonte pontual: simulação das soluções fundamentais em 1-d e 2-d
Difusão com uma fonte contínua: simulação da solução da equação de difusão em uma meia linha com valor fixo em x = 0
Problema de derramamento de combustível: resolva o problema de derramamento de combustível na Seção 3.3
Dispersão de rato almiscareiro: use a função de ajuste de dados para coincidir com o crescimento da população de rato almiscarado
Onda viajante da equação de Fisher: mostra uma solução exata da onda viajante da equação de Fisher
Onda progressiva da equação de Fisher generalizada:
calcular uma solução exata de onda viajante da equação de Fisher generalizada
u_t = D u_+ ku (1-u ^ m), onde D & gt0, k & gt0 e m & gt0.

Solução auto-semelhante de equação de difusão: calcule as soluções auto-semelhantes de equações de difusão lineares e não lineares
Problema da mariposa cigana: calcular a velocidade de invasão da mariposa cigana no leste dos Estados Unidos

Equações de diferença para evolução do gene prog1 prog2

Programas Matlab que simulam equações e sistemas R-D:
Programas por Marcus Garvie (Florida State University)
Programas por
Julijana Gjorgjieva (Harvey Mudd College)

Livros de referência em biologia matemática

    • Mathematical Biology, Vol. 1: Uma introdução. Por James Dickson Murray, Springer-Verlag, Nova York, (2002).
    • Mathematical Biology, Vol. 2: Modelos Espaciais e Aplicações Biomédicas. Por James Dickson Murray, Springer-Verlag, Nova York, (2002).
    • Modelos Matemáticos em Biologia. Por Leah Edelstein-Keshet, McGraw-Hill, Boston, (1988). SIAM, (2005).
    • Elementos de Ecologia Matemática. Por Mark Kot, Cambridge University Press, (2001).
    • Difusão e problemas ecológicos: perspectivas modernas. Por Akira Okubo, Simon A. Levin, Springer-Verlag, New York, (2001).
    • Análise Quantitativa do Movimento: Medindo e Modelando a Redistribuição da População em Animais e Plantas. Por Peter Turchin, Sinauer Associates, Inc, (1998).

    Modelagem de Sistemas Biológicos, Um workshop na National Science Foundation em 1996

    Por que a biologia matemática é tão difícil? Michael C. Reed, Notices of American Mathematical Society, março de 2004.

    Desafios matemáticos em ecologia espacial Claudia Neuhauser, Notices of American Mathematical Society, dezembro de 2001.

    We Got Rhythm: Sistemas Dinâmicos do Sistema Nervoso Nancy Kopell, Notices of American Mathematical Society, janeiro de 2000.

    Introdução à Biologia Matemática Frank Hoppensteadt, Notices of American Mathematical Society, setembro de 1995.

    Alguns conselhos para jovens biólogos matemáticos Kenneth Lange, (da Internet), data desconhecida.

    Como o leopardo consegue suas manchas? James Murray, Scientific American, 258 (3): 80-87, 1988.


    2. Comprimento do manuscrito

    Artigos de pesquisa e Artigos de ferramentas e recursos: o comprimento total do artigo não deve exceder 8.000 palavras, incluindo o texto principal e legendas das figuras, mas não a página de título, resumo, seção de materiais e métodos ou lista de referências (citações de referências no texto contam para o limite de palavras). O número total de itens de exibição (Figuras e Tabelas) não deve exceder oito (8).

    Relatórios curtos: o comprimento total do artigo não deve exceder 3000 palavras, incluindo o texto principal e legendas das figuras, mas não a página de título, resumo, seção de materiais e métodos ou referências (citações de referências no texto contam para o limite de palavras). O número total de itens de exibição (Figuras e Tabelas) não deve exceder quatro (4).

    Observe que os limites da palavra final dependerão do artigo submetido e ficam a critério dos Editores.


    Resultados e discussão

    Nas seções subsequentes, demonstramos EVM como uma ferramenta automatizada de anotação de estrutura gênica usando sequências de arroz e genoma humano e evidências relacionadas. Primeiro, usando o genoma do arroz, desenvolvemos os conceitos que fundamentam o algoritmo de EVM como uma ferramenta que incorpora evidências ponderadas em previsões de estrutura gênica de consenso. Em seguida, voltamos nossa atenção para o genoma humano, no qual examinamos o papel de EVM em conjunto com PASA para anotar genes codificadores de proteínas e isoformas de splicing alternativo automaticamente. Em cada cenário, incluímos comparações com métodos de anotação alternativos.

    Avaliação de ab initiopredição de genes em arroz

    A precisão da predição para cada um dos três programas Fgenesh [5], GlimmerHMM [4] e GeneMark.hmm [6] foi avaliada usando um conjunto de 1.058 estruturas de genes de referência verificados por cDNA. Todos os três foram quase equivalentes em sua precisão de predição de exon (cerca de 78% de sensibilidade de exon [eSn] e 72% a 79% de especificidade de exon [eSp]) e precisão de predição de gene completa (22% a 25% de sensibilidade de gene [gSn] e 15 % a 21% da especificidade do gene [gSp] Figura 1). A análise da precisão da predição por cada um dos quatro tipos de exon indica que todos os preditores de genes se destacam em predizer exons internos corretamente (cerca de 85% eSn) enquanto prediz exons iniciais, terminais e únicos com menos precisão (44% a 68% eSn Figura 2) .

    Arroz Ab initio precisão de predição de gene. As precisões de predição do gene são mostradas para GeneMark.hmm, Fgenesh e GlimmerHMM ab initio predições de genes com base em uma avaliação de 1058 estruturas de genes de arroz de referência verificadas por cDNA. A precisão das previsões de consenso EVidenceModeler (EVM) da combinação de todos os três ab initio previsões usando pesos iguais (peso = 1 para cada) também são fornecidas.

    Ab initio sensibilidade de predição por tipo de exon. Individual ab initio sensibilidades de predição de exon com base em comparações com 1.058 estruturas de referência do gene do arroz são mostradas para cada um dos quatro tipos de exon: inicial, interno, terminal e único. Os resultados são apresentados adicionalmente para previsões de consenso EVidenceModeler (EVM), onde o ab initio as previsões foram combinadas usando pesos iguais.

    Embora cada preditor de gene exiba um nível semelhante de precisão, eles diferem muito nas estruturas individuais dos genes que cada um prevê corretamente. Os diagramas de Venn fornecidos na Figura 3 revelam a variabilidade entre os genes e exons previstos corretamente pelos três programas. Embora cada programa preveja até 25% dos genes de referência perfeitamente, apenas cerca de um quarto deles (6,2%) foram identificados pelos três programas simultaneamente. É também notável que mais da metade (54%) dos genes verificados por cDNA não são previstos corretamente por nenhum dos preditores de genes avaliados. No nível do exon individual, há muito mais concordância entre as previsões, com 60,5% dos exons previstos corretamente pelos três programas. Apenas 7,1% dos exões não são previstos corretamente por qualquer um dos três programas. Os diagramas de Venn indicam uma consistência geral muito maior entre as previsões de exon interno, correlacionada com a precisão de predição de exon interno inerentemente alta, em comparação com a maior variabilidade e menor precisão de predição entre outros tipos de exon. Uma proporção relativamente maior dos tipos de exon único (22,1%), inicial (14,4%) e terminal (13,9%) encontrados em nossos genes de referência estão completamente ausentes do conjunto de exons previstos.

    Diagramas de Venn contrastando componentes da estrutura do gene do arroz corretamente previstos por ab initio localizadores de genes. As porcentagens são mostradas para a fração de 1.058 genes de arroz verificados por cDNA e componentes da estrutura do gene que foram previstos corretamente por cada ab initio preditor de gene. Os componentes da estrutura do gene verificados pelo cDNA consistem em 7.438 exões totais: 86 únicos, 5408 internos, 972 iniciais e 972 terminais.

    Consenso ab initioprecisão de predição de exon

    Embora haja um desacordo considerável entre as chamadas de exons entre os vários preditores de genes, quando vários programas chamam exons de forma idêntica, eles tendem com mais frequência a estar corretos. A Figura 4 mostra que, ao restringir a análise apenas aos exons que são preditos de forma idêntica por dois programas, a especificidade da predição do exon salta para 94% de acertos, independentemente dos dois programas escolhidos. A especificidade da predição de exons aumenta para 97% se considerarmos apenas os exons que são preditos de forma idêntica por todos os três programas. Observe que, embora a especificidade melhore para uma precisão quase perfeita, a sensibilidade de predição cai de 78% para 60%. Embora não possamos confiar em exons compartilhados para prever todos os genes corretamente, podemos, nesta circunstância, confiar naqueles que são compartilhados com maior segurança. EVM usa essa especificidade aumentada fornecida por acordo de consenso entre evidências para componentes da estrutura do gene e relata esses componentes específicos como parte de estruturas genéticas completas maiores ao mesmo tempo, EVM usa outras linhas de evidência para manter um alto nível de sensibilidade.

    A precisão da predição de exon é limitada a chamadas de exon completas de consenso. A sensibilidade do exon (eSn) e a especificidade do exon (eSp) foram determinadas comparando ab initio exões previstos. Os exons eram restritos àqueles perfeitamente combinados por dois ou três preditores de genes diferentes. Apenas os exons previstos encontrados dentro de 500 pares de bases flanqueando as 1.058 estruturas de genes de referência foram considerados para os cálculos de especificidade.

    Predição de gene de consenso por EVM

    Ao contrário do convencional ab initio preditores de genes que usam apenas a composição da sequência do genoma, EVM constrói estruturas de genes combinando evidências derivadas de fontes secundárias, incluindo múltiplas ab initio preditores de genes e várias formas de homologias de sequência. Em resumo, EVM decompõe várias previsões de genes e alinhamentos de proteínas e transcritos em um conjunto de componentes não redundantes da estrutura do gene: éxons e íntrons. Cada exon e intron é pontuado com base no peso (valor numérico associado) e a abundância das regiões genômicas de evidência de suporte correspondentes às localizações intergênicas previstas também são pontuadas em conformidade. O exon e os íntrons são usados ​​para formar um gráfico, e o caminho de pontuação mais alto no gráfico é usado para criar um conjunto de estruturas de genes e regiões intergênicas correspondentes (Figura 5, consulte Materiais e métodos, abaixo, para obter detalhes completos). Por causa do sistema de pontuação empregado pelo EVM, estruturas gênicas com pequenas diferenças, como pequenas variações nos limites do íntron, podem produzir pontuações muito diferentes. Por exemplo, um íntron suportado por cDNA que é apenas três nucleotídeos deslocados de um ab initio O íntron predito pode ter uma pontuação extraordinariamente alta em comparação com o intron predito, embora difiram apenas ligeiramente no conteúdo. Da mesma forma, um íntron que é totalmente suportado por múltiplos alinhamentos de proteínas de splicing será pontuado mais alto do que um intron alternativo de comprimento semelhante produzido por apenas um único alinhamento de proteína de peso semelhante. Desta forma, EVM usa a abundância e o peso das várias evidências para pontuar os componentes da estrutura do gene de forma adequada para promover sua seleção dentro da anotação do genoma de consenso ponderado resultante.

    Predição de estrutura gênica de consenso por EVM. Os principais aspectos do algoritmo de geração de previsão de consenso ponderado EVidenceModeler (EVM) são descritos aqui, exemplificados com uma região de 7 quilobases do genoma do arroz. A vista superior ilustra uma visão do estilo do navegador do genoma, mostrando o ab initio predições de genes GlimmerHMM, Fgenesh e GeneMark.hmm, alinhamentos emendados AAT-gap2 de outras marcações de sequência expressa de planta (ESTs), programa para montar conjuntos de alinhamentos emendados (PASA) de alinhamentos de EST de arroz e cDNA de comprimento total (FL-cDNA), Alinhamentos emendados AAT-nap de proteínas não-arroz e previsões baseadas em homologia de proteínas GeneWise. As evidências das fitas superior e inferior são separadas pelo marcador de sequência. A evidência é desmontada em íntrons candidatos e exons Os exons candidatos são mostrados no contexto das seis estruturas de leitura possíveis na parte inferior da figura. Uma codificação, um íntron e um vetor de pontuação intergênica são mostradas com pontuações específicas de características (consulte Materiais e métodos) foram adicionadas aos vetores correspondentes aqui apenas para fins de ilustração, e observe que todos os íntrons têm pontuações específicas de características. A seleção de exons, íntrons e regiões intergênicas que definem o caminho de pontuação mais alto é mostrada pelas conexões entre recursos de exon dentro da partição de recurso de seis quadros. Este caminho de pontuação mais alto produz duas estruturas gênicas completas, mostradas como uma camada EVM no topo, correspondendo aos genes de arroz conhecidos (esquerda) LOC_Os03g15860 (proteína transportadora de membrana peroxissômica) e (direita) LOC_Os03g15870 (proteína ribossômica 50S L4, precursor do cloroplasto).

    Para demonstrar a aplicação mais simples do EVM, combinamos apenas os três ab initio predições de genes e pondera cada tipo de predição igualmente. As Figuras 1 e 2 mostram os resultados em comparação com o ab initio precisão de predição, demonstramos que, ao incorporar exons e íntrons compartilhados em estruturas de genes de consenso, a precisão de predição de gene completa é melhorada em pelo menos 10%. A precisão da predição de exon é aumentada em cerca de 6%, e as precisões de predição de exon para cada tipo de exon são melhoradas, com exceção do tipo de exon inicial, para o qual GeneMark.hmm sozinho é ligeiramente superior.

    Precisão de predição de gene de consenso usando vários tipos de evidências e pesos associados

    Um consenso da estrutura do gene calculado pelo EVM é baseado nos tipos de evidências disponíveis e seus valores de peso correspondentes. No exemplo acima, cada tipo de evidência fornecido na forma de ab initio as previsões do gene foram ponderadas de forma idêntica. No caso em que cada tipo de previsão é equivalente em precisão, isso pode ser suficiente, mas quando um tipo de evidência é mais preciso, espera-se que um peso maior aplicado a essa evidência conduza o consenso em direção a uma maior precisão de previsão. A Figura 6 ilustra o impacto de combinações de pesos variados e fontes de evidência na sensibilidade completa de predição de exon e estrutura do gene. No primeiro conjunto (iterações 1 a 10), apenas os três ab initio as previsões do gene são combinadas usando pesos aleatórios. A precisão da previsão varia de 22% a 38% gSn e 77% a 84% eSn. No segundo conjunto (iterações 11 a 20), homologias de sequência são adicionalmente incluídas na forma de alinhamentos de proteínas emendados (usando nap de AAT), alinhamentos emendados de ESTs derivados de outras plantas (usando gap2 de AAT) e homologia de proteínas GeneWise com base em previsões de genes. Lá, a precisão da previsão completa varia de 44% a 62% gSn e 88% a 92% eSn. No terceiro e último conjunto (iterações 21 a 30), conjuntos de alinhamento PASA derivados de alinhamentos de transcritos de arroz foram incluídos, a partir dos quais um subconjunto define a estrutura correta do gene. Na presença de nossas melhores evidências e pesos definidos aleatoriamente, a precisão da predição varia de 75% a 96% gSn e 95% a 99% eSn.

    Resposta da precisão da predição de EVM a vários tipos e pesos de evidência. Iterações (30) de tipos de evidências ponderadas aleatoriamente foram avaliadas por EVidenceModeler (EVM). As iterações 1 a 10 incluíram apenas o ab initio preditores GlimmerHMM, Fgenesh e GeneMark.hmm. As iterações 11 a 20 incluem, adicionalmente, alinhamentos AAT-nap de proteínas não-ricas, previsões GeneWise com base em homologias de proteínas não-ricas e alinhamentos AAT-gap2 de outros marcadores de sequência expressos em plantas. As iterações 21 a 30 incluíam conjuntos de alinhamento de programa para montar alinhamentos emendados (PASA) e o suplemento correspondente de exons terminais baseados em estrutura de leitura aberta longa (ORF) da PASA. Os valores de sensibilidade de predição de exon e gene completo resultantes de EVM usando as combinações de peso correspondentes são plotados abaixo.

    Embora isso represente apenas um número mínimo de combinações de peso aleatórias possíveis, ele demonstra o efeito das configurações de peso e a inclusão de diferentes tipos de evidência em nossa precisão de previsão de consenso. Ao incluir evidências com base na homologia de sequência, nossa precisão de previsão melhora muito, dobrando para triplicar a precisão de previsão de gene completo de ab initio programas isolados ou em combinação. Além disso, configurações de peso muito diferentes ainda podem levar a níveis semelhantes de desempenho, particularmente na presença de dados de homologia de sequência.

    Precisão de previsão de consenso EVM usando pesos de evidência treinados

    Dada a variabilidade na precisão da previsão de consenso do gene observada usando diferentes combinações de valores de peso, encontrar a única combinação de pesos que fornece a melhor precisão de previsão de consenso é uma meta importante. Pesquisar todas as combinações de peso possíveis para encontrar a melhor combinação de pontuação única não é tratável, dado o esforço computacional necessário para explorar um espaço de pesquisa tão vasto. Para estimar um conjunto de pesos de pontuação elevados, empregamos um conjunto de heurísticas que usam combinações de peso aleatórias seguidas por gradiente ascendente (consulte Materiais e métodos, abaixo). Com o propósito de escolher pesos de alto desempenho e avaliar sua precisão, selecionamos 1.000 de nossas estruturas gênicas verificadas por cDNA e usamos metade para estimar pesos e a outra metade para avaliar a precisão usando esses pesos (doravante denominados 'pesos treinados'). Em ambos os processos de treinamento e avaliação, as estatísticas de precisão foram limitadas a cada gene de referência e flanqueando 500 pares de bases (bp). No entanto, EVM foi aplicado a regiões do genoma do arroz, incluindo a região de 30 quilobases (kb) que flanqueia cada gene de referência, para emular a predição do gene por EVM em um contexto genômico mais amplo.

    Como o treinamento de EVM não é determinístico e cada tentativa de treinamento pode resultar em um conjunto diferente de pesos de alta pontuação, realizamos o processo de treinamento e avaliação de EVM nos conjuntos de dados de arroz três vezes separadamente. Os valores de peso treinados calculados por cada processo de treinamento são fornecidos no arquivo de dados adicionais 2 (Tabela S1), e a precisão da predição do gene de consenso produzida durante cada avaliação é fornecida no arquivo de dados adicionais 2 (Tabela S2). A precisão média da previsão do gene é fornecida na Figura 7. Neste conjunto de 500 genes de referência, o exon médio e as precisões completas da previsão do gene para o ab initio os preditores são semelhantes aos calculados anteriormente para o conjunto completo maior de 1.058 genes verificados por cDNA. EVM aplicado ao ab initio as previsões sozinhas usando pesos otimizados renderam 38% gSn e 34% gSp, aproximadamente 10% melhor do que o melhor correspondente ab initio precisão. Ao incluir os tipos de evidências adicionais na forma de homologias de proteína ou EST de forma independente, a sensibilidade de predição de gene completa aumenta para 49% a 56% gSn e 44% a 50% gSp. Usando todas as evidências menos os dados PASA, a sensibilidade completa do gene atinge 62% gSn e 56% gSp. Observe que cada ganho na sensibilidade é acompanhado por um ganho na especificidade, indicando melhorias gerais na precisão da previsão do gene.

    Precisão da predição do gene consenso do arroz usando pesos de evidência otimizados. A precisão da predição do gene para EVidenceModeler (EVM) foi calculada no nível de nucleotídeo, exon e gene completo usando pesos treinados e conjuntos específicos de evidências, aplicados a 500 das estruturas do gene de arroz de referência. A evidência avaliada é descrita como segue: EVM: GF inclui ab initio predições de gene (GF) sozinho EVM: GF + gap2 inclui GF mais os alinhamentos AAT-gap2 de outras marcas de sequência expressa em planta (gap2) EVM: GF + nap inclui GF mais alinhamentos AAT-nap de proteínas não-arroz (nap) EVM: GF + GeneWise inclui GF mais as previsões GeneWise com base em homologias de proteínas não-ricas (GeneWise) EVM: ALL (-PASA) inclui GF, nap, gap2 e GeneWise EVM: ALL (+ PASA) inclui adicionalmente o alinhamento do Programa para Montar Alinhamentos Splicados (PASA) conjuntos e suplemento de exon de terminal baseado em estrutura de leitura longa aberta (ORF) PASA. Sn, sensibilidade Sp, especificidade.

    Pesos intuitivos versus treinados

    Embora possamos resolver computacionalmente o problema de encontrar um conjunto de pesos que produza um desempenho ideal, está claro em nossa análise de pesos selecionados aleatoriamente que pode haver várias combinações de pesos que fornecem uma precisão razoável. Em geral, descobrimos que as combinações de ponderações atribuídas na forma a seguir fornecem precisão de previsão de consenso adequada:

    (ab initio previsões) ≤ (alinhamentos de proteínas, alinhamentos de EST) & lt (GeneWise) & lt (PASA)

    Usando essa combinação de peso (previsões de genes = 0,3, proteínas e outros ESTs de plantas = 1, GeneWise = 5, PASA = 10), descobrimos que nosso exon de consenso e a precisão de previsão completa do gene são bastante comparáveis, com nossos pesos intuitivos fornecendo níveis de desempenho que, na maioria dos casos, são apenas ligeiramente inferiores aos de nossos pesos treinados (arquivo de dados adicionais 1 [Figura S1]). Em cada caso, as medições de precisão com configurações de peso intuitivas estavam dentro de 3% dos resultados dos pesos treinados. A capacidade de ajustar os pesos de evidência do EVM intuitivamente fornece uma flexibilidade que não é tão facilmente oferecida pelos sistemas de software atuais com base em uma estrutura probabilística estrita.

    EVM versus ferramentas de anotação alternativas: Glean e JIGSAW

    A precisão do EVM foi comparada com a de ferramentas de anotação automatizadas do tipo combinador concorrentes usando Glean e JIGSAW. As distribuições de software Glean e JIGSAW publicamente disponíveis foram baixadas e executadas usando configurações de parâmetro padrão. Treinamos o JIGSAW usando conjuntos de dados idênticos aos fornecidos para EVM, usando os 500 genes de referência e evidências associadas para treinamento e os 500 genes separados e evidências para avaliação. O treinamento não supervisionado de Glean é fortemente acoplado ao algoritmo de predição, e assim Glean foi executado em todo o conjunto de 1.000 genes e evidências associadas, com a metade apropriada usada para fins de avaliação. As precisões de predição de exon e gene completo são mostradas na Figura 8. Cada combinador de evidência demonstra melhorias substanciais na precisão na presença de evidência de homologia de sequência. EVM se sai bem neste confronto combinador e, na maioria dos casos, fornece a maior precisão de previsão das três ferramentas analisadas.

    Precisão do EVM em comparação com Glean e JIGSAW. Ambos JIGSAW e Glean foram treinados e avaliados nos dados do genoma do arroz, e as precisões foram comparadas com as do EVidenceModeler (EVM). Os pesos treinados utilizados pelo EVM são fornecidos no Arquivo Adicional 2 (Tabela S3). PASA, Program to Assemble Spliced ​​Alignments Sn, sensibilidade Sp, especificidade.

    A precisão da previsão entre JIGSAW e EVM é surpreendentemente semelhante para dois dos cenários de combinação de evidências examinados: combinação de previsões de genes com outros alinhamentos EST de plantas (gap2) e quando todos os dados de alinhamento são incluídos menos a evidência de arroz PASA (todos). Examinamos ainda o último caso, no qual JIGSAW e EVM previram mais de 60% dos genes completos com precisão, para determinar a similaridade de suas previsões de genes. Dos 500 genes de referência testados, existem 310 previsões geradas de forma idêntica entre EVM e JIGSAW, das quais 260 estavam corretas. Portanto, embora suas precisões de previsão possam ser surpreendentemente semelhantes, em geral as estruturas gênicas previstas são bastante diferentes.

    Um ponto forte do EVM é sua capacidade de utilizar formas de evidência altamente confiáveis, como estruturas genéticas inferidas de alinhamentos de FL-cDNAs e ESTs cognatos. Each of the three programs were trained in the presence of cDNA-supported gene structures as provided by PASA (long open reading frame [ORF] structures within PASA alignment assemblies), a subset of that defines a correct gene structure (see Materials and methods, below). All three tools demonstrated the greatest prediction accuracy in the presence of PASA evidence. Although each tool is effectively provided with evidence containing all complete introns and exons that define the correct gene structure, only EVM is found to be capable of nearly perfect prediction accuracy. Of the 500 evaluated reference genes, EVM predicted only six incorrectly when supplied with PASA evidence along with the competing evidence types (ab initio predictions, and protein and other plant EST alignments). These six incorrect predictions involved three cases in which neighboring genes were merged into single predictions, two cases in which improper gene termini were chosen, and a single case that was confounded by a large degenerate retrotransposon insertion within an intron of a gene, an element that was not masked and excluded from the gene prediction effort.

    Comparison with manual annotation

    It is expected and reassuring that EVM provides nearly perfect complete gene accuracy in the presence of high quality and reliable complete gene structure data, as provided in the form of the PASA alignment assemblies. The importance of such ESTs and FL-cDNAs for gene structure annotation is well known [42–45], and software such as PASA can annotate gene structures based solely on these data in absence of pre-existing gene annotations or ab initio gene predictions [33]. A greater challenge is to achieve maximal consensus gene prediction accuracy in the absence of these data, which is the typical scenario with newly sequenced genomes that lack extensive EST or FL-cDNA sequences as companion resources. In such cases we must rely on the accuracy of ab initio gene predictors and homologies to sequences from other organisms, and it is here that, in lieu of an equivalent automated annotation method, we expect to have the greatest gains from expert scientists directly evaluating and modeling complete gene structures based on these sources of evidence.

    In our application of EVM thus far, the relevant set of input evidence is that which contains the ab initio gene predictions, protein alignments, GeneWise predictions based on protein homology, and the alignments to ESTs derived from other plants (Figure 7 entry 'EVM:All(-PASA)', read as EVM with all evidence minus PASA evidence). Using trained weights, EVM correctly predicted 92% of the known exons and 62% of the 500 cDNA-verified genes correctly, on average. If the subset of the native cDNA data that defines the correct gene structure is not supplied as evidence, and if components of such known gene structures are not available as candidate introns and exons, then EVM will be unable to predict the gene correctly. In an effort to establish the upper limit of gene prediction accuracy in the absence of cDNA evidence, we propose use of the accuracy of manual annotation on the same dataset. The accuracy of human annotation has never been adequately measured, although it is widely assumed that human annotation is the 'gold standard' for genome projects. For our study, a set of human annotators was asked to evaluate these data in absence of cognate rice cDNA alignments, and were instructed to model a gene structure manually that best reflected the available evidence. In absence of the rice cDNAs, manual annotation accuracy resulted in 96% eSn and 96% eSp, and 81% gSN and 81% gSP (Figure 7). In light of these statistics, we consider the accuracy provided by EVM on the identical dataset to be demonstrably effective as an automated annotation system, and approaching the better accuracy obtained through manual curation efforts, particularly when compared with the accuracy of individual ab initio gene predictors on the same dataset.

    Application of EVM and PASA to the ENCODE regions of the human genome

    The ENCyclopedia of DNA Elements (ENCODE) project was initiated shortly after the sequencing of the human genome with the aim being to identify all functional elements, including all protein-coding genes, in the human genome sequence [46]. The pilot phase of the project focused on only 1% (about 30 megabases spread across 44 regions) of the genome, termed the ENCODE regions. The GENCODE (encyclopedia of genes and genes variants) consortium was formed to provide high quality manual annotation and experimental verification of protein coding genes in these regions [47]. The human ENCODE Genome Annotation Assessment Project (EGASP) was established to evaluate the accuracy of automated genome annotation methods by comparing automated annotations of the ENCODE regions with the GENCODE annotations [10]. Participants in the EGASP competition were allowed access to 13 ENCODE regions along with their corresponding GENCODE annotations, which could be used for training purposes. Groups submitted their automated annotations for the remaining 31 regions, after which time the corresponding GENCODE annotations were released and the automated annotation methods were evaluated based on a rigorous comparison with the GENCODE annotations [48].

    The sequences, gene predictions, and annotations involved in EGASP additionally serve as a resource for evaluating current and future annotation methods. Similarly to our application of EVM to the rice genome using cDNA-verified gene structures for training and evaluation purposes, we applied EVM to the ENCODE regions using the GENCODE annotations for training and evaluation purposes, analogous to the original EGASP competition. Evidence used by EVM included the evidence tracks provided by University of California at Santa Cruz: TWINSCAN, SGP2, GENEID, GENSCAN, CCDSGene, KNOWNGene, ENSEMBL (ENSGene), and MGCGene. Additional evidence generated in our study included AAT alignments of nonhuman proteins, GeneWise predictions based on the nonhuman protein homologies, AAT nucleotide alignments of select animal gene indices, and PASA alignment assemblies generated from GMAP alignments of human ESTs and FL-cDNAs. The GlimmerHMM predictions used by EVM were those generated as part of the EGASP competition, and were obtained separately.

    There are several notable differences between the training and evaluation of EVM on the ENCODE regions as compared with the earlier application to rice. The cDNA-verified rice genes used for training and evaluation were restricted to a single splicing isoform. In addition, each gene was complete, containing the protein-coding region from start to stop codon. The GENCODE protein-coding annotations, in contrast, include alternative splicing isoforms and several partial gene structures. Accuracy measurements computed for rice genes included each cDNA-verified gene and the flanking 500 bases, whereas accuracy measurements on the ENCODE regions included these sequence regions in their entirety and all corresponding protein-coding gene annotations.

    EVM was trained on the 11 ENCODE test regions and then evaluated on the remaining 33 regions. Training and evaluation were performed under two independent trials. The trained weights and corresponding accuracy values are provided in Additional data file 2 (Tables S4 and S5). Our initial analysis of EVM on this dataset utilized the ab initio gene predictions, and the EST and protein homologies, similar to our earlier analysis with rice. The average gene prediction accuracy for the source predictions and EVM with varied additional evidences is illustrated in Figure 9. The ab initio gene predictions used as evidence by EVM individually predict genes with accuracies mostly less than 20% gSn the best individual performer was TWINSCAN, with 22% gSn and 20% gSp. By combining these predictions alone, EVM improves complete gene prediction accuracy to 31% gSn and 27% gSp, which is significantly better performance than any of the individual ab initio predictors. By including spliced alignments to dog, pig, mouse, or rat assembled EST databases, gene prediction sensitivity further improves to 38% to 45% gSn and 34% to 40% gSp. EST alignments from the more distantly related chicken yield slight improvement from using the predictions alone, but not to the extent of mammals. Alignments to the more distantly related sea squirt and frog gene indexes offer little to no improvement in prediction accuracy. Overall, the improvements in EVM prediction accuracy afforded by alignments to the nonhuman gene indexes correlate well with their phylogenetic distance from human, with mouse and rat being found most useful. By including human EST and FL-cDNA alignments in the form of PASA alignment assemblies along with the ab initio predictions, gene prediction sensitivity improves to 63%. Protein homologies included with ab initio predictions, in the form of AAT (nap) alignments or GeneWise predictions, also demonstrated an improvement in gene prediction accuracy, with 36% to 56% gSn and 30% to 44% gSp as compared with the 31% gSn and 27% gSp from combining the predictions alone.

    Human consensus gene prediction accuracy by EVM. The consensus gene prediction accuracy by EVidenceModeler (EVM) is shown based on trained evidence weights and the corresponding combination of evidence, as applied to the GENCODE test regions of the human genome. The accuracies for the inputted gene predictions obtained from the ENCODE Genome Annotation Assessment Project (EGASP) dataset are provided for reference sake, including GENSCAN, TWINSCAN, GlimmerHMM, GeneMark.hmm on the repeat-masked genome, GeneID, and SGPgene. EVM-GF corresponds to EVM applied to these gene prediction tiers alone (GF), and serves as the baseline evidence for the subsequent entries. EVM-GeneWise includes GeneWise predictions based on nonhuman protein homologies EVM-nap includes AAT-nap spliced alignments of nonhuman proteins the EVM:gap2_* series includes AAT-gap2 alignments of corresponding transcripts from the Dana Farber Gene Indices (CINGI, Ciona intestinalis [sea squirt] XGI, Xenopus tropicalis [frog] GGGI, Gallus gallus [chicken] DOGGI, Canis familiaris [dog] SSGI, Sus scrofa [pig] RGI, rat MGI, mouse) EVM-alignAsm includes Program to Assemble Spliced Alignments (PASA) alignment assemblies and corresponding terminal exon supplement and EVM:All includes all evidence described (GF, gap2, nap, GeneWise, and PASA). Sn, sensitivity Sp, specificity.

    Post-EVM application of PASA to annotate alternatively spliced isoforms

    EVM is not designed to model alternative splicing isoforms directly. This is, however, a primary function of our companion annotation tool PASA, which contributes to the automated annotation of gene structures in several ways. PASA, like EVM, is made freely available as open source from the PASA website [49]. Above, PASA alignment assemblies were used as one source of gene structure components by EVM. Alternatively, PASA can generate complete gene structures based on full-length alignment assemblies (alignment assemblies containing at least one FL-cDNA) by locating the longest ORF within each alignment assembly, and annotate gene structures and alternatively spliced isoforms restricted to the transcriptome. A third application of PASA is to perform a retroactive processing of a set of pre-existing gene structure annotations, whereby alignment assemblies are incorporated into untranslated region annotations, exon modifications, correctly splitting or merging predicted gene structures, and used to model alternative splicing isoforms [33].

    To demonstrate the effect of applying PASA as a postprocess to integrate transcript data into an existing set of gene structure annotations (which we refer to as 'PASAu', for PASA updates), we applied PASA separately to the ab initio predictions, the various University of California at Santa Cruz gene prediction tracks (which we refer to as 'other predictions'), and to the EVM-generated datasets that either utilized or excluded the other predictions. The change in prediction accuracy as a result of applying PASA's annotation updates is illustrated in Additional data file 1 (Figure S2). PASAu can yield relatively large improvements (increases from 23% to 33% in gSn and from 7% to 32% in gSp) to the accuracy of the various ab initio predictions by incorporating transcript alignment assembly-based updates. PASAu-resulting changes to the accuracies of the other original predictions were more variable, mostly involving small increases in transcript sensitivity and larger decreases in transcript specificity more GENCODE transcripts predicted correctly, but additional PASA-based transcripts not represented in the GENCODE dataset were also identified. The EVM gene sets were affected similarly.

    The small change in gSn and gSp resulting from the annotation update functions of PASA to the EVM predictions is not surprising, given that the PASA alignment assemblies were included here as inputs during the generation of the consensus gene structures by EVM. The most notable consequence of the PASA updates was the modeling of alternative splicing isoforms. Although the number of genes annotated as alternatively spliced was variable across the different annotation gene sets, the ratio of transcripts per alternatively spliced gene was fairly uniform, and largely consistent with the prevalence of alternatively spliced genes described in the GENCODE annotations (Figure 10). The reason for the variability in the number of alternatively spliced genes is because of PASAu's stringent validation tests, forsaking automated gene structure updates in favor of targeted manual evaluation in those cases in which the tentative gene structure updates or candidate splicing isoforms vary greatly from the originally annotated gene structures [49].

    Addition of alternatively spliced isoforms using PASAu. By applying Program to Assemble Spliced Alignments (PASA) to the various annotation datasets, PASA can automatically annotate alternative splicing isoforms. The number of alternatively spliced genes and the number of transcripts per alternatively spliced gene are shown, including the pre-PASAu and post-PASAu values. Only the EnsEMBL dataset includes models for alternatively spliced isoforms before the application of PASA. Dotted lines indicate the corresponding values based on the GENCODE reference annotation dataset: 147 alternatively spliced genes and 3.42 transcripts per alternatively spliced gene. Transcript isoforms alternatively spliced only in untranslated regions were ignored. Here, EVM:All(+OP) refers to the inclusion of the EVM:All evidence plus the 'other predictions' from ENCODE Genome Annotation Assessment Project (EGASP), including EnsEMBL, ENSgene, KnownGene, and CCDSgene, used by EVidenceModeler (EVM) as the OTHER_PREDICTION evidence class (Table 1).

    The gene prediction accuracy of EVM, PASA alone, and PASA applied as a postprocess to update EVM predictions is provided along with the accuracies of methods evaluated as part of the EGASP competition in Figure 11. PASA, when used in isolation to annotate gene structures automatically based on transcript alignments alone, yields an impressive 60% gSN and 87% gSP these values reflect the abundance and utility of the human ESTs and FL-cDNAs available. EVM, with its greatest accuracy throughout the various surveys of the EGASP dataset presented, yielded prediction accuracies of between 63% and 76% gSn and of between 47% to 54% gSp.

    EVM and PASA automated annotation accuracies compared to alternatives. The gene prediction accuracy of both EVidenceModeler (EVM) and Program to Assemble Spliced Alignments (PASA) are shown in the context of the other methods evaluated as part of the ENCODE Genome Annotation Assessment Project (EGASP) competition. Although PASA alone performs quite well, the benefits from applying PASA as a postprocess to the EVM consensus predictions are not immediately apparent, except in the enumeration of alternatively spliced isoforms as shown in Figure 10. PASA and EVM are shown to perform similarly to the best performing methods in the EGASP competition.

    Although it is useful to compare accuracies of these various tools based on their ability to recreate the GENCODE annotation for the ENCODE regions, direct comparisons between each method based on these data may be generally useful but not exactly valid. No caso de ab initio gene prediction tools that require only the genome sequence as input, direct comparisons between the results of the gene predictors are fully justified, because the inputs are exactly identical. The focus of EGASP was to examine the accuracy of diverse automated annotation methods and not necessarily to perform head-to-head comparisons between each method. Therefore, groups were allowed to use any evidence available to them to assist in their annotation efforts, and so, for example, the additional evidence used by JIGSAW was not exactly the same inputs utilized by Exogean, or EVM as described here. The analogous experiments we directed in rice were more tightly controlled, given that each software tool was trained and executed using identical inputs. Even so, although alternative methods examined as part of the EGASP competition are shown to exceed EVM's accuracy, even if only slightly, EVM does fare well as an automated annotation system, especially when it is compared with the individual ab initio predictions.


    Resultados e discussão

    130,000 long terminal repeat (LTR) retrotransposons in the 48 recently sequenced bird genomes [4] and obtained 2,118 presence/absence patterns of insertions that occurred within the neoavian radiation and are distributed genome-wide (S1 Table, S1 Fig, S1 Data). These RE markers were obtained after visual inspection under strict criteria for coding of character states at orthologous RE loci (see Materials and Methods), because we aimed to minimize the two sources of potential homoplasy independent RE insertion and precise excision.

    Two Thousand RE Markers with Minimal Homoplasy

    Homoplasy via independent RE insertion requires the retrotransposition of the same RE subtype into precisely the same genomic location, in the same orientation, and featuring an identical target site duplication. In addition to these factors that make independent insertions very rare, the LTR retrotransposons studied here have a low copy number (e.g., 3,138 copies in the zebra finch genome), were active only for a short time period around the neoavian radiation [10], and show no target site preference among thousands of reconstructed ancestral target sequences of inserted elements (S2 Fig). We therefore propose that the probability of homoplasy caused by independent insertions among our RE markers is extremely low. Homoplasy via precise excision is the deletion of the RE insertion and one copy of the duplicated target site, but not a single bp more or less than that. These requirements make the occurrence of precise excisions very rare and we therefore visually inspected all of our markers for precise boundaries of presence/absence states and coded imprecise or poorly aligned boundaries as missing data. Altogether, we suggest that our 2,118 RE markers contain negligible homoplasy, and conflicts are instead due to ILS-derived hemiplasy.

    To verify that incongruences constitute ILS-derived hemiplasy, Hormozdiari et al. [14] proposed to test for topological consistence between each RE marker and a sequence tree derived from its flanking nucleotides. However, we note that failure of this test for some of their RE markers does not equal homoplasy of RE markers. Alternative and more plausible causes for inconsistencies are homoplasy or tree reconstruction uncertainties in the flanking sequence trees and the fact that recombination may cause different topologies between adjacent loci [15]. Unfortunately, single-locus sequence trees of Neoaves have an average topological distance of 63% for introns and 66% for ultraconserved elements (UCEs) from the main Jarvis et al. tree [4]. This means that the average nonexonic locus fails to congruently resolve most of the neoavian internodes. We note that it is therefore not possible to independently verify hemiplasy in neoavian RE markers by comparison to flanking sequence trees. Nevertheless, if homoplasy was prevalent in our RE markers, we would expect to see an equal distribution of RE incongruences across all of the sampled clades of Neoaves. While we find dozens of presence/absence markers with incongruences affecting the short branches within the neoavian radiation (S1 Table e.g., the core landbirds and core waterbirds clades), there is not a single RE incongruence in our presence/absence matrix (S1 Table) affecting well-accepted internal relationships within postradiation taxa, such as passerines, parrots, eagles, penguins, the woodpecker/bee-eater clade, the hummingbird/swift clade, and the flamingo/grebe clade. Such an imbalance of RE incongruences strongly implies that homoplasy is indeed negligible among our 2,118 RE markers.

    Genome-Scale RE-Based Phylogeny of Neoaves

    We analyzed the RE presence/absence matrix using Felsenstein’s polymorphism parsimony [16] and obtained a single most parsimonious RE (MPRE) tree, whose branches are supported by a total of 1,373 conflict-free insertion events across the neoavian radiation (Fig 1B). The topology is very similar to previous phylogenomic estimates using mostly noncoding nucleotide data [4,10,17–21], including relationships previously strongly supported in whole-genome sequence analyses [4] (Fig 1A), such as the sunbittern/tropicbird, bustard/turaco, and mesite/sandgrouse clades. From these three groups, only the sunbittern/tropic clade was previously recovered in some multilocus analyses [19–21].

    (A) The main whole-genome sequence tree from Jarvis et al. [4] mapped with our 2,118 retrotransposon markers (745 incongruent markers tree length = 5,579 consistency index = 0.40 retention index = 0.64). (B) The same markers mapped on the single MPRE tree (S2 Data) resulting from analysis of their 2,118 presence/absence patterns (720 incongruent markers tree length = 5,377 consistency index = 0.41 retention index = 0.66) under Felsenstein’s polymorphism parsimony [16]. Black branches indicate topological concordances between the MPRE tree and the main Jarvis et al. tree [4], and discordances are limited to the deepest neoavian internodes (grey dashed branches) and the conflicting position of the mousebird (grey branches). The amount of ILS-free, conflict-free insertion events (blue bold numbers) was identified for each internode, and numbers within doughnut plots indicate counts of ILS-affected RE insertion events leading to the persistence of insertion polymorphisms across two (green), three (orange), or more (red parts of doughnut plots) speciation events. (C–E) Schematic illustration of the different genealogical fates of segregating presence (colored lines) or absence (black lines) alleles following RE insertion (colored circles) in an exemplary five-taxon species tree. We show one respective example for the different degrees of gene tree–species tree conflict that can be caused by incomplete lineage sorting (ILS) across two (C), three (D), or more than three (E) successive speciation events. Incongruence of RE presence/absence patterns (dashed boxes) is illustrated with REs as colored ovals, target site duplications as white squares, and orthologous genomic flanks as black lines. The bird paintings were generated by Jon Fjeldså (used with permission).


    3 respostas 3

    There are three reasonable responses here:

    • yes, your recursion code can be improved for performance.
    • yes, part of that improvement can come from sorting the data.
    • yes, there's a way to refactor the code to not use recursion, and it may even be faster.

    Bearing that in mind, this answer becomes 'complicated'.

    Basic performance improvements for current code:

    I dislike any recursive function which rely on external (outside-the-method) values. In your case, the sumInStack is external. This makes the target hard to 'see'.

    Additionally, if we do sort the data, there are some benefits we can have, and a way to restructure the recursion to make it do less work (since we can guarantee that all values after a point have certain properties. ):

    consider the method (assuming sorted data ):

    You would call this function with:

    So, that is 'can the code be improved?' and 'will sorting help'

    As for the 'unrolled' (no recursion) version of the system, it can be done. It would require three int[] arrays:

    The sum gives and indices act like a stack, and the depth is how deep the stack is (again, assume sorted data):

    Another way to do problems like this &mdash investigating properties of all subsets (that is, members of the "power set") &mdash is to think of the main set as a list of cells, and each cell as a binary digit position. A member of the power set can therefore be described by a binary number, such that the subset contains only those elements of the set corresponding to a 1 in the binary value.

    By doing that, you can generate the power set just by counting. Of course this gets a little complicated when the original set has more values in it that can be comfortably dealt with by the native integer type in a given programming language, but Java has BigInteger . (Enumerating a power set for algum purpose is going to be a little painful for original sets that big anyway.)

    I have not fully worked it out, but the best algorithm here is probably dynamic programming. Basically, I would order the values and at each one keep all possible sums, considering earlier sums.

    Note that there is some efficiency above because some combinations are repeated many times. For example, at item 3, the output value 3 can be obtained from either (1 * 3_from_previous_sum + 0 * 3) or (0 * 3_from_previous_sum + 1 * 3). The further you go, the more such redundant values happen.

    I have not worked out is if this would clearly be more efficient than using brute force search, but I am pretty sure it would. Dynamic programming should increase the memory requirement of the algorithm, but decrease the compute time.

    The example table I made would be useful to answer whether a given sum can be attained or not, but not to give all combinations that can produce a sum, if it exists. To answer that second question, the table would have to be modified to also associate with each output sum value all the combinations which can produce it.


    ​Dividing Exponents in Mixed Bases​

    When you do algebra with exponents, in many situations there are different bases in the equation. For example, you might encounter ​x​ 2 ​y​ 3 ÷ ​x​ 3 ​y​ 2 . You can only work with exponents if they have the same base, so you work with the ​x​ parts and the ​y​ parts separately:

    In reality, ​y​ 1 is just ​y​, but it’s shown here for clarity. Note that it’s possible to have negative exponents as well as positive ones. Nesse caso,

    You can’t simplify the expressions more than this, so this is all you need to do.


    Assista o vídeo: Revisão de Biologia em Exercícios (Dezembro 2021).