Em formação

7.5: Simulando o modelo Mk em uma árvore - Biologia


Também podemos usar as equações acima para simular a evolução em um modelo Mk ou Mk estendido em uma árvore (Felsenstein 2004). A distribuição dos estados dos caracteres dependerá da forma da árvore filogenética (tanto de sua topologia quanto dos comprimentos dos ramos) junto com os parâmetros de nosso modelo de evolução de caracteres.

Primeiro, desenhamos um estado de caractere inicial na raiz da árvore. Existem várias maneiras comuns de fazer isso. Por exemplo, podemos extrair da distribuição estacionária ou de uma em que cada estado de caractere seja igualmente provável. No caso do modelo Mk padrão, são os mesmos. Por exemplo, se estamos simulando evolução no Mk com k = 2, então os estados 0 e 1 têm cada um probabilidade de 1/2 na raiz. Podemos desenhar o estado raiz de uma distribuição binomial com pstumate0 = 0.5.

Assim que tivermos um estado de caractere para a raiz, simulamos a evolução ao longo de cada galho da árvore. Começamos com os (geralmente dois) ramos descendentes da raiz. Em seguida, subimos na árvore, galho por galho, até chegar às pontas.

Podemos entender esse algoritmo perfeitamente bem pensando sobre o que acontece em cada ramo da árvore e, em seguida, estendendo esse algoritmo a todos os ramos (conforme descrito acima). Para cada ramo, primeiro calculamos P(t), a matriz de probabilidade de transição, dado o comprimento do ramo e nosso modelo de evolução, conforme resumido por Q e o comprimento do galho t. Em seguida, focamos na linha de P(t) que corresponde ao estado do caractere no início da ramificação. Por exemplo, vamos considerar um modelo básico de Mk de dois estados com q = 0,5. Chamaremos os estados de 0 e 1. Podemos calcular P(t) para um galho com comprimento t = 3 como:

(eq. 7.16)

$$ mathbf {P} (t) = e ^ { mathbf {Q} t} = exp ( begin {bmatrix} -0,5 e 0,5 0,5 & -0,5 end {bmatrix} cdot 3) = begin {bmatrix} 0,525 e 0,475 0,475 e 0,525 end {bmatrix} $$

Se tivéssemos começado com o estado de caractere 0 no início desta ramificação, nos concentraríamos na primeira linha desta matriz. Queremos terminar no estado 0 com probabilidade 0,525 e mudar para o estado 1 com probabilidade 0,475. Mais uma vez, desenhamos um desvio aleatório uniforme vocêe escolha o estado 0 se 0 ≤ você <0,525 e estado 1 se 0,525 ≤ você <1. Se começarmos com um estado de caractere diferente, usaremos uma linha diferente na matriz. Se este for um ramo interno da árvore, então ambas as espécies filhas herdam o estado de caráter que escolhemos imediatamente após a especiação - mas podem divergir logo depois! Repetindo isso ao longo de cada galho da árvore, obtemos um conjunto de estados de caracteres nas pontas da árvore. Este é o resultado de nossa simulação.

Dois detalhes adicionais aqui são dignos de nota. Primeiro, o procedimento para simular caracteres no modelo Mk estendido são idênticos aos acima, exceto que o cálculo das exponenciais da matriz é mais complicado do que no modelo Mk padrão. Em segundo lugar, se você está simulando um personagem com mais de dois estados, o procedimento para desenhar um número aleatório é ligeiramente diferente3.

Podemos aplicar esta abordagem para simular a evolução da ausência de membros em escamatas. A seguir, apresento os resultados de três dessas simulações. Essas simulações são um pouco diferentes do que descrevi acima porque consideram todas as mudanças na árvore, ao invés de apenas estados de caractere em nós e pontas; mas o modelo (e o principal) é o mesmo. Você pode ver que o modelo deixa uma marca no padrão de mudanças na árvore, e você pode imaginar que alguém pode ser capaz de reconstruir o modelo usando uma abordagem comparativa filogenética. Claro, normalmente conhecemos apenas os estados de ponta e temos que reconstruir as mudanças ao longo dos galhos da árvore. Discutiremos a estimativa de parâmetros para os modelos Mk e Mk estendido no próximo capítulo.

Figura 7.4. Evolução de caráter simulado em uma árvore filogenética de escamatas (de Brandley et al. 2008) sob um modelo Mk de taxas iguais com taxas de transição lenta, rápida e assimétrica (da direita para a esquerda). Em todos os três casos, presumi que o ancestral dos escamatos tinha membros. Imagem do autor, pode ser reutilizada sob uma licença CC-BY-4.0.


Jogo da mariposa apimentada

Objetivo: Simular mudanças na população de mariposas devido à poluição e predação e observar como as espécies podem mudar ao longo do tempo.

Vá para: https://askabiologist.asu.edu/peppered-moths-game/play.html e leia cada seção antes de jogar, responda às perguntas conforme você avança.

Mariposa apimentada

1. Onde vivem as mariposas salpicadas? ______________________________________________

2. Como as larvas da mariposa sobrevivem aos predadores? _________________________________________

3. O que as mariposas fazem durante o inverno? ______________________________________

4. Qual é a cor da versão & quottypica & quot das mariposas? _________________________

Qual é a cor da versão & quotcarbonaria & quot? _______________________________

5. Como as mariposas adultas sobrevivem à predação? _________________________________________

Seleção natural

6. O que foi a revolução industrial? _____________________________________________

7. O que estava causando a mudança na cor das mariposas? ______________________________

8. O que é seleção natural? _______________________________________________________

9. Por que as mariposas negras têm uma vantagem? ___________________________________________

Dr. Kettlewell

10. O que é um entomologista? ________________________________________________________

11. Como os cientistas testam as teorias? ____________________________________________________

12. Dr. Kettlewelll previu que florestas limpas teriam _____________ mariposas coloridas, e florestas poluídas teriam _________ mariposas coloridas.

13. Como Kettlewell testou sua hipótese? ________________________________________________

14. Como Kettlewell determinou se as mariposas viviam mais do que outras? _____________________________________

Jogue o jogo

15. Preencha a tabela de dados para a floresta clara e a floresta escura.

Análise Final

16. Explique como a cor das mariposas aumenta ou diminui suas chances de sobrevivência.

17. Explique o conceito de seleção natural usando suas mariposas como exemplo.

18. Preveja o que aconteceria se não houvesse predadores na floresta. As cores da mariposa teriam mudado? Por que ou por que não?

19. Os esforços para reduzir a poluição começaram a ocorrer no final do século. Se a poluição perto das fábricas fosse reduzida, o que aconteceria com a cor das mariposas? Explique sua resposta.

20. O experimento de Kettlewell está incluído na maioria dos textos de biologia como um exemplo de evolução ocorrendo. Como sabemos que as mariposas evoluíram?

/> Este trabalho está licenciado sob uma Licença Internacional Creative Commons Atribuição-NãoComercial-Compartilhamento pela mesma Licença.


7.5: Simulando o modelo Mk em uma árvore - Biologia

Então, para sair deste jarro:

Isso requer Java 1.7 para compilar e executar. A opção -Xmx1G é usada para aumentar a alocação de memória. Pode ser necessário aumentar ainda mais com tamanhos maiores de população de hospedeiros. A opção -XX: + UseSerialGC troca o coletor de lixo Java padrão para algo que funciona com muito mais eficiência para o Antigen.

Os padrões de parâmetro podem ser vistos em Parameters.java. Quando executado, o programa procura o arquivo parameters.yml e os carrega dinamicamente, sobrescrevendo os padrões.

A simulação produzirá uma série temporal de prevalência e incidência específicas da região para fora da série. Ele também fará amostras de vírus periodicamente e enviará suas localizações geográficas e antigênicas para out.tips e uma árvore conectando essas amostras a out.branches. Este arquivo contém pares de vírus, filho e pai, representando nós em uma genealogia. Os valores médios são enviados para out.summary.

Se você tem o Mathematica, pode gerar uma série de números a partir dessa saída, executando o notebook antigen-analysis.nb.

O -Xmx1G é necessário porque, como um modelo baseado em indivíduo, os requisitos de memória são normalmente muito grandes. Cada host requer um mínimo de 40 bytes de memória, mais 8 bytes por fenótipo registrado em seu histórico imunológico. Se a taxa de ataque anual for de 15% e a expectativa de vida do hospedeiro for de 30 anos, no equilíbrio, o tamanho médio da história imunológica será de 4,5 referências. Isso fornece o uso de memória de: tamanho da população x 76 bytes. Com 7,5 milhões de hosts (usados ​​nos parâmetros padrão), isso equivale a 570 MB.

Além de hosts e históricos imunológicos, a simulação rastreia a genealogia do vírus por meio do VirusTree. Isso é mais difícil de traçar o perfil e aumentará continuamente no uso de memória durante a simulação. Com os parâmetros padrão, o VirusTree ocupa 5,5 MB no final de um ano simulado e pode até 110 MB no final dos 20 anos simulados padrão.


Xun Gu

Dr. Gu, professor. Ele veio para a Iowa State University como professor assistente em 1998, e foi promovido a professor associado (com mandato) em 2002, e a professor titular (com mandato) em 2006. Dr. Gu atua no conselho editorial de “Molecular Phylogenetics and Evolution ”e“ Journal of Experimental Zoology B ”. O Dr. Gu recebeu em 2001 o prestigioso Prêmio Dupont Young Professor. O grupo de pesquisa do Dr. Gu tem se concentrado em genômica comparativa e evolutiva, biologia computacional e evolução da biologia de sistemas. Dr. Gu e seu grupo publicaram mais de 100 artigos.

Descrição da Pesquisa

Sua pesquisa tem se concentrado em (1) métodos estatísticos para genômica evolutiva para a compreensão da complexidade do genoma e (2) análise genômica comparativa de alto rendimento. As realizações do nosso grupo de pesquisa são: Desenvolver métodos estatísticos e software de bioinformática para prever a divergência funcional de uma família de proteínas, análise estatística para divergência de expressão entre genes duplicados e modelagem estatística para ganho e perda de gene durante a evolução genômica. Analise genomas de organismos modelo entre espécies, desde leveduras, plantas, vertebrados e primatas. Recentemente, nossa pesquisa está explorando a nova área de Biologia e Evolução de Sistemas: Noções básicas sobre pleiotrofia genética, robustez genética, complexidade do genoma e evolução da rede de genes.


A análise bayesiana usando um modelo de verossimilhança simples supera a parcimônia para estimativa de filogenia a partir de dados morfológicos discretos

Apesar da introdução de métodos baseados em verossimilhança para estimar árvores filogenéticas a partir de dados fenotípicos, a parcimônia continua sendo o critério de otimalidade mais amplamente usado para construir árvores a partir de dados morfológicos discretos. No entanto, sabe-se há décadas que existem regiões de espaço de solução em que a parcimônia é um estimador pobre da topologia de árvore. Existem inúmeras implementações de software de modelos baseados em verossimilhança para a estimativa de filogenia a partir de dados morfológicos discretos, especialmente para o modelo Mk de evolução de caracteres discretos. Aqui, exploramos a eficácia da estimativa bayesiana da filogenia, usando o modelo Mk, sob condições comumente encontradas em estudos paleontológicos. Usando dados simulados, descrevemos os desempenhos relativos de parcimônia e o modelo Mk sob uma gama de condições realistas que incluem cenários comuns de dados perdidos e heterogeneidade de taxa.

Declaração de conflito de interesse

Concorrência de interesses: Os autores declararam que não existe concorrência de interesses.

Bonecos

Figura 1. Árvore usada para simulações.

Figura 1. Árvore usada para simulações.

Esta árvore foi obtida a partir de dados fenotípicos moleculares combinados ...

Figura 2. Um esquema representando diferentes ausentes ...

Figura 2. Um esquema representando diferentes distribuições de dados perdidos.

As colunas representam personagens. Nos nomes-táxons ...

Figura 3. Resultados de simulações com um…

Figura 3. Resultados de simulações com uma única taxa de evolução do personagem.

Bayesian-Mk supera a parcimônia ...

Figura 4. Em conjuntos de dados com caractere ...

Figura 4. Em conjuntos de dados com heterogeneidade de taxa de caracteres e sem dados ausentes, Bayesian-Mk ...

Figura 5. Os efeitos da falta de dados ...

Figura 5. Os efeitos da falta de dados variam com a taxa de evolução do personagem.


Recuperação fóssil dependente de linhagem

A variação nos parâmetros de recuperação de fósseis em diferentes linhagens ou espécies pode ser gerada usando a função sim.trait.values. A saída da função é um vetor de valores de características simulados que podem ser usados ​​para especificar o parâmetro de taxa em sim.fossils.poisson ou os parâmetros PD, DT e PA em sim.fossils.environment.

Os valores das características podem ser simulados para um determinado objeto de filo ou taxonomia. Se a função for fornecida com um objeto filo, os valores das características são simulados assumindo uma especiação bifurcada e os valores das características simuladas são produzidos para cada aresta na ordem em que aparecem no quadro de dados do objeto filo. Se a árvore também tiver uma aresta raiz (tree $ root.edge), a primeira entrada no vetor corresponderá à primeira entrada no vetor. Se a função for fornecida com um objeto de taxonomia, os valores de característica simulados são produzidos para cada espécie na ordem em que aparecem no quadro de dados do objeto de taxonomia.

O modelo de recuperação fóssil autocorrelacionada

Sob o modelo autocorrelacionado, os traços evoluem ao longo das linhagens de acordo com um processo de movimento browniano, onde a força da relação entre os valores ancestrais e descendentes é determinada pelo parâmetro ( nu ) (argumento de função v). Novos valores de características são extraídos de uma distribuição lognormal, onde a média é igual ao valor do ancestral e a variância é uma função de ( nu ) e da espécie ou duração da borda. Se ( nu ) for pequeno, os valores serão mais semelhantes entre ancestrais e descendentes, e se ( nu ) for zero, todos os valores de característica serão iguais. Este modelo é descrito em Heath et al. (2014) e é equivalente ao modelo de relógio relaxado autocorrelacionado descrito em Kishino et al. (2001) .

O modelo independente de recuperação fóssil

No modelo independente, um novo valor de característica é obtido para cada espécie a partir de qualquer distribuição dist. Para ser válida, a função só precisa retornar um único valor.

Recuperação fóssil dependente do ambiente e da linhagem

Valores específicos de linhagem gerados usando sim.trait.values ​​também podem ser passados ​​para a função sim.fossils.environment para definir os parâmetros PD, DT e PA.


Preenchimento de lacunas de rede

Preenchimento de lacunas é uma etapa importante na reconstrução GEM que transforma uma rede de rascunho em uma que pode produzir biomassa no ambiente especificado (Tabela 4). A ideia de preenchimento de lacunas - que o conhecimento ausente no metabolismo pode exigir algoritmos para identificar reações ausentes na representação de uma via específica, mas provavelmente presentes no organismo - existe desde os primeiros dias da modelagem da rede metabólica [107]. Algoritmos de preenchimento de lacunas em geral foram revisados ​​anteriormente [108], mas em breve, eles utilizam um banco de dados universal de possíveis reações para aumentar uma rede metabólica existente com o objetivo de permitir estados de crescimento viáveis, por exemplo, conectando metabólitos sem saída. Aqui nos concentramos na incerteza associada a esse processo. O preenchimento de lacunas é inerentemente incerto porque as reações adicionadas geralmente não são apoiadas por evidências genômicas. Além disso, muitas vezes podem ser encontradas várias soluções para satisfazer o mesmo problema de preenchimento de lacunas. Devido a essa incerteza, algoritmos básicos de preenchimento de lacunas são conhecidos por serem um tanto imprecisos [109], solicitando benchmarking recente em redes metabólicas degradadas aleatoriamente para destacar a variabilidade no desempenho de preenchimento de lacunas [110]. Além disso, muitos GEMs contêm inconsistências significativas, mesmo após a aplicação de abordagens de preenchimento de lacunas, e sua identificação é importante para garantir a fidelidade do modelo [111].

A incerteza nas soluções de preenchimento de lacunas levou ao desenvolvimento de várias abordagens probabilísticas para integrar dados e priorizar soluções. Uma inovação inicial em algoritmos probabilísticos de preenchimento de lacunas foi o desenvolvimento de um método para avaliar a adição de reações para preencher lacunas com base em uma rede Bayesiana, incluindo homologia de sequência, operon e informações baseadas em caminhos [112]. Uma abordagem semelhante é usar pesos probabilísticos durante o processo de preenchimento de lacunas, de modo que reações mais prováveis ​​incorram em uma penalidade menor quando adicionadas à rede metabólica. O algoritmo CROP é um exemplo de preenchimento de lacunas com base em dados de fenótipo de crescimento que implementa pesos com base em várias fontes de evidências, incluindo evidências experimentais com curadoria manual, caminhos conhecidos por estarem associados a um organismo, termodinâmica e estimativas probabilísticas da função enzimática [113 ] Outra abordagem probabilística foi desenvolvida para traduzir a homologia de sequência na probabilidade de que uma reação metabólica esteja presente em uma determinada rede metabólica (discutida na seção "Anotação do genoma"), essas probabilidades podem então ser usadas como pesos probabilísticos durante o procedimento de preenchimento de lacunas [ 44, 45].

Além dos métodos probabilísticos de preenchimento de lacunas, abordagens de conjunto foram desenvolvidas para representar a incerteza nas soluções de preenchimento de lacunas como um conjunto de possíveis GEMs preenchidos. Uma abordagem inicial nesta área poda uma rede metabólica universal para identificar localmente soluções de preenchimento de lacunas mínimas que se alinham com dados experimentais [114]. Nessa abordagem, um conjunto de redes metabólicas é gerado atribuindo aleatoriamente a ordem em que as reações são removidas de uma rede metabólica universal original. Um método de conjunto baseado em poda semelhante, MIRAGE, inclui adicionalmente a expressão gênica e filogenia ao ponderar a ordem na qual remover as reações [115]. A ideia de conjunto de preenchimento de lacunas foi mais completamente desenvolvida por uma abordagem que utiliza dados de fenótipo de crescimento em uma ordem aleatória para gerar um conjunto de soluções de preenchimento de lacunas [116]. Ao alterar aleatoriamente a sequência na qual os dados do fenótipo de crescimento foram apresentados ao algoritmo de preenchimento de lacunas, Biggs e Papin geraram um conjunto de redes metabólicas que concordam igualmente com os dados fornecidos. Este estudo demonstrou ainda que utilizar o resultado do conjunto de preenchimento de falhas pode ser mais preciso do que usar os resultados individuais ou um resultado global simultaneamente preenchido de falhas. Uma abordagem adicional de preenchimento de lacunas de conjunto é implementada no método CarveMe. CarveMe gera conjuntos de modelos preenchidos por lacunas atribuindo pesos aleatórios a reações sem evidência genômica [43].

Finalmente, os métodos de preenchimento de lacunas automatizados são fundamentalmente limitados pelo (s) banco (s) de dados subjacente (s) de reações metabólicas que eles utilizam [117, 118]. Portanto, a incerteza neste conjunto de banco de dados pode ter um grande impacto no desempenho de preenchimento de lacunas. Esta é uma limitação importante quando se considera a complexidade do verdadeiro universo metabólico e o fato de que provavelmente não sabemos as anotações adequadas para todas as reações metabólicas. À luz dessa limitação, vários métodos foram desenvolvidos para prever possíveis reações metabólicas com base em regras gerais de reação. Muitas dessas abordagens foram revisadas anteriormente no contexto da previsão de vias biossintéticas para compostos alvo [25, 119, 120]. Uma das abordagens anteriores, a estrutura BNICE, expande o universo metabólico aprendendo regras de reação genéricas do reatoma KEGG [121]. Esta estrutura foi posteriormente usada para desenvolver MINE e ATLAS, bancos de dados de compostos teoricamente possíveis e reações enzimáticas, respectivamente [122.123.124]. O BNICE também sugere números EC de três níveis para reações hipotéticas, que podem orientar a descoberta de proteínas associadas a reações de novo. O número teórico de reações no ATLAS expandido é mais de 10 vezes maior do que o número de reações no KEGG, indicando que um grande número de transformações químicas inesperadas pode estar envolvido no metabolismo. Enquanto lutamos com a incerteza na reconstrução da rede metabólica, métodos de novo como esses podem nos ajudar a lidar com incógnitas desconhecidas e fornecer percepções inesperadas e estimulantes. Seguindo em frente, uma combinação de métodos probabilísticos e de conjunto para integração de dados e previsão de reação de novo permitirá a geração de redes metabólicas preenchidas por lacunas que representam a incerteza e podem ser melhor usadas para orientar o refinamento do modelo.


Resultados

Simulações

Em todas as nossas análises, métodos filogenéticos concorrentes exibiram maior precisão ao reconstruir dados da árvore simétrica em comparação com os dados da árvore assimétrica. Para os conjuntos de dados derivados da árvore geradora assimétrica, as implementações Bayesiana e Máxima Verossimilhança do modelo Mk superaram a parcimônia em termos de precisão (Tabela 1).

Bayesiano assimétrico ML assimétrico Parcimônia assimétrica Bayesiano simétrico ML simétrico Parcimônia simétrica
Regra da maioria 100 29 (23–35) 47 (31–59) 35 (27–48.02) 7 (1–25) 7 (1–43.05) 7 (1–26)
100 ≥ 50% de suporte da filial 29 (23–35) 30 (24–34) 30 (26–32) 7 (1–25) 7 (2–24.02) 9 (3–27)
Regra da maioria 350 20 (12–30) 25 (13–55) 28 (18–37) 1 (1–15.02) 1 (1–23) 1 (1–15.02)
350 ≥ 50% suporte de filial 20 (12–30) 20 (14–31) 24 (19–30) 1 (1–15.02) 1 (1–15) 1 (1–17)
Regra da maioria 1000 9 (3–26) 11 (3–43) 18 (9–30) 1 (1–3.02) 1 (1–5) 1 (1–3.02)
1000 ≥ 50% de suporte da filial 9 (3–26) 10 (4–27) 17 (10–28) 1 (1–3.02) 1 (1–4) 1 (1–4)

Os valores de suporte para nós foram geralmente maiores quando os nós foram reconstruídos com precisão, e isso foi mais pronunciado em análises de conjuntos de dados gerados a partir da árvore assimétrica em comparação com aqueles derivados da árvore geradora simétrica (Fig. 1). Métodos bayesianos reconstruíram o maior número de nós precisos e tiveram maior suporte nesses nós em comparação com nós imprecisos, e nós precisos recuperados por métodos alternativos.

Efeitos de considerar os valores de suporte

Tanto a implementação de Máxima Verossimilhança do modelo Mk quanto a parcimônia produziram árvores com maior precisão após o colapso dos nós com & lt 50% de suporte. Para a árvore assimétrica, a precisão das implementações de Máxima Verossimilhança e Bayesiana do modelo Mk se sobrepõem, mas a parcimônia é o método menos preciso (Figs 2–4-2–4 Tabela 1). Resultados semelhantes foram obtidos da análise dos dados derivados da árvore geradora simétrica (Tabela 1). Para as árvores simétricas e assimétricas, a precisão aumenta com o tamanho do conjunto de dados, e as implementações Bayesiana e Máxima Verossimilhança Mk alcançam uma precisão muito alta em conjuntos de dados com 1000 caracteres.

As árvores de consenso da regra da maioria bayesiana foram geralmente mais resolvidas do que as árvores de suporte de 50% obtidas a partir das estimativas da topologia de máxima verossimilhança, as árvores de suporte de 50% estimadas usando parcimônia foram as mais conservadoras (Tabela 2). Essa tendência também foi observada nos resultados das análises de conjuntos de dados de 100 caracteres derivados da árvore geradora simétrica. No entanto, todos os métodos produziram árvores de suporte de 50% mais totalmente resolvidas com base em conjuntos de dados de 350 e 1000 caracteres.

Bayesiano assimétrico ML assimétrico Parcimônia assimétrica Bayesiano simétrico ML simétrico Parcimônia simétrica
Regra da maioria 100 8 (1–15) 30 (30–30) 16 (2–28) 27 (7–30) 30 (30–30) 27 (6.98–30)
100 ≥ 50% de suporte da filial 8 (1–15) 6 (1–12) 3 (1–7) 27 (7–30) 26 (7.98–30) 22 (4.98–28)
Regra da maioria 350 19 (4–25) 30 (30–30) 24 (4–30) 30 (16–30) 30 (30–30) 30 (16–30)
350 ≥ 50% suporte de filial 19 (4–25) 15 (4–23) 9 (2–15) 30 (16–30) 30 (16–30) 30 (14–30)
Regra da maioria 1000 26.5 (8–30) 30 (30–30) 28 (7.98–30) 30 (28–30) 30 (30–30) 30 (28–30)
1000 ≥ 50% de suporte da filial 26.5 (8–30) 25 (8–29) 17 (4.98–24) 30 (28–30) 30 (28–30) 30 (27.98–30)

A implementação Bayesian Mk resolve um maior número de nós corretos em todas as análises (Fig. 1), e estes têm maior suporte em comparação com a implementação de Máxima Verossimilhança e parcimônia (Fig. 5). No entanto, em geral, a implementação Bayesiana resolve nós mais imprecisos do que a implementação de Mk de Máxima Verossimilhança ou parcimônia. O suporte mediano para nós corretos é maior nas análises Bayesianas, ao contrário das análises de Máxima Verossimilhança, em todos os tamanhos de conjuntos de dados, e essa tendência é particularmente evidente nas árvores assimétricas (Fig. 1). O suporte médio para nós corretos é maior do que para nós incorretos em árvores derivadas da implementação Mk Bayesiana, e sobre todos os métodos (Fig. 1). O suporte bayesiano é maior para nós incorretos em comparação com a Máxima Verossimilhança e a parcimônia (Fig. 1). Há uma diferença clara nos níveis de suporte para nós corretos e incorretos nas árvores Bayesianas, com nós corretos geralmente alcançando suporte superior a 80% e nós incorretos exibindo suporte inferior a 80%. Aplicando um limite de 80% para tamanhos de conjunto de dados de 350 e acima, a implementação Bayesian Mk resolve apenas os nós corretos (Fig. 1). A implementação de Máxima Verossimilhança Mk e a parcimônia não correspondem a este nível de suporte.

Dados empíricos

Houve diferenças substanciais entre as topologias empíricas derivadas da implementação de Máxima Verossimilhança Mk e a estrutura de parcimônia, antes e depois do colapso dos nós com & lt 50% de suporte (Figs 6, 7 O'Reilly et al. 2017, figs S1, S2). Conjuntos de dados menores mostraram as maiores diferenças na topologia e no posicionamento dos táxons chave, quer o suporte seja contabilizado pelo colapso de nós com suporte insuficiente ou não.

Para os conjuntos de dados menores, houve congruência entre as topologias estimadas com métodos diferentes após o colapso de nós com suporte insuficiente. Kulindroplax, de Sutton et al. (2012), não foi suportado como um molusco-coroa com qualquer método quando & lt 50% dos nós suportados são recolhidos (Fig. 6). Isso contrasta com a afinidade do molusco-coroa de Kulindroplax nas árvores estimadas de Máxima Verossimilhança Mk e mais parcimoniosas (Fig. 6). Um padrão semelhante foi observado nas topologias estimadas a partir dos dados de Hilton & Bateman (2006). Tanto a implementação de Máxima Verossimilhança do modelo Mk quanto a estrutura de parcimônia apoiaram a hipótese de antófita nas respectivas árvores ótimas. Após o colapso dos nós com & lt 50% de suporte, ambos os métodos produziram topologias que são mais congruentes com a árvore de consenso da regra da maioria Bayesiana, com uma politomia unindo, mas não diferenciando entre, gimnospermas, samambaias e angiospermas (O'Reilly et al. 2017, fig. S1).

O colapso de nós com suporte insuficiente em árvores estimadas a partir de conjuntos de dados empíricos teve menos impacto sobre a colocação de taxa-chave em conjuntos de dados com maior número de caracteres. Dentro da árvore de consenso da regra da maioria obtida a partir da implementação Bayesiana do modelo Mk, Nyasaurus foi resolvido em uma politomia com os principais clados de Dinosauria (Saurischia, Ornithischia, mas veja Baron et al. 2017), conforme mostrado por Nesbitt et al. ( 2013 ). Nyasasurus também foi resolvido como um membro de Dinosauria na estimativa de Máxima Verossimilhança Mk e árvores mais parcimoniosas esta conclusão não foi afetada por nós em colapso com menos de 50% de suporte de bootstrap (Fig. 7). No entanto, houve mudanças na certeza de colocação de Nyasasaurus depois que o apoio foi avaliado, caiu da associação de Theropoda a Saurischia nas análises de Máxima Verossimilhança Mk, e de Theropoda a Dinosauria em análises de parcimônia. Nem a implementação de Máxima Verossimilhança Mk nem a parcimônia recuperaram Saurischia, Ornithischia, Theropoda ou Sauropoda, embora esses clados tenham sido resolvidos pela implementação Bayesiana Mk (Fig. 7). Um padrão semelhante é visto na reanálise do conjunto de dados de Luo et al. (2015). Todas as árvores, antes e depois de contabilizar o suporte na topologia final, foram resolvidas Haramiyavia fora da coroa-Mammalia e os multiturberculates (O'Reilly et al. 2017, fig. S2).

Análises do menor conjunto de dados (34 caracteres, 48 ​​táxons), de Sutton et al. (2012), recuperou apenas sete nós na árvore de consenso da regra da maioria Bayesiana, mas mais resolução foi alcançada na estimativa de Máxima Verossimilhança Mk (32 nós) e árvores mais parcimoniosas (17 nós). Após o colapso de nós com suporte insuficiente, um nível semelhante de resolução foi alcançado por todos os métodos: Implementação de Mk de Máxima Verossimilhança (8 nós) e parcimônia (6 nós). Isso contrasta com os resultados obtidos a partir de análises de outros conjuntos de dados empíricos maiores, onde, após o colapso dos nós com menos de 50% de suporte, a implementação do Mk Bayesiano produziu consistentemente árvores com a maior resolução: um padrão oposto ao visto em comparação com o ótimo árvores derivadas dos três métodos de inferência filogenética (Tabela 3).

Bayesiano Probabilidade Máxima Parcimônia
Sutton (34 táxons, 48 ​​caracteres) Árvore ótima 7 32 17
Árvore em colapso 7 8 6
Hilton (48 táxons, 82 caracteres) Árvore ótima 28 46 38
Árvore em colapso 28 15 13
Nesbitt (82 táxons, 413 caracteres) Árvore ótima 72 80 72
Árvore em colapso 72 63 47
Luo (114 táxons, 497 caracteres) Árvore ótima 92 112 109
Árvore em colapso 92 69 69

Informações adicionais

Contribuições dos autores

SK realizou muitas das medições de ativação de sinal final e os experimentos de motilidade de células tumorais, ele também escreveu os rascunhos do manuscrito inicial. SH construiu as árvores de decisão e também controlou a qualidade dos dados com os quais contribuiu para as ideias iniciais e redação. SW realizou os experimentos de rastreamento de célula única e contribuiu com o projeto experimental e redação do manuscrito. AI realizou as medições de ativação de sinal inicial nos fibroblastos e moldou as origens do projeto. DAL e AW forneceram orientação geral, concepção inicial do projeto, integraram os diversos aspectos e finalizaram as comunicações. Todos os autores revisaram os dados e contribuíram com interpretações. Todos os autores concordam com o manuscrito submetido.

Sourabh Kharait, Sampsa Hautaniemi contribuiu igualmente para este trabalho.


Reconstruções filogenéticas bayesianas e de probabilidade de traços morfológicos não são discordantes quando se leva a incerteza em consideração: um comentário sobre Puttick et al

Puttick et al. (2017 Proc. R. Soc. B284, 20162290 (doi: 10.1098 / rspb.2016.2290)) realizou um estudo de simulação para comparar a precisão entre métodos de inferir filogenia a partir de caracteres morfológicos discretos. Eles relatam que uma implementação Bayesiana do modelo Mk (Lewis 2001 Syst. Biol.50, 913-925 (doi: 10.1080 / 106351501753462876)) foi mais preciso (mas com baixa resolução), enquanto uma implementação de máxima verossimilhança (ML) do mesmo modelo foi menos precisa. Eles concluem defendendo fortemente que as implementações Bayesianas do modelo Mk devem ser o método padrão de análise para tais dados. Embora apreciemos a tentativa dos autores de investigar a precisão dos métodos alternativos de análise, sua conclusão é baseada em uma comparação inadequada da estimativa pontual de ML, que não considera a confiança, com o consenso Bayesiano, que incorpora a credibilidade da estimativa na árvore de resumo . Usando simulação, demonstramos que as estimativas de ML e Bayesianas são concordantes quando a confiança e a credibilidade são refletidas comparativamente em árvores de resumo, um resultado esperado da teoria estatística. Portanto, discordamos das conclusões de Puttick et al. e consideram a prescrição de qualquer método padrão mal fundamentada. Em vez disso, recomendamos cautela e consideração cuidadosa do modelo ou método sendo aplicado a um conjunto de dados morfológicos.

Palavras-chave: Morfologia de verossimilhança bayesiana e filogenia da paleontologia.

Declaração de conflito de interesse

Declaramos que não temos interesses conflitantes.

Bonecos

Precisão topológica de ML versus ...

Precisão topológica de reconstruções ML versus Bayesian para a comparação mais discordante identificada ...


Assista o vídeo: PART 05 -Metodyka tworzenia modelu silosu w programie Autodesk Robot (Dezembro 2021).