Em formação

8.4: Usando MCMC Bayesiano para estimar parâmetros do modelo Mk - Biologia


Também podemos analisar este modelo usando uma estrutura MCMC Bayesiana. Podemos modificar a abordagem padrão para Bayesian MCMC (ver capítulo 2):

  1. Experimente um valor de parâmetro inicial, q, de suas distribuições anteriores. Para este exemplo, podemos definir nossa distribuição anterior como uniforme entre 0 e 1. (Observe que também se pode tratar as probabilidades de estados na raiz como um parâmetro a ser estimado a partir dos dados; neste caso, atribuiremos probabilidades iguais a cada Estado).
  2. Dado o valor do parâmetro atual, selecione os novos valores dos parâmetros propostos usando a densidade da proposta Q(q′|q) Por exemplo, podemos usar uma densidade de proposta uniforme com largura de 0,2, de modo que Q(q′|q) você(q − 0.1, q + 0.1).
  3. Calcule três razões:
    • uma. O odds ratio anterior, Rpreuor. Neste caso, uma vez que nosso prior é uniforme, Rpreuor = 1.
    • b. A taxa de densidade da proposta, Rproposumaeu. Neste caso, a densidade da nossa proposta é simétrica, então Rproposumaeu = 1.
    • c. A razão de verossimilhança, Reueukeeueuhood. Podemos calcular as probabilidades usando o algoritmo de poda de Felsenstein (Quadro 8.1); em seguida, calcule esse valor com base na equação 2.26.
  4. Achar Rumaccept como o produto das probabilidades anteriores, razão de densidade proposta e razão de verossimilhança. Nesse caso, as chances anteriores e as taxas de densidade da proposta são 1, então Rumaccept = Reueukeeueuhood
  5. Desenhe um número aleatório você de uma distribuição uniforme entre 0 e 1. Se você < Rumaccept, aceite o valor proposto de ambos os parâmetros; caso contrário, rejeite e retenha o valor atual dos dois parâmetros.
  6. Repita as etapas 2 a 5 um grande número de vezes.

Podemos executar esta análise em nossos dados de squamato, obtendo um posterior com uma estimativa média de q = 0,001980785 e um intervalo de credibilidade de 95% de 0,001174813 - 0,003012715.


Uma introdução simples à amostragem Markov Chain Monte – Carlo

Markov Chain Monte – Carlo (MCMC) é um método cada vez mais popular para obter informações sobre distribuições, especialmente para estimar distribuições posteriores em inferência Bayesiana. Este artigo fornece uma introdução básica à amostragem MCMC. Ele descreve o que é MCMC e para que pode ser usado, com exemplos ilustrativos simples. Destacados estão alguns dos benefícios e limitações da amostragem MCMC, bem como diferentes abordagens para contornar as limitações mais prováveis ​​de incomodar os cientistas cognitivos.

Ao longo do século XXI, o uso da amostragem de Monte-Carlo da cadeia de Markov, ou MCMC, cresceu dramaticamente. Mas, o que exatamente é MCMC? E por que sua popularidade está crescendo tão rapidamente? Existem muitos outros artigos tutoriais que abordam essas questões e fornecem excelentes introduções ao MCMC. O objetivo deste artigo não é replicá-los, mas fornecer uma introdução mais básica que deve ser acessível até mesmo para pesquisadores iniciantes. Os leitores interessados ​​em mais detalhes, ou uma cobertura mais avançada do assunto, são encaminhados para livros recentes sobre o assunto, com foco em ciências cognitivas, de Lee (2013) e Kruschke (2014), ou uma exposição mais técnica de Gilks ​​et al. (1996).

MCMC é um método de amostragem controlado por computador (Gamerman e Lopes 2006 Gilks ​​et al. 1996). Ele permite caracterizar uma distribuição sem saber todas as propriedades matemáticas da distribuição por valores de amostragem aleatória fora da distribuição. Um ponto forte particular do MCMC é que ele pode ser usado para extrair amostras de distribuições, mesmo quando tudo o que se sabe sobre a distribuição é como calcular a densidade para diferentes amostras. O nome MCMC combina duas propriedades: Monte – Carlo e Cadeia de Markov. Nota de rodapé 1 Monte-Carlo é a prática de estimar as propriedades de uma distribuição examinando amostras aleatórias da distribuição. Por exemplo, em vez de encontrar a média de uma distribuição normal calculando-a diretamente a partir das equações da distribuição, uma abordagem de Monte-Carlo seria desenhar um grande número de amostras aleatórias de uma distribuição normal e calcular a média da amostra dessas. O benefício da abordagem de Monte-Carlo é claro: calcular a média de uma grande amostra de números pode ser muito mais fácil do que calcular a média diretamente a partir das equações da distribuição normal. Este benefício é mais pronunciado quando as amostras aleatórias são fáceis de desenhar e quando as equações da distribuição são difíceis de trabalhar de outras maneiras. A propriedade da cadeia de Markov do MCMC é a ideia de que as amostras aleatórias são geradas por um processo sequencial especial. Cada amostra aleatória é usada como um trampolim para gerar a próxima amostra aleatória (daí o cadeia) Uma propriedade especial da cadeia é que, enquanto cada nova amostra depende da anterior, novas amostras fazem não dependem de qualquer amostra anterior à anterior (esta é a propriedade “Markov”).

MCMC é particularmente útil na inferência Bayesiana por causa do foco nas distribuições posteriores, que muitas vezes são difíceis de trabalhar por meio de exame analítico. Nestes casos, o MCMC permite ao usuário aproximar aspectos de distribuições posteriores que não podem ser calculados diretamente (por exemplo, amostras aleatórias de meios posteriores, posteriores, etc.). A inferência bayesiana usa as informações fornecidas pelos dados observados sobre um (conjunto de) parâmetro (s), formalmente o probabilidade, para atualizar um anterior estado de crenças sobre um (conjunto de) parâmetro (s) para se tornar um posterior estado de crenças sobre um (conjunto de) parâmetro (s). Formalmente, a regra de Bayes é definida como

Onde µ indica um (conjunto de) parâmetro (s) de interesse e D indica os dados, p(µ|D) indica o posterior ou a probabilidade de µ dados os dados, p(D|µ) indica a probabilidade ou a probabilidade dos dados fornecidos µ, e p(µ) indica a probabilidade a priori ou a priori de µ. O símbolo ∝ significa “é proporcional a”.

Mais informações sobre esse processo podem ser encontradas em Lee (2013), em Kruschke (2014) ou em outro lugar nesta edição especial. O ponto importante para esta exposição é que a maneira como os dados são usados ​​para atualizar a crença anterior é examinando a probabilidade dos dados dados um determinado (conjunto de) valor (es) do (s) parâmetro (s) de interesse. Idealmente, gostaríamos de avaliar essa probabilidade para cada combinação de valores de parâmetros. Quando uma expressão analítica para essa probabilidade está disponível, ela pode ser combinada com a anterior para derivar a posterior analiticamente. Muitas vezes, na prática, não se tem acesso a tal expressão analítica. Na inferência bayesiana, esse problema é mais frequentemente resolvido via MCMC: desenhar uma sequência de amostras a partir da parte posterior e examinar sua média, intervalo e assim por diante.

A inferência bayesiana se beneficiou muito do poder do MCMC. Mesmo apenas no domínio da psicologia, MCMC tem sido aplicado em uma vasta gama de paradigmas de pesquisa, incluindo comparação de modelos bayesianos (Scheibehenne et al. 2013), retenção de memória (Shiffrin et al. 2008), teoria de detecção de sinal (Lee 2008) , percepção extra-sensorial (Wagenmakers et al. 2012), árvores de processamento multinomial (Matzke et al. 2015), tomada de risco (van Ravenzwaaij et al. 2011), tomada de decisão heurística (van Ravenzwaaij et al. 2014) e tomada de decisão primata (Cassey et al. 2014).

Embora MCMC possa parecer complexo quando descrito de forma abstrata, sua implementação prática pode ser muito simples. A próxima seção fornece um exemplo simples para demonstrar a natureza direta do MCMC.


Introdução

A modelagem matemática se tornou uma ferramenta importante em muitas áreas da ciência e além, como meio de resumir nosso estado atual de conhecimento, desafiando nossa compreensão e fazendo previsões. No campo da biologia de sistemas, os modelos matemáticos [1], [2] desempenham um papel fundamental na descoberta de padrões em dados ômicos, apresentando e avaliando hipóteses para ajudar a explicar fenômenos biológicos complexos, bem como orientar novos experimentos. Freqüentemente, a abordagem de sistemas é um processo altamente iterativo, pois os modelos são gerados, falsificados, atualizados, validados e refinados em função do aumento de dados. Numerosas abordagens de modelagem são usadas na prática, variando de análises de estrutura de rede topológica a equações diferenciais parciais estocásticas em geometrias complexas. As técnicas são alinhadas apropriadamente com a questão em questão, a resolução que se deseja alcançar e os dados disponíveis. Em todos os casos, exceto nos casos mais simples, um desafio para o modelador é a escolha de uma parametrização útil do problema e, muitas vezes em discussão com experimentalistas, para conceber formas de obter estimativas razoáveis ​​para os parâmetros do sistema. Dependendo do método, esses parâmetros podem ser inerentes a uma abordagem de aprendizado de máquina, os chamados parâmetros de caixa preta, e de pouco interesse para o biólogo ou para modelos mecanísticos, eles podem na verdade corresponder a entidades biológicas, como concentrações, constantes de dissociação ou degradação taxas que podem ser usadas para fins de validação e o projeto de outros experimentos. Abordagens recentes para realizar estimativa de parâmetro incluem simular recozimento [3], técnicas de spline [4], regressão [5], enxame de partículas [6], disparo múltiplo [7] e abordagens bayesianas [8] - [10]. Um método eficaz para estimativa de parâmetros é a técnica do filtro de Kalman, e variações recentes desse método mostraram um bom desempenho para exemplos de modelos biológicos [11], [12]. Visões gerais de alguns desses métodos estão disponíveis [13] - [16].

Nós nos concentramos aqui na modelagem mecanicista dinâmica para a qual os próprios parâmetros são de interesse e não apenas um meio para um fim. Muitos estudos de modelagem mecanicista em biologia empregaram equações diferenciais ordinárias (EDOs) como a estrutura matemática de escolha. As razões para isso incluem a maneira natural que muitos problemas biológicos podem ser colocados como o estudo do comportamento de um sistema dinâmico de componentes interagindo ao longo do tempo e as rotinas numéricas bem estabelecidas para resolver tais sistemas. Por exemplo, a conversão de uma rede regulatória genética em um formalismo matemático pode ser alcançada usando a cinética enzimática estabelecida e seguindo as convenções padrão [17]. Esta abordagem dá origem a um modelo mecanicista com (em princípio) parâmetros cinéticos mensuráveis. Infelizmente, no entanto, esses parâmetros são frequentemente desconhecidos experimentalmente, ou determinados sob em vitro condições para sistemas análogos e, portanto, devem ser estimados a partir dos dados disponíveis. Este é um grande obstáculo que tem recebido muita atenção dos biólogos de sistemas [14], [15], [18]. Uma abordagem comum é usar algoritmos de otimização [13] para encontrar o melhor ajuste aos dados [3], [14], [18] - [20]. Essa abordagem pode ser motivada invocando argumentos de máxima verossimilhança. A otimização local está muito bem estabelecida e vários pacotes de alto desempenho estão disponíveis, muitas vezes baseados em variantes do método de Newton, como otimizadores de região de confiança ou abordagens de gradiente conjugado [21], no entanto, a não linearidade dos sistemas biológicos pode levar à aptidão multimodal paisagens [22] que requerem técnicas de otimização global para evitar ficar preso em mínimos locais. A otimização global [13], no entanto, permanece um desafio e apesar de uma série de abordagens poderosas, como algoritmos genéticos, recozimento simulado e filtros de partículas, encontrar um ótimo global raramente pode ser garantido na prática. Além disso, foi notado que o mínimo global pode não resultar em parâmetros biologicamente realistas [23].

Um problema conhecido com a probabilidade máxima e, em geral, as abordagens de otimização é que, sem outras precauções, elas podem levar ao sobreajuste de um modelo para os dados, ou seja, os parâmetros são definidos de forma muito mais precisa do que o justificado pelo conteúdo de informação dos dados [ 24]. Estes são problemas bem documentados com soluções estabelecidas, como a metodologia Bayesiana e termos corretivos baseados na teoria da informação para a máxima verossimilhança, como o critério de informação de Akaike (AIC) [25], [26]. Uma boa revisão curta dessas abordagens aplicáveis ​​a biólogos de sistemas é fornecida por Kirk et al. [27]. Outro problema é que o conjunto de parâmetros de melhor ajuste para um modelo pode não ser representativo do espaço de parâmetros [28]. Um algoritmo de otimização pode perder soluções ou contribuições importantes de outras partes do espaço de parâmetros. Além disso, foi demonstrado que na biologia de sistemas nem todos os parâmetros são identificáveis ​​de forma única [29]. Existem problemas de desleixo e correlações entre os parâmetros [29], [30]. Os parâmetros também mostraram se comportar de maneira diferente entre os sistemas determinísticos e estocásticos correspondentes [31].

A escassez de grandes quantidades de dados de alta qualidade é um problema comum enfrentado por biólogos computacionais que buscam modelar um sistema experimental. A estrutura bayesiana [32], [33] é uma forma atraente de lidar com esse problema de forma a reduzir o risco de sobreajuste. A inferência bayesiana abrange naturalmente a navalha de Occam [34], [35] e, portanto, é inerentemente responsável pelo trade-off entre a qualidade do ajuste de um modelo e sua simplicidade [36]. A abordagem bayesiana não visa produzir uma estimativa pontual para quantidades de interesse, mas captura toda a incerteza do problema que se reflete na distribuição de probabilidade posterior. Em particular, para distribuições não unimodais, as estimativas pontuais podem ser enganosas. As técnicas bayesianas estão ganhando interesse em várias áreas de pesquisa e encontrando maior aplicação na biologia computacional [37], [38] devido à disponibilidade de desenvolvimentos de última geração [8], [9], [22], [39 ] - [45]. Outros avanços recentes mostraram que problemas biofísicos multidimensionais podem ser resolvidos com sucesso dentro da estrutura Bayesiana, por exemplo, cadeia de Markov Monte Carlo (MCMC) foi empregada para aproximar adequadamente uma distribuição anterior para estudar a taxa de secreção de insulina [46], integração termodinâmica para bioquímicos oscilações [22] e amostragem de Monte Carlo baseada em cópula foi usada para comparar modelos de processamento de zircônio humano [47]. No entanto, as demandas computacionais para tais abordagens geralmente as tornam proibitivas para muitos problemas. A principal razão para este esforço computacional está no cálculo de integrais de alta dimensão que surgem através do processo de marginalização e normalização na inferência Bayesiana [28], [32]. As técnicas de Monte Carlo são a forma estabelecida para calcular tais integrais, no entanto, podem exigir muitos milhares de ciclos para fornecer resultados adequados e há problemas conhecidos com os tempos de decorrelação da amostra MCMC [40]. A amostragem aninhada [48] foi apresentada como uma variante bayesiana dessa abordagem e mostrou um bom desempenho para exemplos de teste simples [49]. Recentemente, esta abordagem foi usada com sucesso para análise de dados astronômicos [50], [51], para explorar o espaço de fase configuracional de sistemas químicos [42], para inferência de parâmetros de um modelo de relógio circadiano [52] e para um dos mais desafiadores problemas em biofísica, nomeadamente a exploração de paisagens de dobragem de proteínas [43].

Nesta contribuição, exploramos o uso da amostragem aninhada de Skilling [48], [49] para modelos biológicos, uma área que recebeu pouca exposição a este método até o momento [42], [43], [52]. A amostragem aninhada tem mostrado resultados encorajadores e ganhos de eficiência sobre outras técnicas de amostragem [50], [51], [53]. Mostramos como o procedimento produz amostras da distribuição de probabilidade posterior dos parâmetros para calcular a constante de normalização da posterior, que é chamada de evidência [28]. Essa evidência é usada no fator de Bayes e, portanto, em contraste com os métodos MCMC padrão, obtemos a quantidade chave para a comparação do modelo simultaneamente com as amostras posteriores para a estimativa dos parâmetros. Demonstramos essa abordagem com vários modelos biológicos para dados esparsos e ruidosos.


Como o anterior e o posterior se encaixam?

A modelagem bayesiana difere de outros tipos de inferência baseada em modelos devido à incorporação da anterior. O teorema de Bayes & # x02019 é dado na Fig. 2. No teorema de Bayes & # x02019, a probabilidade dos dados observados (a probabilidade) dada alguma hipótese é multiplicada pela probabilidade anterior dessa hipótese. Este produto é dividido pela probabilidade marginal dos dados observados, ou seja, a probabilidade dos dados com os valores dos parâmetros integrados. O resultado final é a probabilidade da hipótese, dados os dados observados. Essa probabilidade é chamada de probabilidade posterior e é proporcional ao produto da anterior e da verossimilhança.

Esta é uma quantidade desafiadora para calcular & # x02014 qual é a probabilidade marginal dos dados? Avaliamos combinações de valores para nossos parâmetros usando Cadeia de Markov Monte Carlo, ou MCMC, simulação (Metropolis et al. 1953, Hastings 1970, Mau et al. 1999). O MCMC permite que novos valores aleatórios para cada parâmetro sejam propostos, de forma que as soluções possam ser avaliadas. No algoritmo MCMC, um conjunto inicial de valores para os parâmetros do modelo é proposto. Esses valores são então alterados e novos valores obtidos. Este é o aspecto & # x02018Monte Carlo & # x02019 do nome: escolhemos novos valores aleatoriamente, embora frequentemente dentro de algumas condições restritivas. O ato de alterar os valores dos parâmetros costuma ser chamado de & # x02018move & # x02019. Esses novos parâmetros são avaliados. O produto da verossimilhança e da anterior é calculado, aproximando a probabilidade posterior. Geralmente, se a probabilidade posterior melhora em relação aos valores antigos ou é a mesma, os valores dos parâmetros avaliados serão mantidos e usados ​​como base para o próximo conjunto de movimentos. O algoritmo MCMC é mostrado na Fig. 4.

Fluxograma do algoritmo MCMC. No algoritmo MCMC, as condições iniciais são propostas e avaliadas quanto à probabilidade. Em seguida, a árvore e / ou outros parâmetros do modelo são alterados. A probabilidade desses novos valores é então avaliada. Se eles representam uma melhoria em relação aos antigos, eles são usados ​​para semear a próxima etapa MCMC. Se não, eles são rejeitados.

Um movimento pode ser grande em escala, alterando radicalmente um determinado parâmetro, ou pode ser pequeno em escala, fazendo apenas pequenas alterações em um parâmetro. Os movimentos também variam na frequência com que são executados.Parâmetros de modelo mais importantes podem ser & # x02018 movidos & # x02019 mais frequentemente para estimar boas soluções para eles. Os estados anteriores testados pelo algoritmo MCMC não são considerados ao fazer movimentos. É por isso que este processo é uma & # x02018Markov Chain & # x02019, ou processo sem memória. Soluções visitadas anteriormente não são removidas da população de soluções possíveis, portanto, uma solução realmente boa será revisitada muitas vezes durante a amostragem MCMC. O objetivo da amostragem MCMC é visitar soluções em proporção à sua probabilidade posterior. As regiões do espaço de parâmetros podem ser incluídas ou excluídas da amostragem MCMC por meio do uso de priors. Um modelo bem especificado acabará por convergir para a distribuição verdadeira de cada variável aleatória. Ao amostrar muitas combinações possíveis de parâmetros ao longo de uma estimativa filogenética, estimamos a posterior sem ter que calcular explicitamente a probabilidade marginal. Isso nos permite completar a equação mostrada na Fig. 2 para calcular a probabilidade posterior.

Embora o MCMC não considere suas etapas anteriores ao fazer novos, a maioria dos pacotes de software de filogenética escreve as combinações anteriores de parâmetros. O que é produzido costuma ser denominado amostra posterior, um registro das árvores, comprimentos de galhos e parâmetros do modelo que foram examinados durante a análise filogenética. Árvores de resumo podem então ser construídas a partir dessa amostra, e o grau de confiança em qualquer bipartição particular na árvore avaliada. A frequência com que diferentes soluções para qualquer parâmetro específico foram visitadas também pode ser avaliada. A consideração de uma amostra posterior de árvores filogenéticas é um pouco diferente de outras maneiras de estimar árvores e tem implicações em como os pesquisadores devem considerar análises macroevolutivas mais amplas.


N OVAS A NÁLISE EM R ESPONSE A D EBRUYNE E P OINAR

Aqui, nos baseamos em um estudo de simulação que foi apresentado em uma de nossas avaliações anteriores de estimativa de taxa bayesiana usando dados de aDNA (Ho et al. 2007b). Debruyne e Poinar contestaram os resultados deste estudo, criticando dois aspectos de nossas análises. Em primeiro lugar, eles argumentam que as taxas estimadas a partir dos dados simulados são mais precisas do que as obtidas a partir de dados reais de aDNA. Embora essa observação esteja correta, esses resultados são uma consequência esperada da análise baseada em simulação: os modelos evolutivos para substituição de nucleotídeos e histórico demográfico usados ​​na análise dos dados simulados são escolhidos para corresponder às condições sob as quais os dados foram gerados. Isso é adotado como prática padrão para facilitar o isolamento dos efeitos do (s) fator (es) de interesse.

A segunda crítica ao estudo de simulação de Ho et al. (2007b) é que a taxa de substituição usada nas simulações é muito alta, com Debruyne e Poinar afirmando que a taxa é “25 vezes a estimativa da taxa de substituição para o genoma mt de vertebrados” (p. 350). No entanto, esta taxa de simulação foi inspirada por estimativas publicadas do D-loop mitocondrial (Lambert et al. 2002, Shapiro et al. 2004), enquanto Debruyne e Poinar comparam esta taxa com a estimada de seus dados elefantídeos, que são baseados no todo genomas mitocondriais analisados ​​ao longo de um período filogenético. Na verdade, a grande maioria dos conjuntos de dados de aDNA publicados compreende sequências do D-loop, que exibe taxas de mutação e substituição muito mais altas do que o resto do genoma mitocondrial em vertebrados. Isso também põe em questão o desenho da análise principal apresentada em sua crítica, na qual subamostras de genomas mitocondriais completos de mamutes lanosos foram considerados representativos de conjuntos de dados reais de aDNA.

No entanto, a alta taxa usada em nossa simulação poderia ser vista como um problema legítimo se as taxas de curto prazo não fossem realmente elevadas. Isso levou Debruyne e Poinar a colocar a questão: "qual seria a exatidão e precisão da taxa de mudança posterior se uma taxa de substituição mais lenta, na faixa das taxas de substituição mitocondrial interespecífica (entre 1 e 2 × 10 - 8 substituições / local / ano) foram aplicados para simular os mesmos dados de sequência? ” (p. 350). Em resposta a esta pergunta, e para abordar algumas de suas outras preocupações, apresentamos os resultados de um estudo de simulação detalhado abaixo.

Estudo de Simulação

Conduzimos análises de dados simulados de aDNA para investigar o desempenho da estimativa de taxas bayesianas. A quantidade de viés de estimativa de taxa é quantificada sob várias combinações de taxa de simulação e comprimento de sequência, incluindo condições que podem corresponder àquelas comumente encontradas em pesquisas reais de aDNA. Investigamos o impacto da variação do tamanho da população antes e comparamos o desempenho de diferentes medidas posteriores da taxa.

Materiais e métodos.-

A evolução da sequência foi simulada usando Seq-Gen (Rambaut e Grassly 1997) em árvores aleatórias geradas de acordo com um modelo coalescente com um tamanho de população constante de 105. Cada conjunto de dados simulado compreendeu 31 sequências não combinadas com carimbo de tempo, com idades de 0, 1000 , 2000,…, 30.000 anos. Todas as sequências foram geradas de acordo com o modelo Jukes-Cantor de substituição de nucleotídeos (Jukes e Cantor 1969), com homogeneidade de taxa entre os locais e entre os ramos. As simulações foram realizadas com 3 taxas de substituição diferentes (1 × 10 - 8 substituições / local / ano, 5 × 10 - 8 substituições / local / ano e 1 × 10 - 7 substituições / local / ano) e 2 comprimentos de sequência (100 e 1000 bp), representando a gama de características de conjuntos de dados de aDNA típicos e abrangendo as condições esperadas para gerar alinhamentos de sequência com baixo conteúdo de informação. Mil conjuntos de dados replicados foram gerados para cada combinação de comprimento e taxa de sequência. Além da taxa de substituição e do comprimento da sequência, as simulações são idênticas às descritas no “regime de amostragem uniforme” em nosso estudo anterior (Ho et al. 2007b).

As taxas de substituição foram estimadas a partir dos conjuntos de dados simulados usando o software filogenético Bayesian BEAST 1.4.8 (Drummond e Rambaut 2007). Para coincidir com as condições de simulação, o modelo de substituição Jukes-Cantor foi assumido e um prior coalescente de tamanho constante foi escolhido para a árvore. Um prior uniforme de [0, ∞) foi escolhido para a taxa de substituição. Distribuições posteriores dos parâmetros foram obtidas por amostragem de Markov Chain Monte Carlo (MCMC), com amostras retiradas a cada 500 passos em um total de 2 × 107 passos, com os primeiros 10% das amostras descartados como burn-in. Para comparar diferentes medidas posteriores da taxa de substituição, a média, mediana e modo da distribuição da taxa posterior foram calculados para cada análise. Tamanhos de amostra eficazes de parâmetros foram examinados para verificar a mistura de MCMC aceitável e amostragem suficiente da parte posterior.

Para qualquer conjunto de dados, as estimativas de taxa e tamanho da população estão intimamente ligadas. O tamanho da população anterior pode ser influente na estimativa das taxas, particularmente quando o conjunto de dados é relativamente pouco informativo. Investigamos esse problema realizando três conjuntos de análises, diferindo apenas no tamanho da população anterior: 1) tamanho da população fixado em seu valor verdadeiro (simulação) de 105 2) tamanho da população dado um anterior uniforme de [0, ∞) e 3) tamanho da população dado um anterior uniforme de [10 0, 10 9], representando uma gama de valores que podem ser considerados biologicamente plausíveis para vertebrados. Observe que em todas essas análises, o "tamanho da população" é realmente dado como Neτ, o produto do tamanho efetivo da população (Ne) e tempo de geração em anos (τ).

Resultados.-

O desempenho da estimativa de taxas variou consideravelmente entre os três conjuntos de simulações, fornecendo uma forte indicação da influência do tamanho da população anterior (Tabela 1). Quando o tamanho da população é fixado em seu valor verdadeiro (simulação) de 10 5, as estimativas das taxas são exatas e precisas. O intervalo de densidade posterior (HPD) mais alto de 95% da taxa de substituição incluiu o valor de simulação em pelo menos 95% do tempo. Conforme observado por Debruyne e Poinar, as estimativas da taxa posterior média revelam que há uma superestimação considerável da taxa quando há baixo conteúdo de informação ou pouca variabilidade de sequência no conjunto de dados (baixa taxa de substituição e / ou comprimento de sequência curto). No entanto, esse viés desaparece nos conjuntos de dados mais informativos. Como as distribuições de taxas posteriores são leptocúrticas, as medianas são menos tendenciosas do que as médias. O modo posterior, que representa o máximo a posteriori estimativa da taxa, parece fornecer uma medida imparcial em todas as combinações de taxa de substituição e comprimento de sequência.

Resumo dos resultados do estudo de simulação, com média de 1000 réplicas. Para as simulações com um tamanho de população anterior a Uniform [0, ∞), os resultados foram resumidos apenas das repetições que exibiram convergência MCMC aceitável. Mais detalhes são fornecidos no texto

Antes do tamanho da população Taxa real (substituições / local / ano) Comprimento (bp) Estimativa de taxa posterior (substituições / local / ano) Tamanho médio do intervalo HPD de 95% (substituições / local / ano) 95% de cobertura HPD uma
Quer dizer Mediana Modo
Fixo em 10 5 1.00 × 10 −8 100 2.32 × 10 −8 1.87 × 10 −8 1.05 × 10 −8 5.63 × 10 −8 0.98
Fixo em 10 5 1.00 × 10 −8 1000 1.20 × 10 −8 1.14 × 10 −8 1.01 × 10 −8 1.67 × 10 −8 0.96
Fixo em 10 5 5.00 × 10 −8 100 6.74 × 10 −8 6.17 × 10 −8 5.10 × 10 −8 1.15 × 10 −7 0.96
Fixo em 10 5 5.00 × 10 −8 1000 5.31 × 10 −8 5.20 × 10 −8 4.97 × 10 −8 4.51 × 10 −8 0.96
Fixo em 10 5 1.00 × 10 −7 100 1.20 × 10 −7 1.13 × 10 −7 1.00 × 10 −7 1.67 × 10 −7 0.97
Fixo em 10 5 1.00 × 10 −7 1000 1.04 × 10 −7 1.03 × 10 −7 9.99 × 10 −8 7.18 × 10 −8 0.95
Uniforme [0, ∞) 1.00 × 10 −8 100 1.68 × 10 −7 1.21 × 10 −7 3.57 × 10 −8 4.80 × 10 −7 1.00
Uniforme [0, ∞) 1.00 × 10 −8 1000 2.82 × 10 −8 2.56 × 10 −8 2.08 × 10 −8 5.49 × 10 −8 0.97
Uniforme [0, ∞) 5.00 × 10 −8 100 1.92 × 10 −7 1.65 × 10 −7 1.07 × 10 −7 4.32 × 10 −7 0.96
Uniforme [0, ∞) 5.00 × 10 −8 1000 5.89 × 10 −8 5.71 × 10 −8 5.35 × 10 −8 8.10 × 10 −8 0.98
Uniforme [0, ∞) 1.00 × 10 −7 100 2.66 × 10 −7 2.40 × 10 −7 1.86 × 10 −7 5.28 × 10 −7 0.97
Uniforme [0, ∞) 1.00 × 10 −7 1000 1.03 × 10 −7 1.01 × 10 −7 9.78 × 10 −8 1.10 × 10 −7 0.97
Uniforme [10 0, 10 9] 1.00 × 10 −8 100 3.53 × 10 −8 7.34 × 10 −9 8.31 × 10 −9 1.68 × 10 −7 1.00
Uniforme [10 0, 10 9] 1.00 × 10 −8 1000 9.07 × 10 −9 6.71 × 10 −9 2.48 × 10 −9 2.52 × 10 −8 0.81
Uniforme [10 0, 10 9] 5.00 × 10 −8 100 5.20 × 10 −8 2.75 × 10 −8 8.48 × 10 −9 1.84 × 10 −7 0.83
Uniforme [10 0, 10 9] 5.00 × 10 −8 1000 4.66 × 10 −8 4.48 × 10 −8 3.53 × 10 −8 7.26 × 10 −8 0.87
Uniforme [10 0, 10 9] 1.00 × 10 −7 100 8.44 × 10 −8 5.80 × 10 −8 2.18 × 10 −8 2.49 × 10 −7 0.78
Uniforme [10 0, 10 9] 1.00 × 10 −7 1000 9.79 × 10 −8 9.63 × 10 −8 9.11 × 10 −8 1.09 × 10 −7 0.91
Antes do tamanho da população Taxa real (substituições / local / ano) Comprimento (bp) Estimativa de taxa posterior (substituições / local / ano) Tamanho médio do intervalo HPD de 95% (substituições / local / ano) 95% de cobertura HPD uma
Quer dizer Mediana Modo
Fixo em 10 5 1.00 × 10 −8 100 2.32 × 10 −8 1.87 × 10 −8 1.05 × 10 −8 5.63 × 10 −8 0.98
Fixo em 10 5 1.00 × 10 −8 1000 1.20 × 10 −8 1.14 × 10 −8 1.01 × 10 −8 1.67 × 10 −8 0.96
Fixo em 10 5 5.00 × 10 −8 100 6.74 × 10 −8 6.17 × 10 −8 5.10 × 10 −8 1.15 × 10 −7 0.96
Fixo em 10 5 5.00 × 10 −8 1000 5.31 × 10 −8 5.20 × 10 −8 4.97 × 10 −8 4.51 × 10 −8 0.96
Fixo em 10 5 1.00 × 10 −7 100 1.20 × 10 −7 1.13 × 10 −7 1.00 × 10 −7 1.67 × 10 −7 0.97
Fixo em 10 5 1.00 × 10 −7 1000 1.04 × 10 −7 1.03 × 10 −7 9.99 × 10 −8 7.18 × 10 −8 0.95
Uniforme [0, ∞) 1.00 × 10 −8 100 1.68 × 10 −7 1.21 × 10 −7 3.57 × 10 −8 4.80 × 10 −7 1.00
Uniforme [0, ∞) 1.00 × 10 −8 1000 2.82 × 10 −8 2.56 × 10 −8 2.08 × 10 −8 5.49 × 10 −8 0.97
Uniforme [0, ∞) 5.00 × 10 −8 100 1.92 × 10 −7 1.65 × 10 −7 1.07 × 10 −7 4.32 × 10 −7 0.96
Uniforme [0, ∞) 5.00 × 10 −8 1000 5.89 × 10 −8 5.71 × 10 −8 5.35 × 10 −8 8.10 × 10 −8 0.98
Uniforme [0, ∞) 1.00 × 10 −7 100 2.66 × 10 −7 2.40 × 10 −7 1.86 × 10 −7 5.28 × 10 −7 0.97
Uniforme [0, ∞) 1.00 × 10 −7 1000 1.03 × 10 −7 1.01 × 10 −7 9.78 × 10 −8 1.10 × 10 −7 0.97
Uniforme [10 0, 10 9] 1.00 × 10 −8 100 3.53 × 10 −8 7.34 × 10 −9 8.31 × 10 −9 1.68 × 10 −7 1.00
Uniforme [10 0, 10 9] 1.00 × 10 −8 1000 9.07 × 10 −9 6.71 × 10 −9 2.48 × 10 −9 2.52 × 10 −8 0.81
Uniforme [10 0, 10 9] 5.00 × 10 −8 100 5.20 × 10 −8 2.75 × 10 −8 8.48 × 10 −9 1.84 × 10 −7 0.83
Uniforme [10 0, 10 9] 5.00 × 10 −8 1000 4.66 × 10 −8 4.48 × 10 −8 3.53 × 10 −8 7.26 × 10 −8 0.87
Uniforme [10 0, 10 9] 1.00 × 10 −7 100 8.44 × 10 −8 5.80 × 10 −8 2.18 × 10 −8 2.49 × 10 −7 0.78
Uniforme [10 0, 10 9] 1.00 × 10 −7 1000 9.79 × 10 −8 9.63 × 10 −8 9.11 × 10 −8 1.09 × 10 −7 0.91

Proporção de simulações em que o intervalo HPD de 95% da taxa continha o valor verdadeiro (simulação).

Resumo dos resultados do estudo de simulação, com média de 1000 réplicas. Para as simulações com um tamanho de população anterior a Uniform [0, ∞), os resultados foram apenas resumidos das repetições que exibiram convergência MCMC aceitável. Mais detalhes são fornecidos no texto

Antes do tamanho da população Taxa real (substituições / local / ano) Comprimento (bp) Estimativa de taxa posterior (substituições / local / ano) Tamanho médio do intervalo HPD de 95% (substituições / local / ano) 95% de cobertura HPD uma
Quer dizer Mediana Modo
Fixo em 10 5 1.00 × 10 −8 100 2.32 × 10 −8 1.87 × 10 −8 1.05 × 10 −8 5.63 × 10 −8 0.98
Fixo em 10 5 1.00 × 10 −8 1000 1.20 × 10 −8 1.14 × 10 −8 1.01 × 10 −8 1.67 × 10 −8 0.96
Fixo em 10 5 5.00 × 10 −8 100 6.74 × 10 −8 6.17 × 10 −8 5.10 × 10 −8 1.15 × 10 −7 0.96
Fixo em 10 5 5.00 × 10 −8 1000 5.31 × 10 −8 5.20 × 10 −8 4.97 × 10 −8 4.51 × 10 −8 0.96
Fixo em 10 5 1.00 × 10 −7 100 1.20 × 10 −7 1.13 × 10 −7 1.00 × 10 −7 1.67 × 10 −7 0.97
Fixo em 10 5 1.00 × 10 −7 1000 1.04 × 10 −7 1.03 × 10 −7 9.99 × 10 −8 7.18 × 10 −8 0.95
Uniforme [0, ∞) 1.00 × 10 −8 100 1.68 × 10 −7 1.21 × 10 −7 3.57 × 10 −8 4.80 × 10 −7 1.00
Uniforme [0, ∞) 1.00 × 10 −8 1000 2.82 × 10 −8 2.56 × 10 −8 2.08 × 10 −8 5.49 × 10 −8 0.97
Uniforme [0, ∞) 5.00 × 10 −8 100 1.92 × 10 −7 1.65 × 10 −7 1.07 × 10 −7 4.32 × 10 −7 0.96
Uniforme [0, ∞) 5.00 × 10 −8 1000 5.89 × 10 −8 5.71 × 10 −8 5.35 × 10 −8 8.10 × 10 −8 0.98
Uniforme [0, ∞) 1.00 × 10 −7 100 2.66 × 10 −7 2.40 × 10 −7 1.86 × 10 −7 5.28 × 10 −7 0.97
Uniforme [0, ∞) 1.00 × 10 −7 1000 1.03 × 10 −7 1.01 × 10 −7 9.78 × 10 −8 1.10 × 10 −7 0.97
Uniforme [10 0, 10 9] 1.00 × 10 −8 100 3.53 × 10 −8 7.34 × 10 −9 8.31 × 10 −9 1.68 × 10 −7 1.00
Uniforme [10 0, 10 9] 1.00 × 10 −8 1000 9.07 × 10 −9 6.71 × 10 −9 2.48 × 10 −9 2.52 × 10 −8 0.81
Uniforme [10 0, 10 9] 5.00 × 10 −8 100 5.20 × 10 −8 2.75 × 10 −8 8.48 × 10 −9 1.84 × 10 −7 0.83
Uniforme [10 0, 10 9] 5.00 × 10 −8 1000 4.66 × 10 −8 4.48 × 10 −8 3.53 × 10 −8 7.26 × 10 −8 0.87
Uniforme [10 0, 10 9] 1.00 × 10 −7 100 8.44 × 10 −8 5.80 × 10 −8 2.18 × 10 −8 2.49 × 10 −7 0.78
Uniforme [10 0, 10 9] 1.00 × 10 −7 1000 9.79 × 10 −8 9.63 × 10 −8 9.11 × 10 −8 1.09 × 10 −7 0.91
Antes do tamanho da população Taxa real (substituições / local / ano) Comprimento (bp) Estimativa de taxa posterior (substituições / local / ano) Tamanho médio de intervalo HPD de 95% (substituições / local / ano) 95% de cobertura HPD uma
Quer dizer Mediana Modo
Fixo em 10 5 1.00 × 10 −8 100 2.32 × 10 −8 1.87 × 10 −8 1.05 × 10 −8 5.63 × 10 −8 0.98
Fixo em 10 5 1.00 × 10 −8 1000 1.20 × 10 −8 1.14 × 10 −8 1.01 × 10 −8 1.67 × 10 −8 0.96
Fixo em 10 5 5.00 × 10 −8 100 6.74 × 10 −8 6.17 × 10 −8 5.10 × 10 −8 1.15 × 10 −7 0.96
Fixo em 10 5 5.00 × 10 −8 1000 5.31 × 10 −8 5.20 × 10 −8 4.97 × 10 −8 4.51 × 10 −8 0.96
Fixo em 10 5 1.00 × 10 −7 100 1.20 × 10 −7 1.13 × 10 −7 1.00 × 10 −7 1.67 × 10 −7 0.97
Fixo em 10 5 1.00 × 10 −7 1000 1.04 × 10 −7 1.03 × 10 −7 9.99 × 10 −8 7.18 × 10 −8 0.95
Uniforme [0, ∞) 1.00 × 10 −8 100 1.68 × 10 −7 1.21 × 10 −7 3.57 × 10 −8 4.80 × 10 −7 1.00
Uniforme [0, ∞) 1.00 × 10 −8 1000 2.82 × 10 −8 2.56 × 10 −8 2.08 × 10 −8 5.49 × 10 −8 0.97
Uniforme [0, ∞) 5.00 × 10 −8 100 1.92 × 10 −7 1.65 × 10 −7 1.07 × 10 −7 4.32 × 10 −7 0.96
Uniforme [0, ∞) 5.00 × 10 −8 1000 5.89 × 10 −8 5.71 × 10 −8 5.35 × 10 −8 8.10 × 10 −8 0.98
Uniforme [0, ∞) 1.00 × 10 −7 100 2.66 × 10 −7 2.40 × 10 −7 1.86 × 10 −7 5.28 × 10 −7 0.97
Uniforme [0, ∞) 1.00 × 10 −7 1000 1.03 × 10 −7 1.01 × 10 −7 9.78 × 10 −8 1.10 × 10 −7 0.97
Uniforme [10 0, 10 9] 1.00 × 10 −8 100 3.53 × 10 −8 7.34 × 10 −9 8.31 × 10 −9 1.68 × 10 −7 1.00
Uniforme [10 0, 10 9] 1.00 × 10 −8 1000 9.07 × 10 −9 6.71 × 10 −9 2.48 × 10 −9 2.52 × 10 −8 0.81
Uniforme [10 0, 10 9] 5.00 × 10 −8 100 5.20 × 10 −8 2.75 × 10 −8 8.48 × 10 −9 1.84 × 10 −7 0.83
Uniforme [10 0, 10 9] 5.00 × 10 −8 1000 4.66 × 10 −8 4.48 × 10 −8 3.53 × 10 −8 7.26 × 10 −8 0.87
Uniforme [10 0, 10 9] 1.00 × 10 −7 100 8.44 × 10 −8 5.80 × 10 −8 2.18 × 10 −8 2.49 × 10 −7 0.78
Uniforme [10 0, 10 9] 1.00 × 10 −7 1000 9.79 × 10 −8 9.63 × 10 −8 9.11 × 10 −8 1.09 × 10 −7 0.91

Proporção de simulações em que o intervalo HPD de 95% da taxa continha o valor verdadeiro (simulação).

Um padrão diferente emerge quando o tamanho da população recebe uma distribuição anterior uniforme ilimitada (Tabela 1). Muitas das análises MCMC falharam em convergir, produzindo amostras posteriores com tamanhos de amostra eficazes não superiores a 100 e com o tamanho da população tendendo para o infinito e a taxa tendendo para zero. A porcentagem de análises que não convergiram variou de 10,2% a 99,2% nas 6 configurações de simulação (Fig. 1). Se essas réplicas problemáticas forem removidas, as réplicas restantes parecem produzir estimativas razoáveis ​​da taxa de substituição (Tabela 1). O intervalo HPD de 95% da taxa, embora consideravelmente mais amplo do que quando o tamanho da população foi fixado em seu valor correto, incluiu o valor de simulação pelo menos 96% do tempo. Estimativas plausíveis e unimodais do tamanho da população foram obtidas nas análises MCMC que mostraram sinais de convergência. No entanto, em quase todas as configurações de simulação, a taxa foi superestimada pela média, mediana e moda. Esta poderia ser uma consequência direta da remoção das réplicas que produziram análises MCMC não convertidas porque aquelas teriam sido os conjuntos de dados com conteúdo de informação estocasticamente mais baixo (isto é, impulsionado por um número menor de substituições e, portanto, produzindo estimativas de taxas mais baixas). Levando isso em consideração, é difícil estabelecer se o viés de estimativa é genuíno ou se resulta da obtenção de uma amostra tendenciosa das repetições da simulação.

Gráficos que mostram as correspondências entre o tamanho médio posterior da população, a taxa média posterior e a convergência MCMC para análises Bayesianas de dados gerados em 6 condições de simulação diferentes (3 taxas diferentes e 2 comprimentos de sequência diferentes). Os resultados foram obtidos usando um tamanho de população não informativo anterior (uniforme de 0 a ) Cada painel mostra os resultados da análise de 1000 réplicas, classificados da esquerda para a direita pelo tamanho da população posterior média ascendente (curva superior). A estimativa da taxa posterior média para o conjunto de dados correspondente também é exibida na mesma escala (curva inferior), mostrando uma relação próxima com o tamanho estimado da população. Cada simulação recebe uma linha vertical cinza no fundo se o tamanho efetivo da amostra para a verossimilhança posterior for inferior a 100, o que sugere uma falta de convergência para a distribuição estacionária. Para cada análise MCMC, as amostras foram retiradas da parte posterior a cada 500 etapas em um total de 2 × 10 7 etapas, com os primeiros 10% das amostras descartadas como burn-in.

Gráficos que mostram as correspondências entre o tamanho médio posterior da população, a taxa média posterior e a convergência MCMC para análises Bayesianas de dados gerados em 6 condições de simulação diferentes (3 taxas diferentes e 2 comprimentos de sequência diferentes). Os resultados foram obtidos usando um tamanho de população não informativo anterior (uniforme de 0 a ) Cada painel mostra os resultados da análise de 1000 réplicas, classificados da esquerda para a direita pelo tamanho da população posterior média ascendente (curva superior). A estimativa da taxa posterior média para o conjunto de dados correspondente também é exibida na mesma escala (curva inferior), mostrando uma relação próxima com o tamanho da população estimada. Cada simulação recebe uma linha vertical cinza no fundo se o tamanho efetivo da amostra para a verossimilhança posterior for inferior a 100, o que sugere uma falta de convergência para a distribuição estacionária. Para cada análise MCMC, as amostras foram retiradas da parte posterior a cada 500 etapas em um total de 2 × 10 7 etapas, com os primeiros 10% das amostras descartadas como burn-in.

Quando o tamanho da população é restrito a uma faixa de valores biologicamente plausíveis (10 0 –10 9), ainda outra imagem se materializa. A cobertura pelos intervalos HPD de 95% foi mais pobre, com o valor da simulação sendo excluído do intervalo HPD de 95% em até 22% do tempo (Tabela 1). O tamanho médio do intervalo HPD de 95% é menor do que nas análises sem quaisquer restrições no tamanho da população, embora a disparidade desapareça à medida que o número de locais variáveis ​​no alinhamento aumenta. O modo posterior não é mais o melhor resumo da taxa, provavelmente porque as restrições ao tamanho da população também impõem restrições aos valores que podem ser assumidos pela taxa de substituição. Em alguns casos, a distribuição posterior da taxa é implicitamente restrita, levando a um modo distorcido. Por outro lado, a média posterior parece fornecer uma estimativa razoavelmente precisa da taxa de substituição verdadeira (Tabela 1), embora seja possível que isso seja em parte uma consequência não intencional das restrições de tamanho da população. Ou seja, a taxa posterior média pode ser precisa apenas como resultado dos antecedentes do tamanho da população restringindo a taxa de substituição a valores razoáveis, mesmo na ausência de informações reais sobre as taxas nos dados. Este efeito poderia potencialmente explicar algumas das estimativas de taxas publicadas de alinhamentos de sequência de aDNA não informativos, que assumiram valores aparentemente plausíveis, apesar do baixo conteúdo de informação dos dados.

Conjuntos de dados aDNA

Os conjuntos de dados aDNA publicados variam consideravelmente em termos de seus comprimentos de sequência e taxas de substituição subjacentes, bem como a estrutura temporal e a distribuição das amostras. Seria útil avaliar o conteúdo da informação nesses conjuntos de dados para determinar se eles podem produzir estimativas confiáveis ​​de taxas de substituição e tempos de divergência. Uma faceta significativa dos dados heterócrons que é esquecida pelo uso de estatísticas de diversidade (Depaulis et al. 2009), e nas análises de conteúdo de informação realizadas por Debruyne e Poinar, é que as idades das sequências formam um componente importante da informação conteúdo (por exemplo, Firth et al. 2010). Isso decorre do fato de que as idades da sequência são usadas para calibrar as estimativas das taxas de substituição. Um problema potencial nas análises de dados heterócrons é que as estimativas de taxas podem ser um artefato das idades de amostragem.

Aqui, usamos um teste de randomização de data para investigar a estrutura temporal em 18 conjuntos de dados aDNA publicados. Este teste envolve reanalisar cada conjunto de dados após embaralhar aleatoriamente as idades das sequências e segue vários estudos anteriores de dados heterócrons (de Bruyn et al. 2009, Miller et al. 2009, Subramanian et al. 2009b, Firth et al. 2010). A análise de aleatorização de data é capaz de fornecer alguns insights sobre se a estrutura e a distribuição das idades da sequência são suficientes para fornecer informações confiáveis ​​sobre a taxa subjacente à evolução do conjunto de dados. Se a estimativa de taxa original for recuperada nos conjuntos de dados randomizados por data, então não há estrutura temporal suficiente no conjunto de dados original e a estimativa de taxa não pode ser suportada (Firth et al. 2010).

Materiais e métodos.-

Usando o método filogenético Bayesiano implementado no BEAST v1.5.4 (Drummond e Rambaut 2007), analisamos 18 alinhamentos de aDNA publicados: 16 dos 19 conjuntos de dados de aDNA analisados ​​por Ho et al.(2007b), o alinhamento de 11 mitogenomas de mamutes lanudos examinados por Debruyne e Poinar, e um alinhamento de muskox D-loop (Campos et al. 2010). Excluímos três conjuntos de dados do estudo de Ho et al. (2007b): o Clorobio e os alinhamentos nene continham poucas sequências antigas para o teste de randomização, enquanto o alinhamento muskox é substituído pelo maior conjunto de dados publicado por Campos et al. (2010). As características básicas dos 18 conjuntos de dados estão descritas na Tabela 2, com mais detalhes disponíveis nas publicações originais.

Detalhes de alinhamentos de aDNA analisados ​​usando o teste de randomização de data descrito no texto

Espécies Região Sequências (antigo + moderno) Faixa etária uma (anos) Comprimento (bp) Sites variáveis Resultado do teste de randomização de data
Pinguim Adélie Pygoscelis adeliaeD-loop 96 + 380 6424 347 159
Raposa ártica Alopex lagopusD-loop 8 + 41 16,000 291 23
Auroque Bos primigeniusD-loop 41 + 0 10,300 360 34
Búfalo Bison priscusD-loop 150 + 32 60,400 615 170
Javali Sus scrofaD-loop 81 + 7 5400 572 47
Baleia-cabeça-branca Balaena mysticetusD-loop 99 + 68 51,000 453 72 Falhou
Urso marrom Ursus arctosD-loop 36 + 57 59,000 193 69
Urso das cavernas Ursus spelaeusD-loop 26 + 0 53,470 288 31 Falhou
Hiena das cavernas Crocuta crocuta spelaeaD-loop 10 + 0 13,140 366 27 Falhou
Leão da caverna Panthera leo spelaeaD-loop 23 + 0 46,275 213 12
Vaca Bos taurusD-loop 36 + 91 8065 410 65
Cavalo Equus caballusD-loop 12 + 33 28,340 348 70
Milho Zea maysadh29 + 11 4500 190 26 Falhou
Moa Pachyornis mappiniD-loop 14 + 0 4912 241 20 Falhou
Boi almiscarado Ovibos moschatusD-loop 114 + 16 45,740 682 203
Tuco-tuco Ctenomys sociabiliscytb45 + 1 10,208 253 13
Mamute peludo Mammuthus primigeniusD-loop 32 + 0 35,970 741 42 Falhou
Mamute peludo Mammuthus primigeniusMitogenoma 11 + 0 38,030 16,484 112 Falhou
Espécies Região Sequências (antigo + moderno) Faixa etária uma (anos) Comprimento (bp) Sites variáveis Resultado do teste de randomização de data
Pinguim Adélie Pygoscelis adeliaeD-loop 96 + 380 6424 347 159
Raposa ártica Alopex lagopusD-loop 8 + 41 16,000 291 23
Auroque Bos primigeniusD-loop 41 + 0 10,300 360 34
Búfalo Bison priscusD-loop 150 + 32 60,400 615 170
Javali Sus scrofaD-loop 81 + 7 5400 572 47
Baleia-cabeça-branca Balaena mysticetusD-loop 99 + 68 51,000 453 72 Falhou
Urso marrom Ursus arctosD-loop 36 + 57 59,000 193 69
Urso das cavernas Ursus spelaeusD-loop 26 + 0 53,470 288 31 Falhou
Hiena das cavernas Crocuta crocuta spelaeaD-loop 10 + 0 13,140 366 27 Falhou
Leão da caverna Panthera leo spelaeaD-loop 23 + 0 46,275 213 12
Vaca Bos taurusD-loop 36 + 91 8065 410 65
Cavalo Equus caballusD-loop 12 + 33 28,340 348 70
Milho Zea maysadh29 + 11 4500 190 26 Falhou
Moa Pachyornis mappiniD-loop 14 + 0 4912 241 20 Falhou
Boi almiscarado Ovibos moschatusD-loop 114 + 16 45,740 682 203
Tuco-tuco Ctenomys sociabiliscytb45 + 1 10,208 253 13
Mamute peludo Mammuthus primigeniusD-loop 32 + 0 35,970 741 42 Falhou
Mamute peludo Mammuthus primigeniusMitogenoma 11 + 0 38,030 16,484 112 Falhou

Idade da sequência mais antiga menos a idade da sequência mais jovem.

Detalhes dos alinhamentos de aDNA analisados ​​usando o teste de randomização de data descrito no texto

Espécies Região Sequências (antigo + moderno) Faixa etária uma (anos) Comprimento (bp) Sites variáveis Resultado do teste de randomização de data
Pinguim Adélie Pygoscelis adeliaeD-loop 96 + 380 6424 347 159
Raposa ártica Alopex lagopusD-loop 8 + 41 16,000 291 23
Auroque Bos primigeniusD-loop 41 + 0 10,300 360 34
Búfalo Prisco BisonD-loop 150 + 32 60,400 615 170
Javali Sus scrofaD-loop 81 + 7 5400 572 47
Baleia-do-mato Balaena mysticetusD-loop 99 + 68 51,000 453 72 Falhou
Urso marrom Ursus arctosD-loop 36 + 57 59,000 193 69
Urso das cavernas Ursus spelaeusD-loop 26 + 0 53,470 288 31 Falhou
Hiena das cavernas Crocuta crocuta spelaeaD-loop 10 + 0 13,140 366 27 Falhou
Leão da caverna Panthera leo spelaeaD-loop 23 + 0 46,275 213 12
Vaca Bos taurusD-loop 36 + 91 8065 410 65
Cavalo Equus caballusD-loop 12 + 33 28,340 348 70
Milho Zea maysadh29 + 11 4500 190 26 Falhou
Moa Pachyornis mappiniD-loop 14 + 0 4912 241 20 Falhou
Boi almiscarado Ovibos moschatusD-loop 114 + 16 45,740 682 203
Tuco-tuco Ctenomys sociabiliscytb45 + 1 10,208 253 13
Mamute peludo Mammuthus primigeniusD-loop 32 + 0 35,970 741 42 Falhou
Mamute peludo Mammuthus primigeniusMitogenoma 11 + 0 38,030 16,484 112 Falhou
Espécies Região Sequências (antigo + moderno) Faixa etária uma (anos) Comprimento (bp) Sites variáveis Resultado do teste de randomização de data
Pinguim Adélie Pygoscelis adeliaeD-loop 96 + 380 6424 347 159
Raposa ártica Alopex lagopusD-loop 8 + 41 16,000 291 23
Auroque Bos primigeniusD-loop 41 + 0 10,300 360 34
Búfalo Bison priscusD-loop 150 + 32 60,400 615 170
Javali Sus scrofaD-loop 81 + 7 5400 572 47
Baleia-do-mato Balaena mysticetusD-loop 99 + 68 51,000 453 72 Falhou
Urso marrom Ursus arctosD-loop 36 + 57 59,000 193 69
Urso das cavernas Ursus spelaeusD-loop 26 + 0 53,470 288 31 Falhou
Hiena das cavernas Crocuta crocuta spelaeaD-loop 10 + 0 13,140 366 27 Falhou
Leão da caverna Panthera leo spelaeaD-loop 23 + 0 46,275 213 12
Vaca Bos taurusD-loop 36 + 91 8065 410 65
Cavalo Equus caballusD-loop 12 + 33 28,340 348 70
Milho Zea maysadh29 + 11 4500 190 26 Falhou
Moa Pachyornis mappiniD-loop 14 + 0 4912 241 20 Falhou
Boi almiscarado Ovibos moschatusD-loop 114 + 16 45,740 682 203
Tuco-tuco Ctenomys sociabiliscytb45 + 1 10,208 253 13
Mamute peludo Mammuthus primigeniusD-loop 32 + 0 35,970 741 42 Falhou
Mamute peludo Mammuthus primigeniusMitogenoma 11 + 0 38,030 16,484 112 Falhou

Idade da sequência mais antiga menos a idade da sequência mais jovem.

Os modelos de substituição foram selecionados pela comparação das pontuações do critério de informação bayesiana, com o número de sites alinhados considerado como o tamanho da amostra para o termo de penalidade. Devido à natureza intraespecífica dos conjuntos de dados, foram excluídos os modelos que permitiam uma proporção de locais invariáveis. Todos os conjuntos de dados foram tratados como não particionados e um anterior coalescente de tamanho constante foi especificado para a topologia e os tempos de divergência. Todas as análises foram repetidas usando um modelo demográfico de skyride bayesiano (Minin et al. 2008). O melhor modelo demográfico (tamanho constante ou skyride bayesiano) foi escolhido com base na inspeção visual dos resultados. Em cada análise, amostras da parte posterior foram retiradas a cada 5 × 10 3 etapas de um total de 5 × 10 7 etapas, com os primeiros 10% sendo descartados como burn-in. Quando necessário, o número de etapas MCMC foi duplicado ou triplicado a fim de atingir um tamanho de amostra eficaz & gt 100 para a estimativa da taxa.

As idades da sequência em cada um dos 18 conjuntos de dados de aDNA foram então reatribuídas aleatoriamente. Essa randomização foi realizada 20 vezes para cada conjunto de dados usando o aplicativo Java SiteSampler v1.1 (Ho e Lanfear 2010). As análises filogenéticas bayesianas foram realizadas usando as mesmas configurações descritas acima para os dados originais. Para cada conjunto de dados randomizados por data, o modelo demográfico foi escolhido para corresponder ao selecionado para os dados originais.

Resultados.-

As estimativas de taxas posteriores dos 18 conjuntos de dados são mostradas na Figura 2. É interessante notar que, entre os 7 conjuntos de dados que falharam no teste de randomização de data, nem todos produziram estimativas de taxas com amplos intervalos HPD de 95%. Nestes casos, a taxa posterior modal foi semelhante à taxa posterior média (resultados não mostrados).

Estimativas de taxas de substituição de uma variedade de alinhamentos de aDNA. Para cada conjunto de dados, o primeiro ponto de dados representa a taxa estimada a partir do conjunto de dados original (círculos preenchidos), enquanto os 20 pontos de dados restantes (círculos não preenchidos) representam as taxas estimadas de réplicas nas quais as idades das pontas foram aleatoriamente embaralhadas. Os alinhamentos foram considerados “aprovados” no teste de randomização de data se a estimativa da taxa posterior média do conjunto de dados original não for incluída em nenhum dos intervalos HPD de 95% das réplicas randomizadas de data. a) Estimativas de taxas de alinhamentos que passaram no teste de randomização de data. b) Estimativas de taxas de alinhamentos que falharam no teste de randomização de data.

Estimativas de taxas de substituição de uma variedade de alinhamentos de aDNA. Para cada conjunto de dados, o primeiro ponto de dados representa a taxa estimada a partir do conjunto de dados original (círculos preenchidos), enquanto os 20 pontos de dados restantes (círculos não preenchidos) representam as taxas estimadas de réplicas nas quais as idades das pontas foram aleatoriamente embaralhadas. Os alinhamentos foram considerados “aprovados” no teste de randomização de data se a estimativa da taxa posterior média do conjunto de dados original não for incluída em nenhum dos intervalos HPD de 95% das réplicas randomizadas de data. a) Estimativas de taxas de alinhamentos que passaram no teste de randomização de data. b) Estimativas de taxas de alinhamentos que falharam no teste de randomização de data.

Para investigar a presença potencial de vieses dependentes do sinal nessas estimativas, consideramos as taxas posteriores médias em relação às características dos conjuntos de dados a partir dos quais foram estimados. Debruyne e Poinar levantam a hipótese de que a estimativa da taxa posterior média deve ser exponencialmente relacionada à quantidade de informações no conjunto de dados, conforme refletido pelo comprimento do alinhamento. Examinamos 4 medidas de conteúdo de informação: o número de sites alinhados, o número de sites variáveis, o número de sequências e o produto do número de sites e sequências no alinhamento. Excluindo o alinhamento do mitogenoma de mamutes lanosos, que representa um outlier e não é independente do alinhamento do D-loop da mesma espécie, não encontramos evidências de que qualquer uma dessas medidas esteja relacionada à estimativa da taxa posterior média nos 17 conjuntos de dados de aDNA restantes (r 2 & lt 0.1 e P & gt 0,2 em todos os casos). No entanto, mais de 40% da variação nas estimativas de taxa pode ser explicada por uma relação exponencial com a faixa etária das sequências em cada conjunto de dados (r 2 = 0.431umandP = 0.004).

Uma visão mais aprofundada da estrutura temporal dentro dos conjuntos de dados foi obtida por meio das análises de randomização de datas. Onze alinhamentos passaram no teste de randomização e sete falharam (Fig. 2 Tabela 2). Além dos resultados apresentados neste estudo, as análises de randomização de dados anteriores de aDNA de tuatara (Subramanian et al. 2009b) e elefantes marinhos (de Bruyn et al. 2009) indicaram que esses dois conjuntos de dados contêm informações temporais suficientes para produzir estimativas das taxas de substituição. Entre os conjuntos de dados que falharam no teste de randomização de data, o alinhamento da baleia-da-cabeça-branca é conhecido por sua baixa diversidade de sequência, com a variação observada dominada por mutações singleton (Borge et al. 2007). O alinhamento do milho é um pequeno conjunto de dados que compreende sequências amostradas em um curto período de tempo (Freitas et al. 2003). Notavelmente, ambos os alinhamentos mamutes (D-loop e genoma mitocondrial completo) falharam no teste de randomização de data.


Uso

um objeto da classe "phylo". No caso de fitmultiMk, um objeto da classe "simmap" com um caractere discreto mapeado.

um vetor de valores de ponta para nomes de espécies (x) deve ser os nomes das espécies. No caso dos métodos de plotagem e densidade, um objeto da classe apropriada.

modelo. Veja make.simmap ou ace para detalhes.

valor fixo da matriz de transição Q, se for desejado.

para fitpolyMk, um valor lógico que indica se o caractere deve ou não ser tratado como ordenado. Por enquanto, a função assume ordem alfanumérica (ou seja, números classificados por seus dígitos iniciais e sucessivos seguidos por caracteres ou cadeias de caracteres em ordem alfabética).

Para graph.polyMk, o número de estados monomórficos para o traço discreto.

número de gerações de MCMC para mcmcMk.

número de categorias de taxa (por nível da característica discreta) no modelo de taxa oculta.

argumentos opcionais, incluindo pi, a distribuição anterior no nó raiz (o padrão é pi = "igual"). Outras opções para pi incluem pi = "fitzjohn" (que implementa a distribuição anterior de Fitzjohn et al. 2009), pi = "estimado" (que encontra a distribuição estacionária de frequências de estado e define como a anterior), ou um prior arbitrário distribuição especificada pelo usuário. Para o método de plotagem, os argumentos opcionais incluem (mas não podem estar limitados a): signif, o número de dígitos para as taxas a serem plotadas principal, um vetor de caracteres de comprimento dois com os títulos para cada subplot cex.main, cex.traits e cex.rates, tamanhos de fonte para os vários elementos de texto do plot e show.zeros, um argumento lógico que especifica se deve ou não plotar setas com a taxa de transição estimada de ML não é diferente de zero (com tolerância especificada pelo argumento opcional tol) . Finalmente, para fitpolyMk, max.poly pode ser definido para o modelo encomendado = TRUE. max.poly padroniza para o nível mais alto de polimorfismo observado nos dados.


Carregando os dados no BEAUti

Para carregar um alinhamento de formato NEXUS, simplesmente selecione Importar Dados. opção no menu Arquivo e selecione o arquivo chamado YFV.nex. Este arquivo contém um alinhamento de 71 sequências do gene prM / E de YFV, 654 nucleotídeos de comprimento. Depois de carregados, os dados da sequência serão listados em Partições de dados:

Clique duas vezes no nome do arquivo na tabela (mas não no nome da partição) para exibir o alinhamento da sequência real:

Especificando um conjunto de táxons

No painel Taxa, podemos definir conjuntos de taxa para os quais gostaríamos de obter estatísticas específicas, impor uma restrição monofilética ou colocar informações de calibração. Vamos definir um conjunto de táxons "Américas" pressionando o pequeno botão "mais" na parte inferior esquerda do painel:

Isso criará um novo conjunto de táxons. Renomeie-o clicando duas vezes na entrada que aparece (inicialmente será chamada de sem título1). Chame isso de Américas. Não impõe monofilia usando o monofilético? opção porque iremos avaliar o suporte para este cluster. Não optamos pelo includeStem? opção porque gostaríamos de estimar o TRMCA para os vírus das Américas e não para o nó pai que leva a este clado.

Na próxima tabela, você verá os táxons disponíveis. Os táxons podem ser selecionados e movidos para o conjunto de táxons incluídos pressionando o botão de seta verde. Observe que vários táxons podem ser selecionados simultaneamente mantendo pressionado o botão Comando ou Controle em um Mac ou PC, respectivamente. Como a maioria dos táxons são das Américas, o mais conveniente é simplesmente selecionar todos os táxons, movê-los para o conjunto de táxons incluídos e, em seguida, retroceder os táxons africanos (o país de amostragem está incluído no final dos nomes dos táxons). Verifique se há apenas países africanos à esquerda (deve haver 21) e apenas países americanos à direita (deve haver 50).

Para obter mais informações sobre a criação de conjuntos de táxons, consulte esta página.

Após essas operações, a tela deve ficar assim:

Definir as datas das dicas

Para informar a BEAUti / BEAST sobre as datas de amostragem das sequências, acesse o painel Dicas e selecione a opção Usar datas de dicas. Por padrão, todos os taxa são assumidos como tendo uma data zero (ou seja, as sequências são consideradas amostradas ao mesmo tempo que o BEAST considera o tempo de amostragem atual ou mais recente como tempo 0). Neste caso, as sequências de YFV foram amostradas em várias datas desde a década de 1940. O ano real de amostragem é fornecido no nome de cada táxon e poderíamos simplesmente editar o valor na coluna Data da tabela para refleti-los. No entanto, se os nomes dos táxons contiverem as informações de calibração, uma maneira conveniente de especificar as datas das sequências em BEAUti é usar o botão Analisar datas na parte superior do painel Dicas. Clicar aqui fará com que uma caixa de diálogo apareça:

Esta operação tenta adivinhar quais são as datas a partir das informações contidas nos nomes dos táxons. Ele funciona tentando encontrar um campo numérico dentro de cada nome. Se os nomes dos táxons contiverem mais de um campo numérico (como algumas sequências YFV, acima), você pode especificar como encontrar aquele que corresponde à data de amostragem. Consulte esta página para obter detalhes sobre as várias opções para definir datas neste painel. Para as sequências YFV, você pode manter o padrão Definido apenas por sua ordem e Ordem: primeiro (mas certifique-se de que a opção Analisar como um número esteja selecionada).

Ao analisar um número, você pode pedir à BEAUti para adicionar um valor fixo a cada data que pode ser útil para transformar um ano de 2 dígitos em um ano de 4 dígitos. Como todas as datas são especificadas em um formato de quatro dígitos neste caso, nenhuma configuração adicional é necessária. Então, podemos pressionar OK.

A coluna Altura lista as idades das pontas em relação ao tempo 0 (em nosso caso, 2009).

Para essas sequências, apenas o ano de amostragem é fornecido e não as datas exatas de amostragem. Esta incerteza será desprezível em relação à escala de tempo evolutiva relativamente grande deste exemplo, no entanto, é possível acomodar a incerteza do tempo de amostragem - veja aqui.

Definindo o modelo evolutivo

A próxima coisa a fazer é clicar na guia Sites na parte superior da janela principal. Isso irá revelar as configurações do modelo evolutivo para BEAST. Exatamente quais opções aparecem dependem de os dados serem nucleotídeos ou aminoácidos (ou características). Este tutorial presume que você esteja familiarizado com os modelos evolutivos disponíveis - no entanto, há alguns pontos a serem observados sobre a seleção de um modelo no BEAUti:

Modelo de substituição: para dados de nucleotídeos, é uma escolha de JC, HKY, GTR ou TN93. Outros modelos de substituição são possíveis restringindo um desses modelos. Veja esta página para mais detalhes. Frequências de base: As frequências de base de nucleotídeos podem ser Estimadas (estimadas como um parâmetro no modelo), Empíricas (estimadas empricamente a partir dos dados e depois fixas) ou Todas iguais (fixadas em 0,25 cada). Modelo de heterogeneidade de local: uma escolha do modelo de distribuição gama discreto, o modelo de local invariante ou ambos. Partição em posições de códon: Selecionar a opção Partição em posições de códon pressupõe que os dados estão alinhados como códons. Esta opção estimará então uma taxa separada de substituição para cada posição do códon, ou para 1 + 2 versus 3, dependendo da configuração. Desvincular o modelo de substituição nas posições do códon: Selecionar o modelo de substituição Desvincular nas posições do códon irá especificar que o BEAST deve estimar uma relação de transição-transversão separada ou matriz de taxa reversível no tempo geral para cada posição do códon. Desvincular modelo de heterogeneidade de taxa em posições de códon: Selecionar o modelo de Desvincular heterogeneidade de taxa em posições de códon irá especificar que BEAST deve estimar o conjunto de parâmetros de heterogeneidade de taxa (parâmetro de forma gama e / ou proporção de sítios invariantes) para cada posição de códon. Desvincular frequências de base em posições de códon: Selecionar Desvincular frequências de base em posições de códon irá especificar que BEAST deve estimar um conjunto separado de frequências de base para cada posição de códon.

Para este tutorial, selecione as 3 partições: opção de posições 1, 2, 3 para que cada posição de códon tenha seu próprio modelo de substituição HKY, taxa de evolução, frequências de base estimadas e variação de taxa distribuída por gama entre os locais:

Configurando o modelo do relógio

Clique na guia Relógios na parte superior da janela principal. Vamos realizar nossa execução inicial usando o modelo estrito de relógio molecular (padrão):

Definir a árvore inicial e a árvore anterior

Clique na guia Árvores na parte superior da janela principal. Mantemos uma árvore inicial aleatória padrão e um coalescente anterior (simples) de tamanho constante. As árvores anteriores (coalescente e outros modelos) são descritas nesta página.

Configurando os anteriores

Revise as configurações anteriores no painel Priors:

Alguns dos antecedentes marginais padrão podem ser inadequados - isso significa que a distribuição de probabilidade não se integra a um valor finito. Em nossas configurações padrão atuais, o 1 / x anterior em constant.popSize é um exemplo de um prior impróprio.

É importante fornecer a priori adequada para todos os parâmetros sendo estimados, pois a priori imprópria leva a posteriores impróprios e verossimilhanças marginais impróprias (ao realizar a seleção do modelo bayesiano, cfr um tutorial de workshop diferente).Para alterar o prior em constant.popSize, por exemplo, clique no prior correspondente e uma janela de seleção anterior aparecerá. Defina o anterior para uma distribuição lognormal com mu = 1 e sigma = 10. A representação gráfica dessa distribuição anterior indica que a maior parte da massa anterior é colocada em valores relativamente pequenos, mas a densidade permanece suficientemente difusa em valores maiores. & ltObserve que a configuração anterior fica preta depois de confirmar essa configuração clicando em ”OK”. & gt

Observe que o default anterior na taxa de evolução (clock.rate) é uma aproximação de uma referência condicional a priori (Approx. Reference Prior) (Ferreira e Suchard, 2008). Se as sequências não estiverem associadas a datas de amostragem diferentes (são contemporâneas), ou quando o intervalo de tempo de amostragem for trivial para a escala evolutiva dos táxons, a taxa de substituição pode ser fixada em um valor baseado em outra fonte, ou melhor, um a distribuição prévia pode ser especificada para incorporar também a incerteza dessa taxa 'externa'. Fixar a taxa em 1,0 resultará nas idades dos nós da árvore sendo estimadas em unidades de substituições por local (ou seja, as unidades normais de comprimentos de ramificação em pacotes populares como MrBayes). Observe que ao selecionar para fixar a taxa em um valor, o (s) kernel (s) de transição neste parâmetro (painel Operadores, consulte a próxima seção) serão automaticamente desmarcados.

Configurando os operadores

Cada parâmetro no modelo tem um ou mais “operadores” (eles são chamados de movimentos, propostas ou kernels de transição por outros pacotes de software MCMC, como MrBayes e LAMARC). Os operadores especificam como os parâmetros mudam à medida que o MCMC é executado. A partir do BEAST v1.8.4, diferentes opções estão disponíveis com relação à exploração do espaço da árvore. Neste tutorial, usaremos a ‘combinação de operadores clássicos’, que consiste em um conjunto de kernels de transição de árvore que propõem mudanças na árvore. Há também uma opção para corrigir a topologia da árvore, bem como uma "nova mistura experimental", que está atualmente em desenvolvimento com o objetivo de melhorar a mistura para grandes árvores filogenéticas.

O painel Operadores em BEAUti tem uma tabela que lista os parâmetros, seus operadores e as configurações de ajuste para esses operadores:

Na primeira coluna estão os nomes dos parâmetros. Eles serão chamados de coisas como CP1.kappa, o que significa o parâmetro kappa do modelo HKY (o viés de transição-transversão) para a posição do primeiro códon. A próxima coluna contém os tipos de operadores que atuam em cada parâmetro. Por exemplo, o operador de escala dimensiona o parâmetro para cima ou para baixo em uma proporção, o operador de passeio aleatório adiciona ou subtrai uma quantidade ao parâmetro e o operador uniforme simplesmente escolhe um novo valor uniformemente dentro de um intervalo. Alguns parâmetros estão relacionados à árvore ou aos tempos de divergência dos nós da árvore e possuem operadores especiais.

Cada operador também possui uma caixa de seleção (a coluna Em uso) que pode ser usada para ligar e desligar operadores individuais. Por exemplo, desmarcar os operadores na taxa de evolução (clock.rate e taxas e alturas de substituição) fixará a taxa para o valor inicial. O valor inicial de um parâmetro é definido na tabela Priors.

A próxima coluna, rotulada Tuning, fornece uma configuração de ajuste para o operador. Alguns operadores não têm nenhuma configuração de ajuste, portanto, tenha n / a nesta coluna. O parâmetro de ajuste determinará o tamanho do movimento que cada operador fará, o que afetará a frequência com que essa mudança é aceita pelo MCMC, o que, por sua vez, afetará a eficiência da análise. Para a maioria dos operadores (como caminhada aleatória e operadores de deslizamento de subárvore), um parâmetro de ajuste maior significa movimentos maiores. No entanto, para o operador de escala, um valor de parâmetro de ajuste mais próximo de 0,0 significa movimentos maiores. No topo da janela está uma opção chamada Otimização Automática que, quando selecionada, ajustará automaticamente a configuração de ajuste conforme o MCMC é executado para tentar alcançar a eficiência máxima. No final da execução, uma tabela dos operadores, seu desempenho e os valores finais dessas configurações de ajuste serão gravados na saída padrão. Em geral, a otimização automática dos operadores funciona bem e nada precisa ser alterado.

A próxima coluna, rotulada Peso, especifica com que freqüência cada operador é aplicado em relação aos outros. Alguns parâmetros tendem a ser amostrados de forma muito eficiente - um exemplo é o parâmetro kappa - esses parâmetros têm seus operadores ponderados para baixo para que não sejam alterados com tanta frequência.

A partir do BEAST v1.8.4, diferentes opções estão disponíveis com relação à exploração do espaço de parâmetros usando a opção Operator mix. O padrão é a combinação clássica de operadores, que é uma combinação de operadores e pesos que correspondem às versões anteriores do BEAST. Também existe a opção de corrigir a topologia da árvore, bem como uma nova mistura experimental, que está atualmente em desenvolvimento com o objetivo de melhorar a mistura para grandes árvores filogenéticas. Essas opções ativam e desativam os operadores, portanto, podem ser substituídas usando as opções Em uso.

Na maioria dos casos, nenhuma alteração é necessária a esta tabela, mas os operadores podem ser "desligados", o que tem o efeito de fixar o parâmetro em seu valor inicial.

Para esta análise, nenhuma alteração é necessária a esta tabela.

Configurando as opções MCMC

A guia MCMC em BEAUti fornece configurações para controlar a cadeia MCMC. Em primeiro lugar, temos o comprimento da corrente. Este é o número de etapas que o MCMC fará na cadeia antes de terminar. Quanto tempo isso deve depender do tamanho do conjunto de dados, da complexidade do modelo e da precisão da resposta necessária. O valor padrão de 10.000.000 é totalmente arbitrário e deve ser ajustado de acordo com o tamanho do seu conjunto de dados. Veremos mais tarde como o arquivo de log resultante pode ser analisado usando o Tracer para examinar se um determinado comprimento de cadeia é adequado.

As próximas opções especificam com que freqüência os valores dos parâmetros atuais devem ser exibidos na tela e registrados no arquivo de log. A saída da tela é simplesmente para monitorar o progresso do programa, portanto, pode ser definida para qualquer valor (embora se definida muito pequena, a grande quantidade de informações exibidas na tela irá desacelerar o programa). Para o arquivo de log, o valor deve ser definido em relação ao comprimento total da cadeia. A amostragem com muita frequência resultará em arquivos muito grandes, com poucos benefícios extras em termos de precisão das estimativas. Faça uma amostra com pouca frequência e o arquivo de log não conterá muitas informações sobre as distribuições dos parâmetros. Você provavelmente deseja armazenar não mais do que 10.000 amostras, então isso deve ser definido como algo & gt = comprimento da cadeia / 10.000.

Para este conjunto de dados, vamos definir inicialmente o comprimento da cadeia para 100.000, pois isso será executado de forma razoavelmente rápida na maioria dos computadores modernos. Embora a sugestão acima indique uma frequência de amostragem mais baixa, neste caso defina ambas as frequências de amostragem para 100.

A próxima opção permite que o usuário defina o nome do tronco do arquivo, se não for definido como ‘YFV’ por padrão, você pode digitá-lo aqui (ou adicionar mais detalhes sobre a análise). As próximas duas opções fornecem os nomes dos arquivos de log para os parâmetros e as árvores. Eles serão definidos como um padrão com base no nome do tronco do arquivo.

As opções restantes podem ser deixadas desmarcadas neste momento. Uma opção está disponível para amostrar apenas do anterior, o que pode ser útil para avaliar o quão divergentes são nossas estimativas posteriores quando as informações são extraídas dos dados. Além disso, pode-se optar por realizar a estimativa de probabilidade marginal para avaliar o ajuste do modelo. Voltaremos a isso em um tutorial posterior.

Salvando e carregando arquivos BEAUti

Se você selecionar a opção Salvar no menu Arquivo, isso salvará um documento no formato do próprio BEAUti. Observe que não está no formato que o BEAST entende - ele só pode ser reaberto pela BEAUti. A ideia é que as configurações e dados no BEAUti possam ser salvos e carregados posteriormente. Sugerimos que você salve os arquivos BEAUti com a extensão ‘.beauti’.


Estimativa hierárquica de parâmetros em redes bayesianas ☆

Uma nova abordagem para estimativa de parâmetros em redes Bayesianas é apresentada. A ideia principal é introduzir um hiperprior no modelo Multinomial – Dirichlet, tradicionalmente usado para estimação de distribuição condicional em redes Bayesianas. O modelo hierárquico resultante estima em conjunto diferentes distribuições condicionais pertencentes à mesma tabela de probabilidade condicional, assim emprestando força estatística de um para o outro. Um estudo analítico da estrutura de dependência a priori induzida pelo modelo hierárquico é realizado e um Ad hoc algoritmo variacional para inferência rápida e precisa é derivado. O modelo hierárquico proposto produz uma grande melhoria de desempenho na classificação com redes Bayesianas em comparação com os modelos tradicionais. O algoritmo variacional proposto reduz em duas ordens de magnitude o tempo computacional, com a mesma precisão na estimativa dos parâmetros, em comparação com os métodos tradicionais MCMC. Além disso, motivado por um estudo de caso real, o modelo hierárquico é aplicado à estimação de parâmetros de redes bayesianas por emprestando força de domínios relacionados.


3. Resultados

3.1 Amostras isócronas

O conjunto de dados carnívoros de 62 táxons consiste em um único gene (ND5) que particionamos de acordo com a posição do códon. Assumimos que cada partição evolui em uma taxa relativa diferente e de acordo com um modelo HKY independente (Hasegawa et al., 1985), com variação de taxa entre sites em cada partição modelada por uma distribuição gama discreta com 4 categorias de taxa (Yang, 1996). Junto com o processo Yule anterior (Yule, 1924) na árvore, isso equivale a 10 parâmetros a serem estimados além da filogenia: três relações de transição / transversão (κ1, κ2, κ3 ) - transformado em log, três parâmetros de forma para modelar taxas variáveis ​​entre os sites (α1, α2, α3 ) - transformado em logaritmo, três taxas relativas (μ1, μ2, μ3 ) - logit escalado -transformado e uma taxa de natalidade & # x003c8 - log -transformado - para o processo Yule anterior.

A abordagem padrão no BEAST é usar escala ou kernel de transição de passeio aleatório, 1 em cada parâmetro, que comparamos aqui a 1 kernel de transição AVMVN que propõe simultaneamente novos valores para todos os 10 parâmetros. Pesos para os kernels de transição padrão para μ1, μ2, μ3 e & # x003ba3 foram fixados em 6 e 3, respectivamente, com os pesos de kernel de transição não-árvore restantes fixados em 2 (consulte Materiais e métodos), os pesos para os kernels de transição de árvore foram mantidos em seus valores originais no momento da escrita (a partir de BEAST v1. 8.4 os pesos padrão para os kernels de transição foram alterados). Isso leva a um peso combinado de 21 para o kernel de transição AVMVN, os kernels de transição da árvore e seus pesos foram mantidos em seus padrões. Para o kernel de transição AVMVN, C0 foi definido para 1.000, com n0 definido em 500, o que leva a um desempenho ligeiramente melhor em comparação com o que consideramos ser os valores padrão para conjuntos de dados com uma quantidade relativamente baixa de parâmetros ( C0 = 5.000 e n0 = 2.500 ).

Avaliamos o desempenho dos diferentes conjuntos de kernels de transição para o conjunto de dados carnívoros (Fig. 1) em diferentes sistemas de CPU multi-core em cinco réplicas independentes. Medimos o desempenho em ambos os conjuntos de kernels de transição calculando o ESS total por minuto para todos os parâmetros de interesse. Embora a plataforma Haswell mais recente tenha uma velocidade de execução muito maior do que a plataforma Westmere, o que pode ser atribuído a sua largura de banda de memória substancialmente maior, os ganhos de desempenho observados são muito semelhantes em ambas as plataformas. Observamos um aumento grande, mas variável, no desempenho usando nosso kernel de transição normal multivariado, que executa uma quantidade igual de operações de atualização em todos os parâmetros, sobre os kernels de transição padrão. Isso já ilustra o poder de nossa abordagem, mas o desempenho de nosso kernel de transição AVMVN proposto pode ser aumentado ainda mais usando nosso algoritmo de balanceamento de carga, que determina a quantidade ideal de núcleos de processador para a análise ser executada. Este algoritmo produz um desempenho semelhante em ambos os sistemas, gerando em média 5 e 6 partições / threads adicionais, nos sistemas Haswell e Westmere respectivamente, resultando em execuções com um total de 8 e 9 partições / threads em média.

Comparação de desempenho em um único conjunto de dados de carnívoros de gene, particionado de acordo com a posição do códon, em cinco réplicas medidas em sistemas Xeon de 24 e 40 núcleos. O sistema de CPU de 24 núcleos, embora equipado com menos núcleos de processador do que o sistema de CPU de 40 núcleos, tem uma frequência máxima de processador mais rápida e vem equipado com memória muito mais rápida, explicando a diferença de desempenho medida em ESS por unidade de tempo. A mistura de todos os parâmetros de interesse é comparada usando os kernels de transição BEAST padrão, nosso kernel de transição AVMVN proposto e nosso kernel de transição AVMVN proposto que tira vantagens de nossa abordagem de balanceamento de carga proposta para explorar ainda mais o paralelismo multi-core (AVMVN & # x02009 + & # x02009LB). Todos os esquemas de atualização atribuem uma distribuição de peso igual entre a atualização dos parâmetros contínuos e a atualização da árvore. O kernel de transição AVMVN, equipado com nossa abordagem de balanceamento de carga, produz um aumento no desempenho sobre os kernels de transição BEAST padrão entre 171 e 424%, medido em ESS / minuto, em um sistema de CPU de 24 núcleos e entre 221 e 520%, medido em ESS / minuto, em um sistema de CPU de 40 núcleos

Observamos o menor aumento de desempenho para o parâmetro de taxa de natalidade do processo Yule (& # x003c8), indicando que este é o mais difícil de estimar com eficiência. A mistura pode ser melhorada especificando um kernel de transição separado no parâmetro de taxa de natalidade, com seu próprio parâmetro de ajuste e possivelmente um peso aumentado. No entanto, buscar isso está além do escopo de nosso objetivo de comparar o desempenho dos kernels de transição padrão e do nosso kernel de transição multivariado.

3.2 Amostras heterócronas

O conjunto de dados do vírus Ebola de 633 táxons consiste em uma grande região codificadora, que particionamos de acordo com a posição do códon, e uma região não codificadora. Novamente assumimos que cada partição evolui de acordo com um modelo HKY (Hasegawa et al., 1985), impõem uma distribuição gama discreta com 4 categorias de taxas (Yang, 1996) em cada partição, permitem que as posições dos códons evoluam em taxas (relativas) diferentes e assumem um relógio molecular estrito. Junto com a especificação de um coalescente de crescimento exponencial anterior na árvore, isso leva a 15 parâmetros a serem estimados: quatro relações de transição / transversão (κ1, κ2, κ3, κ4 ) - transformado em log, quatro parâmetros de forma para modelar taxas variáveis ​​entre os sites (α1, α2, α3, α4 ) - transformado em log, quatro taxas relativas (μ1, μ2, μ3, μ4 ) - logit escalado -transformado, a taxa de clock estrita & # x003b3 - log -transformado, um tamanho populacional efetivo ϕ - log -transformado - e uma taxa de crescimento exponencial & # x003c1 no coalescente anterior.

Para atingir o desempenho máximo para este conjunto de dados, usamos dois kernels de transição AVMVN diferentes em dois conjuntos de parâmetros disjuntos. Pesos para os kernels de transição padrão para α1, α2, α3, α4 foram aumentados para 3, enquanto os outros pesos do kernel de transição foram mantidos em seus valores padrão, ou seja, 3 para o processo de atualização conjunta em μ1, μ2, μ3, μ4 , 1 para cada um dos κeu, eu ∈ 1… 4 e 30 para a taxa de clock & # x003b3, tamanho da população ϕ e taxa de crescimento exponencial & # x003c1 no antes coalescente. Os pesos dos kernels de transição da árvore foram mantidos em seus valores originais no momento da escrita.

Nosso primeiro kernel de transição AVMVN atua em ambos os parâmetros do modelo coalescente de crescimento exponencial com um peso de 60, que é o peso combinado dos kernels de transição padrão. Podemos aumentar o desempenho do kernel & # x02019s configurando C0 a 2.000 e n0 = 1,000, embora nossas configurações padrão propostas (de C0 = 5.000 e n0 = 2.500) ofereceu um desempenho quase semelhante em termos de ESS por unidade de tempo. Nosso segundo kernel de transição AVMVN atua nos parâmetros restantes usando suas configurações padrão (de C0 = 5.000 e n0 = 2.500), incluindo a taxa de clock (da qual uma mudança proposta também aciona um recálculo completo de todas as probabilidades de dados observados), novamente com um peso definido para a soma dos pesos dos kernels de transição padrão nesses parâmetros. Usar dois kernels de transição separados é uma escolha sensata, visto que a avaliação da densidade coalescente leva apenas uma fração do tempo necessário para calcular qualquer uma das probabilidades de dados observados. Além disso, isso permite atribuir pesos diferentes aos kernels de transição AVMVN e a otimização de um parâmetro de ajuste diferente.

A comparação de desempenho entre os kernels de transição para o conjunto de dados do vírus Ebola em diferentes sistemas de servidor de CPU em cinco réplicas independentes é mostrada na Figura 2. Por causa de um tamanho de conjunto de dados muito maior em comparação com o conjunto de dados carnívoros, medimos o desempenho em ambos os cenários calculando o ESS total por hora para todos os parâmetros de interesse. Os ganhos de desempenho observados são novamente semelhantes em ambas as plataformas, mas maiores ganhos de desempenho são obtidos no sistema Westmere de 40 núcleos em comparação com a plataforma Haswell de 24 núcleos mais recente. A velocidade de execução mais lenta do primeiro se traduz em partições / threads adicionais sendo criados pelo algoritmo de balanceamento de carga, já que as informações entre os threads são trocadas com menos frequência, permitindo períodos mais longos durante os quais os diferentes threads podem realizar cálculos simultâneos. O algoritmo de balanceamento de carga gera em média três partições / threads adicionais em cima das quatro partições / threads iniciais no sistema Haswell e, em média, seis partições / threads adicionais em cima das 4 partições / threads iniciais no sistema Westmere, o que equivale para um total de 7 e 10 partições / threads em média.

Comparação de desempenho em um conjunto de dados de vírus Ebola de genoma completo, particionado de acordo com a posição do códon, em cinco réplicas medidas em sistemas Xeon de 24 e 40 núcleos. A mistura de todos os parâmetros de interesse é comparada entre os kernels de transição BEAST padrão, o kernel de transição AVMVN e o kernel de transição AVMVN que aproveita as vantagens de uma abordagem de balanceamento de carga para explorar ainda mais o paralelismo multi-core (AVMVN & # x02009 + & # x02009LB). Todos os esquemas de atualização atribuem uma distribuição de peso igual entre a atualização dos parâmetros contínuos e a atualização da árvore. Em relação aos kernels de transição BEAST padrão, o desempenho do kernel de transição AVMVN, equipado com nossa abordagem de balanceamento de carga, aumenta entre 76% e 1057%, medido em ESS / minuto, em um sistema de CPU de 24 núcleos e entre 134 e 1452% (para & # x003bc4, a taxa relativa da partição não codificadora), medida em ESS / hora, em um sistema de CPU de 40 núcleos

Exceto para aqueles parâmetros diretamente relacionados à estimativa da árvore coalescente, ou seja, a taxa de clock, tamanho da população e taxa de crescimento exponencial, um aumento considerável no desempenho para os kernels de transição AVMVN sobre os kernels de transição padrão pode ser visto na Figura 2. Enquanto observamos um aumento de desempenho de 2 a 3 vezes para os parâmetros de taxa de clock, tamanho da população e taxa de crescimento exponencial, seu aumento de desempenho fica claramente aquém dos outros parâmetros. Alterar os pesos relativos de ambos os kernels de transição AVMVN não produz nenhum ganho de desempenho adicional, nem o ajuste das configurações de kernels e # x02019.


Material Suplementar

Por favor, observe: Journal of Fish and Wildlife Management não é responsável pelo conteúdo ou funcionalidade de qualquer material suplementar. As dúvidas devem ser dirigidas ao autor correspondente do artigo.

Texto S1. Código de Stan e R, software e configurações de Monte Carlo da cadeia de Markov (MCMC) para calcular o fator de Bayes. Mostramos o código e as configurações para estimar e comparar o modelo de crescimento de von Bertalanffy e Gompertz do peixe-gato azul Ictalurus furcatus do reservatório Wilson no rio Tennessee, no Alabama, coletados entre 2004 e 2006, conforme discutimos no manuscrito.

Texto S2. Código de Stan e R, software e configurações de Monte Carlo da cadeia de Markov (MCMC) para calcular o critério de informação Watanabe – Akaike (WAIC). Mostramos o código e as configurações para comparar as curvas de recrutamento de estoque linear, Ricker, Beverton – Holt, Cushing e Shepherd do Salmão do Atlântico Salmo salar do Margaree River, Canadá, coletado entre 1961 e 2008, conforme discutimos no manuscrito.

Texto S3. Código de Stan e R, software e configurações de Monte Carlo da cadeia de Markov (MCMC) para calcular a validação cruzada de deixar um de fora (LOO). Mostramos o código e as configurações usadas para comparar as curvas de resposta funcional do tipo I, do tipo II e do tipo III para o achigã Micropterus salmoides, Sharptooth Catfish Clarias gariepinusCabo Kurper Sandelia capensise River Goby Glossogobius callidus, como discutimos no manuscrito.


Assista o vídeo: Entenda o Teorema de Bayes ótima explicação! (Novembro 2021).