Em formação

Teoria coalescente - independência dos tempos coalescentes


Seja $ T_i $ o tempo de coalescência de $ n (t) = i + 1 $ para $ n (t) = i $, onde $ n (t) $ é o número de sítios que ainda não se aglutinaram. No exemplo abaixo, o máximo $ n (0) = 6 $.

Pelo que entendi, muitos desenvolvimentos matemáticos na teoria coalescente dependem do fato de que as variáveis ​​aleatórias $ T_i $ são independentes (mas não distribuídas de forma idêntica). Em outras palavras…

$$ f_ {T_n, T_ {n-1},…. T_3, T_2} (t_n, t_ {n-1},…., T_3, t_2) = prod_ {i = 2} ^ n f_ {T_i} (t_i) $$

Quais são as suposições para esta equação ser verdadeira? Abaixo estão algumas sugestões

  • Nenhuma seleção
  • A seleção não varia com o tempo
  • Tamanho populacional estável
  • Acasalamento aleatório
  • Ambos os sexos têm o mesmo fundo genético
  • Ambos os sexos têm a mesma variação na aptidão

fonte


Enquanto os membros de uma geração "escolherem aleatoriamente" seu ancestral na geração anterior, a lei da probabilidade independente (sua equação) se manterá.

Qualquer estudo da teoria coalescente começa com o modelo de Wright-Fisher. As premissas são:

  • população diplóide finita de tamanho constante N,
  • gerações não sobrepostas (reprodução simultânea),
  • acasalamento aleatório,
  • nenhuma mutação, seleção ou migração.

Essas suposições são consistentes com tempos de espera independentes e não distribuídos de forma idêntica. Um exemplo de uma suposição sob a qual a independência não é mais válida:

A escolha aleatória do indivíduo B na geração 2 do ancestral A na geração 1 reduz a probabilidade de que o indivíduo C na geração 2 escolha A. Em outras palavras, a probabilidade de A dar seus genes à próxima geração diminui com cada novo receptor. Então, a independência não se sustenta mais.

Ver, por exemplo, Deonier, Computational Genome Analysis (2005, Springer) nas páginas 392 e seguintes.

Artigo de J. Wakely Teoria coalescente: uma introdução (Systematic Biology, 58: 1, fevereiro de 2009) pode ser uma das melhores visões gerais deste imenso tópico disponível. Ele menciona a prova matemática de Kingman de 1982 (que eu não analisei) do processo coalescente (Stochastic Processes and their Applications 13 (1982) - disponível para download gratuito em ScienceDirect).


Distribuições assintóticas de tempos de coalescência e números de linhagem ancestral para populações com tamanho variável temporalmente

As distribuições de tempos de coalescência e números de linhagens ancestrais desempenham um papel essencial na modelagem coalescente e inferência ancestral. Ambas as distribuições exatas de tempos de coalescência e números de linhagens ancestrais são expressos como a soma de séries alternadas, e os termos da série tornam-se numericamente intratáveis ​​para grandes amostras. Mais atraentes computacionalmente são suas distribuições assintóticas, que foram derivadas em Griffiths (1984) para populações com tamanho constante. Neste artigo, derivamos as distribuições assintóticas de tempos de coalescência e números de linhagens ancestrais para populações com tamanho variável temporalmente. Para uma amostra de tamanho n, denotado por Tm a mo tempo coalescente, quando m + 1 linhagens se aglutinam em m linhagens, e UMAn(t) o número de linhagens ancestrais no momento t de volta da geração atual. Semelhante aos resultados em Griffiths (1984), o número de linhagens ancestrais, UMAn(t), e os tempos de coalescência, Tm, são assintoticamente normais, com a média e a variância dessas distribuições dependendo da função do tamanho da população, N(t) Na fase inicial do coalescente, quando t & # x02192 0, o número de linhagens coalescidas n & # x02212 UMAn(t) segue uma distribuição de Poisson, e como m & # x02192 n, n(n − 1)Tm/2N(0) segue uma distribuição gama. Demonstramos a precisão das aproximações assintóticas comparando as distribuições exatas e as simulações coalescentes. Várias aplicações dos resultados teóricos também são mostradas: derivando estatísticas relacionadas às propriedades de genealogias de genes, como o tempo até o ancestral comum mais recente (TMRCA) e o comprimento total do ramo (TBL) da genealogia, e derivando a frequência do alelo espectro para grandes genealogias. Com o advento de dados de sequenciamento em nível genômico para grandes amostras, espera-se que as distribuições assintóticas tenham amplas aplicações no desenvolvimento teórico e metodológico para inferência genética populacional.

A teoria COALESCENT fornece uma estrutura fundamental para modelagem estocástica e inferência de probabilidade em estudos de genética populacional (Griffiths 1980 Kingman 1982a Hudson 1990 Nordborg 2001). Um processo coalescente pode ser decomposto em dois processos independentes: a topologia da genealogia do gene e o processo sequencial de tempos de intercoalescência (Kingman 1982a). Neste artigo, pretendemos investigar o último processo e duas importantes quantidades aleatórias associadas a este processo: os tempos de coalescência e o número de linhagens ancestrais (Kingman 1982a). Estudar as duas quantidades é biologicamente e teoricamente significativo. Em primeiro lugar, inferir os tempos de coalescência e o número de linhagens antigas de uma amostra ou população contemporânea ajuda a elucidar a história demográfica antiga, incluindo mistura populacional, migração e efeito fundador. Também pode fornecer informações sobre estudos médicos sobre a origem e arquitetura genética de doenças hereditárias em diferentes populações, bem como para estudos ecológicos, por exemplo, na investigação do processo de invasão de espécies (Risch et al. 2003 Anderson and Slatkin 2007 Dlugosch and Parker 2007). Em segundo lugar, as distribuições de tempos de coalescência e números de linhagem ancestral são os componentes essenciais necessários para construir uma probabilidade coalescente, por exemplo, nas abordagens baseadas em espectro de frequência de alelo (Tavar & # x000e9 1984 Griffiths e Tavar & # x000e9 1998 Polanski e Kimmel 2003 Chen 2012 )

A distribuição exata do número de linhagens ancestrais em t gerações atrás para n haplótipos coletados aleatoriamente no momento, UMAn(t), t & # x02265 0, foi derivado em Tavar & # x000e9 (1984) sob o coalescente para populações constantes (Equação 15 sob Assintóticos de números de linhagem ancestral ver também Griffiths 1980, Donnelly 1984, Watterson 1984 e Takahata e Nei 1985). A distribuição exata tem conexões com a fórmula de amostragem de Ewens & # x02019 sob o modelo de infinitamente muitos alelos (Ewens 1972). Em um estudo posterior, a equação foi estendida a populações com tamanho variável temporalmente (Griffiths e Tavar & # x000e9 1998). As equações seminais em Tavar & # x000e9 (1984) e Griffiths e Tavar & # x000e9 (1998) são muito úteis no desenvolvimento de metodologia. No entanto, ambas as distribuições exatas são expressas como somas de séries com sinais alternados, e os coeficientes da série tornam-se numericamente instáveis ​​quando n & # x0003e 50.

Como outra quantidade importante no processo coalescente, o tempo de coalescência, Tm, definido como a hora em que m + 1 linhagens fundem-se em m linhagens, é bem conhecido como uma soma de n & # x02212 m tempos de intercoalescência. Esses n & # x02212 m tempos de intercoalescência são distribuídos como variáveis ​​exponenciais independentes com taxas respectivas distintas k(k & # x02212 1) / 2, k = n, & # x02026, m + 1 em um modelo de tamanho de população constante. As expressões analíticas de muitas estatísticas são derivadas com base nesse fato. Para populações com tamanho variável no tempo, os tempos de intercoalescência não são mais independentes. Griffiths e Tavar & # x000e9 (1998) e Polanski et al. (2003) derivaram a distribuição dos tempos de coalescência sob um modelo de tamanho populacional temporalmente variável ainda como uma soma de séries, e a avaliação dos coeficientes também sofre com a questão numérica quando o tamanho da amostra é grande.

O problema numérico causado pelo grande tamanho da amostra torna-se uma questão indispensável com o rápido surgimento de dados de sequenciamento em grande escala para amostras de milhares de indivíduos (Mardis 2008 Altshuler et al. Coventry 2010 et al. 2010), o que, por outro lado, oferece uma oportunidade sem precedentes para o estudo da genética populacional. Grandes esforços são buscados para desenvolver abordagens computacionalmente eficientes para a análise de dados genômicos com grande tamanho de amostra. A maioria dos métodos de inferência baseados em coalescentes existentes na genética de populações dependem de abordagens de amostragem com computação intensiva, como amostragem de importância e cadeia de Markov Monte Carlo, para integrar no espaço de genealogias de genes (Griffiths e Tavar & # x000e9 1994b Felsenstein et al. 1999) e, portanto, são aplicáveis ​​apenas para analisar regiões genômicas locais em pequenas amostras. Um método desenvolvido recentemente, centrado em um espectro de frequência de alelo conjunto baseado em coalescente (JAFS) (Chen 2012), ganha eficiência computacional para a análise de dados genômicos de múltiplas populações, pois o autor usou a forma analítica derivada do JAFS baseado em coalescente em vez das abordagens de amostragem. Uma das limitações é que o autor derivou o JAFS com base nas equações de Tavar & # x000e9 (1984) e Griffiths e Tavar & # x000e9 (1998), e as questões numéricas dessas equações limitam o uso do JAFS para genealogias de pequenos genes.

Griffiths (2006) simplificou o cálculo da distribuição exata da linhagem ao substituir a soma das séries alternadas pela função hipergeométrica, que tem uma representação em termos de uma integral complexa e pode ser avaliada por integração numérica ou simulação. Como a distribuição não é simples, pode intimidar seu uso para desenvolvimento de teoria e metodologia. Polanski e Kimmel (2003) usaram os métodos de soma hipergeométrica para evitar o problema numérico de grandes n ao usar a distribuição exata de tempos de coalescência para obter o espectro de frequência de alelo (AFS) em um modelo de tamanho de população variável no tempo. Seu método evita o cálculo dos coeficientes nas séries alternadas que explodirão quando o tamanho da genealogia do gene aumentar. No entanto, esta abordagem é projetada especificamente para o cálculo do AFS para alguns cenários demográficos e não é uma solução geral para a instabilidade numérica no cálculo das distribuições dos tempos de coalescência e do número de linhagens ancestrais. Outra forma de evitar o cálculo da série com sinais alternados é usar a aproximação assintótica em vez da distribuição exata. As distribuições assintóticas têm a vantagem adicional de estarem frequentemente em uma forma mais simples e são mais fáceis para o estabelecimento de teorias.

As teorias assintóticas dos tempos de coalescência e do número de linhagens ancestrais para grandes genealogias de genes em populações constantes foram derivadas por Griffiths (1984). Ele demonstrou que como t & # x02192 0 e o tamanho da amostra n & # x02192 & # x0221e, as distribuições de UMAn(t) e Tm convergem assintoticamente para distribuições normais. O ingrediente essencial na prova de Griffiths & # x02019 é aplicar o teorema de Lyapunov & # x02019s a tempos de intercoalescência distribuídos independentemente. Para populações com tamanho variável temporalmente, a validade dos teoremas de Griffiths & # x02019 ainda não foi abordada, pois os tempos de intercoalescência são variáveis ​​dependentes neste caso, violando a suposição de independência do teorema de Lyapunov & # x02019 (Billingsley 2012). No entanto, se escalarmos o tempo para levar em conta a flutuação no tamanho da população em & # x0222b 0 t (d s / N (s)), & # x02002 t & # x02265 0, onde N(& # x022c5) é a função do tamanho da população ao longo do tempo, o processo coalescente na nova escala de tempo é equivalente ao coalescente padrão (Kingman 1982b Griffiths e Tavar & # x000e9 1994b). Os teoremas para o coalescente padrão em Griffiths (1984) podem então ser emprestados para obter distribuições assintóticas para populações com tamanho variável no tempo. A extensão dos teoremas de Griffiths & # x02019 para populações com tamanho variável no tempo é muito importante para a inferência genética populacional, uma vez que a maioria das inferências ancestrais é baseada nos padrões de polimorfismo genético de não-equilíbrio em populações com tamanho variável temporalmente. Além disso, o tamanho da população e a taxa de crescimento são, eles próprios, parâmetros demográficos de grande interesse.

Nas seções a seguir, primeiro derivamos Distribuições assintóticas para tempos de coalescência e números de linhagem ancestral as distribuições assintóticas de tempos coalescentes e o número de linhagens ancestrais para populações com tamanho variável temporalmente, especificamente, para populações em crescimento exponencial. No Resultados numéricos então comparamos as distribuições assintóticas com distribuições exatas ou simulações coalescentes se as distribuições exatas forem difíceis de avaliar. Demonstramos que as distribuições assintóticas de tempos de coalescência e números de linhagem coincidem com as distribuições simuladas e exatas surpreendentemente bem para uma ampla gama de parâmetros e para amostras com tamanho até moderado. Por último, em Formulários, aplicamos as distribuições assintóticas para derivar estatísticas relacionadas às propriedades de genealogias de genes, como o tempo esperado para o ancestral comum mais recente (TMRCA) e os comprimentos de ramificação total (TBL), e derivar o AFS para grandes amostras em análises mais simples Formato. O artigo termina com uma discussão.


Teoria coalescente: uma introdução

“The Coalescent” é uma extensão poderosa da genética populacional clássica porque é uma coleção de modelos matemáticos que podem acomodar fenômenos biológicos refletidos em dados genômicos. A teoria foi desenvolvida inicialmente por Kingman (1982) em 3 artigos publicados em periódicos de teoria da probabilidade, que delineiam os fundamentos da teoria coalescente como um conjunto de modelos de probabilidade. Publicações recentes continuam a abordar o desenvolvimento matemático do coalescente em periódicos matemáticos (por exemplo, Sagitov e Jagers 2005), bem como abordar questões em sistemas biológicos reais. Os 2 pontos importantes a se tirar desses fatos são que, em primeiro lugar, a teoria coalescente ainda é um tópico ativo e estimulante que continua a ser desenvolvido em seus fundamentos e aplicações e, em segundo lugar, que qualquer livro sobre teoria coalescente será pesado no matemática.

O novo livro de John Wakeley visa resumir os fundamentos da teoria coalescente e certamente se encaixa na segunda expectativa. O público principal são os geneticistas populacionais interessados ​​em obter uma compreensão matemática do coalescente e da teoria por trás dos aplicativos de computador da “caixa preta”. Este livro fornece um passeio pelas derivações matemáticas dos principais aspectos da teoria coalescente e algumas aplicações específicas em genética populacional. O texto permanece principalmente no reino do teórico, com apenas alguns pontos ilustrados com exemplos biológicos específicos. Este livro oferece uma introdução desafiadora, mas gratificante, à teoria coalescente, e continuará sendo um texto indispensável por algum tempo.

A ênfase no pensamento coalescente é ver as populações para trás no tempo, usando a divergência observável em uma população para estimar o tempo até um ancestral comum mais recente (MRCA) este ancestral é o ponto onde as genealogias de genes se juntam, ou 'coalescem', em um único organismo biológico. A teoria coalescente é dependente do pensamento baseado em árvore (genealógico) familiar aos sistematistas (Harding 1996). Ao contrário dos métodos filogenéticos, a teoria coalescente assume que as genealogias são variáveis ​​aleatórias. Isso segue de uma suposição de neutralidade mutacional no modelo básico, nenhum ancestral em particular é mais ou menos adequado ou tem probabilidade de produzir descendentes dentro da genealogia. Além disso, as árvores filogenéticas são medidas em termos de substituições ou mudanças de estado, sem uma restrição de tempo intrínseca. Em contraste, as árvores coalescentes são calculadas em termos de tempo, definido por uma taxa de mutação fixa, e as análises coalescentes, portanto, assumem um relógio molecular.

Os principais parâmetros que são estimados nas análises de coalescência são o tempo de coalescência (o número de gerações que se passaram desde que as amostras compartilham um ancestral) e teta, o produto em escala da taxa de mutação e o tamanho efetivo da população. Portanto, populações mais diversas têm tempos de coalescência mais longos e tamanhos populacionais efetivos de coalescência maiores do que populações menos diversas (assumindo a mesma taxa de mutação). O modelo coalescente pode ser manipulado para explorar outras questões subsidiárias sobre a diversidade da população ao longo do tempo, como mudanças na estrutura e tamanho da população e o comprimento total da genealogia (mais para trás no tempo do que o MRCA sob estudo imediato). Os modelos usam o ponto de partida da neutralidade para simular e testar a magnitude e as influências de eventos no nível da população, como flutuação populacional, migração, recombinação e seleção. Qualquer modelo matemático, em virtude de sua fraqueza ou simplificações, ilumina as complexidades não quantificadas dos sistemas biológicos.

O texto de Wakeley está organizado em 8 capítulos, em 2 metades. Os primeiros 4 capítulos apresentam os modelos básicos ou coalescentes Kingman. A segunda metade inclui trabalhos mais novos e aplicativos mais complexos. Exige explicitamente uma boa compreensão de cálculo e teoria da probabilidade (particularmente estocástica), e qualquer leitor potencial que não se sinta confortável com esses assuntos e a notação matemática envolvida é aconselhado a manter um livro de teoria da probabilidade ou colega com inclinação matemática por perto. Qualquer pessoa que se sinta confortável neste domínio, mas não tenha usado ativamente modelos estocásticos recentemente, é aconselhado a dedicar um tempo para trabalhar com as derivações a fim de absorvê-las totalmente.

O Capítulo 1 trata das genealogias de genes e da natureza geral dos processos genéticos em nível de população. (Se você não sabe o que realmente é a teoria coalescente e não leu meu resumo acima, terá que esperar até o Capítulo 3.) O capítulo inclui um histórico detalhado das suposições do modelo e uma revisão da literatura relevante. Em particular, as seções enfocam as informações básicas sobre o pensamento genealógico e estabelecem o vocabulário para a teoria coalescente: mutações e discussão da suposição fundamental nos modelos básicos de que a variação na genética populacional é seletivamente neutra. A terceira seção diz respeito aos polimorfismos, que podem ser a parte mais importante da base da teoria coalescente para os trabalhadores interessados ​​em dados genômicos (ver Rosenberg e Nordborg 2002), e é revisitada com mais detalhes no Capítulo 8. Finalmente, um breve estudo de caso explora os polimorfismos na subunidade da piruvato desidrogenase E1 α em humanos, com base em um estudo publicado (Harris e Hey 1999).

O Capítulo 2 é um curso de atualização conciso e útil sobre a teoria da probabilidade. Ele começa com exemplos familiares sobre moedas e dados lançados e avança rapidamente para águas mais profundas no que diz respeito às propriedades de variáveis ​​aleatórias em geral e mais adiante para distribuições de probabilidade básicas (distribuições de Bernoulli, binomial, geométrica e exponencial).Wakeley claramente acha o assunto fascinante e gratificante, e isso transparece apesar da destilação necessariamente rápida. A segunda parte do capítulo enfoca com mais detalhes a distribuição de Poisson e o cálculo de eventos ao longo do tempo contínuo. Ao discutir os processos de Poisson, o assunto está constante e claramente vinculado às aplicações dentro do coalescente, mas requer dedicação e concentração do leitor.

Apenas no terceiro capítulo Wakeley faz uma pausa para definir “o coalescente” (p. 53). A primeira seção deste capítulo trata dos modelos básicos da genética populacional clássica: o modelo de Wright-Fisher e o modelo de Moran. Como o material matemático do Capítulo 2, este definitivamente pretende ser um recapitulativo e não um ensino dos primeiros princípios. Finalmente, a segunda seção apresenta a derivação do modelo coalescente padrão, seguindo Kingman (1982) e usando tanto as ferramentas matemáticas do Capítulo 2 quanto as ideias teóricas apresentadas anteriormente neste livro. A seção a seguir discute algumas propriedades específicas da teoria coalescente para investigar o tamanho e a estrutura das genealogias gênicas. Finalmente, o material do capítulo é resumido com um estudo de caso baseado na comparação de dados de sequências humanas e de Neandertal, usando uma abordagem coalescente para questionar se houve cruzamento histórico entre os dois (Nordborg 1998).

A primeira metade do livro termina com um capítulo sobre variação neutra. Ou seja, como a suposição básica de neutralidade do coalescente pode ser usada para inferir ou prever padrões de ocorrência de polimorfismos. Seções específicas abordam medidas de polimorfismos de sequência e a fórmula de amostragem de Ewens (em si um campo substancial da teoria da probabilidade, como o autor menciona no Capítulo 1, p. 11). Finalmente, uma seção cobre testes empíricos de suposições de neutralidade e, em seguida, um estudo de caso sobre a seleção positiva em Drosófila.

A segunda metade do texto se torna muito mais desafiadora matematicamente e com menos suporte em termos da explicação de como as principais equações são derivadas. O Capítulo 5, sobre o “coalescente estruturado”, é na verdade um capítulo sobre cadeias de Markov e sua aplicação. As últimas 2 seções lidam com aplicações biológicas para barreiras geográficas, incluindo um estudo de caso que contrasta árvores de genes e árvores de espécies e sobre o teste da influência de fortes pressões seletivas nas gerações subsequentes, novamente com um excelente estudo de caso ilustrativo de Drosófila literatura.

O Capítulo 6 compara a literatura inicial sobre os modelos coalescentes com desenvolvimentos muito recentes com processos de Markov em 2 escalas de tempo. Isso aborda como modelar e inferir variação dentro de populações biológicas reais, uma proporção desigual de 2 sexos dentro da população acelera o processo de coalescência porque o tamanho efetivo da população pode ser reduzido artificialmente. Ou seja, o tamanho efetivo da população não é equivalente ao tamanho total da população. Isso também pode ser influenciado pela migração de grande volume, autofecundação parcial ou um grande número de subpopulações que não se sobrepõem completamente, conforme discutido em outras seções deste capítulo.

O sétimo capítulo novamente confronta o pressuposto básico mais antigo, a neutralidade seletiva, com mais rigor do que nas seções anteriores. O material aqui aplica os modelos a casos de seleção e recombinação com grafos ancestrais. Isso é seguido por um estudo de caso do genoma humano e, na verdade, expande os dados usados ​​no primeiro estudo de caso (Capítulo 1).

Finalmente, o Capítulo 8 apresenta um foco nos métodos computacionais. As partes anteriores do livro concentraram-se inteiramente na matemática subjacente da teoria coalescente - o objetivo era explicar a teoria da probabilidade que está por trás da derivação dos processos ancestrais coalescentes e inferidos. Com o uso de ferramentas teóricas, Wakeley demonstra a robustez da teoria coalescente e sua capacidade de incluir modificações que podem descrever desvios significativos dos pressupostos fundamentais. Este capítulo final, então, aborda o que a maioria dos pesquisadores ativos realmente interagem: modelos computacionais e simulações. Outro estudo de caso, novamente da genética humana, apresenta o capítulo. Outros tópicos cobertos incluem métodos de Monte Carlo e, de interesse particular, o contraste entre os modelos estatísticos bayesianos e “frequentistas” (tradicionais). Esta seção poderia ter sido bastante expandida, e cabe ao leitor interessado explorar literatura adicional em um campo em rápida expansão.

A única falha significativa com este livro é uma quantidade extraordinária de referências futuras. Da mesma forma, o autor muitas vezes assume muita familiaridade em seus leitores e faz referência a ferramentas e conceitos antes de explicá-los em detalhes posteriormente no livro. Isso significa que é quase impossível ler o livro do começo ao fim e requer pular para frente e para trás entre os capítulos para acompanhar o progresso de algumas idéias básicas (como a definição da teoria coalescente, processos de Markov e polimorfismos genéticos).

Este livro está sendo publicado há muito tempo e as seções estavam disponíveis online desde o final de 2004. Na verdade, no momento desta revisão, a editora ainda oferece as primeiras versões dos três primeiros capítulos disponíveis online e um índice desatualizado . A versão inicial não publicada deste livro incluía excelentes conjuntos de problemas no final de cada capítulo (incluídos nos 3 capítulos de amostra no site da editora e indicados no índice preliminar). É um grande mistério por que eles foram excluídos da publicação final como exercícios e soluções de problemas que teriam tornado o livro substancialmente mais acessível e melhorado drasticamente sua utilidade como meio de ensino.

É um pouco surpreendente que haja menos livros didáticos sobre o assunto da teoria coalescente, dada a importância do coalescente para a genética populacional moderna e o enorme escopo de questões científicas relevantes para o campo. Apenas um outro livro introdutório foi publicado até o momento (Hein et al. 2004, ver Sigwart 2005), isso reflete os desafios de apresentar um caminho intermediário que torne a matemática necessária acessível ao público biológico.

Os primeiros 2 estudos de caso incluídos no presente livro (baseado em Nordborg 1998 Harris e Hey 1999) também são usados ​​como exemplos ilustrativos em Hein et al. (2004), mas Wakeley os trata com consideravelmente mais detalhes e faz referência à literatura primária atualizada. Estudos de caso biológicos adicionais seriam muito bem-vindos (há 7 no livro, em 6 capítulos) e provavelmente tornariam o texto mais acessível a um público mais amplo de biólogos. Espero que Wakeley seja persuadido a atualizar o texto no devido tempo e, certamente, nessa época, haverá uma base muito mais ampla de literatura para estudos de caso em potencial.


Quando Charles Darwin publicou pela primeira vez suas idéias sobre evolução e seleção natural, o campo da genética ainda não havia sido descoberto. Visto que o rastreamento de alelos e genética é uma parte muito importante da biologia populacional e da genética populacional, Darwin não cobriu totalmente essas idéias em seus livros. Agora, com mais tecnologia e conhecimento sob nosso controle, podemos incorporar mais biologia populacional e genética populacional à Teoria da Evolução.

Uma maneira de fazer isso é por meio da coalescência de alelos. Os biólogos populacionais observam o pool genético e todos os alelos disponíveis na população. Eles então tentam rastrear a origem desses alelos no tempo para ver onde eles começaram. Os alelos podem ser rastreados através de várias linhagens em uma árvore filogenética para ver onde eles se aglutinam ou voltam a se reunir (uma maneira alternativa de ver isso é quando os alelos se ramificam um do outro). As características sempre se aglutinam em um ponto denominado ancestral comum mais recente. Depois do ancestral comum mais recente, os alelos se separaram e evoluíram para novos traços e muito provavelmente as populações deram origem a novas espécies.

A Teoria Coalescente, assim como o Equilíbrio de Hardy-Weinberg, tem algumas suposições que eliminam mudanças nos alelos por meio de eventos casuais. A Teoria Coalescente assume que não há fluxo genético aleatório ou deriva genética de alelos para dentro ou fora das populações, a seleção natural não está funcionando na população selecionada durante o período de tempo determinado e não há recombinação de alelos para formar novos ou mais complexos alelos. Se isso for verdade, então o ancestral comum mais recente pode ser encontrado para duas linhagens diferentes de espécies semelhantes. Se alguma das opções acima estiver em jogo, então há vários obstáculos que precisam ser superados antes que o ancestral comum mais recente possa ser identificado para essas espécies.

À medida que a tecnologia e a compreensão da Teoria Coalescente se tornam mais facilmente disponíveis, o modelo matemático que a acompanha foi ajustado. Essas mudanças no modelo matemático permitem que algumas das questões anteriormente inibidoras e complexas com biologia e genética de populações tenham sido cuidadas e todos os tipos de populações possam então ser usados ​​e examinados usando a teoria.


Eventos de mutação

Consideramos mutações estritamente neutras que não afetarão a aptidão de um indivíduo (a capacidade do indivíduo de sobreviver e produzir descendentes). Essas mutações não devem afetar as genealogias simuladas, pois não afetam o número de descendentes ou a tendência de migração dos indivíduos. Isso tem duas consequências. A primeira consequência é um algoritmo de computador eficiente, no qual o processo coalescente é modelado separando o processo de mutação neutra do processo genealógico. Podemos primeiro gerar a genealogia aleatória dos indivíduos para trás no tempo e, em seguida, sobrepor mutações para a frente no tempo. A segunda consequência é que podemos escolher entre vários modelos de mutação (por exemplo, modelo de alelo infinito, site infinito ou site finito) sem influenciar as propriedades estatísticas das genealogias resultantes.

o modelo de sites infinitos assume que uma mutação sempre acontecerá em um novo local / posição (assim, "locais infinitos"), de modo que todas as mutações sejam distinguíveis (ou seja, nenhuma mutação recorrente ou reversa). Além disso, sempre haverá um ou dois estados em uma posição, nunca mais, porque cada posição muda no máximo uma vez. Assim, os alelos são frequentemente rotulados como 0 ou 1 (e uma sequência como uma string de zeros e uns), independentemente de seus significados específicos. O modelo de sítios infinitos pode ser interpretado como descrevendo a evolução de sequências de DNA muito longas com baixa taxa de mutação em cada posição. Em contraste, o modelo de sites finitos admite que uma sequência de DNA tem um comprimento fixo. Ambos os modelos assumem que as posições evoluem (por meio de mutação) independentemente umas das outras, ou seja, uma mutação em uma posição não influencia a chance de uma mutação em outra posição. Em princípio, um modelo de mutação também deve descrever mutações em nível de cromossomo (por exemplo, inserções, deleções, etc.), mas esses eventos ocorrem tão raramente que normalmente podem ser ignorados. Para o modelo de sites infinitos, podemos configurar uma taxa geral para incluir as taxas de mutações em nível de nucleotídeo e em nível de cromossomo. Para o modelo de sítios finitos, entretanto, normalmente apenas substituições de nucleotídeos são modeladas.

  • Ttot | : tempo evolutivo total disponível, representado pelo comprimento total dos ramos de uma genealogia. Podemos calculá-lo somando o produto de cada intervalo coalescente T (k) (veja acima) e o número de linhagens que compartilham esse intervalo k:
  • μ | theta: taxa de mutação por sequência por geração. É o produto da taxa de mutação em um único local de nucleotodo, ou seja, por par de bases (bp) e comprimento de sequência (em termos de bp). Os dois últimos são parâmetros de entrada do CoJava.
  • S | : o número de locais de segregação, ou seja, o número de posições de sequência de DNA em que algum par de sequências de amostra difere. Podemos pensar nisso como o número total de mutações a serem impostas a toda a genealogia. No modelo de sites infinitos, o número esperado de sites de segregação para uma amostra diplóide é (θ é frequentemente referido como a taxa de mutação ESCALADA):
  • t | : o comprimento de um ramo na genealogia, calculado como a diferença entre o tempo escalado no nó ancestral (ou seja, na unidade de 2N) e aquele no nó descendente. O número de mutações em cada ramo segue uma distribuição de Poisson com intensidade de chegada tθ / 2.
  1. Execute o Algoritmo 1 para simular a genealogia de n sequências
  2. Para cada ramo, desenhe um número, Mt, de uma distribuição de Poisson com intensidade tθ / 2, onde t é o comprimento do ramo. Mais tarde, haverá eventos de mutação Mt adicionados a este ramo.
  3. Começando pela raiz, avance no tempo e modifique as sequências produzidas na Etapa 1. Para modelos de sites infinitos, adicione mutações Mt à sequência descendente de cada ramo, a posição de uma mutação é escolhida aleatoriamente ao longo da sequência.

Classes ou funções primárias do CoJava /geneticEvent/mutations.java /coalSimulator/sim.java/simMutate () Por padrão, Cosi e CoJava é uma simulação de locais finitos em que as mutações ocorrem em locais discretos e se múltiplas mutações ocorrem em um único local, apenas a primeira é retido. No entanto, definir o parâmetro “infinite_sites” como yes (veja o arquivo param exemplar neste artigo) converte as posições de saída em ponto flutuante, com todas as mutações retidas. Além disso, ambos os programas permitem que os usuários configurem o número (fixo) de mutações.


Teoria coalescente - independência dos tempos coalescentes - Biologia

遺 伝 学 に お け る合 祖 理論(Teoria coalescente) と は 、 現在 の 集 団 団 か ら 得 ら れ る 遺 伝 情報 か ら 過去 の 集 集 団 動態 を 推測 す る 、 集 団 遺 伝 学 に お け る モ デ ル お よ び そ の の

あ る 集 団 か ら 得 ら れ た 複数 個体 の 塩 基 配 列 に お い て, あ る 遺 伝 子 座 に お け る 全 て の 対 立 遺 伝 子 が, 時間 的 に 遡 っ て, 一 つ の 祖先 的 な コ ピ ー, 即 ち ancestral comum mais recente (MRCA) に 一致 す る 過程 を 解 明. .で あ る。

ほ と ん ど の 場合, 遺 伝 子 系 図 を 調 べ る た め に, 時間 的 に 逆向 き の 遺 伝 的 浮動 モ デ ル で coalescente シ ミ ュ レ ー シ ョ ン は 実 行 さ れ る. [1] 最 も 単 純化 さ れ た モ デ ル で は, 遺 伝 的 組 換 え が な い, 自然 選 択 がな い, 遺 伝 子 流動 や 集 団 構造 が な い と い う こ と が 仮 定 さ れ る. し か し な が ら, よ り 発 展 さ せ た モ デ ル で は, 前述 し た モ デ ル を 拡 張 し, 遺 伝 的 組 換 え, 自然 選 択 を 考慮 に 入 れ る な ど ほ ぼ 任意 に, 集 団 遺 伝1

Coalescência ま で の 時間 [3] 編 集

二 つ の 対 立 遺 伝 子 が 一 世代 前 で coalescência を 生 じ る 確 率 は 、 二 二 つ の 対 立 遺 伝 子 が 一 世代 前 の 同 じ じ 立 遺 伝 子 か ら 由来 す は 二N が 一定 の 二倍体 生物 生物 集 団 を 仮 定 し た 場合 、 そ れ ぞ れ れ の 遺 伝 子 座 に は 2N 個 の コ ピ ー が 存在 す る の で 、 1 / (2N ) と な る。 逆 に 、 coalescência を 生 じ な い 確 確 率 は 1 - 1 / (2N ) で あ る。 (Wright - modelo de Fisher を 仮 定。)

次 に 連 続 世代 で 考 え る。 現在 か らt - 1 世代 前 ま で coalescência が 生 じ ず 、t 世代 目 で coalescência が 生 じ る 確 率 は 、

N が 十分 に 大 き き い と き 、 幾何 分布 は 指数 分布 に 近似 さ れ れ る こ と が 知 ら れ て い る。 よ っ て 、

一般 的 に ​​、 指数 分布 は 期待 値 と 標準 偏差 が 等 し く く こ の 場合 2N で あ る。 し た が っ て 、 coalescência が 生 じ る ま ま で の 時間 の 期待 値 は 2N 世代 で あ る。。 し か し な が ら 、 分散 が 大 き い こ こ に 注意 し て ほ し い。

合 祖 理論 は 、 中立 進化 に 関 す る 集 団 遺 伝 学 の 古典 的 概念 の 拡 張 か ら ら 、 modelo de Wright-Fisher 、 最終 的 な 形式化 は は Kingman に よ っ て な さ れ た と 考 え ら れ て い る る。 さ さ ら に 、 合 祖 理論 の の 展 に お い 考 え ら れ て て い る。。 さ ら に 、 合 祖 祖 理論 の 発 展 に お い て は 、 、 て て い る。。 さ ら に 、 合 祖 祖 理論 の 発 展 に お い て は 、 、 、 る る。。 さ ら に 、 合 祖 祖 理論 の 発 展 に お い て は 、 、 Peter い る。。 さ ら に 、 合 祖 祖 理論 の 発 展 に お い て は 、 、 Peter Donnelly, Robert Griffsonサ イ ズ の 変 動 、 遺 伝 的 組 換 え 、 自然 選 択 の 影響 を モ デ ル に 組 組 み ん ん だ こ と を 含 ん で い る.


Teoria do coalescente - por que os tempos do coalescente são independentes?

Estou lendo este livro e quero ter certeza de que entendi o que está acontecendo.

O que eu obtenho do livro

Considere uma população de $ N $ indivíduos. O tamanho da população ($ N $) é constante. selecione dois indivíduos aleatoriamente na população e faça a pergunta: quando viveu o ancestral comum mais recente (MRCA)? Vamos escolherte desta vez para o MRCA pela variável aleatória $ T_2 $. Sempre que, olhando para trás no tempo, vemos dois indivíduos tendo um ancestral comum, então nos referimos a esse evento como um evento de coalescência. Em outras palavras, $ T_2 $ é a variável aleatória do tempo (em gerações) para que a coalescência ocorra entre dois indivíduos escolhidos aleatoriamente em uma população de tamanho constante $ N $.

A probabilidade de não coalescer nas gerações anteriores (que é a probabilidade de que os dois indivíduos amostrados aleatoriamente não sejam irmãos) é $ 1- frac <1>$ e a probabilidade de coalescência (probabilidade de serem irmãos) é $ frac <1>$. A probabilidade do evento de coalescência ocorrer $ t $ gerações atrás é a probabilidade de não coalescer por $ t-1 $ gerações e coalescer então. Portanto, $ T $ tem a distribuição

De maneira mais geral, vamos denotar $ M_n $ o tempo para $ n $ indivíduos se unirem. Se $ T_n $ é o tempo até que $ n $ indivíduos se aglutinem em $ n-1 $ indivíduos (o tempo para um par de indivíduos entre $ n $ indivíduos se aglutinarem), então $ M_n = sum_^ n T_i $

Eu acho que $ M_n = sum_^ n T_i $ é verdadeiro apenas se todos $ T_i $ forem variáveis ​​independentes. Eles são independentes? Porque?


O G-cat

Teoria coalescente

Um método analítico recorrente, tanto dentro O G-CAT e a literatura genética ecológica mais ampla, é baseada em teoria coalescente. Isso é baseado na noção matemática de que as mutações dentro dos genes (levando a novos alelos) podem ser rastreadas para trás com o tempo, até o ponto em que a mutação ocorreu inicialmente. Dado que esta é uma retrospectiva, em vez de descrever esses momentos de mutação como eventos de "divergência" (como seria típico para filogenética), estes aparecem como momentos em que as mutações voltem juntos ou seja coalescer.

Matemática do coalescente

Antes de explorarmos a variedade de aplicações do coalescente, precisamos entender o modelo fundamental subjacente. O modelo coalescente inicial foi descrito na década de 1980, construído por vários ecologistas, geneticistas e matemáticos diferentes. No entanto, John Kingman é frequentemente atribuído à formação do modelo coalescente original, e o coalescente de Kingman é considerado a forma mais básica e primária do modelo coalescente.

De uma perspectiva matemática, o modelo coalescente é na verdade (relativamente) simples. Se amostrarmos um único gene de dois indivíduos diferentes (para simplificar, diremos que eles são haploides e têm apenas uma cópia por gene), podemos medir estatisticamente a probabilidade desses alelos se fundirem no tempo (coalescendo) em qualquer dado geração. Esta é a mesma probabilidade de que as duas amostras compartilham um ancestral (pense em muito, Muito de versão mais curta de compartilhar um ancestral evolucionário com um chimpanzé).

Normalmente, se estivéssemos tentando escolher os pais de nossas duas amostras, o número de pais em potencial seria o tamanho da população ancestral (já que qualquer indivíduo da geração anterior tem a mesma probabilidade de ser seu pai). Mas, de uma perspectiva genética, isso se baseia no genético (efetivo) tamanho da população (Ne), multiplicado por 2, pois cada indivíduo carrega duas cópias por gene (uma paterna e uma materna). Portanto, o número de pais em potencial é 2Ne.

Um gráfico da probabilidade de um evento coalescente (ou seja, dois alelos compartilhando um ancestral) na geração imediatamente anterior (ou seja, pais) em relação ao tamanho da população. Como se poderia esperar, com populações maiores, há pouca chance de compartilhar um ancestral na geração imediatamente anterior, pois o conjunto de & # 8216pais em potencial & # 8217 aumenta.

Se tivermos uma população idealista, com grande Ne, acasalamento aleatório e nenhuma seleção natural em nossos alelos, a probabilidade de que seu ancestral esteja neste imediato geração anterior (ou seja, compartilhar um pai) é 1 / (2Ne) Inversamente, a probabilidade de eles não compartilhar um dos pais é 1 - 1 / (2Ne) Se adicionarmos um componente temporal (ou seja, número de gerações), podemos expandir isso para incluir a probabilidade de quantos seriam necessárias gerações para que nossos alelos se unissem como (1 - (1/2Ne)) t-1 x 1/2Ne.

A probabilidade de dois alelos compartilharem um evento coalescente no passado em diferentes tamanhos de população. Semelhante ao anterior, há uma probabilidade maior de um evento coalescente anterior em populações menores, pois o número reduzido de ancestrais significa que os alelos são mais propensos a & # 8216share & # 8217 um ancestral. No entanto, com o tempo, esse padrão diminui consistentemente em todos os cenários de tamanho da população.

Embora isso possa parecer matematicamente complicado, o modelo coalescente nos fornece um cenário de como faríamos Espero diferentes mutações para se aglutinarem no tempo E se esses cenários idealistas são verdadeiros. No entanto, a biologia raramente é conveniente e é improvável que nossas populações de estudo sigam esses padrões perfeitamente. Ao estudar como nossos dados empíricos varia das expectativas, no entanto, permite-nos inferir algumas coisas interessantes sobre a história das populações e espécies.

Testando mudanças em Ne e gargalos

Uma das aplicações mais comuns do coalescente é determinar mudanças históricas no tamanho efetivo da população das espécies, particularmente na tentativa de detectar eventos de gargalo genético. Isso se baseia na ideia de que os alelos tendem a se aglutinar em taxas diferentes em cenários de gargalos genéticos, uma vez que o número reduzido de indivíduos (e também a diversidade genética) associado aos gargalos altera a frequência dos alelos e as taxas de coalescência.

Para um conjunto de k alelos diferentes, a taxa de coalescência é determinada como k(k – 1)/4Ne. Assim, a taxa de coalescência é intrinsecamente ligada ao número de variantes genéticas disponíveis: Ne. Durante gargalos genéticos, o severamente reduzido Ne dá a aparência de taxa de coalescência acelerando. Isso ocorre porque os alelos que são eliminados durante o evento de gargalo por deriva genética fazem com que apenas alguns alelos (geralmente comuns) passem pelo gargalo, com a mutação e disseminação desses alelos após o gargalo. Pode ser um pouco difícil pensar nisso, então o diagrama abaixo demonstra como isso aparece.

Um diagrama de como o coalescente pode ser usado para detectar gargalos em uma única população (centro). Neste exemplo, temos a população contemporânea na qual estamos traçando a coalescência de dois alelos principais (vermelho e verde, respectivamente). Cada círculo representa um único indivíduo (estamos assumindo apenas um alelo por indivíduo para simplificar, mas para a maioria dos animais existem até dois). Olhando para a frente no tempo, você notará que alguns alelos vermelhos se extinguem pouco antes do gargalo: eles são perdidos durante a redução em Ne. Por causa disso, se medirmos a taxa de coalescência (direita), ela é muito maior durante o gargalo do que antes ou depois. Outra maneira de visualizar isso é gerar árvores gênicas para os alelos (à esquerda): as populações que sofreram um gargalo normalmente terão muitos ramos mais curtos e uma raiz longa, pois muitos ramos serão & # 8216perdidos & # 8217 por extinção (as linhas tracejadas , que normalmente não são vistos em uma árvore).

Isso também faz sentido do ponto de vista teórico, uma vez que fortes gargalos genéticos significam que a maioria dos alelos é perdida. Assim, os alelos que nós Faz têm muito mais probabilidade de se fundir em breve depois de o gargalo, com muito poucos alelos que se aglutinam antes o evento de gargalo. Esses alelos conseguiram sobreviver à eliminação do gargalo e costumam ser poucos em comparação com os padrões abrangentes do genoma.

Teste de migração (fluxo gênico) entre linhagens

Outro fator demográfico que podemos desejar testar é se o fluxo gênico ocorreu em nossas populações historicamente. Embora existam muitos métodos de frequência de alelo que podem estimar o fluxo gênico contemporâneo (ou seja, dentro de algumas gerações), as análises coalescentes podem detectar padrões de fluxo gênico que chegam mais longe no tempo.

Em termos simples, isso se baseia na ideia de que, se o fluxo gênico ocorreu entre as populações, alguns alelos terão sido transferidos de uma população para outra. Por causa disso, esperaríamos que os alelos transferidos coalescessem com os alelos da população de origem mais recentemente do que o tempo de divergência das duas populações. Assim, os modelos que incluem uma taxa de migração muitas vezes a adicionam como um parâmetro especificando a probabilidade de que qualquer alelo dado coalescesse com um alelo em outro população ou espécie (a versão reversa de um evento de migração ou introgressão). Novamente, isso pode ser difícil de conceber, então há um diagrama útil abaixo.

Um modelo semelhante de coalescência como acima, mas testando a taxa de migração (fluxo gênico) em duas populações recentemente divergentes (direita). Neste exemplo, quando rastreamos dois alelos (vermelho e verde) no tempo, notamos que alguns indivíduos na População 1 coalescem mais recentemente com indivíduos da População 2 do que outros indivíduos da População 1 (por exemplo, para o alelo vermelho), e vice versa para o alelo verde. Isso também pode ser representado com árvores de genes (à esquerda), com linhas tracejadas representando indivíduos da População 2 e linhas inteiras representando indivíduos da População 1. Esta divisão incompleta entre as duas populações é o resultado da migração transferindo genes de uma população para outra após sua divergência inicial (também chamada de & # 8216introgressão & # 8217 ou & # 8216transferência horizontal de genes & # 8217).

Teste de tempo de divergência

De forma semelhante, o coalescente também pode ser usado para testar há quanto tempo as duas populações contemporâneas divergiram. Semelhante ao fluxo gênico, isso geralmente é incluído como um parâmetro adicional no topo do modelo coalescente em termos do número de gerações atrás. Para converter isso em uma estimativa de tempo significativa (por exemplo, em termos de milhares ou milhões de anos atrás), precisamos incluir uma taxa de mutação (o número de mutações por par de base de sequência por geração) e um tempo de geração para as espécies de estudo (quantos anos de diferença entre as gerações existem: para humanos, normalmente diríamos

Um exemplo de uso do coalescente para testar o tempo de divergência entre duas populações, desta vez usando três alelos diferentes (vermelho, verde e amarelo). Rastrear a coalescência de cada alelo revela tempos diferentes (em termos de geração em que a coalescência ocorre) dependendo do alelo (à direita). Como acima, podemos observar isso por meio de árvores gênicas (à esquerda), mostrando a variação de até onde as duas populações (novamente indicadas com linhas em negrito e tracejadas, respectivamente) se dividiram. A caixa azul indica o intervalo de tempo (ou seja, um intervalo de confiança) em torno do qual ocorreu a divergência: com muitos mais alelos, isso pode ser mais refinado usando uma & # 8216média & # 8217 e posteriormente relacionado ao tempo em anos com um tempo de geração.

A natureza complexa do coalescente

Embora cada um desses conceitos individuais possa parecer (dependendo de quão bem você lida com a matemática!) Relativamente simples, uma questão crítica é a interativo natureza dos diferentes fatores. Fluxo gênico, tempo de divergência e mudanças no tamanho da população irão tudo impactar simultaneamente a distribuição e frequência dos alelos e, portanto, o método coalescente. Por causa disso, frequentemente usamos programas complexos para empregar o coalescente, que testa e equilibra as contribuições relativas de cada um desses fatores até certo ponto. Embora o coalescente seja uma besta complexa, as melhorias na metodologia e nos programas que o utilizam continuarão a melhorar nossa capacidade de inferir a história evolutiva com a teoria coalescente.


Modelos coalescentes para biologia do desenvolvimento e a dinâmica espaço-temporal de tecidos em crescimento

O desenvolvimento é um processo que precisa ser fortemente coordenado tanto no espaço quanto no tempo. O rastreamento de células e o rastreamento de linhagem tornaram-se técnicas experimentais importantes na biologia do desenvolvimento e nos permitem mapear o destino das células e sua progênie. Uma característica genérica dos tecidos em desenvolvimento e homeostáticos que essas análises revelaram é que relativamente poucas células dão origem à maior parte das células em um tecido - as linhagens da maioria das células terminam rapidamente. Biólogos / físicos computacionais e teóricos desenvolveram, em resposta, uma série de abordagens de modelagem, principalmente a modelagem baseada em agentes. Esses modelos parecem capturar recursos observados em experimentos, mas também podem se tornar caros do ponto de vista computacional. Aqui, desenvolvemos modelos genealógicos complementares de desenvolvimento de tecido que traçam a ancestralidade das células em um tecido até seus ancestrais comuns mais recentes. Mostramos isso com o crescimento limitado e ilimitado simples, mas as relações de escala universal nos permitem conectar a teoria coalescente com os modelos de crescimento fractal amplamente usados ​​na biologia do desenvolvimento. Usando nossa perspectiva genealógica, é possível estudar propriedades estatísticas em massa dos processos que dão origem aos tecidos das células, sem a necessidade de simulações em grande escala.

1. Introdução

A conexão entre espaço e tempo é fundamental para a biologia do desenvolvimento. Por mais de um século, a localização da proliferação e diferenciação das células-tronco durante o desenvolvimento é conhecida por ser bem organizada e de suma importância para a tomada de decisão sobre o destino da célula (por exemplo, organizador de Spemann e nós primitivos) [1]. Através do controle da divisão celular e outras ações celulares, a sinalização química espaço-temporal forma padrões complexos vitais para o desenvolvimento adequado do tecido [2,3]. Apesar da importância há muito estabelecida da informação espacial na compreensão do desenvolvimento do tecido, não foi até recentemente que a compreensão generalizada desses efeitos se tornou possível.

Trabalhos experimentais mais recentes (baseados em microscopia avançada [4] com corantes adequados [5] e marcadores de fluorescência [6], etc.) no contexto da biologia do desenvolvimento focalizaram o rastreamento celular e o rastreamento de linhagem. Esses experimentos já deram origem a novos insights profundos. Opacidade, efeitos tridimensionais e estocasticidade tornam o rastreamento de linhagem e experimentos de rastreamento de células difíceis [5,7], no entanto. Mesmo com o suporte de análises estatísticas e computacionais de última geração, esses experimentos continuarão sendo desafiadores. A modelagem computacional está, portanto, emergindo como uma ferramenta desejável e, em última análise, essencial para compreender os processos cuidadosamente orquestrados subjacentes ao crescimento e homeostase do tecido. Modelos matemáticos ou computacionais podem encapsular hipóteses mecanísticas complicadas e quantitativas e ser usados ​​para testar sistematicamente quais aspectos dessas hipóteses são confirmados pela realidade.

Na modelagem de tecidos e tumores, os modelos baseados em agentes (ABMs) estão ganhando popularidade [8] e permitem a inclusão da composição celular dos tecidos desde o início. Como as células, os agentes interagem com seu ambiente e uns com os outros ocupam áreas / volumes espaciais finitos e podem exibir as características do comportamento celular: diferenciação, proliferação, movimento e morte [9-11]. Todos esses fatores fazem com que as células se organizem em tecidos. Embora haja um grande componente determinístico subjacente ao crescimento do tecido (bem como à homeostase), as células de rastreamento de experimentos e sua progênie frequentemente demonstram uma variabilidade substancial nos comportamentos de linhagem [12-14] facilmente capturados por ABMs. Assim, as abordagens ABM fornecem um complemento computacional natural para experimentos de rastreamento de linhagem.

Nós nos inspiramos em abordagens de modelagem recentes para crescimento e desenvolvimento de tecidos [15] que exibem linhagens ancestrais dominantes chamadas superstars. ABMs que descrevem o crescimento e desenvolvimento da crista neural sugerem que a competição entre as células por espaço parece afetar o desenvolvimento do sistema nervoso entérico. À medida que as células produzem descendentes, surgem diferenças no número de descendentes produzidos, resultando na descendência de uma ou muito poucas células ancestrais que dominam o tecido (ou seção de tecido). Fenômenos emergentes semelhantes são relatados em outros estudos de rastreamento de linhagem, tanto no crescimento de tecidos saudáveis ​​quanto malignos [16-18].

O problema mais evidente é o da carga computacional. A realização de muitas funções biológicas envolve bilhões de células em interação. Simular um único exemplo de tal sistema pode levar centenas de horas de unidade central de processamento. Se quisermos usar métodos estatísticos para calibrar tais modelos contra dados, então precisaríamos de centenas ou milhares de tais simulações, que podem ser quase impossíveis de implementar sem incorrer em custos computacionais massivos [11]. Felizmente, ao implementar metodologias inspiradas na genética de populações, pode ser possível destilar muitos conceitos importantes de rastreamento de linhagem em regras quantitativas fáceis de digerir e computacionalmente leves.

Quando rastreamos as relações ancestrais entre as células de um tecido, recuperamos relações genealógicas que são familiares da genética populacional. A genética populacional tem sido aplicada com grande sucesso para, por exemplo, mapear a história genética de populações humanas e animais, estimar a idade dos alelos e mapear movimentos populacionais anteriores [19]. Uma sofisticada estrutura matemática foi desenvolvida que nos permite elucidar a dinâmica evolutiva, por exemplo, em uma população de N alelos que evoluem de acordo com o modelo neutro padrão, o tempo médio até que um alelo se torne fixo é 2N gerações [19]. Uma das razões para o sucesso da teoria genética populacional é que os processos evolutivos geralmente ocorrem em escalas de tempo tão longas que não podem ser observados experimentalmente. Em vez disso, os modelos matemáticos são usados ​​para capturar a dinâmica evolucionária e relacioná-los aos dados observados usando métodos estatísticos - provavelmente não é coincidência que a teoria evolucionária tenha sido vinculada aos desenvolvimentos na teoria e prática estatísticas.

Um dos insights fundamentais que tornou esta conexão entre a teoria da genética evolutiva / populacional e estatística ainda mais estreita é a compreensão de que podemos reconstruir os processos genealógicos subjacentes a uma amostra de alelos (extraída de uma grande população), ou seja, não temos que modelar a evolução de uma grande população de N indivíduos avançam no tempo, mas podem, em vez disso, olhar para o processo estocástico que descreve a relação ancestral entre n (tipicamente) indivíduos / alelos [12]. A partir da presente amostra, seguimos suas linhagens ancestrais de volta no tempo até que todas as linhagens tenham coalescido em uma única linhagem, este alelo / estado é chamado de ancestral comum mais recente (MRCA). Além da eficiência computacional (em comparação com simulações diretas), este abordagem coalescente também se concentra explicitamente nos dados observados e nas propriedades do processo genealógico subjacente, e não nas linhagens que resultam em "becos sem saída", ou seja,que não contribuem para a frente de crescimento.

Aqui, adaptamos e aplicamos a teoria coalescente aos processos de desenvolvimento. Os tecidos têm MRCAs separados do MRCA de um organismo, que é, obviamente, o óvulo fertilizado do qual se originou. Para a maioria dos tecidos, e isso inclui tumores, podemos começar a partir de um tecido existente e voltar no tempo até chegarmos a uma geração em que existe uma única célula da qual derivam todas as linhagens celulares existentes. A teoria coalescente nos permite estudar populações de células e suas relações ancestrais retrocedendo no tempo e no espaço. Na verdade, é a relação entre espaço e tempo que ganha destaque nesse quadro.

2. Métodos

A seguir, estabeleceremos uma relação entre o coalescente exato [20] (relacionado ao modelo Wright-Fisher [21] de genética populacional) e os modelos de crescimento de tecido que são inspirados ou estão relacionados ao modelo clássico de Eden [22] (ou modelos mais gerais, como os processos descritos pela equação Kardar – Parisi – Zhang (KPZ) [23]). Até onde sabemos, a teoria coalescente, o ABM e a teoria do crescimento fractal nunca foram considerados em combinação para compreender os processos de desenvolvimento.

2.1. Processo coalescente

O processo coalescente é uma descrição da evolução populacional e está na base de grande parte da genética populacional moderna. O modelo Wright-Fisher [21] é sem dúvida a descrição mais simples de mudança evolutiva em uma população de indivíduos idênticos. Em cada etapa de tempo (onde o tempo é escalado por um comprimento de geração e medido em gerações com valor real), a população (tamanho N) é substituído pela escolha de membros aleatórios da população atual para se reproduzir e formar a próxima geração. A vantagem óbvia de tal modelo é sua descrição probabilística direta, em que cada membro da população tem a mesma probabilidade de ser o pai de qualquer filho da próxima geração (evolução neutra).

A genética populacional, entretanto, geralmente busca obter informações sobre a história de uma população com base apenas nos dados genéticos da população atual. A teoria coalescente inverte o tempo e explora a história de uma população rastreando como linhagens distintas (galhos em uma árvore genealógica) eventualmente se combinam (coalescem) conforme a população é rastreada para trás no tempo. Kingman, em 1982 [24] (Griffiths [25] e Tajima [26] publicaram suas abordagens quase idênticas quase simultaneamente), foi capaz de usar o modelo Wright-Fisher e reverter o tempo para desenvolver matematicamente esta abordagem coalescente.

A teoria coalescente [19] inverte o tempo - o presente é t = 0 - e o número de linhagens relevantes (n) que são ancestrais da amostra atual são rastreados para trás até que o MRCA seja alcançado. Essas linhagens se unem (quando duas linhagens chegam ao seu ancestral comum mais recente), e o tempo gasto com um número específico (k) de linhagens ativas (Tk) é modelado probabilisticamente. A chave para o uso da teoria coalescente na análise genética de populações está em seu comportamento limitante. Em vários limites comuns (grande população, N → ∞, e pequeno número de linhagem inicial,), o processo coalescente é caracterizado por um processo de reação distribuído exponencialmente, onde o tempo antes do próximo evento coalescente entre k linhagens, Tk, É dado por

Enquanto o coalescente Kingman usa esta grande aproximação de população (e em particular), uma descrição exata do modelo de Wright-Fisher é fornecida por Fu [20]. A diferença fundamental entre os dois é que na coalescência convencional não mais do que um evento coalescente pode ocorrer em qualquer geração. O exato ou -coalescente fornece uma descrição exata da genealogia de uma população (em vez de uma pequena amostra) onde vários eventos coalescentes podem ocorrer em um único intervalo de tempo.

2.2. Modelos de crescimento

No total, os quatro modelos que usamos são todos motivados pelo ABM introduzido por Cheeseman et al. [15], que corresponde a um processo de crescimento do Éden [22] com difusão. As suposições básicas são que o crescimento ocorre na fronteira do sistema em crescimento e que o sistema permanece conectado. O limite é definido como células adjacentes a locais não ocupados (essas são as únicas células que podem crescer nesses modelos). Nos sistemas apresentados, o limite é predominantemente composto pela borda dianteira do tecido em crescimento, com muito pouco crescimento ocorrendo dentro do corpo do tecido.

Na figura 1uma, fornecemos uma representação gráfica de uma única etapa durante o crescimento do Éden. figura 1b mostra a mesma etapa única para o modelo Wright-Fisher para comparação. Na figura 1c, um exemplo de rastreamento de linhagem (e coalescência) no modelo Eden (N = 20) é mostrado a partir da 200ª geração e retrocedido de pai para filho. O MRCA está marcado em preto. O tempo para o TMRCA é, portanto, medido em gerações para trás no tempo. figura 1d mostra resultados semelhantes para crescimento ilimitado (por exemplo, no crescimento do tumor [31]).

Figura 1. Exemplo de resultados de Wright – Fisher e Eden para diferentes geometrias. (uma) Uma descrição gráfica de uma única etapa em um pequeno modelo Eden. Os pais são escolhidos de maneira uniforme e aleatória nos locais de reprodução vizinhos. (b) Uma descrição gráfica do processo de crescimento de Wright-Fisher. Aqui, as células em reprodução são escolhidas aleatoriamente para serem as mães de uma célula da próxima geração. (c) Um exemplo de um processo de crescimento do Éden em um domínio limitado crescendo em uma única direção (da esquerda para a direita). A 200ª geração é marcada em verde, linhagens ativas em vermelho e o MRCA em preto. O MRCA tem 104 gerações no passado (contido na 96ª geração). (d) Um modelo de crescimento tumoral (ilimitado, com uma população inicial de um localizado na origem). A 200ª geração é marcada em verde, linhagens ativas em vermelho e aqui o MRCA é a geração inicial mostrada em preto. Árvores genealógicas semelhantes a estrelas são características de tecido ilimitado ou crescimento de colônia bacteriana.

Usamos o modelo de crescimento Eden simples e o modelo de crescimento Eden modificado incorporando a difusão que permite que as células se movam e reproduzam. Essa alternativa é chamada de modelo de difusão Eden. Em todos os casos, aplicamos condições de contorno periódicas e todas as simulações são conduzidas em uma rede quadrada. Embora isso introduza uma anisotropia clara na estrutura da colônia bacteriana, os expoentes críticos e, portanto, os resultados aqui são geralmente independentes da microestrutura da rede [32,33]. Observe que em ambos os modelos de crescimento fractal, a simulação foi interrompida após um número especificado de gerações ter sido atingido. Descrições mais detalhadas dos modelos usados ​​neste estudo são fornecidas no material eletrônico suplementar.

3 Resultados e discussão

A intenção da nossa análise é quádrupla: (i) demonstrar a conexão direta entre as dimensões do espaço e do tempo no crescimento do tecido (ii) estabelecer que as linhagens dominantes são uma característica natural dos modelos de crescimento fractal que é prontamente capturado por um processo coalescente ( iii) determinar os fatores de escala para modelos coalescentes de processos de crescimento biológico e estabelecer a ligação com o coalescente clássico (conforme aplicado ao modelo de Wright-Fisher) e (iv) para mostrar que as relações de escala simples se aplicam ao rastreamento de linhagem em ambos os métodos unidirecionais e sistemas de crescimento fractal sem limites. Em termos de biologia do desenvolvimento, isso fornece uma estrutura para analisar experimentos de rastreamento de linhagem, bem como um meio de inferir propriedades da população ancestral (por exemplo, células-tronco ou progenitoras), tal habilidade irá, esperamos, estimular novas análises experimentais .

3.1. Os resultados do modelo de evolução neutra

Começamos com um modelo em que o crescimento do tecido prossegue camada por camada, com células-mãe escolhidas aleatoriamente entre as N células em uma população definida pelas células da camada anterior (imitando o comportamento do modelo Wright-Fisher). Esse sistema poderia ser considerado uma versão simplificada do crescimento de tecido unidirecional e limitado (número constante de células em cada camada de tecido). Na figura 2, mostramos os resultados coalescentes para três modelos de evolução neutra com larguras de tecido de N = 10 (pontos), 100 (sólido), 1000 (traços). O número médio de linhagens (vermelho) demonstra uma rápida decadência inicial à medida que uma parte substancial das linhagens é eliminada nas primeiras etapas de tempo. Esse comportamento é característico do coalescente exato onde muitos eventos coalescentes de várias linhagens ocorrem por geração. A probabilidade de coalescência (azul) mostra que quase todas as simulações irão coalescer dentro de 5 × N gerações. Ao dimensionar o eixo do tempo com a largura do tecido N, é fácil ver como N tende ao infinito, o processo coalescente converge para uma única trajetória geral caracterizada pelas equações (2.1) e (2.2). Nesse modelo espaço-temporal simplificado, a conexão entre a profundidade do tecido (espacial) e o número de geração (temporal) é determinística.

Figura 2. Propriedades coalescentes para o crescimento do tecido camada por camada. Um processo de crescimento de camada por camada unidirecional limitado é mostrado para três diferentes larguras de tecido (com N = 10 (pontos), N = 100 (sólido) e N = 1000 células (tracejadas)). As linhagens excedentes médias (definidas como o número de linhagens além do ancestral comum único da população) são mostradas em vermelho em uma escala semilogista. A probabilidade de haver coalescências alcançadas por uma profundidade / geração de célula específica é mostrada em azul. O eixo do tempo é dimensionado com a largura do tecido (N), revelando uma relação assintótica como N → ∞. Todas as simulações são o resultado de 10.000 simulações de Monte Carlo.

3.2. Os resultados do modelo difusivo-Eden

Figura 3uma mostra que o processo de crescimento difusivo-Éden mais realista exibe uma conexão espaço-temporal não determinística distinta. As gerações 1 (vermelho), 50 (amarelo), 100 (verde), 150 (azul) e 200 (magenta) são mostradas com cada localização da rede ponderada de acordo com a probabilidade de uma célula estar presente em 1 milhão de realizações estocásticas do Éden difusivo modelo de crescimento. Enquanto a distribuição ao longo da largura do tecido atinge rapidamente a uniformidade, figura 3b mostra como a distribuição ao longo da profundidade do tecido aparece normalmente distribuída com uma média e variância crescentes.

Figura 3. Conexões espaço-temporais no modelo difusivo-Éden. (uma) Representação probabilística da posição para a geração 0 (vermelho), 50 (amarelo), 100 (verde), 150 (azul) e 200 (magenta) em 10 6 realizações de Monte Carlo do modelo de crescimento difusivo-Eden com largura de tecido (N) de 50 células. Cada ponto da rede é ponderado de acordo com a probabilidade de que uma célula da geração especificada ocuparia aquele local durante a simulação. Observe que a curvatura das distribuições resulta da inicialização do sistema como um único ponto. (b) As distribuições de probabilidade marginal (somadas à largura do tecido) para a ocupação do local na profundidade do tecido. (c) Profundidade média do tecido (distribuição azul) e a variância para a profundidade do tecido (distribuição laranja) versus tempo, conforme representado pelo número de geração celular. A média geral (linha sólida) e a variância média (linha tracejada) para 10 6 simulações também são mostradas. Observe que a variância é uma distribuição de cauda longa e, portanto, a média é significativamente maior do que o esperado, dada a distribuição. (d) O desvio da profundidade média do tecido para as gerações 250 (vermelho), 200 (azul, obscurecido) e 150 (verde, obscurecido) calculado a partir de 10 6 simulações. Observe que a distribuição aparece normalmente distribuída com variância igual a N (largura do tecido) e estacionário.

Deve-se notar que ao longo deste estudo o tempo é representado em termos de gerações sucessivas, a fim de se traduzir mais facilmente entre os modelos de evolução neutra e de crescimento do Éden. Para uma linhagem específica, o tempo desde o início da simulação é proporcional a quantos eventos de divisão ocorrem e, portanto, o número de geração e o tempo são intercambiáveis.

O aumento da variância é uma função da profundidade média do tecido para uma geração celular particular, conforme mostrado na figura 3c. Aqui, a profundidade média do tecido versus número de geração (distribuição azul, linha preta sólida mostra a média) exibe uma média e variância crescentes. Alternativamente, a variância em torno desta média (distribuição laranja de cauda longa, linha preta tracejada mostrando o valor médio) atinge rapidamente um estado estacionário. Os valores foram calculados tomando o Ng células em geração g em qualquer simulação particular e obtenção de uma média e variância para a profundidade do tecido para este grupo. Isso mostra uma relação estatística facilmente definida entre o tempo (número de geração) e o espaço (profundidade do tecido) e, portanto, se a coalescência no tempo puder ser determinada, as estatísticas para o rastreamento da linhagem de células espaciais serão prontamente determinadas. Estudos sobre modelos relacionados [34] mostraram uma relação linear semelhante entre espaço e tempo em modelos de crescimento fractal.

Figura 3d mostra que há uma distribuição de estado estacionário para o desvio da posição média para qualquer célula (de uma geração específica). As distribuições são normalmente distribuídas em torno de zero com uma variância igual a N e chegar muito rapidamente a uma distribuição estacionária. Os valores foram calculados tomando o Ng células em geração g em qualquer simulação particular e obtenção dos desvios da profundidade média do tecido para o grupo. Esta relação está relacionada com a dinâmica de crescimento fractal subjacente para o modelo Eden em que a rugosidade de uma fronteira de crescimento Eden unidirecional é proporcional a N 1/2 [35], onde N é a largura do tecido.

A próxima questão é se é possível aplicar o coalescente do modelo de evolução neutro mais simples aos modelos de crescimento fractal mais complicados. Na figura 4uma, os números de linhagem (vermelho) e a probabilidade de coalescência (azul) são mostrados para larguras de tecido de N = 10 (linha pontilhada), 50 (linha sólida) e 100 (linha tracejada).

Figura 4. Análise coalescente do modelo diffusive-Eden com o tempo até a escala de ancestral comum mais recente. (uma) As linhagens excedentes médias (definidas como o número de linhagens além do ancestral comum único da população, vermelho) e a probabilidade de coalescência (azul). Os resultados são mostrados para três larguras de tecido para um modelo difusivo-Eden, N = 10 (pontos), 50 (linha sólida) e 100 (linha tracejada) de 10.000 simulações de Monte Carlo. (b) O significativo TMRCA para o modelo difusivo-Eden é mostrado para larguras de tecido de N = 3 a 1000 (quadrados vermelhos, 1000 instâncias simuladas) em um gráfico log – log. Uma linha de comparação para o coalescente Kingman (com base na equação (2.2)) é mostrada como uma linha tracejada verde para referência. Uma regressão linear para os resultados do Éden difusivo é mostrada como uma linha preta tracejada e exibe uma inclinação calculada de aproximadamente 1,51. Esses resultados lineares são usados ​​como base para a população efetiva na equação (3.1).

Estes resultados mostram duas características importantes para o modelo difusivo-Eden: primeiro, a coalescência é de fato inevitável para o modelo difusivo-Eden com pequenas larguras de tecido (por exemplo N = 50) no entanto, no limite (N → ∞), não será esse o caso. Como N aumenta, o tempo para coalescência irá derivar ainda mais para o passado (relativo) até que a coalescência não seja encontrada dentro das expectativas de tempo / profundidade de tecido razoáveis. Isso sugere que, embora as linhagens dominantes individuais possam ser importantes em escalas espaciais de desenvolvimento, tecidos maiores serão fundados por vários ancestrais distintos derivados de células-tronco mais gerais. A estrutura coalescente permite, portanto, estimar o número de células-tronco fundadoras de um tecido em desenvolvimento, considerando seu tamanho e idade.

Os resultados da figura 4uma imploro a questão de quais são as propriedades de dimensionamento (com relação ao tamanho do tecido) do são para o modelo difusivo-Eden. Na figura 4b, um gráfico log-log para a média TMRCA para larguras de tecido de N = 3 a 1000 é mostrado (quadrados vermelhos, 1000 simulações). O tempo médio para o ancestral comum mais recente (, equação (2.2)) para as escalas coalescentes clássicas com N (produzindo a trajetória estacionária na escala normalizada na figura 2), e é fornecido para comparação (linha verde tracejada). Como é evidente, as inclinações das duas linhas são muito diferentes. Uma regressão linear (linha tracejada preta) pode ser combinada com o modelo difusivo-Eden e mostra que a inclinação é de aproximadamente 1,51. Postulou-se que este fator de escala está relacionado ao expoente dinâmico [36]. Na verdade, este modelo é governado pela equação KPZ (1 + 1) -dimensional [23] que tem um fator de escala de z = 3/2.

Na figura 5uma, o domínio do tempo para os resultados da linhagem (azul) e a probabilidade de coalescência (vermelho) da figura 4uma são redimensionados usando o N Fator 3/2 determinado na figura 4b. Esses resultados agora correspondem à trajetória coalescente exata em média, e a probabilidade coalescente torna-se quase idêntica com o aumento N. Tal como acontece com muitas aplicações empíricas da teoria coalescente [37], isso pode ser considerado um número efetivo da população. Escalando pela seguinte população efetiva:

Figura 5. Análise coalescente em escala para os resultados do modelo diffusive-Eden. (uma) Estes resultados são idênticos aos apresentados na figura 4uma, mas dimensionado com uma população efetiva ditada pelos resultados na figura 4b (, equação (3.1)). Novamente, N = 10 (pontos), 50 (linha sólida) e 100 (linha tracejada) são apresentados. O resultado de Wright-Fisher para N = 1000 (círculos abertos) da figura 2 é fornecido como referência para a linhagem média em excesso (azul) e probabilidade coalescente (vermelho). (b) Resultados do modelo Eden para crescimento limitado (1 + 1) -dimensional e (2 + 1) -dimensional (100 simulações por ponto). As inclinações, conforme aproximadas por uma regressão linear, correspondem ao expoente dinâmico para as respectivas equações KPZ (1 + 1) e (2 + 1). Observe que a base para o sistema (2 + 1) -dimensional é um quadrado e, portanto, quando a largura é relatada como 500 células, isso significa que há 250.000 células por camada.

somos capazes de obter uma representação coalescente eficaz de um modelo de crescimento biológico mais realista para qualquer largura de tecido desejada (N) Com isso em mente, podemos aplicar a teoria coalescente para modelar as relações ancestrais entre as células nos tecidos em desenvolvimento.

Figura 5b testa o fator de escala do expoente dinâmico estendendo os resultados da figura 4b para um sistema (2 + 1) -dimensional. Simulando em três ordens de magnitude de largura de tecido (100 trajetórias por simulação) os modelos de crescimento de Eden limitado (1 + 1) e (2 + 1) -dimensionais exibem um fator de escala de 1,5 e 1,61, respectivamente, para o tempo médio para o MRCA. Esses modelos de desenvolvimento de tecido são os mesmos aula de universalidade [38] como modelos governados pela equação KPZ.Essas inclinações são idênticas ao expoente dinâmico relatado para os sistemas (1 + 1) - e (2 + 1) -dimensionais governados pela equação KPZ [36]. Usando o expoente dinâmico, é então possível determinar tamanhos populacionais efetivos não lineares para modelos de crescimento fractal.

3.3. Simulação de crescimento do Tumor Eden

Em seguida, modelamos um tumor bidimensional ou colônia bacteriana usando um modelo Eden não difusivo sem restrições de limite (consulte o material eletrônico suplementar) a partir de uma única célula fundadora na origem. Figura 6uma mostra a probabilidade de ocupação de diferentes locais para as gerações 1, 50, 100, 150 e 200. Mais uma vez, a relação entre tempo e espaço é aparente, ver figura 6b.

Figura 6. Conexões espaço-temporais em um modelo de crescimento Eden de colônia bacteriana. (uma) Representação probabilística da posição para a geração 0 (vermelho), 50 (amarelo), 100 (verde), 150 (azul) e 200 (magenta) em 10 6 realizações de Monte Carlo do modelo de crescimento não difusivo-Eden. Cada ponto da rede é ponderado de acordo com a probabilidade de que uma célula da geração especificada ocuparia aquele local durante a simulação. (b) Uma representação unidimensional das distribuições de probabilidade de ocupação do local ao longo da profundidade radial. (c) Profundidade radial média (distribuição em azul) e a variância do raio (distribuição em laranja) em função do tempo, representada pelo número de geração celular. A média geral (linha sólida) e a variância média (linha tracejada) para 10 6 simulações também são mostradas. (d) O desvio do raio médio para as gerações 350 (verde), 600 (azul) e 850 (vermelho) calculado a partir de 10 6 simulações.

Neste caso, a posição média versus número de geração (figura 6c) é notavelmente diferente da figura 3c. A posição radial média é quase determinística (distribuição azul e linha preta sólida), enquanto o spread crescente nos dados de posição geracional (figura 6b) pode ser quase inteiramente atribuído a um desvio crescente da média. Esses resultados sugerem que qualquer realização individual desse processo de crescimento estocástico terá uma distribuição não estacionária à medida que as células na mesma geração se distanciam cada vez mais.

Na figura 6d, as distribuições para as gerações 350 (verde), 600 (azul) e 850 (vermelho) são mostradas para divergir conforme o número de geração aumenta. A falta de uma distribuição estacionária e, portanto, uma aspereza cada vez maior da superfície da colônia, é uma consequência bem conhecida do crescimento ilimitado do fractal do Éden [39]. Também tem consequências interessantes no fato de que o MRCA está próximo ou na célula de origem no sistema. O número de células aumenta linearmente com o número de geração, e com processos de crescimento não constantes, a árvore genealógica assume um padrão de estrela (observado experimentalmente em modelos de crescimento tumoral [31,40]).

Na figura 7uma, o número de linhagens ancestrais é rastreado no tempo a partir da geração 450 (linha verde sólida, com N0 ≈ 1250), geração 900 (linha vermelha sólida, com N0 ≈ 2500) e geração 1800 (linha azul sólida, com N0 ≈ 5000) do modelo de crescimento Eden. Observamos que uma porcentagem substancial de linhagens permanece quando a coalescência é forçada pelo tamanho total da população linearmente decrescente (linha cinza). Para comparação, modelos coalescentes clássicos são executados para o mesmo número de gerações e uma taxa média de crescimento populacional de células por geração é fornecida (linhas tracejadas). Também aqui não ocorre coalescência completa. No entanto, enquanto as duas linhas diferem substancialmente, a dinâmica do modelo de crescimento do tumor e coalescente com crescimento populacional linear parecem ter o mesmo comportamento básico.

Figura 7. Linhagens restantes começando de três gerações anteriores no tempo para uma colônia bacteriana ou tumor. (uma) O modelo de crescimento Eden para colônia bacteriana ou tumor começando na geração 1800 (linha sólida azul), 900 (linha sólida vermelha) e 450 (linha sólida verde) mostra as linhagens totais restantes. A população total (linha sólida cinza) está crescendo linearmente. A coalescência não é observada em quase todas as simulações (uma árvore parecida com uma estrela). Um modelo de evolução neutra com crescimento populacional linear () é mostrado como linhas tracejadas para comparação. Este modelo também exibe árvores semelhantes a estrelas. (b) A modelagem de um número de linhagem eficaz restante agora mostra uma forte sobreposição entre os dois modelos. A relação é apresentada no texto. Todos os resultados são calculados a partir de 1000 simulações estocásticas.

A relação entre o modelo coalescente clássico e os resultados do modelo Eden pode ser estabelecida usando os mesmos expoentes fractais observados nos resultados do modelo Eden difusivo. Em 1996, Manna & amp Dhar [41] exploraram a relação entre os expoentes críticos do modelo Eden e a "espinha dorsal" da linhagem subjacente (ou seja, sua árvore genealógica). A relação chave diz respeito ao número fracionário de linhagens que sobrevivem até uma altura h longe da superfície original, Nh,

O que realmente nos interessa na figura 7 é o número absoluto (e não o fracionário) de linhagens existentes. Assim, nós escrevemos

Na figura 7b, relacionamos os resultados do Éden à evolução neutra em uma população de crescimento semelhante (crescendo linearmente com o número de geração). Usando os argumentos gráficos e numéricos acima, este modelo de evolução neutra, em seguida, escala com α igual a 1 e, portanto,

A fim de traduzir a trajetória do modelo de crescimento do Éden () para o modelo de evolução neutra (), uma população de linhagem efetiva para o processo do Éden pode ser formada

Na verdade, na figura 7b, essa modificação simples da trajetória de crescimento do Éden resulta em uma sobreposição quase perfeita com o modelo coalescente com crescimento linear. A modificação real é

Aqui, o tempo representa o número da geração (começando na primeira geração no passado).

Em última análise, os resultados para o modelo de crescimento ilimitado Eden concordam com os resultados determinados para o modelo de crescimento limitado (e os resultados coalescentes correspondentes para populações em crescimento encontrados na figura 7). Esses resultados também confirmam a estreita relação entre o expoente dinâmico no crescimento fractal e a estrutura de árvore subjacente que é o objetivo em experimentos de rastreamento de linhagem celular. Ambos os resultados sugerem que é possível usar a teoria coalescente para capturar e descrever os resultados encontrados em modelos complexos de crescimento fractal de uma maneira computacionalmente eficiente. Resultados estatisticamente válidos sobre as localizações espaciais de células pertencentes a populações ancestrais de células também podem ser determinados a partir de tais análises.

4. Conclusão

Neste estudo, usamos ABMs para simular o crescimento do tecido e para estabelecer propriedades compartilhadas de suas respectivas árvores ancestrais, tomando emprestado da teoria dos processos coalescentes. As relações resultantes, exemplificadas por expoentes dinâmicos compartilhados da teoria de crescimento fractal, estabelecem relações não triviais entre a teoria coalescente e modelos de crescimento de superfície fractal relevantes para a biologia do desenvolvimento e modelagem de crescimento de tecido.

A propriedade de escala para em nosso modelo difusivo-Eden está relacionada ao expoente dinâmico para o crescimento Eden (z = 3/2). Na verdade, a pesquisa no campo de polímeros direcionados sugere que o tempo médio para o MRCA será escalonado de acordo com N z (escrito como N 1/ν em [36]), e sabe-se que a dinâmica dirigida do polímero à temperatura zero é equivalente ao crescimento Eden [42]. Assim, conhecendo o expoente dinâmico (z) fornece uma regra de escalonamento geral que pode ser aplicada a priori a um sistema biológico exibindo crescimento fractal. Para este fim, expoentes dinâmicos já foram determinados experimentalmente para colônias bacterianas [43]. Mais importante, em nossa opinião, ele confirma que o tratamento do espaço como equivalente ao tempo (de desenvolvimento) é significativo. Mesmo em um modelo de crescimento mais realista, no qual as células podem se mover e se reorganizar, a árvore genética exibe a mesma escala geral para o domínio espacial e temporal.

A teoria coalescente, então, é imediatamente aplicável e valiosa para a análise de tecidos biológicos e modelos de crescimento, especialmente se a natureza celular for explicitamente modelada. A emergência de linhagens dominantes, por exemplo, é facilmente compreendida sem a necessidade de simulações e pode ainda ser racionalizada usando as propriedades de dimensionamento descritas acima. Além disso, a presença de uma única linhagem dominante para grandes tamanhos de domínio agora pode ser completamente descartada para o modelo difusivo-Eden, porque como N vai ao infinito, um MRCA nunca será observado para qualquer profundidade de tecido prática. Indo ainda mais longe, a presença de uma linhagem dominante agora pode ser potencialmente descartada para uma gama de modelos de tecido, porque qualquer sistema de crescimento fractal com um expoente dinâmico maior que 1 não é provável que tenha um único MRCA dentro de profundidades de tecido relevantes como N aumenta. Finalmente, podemos começar a fazer afirmações biológicas não triviais sobre sistemas que são muito grandes ou complicados para simular.

É importante ressaltar que muitos dos resultados apresentados aqui podem ser confirmados experimentalmente. Em particular, a determinação de um expoente dinâmico para uma população bacteriana em crescimento real combinada com experimentos de rastreamento de linhagem pode confirmar os resultados apresentados na figura 5. De particular apelo é o potencial de estimar o número de células-tronco necessárias para gerar as células em um tecido de determinado tamanho em um determinado período de tempo limitado. Esperamos que este estudo motive análises experimentais que nos permitam avaliar o tamanho necessário do pool de células-tronco, já que este (i) seria o teste mais rigoroso para nossa análise teórica e (ii) poderia ter implicações profundas para a biologia do desenvolvimento também como medicina regenerativa. Finalmente, o fato de que os modelos de crescimento de tecido se enquadram na mesma classe de universalidade dos modelos KPZ deve permitir alguns insights gerais sobre a dinâmica na superfície dos tumores em crescimento, incluindo a rugosidade de tais tumores.

A perspectiva tomada aqui se concentra apenas na ancestralidade das células - mas o mesmo acontece com o rastreamento de linhagem. Os processos intra e intercelulares que moldam as decisões das células [44,45] serão uma extensão óbvia a se considerar, especialmente no contexto de modelos multi-escala [46] aplicados aos processos de desenvolvimento. Já, no entanto, esta análise fornece uma estrutura complementar útil para a análise de estudos de rastreamento de linhagem. Existe, acreditamos, um apelo intrínseco à aplicação de conceitos evolutivos aos problemas de desenvolvimento. A evolução, é claro, fornece uma estrutura contra a qual vemos o desenvolvimento, mas aqui também pode fornecer ferramentas computacionais poderosas para a análise da dinâmica do tecido durante o crescimento, bem como a homeostase.


Teoria coalescente e árvores de espécies

Este capítulo apresenta o processo coalescente de Kingman, que descreve as relações genealógicas dentro de uma amostra de sequências de DNA retiradas de uma população e forma a base para métodos de inferência baseados em probabilidade usando tais dados. O caso simples de estimativa bayesiana do parâmetro de tamanho da população teta usando uma amostra de DNA é discutido para ilustrar as características básicas dos algoritmos de inferência de Monte Carlo para cadeias de Markov Bayesianas (MCMC). O capítulo então discute o uso de modelos demográficos paramétricos e não paramétricos de mudança no tamanho da população para inferir a história demográfica passada de uma espécie. O modelo coalescente multiespécies, que estende o coalescente de população única a populações múltiplas, é apresentado com exemplos. Isso é então usado como a estrutura geral para estimar parâmetros como tempos de divergência de espécies e tamanhos de populações ancestrais, para inferir a árvore de espécies de vários loci genéticos, apesar da existência de árvores gênicas conflitantes, para estimar taxas de migração entre populações e para delimitar espécies usando dados de sequência de DNA multi-locus.

Oxford Scholarship Online requer uma assinatura ou compra para acessar o texto completo dos livros dentro do serviço. Os usuários públicos podem, no entanto, pesquisar livremente o site e visualizar os resumos e palavras-chave de cada livro e capítulo.

Por favor, inscreva-se ou faça o login para acessar o conteúdo de texto completo.

Se você acha que deveria ter acesso a este título, entre em contato com seu bibliotecário.

Para solucionar o problema, consulte nossas Perguntas frequentes e, se não conseguir encontrar a resposta lá, entre em contato conosco.


Assista o vídeo: Conferênciais Internacionais do Meio Ambiente. Geografia (Novembro 2021).