Em formação

Como calcular a ocorrência de um trecho de nucleotídeos em um genoma?


Eu vi que a fórmula para calcular o número de vezes que uma determinada sequência de nucleotídeos ocorre em um genoma alvo é derivada daquela para calcular a frequência esperada de locais de restrição:

a = (g / 2) ^ G + C × ((1-g) / 2) ^ A + T,

Onde:

a = probabilidade g = conteúdo G + C do genoma alvo C + G = número de G e C no trecho A + T = número de A e T no trecho.

Um exemplo foi dado para o genoma mitocondrial e o sítio de restrição para EcoRI (GAATTC). Eu calculei com base no exemplo:

a = (0,44 / 2) ^ 2 × (1-0,44) ^ 4 = 0,0005

dado que o comprimento m do genoma mitocndrial é 16 000 bp, o número de ocorrências é:

n = am = 0,0005 × 16 000 = 4,92 (contra 4,80 relatado no jornal).

Em seguida, tentei calcular a ocorrência de um primer direcionado para E. coli: GTGTCCATTTATACGGACATCCATG. O conteúdo de GC de E. coli é de 50,8%, assim:

a = (0,58 / 2) ^ 11 × (0,42) ^ 14 = 1,22 × 10 ^ -6 * 3,24 × 10 ^ -10 = 3,95 × 10 ^ -16

e o número de ocorrências é:

n = 3,95 × 10 ^ -16 × 16 * 10 ^ 6 = 6,32 × 10-9

Parece-me que o primer não deveria ocorrer de forma alguma no genoma de E. coli.

A fórmula e sua aplicação estão corretas? Além disso, não gosto do fato de ser necessário saber o conteúdo CG de antemão (embora se possa assumir 50% do conteúdo) e um expoente na 11ª potência; existe uma fórmula alternativa?

Obrigada.


Estritamente falando, a questão vem do reino da teoria da probabilidade. Se a probabilidade de um nucleotídeo $ X $ no genoma é $ p_X $ ($ sum_x p_X = 1 $), então a probabilidade de encontrar uma sequência particular, em que o nucleotídeo $ X $ ocorre $ n_X $ tempos, é $$ prod_X p_X ^ {n_X} = p_A ^ {n_A} p_C ^ {n_C} p_G ^ {n_G} p_T ^ {n_T}. $$ A fórmula dada na pergunta é um caso particular para $ p_C = p_G = g / 2 $, $ p_A = p_T = (1-g) / 2 $, $$ left ( frac {g} {2} right) ^ {n_C + n_G} left ( frac {1-g} {2} right) ^ {n_A + n_T} $$ o que é obviamente sempre o caso para o DNA, onde os números de Cs e Gs (ou As e Ts) são sempre os mesmos, mas a fórmula mais geral poderia servir para RNA ou proteínas.

O que se deve ter em mente é que a fórmula acima é para uma sequência com uma ordem particular dos nucleotídeos! Se a ordem é imaterial, e apenas o conteúdo da sequência importa, a fórmula deve ser multiplicada por um fator binomial, que está efetivamente somando todos os arranjos possíveis dos nucleotídeos. Assim, para o caso do DNA, obtemos $$ {n_A + n_C + n_G + n_T escolha n_C + n_G} esquerda ( frac {g} {2} direita) ^ {n_C + n_G} esquerda ( frac {1-g} {2} direita) ^ {n_A + n_T} $$ Você pode verificar por si mesmo que a diferença devido ao fator binomial é gritante!


A fórmula e sua aplicação estão corretas?

Sua fórmula está correta e Vadim oferece uma boa discussão da teoria subjacente. No entanto, em relação à sua aplicação ...

Parece-me que o primer não deveria ocorrer de forma alguma no genoma de E. coli.

Este é o objetivo dos primers - devido ao seu comprimento, é improvável que ocorram aleatoriamente em uma determinada sequência de DNA. Então, começando com um conhecido Seqüência de DNA, você pode criar um primer que corresponda a essa seqüência e ter boa confiança de que não está recebendo priming fora do alvo, o que pode resultar em amplificação falso-positiva na PCR. Isso é exatamente o que os autores fazem em seu artigo vinculado.1 Usando as sequências conhecidas para os genes Rfb e SLT-1 em E. coli O157: H7, os autores fazem primers para a detecção específica desses genes na água potável e, por extensão, a presença do organismo que abriga esses genes.


  1. Bonetta S, Borelli E, Bonetta S, Conio O, Palumbo F, Carraro E. Desenvolvimento de um protocolo de PCR para a detecção de Escherichia coli O157: H7 e Salmonella spp. nas águas superficiais. Environ Monit Assess. Junho de 2011; 177 (1-4): 493-503.


Assista o vídeo: sequenciamento do DNA (Novembro 2021).