Em formação

Frequência de sequências de nucleotídeos de comprimento específico no DNA


  1. Com que frequência você encontraria a sequência de nucleotídeos GGATATCCGC (direção 5 'para 3') por acaso em uma molécula de DNA?
  2. Em média, quantas vezes você espera encontrar uma sequência específica de 20 nucleotídeos em um genoma com um tamanho total de 4 x 109 pares de bases?

Uma vez que a probabilidade de encontrar cada par de bases em sua posição dada é de 1 em 4, então a probabilidade total de encontrar essa sequência particular seria $0.25^{10}$

Mas como faço para abordar o segundo problema?

TIA


Estatísticas de sequência de DNA (2) ¶

No capítulo sobre como instalar R, você aprendeu sobre variáveis ​​em R, como escalares, vetores e listas. Você também aprendeu como usar funções para realizar operações em variáveis, por exemplo, usando a função log10 () para calcular o log para a base 10 de uma variável escalar x, ou usando a função mean () para calcular a média dos valores em uma variável vetorial meu vetor:

Você também aprendeu que pode extrair um elemento de um vetor digitando o nome do vetor com o índice desse elemento fornecido entre colchetes. Por exemplo, para obter o valor do terceiro elemento no vetor meu vetor, nós digitamos:

Uma função útil em R é a função seq (), que pode ser usada para criar uma sequência de números que vai de um número específico a outro número específico. Por exemplo, se quisermos criar a sequência de números de 1 a 100 em etapas de 1 (ou seja, 1, 2, 3, 4,. 97, 98, 99, 100), podemos digitar:

Podemos mudar o tamanho do passo alterando o valor do argumento & # 8220by & # 8221 dado à função seq (). Por exemplo, se quisermos criar uma sequência de números de 1 a 100 em etapas de 2 (ou seja, 1, 3, 5, 7,. 97, 99), podemos digitar:

Em R, assim como em linguagens de programação como Python, é possível escrever um para loop para executar o mesmo comando várias vezes. Por exemplo, se quisermos imprimir o quadrado de cada número entre 1 e 10, podemos escrever o seguinte for loop:

No para loop acima, a variável eu é um contador do número de ciclos do loop. No primeiro ciclo do loop, o valor de eu é 1 e então eu * eu = 1 é impresso. No segundo ciclo do loop, o valor de eu é 2 e então eu * eu = 4 é impresso. No terceiro ciclo do loop, o valor de eu é 3 e então eu * eu = 9 é impresso. O loop continua até o valor de eu é 10. No décimo ciclo através do loop, o valor de eu é 10 e então eu * eu = 100 é impresso.

Observe que os comandos que devem ser realizados em cada ciclo do para loop deve ser colocado entre colchetes (& # 8220 <& # 8221 e & # 8220> & # 8221).

Você também pode dar um para loop um vetor de números contendo os valores que você deseja que o contador eu para tomar em ciclos subsequentes. Por exemplo, você pode fazer um vetor avector contendo os números 2, 9, 100 e 133, e escrever um para loop para imprimir o quadrado de cada número em vetor avector:

Como podemos usar um para loop imprimir o quadrado de cada segundo número entre 1 e 10? A resposta é usar a função seq () para informar o para loop para pegar cada segundo número entre 1 e 10:

No primeiro ciclo deste loop, o valor de eu é 1 e então eu * eu = 1 é impresso. No segundo ciclo do loop, o valor de eu é 3 e então eu * eu = 9 é impresso. O loop continua até o valor de eu é 9. No quinto ciclo através do loop, o valor de eu é 9, e então eu * eu = 81 é impresso.

R permite a produção de uma variedade de gráficos, incluindo gráficos de dispersão, histogramas, gráficos de partes e boxplots. Por exemplo, se você tiver dois vetores de números meuvetor1 e meuvetor2, você pode traçar um gráfico de dispersão dos valores em meuvetor1 contra os valores em myvector2 usando a função plot (). Se você quiser rotular os eixos no gráfico, você pode fazer isso fornecendo os valores da função plot () para seus argumentos opcionais xlab e ylab:

Se você olhar a página de ajuda da função plot (), verá que existem muitos argumentos opcionais (entradas) que podem ser usados. Por exemplo, um argumento opcional é o modelo argumento, que determina o tipo de enredo. Por padrão, plot () irá desenhar um ponto em cada ponto de dados, mas se definirmos modelo para ser & # 8220b & # 8221, ele também desenhará uma linha entre cada ponto de dados subsequente:

Temos usado funções R integradas, como média (), comprimento (), impressão (), plot (), etc. Também podemos criar nossas próprias funções em R para fazer cálculos que você deseja realizar com frequência no diferentes conjuntos de dados de entrada. Por exemplo, podemos criar uma função para calcular o valor de 20 mais o quadrado de algum número de entrada:

Esta função irá calcular o quadrado de um número (x) e, em seguida, adicione 20 a esse valor. A instrução return () retorna o valor calculado. Depois de digitar esta função, ela estará disponível para uso. Por exemplo, podemos usar a função para diferentes números de entrada (por exemplo, 10, 25):

Você pode visualizar o código que constitui uma função digitando seu nome (sem parênteses). Por exemplo, podemos tentar isso digitando & # 8220myfunction & # 8221:

Ao digitar R, se desejar, você pode escrever comentários escrevendo o texto do comentário após o sinal & # 8220 # & # 8221. Isso pode ser útil se você quiser escrever alguns comandos R que outras pessoas precisam ler e entender. R irá ignorar os comentários quando estiver executando os comandos. Por exemplo, você pode querer escrever um comentário para explicar o que a função log10 () faz:


Introdução

Estudos de genomas baseados em abordagens linguísticas datam de algumas décadas atrás (Brendel et al. 1986 Pevzner et al. 1989 Searls 1992 Botstein e Cherry 1997 Gimona 2006 Faltýnek et al. 2019 Ji 2020). Uma interação com métodos de física estatística, bem como com a teoria de sistemas complexos, trouxe novos insights sobre a biologia (Dehmer et al. 2009 Qian 2013). Os estudos variam de tentativa de classificação de genomas baseada em n-gram (Tomović et al. 2006 Huang e Yu 2016) a algoritmos para segmentação ideal de RNAs em previsões de estrutura secundária (Licon et al. 2010) e análise de taxas de substituição de genes codificadores durante evolução (Lin et al. 2019), apenas para citar alguns. Vários tipos de sequências em genomas estão relacionados a vários códigos genéticos (Trifonov et al. 2012) e podem ser estudados usando o ponto de vista linguístico quantitativo (Ferrer-i-Cancho et al. 2013 Ferrer-i-Cancho et al. 2014) e de uma perspectiva mais ampla, dentro de abordagens mais abstratas (Neuman e Nave 2008 Barbieri 2012). Recentemente, redes neurais e algoritmos de aprendizagem profunda surgiram como novas ferramentas para analisar sequências de nucleotídeos (Fang et al. 2019 Singh et al. 2019 Melkus et al. 2020 Ren et al. 2020) oferecendo perspectivas mais amplas para estudos de genomas. Os vírus, equilibrando-se na fronteira difusa entre vivos e não vivos, portanto, permanecendo à beira da vida (Villarreal 2004 Kolb 2007 Carsetti 2020), estão entre os assuntos de estudos mais interessantes.

O objetivo da presente Carta é chamar a atenção para tratamentos simples de sequências de nucleotídeos em RNAs virais por meio de novos parâmetros, que podem ser extraídos imediatamente dos dados do genoma. Esperamos que tais parâmetros possam ser potencialmente usados ​​como uma ferramenta auxiliar na classificação de vírus (cf., em particular, Wang 2013). A ideia deste estudo está ligada ao recente surto de COVID-19, e a análise começou a partir da comparação de coronavírus humanos (Su et al. 2016 Wu et al. 2020) e alguns outros vírus. Para atingir a homogeneidade relativa do material, restringimos nossa amostra a apenas vírus de RNA de fita simples. Ambos os RNAs de sentido positivo e negativo são considerados. Para referência futura, também incluímos dois retrovírus, HIV-1 e HIV-2.

O artigo está organizado da seguinte forma. O resumo dos dados e a descrição dos métodos são fornecidos na seção “Dados e métodos”. Os resultados são apresentados na seção “Resultados”. Finalmente, uma breve discussão é fornecida na seção “Discussão”.


3 Resultados e discussão

3.1. Ocorrência de palíndromo na árvore da vida

Contamos a ocorrência das 16 palavras palíndrômicas de comprimento 4 (Tabela 1), juntamente com um número igual de palavras não palíndrômicas de comprimento 4 (Tabela 1), em sequências de DNA de genomas selecionados. Vinte espécies diferentes foram analisadas para cada um dos 10 grupos filogenéticos diferentes, ou seja, os vertebrados, invertebrados, fungos, plantas, protozoários, mitocôndrias, bactérias, arquéias, vírus de DNA de fita dupla e retrovírus. Repetições perfeitas foram removidas das sequências de entrada para evitar a introdução de uma tendência trivial de regiões de complexidade extremamente baixa, como repetições teloméricas ou centroméricas. Para cada sequência de DNA de entrada e cada palavra de 4-mer, então calculamos a proporção R da ocorrência real da palavra dividida pelo número esperado de ocorrências, dado seu conteúdo GC e aquele da sequência de DNA de entrada. A maioria dos palíndromos estava sub-representada (R & lt 1) em todos os genomas analisados. No geral, os palíndromos exibiram uma média R de 0,86, em contraste com uma média R de 1,08 para os controles não palindrômicos (Tabela 1). A sub-representação de palíndromos foi mais pronunciada em genomas de vertebrados, plantas, vírus de DNA de fita dupla e retrovírus (Fig. 1). Ao contrário de relatos anteriores, 20 palíndromos estavam sub-representados mesmo em genomas mitocondriais, demonstrando que a infrequência de palíndromos em genomas procariotos não pode ser explicada apenas pela pressão seletiva exercida por enzimas de restrição. Forças seletivas adicionais contra palíndromos podem incluir seu impacto na estrutura do DNA ou seu papel como sítios de ligação a fatores de transcrição. 17 Quaisquer que sejam as forças subjacentes, os palíndromos curtos estão sub-representados em todos os tipos de genomas (Fig. 1). Exatamente quais palíndromos e com que intensidade dependem da fonte do DNA. Curiosamente, as frequências inter-genoma de palíndromos curtos exibem mais do que o dobro da variância das sequências de controle não palindrômicas (22 versus 9% Tabela 1), enquanto as frequências intragenoma, por exemplo, entre diferentes cromossomos do mesmo organismo, são uniformes (Figs 2–4). Isso torna os palíndromos curtos idealmente adequados para a tipagem de DNA.

Freqüência de palíndromos em uma seleção diversa de genomas. A frequência do palíndromo é expressa como a proporção (R) da ocorrência à expectativa. Palíndromos estão sub-representados (R & lt 1, linha pontilhada) em todos os tipos de genomas, mais fortemente em vertebrados, plantas e vírus, e eles exibem cerca de duas vezes a variação interespécies na frequência (barras de erro) do que os não palíndromos. Vinte genomas diferentes foram analisados ​​por grupo (ver Seção 2).

Freqüência de palíndromos em uma seleção diversa de genomas. A frequência do palíndromo é expressa como a razão (R) da ocorrência à expectativa. Palíndromos estão sub-representados (R & lt 1, linha pontilhada) em todos os tipos de genomas, mais fortemente em vertebrados, plantas e vírus, e eles exibem cerca de duas vezes a variação interespécies na frequência (barras de erro) do que os não palíndromos. Vinte genomas diferentes foram analisados ​​por grupo (ver Seção 2).

Exemplos de padrões de frequência de palíndromos. Frequência dos 16 palíndromos de comprimento 4 em genomas selecionados, expressa como log2 de proporção (R) da ocorrência real à esperada. O agrupamento hierárquico foi realizado com base na distância do quarteirão. 23 (Acima) Média e variância por palíndromo. (Abaixo) Os sinais de três sequências aleatórias são mostrados para comparação.

Exemplos de padrões de frequência de palíndromos. Frequência dos 16 palíndromos de comprimento 4 em genomas selecionados, expressa como log2 de proporção (R) da ocorrência real à esperada. O agrupamento hierárquico foi realizado com base na distância do quarteirão. 23 (Acima) Média e variância por palíndromo. (Abaixo) Os sinais de três sequências aleatórias são mostrados para comparação.

Variância de frequências de palíndromo em sequência aleatória de DNA de diferentes comprimentos (n = 20 para cada). A variância média para cada palíndromo de comprimento 4 através das 20 sequências diferentes é comparada com aquelas através dos primeiros 20 cromossomos humanos (linha cinza pontilhada) e através dos 20 cromossomos de vertebrados diferentes analisados ​​na Fig. 1 (ver Tabela Suplementar S1).

Variância de frequências de palíndromo em sequência aleatória de DNA de diferentes comprimentos (n = 20 para cada). A variância média para cada palíndromo de comprimento 4 através das 20 sequências diferentes é comparada com aquelas através dos primeiros 20 cromossomos humanos (linha cinza pontilhada) e através dos 20 cromossomos de vertebrados diferentes analisados ​​na Fig. 1 (ver Tabela Suplementar S1).

Estudos de caso em Caenorhabditis spp. (A), cromossomos de mamíferos (B), e sensu stricto leveduras (C). A maioria dos cromossomos são resolvidos corretamente por agrupamento com base na frequência do palíndromo. Repetições tandem perfeitas foram removidas antes da análise para evitar diferenças triviais de regiões repetitivas. Observe a notável diferença entre o DNA de vertebrados e invertebrados.

Estudos de caso em Caenorhabditis spp. (A), cromossomos de mamíferos (B), e sensu stricto leveduras (C). A maioria dos cromossomos são resolvidos corretamente por agrupamento com base na frequência do palíndromo. Repetições tandem perfeitas foram removidas antes da análise para evitar diferenças triviais de regiões repetitivas. Observe a notável diferença entre o DNA de vertebrados e invertebrados.

3.2. Agrupamento de DNA com base na frequência do palíndromo

Aqui, representamos uma dada sequência de DNA por um vetor de 16 números: para cada um dos 16 palíndromos de comprimento 4, o log2 da proporção R da frequência real para a esperada (dado o conteúdo de GC do DNA analisado e do palíndromo). Quando tais vetores, gerados a partir de uma seleção diversa de sequências de DNA, foram alinhados e hierarquicamente agrupados com base na distância do quarteirão da cidade, diferentes sequências de DNA da mesma espécie prontamente agrupadas (ver Fig. 2 para um conjunto representativo de diversos genomas). O agrupamento funcionou para todos os tipos de sequências de genoma testadas - eucariotos, procariontes, plastídios ou vírus - mas a topologia da árvore resultante não era filogeneticamente significativa (Fig. 2). A falta de um sinal filogenético em grande escala foi igualmente aparente a partir da análise do conjunto completo de 200 genomas (Figura Suplementar S1). A resolução do agrupamento de frequência do palíndromo aumentaria ainda mais com o uso de 64 palíndromos diferentes de comprimento 6. No entanto, isso também exigiria que as sequências de entrada fossem mais longas. Com base nas sequências aleatórias incluídas na Fig. 2, a presente abordagem pareceu funcionar para sequências mais longas do que cerca de 10 kb. Para obter uma estimativa melhor sobre o tamanho mínimo necessário de DNA de entrada, analisamos sequências geradas aleatoriamente de comprimento crescente (Fig. 3). Acima de 9 kb, a variância média de R por palíndromo caiu abaixo do valor obtido para diferentes cromossomos de vertebrados (0,025, linha cinza tracejada na Fig. 3). Para comparação, a variância média de R por palíndromo através dos cromossomos humanos foi 0,0008 (linha cinza pontilhada na Fig. 3), demonstrando novamente que a variância da frequência do palíndromo é muito menor intra- do que inter-genoma.

Invertebrados exibindo a menor variância inter-genoma da frequência do palíndromo (Fig. 1), escolhemos Caenorhabditis espécies para desafiar seu poder de discriminação. Os genomas nucleares completos de C. briggsae e C. elegans foram comparados conforme descrito acima e todos os cromossomos foram resolvidos corretamente, apesar dos padrões fracos (Fig. 4A). O agrupamento com base na frequência do palíndromo também segregou diferentes cromossomos de mamíferos que, em contraste com o DNA de invertebrados, mostraram o padrão característico causado pela forte sub-representação de palíndromos contendo um dinucleotídeo CG (ACGT, TCGA, CCGG, GCGC e CGCG Fig. 4B). Isso está de acordo com o modelo de que, em vertebrados, a metilação do DNA é restrita a citosinas seguidas por guanina (CpG), enquanto em invertebrados as citosinas são metiladas em um contexto mais amplo. 25 A mutação espontânea do CG palindrômico para o TG não palindrômico pela desaminação da citosina metilada elimina assim os palíndromos curtos do DNA de vertebrados. O limite de resolução do agrupamento de frequência do palíndromo foi alcançado com um conjunto de dados de alta similaridade sensu stricto leveduras. 26 Os diferentes cromossomos das espécies intimamente relacionadas Saccharomyces cerevisiae, S. bayanus, S. mikatae, e S. kudriavzevii não segregou perfeitamente aqueles dos parentes mais distantes S. castellii fez (Fig. 4C).

O agrupamento com base na frequência do palíndromo também funcionou para procariontes, gerando padrões específicos de espécies para arquéias e também para bactérias. Os genomas procariotos exibiram padrões altamente diversos (Fig. Suplementar S1). Plasmídeos naturais de Escherichia coli claramente agrupado com o DNA do hospedeiro (Fig. 5A). O mesmo se aplica a certos bacteriófagos dsDNA, como Lambda ou P2. No entanto, outros fagos de dsDNA, como T3, bem como todos os fagos de ssDNA analisados, não exibiram os mesmos padrões de frequência de palíndromo que E. coli (Fig. 5A). Uma imagem interessante surgiu ao comparar os vírus humanos: enquanto todos os vírus ssRNA de fita negativa e o HIV retrotranscrito agrupados com DNA humano, os vírus dsDNA e os vírus ssRNA de fita positiva não (Fig. 5B).

Padrões de frequência de palíndromo do DNA genômico do hospedeiro (A, E. coli B, Homo sapiens rotulados em preto) e vírus associados (codificados por cores de acordo com o tipo de ácido nucléico do genoma) ou plasmídeos (cinza).

Padrões de frequência de palíndromo do DNA genômico do hospedeiro (A, E. coli B, Homo sapiens rotulados em preto) e vírus associados (codificados por cores de acordo com o tipo de ácido nucléico do genoma) ou plasmídeos (cinza).

3.3. Aplicação potencial à metagenômica

O campo de rápido desenvolvimento do sequenciamento de espingarda ambiental permite análises metagenômicas de comunidades de microrganismos, a maioria dos quais não podem ser cultivados em laboratório e, portanto, permaneceram não detectados até recentemente. 27 Um desafio importante na interpretação dos dados de sequenciamento shotgun ambiental é o binning de andaimes de DNA não sobrepostos em grupos que, idealmente, correspondem às diferentes espécies de microrganismos presentes. 28 Métodos padrão, como pesquisas por similaridade para genomas conhecidos ou análise filogenética de genes marcadores, são de uso limitado ao lidar com fragmentos de DNA amostrados de espécies anteriormente não descritas. 28 Freqüências di, tri e tetra-nucleotídeos foram propostas para fornecer assinaturas de DNA. 29-31 Frequências de palíndromo carregando um sinal específico da espécie (Figs 2 e 4), as razões de ocorrência para expectativa conforme aplicadas aqui também podem ser úteis para armazenar dados de sequenciamento shotgun ambiental, desde que os contigs a serem analisados ​​sejam maiores que 9 kb (Fig. 3). A partir de 2007 Feiticeiro II A Global Ocean Sampling Expedition, que na época produzia predominantemente novas sequências, 32 os cem maiores contigs, com tamanhos entre 11 e 59 kb, foram analisados ​​como descrito acima. Isso revelou uma imagem diversa dos padrões de frequência do palíndromo com vários grupos principais (Figura Suplementar S2). No entanto, as sequências analisadas ainda não retornaram resultados de alta qualidade quando pesquisadas com explosão 33 contra a coleção de nucleotídeos não redundantes do NCBI, com apenas uma exceção de identidade de 99% para Prochlorococcus fago P-SSM4 (no. de acesso GenBank AY940168). Assim, não foi possível avaliar o benefício do agrupamento de frequência do palíndromo com esse conjunto de dados. No entanto, para testar o potencial do método, selecionamos aleatoriamente 10 fragmentos não sobrepostos de comprimento de 10 kb de cada um dos 20 genomas bacterianos diferentes analisados ​​na Fig. 1 (Tabela Suplementar S1). Quando essas 200 sequências foram agrupadas de acordo com os padrões de frequência dos palíndromos, mais de 90% delas foram corretamente montadas de acordo com as espécies de origem.


Resultados

Dados experimentais HT-SELEX fornecem dados precisos M- pontuação de palavras para diversas famílias de TF

Analisamos dados HT-SELEX, incluindo 548 experimentos cobrindo 410 proteínas humanas e de camundongo de 40 famílias diferentes de TF, para produzir M- pontuações de ligação de palavras. O aumento da profundidade de sequenciamento nos permitiu derivar pontuações precisas por mais tempo M-palavras. Este aspecto é particularmente importante porque a forma do DNA é afetada pelas regiões flanqueadoras dos TFBSs. Portanto, aumentamos o conjunto de dados original (Jolma et al, 2013) com sequenciamento adicional para aumentar a profundidade de leitura dos experimentos em quase 10 vezes (de uma média de

168.000 leituras por arquivo de sequenciamento para

1.656.000 leituras). Os dados experimentais foram filtrados por rigorosos critérios de controle de qualidade (QC) para identificar casos com complexidade de biblioteca suficiente e contagens de leitura para permitir a construção de modelos multiparamétricos. Um total de 218 TFs de 29 famílias passaram no primeiro filtro com base na alta variabilidade e grande tamanho de amostra dos dados, e um total de 215 TFs de 27 famílias diferentes passaram na etapa de CQ com base no desempenho da regressão (Fig. 1).

Figura 1. Pipeline usado para gerar HT-SELEX M- pontuação de palavras e conjuntos de dados de filtro

Para cada TF, selecionamos um motivo de ligação ao núcleo, para permitir a identificação do local de ligação mais provável dentro M- palavras e filtram os oligonucleotídeos que provavelmente não estão ligados. Os motivos usados ​​foram derivados de um estudo anterior (Jolma et al, 2013). Esses motivos geralmente contêm flancos longos, além da sequência consenso central, o que nos impediria de ficar robusto M-palavra pontuação devido à baixa cobertura de leitura para longas sequências. Para superar essa dificuldade, usamos motivos do catálogo compilado por Weirauch e Hughes (Weirauch & Hughes, 2011) para identificar e usar apenas as posições centrais. Calculamos a pontuação de ligação para cada M-palavra que incluía o motivo central no centro (permitindo algumas incompatibilidades) e quaisquer sequências flanqueadoras possíveis 5 ′ e 3 ′ do motivo. Procuramos evitar a possibilidade de FT cooperativoLigação ao DNA, em que várias cópias do TF ocupam diferentes sítios de ligação ao DNA (BSs) na mesma sequência, bem como para minimizar o ruído causado pelo alinhamento impreciso de M-palavras baseadas no motivo principal. Assim, excluímos as leituras HT-SELEX que continham várias instâncias dos motivos principais.

Em seguida, derivamos M- pontuações de ligação de palavras com base no enriquecimento experimental observado. Cada experiência HT-SELEX incluiu várias rodadas de seleção do sítio de ligação (BS) pelo TF, com a especificidade de ligação das sequências de DNA selecionadas aumentando em cada rodada. Nós calculamos o M-palavra pontuação como a proporção da frequência do M-palavra redonda eu sobre sua frequência estimada na rodada inicial, usando um modelo de Markov de quinta ordem (Slattery et al, 2011). O resultado final deste processo foi o M-palavra pontuação da sequência central e seus flancos para cada experiência HT-SELEX (Apêndice Fig S1A).

Para avaliar a precisão do nosso M- esquema de pontuação de palavra e o valor de sequenciamento mais profundo, comparamos as pontuações derivadas por HT-SELEX àquelas medidas por PBMs de contexto genômico (gcPBMs). Os gcPBMs usam arrays projetados especificamente com a sequência central no centro, flanqueada por um contexto genômico (Gordân et al, 2013). Essas sondas têm como objetivo medir o efeito das sequências de flanqueamento e, portanto, fornecer um padrão ouro preciso para longos M-palavra (M ≥ 12) pontuações de ligação. A única proteína para a qual existem dados experimentais gcPBM e HT-SELEX foi o homodímero Max (Zhou et al, 2015). Apêndice Fig S1B mostra a boa correlação (r = 0,64) de pontuações de 12 palavras produzidas pelas duas tecnologias, demonstrando a precisão do nosso processo de produção Mpontuações de palavras a partir de dados HT-SELEX. Para testar o quanto ganhamos em relação às pontuações de ligação gcPBM usando os novos dados, examinamos três diferentes M- pontuação das palavras: frequência, proporção em comparação com a rodada inicial e proporção em comparação com a rodada inicial estimada. O sequenciamento mais profundo melhorou a correlação dessas três pontuações com as pontuações de 12 palavras do gcPBM, e a pontuação da proporção estimada atingiu a correlação mais alta (Figura do Apêndice S1C). Notavelmente, ao processar os dados publicados anteriormente em (Jolma et al, 2013) com o mesmo pipeline, apenas 22 proteínas passaram no controle de qualidade, em comparação com 218 com a maior cobertura, mostrando a vantagem de um sequenciamento mais profundo.

A análise de componentes principais (PCA) revela especificidades de ligação ao DNA específicas da família TF e heterogeneidades dentro das famílias TF

Realizamos PCA para visualizar especificidades de ligação ao DNA específicas da família TF. A preferência de ligação ao DNA de cada TF foi representada pelo DNA M-palavra com a maior afinidade de ligação para este TF. Nós codificamos este M-palavra em vetores de características numéricas que incluíram (i) apenas características de mononucleotídeo (ou seja, 1-mer) e (ii) ambas as características de forma de DNA e 1-mer. As características da forma do DNA incluem largura de sulco menor (MGW), rotação, torção da hélice (ProT) e torção da hélice (HelT) e são previstas com nossa abordagem DNAshape (Zhou et al, 2013). A Figura 2A e B mostra os dois primeiros componentes principais obtidos usando cada vetor de recursos.

Figura 2. PCA revela diferentes especificidades de ligação ao DNA entre famílias de TF

  1. PCA usando recursos 1-mer. Cada ponto representa um TF. Os pontos da mesma cor pertencem à mesma família TF. Uma elipse foi desenhada para cada família TF. A elipse é um contorno de uma distribuição normal de duas variáveis ​​ajustada que inclui 0,68 de probabilidade (pacote R padrão).
  2. PCA usando recursos de 1-mer e de forma, anotados da mesma maneira conforme descrito em (A).
  3. Boxplots de distâncias de TF inter e intrafamiliares derivadas de (A). A diferença entre as medianas das distâncias inter e intrafamiliares é de 2,02 (vermelho).
  4. Boxplots de distâncias de TF inter e intrafamiliares derivadas de (B). A diferença entre as medianas das distâncias inter e intrafamiliares é 3,68 (vermelho).

Diferentes famílias de TF tenderam a formar clusters distintos nos gráficos de dispersão do PCA. Para comparar a qualidade do agrupamento nos dois gráficos, obtivemos as distâncias euclidianas bidimensionais entre todos os pares de TFs da Fig. 2A e B. As distâncias foram classificadas como intra ou interfamiliares e visualizadas como boxplots (Fig. 2C e D). As distâncias intrafamiliares foram geralmente maiores do que as distâncias intrafamiliares. Quando usamos os recursos de 1-mer e de forma de DNA, a diferença entre as medianas dos grupos inter e intrafamiliares foi ligeiramente maior do que a diferença obtida ao usar recursos de 1-mer isoladamente (Fig. 2C e D). Este resultado foi consistente com as Fig. 2A e B, indicando que mais variação poderia ser explicada pela introdução de características de forma de DNA, em parte devido à melhor separação da família do homeodomínio (Fig. 2B). Para testar se tais efeitos foram simplesmente devido à maior dimensionalidade introduzida pelos recursos de forma adicionais do DNA, adicionamos recursos de forma gerados aleatoriamente com base na distribuição gaussiana com média e desvio padrão dos recursos de forma originais. Tanto a variância explicada quanto a distância entre os grupos intra e interfamiliares foram menores neste teste (Apêndice Fig S2).

As características da forma do DNA melhoram a modelagem das especificidades de ligação ao DNA entre as famílias de TF

Testamos a importância do reconhecimento da forma do DNA por cada TF através da modelagem quantitativa das especificidades de ligação ao DNA e comparação do desempenho do modelo em termos de R 2 entre previsto e experimental M-palavra pontuação. Semelhante à metodologia em Yang et al (2014) e Zhou et al (2015), construímos modelos de regressão que usaram apenas características de mononucleotídeo de DNA (ou seja, modelos de 1mer) ou que combinaram mononucleotídeo de DNA e características de forma (ou seja, modelos de forma 1mer +). Um resultado no qual o modelo de forma 1mer + supera o modelo 1mer indica que a leitura da forma do DNA pode desempenhar um papel na ligação ao TF.

Com base em uma análise de 215 TFs de 27 famílias diferentes, descobrimos que os modelos de forma 1mer + geralmente superaram os modelos 1mer (Fig. 3A), indicando a prevalência de leitura de forma de DNA em diferentes famílias de TF (para uma lista completa de conjuntos de dados usados ​​na Fig. 3 , consulte a Tabela EV1). Com a leitura da sequência de DNA desempenhando um papel dominante na ligação ao TF, a importância do reconhecimento da forma do DNA como contribuição adicional variou entre e dentro das famílias de TF. Por exemplo, o desempenho do modelo para TFs homeodomínio foi geralmente melhorado de forma mais substancial do que para TFs C2H2. Dentro da família do homeodomínio TF, havia uma grande variação entre os membros individuais. O homeodomínio e os TFs bHLH foram observados anteriormente como sendo sensíveis às características da forma do DNA (Slattery et al, 2011 Gordân et al, 2013 Yang et al, 2014 Zhou et al, 2015). Aqui, confirmamos e estendemos esta observação às famílias bZIP, CENPB, CP2, CUT, ETS, HSF, IRF, MYB, NFAT, receptor nuclear, PAX, POU, PROX, TBX e TEA TF. Pelo menos metade dos membros em cada uma dessas famílias, cobertos por nossos dados, mostraram melhoria de desempenho superior a 10% quando as características da forma do DNA foram adicionadas ao modelo. No entanto, algumas famílias estavam sub-representadas nos dados com apenas um FT presente (Tabela EV1 para nomes completos e informações detalhadas das famílias de FT, ver Tabela EV2).

Figura 3. Comparações de desempenho entre modelos usando recursos diferentes

  1. Comparação entre os modelos de forma 1mer e 1mer +.
  2. Comparação entre modelos de forma baseados no método DNAshape original (Zhou et al, 2013) e tabelas de consulta de pentâmero embaralhadas aleatoriamente.
  3. Comparação entre os modelos de forma 1mer + 2mer + 3mer e 1mer +.
  4. Comparação entre os modelos 1mer + 2mer + 3mer e 1mer + shape + 3merE2. O marcador 3merE2 representa características 3mer das duas posições finais no terminal 5 'e 3' de cada sequência de DNA.
  5. Comparação entre os modelos de forma 1mer + 2merNoE2 + 3merNoE2 e 1mer +. Os rótulos 2merNoE2 e 3merNoE3 indicam que as características 2mer e 3mer, respectivamente, foram removidas das posições finais.
  6. Comparação entre os modelos 1mer + shape e 1mer + shape + 3merE2.

Para testar a robustez dos dados experimentais e nosso pipeline computacional, repetimos a análise acima em dados experimentais replicados para três TFs das famílias bHLH e homeodomínio. Nossos resultados mostraram consistentemente contribuições de leitura de forma de DNA para essas duas famílias (Apêndice Fig S3A). Para testar se o ganho de desempenho é simplesmente um resultado do aumento do número de parâmetros do modelo devido aos recursos de forma de DNA adicionados, embaralhamos a tabela de consulta para recursos de forma de DNA. Modelos de forma baseados na tabela de consulta embaralhada geralmente têm desempenho pior do que aqueles baseados na tabela de consulta original (Figura 3B). Também testamos se os resultados eram robustos para as sementes do motivo usadas durante o pré-processamento de dados. Repetimos as análises acima usando as sementes de Weirauch e Hughes (Weirauch & Hughes, 2011) como as sementes finais em vez de usá-las para identificar as posições centrais dos motivos baseados em HT-SELEX publicados por Jolma et al (2013). Calculamos os coeficientes de correlação de Pearson entre o desempenho dos modelos baseados nas sementes de Weirauch e Hughes (Weirauch & Hughes, 2011) e o Jolma et al (2013) sementes. A alta correlação entre os dois conjuntos de sementes de motivo indicou que os resultados foram robustos para a escolha de sementes de motivo (Apêndice Fig S3B). Também testamos a robustez dos resultados sob pequenas mudanças no limite de incompatibilidade (ver 4) e comprimento das regiões de flanco. Ambos os testes mostraram alta correlação entre diferentes configurações de parâmetros, demonstrando robustez suficiente (Apêndice Fig S3C e D).

Os TFs do homeodomínio neste estudo presumivelmente ligam o DNA como monômeros, enquanto nossos estudos anteriores demonstraram a importância da forma do DNA para os heterodímeros Exd-Hox (Slattery et al, 2011). Estruturas de raios-X e ressonância magnética nuclear (NMR) dos domínios de ligação ao DNA do homeodomínio em complexo com DNA mostram repetidamente que a cauda N-terminal do domínio de ligação ao DNA do homeodomínio interage com o DNA através de sulcos menores e contatos de backbone, que é um signature of DNA shape readout (Joshi et al, 2007 ).

DNA shape features in flanking regions are important for different TF families

We previously observed that 1mer+2mer+3mer models usually outperform 1mer+shape models (Zhou et al, 2015 ). Here, we gained additional clues for possible explanations of this observation. As noted previously (Zhou et al, 2015 ), both 2-mer and 3-mer features are indirect representations of DNA shape characteristics. The 2-mer features describe stacking interactions between adjacent base pairs, whereas 3-mer features describe short structural elements, such as A-tracts that tend to form narrow minor groove regions. Thus, it is not surprising that 1mer+2mer+3mer models can capture TFDNA binding specificities with high accuracy.

Using our high-quality HT-SELEX data, we observed that, for most TFs, 1mer+2mer+3mer models outperformed 1mer+shape models (Fig 3C). As our prediction of local DNA shape features was based on a sliding window of 5 base pairs (Zhou et al, 2013 ), we were unable to predict shape features for the two extreme positions at the 5′ and 3′ ends of each DNA sequence. This limitation could give an edge to 1mer+2mer+3mer models. However, we could encode 2-mer and 3-mer features for those terminal positions, which in turn would work as a proxy for DNA shape. To test this hypothesis, we added 3-mer features from only the two end (E2) positions (i.e., 3merE2 features) to the 1mer+shape model. Performance of the resulting 1mer+shape+3merE2 model was indeed comparable to that of the 1mer+2mer+3mer model (Fig 3D). As an additional test, we removed 2-mer and 3-mer features at the end positions from the 1mer+2mer+3mer model, which resulted in the 1mer+2merNoE2+3merNoE2 model that showed similar performance to the 1mer+shape model (Fig 3E).

We also hypothesized that if longer flanking sequences were available for predicting shape features, then 1mer+shape models would perform similar to 1mer+2mer+3mer models without adding 3merE2 features. To verify this possibility, we used an independent dataset generated by the gcPBM platform (Zhou et al, 2015 ). As expected, 1mer+shape models performed comparable to 1mer+2mer+3mer models for the data without additional 3merE2 features (Appendix Fig S3E). These results imply that DNA shape features in the flanking regions contribute to TFDNA binding specificities, which was previously known for bHLH TFs (Gordân et al, 2013 Yang et al, 2014 Zhou et al, 2015 ). Here, we showed for the first time that this phenomenon is of general nature, as adding 3merE2 features as proxy for missing DNA shape features consistently improved the model performance for various TF families (Fig 3F).

Beyond better interpretability of shape-augmented models, an important distinction between the models is the different number of features required to achieve similar performance. The 1mer+shape model requires 12 features (including second-order DNA shape features) per nucleotide position compared with the 84 features required by the 1mer+2mer+3mer model per nucleotide position (Zhou et al, 2015 ). Although we previously included lower-order 1-mers and 2-mers in our 1mer+2mer+3mer models for reasons of interpretability, nevertheless, the 3-mer features actually contain all of the information of the 1-mers and 2-mers. Thus, a 3mer model is equivalent to a 1mer+2mer+3mer model (4 and Appendix Fig S3F). This choice, however, would still leave the 3mer model with 64 required features per nucleotide position compared with a maximum of only 12 features in the 1mer+shape model.

Feature selection can provide insights into TF–DNA readout mechanisms

We performed feature selection to identify BS positions where DNA shape features contribute to TF-binding specificities. The method is similar to the one we previously introduced for the analysis of SELEX-seq data for Hox proteins (Abe et al, 2015 ). For each TF, we evaluated the R 2 performance of the baseline 1mer model, denoted . Next, we evaluated models that combined 1-mer features with DNA shape features individually at single nucleotide positions eu, denoted 1mer+shapeeu modelos. We denoted the performance as . We calculated the difference in model performance for each nucleotide position eu (Fig 4A). o ratio indicates the percentage change in performance due to the availability of DNA shape features at nucleotide position eu, with a positive ratio suggesting performance gain. The ratio at position eu compared with other positions reflects the relative importance of DNA shape features at different nucleotide positions. We visualized the ratio as a function of position eu for each TF in the form of a heat map (Fig 5A and Appendix Fig S4).

Figure 4. Schematic representation of feature-selection process

  1. Feature-selection scheme for adding DNA shape features at one individual position to a sequence-only model.
  2. Feature-selection scheme for removing DNA shape features from one single position from a shape-only model.

Figure 5. Importance of DNA shape features as a function of nucleotide positions revealed by feature selection with machine learning

  1. Heat map based on adding DNA shape features to a sequence-only model.
  2. Heat map based on removing DNA shape features from a shape-only model.
  3. Combined heat map that takes cell-by-cell minimum of heat maps in (A and B).

To avoid interference from DNA sequence information, we devised a second feature-selection approach in which we removed DNA shape features at individual positions from a shape-only model. o ratio was then used for generating the heat map (Figs 4B and 5B, and Appendix Fig S4), where . These two different approaches can sometimes yield conflicting heat maps as discussed below. To address such cases and facilitate the use of these heat maps, we also generated a combined heat map based on the cell-by-cell minimum of the two heat maps (Fig 5C and Appendix Fig S4). Quantitative information about the importance of the position-dependent DNA shape in TFDNA recognition at single-base pair resolution provides the means to determine the structural proteinDNA readout mechanisms based on sequence data. To achieve this goal, we further expanded our feature-selection method to test each individual DNA shape feature category, which enabled us to gauge the importance of each DNA shape feature, that is, MGW, Roll, ProT, or HelT, at every position (Appendix Fig S5). To date, obtaining such information required experimentally solved structures.

Figure 5 shows the position-dependent DNA shape importance for homeodomain TFs that recognize a TAAT motif. For most of these TFs, DNA shape was more important at the 3′ side of the core motif, as indicated by the darkness of colors (Fig 5). Homeodomain TFs that recognize a different motif, for example, TCRTAAA, were shown to have a different positional DNA shape preference (Appendix Fig S4F). Positional preferences were also protein-family specific. For example, for bHLH TFs DNA shape features in both flanking regions were important, whereas for nuclear receptors that bind to an ACANNNTGT motif the central motif region was generally important (Appendix Fig S4A and H). In comparison, bZIP TFs that bind to a TTRCGC motif and homeodomain TFs were generally sensitive to DNA shape features at only one flanking side of the core motif (Appendix Fig S4B and F).

The exact positions where DNA shape features are important were not unambiguously pinpointed for the bHLH TFs and the nuclear receptors that bind to an ACANNNTGT motif (Appendix Fig S4A and H). Both Appendix Fig S4A and H relate to a scenario where the red heat map shows prominent shape effects in multiple consecutive positions, whereas the blue heat map shows almost no effects. We believe that this is due to false positives in the red heat map, that is, positions that are not important for shape readout but identified as such, and false negatives in the blue heat map, that is, positions that are important for shape readout that were not identified. We conclude in this case that DNA shape is important in some positions in the consecutively red regions, but we failed to locate it, even with the help of the blue heat map.

We illustrated the relevance of feature importance heat maps derived from feature-selection approaches by considering experimental structures of the homeodomain proteins PITX2 (PDB ID 2LKX) and GBX1 (PDB ID 2ME6) in complex with DNA (Fig 6A and B). These structures provide possible explanations for entries representing PITX3 and GBX1 on the heat maps (Fig 5). As no experimental structure for PITX3 is available, we used an NMR structure for PITX2 (Chaney et al, 2005 ), which shares the same DNA-binding domain as PITX3. In the heat maps, PITX3 has darker colors at the 3′ side of the TAAT motif, indicating a more important role of DNA shape at these positions. In the PITX2 structure, the N-terminal tail of the protein interacts with DNA in the minor groove of the TAAT motif. The structure contains a narrow minor groove region near the second A within the TAAT motif (Fig 6A). In this case, the protein might exploit the DNA structural characteristics at positions highlighted in the heat maps to achieve its binding specificity.

Figure 6. Three-dimensional structure and DNA sequence and shape logos for the homeodomain TFs PITX2/PITX3 and GBX1

  1. NMR structure of PITX2 in complex with DNA (PDB ID 2LKX) and the CURVES (Lavery & Sklenar, 1989 ) derived plot for the MGW of the bound DNA.
  2. NMR structure of GBX1 in complex with DNA (PDB ID 2ME6) and the CURVES (Lavery & Sklenar, 1989 ) derived plot for the MGW of the bound DNA.
  3. DNA sequence and shape logos for PITX3.
  4. DNA sequence and shape logos for GBX1.

We observed similar concurrence between heat map and structural analyses for the TF GBX1, where the structure has a narrow minor groove region at the 3′ flank (Fig 6B). Although the positions indicated by the heat maps do not match the positions in the structure in an exact way, the heat maps successfully highlighted those nearby positions. Moreover, the heat maps were consistent with our conclusion that DNA shape features in flanking regions are important for TFDNA binding specificities (Fig 3D–F). In addition to the homeodomain family, we used a structure of the human progesterone receptor (PDB ID 2C7A) from the nuclear receptor family to illustrate how the heat maps can provide hints to the structural mechanisms of proteinDNA binding. In the structure (Roemer et al, 2006 ), MGW, Roll, and ProT show distinct characteristics in the central region of the DNA-binding site, which potentially explains the central “red” regions in the heat maps (Appendix Fig S6).

DNA shape logos represent structural readout mechanisms

To visualize the detailed DNA shape preferences of individual TFs, we propose a new visualization, DNA shape logos, analogous to sequence logos for PWMs. In these logos, we used the letters H, M, P, and R to represent DNA shape features HelT, MGW, ProT, and Roll, respectively. The height of each letter indicates the importance derived from the feature-selection analysis for the corresponding DNA shape feature at a specific position (Fig 6). As an example, we used ΔR 2 , that is, the performance gain due to adding an individual DNA shape feature to a 1mer model, to generate shape logos for PITX3 and GBX1 (Fig 6C and D). For PITX3, a prominent M at positions 7, 8, 9, and 10 overlaps with the narrow minor groove region in the structure. Similarly, for GBX1, a prominent M at positions 7 and 8 overlaps with the narrow minor groove in the structure. DNA shape information was missing for the two nucleotide positions at each end of the TFBS thus, no letters are shown at these positions in the shape logo. DNA shape logos can facilitate the integration of structural information in motif finding tools. Sequence and shape logos for all the TFs studied in this work are provided as Datasets EV1 and EV2, respectively.


4 Contact:

Repetitive elements in DNA sequences consist two or more copies of approximate patterns of nucleotides and are abundant in both prokaryotic and eukaryotic genomes. Over two-thirds of the human genome and 5 - 10 % bacterial genomes are repetitive regions (de Koning et al., 2011) . Repetitive elements play important roles in genome structure and functions such as nucleoprotein complex formation, chromosome structure, and gene expression. Various diseases including cancer and neurodegentive disease can also arise from changes of repetitive elements. The distribution of repetitive DNA sequences can be used as fingerprints of bacterial genomes (Versalovic et al., 1991) and human individuals.

Repetitive elements are complex structures. They may exist as imperfect tandem repeats, insertion and deletions in repeats, interspersed repeats, and palindromic sequences, etc. These partial and hidden repeat signals in DNA sequences are difficult to analyze through straightforward observation and sequence comparison.

Currently, repetitive elements and hidden periodicities of DNA and protein sequences are primarily detected by digital signal processing and statistical approaches (Treangen and Salzberg, 2011) . In most signal processing methods, DNA sequences are converted to numerical sequences, and the hidden periodicities arising from repetitive elements can be identified by Fourier power spectrum at specific periodicities (Yin and Wang, 2016)

. Commonly used signal processing methods by Fourier transform include SRF maps

(Sharma et al., 2004) , spectral analysis (Buchner and Janjarasjitt, 2003) , Ramanujan-Fourier transform (Yin et al., 2015) , and the periodic power spectrum method (Yin and Wang, 2016) . The statistical methods are based on distribution analysis of nucleotides in DNA sequences. The common statistical methods for repeat findings are tandem repeats finder (Benson, 1999) and statistical spectrum (Epps et al., 2011)

(Arora and Sethares, 2007) , and information decomposition (Korotkov et al., 2003) . Besides signal processing and statistical approaches, sequence alignments such as RepeatMask are also used to identify repetitive patterns in genomes, and but require a known reference repeat sequence.

Despite significant advances in repeat finding, it is still difficult to precisely capture the essential features of repetitive elements such as consensus patterns, perfect levels and copy numbers of repeats. For example, while Fourier transform is the most common used approach for finding repeats, it may not exactly correlate the strength of Fourier power spectrum with the perfect level of repeat patterns. Furthermore, since Fourier power spectrum is weak for short DNA sequences and long harmonious periodicities are embedded in short periodicities, Fourier transform can not capture repeats in short DNA sequences and long harmonious periodicities. Moreover, the relationship between repetitive elements and periodicities of genomes is not fully understood. Thus there is a high potential for improving the accuracy for identifying repetitive elements and better understanding the relationship of periodicities and repeats in DNA sequences (Suvorova et al., 2014 Epps et al., 2011 Illingworth et al., 2008) .

In this paper, we present an ab initio method to quantitatively identify repetitive sequences and periodicities in DNA sequences. The method is based on the nucleotide distribution uniformity at periodic positions in DNA sequences or genomes. The distribution uniformity of nucleotides reflects the unbalance of nucleotide frequencies on periodic positions and thus can indicate the strength for periodic signals in DNA sequences. The method can also reveal the consensus repeat pattern for the major periodicity of DNA sequences, and quantitatively determine the perfect level and copy numbers of repetitive sequences. The proposed method also formulates the relationship between repetitive elements and the corresponding periodicities in DNA sequences.


Experimental procedures

Bacterial strains and growth conditions

Helicobacter pylori strains (Table S1) were grown on solid horse blood agar (HB) plates containing 4% Columbia agar base (Oxoid), 5% defibrinated horse blood (HemoStat Laboratories), 0.2% β-cyclodextrin (Sigma), 10 µg ml −1 vancomycin (Sigma), 5 µg ml −1 cefsulodin (Sigma), 2.5 U ml −1 polymyxin B (Sigma), 5 µg ml −1 trimethoprim (Sigma), and 8 µg ml −1 amphotericin B (Sigma) at 37°C either under a microaerobic atmosphere generated using a CampyGen sachet (Oxoid) in a gas pack jar or in an incubator equilibrated with 14% CO2 and 86% air. For liquid culture, H. pylori was grown in Brucella broth (Difco) containing 10% fetal bovine serum (BB10, Invitrogen) with shaking in a gas pack jar containing a CampyGen sachet. For resistance marker selections, bacterial media were additionally supplemented with 15 µg ml −1 chloramphenicol (Cm, Sigma), 25 µg ml −1 kanamycin (Kan, Fisher Scientific) 2.5 µg ml −1 erythromycin (Ery, Fisher Scientific) or 36 µg ml −1 metronidazole (Mtz, Sigma).

DNA manipulations

DNA manipulations, such as restriction digestion, PCR and agarose gel electrophoresis, were performed according to standard procedures ( Ausubel et al., 1997 ). H. pylori genomic DNA (gDNA) was prepared by Wizard genomic DNA preparation kits (Promega). Primers used for PCR and sequencing are described in Table S2. Plasmid DNA (Table S3) was isolated and prepared from E. coli using Qiagen Maxiprep kit (Qiagen). The FHCRC Genomics Shared Resource performed the sequencing of plasmid DNA and PCR products and the resulting sequences were analysed using Sequencher (Gene Codes Corporation).

Generation of H. pylori knockout isogenic mutants

Knockout alleles were constructed in H. pylori NSH57 using a vector-free allelic replacement strategy to generate alleles in which a non-polar kanamycin resistance (aphA3) cassette ( Menard et al., 1993 ), an erm cassette conferring resistance to erythromycin ( Lampson and Parisi, 1986 Dailidiene et al., 2006 ), or a chloramphenicol acetyl transferase (gato) resistance cassette fused to a sucrose sensitivity marker (sacB) ( Copass et al., 1997 Humbert and Salama, 2008 ) replaced 80–90% of the coding sequence of the gene while preserving the start and stop codons. The primers used for this procedure are designated as 1 through 4 and are given in Table S2. After natural transformation with the appropriate PCR product and selection on Kan-, Ery- or Cm-containing media, four clones were evaluated by PCR to confirm replacement of the WT allele with the null allele. o ΔrecJ::kanΔaddA 852-2540 double mutant was generated by transforming strain ΔrecJ::kanΔaddA::catsacB with a PCR product digested with SspI (New England Biolabs) and ligated with T4 DNA ligase (Invitrogen) to delete a 1.7 kbp intergenic region in addA. Transformants were selected on sucrose-containing HB plates, screened on Cm-containing media and checked by PCR to confirm the addA deletion. Urease activity and flagella-based motility were confirmed for all the clones generated. Single clones were used for transformation experiments.

Generation of H. pylori complemented mutants

Constructs for chromosomal complementation at the rdxA locus were made by cloning each gene individually into pLC292 ( Terry et al., 2005 ), which were then introduced into H. pylori NSH57 by natural transformation and selection on Mtz-containing media ( Dailidiene et al., 2006 ). Each gene was amplified using primers -XbaI and -SalI (Table S2) from H. pylori NSH57 gDNA using high-fidelity Taq polymerase (Platinum Taq, Invitrogen). The resulting PCR product was digested with XbaI and SalI (New England Biolabs), ligated into pLC292, and electroporated in E. coli strain DH10B or XA90 ( Ezaz-Nikpay et al., 1994 ) for pOH10 (Table S3). All inserted genes were fully sequenced and contained the expected nucleotide sequences.

Natural transformation

To generate knockout and complemented mutant strains of H. pylori, bacteria were freshly grown for 24–32 h on HB plates, transferred as patches onto fresh plates and grown for an additional 6–8 h. DNA (plasmid or PCR product) was diluted as appropriate in distilled water and 10 µl was added to each patch and incubated overnight. The mixture was harvested from the plate surface, resuspended in 350 µl phosphate-buffered saline (PBS) and plated onto selective HB plates.

To assess the frequency of natural transformation, recipient H. pylori bacteria freshly grown on HB plates were resuspended in 350 µl BB10 media and used to inoculate a 5 ml liquid culture grown for 6–8 h. The optical density at 600 nm (OD600) of this culture was measured and the culture was diluted back to OD600 0.015 to reach logarithmic phase of growth (OD600∼1) after overnight incubation. One hundred microlitres of recipient bacteria was dispensed in a flat-bottom 96-well plate and transformed in duplicates or triplicates with 10 µl of 1 ng µl −1 donor gDNA. Donor gDNA was constructed by inserting the gato resistance cassette at bp 483 in gene cagH do H. pylori strain NSH57 and J99 (hpG27-499 and jhp0489 respectively). To measure transformation of the ΔdprA mutant, donor gDNA was isolated from the G27 cag2::aphA3-sacB clone ( Pinto-Santini and Salama, 2009 ). After 3 h incubation, 50 µl and 5 µl of the mixture were plated on Cm or Kan HB plates and 20 µl of a 10 −5 dilution was plated on plain HB plates to determine the total number of viable bacteria. Transformation frequency was calculated as the number of Cm or Kan resistant colonies per colony-forming unit.

In the co-culture experiment, NSH57 and J99 ΔcomB10::ermΔcagH::cat were used as donor strains and to maximize DNA released in the culture media, we grew donor bacteria to stationary phase before mixing them with the recipient strain. ΔcomB10 strains show no detectable transformation ( Dorer et al., 2010 ) ensuring unidirectional transformation in the co-culture assay. Recipient strains NSH57 hp0203-hp0204::aphA3 ( Langford et al., 2006 ) and Δhpy188IIIR::aphA3ΔhpyCH4VR::erm were grown to logarithmic phase as described above and mixed at equal volume with the donor strains in a flat-bottom 96-well plate. After 3 h co-incubation, 100 µl of the mixture was plated on Cm + Kan HB plates to select for recombinant clones and 20 µl of a 10 −5 dilution was plated on Kan HB plates to determine the total number of recipient bacteria.

Mapping of integration end-points

Chromosomal DNA of the transformants was prepared and 5–7 kbp of the regions upstream and downstream of the gato marker were amplified by PCR using primer pairs -6FcagH/cagH::cat-3 and cagH::cat-4/5RcagH (Table S2) respectively. The resulting PCR products were purified with the DNA clean and concentrator-5 kit (Zymo Research) and digested with the appropriate restriction enzymes for a minimum of 4 h (New England Biolabs) or sequenced by the FHCRC Genomics Shared Resource.

Sensitivity to UV and antimicrobial agents

UV sensitivity assays were carried out as described previously ( Amundsen et al., 2008 ). For antimicrobial sensitivity testing, H. pylori were grown overnight in liquid culture to OD600 = 0.3, and 200 µl was plated on solid medium lacking all other antimicrobials, and incubated for 30 min in a CO2 incubator. E-test strips (AB Biodisk) were then placed on the plates, which were further incubated for two days and read according to the manufacturer's instructions.

Statistical analysis

UMA t-test was used to compare the mean of integration lengths or transformation frequency between WT bacteria and mutant clones and those comparisons resulting in a P-value of < 0.05 were considered significant. All statistical analyses were performed using the SAS version 9.1 software (SAS Institute, Cary, NC, USA).

In silico genomic analysis

Helicobacter pylori sequences were retrieved from the H. pylori genome browser http://hpylori.ucsc.edu/. Para H. pylori strain NSH57, the sequence of the parent strain G27 was used ( Baltrus et al., 2009 ). The distribution of restriction sites and single nucleotide polymorphism was analysed with Sequencher (Gene Codes Corporation).


6.4: Restriction Mapping

  • Contributed by Michael Blaber
  • Professor (Biomedical Sciences) at Florida State University

o restriction/modification system in bacteria is a small-scale immune system for protection from infection by foreign DNA.

In the late 1960's it was discovered that E. coli contains enzymes that will methylate specific nucleotide bases in DNA

· Different strains of E. coli contained different types of these methylases

  • Typical sites of methylation include the N6 position of adenine, a N4 position of cytosine, ou o C5 position of cytosine.

Figure 6.4.1:Methylation sites

  • In addition, only a fractional percentage of bases were methylated (i.e. not every adenine was methylated, for example) and these occurred at very specific sites in the DNA.
  • A characteristic feature of the sites of methylation, was that they involved palíndromo DNA sequences.
  • Here is an example from a particular E. coli strain R1:

Figure 6.4.2:Palindromic DNA

(EcoR1 methylase specificity. Rubin and Modrich, 1977)

  • In addition to possessing a particular methylase, individual bacterial strains also contained accompanying specific endonuclease activities.
  • The endonucleases cleaved at or near the methylation recognition site.

Figure 6.4.3:Cleavage near methylation site

  • These specific nucleases, however, would não cleave at these specific palindromic sequences if the DNA was methylated.

Thus, this combination of a specific methylase and associated endonuclease functioned as a type of immune system for individual bacterial strains, protecting them from infection by foreign DNA (e.g. viruses).

  • In the bacterial strain EcoR1, the sequence GAATTC will be methylated at the internal adenine base (by the EcoR1 methylase).
  • The EcoR1 endonuclease within the same bacteria will não cleave the methylated DNA.
  • Foreign viral DNA, which is not methylated at the sequence "GAATTC" will therefore be recognized as "foreign" DNA and vaibe cleaved by the EcoR1 endonuclease.
  • Cleavage of the viral DNA renders it non-functional.

Such endonucleases are referred to as "restriction endonucleases" because they restrict the DNA within the cell to being "self".

The combination of restriction endonuclease and methylase is termed the "restriction-modification" system.

Since different bacterial strains and species have potentially different R/M systems, their characterization has made available centenas of endonucleases with different sequence specific cleavage sites.

  • They are one of the primary tools in modern molecular biology for the manipulation and identification of DNA sequences.
  • Restriction endonucleases are commonly named after the bacterium from which it was isolated.

Arthrobacter luteus

"Four cutter". Leaves blunt ends to the DNA.

Bacteroides fragilis

"Four cutter". Leaves 5' overhang.

Neisseria cinerea

"Five cutter". Middle base can be either cytosine or guanine. Leaves 5' overhang. Different recognition sites may have non-complementary sequences.

"Six cutter". Leaves 5' overhang. Behaves like a "four cutter" ('star' activity) in high salt buffer. $44 for 10,000 units.

Haemophilusaegyptius

"Six cutter". Pu is any purine, Py is any pyrimidine. Leaves 3' overhang.

"Seven cutter". Pu is any purine, Py is any pyrimidine, N is any base. Leaves 5' overhang. Different recognition sites may have non-complementary sequences.

"Six cutter with interrupted palindrome". Leaves 5' overhang. Different recognition sites may have non-complementary sequences.

Bacillusstearothermophilus

"Six cutter". Different recognition sites vai be complementary.

Acetobacter aceti

"Six cutter" with 3' overhang. Same recognition sequence as Bsa HI, but different cleavage position.

Non-palindrome, distal cleavage. Leaves 3' overhang. $50 for 50 units.

Nocardiaotitidiscaviarum

"Eight cutter". Leaves 5' overhang.

Bacillusstearothermophilus

  • The utility of restriction endonucleases lies in their specificity and the frequency with which their recognition sites occur within any given DNA sample.
  • If there is a 25% probability for a specific base at any given site, then the frequency with which different restriction endonuclease sites will occur can be easily calculated (0.25 n ):

Frequency of Occurrence

1 Alu site in every 256 bases (0.25 Kb)

1 Nci I site in every 1024 bases (1.0 Kb)

1 EcoR1 site in every 4,096 bases (4.1 Kb)

1 EcoO109I site in every 16,384 bases (16.4 Kb)

1 Not I site in every 65,536 bases (65.5 Kb)

Thus, on average, any given DNA will contain an Alu I site every 0.25 kilobases, whereas a Not I site occurs once about every 65.5 kilobases.

  • Not I is therefore a very useful enzyme for isolating large regions of DNA, typically in research involving genomic DNA manipulations.
  • Alu I would be expected to digest a DNA sample into lots of little pieces.

The assortment of DNA fragments would represent a specific "fingerprint" of the particular DNA being digested. Different DNA would not yield the same collection of fragment sizes. Thus, DNA from different sources can be either matched or distinguished based on the assembly of fragments after restriction endonuclease treatment. These are termed "Restriction Fragment Length Polymorphisms", or RFLP's. This simple analysis is used in various aspects of molecular biology as well as a law enforcement and genealogy. For example, genetic variations that distinguish individuals also may result in fewer or additional restriction endonuclease recognition sites.


Introdução

Comparative sequence analysis has had a major impact on molecular biology and genetics. Comparison of the sequences of protein-coding genes between multiple species has enabled prediction of gene function [1], identification of protein domains [2], prediction of functional amino acid residues [3,4], and detection of signals of natural selection at the level of whole genes [5] and individual codons [6,7]. Inferring non-neutral sequence elements in the human genome is of considerable interest even without a specific a priori hypothesis concerning their possible functional role(s). On a general level, for example, sequence conservation may considerably inform human genetic studies seeking to identify allelic variants associated with disease phenotypes, particularly in noncoding regions [8]. The effect of human SNPs at the level of molecular function and phenotype depends on the importance of the individual nucleotide position, whereas the information of the sequence region as a whole is not necessarily relevant. For example, about half of human SNPs within protein coding genes are represented by synonymous variants, which are likely to be of limited importance, even though they are embedded within highly conserved exonic sequences. In addition, a subset of individual nucleotides conserved in four mammalian genomes were shown to be under selective pressure [9]. A position-specific measure of selective constraint is therefore highly suitable for analysis of positions that are polymorphic within the human population.

Several algorithms have been developed for detection and scoring of sequence conservation in the context of a multispecies sequence alignment. However, to date these approaches have been applied almost exclusively to detect discrete regions with elevated average sequence conservation that typically extend for up to hundreds of contiguous bases [10–14]. Such regions encompass canonical coding exons, as well as so-called “conserved noncoding sequences” that presumably result from purifying selection, and are thereby indicative of functional importance [15,16].

Recently, comparative genomic sequence of unprecedented depth has been generated by sequencing of multiple mammalian and other vertebrate genomes orthologous to 1% of the human genome defined by the ENCODE regions [17,18]. Several alignment techniques have been applied to construct multiple sequence alignments within ENCODE regions [18]. These alignments have in turn been subjected to analysis with existing sequence conservation detection algorithms, including phastCons[10], GERP [11], and BinCons [13]. The conserved regions identified by these analyses show statistically significant overlap with experimentally identified coding and noncoding functional elements. However, the majority of experimentally characterized noncoding functional elements fall outside of currently delineated conserved regions, and, conversely, most conserved regions were located outside of experimentally detected elements [18]. The fact that many functional elements reside in noncoding regions that do not exhibit uniformly high conservation is perhaps not surprising given that binding sites for transcriptional factors that mediate many biological processes are quite plastic evolutionarily [19]. Conversely, many individual nucleotides located outside of well-defined conserved regions exhibit sequence conservation across multiple species. Such conservation may be due to mere chance or, for a certain fraction of these nucleotides, may reflect their importance for fitness and hence function. The aforementioned observations emphasize the need for higher resolution methods for analysis of evolutionary conservation within functional elements and generally across the genome.

Here we develop an approach for analyzing sequence conservation at the individual base-pair level, with an aim toward correlating conservation with human genetic variation and with functional genomic annotations. We present a new probabilistic conservation score, SCONE (Sequence Conservation Evaluation). SCONE provides conservation scores for individual nucleotide positions, and can be applied to predict continuous sequence regions with an elevated level of conservation.

We apply SCONE to the study of annotated functional elements and human sequence polymorphism. We focus on the statistical distribution of position-specific conservation scores rather than on the bulk overlap between conserved regions and functional features. It is clear from the outset that the power to detect conservation at the single base-pair resolution is limited, even when comparing multiple species [20]. We surmount this obstacle by deriving considerable statistical power from combined analysis of numerous individual nucleotide positions from many genomic regions. While this analysis does not allow us to detect individual functional positions accurately, we can show that, collectively, a subset of noncontiguous individual positions are important. A key advantage of the analysis of the distribution of position-specific scores is that it is unbiased with respect to the pattern of conservation along a given sequence region. SCONE thus has the potential to analyze putative functional elements in which the conservation signal is not homogeneous or manifested by exon-like contiguous conserved stretches.

We report herein on the relationship between sequence conservation, functional sequence elements, and human allelic variation, as revealed by single-nucleotide conservation analysis.


Nota do editor A Springer Nature permanece neutra em relação a reivindicações jurisdicionais em mapas publicados e afiliações institucionais.

Extended Data Fig. 1 Highly efficient base editing by A3A-BE4max or hyA3A-BE4max in mouse embryos.

(a, b) Genotyping of F0 generation pups by A3A-BE4max and hyA3A-BE4max. The frequencies of WT and mutant alleles were determined by analyzing HTS using BE-analyzer. The percentage on the right represents the frequency of the indicated mutant allele with the corresponding mutation-induced amino acid conversion shown in parentheses. The frequency of the wild-type allele was omitted. Wt, wild-type.

Extended Data Fig. 2 Off-target analysis and germline transmission of the founders derived from hyA3A-BE4max injection.

(uma) HTS was performed with mouse tails to determine editing efficiencies at 15 potential off-target sites in three Dmd mutant F0 mice (#BD03, #BD04 and #BD07). Mismatched nucleotide letters are indicated in lowercase. Data are means ± SD (n = 3 mice).(b) HTS alignments of mutant sequences from F1 generated by mating founder #BD12(♀) with Wt (♂). The column on the right indicates frequencies of mutant alleles. Wt, wild-type.Statistical source data are provided in Source Data Extended Data Fig. 2.

Extended Data Fig. 3 Comparison of base editing efficiency and protein levels by CBEs and hyCBEs in HEK293T cells.

(uma)Comparison of base editing efficiency induced by A3A-BE4max or hyeA3A-BE4max in HEK293T cells. The average mutation percentage derived from three independent experiments of A3A-BE4max and hyeA3A-BE4max at the same site is listed. Some of the data (hyeA3A-BE4max) are the same as presented in Fig. 4a. Statistical source data are provided in Source Extended Data Fig. 3. (b) The protein levels of BE4max, hyBE4max, A3A-BE4max, hyA3A-BE4max, eA3A-BE4max and hyeA3A-BE4max were determined by Western blotting in HEK293T cells 3 days after transfection of similar amounts of plasmid DNA. Specific antibodies against Cas9 (top) or GAPDH (bottom) were used. Western blotting images are representative of three independent experiments. Unprocessed blots are shown in Source Data Extended Data Fig. 3.

Extended Data Fig. 4 Comparison of base editing product purity induced by variant base editors in HEK293T cells.

(uma) Comparison of base editing products induced by BE4max vs hyBE4max. HTS data were analyzed and the ratio of each type of nucleotides was listed on each target position. Data are means ± SD (n = 3 independent experiments). (b) Comparison of base editing products induced by A3A-BE4max vs hyA3A-BE4max. HTS data were analyzed and the ratio of each type of nucleotides was listed on each target position. Data are means ± SD (n = 3 independent experiments) (c) Comparison of base editing product induced by eA3A-BE4max vs hyeA3A-BE4max. HTS data were analyzed and the ratio of each type of nucleotides was listed on each target position. The individual data points are shown as black (C > T), light green (C > A) and light red (C > G) dots. Data are means ± SD (n = 3 independent experiments). Statistical source data are provided in Source Data Extended Data Fig. 4.

Extended Data Fig. 5 Whole genome sequencing of Dmd F0 (#DD11) and wild-type (Wt) mice.

(uma) Summary of genome sequencing analysis. WGS for a Dmd mutant mouse (#DD11) and a wild type mouse (Wt) were performed. A total of 82,573 and 62,359 SNPs were identified for #DD11 and Wt, respectively. After filtering out dbSNP (naturally occurring variants in the SNP database), 20,387 SNPs were obtained in the #DD11 genome. Then the sequences at the remaining SNP sites were compared with all on-/off-target sequences (20 bp). (b) Summary of on-/off-target site information. A total of 175,058 sites, including 1 on-target site and 20 374 2,869 22,335 and 148,569 off-target sites with 3, 4, 5, 6, or 7 mismatch/es, respectively, were analyzed. (c) Summary of the whole-genome sequencing. (d) Summary of off-target analysis. After comparing the sequences at the remaining SNP sites with the 175,058 on-/off-target sequences (20 bp), the C-to-T substitution was only detected within the on-target sequencing in #DD11. (e) Validation the off-target candidate site determined in (d) using targeted deep sequencing of genomic DNA isolated from various #DD11 organs (heart, liver, lung and tail). Mismatched nucleotides and PAM sequences are shown in red and in blue, respectively. Data represent mean from two independent experiments. Statistical source data are provided in Source Data Extended Data Fig. 5.


Assista o vídeo: COMO OBTER A SEQUÊNCIA DE BASES DA FITA COMPLEMENTAR DO DNA - QUESTÃO 8 lista ácidos nucleicos (Novembro 2021).