Em formação

Como o MEME calcula a frequência de fundo dos nucleotídeos?


Estou tentando calcular uma matriz log-odds para a entrada do MAST, a partir de uma matriz de probabilidade específica da posição para o motivo no qual estou interessado.

Gostaria de saber como o MEME estima a frequência de fundo dos nucleotídeos, pois faz a conversão de matrizes de probabilidade específicas de posição em matrizes de log-odds quando você opta por executar o MAST na saída de MEME. É simplesmente contar frequências nas sequências fornecidas, ou existe algum tipo de modelagem em andamento para corrigir o tamanho da amostra e outros enfeites?

EDIT: Outra possibilidade que me ocorreu é que o MAST é capaz de converter matrizes específicas de posição em matrizes log-odds. Eu agradeceria se alguém pudesse esclarecer este ponto para mim (e ainda estou interessado em como as frequências de fundo são calculadas). Além disso, estou procurando especificamente respostas com links para documentação de apoio.

EDIT 2 (05/07/13): Alexander respondeu à pergunta original. Alguém tem uma resposta para a primeira edição (re: MAST)?

EDIT 3: O MAST não gosta de PSPMs; ele aceitará o trabalho, mas travará.


Na página do servidor MEME, há um link para fazer upload de um modelo de markov de plano de fundo personalizado (usando a interface de linha de comando, esta é a opção -bfile). De lá, há um link para a página do homem do MEME. Em "Função objetivo", especifica:

O modelo de plano de fundo é um modelo de Markov de ordem n. Por padrão, é um modelo de ordem 0 que consiste nas frequências das letras no conjunto de treinamento.

Então, sim, é basicamente a correção mais simples possível: sem contabilização de frequências em pares, complementos, largura do motivo, etc. Espero que isso seja porque MEME pode ser aplicado a essencialmente qualquer conjunto de dados, como ligações de exibição de fago de um conjunto "verdadeiramente" aleatório de oligos curtos. Nesse caso, fazer suposições de ordem superior sobre a independência dos pares seria prejudicial.

Abaixo disso, acho que responde à sua pergunta sobre o cálculo das odds logarítmicas totais:

O valor E relatado por MEME é na verdade uma aproximação do valor E da razão de verossimilhança logarítmica. (Uma aproximação é usada porque é muito mais eficiente de calcular.) A aproximação é baseada no fato de que a razão de probabilidade log de um motivo é a soma das razões de verossimilhança logarítmica de cada coluna do motivo. Em vez de calcular a significância estatística desta soma (seu valor p), MEME calcula o valor p de cada coluna e então calcula a significância de seu produto. Embora não seja idêntico ao significado da razão de probabilidade de log, esta função objetivo mais fácil de calcular funciona de forma muito semelhante na prática.


Análise comparativa de padrões de ligação de proteínas de domínio MADS em Arabidopsis thaliana

A formação correta da flor requer uma regulação temporal e espacial altamente específica da expressão gênica. No Arabidopsis thaliana a maioria dos reguladores principais que determinam a identidade do órgão da flor pertence à família do fator de transcrição do domínio MADS. O motivo de ligação de DNA canônico para esta família de fatores de transcrição é a caixa CArG, que tem o consenso CC (A / T)6GG. No entanto, até agora, uma análise abrangente dos padrões de ligação do domínio MADS ainda não foi realizada.

Resultados

Oito conjuntos de dados ChIP-seq disponíveis ao público de proteínas de domínio MADS que regulam a transição floral e a formação de flores foram analisados. Surpreendentemente, o motivo de ligação ao DNA preferido de cada proteína era uma caixa CArG com uma extensão NAA. Além disso, motivos de outros fatores de transcrição foram encontrados na vizinhança dos locais de ligação dos fatores de transcrição do domínio MADS, sugerindo que a interação das proteínas do domínio MADS com outros fatores de transcrição é importante para a regulação do gene alvo. Finalmente, a conservação das caixas CArG entre Arabidopsis ecótipos foram avaliados para obter informações sobre sua importância evolutiva. As caixas CArG que corresponderam totalmente ao consenso foram mais conservadas do que outras caixas CArG, sugerindo que a caixa CArG perfeita é evolutivamente mais importante do que outras variantes da caixa CArG.

Conclusão

Nossa análise fornece uma visão detalhada dos padrões de ligação de proteínas do domínio MADS. Os resultados sublinham a importância de uma versão estendida do CArG-box e fornecem uma primeira visão sobre a conservação evolutiva dos sítios de ligação de proteínas do domínio MADS em Arabidopsis ecótipos.


Simulação de descoberta de motivo

As simplificações excessivas que faremos aqui, que resultam em uma simulação irreal e pior método, mas são úteis para fins pedagógicos:

  • Vou modelar apenas a sequência de motivos em si, e não a probabilidade da sequência de “fundo”.
  • Cada sequência de DNA terá o mesmo comprimento. Na realidade, muitas vezes teremos dados experimentais de que uma proteína se liga a um local, mas cada intervalo genômico terá uma largura diferente.
  • Cada sequência de DNA conterá o motivo. Com dados experimentais, vários locais onde encontramos uma proteína ligada ao DNA podem não conter o motivo dessa proteína. É possível que a proteína em que estamos interessados ​​esteja ligada a outra proteína ligada ao DNA, de modo que nossa proteína não esteja fazendo contato direto com o DNA por meio de seu motivo.
  • Vou olhar apenas para uma fita do DNA, em vez de ambas as fitas.
  • Simularei sequências de DNA idênticas como o motivo oculto, embora, na verdade, os motivos de sequência de uma proteína de ligação ao DNA variem no genoma. Sempre há algumas, e freqüentemente muitas, posições dentro de um motivo que permitem uma variedade de nucleotídeos.

Começo definindo alguns parâmetros e simulando nosso motivo que queremos encontrar. Aqui, uso os números 1-4 para representar os nucleotídeos A, C, G, T.

Agora vamos incorporar o motivo em algumas sequências de DNA, que aqui são linhas de uma matriz X. o Z variável mantém o controle da posição inicial do motivo nas sequências de DNA em X. Portanto, configuramos um problema que pode ser resolvido com EM: se soubéssemos o motivo, poderíamos encontrar os locais Z, e se soubéssemos os locais Z, poderíamos facilmente determinar o motivo. Não começamos com nenhum.

Antes de começarmos, observe que EM não é a única maneira de encontrar esses motivos. Outra abordagem, aparentemente mais direta, seria tabular todos os k-mers para um valor de k que é grande, mas menor do que o comprimento do motivo que estamos procurando. Se observarmos as sequências que ocasionalmente deveriam conter o motivo, provavelmente encontraremos conjuntos de k-mers que ocorrem mais do que esperaríamos em sequências de DNA de “fundo”.

Finalmente, descrevemos os parâmetros ( theta ) que usaremos para descrever o motivo. Especificaremos uma matriz que possui quatro linhas para cada um dos nucleotídeos do DNA e é mais larga do que o próprio motivo. Essa extensão do tamanho da matriz reduzirá a chance de encontrarmos o motivo, mas alguns dos nucleotídeos do motivo estão fora dos nucleotídeos modelados em ( theta ). Uma coluna da matriz ( theta ) representará a probabilidade de observar um dado nucleotídeo (A, C, G, T nas linhas) em uma determinada posição no motivo. Observe novamente que as posições nos motivos que recuperamos são arbitrariamente deslocadas: se o verdadeiro motivo começar na posição 3 ou na posição 7 de ( theta ), ambos nos levarão a um máximo local da probabilidade log.

Vamos primeiro passar por uma iteração antes de executar o algoritmo EM. Começamos calculando as probabilidades condicionais usando X e nossa suposição inicial ( theta ^ 0 ). Nós os armazenamos em uma matriz, com uma linha por sequência de DNA e tantas colunas quanto as posições iniciais potenciais para o motivo. Como eu disse acima, para simplificar, aqui apenas nos concentramos na probabilidade da sequência do motivo e ignoramos a sequência de fundo. Vamos apenas calcular a primeira linha, i = 1, e a primeira posição, p = 1.

Depois de armazenar essas probabilidades de condição em uma matriz, z.mat, podemos usá-las para maximizar nossa expectativa da probabilidade de log com relação à distribuição de condição de Z dado X e ( theta ^ t ) e depois atualizar para ( theta ^). Adicionaremos a contribuição de cada sequência de n, e de todas as posições p. Como z.mat será normalizado de forma que cada linha some 1 (forma uma densidade ao longo das posições), precisamos apenas normalizar a contribuição de cada sequência e posição por n. Nossa atualização para ( theta ^) para cada nucleotídeo é a média ponderada do número de vezes que vimos aquele nucleotídeo naquela posição. Aqui, mostramos a linha de código, mas ela não foi avaliada, pois ainda não calculamos z.mat.

Agora vamos colocar essas duas peças juntas, dentro de um loop. Também adicionaremos algum código que traçará as suposições a cada iteração.

Primeiro defina uma função para desenhar as estimativas em cada iteração, t:

O fragmento de código a seguir é muito longo para um Rmarkdown, mas eu o coloquei aqui como um fragmento longo para que você possa percorrer o código em cada iteração e examinar os valores de Z e teta, conforme o EM está progredindo. Deve ser um pedaço longo para desenhar as iterações no mesmo gráfico.

Olhando para as estimativas de ( theta ) sobre iterações, vemos que a inicialização aleatória continha quatro posições que se alinhavam com o motivo verdadeiro. Ao longo das próximas três iterações, o motivo foi preenchido, conforme a densidade em Z concentrado nas verdadeiras posições. Finalmente, após a iteração 5, vemos o motivo ficar em forte relevo, com as outras posições niveladas para probabilidade igual de todos os nucleotídeos.

Observe que, os quatro nucleotídeos não estão em abundância igual na sequência de "fundo" em nossos genomas e, portanto, um método de localização de motivo melhor modelaria adicionalmente a sequência de "fundo".

Também podemos ver que as posições com maior densidade em Z correspondem linearmente às localizações verdadeiras (embora com uma mudança). Observe que não localizamos o motivo para todas as sequências. Em particular, quando o motivo começou no lado esquerdo ou direito, a matriz ( theta ) era muito larga.


Métodos e Programas

A fim de distinguir regiões com propriedades conservadas, nomeadamente hidrofobicidade, definimos um perfil geral de hidrofobicidade. Espera-se que as regiões cuja hidrofobicidade difere de um valor médio sejam essenciais para o reconhecimento pelo spliceossomo. Primeiro testamos essa hipótese em um conjunto T em seguida, comparou o método com um clássico.

Perfil de hidrofobicidade

Primeiro, os genes do 21º e 22º cromossomos contendo 1 a 3 íntrons foram extraídos de GenBank (http://www.ncbi.nlm.nih.gov). Isso rendeu 313 íntrons de comprimento maior que 200 nt e aqueles de 385 exões de comprimento maior que 60 nt. A fim de calcular um valor médio de hidrofobicidade, determinamos a frequência de fundo das bases em exons e íntrons separadamente. Contamos as distribuições de bases ao longo de todo o comprimento dos exons e introns. Não há diferença estatisticamente confirmada entre os dois. Constatou-se que as frequências de base são q (A) = 0,237, q (C) = 0,283, q (G) = 0,276 e q (U) = 0,204. Para íntrons de comprimentos superiores a 200, contamos a distribuição de base apenas nos limites de 5 '. De fato, é bem conhecido que existe uma trilha de polipirimidina próxima aos limites 3 'dos ​​íntrons que não permite levá-los em consideração. Constatou-se que as frequências de base são q (A) = 0,210, q (C) = 0,249, q (G) = 0,299 e q (U) = 0,241.

Para construir o perfil de hidrofobicidade, construímos o conjunto T de sequências de flanco (30 nt dentro do exon e 30 nt dentro do íntron) extraído em ambas as junções exon-íntron, nos limites de 5'ss e 3'ss. Dado um conjunto de locais de splice, define-se um perfil de hidrofobicidade como segue. UMA coeficiente de hidrofobicidade hc (i) pode ser associado a cada base eu . Os coeficientes de hidrofobicidade básica do DNA dados em 12 foram usados ​​para calcular um valor de hidrofobicidade médio para cada posição do local de emenda. Os coeficientes básicos do DNA foram sugeridos como apropriados para serem extrapolados para os ribonucleotídeos, uma vez que a hidrofobicidade dos nucleotídeos é principalmente determinada pelas porções & # x0201cbases & # x0201d variadas em tamanho, forma e polaridade, não pelo componente de hidrocarboneto. Os valores dos coeficientes são hc (A) = - 1,07, hc (C) = - 0,76, hc (G) = - 1,36 e hc (U) = - 0,76. Como o coeficiente de hidrofobicidade para uracila não foi determinado experimentalmente em 12, usamos o valor de hidrofobicidade para citosina (-0,76) para uracila porque ambos os ribonucleotídeos pertencem a pirimidinas e, correspondentemente, têm tamanho e forma semelhantes, correlacionando-se muito bem com propriedades físicas 13. No entanto, há o grupo NH2 na quarta posição da base da citosina e o oxigênio na mesma posição do uracila. Essa diferença é graduada por valores próximos de hidrofobicidade desses grupos 13.

Para cada posição j e cada base eu, deixar ni (j) seja o número de ocorrências de base eu na posição j neste conjunto. O valor médio de hidrofobicidade na posição j é

Para o nosso set T alinhamos todas as sequências de flanqueamento dos limites 5 ', que são 60 nt longo, usando dinucleotídeos terminais como uma âncora. Os valores de hidrofobicidade foram calculados para cada posição do conjunto de locais de emenda. Procedemos de forma semelhante para os limites de 3 'do conjunto T também.

Em seguida, comparamos esse resultado com o plano de fundo. O valor de hidrofobicidade em uma determinada posição pode ser interpretado como a soma de k variáveis ​​aleatórias. Nós comparamos com a soma de k variáveis ​​aleatórias com uma distribuição de Bernoulli dada pelas frequências de fundo. A distribuição associada é aproximadamente normal. Calculamos o valor médio de fundo, E = soma _> q (i)hc (i) isso é -0.999 para exões e -1.003 para íntrons. As variações correspondentes, por exemplo, soma _> q (i)hc (i) ^ 2 -E ^ 2 foram encontrados para ser VE = 0.0649 e VI = 0,0689. Calculamos os limites de 0,9995 do intervalo de confiança, que denotamos

As tabelas de distribuição normal fornecem "Z(1-alfa/ 2) "para um nível de confiança alfa (= 0,001 aqui):

Quando Oi) estava fora deste intervalo, usamos a fórmula de grande desvio 14 para calcular o P-valor de Oi).

Sequências de consenso e perfis de hidrofobicidade para dois tipos de íntrons

Compararemos dois métodos que identificam recursos comuns e distintos em cada tipo de local de emenda. Construímos quatro conjuntos de 200 introns com dois locais de união confirmados que foram extraídos de um recurso amigável, SpliceRack (http://katahdin.cshl.edu:9331/SpliceRack/). Dois conjuntos são associados a íntrons humanos do tipo U2, com terminais GT-AG para um conjunto e terminais GC-AG para o outro. Dois conjuntos são associados a íntrons humanos do tipo U12 com terminais GT-AG para um conjunto e terminais AT-AC para o outro. No set T foi mostrado que em exões apenas as posições mais próximas da junção exão-intrão desviam de um valor médio de hidrofobicidade, uma vez que para cada local se extrai um 38 nt longa região ao redor de cada junção exon-íntron nos 5'ss e nos 3'ss. Mais precisamente, extraímos 8 nt dentro do exon e 30 nt dentro do intron. Esses novos conjuntos estão espalhados em vários cromossomos, portanto, usamos um fundo diferente. As frequências de fundo de nucleotídeos foram avaliadas a partir de um conjunto de 1.228 genes humanos extraídos de GenBank (http://www.ncbi.nlm.nih.gov) e foram considerados q (A) = 0,219, q (C) = 0,269, q (G) = 0,280 e q (U) = 0,233.

Um valor médio de hidrofobicidade e uma variação foram E = 0,996 e V = 0,0652 correspondentemente. Aqui, não calculamos os valores médios de hidrofobicidade separadamente para exons e introns, uma vez que eles não eram significativamente diferentes, conforme mostrado nos cálculos do conjunto T.

Os locais de emenda de cada conjunto foram alinhados separadamente usando Pictograma programa desenvolvido por Chris Burge e Frank White (http://genes.mit.edu/pictogram.html). Pictograma é uma ferramenta útil para visualizar sequências de consenso. Sua entrada é uma matriz de sequências de igual comprimento. Para cada posição j, ele calcula para cada base eu sua frequência relativa, por ex. a proporção pi (j) / qi da frequência de cada nucleotídeo pi (j) para a frequência de fundo qi. Ele também calcula o conteúdo da informação que é definido como & # x02211pi (j) log pi (j) / qi. O conteúdo da informação é comumente usado para estudar a variabilidade (ou nível de conservação) em cada posição, variando de 2 (um evento é certo) a 0 (todas as frequências observadas são iguais às probabilidades de fundo. Pictograma a saída é um diagrama de letras. Deve ser dito que Pictograma programa substitui U a T para traçar diagramas de saída (Figura & # x200B (Figura 2 2 e & # x200B e 3) 3) em seguida, para ser consistente com os pictogramas, usamos GT-AG e designações AT-AC para dinucleotídeos de terminal de íntron. Para cada posição j, a altura de eu-a letra é proporcional à proporção pi (j) / qi. Além disso, o conteúdo da informação está escrito abaixo.

Os perfis de hidrofobicidade e os pictogramas correspondentes para comparação de pares dos íntrons do tipo U2.


DISCUSSÃO

O recrutamento do complexo de pré-iniciação 43S para um mRNA é um processo competitivo que é determinado por características do mRNA, o milhau celular e a atividade da máquina de tradução (23). O mecanismo de iniciação da tradução em plantas e outros eucariotos envolve um mRNA pseudo-circularizado formado por interações entre a capa 5 'e a cauda 3' que envolvem eIF4G, eIF4B e proteína de ligação poli (A) (20, 34, 39) . A interação cap-tail do mRNA promove a varredura do complexo de pré-iniciação 43S e eventos de reinicialização secundários. Em plantas, a discriminação entre mRNAs na iniciação translacional foi relatada para uma série de mRNAs em estudos focados [revisado em (24, 40)]. Mais recentemente, a tradução diferencial de mRNA em folhas de Arabidopsis foi confirmada em nível global por avaliação quantitativa do acúmulo de mRNAs em complexos polisomais em ambas as condições NS e DS (Figura 1) (7). Aqui, expandimos a comparação da abundância de mRNA polissômico e total em estado estacionário de genes de Arabidopsis e identificamos várias características de mRNA que contribuem para a regulação translacional sob essas duas condições de crescimento. Os resultados indicam que as características de 5′-UTR, ORF e 3′-UTR desempenham um papel geral na regulação da tradução de transcritos de genes individuais (Tabela 1). Além disso, nossos resultados fornecem suporte para a hipótese de que os nucleotídeos que circundam o códon de iniciação influenciam a eficiência da tradução.

O papel do 5′-UTR na regulação translacional

O 5'-UTR teve o maior efeito no carregamento do ribossomo devido à influência da composição de nucleotídeos, comprimento, estrutura secundária potencial e a presença de uAUGs. Os mRNAs com alta carga de ribossomo geralmente tinham um 5'-UTR com alto teor de A, enquanto mRNAs mal carregados geralmente tinham 5 '-UTRs com elevados conteúdos de G, U e GU (Tabela 2). Além disso, um 5′-UTR, que era longo, tinha um ΔG a previsão de & lt − 55 kcal / mol e / ou uAUGs contidos prejudicou significativamente o carregamento do ribossomo em ambas as condições de crescimento. Surpreendentemente, das características 5′-UTR avaliadas, apenas o alto conteúdo de GC contribuiu claramente para a redução diferencial da carga de ribossomo sob DS (Figura 3B e C). Esta observação pode refletir um maior requisito para a atividade de helicase de RNA dependente de ATP para a iniciação de mRNA com um alto teor de GC na sequência líder. Esses resultados sugerem que sob DS, quando os níveis de trifosfato de nucleotídeo são reduzidos, o carregamento do ribossomo é significativamente modulado pela necessidade de consumo de ATP no processo de varredura (41, 42).

O contexto do códon de iniciação e tradução

Os resultados apresentados aqui fornecem evidências de que o contexto em torno do códon de iniciação contribui para o controle da iniciação da tradução sob condições NS e influencia diferencialmente a tradução sob DS. Os mRNAs que estavam altamente carregados em ambas as condições NS e DS tinham uma sequência de consenso ligeiramente modificada do que o previsto na pesquisa de todos os genes de Arabidopsis. A sequência de consenso modificada foi caracterizada por uma preferência por A da posição −10 a −1. Nossa descoberta de que A−3 é favorecido em mRNAs altamente traduzidos é consistente com as análises do contexto de AUG em células de tabaco transformadas de forma estável (43, 44). No entanto, outro estudo observou que os mRNAs do gene repórter com um gene A-rico (AAACA AGO G) o contexto do códon de iniciação foi expresso em níveis semelhantes àqueles com menos rico em A (CCACC AGO G) região em protoplastos de tabaco transitoriamente transformados (45).

A frequência significativamente maior de A nas posições −7, −9 e −10 nos mRNAs altamente traduzidos sob DS indica ainda que a modulação da expressão envolve restrições dentro de uma região de contexto de códon de iniciação de região maior do que anteriormente considerada por análises mutacionais. O contexto do códon de iniciação rico em A pode ser favorável devido à minimização da formação da estrutura secundária ou aumento da interação com eIF1. Notavelmente, a sequência ótima (a −10aaaaaaA / Gaa UMA +1 UGGc +4 ) com base na frequência de nucleotídeos nos mRNAs traduzidos de forma eficiente não ocorreu em nenhum dos mRNAs altamente carregados. Além disso, muitos mRNAs com carga de ribossomo extremamente alta sob NS ou DS tiveram várias substituições nas posições críticas em torno do AUG. Esses resultados parecem indicar que uma redução geral na capacidade de formação de estrutura secundária em torno do AUG pode ser benéfica, enquanto os tratos poli (A) nesta região podem ser desfavoráveis.

Nosso estudo também confirmou que há uma preferência por G+4 e C+5 em mRNAs com carga de ribossomo extremamente alta em ambas as condições. Esses nucleotídeos resultariam em um resíduo Ala na segunda posição do polipeptídeo, como observado anteriormente (22). Consistente com nossas observações, um estudo anterior (43) mostrou que a substituição de base de G+4 reduziu significativamente a expressão do gene repórter. Também deve ser considerado que a variação de nucleotídeos na posição +4 e / ou +5 pode ter ramificações na estabilidade da proteína de acordo com a regra do N-end, onde Ala é um resíduo bastante estável em Escherichia coli e fermento (44, 46).

O papel da 3′-UTR na regulação translacional

O efeito do comprimento e outras características do 3′-UTR na tradução não foi extensivamente estudado em plantas. Tanguay e Gallie (47) relataram que a extensão do comprimento 3'-UTR de 4 para 104 nt aumentou a eficiência translacional de mRNAs não poliadenilados em um sistema de expressão transiente usando células de ovário de hamster chinês. No entanto, os mRNAs do gene repórter poliadenilado mostraram pouco aumento na tradução quando o 3'-UTR foi estendido de 27 para 161 nt. Descobrimos que o comprimento médio de 3'-UTR para mRNAs de Arabidopsis era de 248 nt. Em contraste, a 3'-UTR de mRNAs de mamíferos é geralmente mais longa (& gt400 nt) (32). A pesquisa de características 3′-UTR e associação de polissomas apresentada aqui indicou que os mRNAs com uma 3′-UTR curta (40-120 nt) foram traduzidos em níveis significativamente reduzidos nas folhas de Arabidopsis. A partir desses resultados, pode-se especular que uma distância mínima entre o códon de parada e a cauda poli (A) é crítica para o processo de reinicialização. Um longo 3′-UTR (& gt300 nt) pode não afetar adversamente este processo, embora a variação aumentada na carga de ribossomos de mRNAs com longos 3′-UTRs seja notável. Isso pode refletir a presença de características adicionais em longos 3′-UTRs que desempenham um papel em outros processos, como a regulação diferencial da seleção do local de poliadenilação, estabilidade do mRNA, transporte e a localização subcelular da tradução (32, 48, 49).

Evidência de aumento do número de ribossomos por mRNA sob DS

Vários estudos observaram uma mudança de mRNAs de plantas para polissomos maiores em resposta a estímulos ambientais (40). Descobrimos aqui que os mRNAs com uma ORF longa (& gt1500 nt) têm valores de carga de ribossomo significativamente maiores sob DS, indicando um maior número de ribossomos por mRNA. Isso pode refletir um aumento de iniciação / reinicialização ou alongamento / término reduzido. Está bem estabelecido que a iniciação é reduzida sob DS. Portanto, esses resultados podem indicar que a iniciação não é o único fator limitante e que o alongamento / término também é diminuído. Isso pode ser uma consequência da disponibilidade reduzida de GTP. A contribuição do comprimento da ORF para a associação do polissoma sob DS foi significativa em toda a faixa de comprimento da sequência de codificação, consistente com a conclusão de que o alongamento / terminação foi reprimido globalmente, independentemente do comprimento do mRNA sob DS.

Mecanismo de tradução seletiva de mRNA sob DS

Cerca de 50% dos genes que foram altamente induzidos no nível de abundância de mRNA por DS mostraram pouca redução na carga de ribossomo, enquanto a maioria dos mRNAs mostrou tradução reduzida (Figura Suplementar S2) (7). Uma pesquisa dos genes que exibiram carga de ribossomo mantida em resposta a DS indicou que apenas ∼9% dos genes representados no conjunto FL-cDNA (32/349 genes) tinham um 5′-UTR de comprimento ideal (30-70 nt ) e conteúdo de GC (& lt40%). Além disso, um número significativo de mRNAs com comprimento ideal de 5'-UTR e conteúdo de GC exibiu carga de ribossomo reduzida sob condições DS (193/349 mRNAs com ΔnRL & lt 0, P & lt 0,01). Esta descoberta indica que embora as características do mRNA identificadas nesta análise geralmente contribuam para a regulação translacional, outros fatores são provavelmente responsáveis ​​pela tradução mantida de um subconjunto de mRNAs celulares sob DS. Nossa análise considerou que sequências de mRNA específicas podem estar presentes nos mRNAs que são eficientemente ou mal traduzidos sob DS. Essas sequências podem promover a montagem do complexo de iniciação ou reduzir a dependência das interações cap-tail, permitindo assim que certos mRNAs sejam traduzidos de forma eficiente sob DS. Este escape da repressão translacional pode ser facilitado diretamente pela sequência de RNA ou indiretamente por meio da interação com proteínas de ligação a RNA que aumentam a interação cap-tail (20, 39). No entanto, apesar do esforço considerável, não fomos capazes de identificar motivos que aumentam ou prejudicam o carregamento de ribossomos sob DS usando programas de exploração de motivos publicamente disponíveis [por exemplo, MEME (50), GPRM (51) e SLASH (52)] (dados não mostrados). Isso nos leva a especular que as sequências de mRNA per se pode não ser o único responsável pela tradução diferencial do mRNA.

A descoberta de que a maioria dos mRNAs induzidos por DS também mostrou tradução mantida (Figura Suplementar S2) levanta a possibilidade de que a indução transcricional seja acoplada com tradução eficiente durante DS. O acoplamento de mecanismos regulatórios nucleares e citoplasmáticos foi relatado em resposta ao estresse térmico em leveduras, onde mRNAs induzidos também mostraram associação eficiente com polissomos (23, 53). Os mecanismos que co-regulam eventos de transcrição / splicing / exportação com tradução ainda precisam ser elucidados. Vários estudos recentes indicam que a atividade transcricional está ligada ao splicing, poliadenilação e turnover, todos esses processos mostraram influenciar a tradução (54-57). O acoplamento da transcrição a eventos pós-transcricionais provavelmente envolve ribonucleoproteínas nucleares heterogêneas (hnRNPs) e fatores envolvidos em processos pós-transcricionais que são transferidos do complexo de transcrição da polimerase II para o hnRNA (58). Foi demonstrado que as proteínas transferidas interagem com fatores de splicing, exportação e tradução (53).

Uma explicação alternativa para a aparente ausência de motivos de sequência que regulam a tradução diferencial de mRNA é que a sequência líder exata pode ser regulada pelo uso de locais de início de transcrição alternativos e / ou remoção de intron (s) 5 '. É claro que um 5′-UTR de estrutura longa provavelmente causará iniciação ineficiente, portanto, a remoção de tal estrutura ou uAUGs por transcrição alternativa (59-61) ou splicing (62-64) pode levar a uma taxa maior de iniciação. Em humanos, 35% dos mRNAs sofrem splicing alternativo, ocorrendo principalmente na 5′-UTR (65). Recursos / mecanismos adicionais, incluindo IRES, iniciação sem t-RNAConheceu ou o emparelhamento mRNA-rRNA também pode contribuir para a regulação translacional em resposta ao DS (66).

Em conclusão, este estudo fornece fortes evidências de que várias características da sequência de mRNA contribuem para a regulação da tradução de mRNA sob condições de crescimento padrão e durante o DS. Embora o conteúdo 5'-UTR GC, o contexto de códon de iniciação e o comprimento de ORF geralmente contribuam para a tradução diferencial de mRNAs sob DS, esses recursos não parecem ser os únicos responsáveis ​​pela dinâmica observada na tradução de mRNA. Além disso, nossa falha em identificar a presença de motivos de sequência de mRNA que se correlacionam com a manutenção versus prejuízo da tradução de mRNAs individuais sob DS (dados não mostrados) leva à sugestão de que a regulação translacional pode envolver aspectos da regulação gênica que ainda precisam ser apreciados. À luz de análises genéticas recentes que identificaram várias proteínas de ligação ao mRNA nuclear e fatores de exportação que desempenham um papel na expressão gênica em resposta a DS e ácido abscísico (67, 68), propomos que a avaliação do acoplamento de células nucleares e citoplasmáticas a regulação do gene merece atenção adicional. Estudos futuros que façam uso de microarranjos de DNA para distinguir a atividade transcricional, populações de RNA nuclear, variantes de splicing e mRNAs polissômicos podem fornecer uma maior compreensão dos elementos de nucleotídeos que são críticos para o contínuo de eventos celulares que podem estar subjacentes à tradução diferencial de mRNA.


Tomtom

Um arquivo contendo um ou mais motivos no formato MEME ou a saída HTML (.html) ou texto simples (.txt) de MEME ou DREME. Cada um desses motivos será pesquisado nos bancos de dados alvo. Se você deseja pesquisar apenas com um subconjunto desses motivos, verifique as opções -m e -mi.

Bancos de dados do Target Motif

Arquivo (s) contendo motivos formatados em MEME. Saídas de MEME e DREME são suportadas, bem como Formato MEME mínimo. Você pode converter muitos outros formatos de motivo para o formato MEME usando scripts de conversão disponíveis com o MEME Suite.

Saída

A Tomtom grava sua saída em arquivos em um diretório denominado tomtom_out, que ele cria, se necessário. (Você também pode fazer com que a saída seja gravada em um diretório diferente, consulte -o e -oc, abaixo.)

O arquivo de saída principal é denominado tomtom.html e pode ser visualizado com um navegador da web. O arquivo tomtom.html é criado a partir do arquivo tomtom.xml. Um arquivo adicional, tomtom.txt, contém uma versão simplificada e somente texto da saída. (Veja -text, abaixo, para o formato de saída de texto.)

Para cada correspondência de alvo de consulta, dois arquivos adicionais contendo alinhamentos de LOGO também podem ser gravados - um arquivo postscript encapsulado (.eps) se o sinalizador -eps for especificado e um arquivo gráfico de rede portátil (.png) se o sinalizador -png for Especificadas. Uma instalação do ghostscript é necessária para criar o arquivo png.

Apenas as correspondências para as quais a significância é menor ou igual ao limite definido pela opção -thresh serão mostradas. Por padrão, a significância é medida por q-valor da partida. o q-valor é a taxa estimada de descoberta falsa se a ocorrência for aceita como significativa. Veja Storey JD, Tibshirani R, "Statistical meaning for genome-wide studies". Proc. Natl Acad. Sci. EUA (2003) 100: 9440 e ndash9445

Opções

Citando

Se você usa a Tomtom em sua pesquisa, cite o seguinte artigo:
Shobhit Gupta, JA Stamatoyannopolous, Timothy Bailey and William Stafford Noble, & quotQuantifying similarity between motifs & quot, Biologia Genômica, 8(2): R24, 2007. [texto completo]


Inspecionando picos

O que está na saída?

Olhando para os dados MACS2, obtivemos os seguintes números de picos:

Agrupado Replicar 1 Replicar 2
974 955 784

Os dados de picos são gerados no seguinte formato:

  1. Cromossoma
  2. Começar
  3. Fim
  4. Id iterativo fornecido por MACS2
  5. Pontuação inteira para exibição
  6. Strand (irrelevant in this case)
  7. Fold-change (fold enrichment for this peak summit against random Poisson distribution with local lambda)
  8. -log10P-value (e.g., 17.68 is 1 x 10 -17 )
  9. -log10Q-value from Benjamini–Hochberg–Yekutieli procedure
  10. Relative summit position to peak start

How many peaks are common between replicates?

To see how many peaks are common between the pooled datasets and the two replicates we will use Operate on Genomic Intervals &rarr Join tool twice.

First we will join Peaks pooled with Peaks R1 :

Joining Pooled and R1 results with Join tool. Note that because we renamed the datasets they are now easily selectable.

Next we will join the result of the previous operation with Peaks R2 :

Joining Pooled/R1 with R2 results with Join tool. Note that because we renamed the datasets they are now easily selectable.

This results in 723 regions are shared among polled, R1, and R2 peaks. Let's call this High confidence set. Before we can use it however, let's cut out only relevant columns. Since we have produced this dataset by joining three other datasets it is three times wider (30 columns). To cut this first three columns we can use Text Manipulation &rarr Cut columns tool:

Cutting columns from Join output.

Next we need to make sure that output of Cut columns tool has the type BED . To do this we will edit its metadata as show below:

Setting metadata to datatype BED . Click the pencil icon( ) adjacent to the dataset and choose Datatype tab. There you will be able to set it to BED .

Let's look at everything in the browser

Let's visualize Merged peaks as well as Narrow peaks and Summits produced by MACS2 in IGV by clicking on display with IGV local links adjacent to Peaks pooled and High confidence set datasets (you should already have browser open):

An overview in IGV. Here you can see original bigWig datasets along with predicted peaks.

What sequence motifs are found within peaks

In this experiment antibodies against Reb1 protein have been used for immunoprecipitaion. The recognition site for Reb1 is TTACCCG (Badis:2008 and Harbison:2004). To find out which sequence motifs are found within our peaks we first need to convert coordinates into underlying sequences. This is done using Fetch Alignments/Sequences &rarr Extract Genomic DNA tool:

Extracting genomic DNA corresponding to ChIP-seq peaks. Here we use Merged peaks dataset generated few steps earlier.

Next, we need to make sure that all sequences are sufficiently long for finding patterns. MEME, the tools we will use to find motifs, required sequences to be at least 8 nucleotides long. So we will remove short sequences using FASTA manipulation &rarr Filter sequences by length tool:

Filtering FASTA by length. Here we are removing all sequences shorted than 8 nucleotides.

Now we can run Motif Tools &rarr MEME:

Running MEME on length-filtered FASTA sequences from the previous step. Note that Options configuration is set to Advanced and Check reverse complement is set to Yes .

MEME generates a number of outputs. The most interesting is HTML Report. It shows that 620 regions contain TTACCCG motif:

MEME Motif found in 620 sequences corresponding to common peak regions.

Summarizing ChIP signal enrichment across all genes

How many genes contain upstream regions enriched in ChIP tags. This is often represented as a heatmap:

Heatmap example from DeepTools documentation.

To generate the heatmap we must first produce normalized datasets for the two replicated we have. This is done using NGS: DeepTools &rarr bamCompare tool:

Running bamCompare on replicate 1. Here we set Method to use for scaling the largest sample to the smallest to SES (although you may want to try other methods as well. SES was briefly discussed above.

Because we want to plot enrichment around genes we need to download gene annotation. We will use Get Data &rarr UCSC Main for this:

Getting data from UCSC. Here make sure you select assembly called sacCer3 and you are choosing SGD Genes . Clicking get output will show the next screen shown below.
Here just click Send query to Galaxy.

Next, to prepare data necessary for drawing the heatmap we will use NGS: DeepTools &rarr computeMatrix utility:

Computing matrix - the data from which heatmap will be built. Here Ambas normalized datasets are select within Score file box, yeast genes we have just downloaded from UCSC are chosen as Regions to plot. 'reference-point is set as computeMatrix main option and, finally, upstream and downstream distances are set to 2,000 bp. Obviously you are welcome to play with these parameters.

Finally, we can visualize the heatmap by using NGS: DeepTools &rarr plotHeatmap tool:

Drawing heatmap with plotHeatmap tool.

The resulting image shows that a significant fraction of 6,692 genes present in the annotation data we have used contain Reb1 binding sites within their upstream regions:

Heatmap showing distribution of Reb1 binding sites across upstream regions of 6,692 yeast genes.


Fundo

Position weight matrix (PWM), introduced by Stormo et al. [1], is widely used for representing transcription factor binding site (TFBS) in biological sequences. PWMs are often computed from a list of aligned sequences which are potentially functionally related, and have replaced consensus sequences to be the most commonly used TFBS representation in motif discovery software and biological publications. Presented by Schneider et al. [2], sequence logo is a successful graphical representation of PWM/sequence pattern. From a sequence logo, people can easily perceive the information content and the relative frequency of nucleotide for each position of the consensus sequence, therefore can distinguish subtle sequence patterns and significant residues [2, 3]. While sequence logo is good for human perception and understanding, PWM still has advantages over sequence logo in computational field, such as its preciseness and compactness in computer storage especially PWM is used as the standard format for motif finding and scanning [4].

There are a few tools available for generating sequence logos from PWM or aligned sequences [5–7] however, currently we have no tool to convert sequence logo back to PWM. In biology publications, the corresponding PWM of a sequence logo may not be found easily. Such tool is especially needed to scan a TFBS represented in sequence logo format in an ‘ancient’ publication where the original PWM is very hard to be acquired. Even if the PWMs are provided by a publication, to have a tool to convert logo to PWM could save time and speedup the motif finding workflow.

In this work, we propose logo2PWM to reconstruct PWMs from sequence logo images, and overcome the major difficulty of reconstructing PWMs from large variety of sequence logo images. Evaluation results on over one thousand logos from three sources with different logo format show that the correlation between the reconstructed PWMs and the original PWMs are constantly high, further support that logo2PWM can be readily used to benefit the study of transcriptional regulatory network.


Resumo

Chromosomes of eukaryotes adopt highly dynamic and complex hierarchical structures in the nucleus. The three-dimensional (3D) organization of chromosomes profoundly affects DNA replication, transcription and the repair of DNA damage. Thus, a thorough understanding of nuclear architecture is fundamental to the study of nuclear processes in eukaryotic cells. Recent years have seen rapid proliferation of technologies to investigate genome organization and function. Here, we review experimental and computational methodologies for 3D genome analysis, with special focus on recent advances in high-throughput chromatin conformation capture (3C) techniques and data analysis.


Supporting Information

Figure S1.

Quantile–Quantile plot of three asymptotic distributions (x-axis) for the MEME LRT test versus the LRT derived by parametric bootstrap (y-axis), limited to the meaningful test p-value range of . The distribution is too liberal (lying below the line), the is too conservative, while the mixture is approximately correct.

Figure S2.

Simulation parameters for generating datasets for evaluating the empirical Bayes inference of branch-site combinations under selection. Branches are colored according the the value of used to evolve sequences along them branches simulated under positive selection are also labeled with values.

Figure S3.

Summary of empirical Bayes inference of branches under selection on data simulated using the selective parameters from Figure S2. Each branch is colored according to the proportion of times it was found to have an empirical Bayes factor of 20 or greater at sites with MEME p-value of 0.05 or less. Branches with detection rates are also labeled with the values of the rates.

Table S1.

False positive rates for data sets simulated under strict neutrality using empirical trees from TreeBase. The entries are sorted in order of increasing mean false positive rate derived from simulated data (10 replicates per tree). Mean divergence between any pair of leaves in a given tree is reported in expected nucleotide substitutions per site. False positive range reports the minimum and maximum values for false positive rates for an individual replicate. 95% confidence intervals are derived from the binomial distribution with the probability of success , and the number of trials equal to the number of codons. This range provides the expected spread of per replicate false positive rates for a test that has the probability of making a false positive error of exactly over tests.

Table S2.

False positive rates for three empirical trees from TreeBase when the parameters of the null model are varied: 20% of the branches are simulated with the foreground , and the remainder under the background . 10 replicates with codons each per tree- pair were simulated. The synonymous rate was set to for the first codons, for the next codons, and for the last codons.

Table S3.

Comparative performance of FEL and MEME on simulated data where does not vary among tree branches. The rate of false positives (FP) and power are reported for a fixed nominal test p-value of . Power is also shown for the p-value that achieves FP of 0.05, estimated empirically from the distribution of p-values on the subset of sites evolving neutrally.

Tabela S4.

Positively selected sites in abalone sperm lysin. stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Tabela S5.

Positively selected sites in camelid VHH. stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Tabela S6.

Positively selected sites in Diatom silicon transporters found by MEME at . The FEL result column summarizes the classification obtained by FEL. stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Table S7.

Positively selected sites in Drosophila adh found by MEME at . The FEL result column summarizes the classification obtained by FEL. stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Table S8.

Positively selected sites in Echinoderm histone H3. stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Table S9.

Positively selected sites in Flavivirus NS5. stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Table S10.

Positively selected sites in Hepatitis D virus Ag. stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Table S11.

Positively selected sites in HIV-1 reverse transcriptase (rt) stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Table S12.

Positively selected sites in HIV-1 viral infectivity factor (vif) stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Table S13.

Positively selected sites in Influenza A virus hemagglutinin (H3N2 serotype). Superscript letters after the site indicate the epitope in which substitutions can affect phenotype. stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Table S14.

Positively selected sites in Japanese encephalitis virus env. stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Table S15.

Positively selected sites in mammalian -globin. The FEL result column summarizes the classification obtained by FEL. stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Table S16.

Positively selected sites in primate cytochrome c oxidase subunit 1 (COX1) stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Table S17.

Positively selected sites in Salmonella recA. stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Tabela S18.

Positively selected sites in vertebrate rhodopsin. stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Table S19.

Positively selected sites in West Nile virus NS3. stands for a positively selected site and stands for a negatively selected site (FEL ). and reflect borderline significant sites (FEL p between and ). and denote significant sites (FEL ).

Table S20.

Test p-values for positively selected sites found by MEME in a set of vertebrate rhodopsin sequences analyzed with REL methods in Yokoyama2008fk. Sites with are shown in bold. The partial ordering of subsets is as follows: Squirrelfish Fish All, Coelacanth and tetrapods All. Sites found to be under positive selection with posterior probability of (M8 model) in Yokoyama2008fk in at least one of the subsets are marked with .

Table S21.

Test p-values for positively selected sites found by MEME in a set of influenza A virus hemagglutinin sequences (Set 3) and its various subsets, analyzed with REL methods in Chen2011fk. Sites with are shown in bold. The partial ordering of subsets is as follows: Set 4 Set 1 Set 3, Set 5 Set 2 Set 3, Set 6 Set 3, Set 7 Set 3. Sites found to be under positive selection with posterior probability of (M3 model) in Chen2011fk in at least one of the subsets are marked with .


Assista o vídeo: Symulacja układu częstotliwość drgań własnych (Janeiro 2022).