Em formação

Alinhamento de sequência múltipla online com restrições


Esta é provavelmente uma pergunta ingênua.

Eu acessei a ferramenta de alinhamento de sequência múltipla on-line Clustal Omega em http://www.ebi.ac.uk/Tools/msa/clustalo/ pela primeira vez, mas acho que preciso fornecer mais informações para que ele faça o que Eu quero, especificando mais restrições.

Editado para esclarecer as restrições:

A seqüência original P seqüência tem quatro símbolos, digamos A, B, C, D.

O algoritmo tem acesso a 4 sequências derivadas.

P1: todas as ocorrências de A, B excluídas, nenhuma outra alteração

P2: todas as ocorrências de A, D excluídas, nenhuma outra alteração

P3: todas as ocorrências de C, D excluídas, nenhuma outra alteração

P4: todas as ocorrências de B, C excluídas, nenhuma outra alteração

Objetivo: dado P1, P2, P3, P4, recuperar P

Exemplo

P: ABACCADDACBBC

P1 CCDDCC

P2 BCCCBBC

P3 ABAAABB

P4 AAADDA

Observe que removi as barras inferiores com as quais tentei indicar símbolos excluídos, mas como os processos de exclusão para o Pi são determinísticos, eles podem ser fornecidos ao Clustal ou a qualquer ferramenta apropriada.

Fim da edição

Um exemplo de brinquedo que ilustra minha entrada, a saída e o problema.

A sequência real da qual essas sequências vieram após as deleções, seguidas pelas sequências resultantes é a seguinte:

p ABACBAC

p1 A_AC_A_

p2 _BA__AC

p3 __ACBA_

então eu insiro

> p1 AACA> p2 BAAC> p3 ACBA

e obteve a saída

p1 _AACA_ p2 BAAC__ p3 __ACBA **

O que é totalmente razoável, mas tenho restrições.

Eu quero me alinhar com as restrições que

  • para certos símbolos, as correspondências entre certos pares de sequência devem ser maximizadas e
  • para certos símbolos, incompatibilidades entre certos pares de sequência são permitidos

Na verdade, dado p1, p2, p3, p4, que surgiram de p após exclusões, existem as restrições de pares

  • A deve ser uma correspondência entre p3 e p4 (nunca aparece em p1 ou p2)
  • B deve ser uma correspondência entre p2 e p3 (nunca aparece em p1 ou p4)
  • C deve ser uma correspondência entre p1 e p2 (nunca aparece em p3 ou p4)
  • D deve ser uma correspondência entre p1 e p4 (nunca aparece em p2 ou p3)

Isso significa que p1 tem apenas C, D; p2 tem apenas B, C; p3 tem apenas A, B; e p4 tem apenas caracteres A, D após a exclusão.

Quero obter o alinhamento mais provável ou alguns alinhamentos mais prováveis ​​de p1, p2, p3, p4 sob essas restrições.

Procurei ver se conseguia descobrir como inserir as restrições, mas não tive sorte.

Devo ter usado outra ferramenta? Em geral, terei sequências muito mais longas, normalmente 4 delas, com restrições concordar / discordar de pares, conforme declarado acima.


Responder

Você não pode. O Clustal não oferece as opções de configuração do tipo de restrições que você deseja. O Alinhamento de Seqüência Múltipla (MSA) é difícil de programar e os autores do Clustal vêm refinando seu algoritmo há anos. Se fosse perfeito e completamente robusto, eles poderiam adicionar mais ajustes do usuário, mas no momento você está preso com os fornecidos.

Matrizes de comparação e alinhamentos forçados

Pode valer a pena mencionar como se pode forçar correspondências particulares em alinhamentos de pares mais simples. Isso envolve a manipulação da matriz de comparação usada para pontuar a comparação. As matrizes de comparação de DNA podem ser muito simples, pontuando, digamos, 1 para uma correspondência AA, TT, GG, CC perfeita e 0 para qualquer incompatibilidade. As matrizes de comparação de proteínas são mais complexas, com os valores para correspondências perfeitas dependendo da raridade e da função única (por exemplo, na matriz de substituição PAM250 pontuações WW 17, enquanto GG pontua apenas 5) e os valores para incompatibilidades também variam acentuadamente (por exemplo, pontuação ED 4, em comparação com 5 para EE; mas pontuações EW -7). Existem várias matrizes disponíveis, portanto, as implementações dos algoritmos de comparação de pares Smith Waterman e Needleman e Wunsch geralmente permitem que você especifique a sua própria.

Suponha que você tenha informações biológicas (não intrínsecas ao algoritmo) que fazem você desejar forçar um alinhamento. Por exemplo, sequências AAATAA perto da cauda poliA de dois mRNA 3'UTRs devem se alinhar, mas às vezes não porque outros trechos de As dão melhores pontuações. O que você pode fazer é substituir AAATAA por AAAZAA em cada caso e, em seguida, modificar a matriz de pontuação para que ZZ pontue muito (por exemplo, 20) em comparação com AA. Isso forçará o alinhamento, após o qual você pode alterar os Zs de volta para Ts.

Os alinhamentos de sequência múltipla tendem a usar matrizes de pontuação dinâmica específicas da posição. Conforme as sequências gerais se alinham, o sistema de pontuação original é ajustado para refletir a frequência encontrada em uma posição particular. (Por exemplo, se uma posição for inclinada para E em 90% dos casos, EE terá mais pontuação do que em uma posição em que E é encontrado apenas em 20% dos casos).

Não estou dizendo que não seria possível alterar a matriz Clustal inicial com Zs em uma posição específica, mas não acho que essa possibilidade seja fornecida. (De qualquer forma, sua situação é mais complexa.) Olhando para o papel do Clustal Omega, vejo que eles permitem, na verdade encorajam, você a construir alinhamentos a partir de perfis anteriores. Se você conseguiu forçar os alinhamentos de algumas sequências e inserir o perfil derivado disso, poderá obter o que deseja. Mas imagino que isso requer o programa de linha de comando de Dublin, em vez da versão online da EBI.


Editor de alinhamento de sequência BioEdit

BioEdit é um editor de alinhamento de sequência biológica fácil de usar. Este software gratuito tem como objetivo fornecer um único programa que pode lidar com as funções mais simples de edição e manipulação de sequência e alinhamento que os pesquisadores provavelmente fazem diariamente, bem como algumas análises básicas de sequências.

Com BioEdit, você terá acesso a uma variedade de ferramentas úteis:

  • Alinhamento manual.
  • Alinhamento e edição em cores.
  • Interface de desenho de plasmídeo para criação automatizada de gráfico vetorial de plasmídeo. Essas ferramentas permitirão que você crie caixas e setas e destaque locais de restrição em seu gráfico vetorial de plasmídeo.
  • Agrupe as sequências em grupos ou famílias.
  • Classifique as sequências por frequência de resíduos em uma coluna selecionada.
  • Mesclar alinhamentos por meio de uma sequência de referência.
  • Visualizador de árvore filogenética.
  • Leia as sequências verbalmente no editor de sequência única para verificar as entradas de sequência digitadas manualmente.
  • Personalização fácil de atalhos de menu para a janela do editor
  • Análise comparativa de RNA.
  • Análises e gráficos de composição de aminoácidos e nucleotídeos
  • Alinhe as sequências de ácido nucleico que codificam proteínas por meio da tradução de aminoácidos.
  • Alinhamento de sequência múltipla ClustalW

Para baixar esta ferramenta gratuita e o manual .pdf & # 8211, visite aqui


Consulta: Alinhamento de Sequências Múltiplas - (09 / jul / 2008)

Estou tentando alinhar um conjunto de sequências de proteínas para encontrar uma sequência de consenso. Usei dois programas diferentes disponíveis na internet, isto é, STRAP (http://www.charite.de/bioinf/strap/) e M-Coffee (http://tcoffee.vital-it.ch/cgi-bin/Tcoffee/ tcoffee_cgi / index.cgi). Cada um dos dois me dá um alinhamento diferente e ambos me parecem muito bons. Existe alguma maneira de determinar qual dos dois alinhamentos é o mais correto? Se não, há alguma maneira de reconciliar os dois alinhamentos?

Estou tentando alinhar um conjunto de sequências de proteínas para encontrar uma sequência de consenso. Usei dois programas diferentes disponíveis na internet, isto é, STRAP (http://www.charite.de/bioinf/strap/) e M-Coffee (http://tcoffee.vital-it.ch/cgi-bin/Tcoffee/ tcoffee_cgi / index.cgi). Cada um dos dois me dá um alinhamento diferente e ambos me parecem muito bons. Existe alguma maneira de determinar qual dos dois alinhamentos é o mais correto? Se não, há alguma maneira de reconciliar os dois alinhamentos?

Não tenho uma resposta real, mas:

1. Verifique os dois programas para obter alguma explicação.

2. Observe os resultados, o que parecer melhor.

3. Faça uma pesquisa no Google para os dois programas, o que trazer mais artigos de periódicos de alto impacto que tenham usado esse programa é provavelmente melhor (a menos que um seja novo e o outro do século anterior.

4. Encontre um terceiro programa e use o resultado mais compartilhado por dois desses três programas.

E deixe-nos saber se você encontrar uma resposta, conversando com os bioinformáticos do seu instituto.

Estou tentando alinhar um conjunto de sequências de proteínas para encontrar uma sequência de consenso. Usei dois programas diferentes disponíveis na internet, isto é, STRAP (http://www.charite.de/bioinf/strap/) e M-Coffee (http://tcoffee.vital-it.ch/cgi-bin/Tcoffee/ tcoffee_cgi / index.cgi). Cada um dos dois me dá um alinhamento diferente e ambos me parecem muito bons. Existe alguma maneira de determinar qual dos dois alinhamentos é o mais correto? Se não, há alguma maneira de reconciliar os dois alinhamentos?

Verifique os parâmetros (extensão da lacuna e penalidade de abertura da lacuna, Matriz usada) de ambos os programas de alinhamento. Porque, cada programa tem seus próprios parâmetros padrão. E verifique criticamente o local ativo ou local de ligação e veja se eles estão conservados entre a sua sequência de proteína de interesse e a sequência alinhada dada.

Tente fornecer os mesmos parâmetros em ambos os programas e verifique o alinhamento

Cada um dos programas que você usou sem dúvida mostrou seu alinhamento & quot melhor & quot. O julgamento deles, entretanto, é matemático, o seu não é.

Conforme mencionado por Biorad, qualquer programa de alinhamento dá certos pesos (penalidades numéricas ou recompensas) para certas decisões que devem ser feitas (por exemplo, & quotIsso faz com que esses dois resíduos de aminoácidos consecutivos adicionais se alinhem entre si, vale a pena introduzir uma lacuna de três espaços em um dos sequências? & quot) e procura selecionar o alinhamento com alguma pontuação total ideal.

Esta é uma das razões pelas quais apenas um pequeno subconjunto de programas de alinhamento é citado na literatura - é mais fácil escolher um algoritmo de alinhamento "aceito" do que explicar por que você escolheu outro programa de alinhamento ou por que criou o seu próprio. O pensamento é & quotSe o alinhamento padrão do Clustal & # 39 for bom o suficiente para este artigo, e este artigo, e este artigo, etc., é bom o suficiente para o meu artigo e bom o suficiente para ficar sem comentários & quot.

Em última análise, você deve julgar qual alinhamento é o melhor ou usá-los apenas como orientação e criar seu próprio alinhamento. Você deve, no entanto, tentar um terceiro programa, como sugere o cellcounter. Que tal ClustalW2?

Estou tentando alinhar um conjunto de sequências de proteínas para encontrar uma sequência de consenso. Usei dois programas diferentes disponíveis na internet, isto é, STRAP (http://www.charite.de/bioinf/strap/) e M-Coffee (http://tcoffee.vital-it.ch/cgi-bin/Tcoffee/ tcoffee_cgi / index.cgi). Cada um dos dois me dá um alinhamento diferente e ambos me parecem muito bons. Existe alguma maneira de determinar qual dos dois alinhamentos é o mais correto? Se não, há alguma maneira de reconciliar os dois alinhamentos?

Não tenho uma resposta real, mas:

1. Verifique os dois programas para obter alguma explicação.

2. Observe os resultados, o que parecer melhor.

3. Faça uma pesquisa no Google para os dois programas, o que trazer mais artigos de periódicos de alto impacto que tenham usado esse programa é provavelmente melhor (a menos que um seja novo e o outro do século anterior.

4. Encontre um terceiro programa e use o resultado mais compartilhado por dois desses três programas.

E diga-nos se você encontrar uma resposta, conversando com os bioinformistas do seu instituto.

Obrigado por suas sugestões. Usei um terceiro programa Clustal W e ele me deu um alinhamento diferente dos dois anteriores. Meu PI tem usado T-coffee e M coffee há algum tempo para a MSA, mas ele queria que eu experimentasse o STRAP desta vez. Ambos os programas são bastante novos, mas eu pesquisei os artigos de periódicos e descobri que o STRAP tem mais deles do que o M-café, onde estou inclinado a pensar que o alinhamento do M café deve ser melhor, pois usa uma infinidade de Programas MSA para calcular o alinhamento (Clustalw, MAFT, dialign etc) onde como STRAP usa apenas ClustalW.

Não tenho certeza de como & # 39eyeball & # 39 os alinhamentos. Você pode sugerir uma maneira de fazer isso.

Estou tentando alinhar um conjunto de sequências de proteínas para encontrar uma sequência de consenso. Usei dois programas diferentes disponíveis na internet, isto é, STRAP (http://www.charite.de/bioinf/strap/) e M-Coffee (http://tcoffee.vital-it.ch/cgi-bin/Tcoffee/ tcoffee_cgi / index.cgi). Cada um dos dois me dá um alinhamento diferente e ambos me parecem muito bons. Existe alguma maneira de determinar qual dos dois alinhamentos é o mais correto? Se não, há alguma maneira de reconciliar os dois alinhamentos?

Verifique os parâmetros (extensão da lacuna e penalidade de abertura da lacuna, Matriz usada) de ambos os programas de alinhamento. Porque, cada programa tem seus próprios parâmetros padrão. E verifique criticamente o local ativo ou local de ligação e veja se eles estão conservados entre a sua sequência de proteína de interesse e a sequência alinhada dada.

Tente fornecer os mesmos parâmetros em ambos os programas e verifique o alinhamento

Obrigado pela sua resposta. Não tenho certeza se é possível verificar os parâmetros, pois o programa M coffee usa a saída de vários outros programas MSA para gerar um alinhamento.

Em relação aos sites ativos. infelizmente, os sítios ativos ainda são desconhecidos nas proteínas que estou alinhando.

Por favor, olhe também a resposta que postei

Cada um dos programas que você usou sem dúvida mostrou seu alinhamento & quot melhor & quot. O julgamento deles, entretanto, é matemático, o seu não é.

Conforme mencionado por Biorad, qualquer programa de alinhamento dá certos pesos (penalidades numéricas ou recompensas) para certas decisões que devem ser feitas (por exemplo, & quotIsso faz com que esses dois resíduos de aminoácidos consecutivos adicionais se alinhem entre si, vale a pena introduzir uma lacuna de três espaços em um dos sequências? & quot) e procura selecionar o alinhamento com alguma pontuação total ideal.

Esta é uma das razões pelas quais apenas um pequeno subconjunto de programas de alinhamento é citado na literatura - é mais fácil escolher um algoritmo de alinhamento "aceito" do que explicar por que você escolheu outro programa de alinhamento ou por que criou o seu próprio. O pensamento é & quotSe o alinhamento padrão do Clustal & # 39 for bom o suficiente para este artigo, e este artigo, e este artigo, etc., é bom o suficiente para o meu artigo e bom o suficiente para ficar sem comentários & quot.

Em última análise, você deve julgar qual alinhamento é o melhor ou usá-los apenas como orientação e criar seu próprio alinhamento. Você deve, no entanto, tentar um terceiro programa, como sugere o cellcounter. Que tal ClustalW2?

Obrigado. O fato é que se eu estivesse usando um programa bem experimentado e testado como o Clustal W, não me importaria com os resultados que os outros programas me dão. Mas, no meu caso, fui especificamente solicitado pelo meu PI para usar STRAP e M café e, em seguida, encontrar o alinhamento mais apropriado.

Você pode lançar alguma luz sobre como posso & quotcriar & quot meu próprio alinhamento, olhando para aqueles que eu tenho. Eu não tenho nenhum conhecimento sobre os sites ativos etc da minha sequência.

Eu tenho uma abordagem possível para determinar qual do alinhamento é melhor ... por favor diga se você acha que poderia estar correto. Eu descobri a sequência de consenso de ambos os alinhamentos usando JALview e o alinhamento de cinta me dá uma seq de consenso de 660 identidade, enquanto o alinhamento de café M me dá uma seq de consenso de 661 identidade. Isso mostra que o café M dá um MSA melhor?

isso significa apenas que os parâmetros usados ​​pelos programas têm pequenas diferenças (aparentemente não significativas, 660 e 661 são praticamente os mesmos quando se trata de alinhamentos de sequência de proteínas), conforme sugerido anteriormente por biorad e HB.

isso significa apenas que os parâmetros usados ​​pelos programas têm pequenas diferenças (aparentemente não significativas, 660 e 661 são praticamente os mesmos quando se trata de alinhamentos de sequência de proteínas), conforme sugerido anteriormente por biorad e HB.

Obrigado. Mesmo eu não estava muito convencido por essa teoria, mas não sabia o motivo. Então, agora, caso eu não consiga decidir qual dos alinhamentos é o melhor, terei que reconciliá-los. Que tal se eu explodir os alinhamentos de ambos os programas entre si e, em seguida, tomar o consenso resultante como minha sequência de consenso final? Seria a melhor forma de reconciliar os 2 alinhamentos?


Alinhamento de sequência múltipla online com restrições - Biologia

FSA é um algoritmo de alinhamento de sequência múltipla probabilística que usa uma abordagem "baseada na distância" para alinhar sequências de proteínas homólogas, RNA ou DNA. Assim como os métodos de reconstrução filogenética com base na distância, como Neighbour-Joining, constroem uma filogenia usando apenas estimativas de divergência de pares, FSA constrói um alinhamento múltiplo usando apenas estimativas de homologia de pares. Isso é possível pela técnica de recozimento de sequência para a construção de um alinhamento múltiplo a partir de comparações de pares, desenvolvida por Ariel Schwartz em "Métodos de decodificação posterior para otimização e controle de alinhamentos múltiplos".

  • A FSA usa técnicas de aprendizado de máquina para estimar os parâmetros de intervalo e substituição em tempo real para cada conjunto de sequências de entrada. Este método de alinhamento de "aprendizagem específica de consulta" torna o FSA muito robusto: ele pode produzir alinhamentos superiores de conjuntos de sequências homólogas que estão sujeitas a restrições evolutivas muito diferentes.
  • O FSA é capaz de alinhar centenas ou mesmo milhares de sequências usando um algoritmo de inferência aleatória para reduzir o custo computacional de alinhamento múltiplo. Essa inferência aleatória pode ser dez vezes mais rápida do que uma abordagem direta com pouca perda de precisão.
  • A FSA pode alinhar rapidamente sequências muito longas usando a técnica de "recozimento de âncora" para resolver âncoras e projetá-las com ancoragem transitiva. Em seguida, costura o alinhamento entre as âncoras usando os métodos descritos acima.
  • A GUI incluída, MAD (Multiple Alignment Display), pode exibir os alinhamentos intermediários produzidos pela FSA, onde cada caractere é colorido de acordo com a probabilidade de estar corretamente alinhado (veja a imagem e o filme no topo da página).

Download e instalação

FSA é um projeto de código aberto hospedado pelo SourceForge. Você pode baixar a versão mais recente da página do projeto SourceForge.

O FSA é construído e instalado executando os seguintes comandos:

tar xvzf fsa-X.X.X.tar.gz
cd fsa-X.X.X
./configure
faço
faça a instalação

(Substitua fsa-X.X.X.tar.gz pelo nome do arquivo que você baixou.) Os executáveis ​​FSA podem ser encontrados no diretório binário padrão do sistema (por exemplo, / usr / local / bin). Para instalar em outros locais, consulte o FAQ. Alternativamente, você pode apenas executar o FSA a partir do subdiretório src / main no qual ele foi criado (o que não requer a execução da etapa make install)

Se você deseja alinhar sequências longas, deve baixar e instalar o MUMmer, que o FSA chama para obter âncoras candidatas entre as sequências. Ao executar ./configure, tenha o executável MUMmer em seu caminho ou especifique o executável com a opção --with-mummer para configurar. Consulte o README e o FAQ incluídos para obter mais informações.

Entre em contato conosco se você tiver qualquer problema de construção.

Você pode enviar trabalhos de alinhamento ao servidor da web FSA. Esteja ciente de que o servidor da web pode rejeitar trabalhos de alinhamento que contenham muitas (> 100) sequências devido a limitações computacionais. Se você deseja alinhar muitas sequências, faça o download e instale o FSA para executar o alinhamento em seu computador pessoal.

  • Análise detalhada de uma única família de proteínas ou RNAs.
  • Alinhamento em grande escala de milhares de sequências (use a opção --fast).
  • Alinhamento do genoma de megabases de sequências ortólogas.

Cite:
Bradley RK, Roberts A, Smoot M, Juvekar S, Do J, Dewey C, Holmes I, Pachter L (2009) Fast Statistical Alignment. PLoS Computational Biology. 5: e1000392.

O manuscrito da FSA também pode ser encontrado no diretório doc / da distribuição do código-fonte da FSA.

Entre em contato conosco em [email protected] com quaisquer perguntas ou comentários.

[1] I. Holmes e R. Durbin. Precisão de alinhamento de programação dinâmica. Journal of Computational Biology. 1998, 5 (3): 493-504.

[4] A.S. Schwartz e L. Pachter. Alinhamento múltiplo por recozimento de sequência. Bioinformática. 2007, 23 (2): e24-e29.

Os dados da sequência SIV na imagem e no filme são de:

A FSA foi criada por Robert Bradley. Foi desenvolvido por Robert Bradley, Colin Dewey, Jaeyoung Do, Sudeep Juvekar, Lior Pachter, Adam Roberts e Michael Smoot, juntamente com a assistência de muitas outras pessoas. Todos fizeram contribuições intelectuais e contribuíram com código.


BARREL-o-MACACOS

Incluídos neste pacote estão os seguintes aplicativos:

Alvert- conversão de formato de alinhamento (e funcionalidade relacionada)

blastmonkey- repetitivo online (NCBI) e BLAST local e análise de saída

alignmonkey- alinhamento e limpeza de sequência múltipla automatizada

Quasar- recodificar um alinhamento de sequência com um alfabeto reduzido

tresolver- produzir uma lista semi-exaustiva de árvores com determinadas restrições


DIALIGN-TX [Alinhamento de sequência múltipla]

Por Amarendran R. Subramanian

Introdução:

Mais informações e citação

Descrições mais detalhadas dos métodos podem ser encontradas em:

  • Amarendran R. Subramanian, Michael Kaufmann, Burkhard Morgenstern:
    DIALIGN-TX: abordagens gananciosas e progressivas para alinhamento de sequência múltipla baseado em segmentos
    Algoritmos para Biologia Molecular 2008, 3:6
  • Amarendran R. Subramanian, Jan Weyer-Menkhoff, Michael Kaufmann, Burkhard Morgenstern:
    DIALIGN-T: Um algoritmo aprimorado para alinhamento de sequência múltipla com base em segmento
    BMC Bioinformática 2005, 6:66.

Trabalhos de pesquisa usando DIALIGN-TX / DIALIGN-T devem citar as publicações acima mencionadas.

Baixar e enviar

Os downloads estão disponíveis na página de download.

Se você não deseja instalar uma cópia local do DIALIGN-TX, você pode enviar seus dados para DIALIGN-TX para processamento online usando um

Contato

Links

O programa editor de alinhamento STRAP de Christoph Gille suporta DIALIGN-TX / DIALIGN-T como programa de alinhamento de proteínas subjacente.


Receber!

Este é um dos mais de 2.400 cursos do OCW. Explore os materiais para este curso nas páginas com links à esquerda.

MIT OpenCourseWare é uma publicação gratuita e aberta de material de milhares de cursos do MIT, cobrindo todo o currículo do MIT.

Sem inscrição ou registro. Navegue livremente e use materiais OCW em seu próprio ritmo. Não há inscrição nem datas de início ou término.

O conhecimento é a sua recompensa. Use o OCW para orientar sua própria aprendizagem ao longo da vida ou para ensinar outras pessoas. Não oferecemos crédito ou certificação para usar OCW.

Feito para compartilhar. Baixe os arquivos para mais tarde. Envie para amigos e colegas. Modifique, remixe e reutilize (lembre-se de citar o OCW como a fonte).


Eddy Lab: Software

Modelos de Markov ocultos de perfil para análise de sequência biológica.

Site infernal

Autor principal: Eric Nawrocki

Análise da estrutura do RNA usando modelos de covariância.

Download de tRNAscan-SE

Autor: Todd Lowe

Detecção de tRNA na sequência do genoma em grande escala.

99% dos genes de tRNA eucarióticos nucleares ou procarióticos, com uma taxa de falsos positivos de menos de um por 15 gigabases e com uma velocidade de pesquisa de cerca de 30 kb / segundo. Foi implementado para análise de sequência do genoma humano em grande escala, mas também é aplicável a outros DNAs. Ele aplica nosso software COVE (veja abaixo) com um modelo de covariância de tRNA cuidadosamente construído, enquanto contorna as limitações de velocidade do COVE usando dois programas de localização de tRNA de outros grupos de pesquisa como scanners de primeira passagem rápidos (Fichant and Burks ', e uma implementação de um algoritmo do grupo de A. Pavesi). Ele roda em qualquer sistema UNIX com Perl e um compilador C instalado.

Site SSU-ALIGN

Autor: Eric Nawrocki

Alinhamento estrutural de sequências de rRNA de SSU.

Site do R-scape

Autor: Elena Rivas

Covariação estrutural de RNA acima da expectativa filogenética: Análise do suporte de covariação para estrutura secundária conservada de RNA em um alinhamento de sequência múltipla.

Site RECON

Autor: Zhirong Bao

Identificação automatizada de famílias de sequências repetidas em sequências do genoma.

Download do TORNADO

Autor: Elena Rivas

Uma ferramenta de software para prototipar modelos de predição de estrutura secundária de RNA de sequência única. Tornado implementa uma "super gramática" que inclui o modelo termodinâmico padrão como um caso especial. Ele pode ser usado para construir modelos mais simples ou mais complexos com menos ou mais parâmetros e pode ser usado para comparar abordagens de parametrização termodinâmica, probabilística e discriminativa. Esta é a versão mantida (atualizada) do software que acompanhou o artigo de Elena "Uma gama de modelos probabilísticos complexos para predição de estrutura secundária de RNA que inclui o modelo do vizinho mais próximo e muito mais."

Site do CONUS

Autor: Robin Dowell

Software para a exploração de gramáticas livres de contexto estocástico leve

Este é o código que acompanha o artigo de Robin Dowell "Avaliação de várias gramáticas estocásticas leves e livres de contexto para predição de estrutura secundária de RNA", BMC Bioinformática 5:71, 2004. Implementa vários pequenos SCFGs para predição de estrutura secundária de RNA de sequência única.

Download QRNA

Autor: Elena Rivas

Um protótipo de genefinder de RNA não codificador, com base na análise comparativa da sequência do genoma.

Este é o código de Elena Rivas que acompanha o jornal Detecção de gene de RNA não codificador usando análise de sequência comparativa. O QRNA usa análise comparativa da sequência do genoma para detectar estruturas secundárias de RNA conservadas, incluindo genes ncRNA e estruturas de RNA cis-regulatórias.

Baixar RNABOB

Autor: Sean Eddy

Padrão rápido em busca de estruturas secundárias de RNA.

RNABOB é uma implementação do RNAMOT de D. Gautheret, mas com um algoritmo subjacente diferente usando uma máquina de estado finito não determinística com regras de reescrita de nós. (Cientistas da computação provavelmente ficariam horrorizados. Funciona e é rápido, mas é legal para as ruas em um departamento de ciência da computação? Quem sabe.) Um motivo RNABOB é um padrão consensual a la padrões PRÓSITOS, mas com emparelhamento de base.

Baixar PKNOTS

Autor: Elena Rivas

Código experimental que demonstra um algoritmo de programação dinâmica para previsão de pseudo-nó de RNA.

Este é um código experimental de Elena Rivas, demonstrando um algoritmo de programação dinâmica para previsão de pseudo-nó de RNA globalmente ideal. O algoritmo é discutido no artigo Um algoritmo de programação dinâmica para predição de estrutura de RNA usando pseudo-nós.

ERATE download

Autor: Elena Rivas

Inferência filogenética de máxima verossimilhança, incluindo inserções / deleções.

erar é uma extensão do programa DNAML de Joe Felsenstein que trata inserções e exclusões como eventos evolutivos, em vez de ignorá-los como dados ausentes (que é o que todos os programas de inferência filogenética mais amplamente usados ​​fazem). Este é o software que acompanhou o artigo de Elena "Probabilistic Phylogenetic Inference with Insertions and Deletions".

Site do Archaeopteryx (antigo ATV)

Autor: Christian Zmasek

Uma ferramenta de visualização para grandes árvores filogenéticas.

RSEARCH download

Autor: Robbie Klein

Pesquisa de banco de dados de sequências com consultas de estrutura de RNA.

RSEARCH alinha uma consulta de RNA às sequências alvo, usando algoritmos SCFG para pontuar a estrutura secundária e o alinhamento da sequência primária simultaneamente. É lento, mas um pouco mais capaz de encontrar homologias de estrutura de RNA remotas significativas do que métodos de alinhamento de sequência como o BLAST. (Por lento, queremos dizer, você realmente precisa de um cluster de computação substancial para fazer qualquer trabalho sério com ele - uma única pesquisa típica de um genoma de metazoário pode levar alguns milhares de horas de CPU).

Site da CONSAN

Autor: Robin Dowell

Alinhamento de RNA estrutural em pares

Este é o código que acompanha o artigo de Robin Dowell "Efficient Pairwise RNA Structure Prediction and Alignment using Sequence Alignment Constraints", BMC Bioinformática, 7: 400, 2006. Ele implementa um algoritmo de Sankoff fixo para alinhamento simultâneo de RNA de pares e predição de estrutura de consenso.

FORESTER site

Autor: Christian Zmasek

Inferência de relações de ortologia e paralogia em árvores gênicas.

Download SQUID

Autor: Sean Eddy

Uma biblioteca C que acompanha muitos dos softwares acima. Biblioteca de funções C para análise de sequência.

SQUID é minha própria biblioteca pessoal de funções C e programas utilitários para análise de sequência. Eu realmente não sugiro que você o use em seus programas, pois eu o altero à vontade. No entanto, ele contém alguns pequenos programas utilitários que algumas pessoas acharam úteis em scripts que conduzem grandes tarefas HMMER.

Download NCRNASCAN

Autor: Elena Rivas

Código experimental para um genefinder de RNA estrutural: na verdade não funciona bem, porque parece que os RNAs estruturais não têm muito mais conteúdo de estrutura secundária do que sequência aleatória.
Este é o código de Elena Rivas que acompanha o jornal A estrutura secundária sozinha geralmente não é estatisticamente significativa para a detecção de RNAs não codificantes por Elena Rivas e Sean Eddy. Como o título indica, o genefinder não funciona (embora ainda achemos o algoritmo legal), porque RNAs reais geralmente não têm mais conteúdo de estrutura secundária do que sequência aleatória, ao contrário do que esperávamos. O código será de interesse apenas para pessoas que tentam reproduzir nossos resultados negativos ou que tentam entender o algoritmo de alinhamento SCFG de varredura de genoma que ele implementa.

Download do HMMERVIEWER

Autor: Robin Dowell

Protótipo de Robin Dowell de um aplicativo Perl / Tk para visualizar HMMs de perfis criados por HMMER, incluindo o banco de dados Pfam.

Download SNOSCAN

Autor: Todd Lowe

Identifica snoRNAs de guia de 2'-O-metilação em sequências de genoma de levedura (e possivelmente outras), usando uma combinação de consenso de sequência / estrutura de snoRNA e complementaridade de guia para um local de rRNA alvo putativo. Ver Lowe & Eddy, "A Computational Screen for Methylation Guide snoRNAs In Yeast", Science 283: 1168-1171, 1999.

Baixar COVE

Autor: Sean Eddy

Modelos de covariância de estrutura secundária de RNA (versão antiga).

COVE é uma implementação de métodos gramaticais livres de contexto estocástico para análise de sequência / estrutura de RNA. COVE ainda é experimental e não tão bem suportado quanto eu gostaria. É uma ferramenta extremamente sensível para busca de banco de dados por RNAs homólogos, se você tiver um alinhamento de uma família de RNA. Requer recursos robustos da CPU para funcionar corretamente.

Download SWSSE2

Autor: Michael Farrar

Smith / Waterman vetorizado SIMD listrado

Este é o código-fonte de 2006 de Michael Farrar que acompanha seu artigo "Striped Smith-Waterman acelera pesquisas de banco de dados seis vezes em relação a outras implementações SIMD" (Bioinformatics, 2007). Michael morreu em 2010 enquanto trabalhava como engenheiro de software sênior em meu laboratório. Seu código de 2006, desenvolvido em seu tempo pessoal antes de se juntar ao meu grupo, só foi disponibilizado sob uma licença de código-fonte não aberto. Com a permissão de sua esposa, que herdou seu trabalho protegido por direitos autorais, eu relicenciai seu código e liberei esta cópia como código aberto sob uma licença BSD.


Publicações Principais

    Sebastian Will, Kristin Reiche, Ivo L. Hofacker, Peter F. Stadler e Rolf Backofen.
    Inferir famílias e classes de RNA não codificantes por meio de agrupamento baseado em estrutura em escala de genoma. PLOS Biologia Computacional, 3 não. 4 pp. E65, 2007. Sebastian Will, Tejal Joshi, Ivo L. Hofacker, Peter F. Stadler e Rolf Backofen.
    LocARNA-P: Predição precisa de limites e detecção aprimorada de RNAs estruturais. RNA, 18 não. 5 pp. 900-14, 2012.

Encontre outras publicações relacionadas na lista de publicações do grupo.

O que há de novo no pacote e em torno dele?

Experimente a nova ferramenta de alinhamento de RNA muito eficiente SPARSE

SPARSE melhora o algoritmo locarna original em termos de velocidade. Além disso, ele implementa um modelo de dobramento e alinhamento simultâneo leve e avançado, o que melhora a capacidade de previsão de sua estrutura. Atualmente, a ferramenta oferece uma compensação entre precisão de alinhamento e velocidade. Portanto, a escolha de qualquer um dos algoritmos deve ser baseada nos requisitos específicos da aplicação. O código específico do SPARSE é fornecido por Milad Miladi.

ExpaRNA-P prevê correspondências exatas de sequência e estrutura em RNAs de estrutura desconhecida

ExpaRNA-P enumera exatamente os padrões de estrutura de sequência local em RNAs de estrutura desconhecida, apoiando a flexibilidade estrutural total de acordo com modelos de energia de estrutura secundária de RNA (herdados do pacote de RNA de Viena). ExpaRNA-Pa correspondência exata, a ferramenta ExpLoc-P realiza alinhamento e dobramento simultâneos muito rápidos de RNAs (pense: "como LocARNA, mas mais rápido"). For highly efficient prediction, ExpaRNA-P introduces novel ensemble based sparsification techniques, which are a well used by SPARSE. ExpaRNA-P-specific code and the classes for the strong ensemble-based sparsification of ExpARNA-P and SPARSE are contributed by Christina Otto (nee Schmiedl).

Check out the new realignment mode used by REAPR

REAPR applies LocARNA for structure-based alignment of whole genomes to predict structural non-coding RNAs. With REAPR, we introduced a new realignment mode to LocARNA. In this mode, LocARNA aligns very fast within a small distance to a reference multiple alignment (mlocarna options --max-diff-aln e --max-diff).

Documenation of the LocARNA C++ API is now online


Clustal is currently maintained at the Conway Institute UCD Dublin by Des Higgins, Fabian Sievers, David Dineen, and Andreas Wilm. You can reach us at

Recent work on Clustal was funded by Science Foundation Ireland

2016-07-01 · Version 1.2.2 released. plugged memory leak, parallelised hhalign, more MAC-RAM.

2014-02-28 · Version 1.2.1 released. corrected Clustal format consensus line and label justification (multi-bit).

2013-06-12 · Version 1.2.0 released. turned off Kimura correction, added percentage identity.

2013-05-16 · Version 1.1.1 released. line-wrapping, old ClustalW format, cluster output, variable cluster-size, changes to distance matrix, output order.

2012-04-25 · Version 1.1.0 released. DNA/RNA support added.

2012-03-27 · Version 1.0.4 released.

2011-09-07 · Clustal Omega paper published in Molecular Systems Biology.


Assista o vídeo: T1:E1 Alinhamento de sequências (Dezembro 2021).