Em formação

É usar modelos de Markov ocultos para encontrar homólogos sensíveis em abstratas, sequências curtas?


Ferramentas de alinhamento de HMM como o hhpred se destacam em encontrar homólogos sutis de proteínas dobradas que técnicas de pontuação mais simples (como aquelas usadas em algoritmos BLAST) perderiam.

Estou apenas olhando para uma sequência pequena (20AA) e ela é totalmente helicoidal.

É provável que o hhpred ainda detecte semelhanças sutis na estrutura secundária básica, como faria em uma sequência de proteína dobrada, ou o alinhamento mais simples seria tão apropriado?


TMHMM é um padrão muito bom na previsão de TMHs em primeiro lugar, então é lógico que prever homólogos usando essa abordagem é completamente viável.


Master Blaster: uma abordagem para identificação sensível de proteínas remotamente relacionadas

O sequenciamento do genoma projeta sequências de descoberta de todas as sequências de proteínas codificadas em um genoma. Como primeira etapa, a detecção de homologia é empregada para obter pistas sobre a estrutura e função dessas proteínas. No entanto, a alta divergência evolutiva entre proteínas homólogas desafia nossa capacidade de detectar relacionamentos distantes. No passado, uma abordagem envolvendo múltiplas Matrizes de Pontuação Específicas de Posição (PSSMs) foi considerada mais eficaz do que os tradicionais PSSMs individuais. A pesquisa em cascata é outra abordagem bem-sucedida em que os resultados de uma pesquisa são consultados para detectar mais homólogos. Propomos um protocolo, ‘Master Blaster’, que combina os princípios adotados nessas duas abordagens para aprimorar ainda mais nossa capacidade de detectar homólogos remotos. A avaliação da abordagem foi realizada usando relações conhecidas disponíveis no banco de dados SCOP70, e os resultados foram comparados com PSI-BLAST e HHblits, um método oculto baseado em modelo de Markov. Comparado ao PSI-BLAST, o Master Blaster resultou em uma melhoria de 10% em relação à detecção de conexões entre superfamílias, quase 35% de melhoria nas conexões entre famílias e mais de 80% nas conexões intrafamiliares. A partir dos resultados, observou-se que o HHblits é mais sensível na detecção de homólogos remotos em comparação com o Master Blaster. No entanto, existem verdadeiros acertos de 46 vezes para os quais a Master Blaster relatou homólogos que não são relatados por HHblits, mesmo usando os parâmetros ideais, indicando que, para detectar homólogos remotos, o uso de vários métodos que empregam uma combinação de diferentes abordagens pode ser mais eficaz na detecção homólogos remotos. O código autônomo do Master Blaster está disponível para download no arquivo suplementar.


Resumo

A detecção de vírus rápida, sensível e específica é um componente importante do diagnóstico clínico. O sequenciamento massivamente paralelo permite novas oportunidades de diagnóstico que complementam as técnicas tradicionais de sorologia e PCR. Embora o sequenciamento massivamente paralelo prometa os benefícios de ser mais abrangente e menos tendencioso do que as abordagens tradicionais, ele apresenta novos desafios analíticos, especialmente no que diz respeito à detecção de sequências de patógenos em contextos metagenômicos. Para uma primeira aproximação, a detecção inicial de vírus pode ser alcançada simplesmente por meio do alinhamento de leituras de sequência ou contigs montados em um banco de dados de referência de genomas de patógenos com ferramentas como o BLAST. No entanto, o reconhecimento de sequências virais altamente divergentes é problemático e pode ser ainda mais complicado pelas taxas de mutação inerentemente altas de alguns tipos virais, especialmente vírus de RNA. Nestes casos, o aumento da sensibilidade pode ser alcançado alavancando informações específicas da posição durante o processo de alinhamento. Aqui, construímos modelos de Markov ocultos de perfil compatível com HMMER3 (HMMs de perfil) de todas as proteínas anotadas com vírus em RefSeq de forma automatizada usando um pipeline de bioinformática customizado. Em seguida, testamos a capacidade desses HMMs de perfil viral ("vFams") para classificar com precisão as sequências como virais ou não virais. Os experimentos de validação cruzada com sequências de genes de comprimento total mostraram que os vFams foram capazes de lembrar 91% das sequências de teste virais deixadas de fora, sem classificar erroneamente quaisquer sequências não virais em grupos de proteínas virais. A reanálise completa de conjuntos de dados metagenômicos publicados anteriormente com um conjunto de vFams de melhor desempenho mostrou que eles eram mais sensíveis do que o BLAST para detectar sequências originadas de parentes mais distantes de vírus conhecidos. Para facilitar o uso dos vFams para detecção rápida de homólogos virais remotos em dados metagenômicos, fornecemos dois conjuntos de vFams, compreendendo mais de 4.000 vFams cada, no formato HMMER3. Também fornecemos o software necessário para construir HMMs de perfil personalizado ou atualizar os vFams à medida que mais vírus são descobertos (http://derisilab.ucsf.edu/software/vFam).

Citação: Skewes-Cox P, Sharpton TJ, Pollard KS, DeRisi JL (2014) Profile Hidden Markov Models for the Detection of Viruses within Metagenomic Sequence Data. PLoS ONE 9 (8): e105067. https://doi.org/10.1371/journal.pone.0105067

Editor: Herman Tse, Universidade de Hong Kong, Hong Kong

Recebido: 16 de fevereiro de 2014 Aceitaram: 20 de julho de 2014 Publicados: 20 de agosto de 2014

Direito autoral: © 2014 Skewes-Cox et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença de Atribuição Creative Commons, que permite o uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original e a fonte sejam creditados.

Financiamento: Este trabalho foi apoiado pelo Howard Hughes Medical Institute (JLD), a Gordon and Betty Moore Foundation (Grants # 1660 e # 3300), a National Science Foundation (Grant # DMS-1069303) e os Institutos Gladstone (KSP, TJS), a Scleroderma Research Foundation e o programa PhRMA Foundation Pre-Doctoral Bioinformatics Fellowship (PS-C). Os financiadores não tiveram nenhum papel no desenho do estudo, coleta e análise de dados, decisão de publicar ou preparação do manuscrito.

Interesses competitivos: Os autores declararam que não existem interesses conflitantes.


Resumo

Dependências em sequências de DNA são freqüentemente modeladas usando modelos de Markov. No entanto, as cadeias de Markov não podem ser responsáveis ​​pela heterogeneidade que pode estar presente em diferentes regiões da mesma sequência de DNA. Os modelos de Markov ocultos são mais realistas do que os modelos de Markov, pois permitem a identificação de regiões heterogêneas de uma sequência de DNA. Neste estudo, apresentamos uma aplicação de modelos ocultos de Markov a uma subsequência dos dados de DNA de Xylella fastidiosa. Descobrimos que um modelo de três estados fornece uma boa descrição para os dados considerados.

Modelos de Markov ocultos de DNA Xylella fastidiosa

GENÉTICA DE MICROORGANISMOS

Modelos ocultos de Markov aplicados a uma subsequência do Xylella fastidiosa genoma

Universidade Federal de Minas Gerais, Departamento de Estatística, Belo Horizonte, MG, Brasil

Correspondência

Dependências em sequências de DNA são freqüentemente modeladas usando modelos de Markov. No entanto, as cadeias de Markov não podem ser responsáveis ​​pela heterogeneidade que pode estar presente em diferentes regiões da mesma sequência de DNA. Os modelos de Markov ocultos são mais realistas do que os modelos de Markov, pois permitem a identificação de regiões heterogêneas de uma sequência de DNA. Neste estudo, apresentamos uma aplicação de modelos ocultos de Markov a uma subsequência do Xylella fastidiosa Dados de DNA. Descobrimos que um modelo de três estados fornece uma boa descrição para os dados considerados.

Palavras-chave: DNA, Xylella fastidiosa, modelos ocultos de Markov.

A taxa de geração de dados de sequência nos últimos anos forneceu oportunidades abundantes não apenas para o desenvolvimento de novas abordagens para problemas em biologia computacional, mas também para a exploração de técnicas já conhecidas em dados nunca antes analisados.

O ponto de partida na maioria das análises de dados consiste no uso de metodologia bem estabelecida. À medida que a análise avança, as particularidades dos dados podem exigir o desenvolvimento de ferramentas específicas que sejam mais adequadas para melhor descrever e modelar os dados. A criação de novos métodos requer um conhecimento profundo dos atuais, especialmente quando esses métodos são incrivelmente poderosos e não são tão conhecidos como deveriam devido à sua complexidade matemática e computacional. Consideramos que os Modelos de Markov Escondidos (HMM) exemplificam muito bem essa noção, pois embora esses modelos não sejam novos, acreditamos que os biólogos moleculares não estão cientes das possibilidades que esses modelos oferecem.

Nosso objetivo neste estudo é discutir dependências e heterogeneidade em dados de DNA e como elas podem ser adequadamente explicadas pelo uso de HMM. Aplicamos este tipo de modelo a uma subsequência do Xylella fastidiosa (Xf) genoma como forma de sugerir possíveis análises para todo o genoma.

De acordo com Lambais et al. (2000), Xylella fastidiosa é uma bactéria associada a doenças que causam enormes perdas em muitas plantas economicamente importantes, incluindo citros. Xylella fastidiosa é o agente causal da Clorose Variegada dos Citros (CVC), doença que atinge todas as variedades comerciais de laranja doce e que representa uma grande preocupação para a citricultura brasileira. O fitopatógeno ataca frutas cítricas, resultando em frutas sem suco e sem valor comercial. Xylella fastidiosa é o primeiro patógeno vegetal a ter seu genoma (a informação genética total armazenada nos cromossomos de um organismo) completamente sequenciado. Além disso, é provavelmente o menos estudado anteriormente de qualquer organismo para o qual a sequência completa do genoma está disponível.

Conjuntos de dados gerados sequenciando todo o Xylella fastidiosa o genoma apresenta novos desafios, pois agora os biólogos precisam de ferramentas quantitativas e métodos estatísticos para ajudá-los a analisar sequências. Algumas publicações recentes sobre Xylella fastidiosa sinalizam a necessidade não só da aplicação dos métodos estatísticos atuais disponíveis para analisar seus dados sequenciados, mas também de pesquisas estatísticas para atacar suas particularidades. Chen et al. (2000) analisaram dados sequenciados de 16 cepas de Xylella fastidiosa originários de nove hosts diferentes. Eles estudaram aspectos como a heterogeneidade da sequência na classificação de X. fastidiosa no nível de subespécies. Os estudos de Qin et al. (2000) e Mehta et al. (2001) estão preocupados com a avaliação de Xylella fastidiosa diversidade genética isolada de citros e café doentes no Brasil.

Devido ao enorme tamanho dos conjuntos de dados, as análises estatísticas para todo o genoma de muitos organismos exigem o uso de computadores de última geração de alta potência. Isso pode representar um grande problema, uma vez que não temos o suficiente disponível para essa finalidade.

Neste estudo, ajustamos modelos de Markov ocultos a um conjunto de dados da bactéria Xylella fastidiosa genoma. A seleção do modelo é realizada usando o Critério de Informação Bayesiano (BIC) e o Critério de Informação de Akaike (AIC). Na seção 2, falamos sobre dependências em dados de DNA. Na seção 3, discutimos a heterogeneidade nas sequências de DNA. Modelos ocultos de Markov são apresentados na seção 4. Na seção 5, apresentamos brevemente o AIC e o BIC para a seleção do modelo. Phage lambda e Xylella fastidiosa conjuntos de dados são analisados ​​na seção 6.

Um primeiro resumo óbvio de uma sequência de DNA é apenas a distribuição dos quatro tipos de base. Embora fosse conveniente para a modelagem matemática se as quatro bases fossem igualmente frequentes, quase todos os estudos empíricos mostram uma distribuição desigual. Isso significa que um modelo de independência simples para sequências de DNA tem sua utilidade, mas vai apenas um pouco.

Precisamos levar em consideração em um modelo o fato de que bases vizinhas em sequências de DNA não são independentes. De acordo com Tavaré e Giddings (1989), associações entre bases adjacentes levarão a associações entre bases mais distantes e uma estimativa de quão longe as relações se estendem pode ser encontrada a partir da teoria da cadeia de Markov.

De acordo com Weir (1996), as análises da cadeia de Markov são úteis no nível do genoma, e não no nível de um gene individual, uma vez que a última pode envolver sequências muito curtas que não são suficientes para demonstrar a presença de cadeias de ordem superior. O mesmo autor observa que é improvável que a mesma cadeia de Markov possa descrever todo o genoma, e se uma cadeia de Markov foi ajustada a um genoma, nenhum mecanismo biológico está implícito, mas perguntas úteis podem ser respondidas. Por exemplo, a frequência de subsequências particulares (palavras) pode ser prevista.

De acordo com o site http://www.accessexcellence.org/AE/AEC/, em engenharia genética é comum o uso de muitas enzimas que são capazes de modificar ou unir moléculas de DNA existentes, ou para auxiliar na síntese de novo DNA moléculas. Por exemplo, a enzima DNA polimerase torna possível a ligação de duas ou mais moléculas de DNA uma à outra. A enzima DNA ligase quebra as moléculas de DNA em fragmentos, enquanto a chamada enzima endonuclease de restrição (REE) funciona ao "escanear" o comprimento de uma molécula de DNA. Assim que o REE encontra sua sequência de reconhecimento específica (palavra), ele se liga à molécula de DNA e a corta de maneira previsível e reproduzível. É importante usar cadeias de Markov para ajudar um biólogo a estimar o número esperado de fragmentos produzidos quando uma enzima de restrição específica é aplicada ao genoma.

As cadeias de Markov podem descrever as sequências de DNA em termos de sua composição de nucleotídeos, ou seja, como uma sequência de letras de um alfabeto de quatro letras, <A, C, G, T>. Vamos denotar cada um dos quatro tipos de base como estados. Apresentaremos algumas terminologias e notações úteis para cadeias de Markov.

De um modo geral, para um determinado assunto, deixe Xt denotam a resposta em uma variável categórica no tempo t, t = 0, 1,. T. A sequência (X0, X1, X2,. ) é um exemplo de processo estocástico, uma família indexada de variáveis ​​aleatórias. Neste artigo Xt indica o nucleotídeo na posição t na sequência.

Sem invocar qualquer mecanismo biológico, uma cadeia de ordem de Markov r implica que a base presente em determinada posição em uma sequência depende apenas das bases presentes na anterior r posições. Em bases mais formais, um processo estocástico é um rth-encomendar cadeia de Markov se, para todos t, a distribuição condicional de Xt + 1, dado X0,. Xt, é idêntico à distribuição condicional de Xt + 1, dado Xt,. Xt - r + 1. Dados os estados no anterior r vezes, o comportamento futuro da cadeia é independente do comportamento passado antes daqueles r vezes. Para uma cadeia de Markov de primeira ordem com eu estados possíveis, as probabilidades condicionais

com i, j = 1,. Eu sou chamado transição probabilidades. A extensão para pedidos superiores é imediata. Se heu j(t) não depende de t, a cadeia de Markov é chamada de homogênea.

A inferência estatística para a cadeia de Markov usa métodos padrão de análise de dados categóricos, como modelos log-lineares. Algumas referências úteis são Anderson e Goodman (1957), Birch (1963), Bishop et al. (1975), McCullagh e Nelder (1989), Agresti (1990) e Avery et al. (1999).

Heterogeneidade em sequências de DNA

Cadeias de Markov e modelos log-lineares são ferramentas importantes para nos ajudar a descrever propriedades locais de sequências de DNA. No entanto, as cadeias de Markov não podem ser responsáveis ​​pela heterogeneidade que pode estar presente em diferentes regiões da mesma sequência de DNA. A suposição básica desse tipo de modelo é que a cadeia é homogênea, o que significa que a mesma matriz de probabilidade de transição é considerada verdadeira para toda a sequência que está sendo analisada. No entanto, os biólogos sabem que regiões codificantes e não codificantes do DNA apresentam frequências de nucleotídeos diferentes. Assim, um modelo de Markov preveria algum comportamento que não é observado nos dados. Portanto, esse tipo de modelo pode ter pouco uso prático em uma variedade de problemas.

Um exemplo de DNA heterogêneo é apresentado por Bernardi e Bernardi (1986). Trabalhando com aspectos bioquímicos do DNA, eles explicam que o genoma nuclear de vertebrados de sangue quente exibe uma compartimentação composicional, na medida em que consiste principalmente de um mosaico de segmentos muito longos de DNA, os isóforos. De acordo com os autores, os isóforos são caracterizados por regiões bastante homogêneas em C + G conteúdo, e isóforos distintos apresentam proporções distintas de C + G. Os autores também afirmam que o genoma não apresenta muitos isóforos e que a heterogeneidade dentro de um isóforo é muito baixa, mas é alta entre os isóforos. A heterogeneidade pode ser devida a diferenças nos padrões de composição de bases e dependência entre bases vizinhas, e pode refletir diferenças funcionais e estruturais entre as regiões.

É possível descrever aquelas regiões heterogêneas não observadas do genoma de um determinado organismo usando ferramentas estatísticas em vez de bioquímicas que seriam então usadas de forma mais parcimoniosa. As referidas ferramentas são modelos estatísticos que podem dar conta da heterogeneidade que está presente nas sequências. Este é o assunto de nossa próxima discussão.

Um modelo oculto de Markov para sequências de DNA

Nesta seção, apresentaremos alguns modelos ocultos de Markov desenvolvidos por Churchill (1989). Esses modelos ainda são muito populares (ver Meninos et al., 2000). Faremos uma breve descrição reafirmando alguns aspectos da seção 4 em Churchill (1989). Para maiores detalhes sobre este assunto, o referido artigo deve ser consultado.

Enquanto as bases A, C, G, T representar resultados observados e para breve será denotado resultados, as regiões homogêneas não observadas que procuramos serão chamadas estados ocultos e por brevidade será denotado estados. Nosso trabalho é estimar quantos estados ocultos existem e apresentar um mapa descrevendo onde eles estão localizados. O número de estados é considerado finito e fixo e corresponde às diferentes regiões do DNA. Apresentamos agora algumas notações e definições necessárias para descrever modelos de Markov ocultos para sequências de DNA.

Considere uma sequência de variável aleatória <>eu: i = 1,. n> com distribuição determinada por uma sequência correspondente de estados não observados <>eu>. Denote a sequência de resultados e estados observados até o momento t por, respectivamente, y t = <>1,. yt> e s t = <>1,. st>.

Admitindo um número fixo de estados e resultados multinomiais, vamost = (yt, 0,. yt, m-1) ser um vetor cujos componentes são todos zero, exceto um igual à unidade, indicando qual dos m resultados possíveis é observado. Cada observação está associada a um dos r estados indicados pelo vetor st = (st, 0,. st, r-1) Existe um vetor p0 de probabilidades iniciais associadas a s1, de modo que Seup0i = 1. Assim, para o p0iHá parâmetros r-1 para estimar.

A distribuição de yt dado que o estado no tempo t é k é multinomial, ou seja, yt | st, k Multinomial (1, p0, k,. pm-1, k) O parâmetro peu, k é a probabilidade de observar o resultado i quando o estado atual é k, sujeito à restrição


Discussão

Redefinindo os subgrupos RIFIN e STEVOR

Estudos anteriores descrevem as sequências RIFIN e STEVOR como um grande grupo de proteínas relacionadas exclusivas para P. falciparum. A análise subsequente da família de proteínas RIFIN, com base no genoma de referência, mostrou que a família RIFIN pode ser posteriormente subagrupada em sequências A- e B-RIFIN e a última dividida em B1-, B2- e B3-RIFIN [12] .

Nossa análise atual, que inclui muito mais sequências, confirma a subdivisão das sequências RIFIN em grupos A-, B1- e B2-RIFIN, todos com características definidas. No entanto, é um exagero criar um grupo definido para as sequências B-RIFIN restantes. Essas sequências representam um agrupamento heterogêneo (10 genes na cepa de referência 3D7) de sequências que são definidas pelo fato de que não são sequências A-RIFIN e têm relativamente pouca semelhança com as proteínas B1 e B2-RIFIN. Decidimos, portanto, retrógrar as sequências B3-RIFIN para a classificação de B-RIFIN.

Um estudo recente definiu subgrupos potenciais dentro das sequências A-RIFIN, rifA1 e rifA3. Esses agrupamentos contam com similaridade de sequência de 71% e 84% e, para a grande maioria, sua localização genômica em uma orientação frente a frente com os genes var do grupo A [21]. Não treinamos HMMs para reconhecer esses grupos devido ao baixo número de sequências disponíveis nos conjuntos de dados selecionados. Além disso, descobrimos que existem vários outros candidatos de subgrupo, mas o pequeno número de sequências dentro de um único genoma torna difícil distinguir entre genuíno subgrupos e genes recentemente expandidos.

Esses autores também definiram um subgrupo, rifA2, que é composto por uma sequência RIFIN divergente que está presente, com 78% de conservação, em todos os genomas investigados [21]. O caso de genes de cópia única que são muito conservados entre genomas são possivelmente melhor classificados como genes conservados em vez de subgrupos. Além disso, notamos que as proteínas que compõem o grupo rifA2 têm a pontuação mais baixa de todas as sequências RIFIN, com uma delas prevista como "falsa". O fato de as sequências parciais da proteína A-RIFIN pontuarem mais alto do que o rifA2 de comprimento total e a divergência dessas sequências das proteínas RIFIN típicas sugere fortemente que estas estão relacionadas às proteínas RIFIN, mas têm uma função diferente, não exigindo múltiplas cópias para a sobrevivência do parasita .

Neste estudo, focamos apenas nos três genomas (3D7, HB3 e DD2) para os quais as anotações estão disponíveis, bem como no banco de dados Uniprot que contém dados de estudos de campo. Confirmamos o achado, por Wang et al.[21], que várias sequências RIFIN são relativamente conservadas entre as cepas, no entanto, é difícil avaliar se isso representa uma medida da divergência das populações de parasitas ou se eles foram selecionados evolutivamente para funções específicas.

Além disso, optamos por adotar uma abordagem conservadora para a designação STEVOR. Todas as sequências que estão claramente relacionadas às sequências STEVOR, mas que não têm pontuação alta o suficiente, serão marcadas como STEVOR pelo programa RSpred.

Sequências ambíguas

Quatro sequências previstas para serem proteínas A-RIFIN também tiveram pontuações relativamente altas (& gt 300) com o B1- ou o B2-RIFIN HMM. Após uma inspeção mais detalhada dessas sequências, aplicando a análise filogenética aos alinhamentos de cada metade dessas proteínas, parece que sua metade N-terminal corresponde bem com as sequências A-RIFIN, enquanto sua metade C-terminal é característica das proteínas B1- ou B2-RIFIN (dados não mostrados). Essas sequências são híbridas entre as proteínas A- e B1 / 2-RIFIN e confirmam relatos anteriores de recombinação como meio para a diversificação dessas famílias de genes VSA [29].

Vantagens, limites e utilidade do RSpred

Denominamos nosso conjunto de HMMs e o programa de avaliação RSpred, para o preditor RIFIN e STEVOR. Mostramos que ele detecta com eficiência as proteínas RIFIN e STEVOR e as classifica de acordo com seu subgrupo. Embora não haja detecções de falsos positivos, RSpred é conservador com sequências truncadas e remotamente relacionadas. No entanto, a maioria dessas sequências são pelo menos reconhecidas e previstas como proteínas RIFIN ou STEVOR. Por fim, RSpred mostra-se mais sensível que os existentes Pfam e TIGRFAMs HMMs [18, 19], que também são limitados no escopo de sua classificação, pois não reconhecem subgrupos RIFIN ou STEVOR.

Aplicamos RSpred a proteomas inteiros extraídos de novos conjuntos de genomas. Embora esses genomas sejam em sua maioria sequenciados para uma cobertura muito baixa (1,25 ×), fomos capazes de detectar todos os subgrupos dentro desses genomas. Este recurso será cada vez mais útil à medida que mais genomas estão sendo sequenciados: em particular, há um grande Plasmodium projeto de sequenciamento do genoma [30] que está programado para sequenciar mais de 100 Plasmodium genomas de parasitas, que permitirão a análise metagenômica das famílias de proteínas RIFIN e STEVOR.


Disponibilidade de dados

Dados subjacentes

UniProtKB - Q3B820 (F161A_HUMAN), número de adesão Q3B820: https://www.uniprot.org/uniprot/Q3B820

UniProtKB - Q9ULW0 (TPX2_HUMAN), número de adesão Q9ULW0: https://www.uniprot.org/uniprot/Q9ULW0

Dados estendidos

Este projeto contém o arquivo ‘Supplementary Figures.pdf’, que contém os seguintes dados estendidos:

Figura Suplementar S1: A. Acerto na titina na segunda iteração de PSI-BLAST no banco de dados nr50 B. Regiões de baixa complexidade em FAM161A.

Figura Suplementar S2: A. Resultado de HHpred do alinhamento de pares simétrico de Fam161A e Tpx2 B. Pesquisa de HHpred com alinhamento realinhado com algoritmo de precisão máxima

Figura Suplementar S3: A hélice em cunha de Tpx2 está profundamente enterrada na bolsa formada por quatro monômeros de tubulina

Figura Suplementar S4: Propriedades de hélices seguindo sequências de cristas em Tpx2 e FAM161A

Figura Suplementar S5: Sequências em hélices anfipáticas na família FAM161

Figura Suplementar S6: Variação da crista Tpx2 e sequências em cunha entre as espécies.

Os dados estão disponíveis nos termos da isenção de dados Creative Commons Zero "Nenhum direito reservado" (CC0 1.0 Public domain dedication).


2. Modelo Probabilístico de Espaço de Estado Modulado por Markov em Tempo Discreto

Para inferir os estados neuronais UP e DOWN, nesta seção desenvolvemos um modelo de espaço de estados modulado por Markov em tempo discreto simples que pode ser visto como uma variante do HMM padrão aplicado à análise de trem de pico. A estrutura probabilística subjacente é markoviana e homogênea, e o algoritmo de inferência é eficiente na identificação das estatísticas do processo de estado oculto. Com base nisso, na próxima seção desenvolvemos um modelo probabilístico de tempo contínuo para superar algumas das limitações impostas por este modelo probabilístico de tempo discreto.

2.1. Modelo de Markov Oculto.

A probabilidade inicial do estado é denotada por um vetor π = <>eu>, onde πeu = Pr (S0 = eu) (eu = 0, 1). Sem perda de generalidade, assumimos que a amplitude do estado oculto é predefinida, e a variável discreta Sk ∈ <0, 1> indica um estado PARA BAIXO (0) ou PARA CIMA (1).

ecO1yAIjyZRZvGMRW9R-SM8T4A __ & ampKey-Pair-Id = APKAIE5G5CRDK6RD3PGA "/> ⁠, é derivado como (ignorando a constante)


2. A ABORDAGEM ABC MLE PARA ESTIMAÇÃO DE PARÂMETROS

O filtro de partículas se aproxima sequencialmente da sequência de densidades posteriores

t ≥ 1 do HMM <Xt, Yt>t ⩾ 1 usando uma distribuição discreta ponderada com N pontos de apoio para X1: t que são chamados de partículas. A cada vez t, as partículas são reamostradas de acordo com seus pesos atuais e, em seguida, as partículas reamostradas são propagadas independentemente umas das outras usando uma densidade de transição proposta rθ(xt + 1|xt) As partículas são então pesadas novamente para corrigir a discrepância entre p θ (x 1: t + 1 | Y 1: t + 1 = y ^ 1: t + 1) e a lei das partículas propostas que é p θ (x 1 : t | Y 1: t = y ^ 1: t) r θ (xt + 1 | xt). Esta é a amostragem de importância padrão e a suposição na etapa de correção de peso é que a lei de cada partícula reamostrada no tempo t é p θ (x 1: t | Y 1: t = y ^ 1: t), que é um erro, mas progressivamente correto como N é aumentado (Chopin 2002 Crisan e Doucet 2002 Del Moral 2004). Na implementação do filtro de partículas, as constantes de normalização da sequência de alvos posteriores não são necessárias, mas o cálculo dos novos pesos requer que g θ (y ^ | x) seja tratável. Del Moral (2004) mostrou que os pesos da aproximação de partícula de

t ≥ 1 podem ser usados ​​para obter uma estimativa não enviesada das probabilidades < p (Y 1: t = y ^ 1: t)> t ≥ 1. Consulte o Apêndice para obter um exemplo de código para um filtro de partículas.

Jasra et al. (2012) considerou o problema de construir uma aproximação SMC do filtro p θ (xt | Y 1: t = y ^ 1: t), que é o marginal da aproximação de partícula para p θ (x 1: t | Y 1: t = y ^ 1: t), para um HMM com uma densidade de observação intratável gθ(y|x) Uma vez que não é possível calcular os pesos do filtro de partículas para tal HMM onde gθ(y|x) é intratável, eles propuseram uma aproximação de filtro de partículas para o HMM estendido <(Xt, Yt), Y ε t>t ⩾ 1 onde o processo conjunto <Xt, Yt>t ⩾ 1, que agora é o processo latente do HMM estendido, é definido por (1) e (2) e a nova sequência <Y ε t>t ⩾ 1 é (5) Y t ϵ = Y t + ϵ V t, V t ∼ iid Unif B 0 1, t ≥ 1, (5) onde B r y denota a bola de raio r & gt 0 centrado em y ∈ R d y e Unif (B) é a distribuição uniforme sobre o conjunto B. Então, a densidade p θ * x t | Y 1: t ϵ = y ^ 1: t do HMM estendido é considerado uma aproximação para p θ * (xt | Y 1: t = y ^ 1: t) onde ε & gt 0 reflete o erro da aproximação e este o erro diminui à medida que ε → 0 ver também Calvet e Czellar (2012) Martin et al. (2014) para resultados teóricos sobre esta aproximação. Observe que p θ * (xt | Y 1: t ϵ = y ^ 1: t) não coincide com p θ * (xt | Y 1: t = y ^ 1: t) porque y ^ 1: t obedece à lei (1) - (2) e não (5). Jasra et al. (2012) observou que p θ * (x t | Y 1: t ϵ = y ^ 1: t) é a aproximação ABC para o filtro de um HMM. Além disso, eles mostraram que é simples aproximar p θ * (x t | Y 1: t ϵ = y ^ 1: t) com um filtro de partículas bootstrap.

Considere agora o HMM estendido <(Xt, Yt), Y ε t>t ⩾ 1 especificado por (1), (2) e (5) e deixe pθ(Y ε 1: n = y1: n) denotam a densidade de probabilidade (ou função de verossimilhança) do processo <Y ε t>t ⩾ 1 avaliado em algum y 1: n ∈ (R d y) n. (Veja (12) para a expressão precisa dessa densidade.) Dean et al. (2014) estudaram as propriedades teóricas da seguinte estimativa de máxima verossimilhança de θ *: (6) θ n ϵ = arg max θ ∈ Θ p θ Y 1: n ϵ = y ^ 1: n. (6) (Observamos que (4) é p θ (Y 1: n ϵ = y ^ 1: n) quando os volumes de Lebesgue das bolas B y ^ 1 ϵ,., B y ^ n ϵ são omitidos do último.) Dean et al. (2014) chamou o procedimento (6) ABC MLE. (O uso da sigla ABC é para enfatizar que é a mesma probabilidade aproximada que está sendo maximizada aqui.) O filtro de partícula bootstrap de Jasra et al. (2012) fornece uma aproximação SMC imparcial da probabilidade p θ (Y 1: n ϵ = y ^ 1: n) e esta probabilidade pode ser maximizada avaliando a aproximação sobre uma grade de valores para θ. Isso, no entanto, claramente não é prático, pois a dimensão de θ aumenta, não tem extensão direta para estimativa recursiva e não é um método convergente preciso.

Dean et al. (2014) mostraram que o ABC MLE (6) leva a uma estimativa enviesada do vetor de parâmetros θ * no sentido de que como n → ∞, θ ε n irá convergir para algum ponto θ *, ε ≠ θ * ∈ Θ e que esse viés pode ser arbitrariamente pequeno, ou seja, θ *, ε → θ * como ε → 0. Dean et al. (2014) mostraram que o viés é O (ϵ) Dean e Singh (2011) refinaram isso para O (ϵ 2). O viés de ABC MLE se deve ao fato de que a sequência observada y ^ 1, y ^ 2,. é o resultado da lei (2) para θ = θ * e não (5). Dean et al. (2014) sugeriu a remoção do viés de θ ε n em (6) adicionando ruído aos dados reais e, em seguida, computando a estimativa de máxima verossimilhança, isto é, deixe v1, …, vn seja uma realização de amostras iid da Unif (B 0 1) e seja (7) y t ϵ = y ^ t + ϵ v t, 1 ≤ t ≤ n. (7) Observe que os dados ruidosos y ε 1: n agora obedeça a lei de <Y ε t>t ⩾ 1 quando θ = θ *. Portanto, o procedimento (8) θ n ϵ = arg max θ ∈ Θ p θ Y 1: n ϵ = y 1: n ϵ, (8) que será denominado ABC MLE ruidoso de agora em diante, pode agora produzir um estimador consistente do vetor de parâmetro θ * como n → ∞. Resultado comprovado por Dean et al. (2014) pode ser interpretado como a equivalência frequentista da observação de Wilkinson de que a distribuição posterior do ABC é exata sob a suposição de erro do modelo (Wilkinson 2013).

Finalmente, Dean et al. (2014) também observaram que o uso de outros tipos de ruído em (5) é possível sem comprometer a assintótica do ruído ABC MLE, ou seja, (9) Y t ϵ = Y t + ϵ V t, V t ∼ iid κ , t ≥ 1, (9) onde κ é uma densidade centrada suave. (Por conseguinte, ABC MLE ruidoso em (8) é realizado com as observações corrompidas de ruído (7) onde agora veu são realizações de amostras iid de κ.) Como mostramos, um κ continuamente diferenciável é importante para o desenvolvimento de técnicas de MLE baseadas em gradiente práticas. In this work we choose κ to be the probability density of zero-mean unit-variance Gaussian random variable. Other choices are possible (but not investigated) and our framework would still be applicable.

We remark that although the theoretical basis for ABC MLE was established in Dean et al. ( 2014 ), the authors do not propose a practical methodology for implementing ABC MLE in their work this is indeed an important void to be filled. In this article we demonstrate how, by using ideas from Poyiadjis, Doucet, and Singh ( 2011 ), both batch and online versions of noisy ABC MLE can be implemented with SMC.


Opções de acesso

Obtenha acesso completo ao diário por 1 ano

Todos os preços são preços NET.
O IVA será adicionado mais tarde no check-out.
O cálculo do imposto será finalizado durante o checkout.

Obtenha acesso limitado por tempo ou ao artigo completo no ReadCube.

Todos os preços são preços NET.


[47] Recall that the hidden state heu = (xeu, yeu, teu, Jeu, Ceu, UMAeu), recording the longitude and the latitude of the epicenter, the occurrence time, the index of the most recent mother earthquake up to eu, the indicator of whether or not the earthquake eu is a cluster earthquake, and the indicator of whether or not a cluster is active.

[48] Five parameters are introduced in our model: γ is the intensity of the point process for single earthquakes, λ is the extra intensity when a cluster is active, ε is the intensity of the initiation of a new cluster, d is the variance parameter of the bivariate Gaussian distribution, p is the probability that the mother earthquake becomes sterile after giving birth to one more offspring. Note that the mother earthquake is born reproductive, which guarantees that each cluster contains at least two earthquakes. In the data set, the earthquakes occurred in the rectangular area 33°–39°N and 131°–140°E. The area of the rectangle is 54 square degrees.


Assista o vídeo: Modelos Ocultos de Markov (Dezembro 2021).