Em formação

4.2: Conservação de sequências genômicas - Biologia


Elementos funcionais em Drosophila

Em um artigo de 20071, Stark et al. Linhas cinzentas conectam elementos funcionais ortólogos, e é claro que suas posições são geralmente conservadas nas diferentes espécies.

Perguntas frequentes

P: Por que é significativo que a posição dos elementos ortólogos seja conservada?

R: O fato de as posições serem conservadas é o que nos permite fazer comparações entre as espécies. Caso contrário, não poderíamos alinhar regiões não codificantes de forma confiável.

A drosófila é uma ótima espécie para se estudar porque, de fato, a separação das moscas-das-frutas é maior do que a dos mamíferos. Isso nos leva a uma nota lateral interessante, a de quais espécies selecionar ao observar as assinaturas de conservação. Você não quer ter espécies muito semelhantes (como humanos e chimpanzés, que compartilham 98% do genoma), porque seria difícil distinguir regiões que são diferentes daquelas que são iguais. Ao comparar as espécies com os humanos, o nível certo de conservação a ser observado são os mamíferos. Especificamente, a maioria das pesquisas feitas neste campo é feita usando 29 mamíferos eutherian (mamíferos placentários, sem marsupiais ou monotremados) para estudar. Outra coisa a se levar em consideração são as diferenças de comprimento dos ramos entre duas espécies. Seus objetos de estudo ideais seriam algumas espécies intimamente relacionadas (ramos curtos), para evitar problemas de interpretação que surgem com mutações em ramos longos, como mutações reversas.

Taxas e padrões de seleção

Agora que estabelecemos que há estrutura para a evolução das sequências genômicas, podemos começar a analisar características específicas da conservação. Para esta seção, vamos considerar os dados genômicos no nível de nucleotídeos individuais. Mais adiante neste capítulo, veremos que também podemos analisar as sequências de aminoácidos.

Podemos estimar a intensidade de uma restrição de seleção ω fazendo um modelo de probabilidades da taxa de substituição inferida dos dados de alinhamento do genoma. Usando uma estimativa de máxima verossimilhança (ML) de ω pode nos fornecer a taxa de seleção ω, bem como o log odds score de que a taxa não é natural.

Uma propriedade que isso mede que podemos considerar é a taxa de substituição de nucleotídeos em um genoma. A Figura 4.3 mostra duas sequências de nucleotídeos de uma coleção de mamíferos. Uma das sequências está sujeita a taxas normais de alteração, enquanto a outra demonstra uma taxa reduzida. Portanto, podemos hipotetizar que a última sequência está sujeita a um nível maior de restrição evolutiva e pode representar uma seção biologicamente mais importante do genoma.

Podemos ainda detectar padrões incomuns de seleção π observando um modelo probabilístico de uma distribuição estacionária que é diferente da distribuição de fundo. A estimativa de ML de π nos fornece a Matriz de Peso de Probabilidade (PWM) para cada k-mer no genoma, bem como a pontuação de odds de log para substituições que são incomuns (por exemplo, uma base mudando para uma e apenas uma outra base). Como se pode ver na Figura 4.4, letras específicas são importantes porque algumas bases mudam seletivamente para uma (ou duas outras bases), e a base específica para a qual muda pode sugerir qual pode ser a função da sequência.

Podemos aumentar nosso poder de detecção de elementos de restrição observando mais espécies, como mostrado na Figura 4.5, onde vemos um aumento dramático no poder de detectar pequenos elementos de restrição.


1 www.nature.com/nature/journal...ture06340.html


DNA (bibliotecas de genes): construção, bibliotecas genômicas e bibliotecas de cDNA

Uma biblioteca de DNA é um conjunto de fragmentos clonados que representam coletivamente os genes de um determinado organismo. Genes particulares podem ser isolados de bibliotecas de DNA, tanto quanto livros podem ser obtidos de bibliotecas convencionais.

O segredo é saber para onde e como olhar. Existem dois tipos gerais de biblioteca de genes: uma biblioteca genômica, que consiste no DNA cromossômico total de um organismo e uma biblioteca de cDNA, que representa o mRNA de uma célula ou tecido em um ponto específico do tempo.

A escolha do tipo particular de biblioteca de genes depende de vários fatores, sendo o mais importante a aplicação final de qualquer fragmento de DNA derivado da biblioteca. Se o objetivo final compreende o controle da produção de proteínas para um determinado gene ou sua arquitetura, então as bibliotecas genômicas devem ser usadas.

No entanto, se o objetivo é a produção de proteínas novas ou modificadas, ou a determinação da expressão específica de tecido de padrões de tempo, as bibliotecas de cDNA são mais apropriadas. A principal consideração na construção de bibliotecas genômicas ou de cDNA é, portanto, o material de partida de ácido nucleico. Uma vez que o genoma de um organismo é fixo, o DNA cromossômico pode ser isolado de quase qualquer tipo de célula para preparar o DNA genômico.

Em contraste, no entanto, as bibliotecas de cDNA representam apenas o mRNA sendo produzido a partir de um tipo de célula específico em um determinado momento no desenvolvimento da célula. Assim, é importante considerar cuidadosamente o tipo de célula ou tecido do qual o mRNA deve ser derivado na construção de bibliotecas de cDNA.

Há uma variedade de vetores de clonagem disponíveis, muitos baseados em moléculas de ocorrência natural, como plasmídeos bacterianos ou vírus que infectam bactérias. A escolha do vetor também depende se uma biblioteca genômica ou biblioteca de cDNA é construída.

Construindo Bibliotecas Genéticas:

Digestão de moléculas de DNA genômico:

Após o DNA genômico ter sido isolado e purificado, ele é digerido com endonucleases de restrição. Essas enzimas são a chave para a clonagem molecular devido à especificidade que possuem para sequências de DNA particulares. É importante notar que cada cópia de uma determinada molécula de DNA de um organismo específico dará o mesmo conjunto de fragmentos quando digerida com uma enzima específica.

O DNA de diferentes organismos irá, em geral, fornecer diferentes conjuntos de fragmentos quando tratado com a mesma enzima. Ao digerir o DNA genômico complexo de um organismo, é possível dividir de forma reproduzível seu genoma em um grande número de pequenos fragmentos, cada um com aproximadamente o tamanho de um único gene. Algumas enzimas cortam o DNA para dar extremidades rombas ou cegas.

Outras enzimas de restrição fazem cortes escalonados de fita simples, produzindo projeções curtas de fita simples em cada extremidade do DNA digerido. Essas extremidades não são apenas idênticas, mas complementares e formarão pares de bases entre si; portanto, são conhecidas como extremidades coesivas ou aderentes. Além disso, a projeção da extremidade 5 & # 8242 do DNA sempre retém os grupos fosfato.

Mais de 500 enzimas de restrição, reconhecendo mais de 200 locais diferentes, foram caracterizadas. A escolha de qual enzima usar depende de vários fatores. Por exemplo, a sequência de reconhecimento de 6 bp ocorrerá, em média, a cada 4.096 (4 6) bases, assumindo uma sequência aleatória de cada uma das quatro bases.

Isso significa que a digestão do DNA genômico com EcoRI, que reconhece a sequência 5 & # 8242-GAATTC-3 & # 8242, produzirá fragmentos cada um dos quais tem, em média, pouco mais de 4 kb. Enzimas com sequências de reconhecimento de 8 bp produzem fragmentos muito mais longos. Portanto, genomas muito grandes, como o DNA humano, são geralmente digeridos com enzimas que produzem longos fragmentos de DNA. Isso torna as etapas subsequentes mais gerenciáveis, uma vez que um número menor desses fragmentos precisa ser clonado e posteriormente analisado.

Ligando moléculas de DNA:

Os produtos de DNA resultantes da digestão de restrição para formar extremidades coesivas podem ser unidos a quaisquer outros fragmentos de DNA tratados com a mesma enzima de restrição. Assim, quando os dois conjuntos de fragmentos são misturados, o emparelhamento de bases entre as extremidades coesivas resultará no emparelhamento de fragmentos que foram derivados de DNA de partida diferente. Haverá, é claro, também emparelhamento de fragmentos derivados das mesmas moléculas de DNA de partida, denominado recozimento.

Todos esses emparelhamentos são transitórios, devido à fraqueza da ligação de hidrogênio entre as poucas bases nas extremidades pegajosas, mas podem ser estabilizados pelo uso de uma enzima, DNA ligase, em um processo denominado ligação. Esta enzima, geralmente isolada do bacteriófago T4 e chamada T4 DNA ligase, forma uma ligação covalente entre o 5 & # 8242-fosfato no final de uma fita e o 3 & # 8242-hidroxila da fita adjacente.

A reação que é dependente de ATP é freqüentemente realizada a 10 ° C para diminuir a energia cinética das moléculas e, assim, reduzir as chances de extremidades pegajosas emparelhadas de base se separarem antes de serem estabilizadas pela ligação. No entanto, tempos de reação longos são necessários para compensar a baixa atividade da DNA ligase no frio. Também é possível unir extremidades cegas de moléculas de DNA, embora a eficiência dessa reação seja muito menor do que nas ligações de extremidades pegajosas.

Uma vez que a ligação reconstrói o local de clivagem, as moléculas recombinantes produzidas pela ligação das extremidades coesivas podem ser clivadas novamente nas & # 8216joins & # 8217, usando a mesma enzima de restrição que foi usada para gerar os fragmentos inicialmente. Para propagar o DNA digerido de um organismo, é necessário unir ou ligar esse DNA a uma molécula transportadora de DNA especializada denominada vetor.

Cada fragmento de DNA é inserido por ligação na molécula de DNA do vetor, o que permite que todo o DNA recombinante seja replicado indefinidamente dentro das células microbianas. Desta forma, um fragmento de DNA pode ser clonado para fornecer material suficiente para uma análise mais detalhada ou para outras manipulações. Assim, todo o DNA extraído de um organismo e digerido com uma enzima de restrição resultará em uma coleção de clones. Esta coleção de clones é conhecida como biblioteca de genes.

Bibliotecas genômicas:

Qualquer gene em particular constitui apenas uma pequena parte do genoma de um organismo. Por exemplo, se o organismo é um mamífero cujo genoma inteiro abrange cerca de 106 kbp e o gene tem 10 kbp, então o gene representa apenas 0,001% do DNA nuclear total. É impraticável tentar recuperar essas sequências raras diretamente do DNA nuclear isolado por causa da quantidade esmagadora de sequências de DNA estranhas.

Em vez disso, uma biblioteca genômica é preparada isolando o DNA total do organismo, digerindo-o em fragmentos de tamanho adequado e clonando os fragmentos em um vetor apropriado. Essa abordagem é chamada de clonagem shotgun porque a estratégia não tem como alvejar um gene em particular, mas, em vez disso, busca clonar todos os genes do organismo de uma vez.

A intenção é que pelo menos um clone recombinante contenha pelo menos parte do gene de interesse. Isso pode ser alcançado por digestão de restrição parcial com uma enzima que reconhece sequências de tetranucleotídeos. A digestão completa com tal enzima produziria um grande número de fragmentos muito curtos, mas, se a enzima for permitida a clivar apenas alguns de seus locais de restrição potenciais antes que a reação seja interrompida, cada molécula de DNA será cortada em fragmentos relativamente grandes.

O tamanho médio do fragmento dependerá das concentrações relativas de DNA e enzima de restrição e, em particular, das condições e durações de incubação. Também é possível produzir fragmentos de DNA por cisalhamento físico, embora as extremidades dos fragmentos possam precisar ser reparadas para que fiquem rentes. Isto é conseguido usando uma DNA polimerase modificada denominada polimerase Klenow.

Este é preparado por clivagem da DNA polimerase com subtilização, dando um grande fragmento de enzima que não tem atividade de exonuclease 5 & # 8217 → 3 & # 8242, mas que ainda atua como 5 & # 8217 → 3 & # 8242 polimerase. Usando os dNTPs apropriados, isso irá preencher qualquer recesso 3 e # 8242 extremidades no DNA cortado. A mistura de fragmentos de DNA é então ligada a um vetor e subsequentemente clonada.

Se clones suficientes forem produzidos, haverá uma chance muito alta de que qualquer fragmento de DNA em particular, como um gene, esteja presente em pelo menos um dos clones. Para manter o número de clones em um tamanho administrável, fragmentos de cerca de 10 kb de comprimento são necessários para bibliotecas procarióticas, mas o comprimento deve ser aumentado para cerca de 40 kb para bibliotecas de mamífero.

Bibliotecas genômicas foram preparadas a partir de centenas de espécies diferentes. Muitos clones devem ser criados para ter certeza de que a biblioteca genômica contém o gene de interesse. A probabilidade, P, de que algum número de clones, N, contém um fragmento particular que representa uma fração, f, do genoma é

Por exemplo, se a biblioteca consiste em fragmentos de 10 kbp do genoma de E. coli (4640 kbp no total), mais de 2.000 clones individuais devem ser rastreados para ter uma probabilidade de 99% (P = 0,99) de encontrar um fragmento particular. Uma vez que / = 10/4640 = 0,0022 e P & # 8211 0,99, N = 2093. Para uma probabilidade de 99% de encontrar uma sequência particular dentro do genoma humano de 3 x 10 6 kbp, N seria igual a quase 1,4 milhões se os fragmentos clonados fossem em média 10 kbp de tamanho. A necessidade de vetores de clonagem capazes de transportar inserções de DNA muito grandes torna-se óbvia a partir desses números.

Bibliotecas Combinatórias:

O reconhecimento específico e a ligação de outras moléculas são características definidoras de qualquer proteína ou ácido nucleico. Freqüentemente, os ligantes alvo de uma proteína particular são desconhecidos ou, em outros casos, um ligante único para uma proteína conhecida pode ser procurado na esperança de bloquear a atividade da proteína ou de outra forma perturbar sua função.

Bibliotecas combinatórias são produtos de estratégias emergentes para facilitar a identificação e caracterização de possíveis ligantes para uma proteína. Essas estratégias também são aplicáveis ​​ao estudo de ácidos nucléicos. Ao contrário das bibliotecas genômicas, as bibliotecas combinatórias consistem em oligômeros sintéticos. Matrizes de oligonucleotídeos sintéticos impressos como pequenos pontos em suportes sólidos em miniatura são conhecidas como chips de DNA.

Especificamente, as bibliotecas combinatórias contêm um grande número de moléculas sintetizadas quimicamente (como peptídeos ou oligonucleotídeos) com sequências ou estruturas aleatórias. Essas bibliotecas são projetadas e construídas com a esperança de que uma molécula entre um grande número seja reconhecida como um ligante pela proteína (ou ácido nucleico) de interesse.

Nesse caso, talvez essa molécula seja útil em uma aplicação farmacêutica, por exemplo, como um medicamento para tratar uma doença envolvendo a proteína à qual se liga. Um exemplo dessa estratégia é a preparação de uma biblioteca combinatória sintética de hexapeptídeos. O número máximo de combinações de sequência para hexapeptídeos é 20 6 ou 64.000.000.

Uma abordagem para simplificar a preparação e as possibilidades de triagem para tal biblioteca é especificar os dois primeiros aminoácidos no hexapeptídeo enquanto os próximos quatro são escolhidos aleatoriamente. Nesta abordagem, 400 bibliotecas (20 2) são sintetizadas, cada uma das quais é única em termos de aminoácidos nas posições 1 e 2, mas aleatória nas outras quatro posições (como em AAXXXX, ACXXXX, ADXXXX, etc.) de modo que cada uma das 400 bibliotecas contém 20 4 ou 1,60.000 combinações de sequência diferentes.

A triagem dessas bibliotecas com a proteína de interesse revela qual das 400 bibliotecas contém um ligante com alta afinidade. Esta biblioteca é então sistematicamente expandida especificando os primeiros 3 aminoácidos (sabendo a partir das bibliotecas 1 de 400 escolhidas quais aminoácidos são melhores como as 2 primeiras), apenas 20 bibliotecas sintéticas (cada uma contendo 20 3 ou 8000 hexapeptídeos) são feitas aqui (um para cada possibilidade de terceira posição, as três posições restantes sendo randomizadas).

A seleção para ligação do ligante, novamente com a proteína de interesse, revela o melhor desses 20, e esta biblioteca particular é então variada sistematicamente na quarta posição, criando mais 20 bibliotecas (cada uma contendo 20 2 ou 400 hexapeptídeos). Este ciclo de síntese, triagem e seleção é repetido até que todas as seis posições no hexapeptídeo sejam otimizadas para criar o melhor ligante para a proteína.

Uma variação nesta estratégia básica usando oligonucleotídeos sintéticos em vez de peptídeos identificou um único 15-mer (sequência GGTTGGTGTGGTTGG) com alta afinidade (KD = 2,7 nM) em relação à trombina, uma serina protease na via de coagulação do sangue. A trombina é um alvo importante para a prevenção farmacológica da formação de coágulos na trombose coronária.

Bibliotecas de triagem:

Um método comum de triagem de bibliotecas genômicas baseadas em plasmídeo é realizar um experimento de hibridização de colônia. O protocolo é semelhante para bibliotecas baseadas em fagos, exceto que as placas de bacteriófagos, não as colônias de bactérias, são rastreadas. Em um experimento típico, bactérias hospedeiras contendo uma biblioteca baseada em plasmídeo ou bacteriófago são semeadas em uma placa de Petri e deixadas crescer durante a noite para formar colônias (ou no caso de bibliotecas de fagos, placas) (Fig 4.10).

Uma réplica das colônias bacterianas (ou placas) é então obtida sobrepondo a placa com um disco de nitrocelulose. O disco é removido, tratado com álcali para dissociar duplexes de DNA ligado em DNA de fita simples, seco e colocado em um saco selado com sonda marcada. Se o DNA da sonda for DNA duplex, deve ser desnaturado por aquecimento a 70 ° C.

A sonda e as sequências complementares de DNA alvo devem estar em uma forma de fita simples se elas hibridizarem uma com a outra. Quaisquer sequências de DNA complementares ao DNA da sonda serão reveladas por autorradiografia do disco de nitrocelulose. As colônias bacterianas (placas de fago) contendo clones com DNA alvo são identificadas no filme e podem ser recuperadas da placa mestre.

Sondas para hibridização do sul:

Claramente, sondas específicas são reagentes essenciais se o objetivo é identificar um gene particular contra um fundo de inúmeras sequências de DNA. Normalmente, as sondas que são usadas para rastrear bibliotecas são sequências de nucleotídeos que são complementares a alguma parte do gene alvo. Para fazer sondas úteis, são necessárias algumas informações sobre a sequência de nucleotídeos do gene & # 8217s.

Às vezes, essa informação está disponível. Alternativamente, se a sequência de aminoácidos da proteína codificada pelo gene for conhecida, é possível retroceder, por meio do código genético, para a sequência de DNA (Fig. 4.11). Como o código genético é degenerado (ou seja, vários códons podem especificar o mesmo aminoácido), as sondas projetadas por esta abordagem são geralmente oligonucleotídeos degenerados com cerca de 17 a 50 resíduos de comprimento (tais oligonucleotídeos são chamados de 17 a 50 meros).

Os oligonucleotídeos são sintetizados de modo que diferentes bases sejam incorporadas nos locais onde ocorrem degenerescências nos códons. A preparação final consiste assim em uma mistura de oligonucleotídeos de comprimento igual cujas sequências variam para acomodar as degenerescências. Presumivelmente, uma sequência de oligonucleotídeo na mistura irá hibridizar com o gene alvo.Estas sondas oligonucleotídicas têm pelo menos 17-meros porque oligonucleotídeos degenerados mais curtos podem hibridizar com sequências não relacionadas com a sequência alvo.

Um pedaço de DNA do gene correspondente em um organismo relacionado também pode ser usado como uma sonda na triagem de uma biblioteca para um determinado gene. Essas sondas são denominadas sondas heterólogas porque não são derivadas do (mesmo) organismo homólogo. Surgem problemas se um gene eucariótico completo for o alvo de clonagem. Os genes eucarióticos podem ter dezenas ou mesmo centenas de pares de bases quilo.

Genes desse tamanho são fragmentados na maioria dos procedimentos de clonagem. Assim, o DNA identificado pela sonda pode representar um clone que carrega apenas parte do gene desejado. No entanto, a maioria das estratégias de clonagem é baseada na digestão parcial do DNA genômico, uma técnica que gera um conjunto sobreposto de fragmentos genômicos.

Sendo assim, os segmentos de DNA das extremidades do clone identificado podem agora ser usados ​​para sondar a biblioteca de clones que transportam sequências de DNA que flanquearam o isolado original no genoma. A repetição desse processo acaba produzindo o gene completo entre um subconjunto de clones sobrepostos.

Bibliotecas de cDNA:

Os cDNAs são moléculas de DNA copiadas de modelos de mRNA. As bibliotecas de cDNA são construídas sintetizando cDNA a partir de mRNA celular purificado. Essas bibliotecas apresentam uma estratégia alternativa para o isolamento de genes, especialmente genes eucarióticos. Como a maioria dos mRNAs eucarióticos carregam caudas 3 & # 8242-poli (A), o mRNA pode ser isolado seletivamente a partir de preparações de RNA celular total por cromatografia em oligo (dT) -celulose (Fig. 4.12). Cópias de DNA dos mRNAs purificados são sintetizados por primeiro anelamento de cadeias curtas de oligo (dT) às caudas poli (A).

Essas cadeias de oligo (dT) servem como iniciadores para a síntese de DNA conduzida pela transcriptase reversa (Fig. 4.13). (Os oligonucleotídeos aleatórios também podem ser usados ​​como iniciadores, com as vantagens sendo menos dependência de tratos poli (A) e maior probabilidade de criar clones que representam as extremidades 5 & # 8242 dos mRNAs.) A transcriptase reversa é uma enzima que sintetiza uma fita de DNA, copiar RNA como o modelo. A DNA polimerase é então usada para copiar a fita de DNA e formar uma molécula de fita dupla (DNA duplex).

A ligação de fragmentos de DNA de extremidades cegas não é tão eficiente quanto a ligação de extremidades coesivas, portanto, com moléculas de cDNA, procedimentos adicionais são realizados antes da ligação com vetores de clonagem. Uma abordagem consiste em adicionar pequenas moléculas de cDNA de cadeia dupla com um local interno para uma endonuclease de restrição, que são denominadas ligantes de ácido nucleico. Numerosos ligantes estão disponíveis comercialmente com restrição interna para muitas das enzimas de restrição mais comumente usadas.

Os ligantes são ligados por extremidades cegas ao cDNA, mas uma vez que são adicionados muito em excesso ao cDNA, o processo de ligação é razoavelmente bem-sucedido. Subsequentemente, os ligantes são digeridos com a enzima de restrição apropriada, que fornece as extremidades coesivas para ligação eficiente a um vetor digerido com a mesma enzima. Este processo pode ser facilitado pela adição de adaptadores em vez de ligantes, que são idênticos, exceto que as extremidades coesivas são realizadas e, portanto, não há necessidade de digestão de restrição após a ligação.

Portanto, por último, os ligantes são adicionados aos duplexes de DNA processados ​​a partir dos modelos de mRNA, e o cDNA é clonado em um vetor adequado. Uma vez que um cDNA derivado de um determinado gene tenha sido identificado, o cDNA torna-se uma sonda eficaz para rastrear bibliotecas genômicas para isolamento do próprio gene.

Como diferentes tipos de células em organismos eucarióticos expressam subconjuntos selecionados de genes, as preparações de RNA de células ou tecidos nos quais os genes de interesse são transcritos seletivamente são enriquecidas para os mRNAs desejados. As bibliotecas de cDNA preparadas a partir de tal mRNA são representativas do padrão e da extensão da expressão gênica que definem de maneira única tipos particulares de células diferenciadas.

Bibliotecas de cDNA de muitos tipos de células humanas normais e doentes estão disponíveis comercialmente, incluindo bibliotecas de cDNA de muitas células tumorais. A comparação de bibliotecas de cDNA normais e anormais, em conjunto com a análise eletroforética em gel bidimensional das proteínas produzidas em células normais e anormais, é uma nova estratégia promissora na medicina clínica para entender os mecanismos da doença.


Introdução

Com a necessidade urgente de compreender melhor o genoma e as mutações do SARS-CoV-2, alinhamentos de sequências de várias cepas de coronavírus (CoV) tornaram-se disponíveis 1, onde várias sequências de CoV estão alinhadas contra o genoma de referência do SARS-CoV-2. Os alinhamentos de sequência fornecem informações importantes sobre a história evolutiva de diferentes bases genômicas. Essas informações podem ser úteis na interpretação de mutações, como, por exemplo, bases com forte restrição de sequência ou evolução acelerada demonstraram ser enriquecidas para variantes associadas ao fenótipo 2,3. Embora as anotações sistemáticas existentes que quantificam a restrição de sequência dos alinhamentos 4,5 sejam informativas, elas reduzem as informações no alinhamento subjacente a um único valor univariado ou binário e, portanto, são limitadas nas informações que transmitem. Informações adicionais sobre os padrões de quais sequências se alinham e correspondem ao genoma SARS-CoV-2 em cada base pode ser útil na análise do genoma SARS-CoV-2 e mutações.

Como uma abordagem complementar aos métodos de pontuação de restrição de sequência, ConsHMM foi recentemente introduzido para anotar sistematicamente um determinado genoma com estados de conservação que capturam padrões combinatórios e espaciais em um alinhamento de sequência multiespécies 6. O ConsHMM modela especificamente se as bases de sequências não de referência se alinham e correspondem a cada base no genoma de referência. ConsHMM estende o ChromHMM, um método amplamente utilizado que usa um modelo de Markov oculto multivariado (HMM) para aprender padrões em dados epigenômicos de novo e anotar genomas com base nos padrões aprendidos 7. Além dos alinhamentos de entrada que foram gerados usando árvores filogenéticas, ConsHMM não usa explicitamente qualquer informação filogenética e, portanto, não faz quaisquer suposições estritas sobre a relação filogenética entre as sequências. Isso permite que ConsHMM seja mais flexível na captura de vários padrões dentro de alinhamentos do que as abordagens genômicas comparativas mais comumente usadas que definem uma única pontuação de restrição ou chamadas binárias de elementos restritos com base em modelagem filogenética. Trabalhos anteriores aplicando ConsHMM ao alinhamento multiespécies de outros genomas mostraram que os estados de conservação aprendidos por ConsHMM capturam vários padrões no alinhamento ignorados por métodos anteriores e são úteis para interpretar elementos de DNA e variantes associadas ao fenótipo 6,8.

Motivados pela necessidade atual de compreender melhor o genoma e as mutações do SARS-CoV-2, aqui aplicamos o ConsHMM a dois alinhamentos de sequências multi-cepas de CoV que foram recentemente disponibilizados 1 e aprendemos dois conjuntos de estados de conservação. O primeiro alinhamento consiste em Sarbecovírus, um subgênero do gênero Betacoronavirus na família dos Coronavirdae 9. Este alinhamento consiste em SARS-CoV e outros Sarbecovírus que infectam morcegos alinhados ao genoma SARS-CoV-2. O segundo alinhamento consiste em CoV que infectam vários vertebrados (por exemplo, humanos, morcegos, pangolins, camundongos, pássaros) alinhados ao genoma SARS-CoV-2.

Dados os dois conjuntos de estados de conservação aprendidos por ConsHMM a partir desses dois alinhamentos, anotamos o genoma SARS-CoV-2 com os estados e analisamos a relação dos estados com as anotações externas para entender suas propriedades. Observamos que os estados capturam padrões distintos nos dados de alinhamento de entrada. Usando anotações externas de genes, regiões de interesse e mutações observadas entre as sequências SARS-CoV-2, observamos que os estados também têm padrões de enriquecimento distintos para várias regiões anotadas. Geramos trilhas de todo o genoma que pontuam cada nucleotídeo com base em depleções de estado e enriquecimento para mutações observadas, que podem ser usadas para priorizar bases onde as mutações são mais prováveis ​​de serem consequentes. No geral, nossa análise sugere que os estados de conservação ConsHMM destacam bases genômicas com padrões evolutivos distintos nos alinhamentos de sequência de entrada e potencial significado biológico. As anotações de estado de conservação ConsHMM e trilhas de depleção de estado de mutações são recursos para interpretar o genoma e as mutações do SARS-CoV-2.


7,2 Determinando as funções de genes individuais

Uma vez que um novo gene tenha sido localizado em uma sequência do genoma, a questão de sua função deve ser abordada. Esta está se tornando uma área importante da pesquisa genômica, porque projetos de sequenciamento concluídos revelaram que sabemos muito menos do que pensávamos sobre o conteúdo de genomas individuais. E. coli e S. cerevisiae, por exemplo, foram estudados intensamente por análises genéticas convencionais antes do advento dos projetos de sequenciamento, e os geneticistas a certa altura estavam bastante confiantes de que a maioria de seus genes havia sido identificada. As sequências do genoma revelaram que, de fato, existem grandes lacunas em nosso conhecimento. Dos 4.288 genes que codificam proteínas no E. coli sequência do genoma, apenas 1853 (43% do total) haviam sido identificados anteriormente (Blattner et al., 1997). Para S. cerevisiae a cifra era de apenas 30% (Dujon, 1996).

Tal como acontece com a localização do gene, as tentativas de determinar as funções de genes desconhecidos são feitas por análise de computador e por estudos experimentais.

7.2.1. Análise computacional da função do gene

Já vimos que a análise por computador desempenha um papel importante na localização de genes em sequências de DNA, e que uma das ferramentas mais poderosas disponíveis para esse fim é a pesquisa de homologia, que localiza genes comparando a sequência de DNA em estudo com todas as outras sequências de DNA. nas bases de dados. A base da pesquisa de homologia é que genes relacionados têm sequências semelhantes e, portanto, um novo gene pode ser descoberto em virtude de sua semelhança com um gene equivalente, já sequenciado, de um organismo diferente. Agora vamos olhar mais de perto a análise de homologia e ver como ela pode ser usada para atribuir uma função a um novo gene.

Homologia reflete relações evolutivas

Genes homólogos são aqueles que compartilham um ancestral evolucionário comum, revelado por semelhanças de sequência entre os genes. Essas semelhanças formam os dados nos quais as filogenias moleculares se baseiam, como veremos no Capítulo 16. Os genes homólogos se enquadram em duas categorias:

Um par de genes homólogos geralmente não tem sequências de nucleotídeos idênticas, porque os dois genes sofrem mudanças aleatórias diferentes por mutação, mas eles têm sequências semelhantes porque essas mudanças aleatórias operaram na mesma sequência inicial, o gene ancestral comum. A pesquisa de homologia faz uso dessas semelhanças de sequência. A base da análise é que, se um gene recém-sequenciado for semelhante a um gene sequenciado anteriormente, uma relação evolutiva pode ser inferida e a função do novo gene provavelmente será a mesma, ou pelo menos semelhante, a a função do gene conhecido.

É importante não confundir as palavras homologia e semelhança. É incorreto descrever um par de genes relacionados como & # x0201880% homólogo & # x02019 se suas sequências tiverem 80% de identidade de nucleotídeos (Figura 7.9). Um par de genes está evolutivamente relacionado ou não, não há situações intermediárias e, portanto, não faz sentido atribuir um valor percentual à homologia.

Figura 7.9

Duas sequências de DNA com 80% de identidade de sequência.

A análise de homologia pode fornecer informações sobre a função de um gene inteiro ou de segmentos dentro dele

Uma pesquisa de homologia pode ser conduzida com uma sequência de DNA, mas geralmente uma sequência de gene provisória é convertida em uma sequência de aminoácidos antes de a pesquisa ser realizada. Uma razão para isso é que existem 20 aminoácidos diferentes nas proteínas, mas apenas quatro nucleotídeos no DNA, de modo que os genes não relacionados geralmente parecem ser mais diferentes uns dos outros quando suas sequências de aminoácidos são comparadas (Figura 7.10). Uma pesquisa de homologia é, portanto, menos provável de dar resultados espúrios se a sequência de aminoácidos for usada. Os aspectos práticos da pesquisa de homologia não são nada assustadores. Existem vários programas de software para este tipo de análise, sendo o mais popular o BLAST (Basic Local Alignment Search Tool Altschul et al., 1990). A análise pode ser realizada simplesmente acessando o site de um dos bancos de dados de DNA e inserindo a sequência na ferramenta de busca online.

Figura 7.10

A falta de homologia entre duas sequências é frequentemente mais aparente quando as comparações são feitas ao nível dos aminoácidos. Duas sequências de nucleotídeos são mostradas, com nucleotídeos que são idênticos nas duas sequências dadas em vermelho e não identidades dadas em azul. (mais. )

Uma correspondência positiva com um gene já no banco de dados pode dar uma indicação clara da função do novo gene, ou as implicações da correspondência podem ser mais sutis. Em particular, os genes que não têm nenhuma relação evolutiva óbvia podem ter segmentos curtos que são semelhantes uns aos outros. A explicação disso é frequentemente que, embora os genes não estejam relacionados, suas proteínas têm funções semelhantes e a sequência compartilhada codifica um domínio dentro de cada proteína que é central para essa função compartilhada. Embora os próprios genes não tenham um ancestral comum, os domínios sim, mas com seu ancestral comum ocorrendo em um tempo muito antigo, os domínios homólogos subsequentemente evoluíram não apenas por alterações de nucleotídeo único, mas também por rearranjos mais complexos que criaram novos genes dentro em que os domínios são encontrados (Seção 15.2.1). Um exemplo interessante é fornecido pelo domínio tudor, um motivo de aproximadamente 120 aminoácidos que foi identificado pela primeira vez na sequência do Drosophila melanogaster gene chamado tudor (Ponting, 1997). A proteína codificada pelo tudor gene, cuja função é desconhecida, é composto de dez cópias do domínio tudor, uma após a outra (Figura 7.11). Uma pesquisa de homologia usando o domínio tudor como teste revelou que várias proteínas conhecidas contêm este domínio. As sequências dessas proteínas não são muito semelhantes entre si e não há indicação de que sejam homólogas verdadeiras, mas todas possuem o domínio tudor. Essas proteínas incluem uma envolvida no transporte de RNA durante Drosófila oogênese, uma proteína humana com um papel no metabolismo do RNA e outras cujas atividades parecem envolver o RNA de uma forma ou de outra. A análise de homologia, portanto, sugere que a sequência de tudor desempenha algum papel na interação entre a proteína e seu substrato de RNA. As informações da análise do computador são incompletas por si mesmas, mas apontam o caminho para os tipos de experimentos que devem ser feitos para obter dados mais claros sobre a função do domínio tudor.

Figura 7.11

O domínio tudor. O desenho superior mostra a estrutura do Drosófila proteína tudor, que contém dez cópias do domínio tudor. O domínio também é encontrado em um segundo Drosófila proteína, sem casa, e na proteína âncora de quinase A humana (AKAP149), (mais.)

Análise de homologia no projeto do genoma de levedura

o S. O projeto do genoma cerevisiae ilustrou o potencial e as limitações da análise de homologia como meio de atribuir funções a novos genes. O genoma da levedura contém aproximadamente 6.000 genes, 30% dos quais foram identificados por análises genéticas convencionais antes do início do projeto de sequenciamento. Os 70% restantes foram estudados por análise de homologia, dando os seguintes resultados (Figura 7.12 Dujon, 1996):

Figura 7.12

Categorias de genes no genoma da levedura.

7.2.2. Atribuição de função de gene por análise experimental

É claro que a análise de homologia não é uma panaceia que pode identificar as funções de todos os novos genes. Métodos experimentais são, portanto, necessários para complementar e estender os resultados dos estudos de homologia. Este está provando ser um dos maiores desafios na pesquisa genômica, e a maioria dos biólogos moleculares concorda que as metodologias e estratégias atualmente em uso não são inteiramente adequadas para atribuir funções ao vasto número de genes desconhecidos que estão sendo descobertos por projetos de sequenciamento. O problema é que o objetivo - traçar um curso do gene à função - é o reverso do caminho normalmente seguido pela análise genética, em que o ponto de partida é um fenótipo e o objetivo é identificar o gene ou genes subjacentes. O problema que estamos abordando atualmente nos leva na direção oposta: começando com um novo gene e, esperançosamente, levando à identificação do fenótipo associado.

Análise funcional por inativação gênica

Na análise genética convencional, a base genética de um fenótipo é geralmente estudada procurando por organismos mutantes nos quais o fenótipo foi alterado. Os mutantes podem ser obtidos experimentalmente, por exemplo, tratando uma população de organismos (por exemplo, uma cultura de bactérias) com radiação ultravioleta ou um produto químico mutagênico (consulte a Seção 14.1.1), ou os mutantes podem estar presentes em uma população natural. O gene ou genes que foram alterados no organismo mutante são então estudados por cruzamentos genéticos (Seção 5.2.4), que podem localizar a posição de um gene em um genoma e também determinar se o gene é o mesmo que aquele que já foi foi caracterizado. O gene pode então ser estudado posteriormente por técnicas de biologia molecular, como clonagem e sequenciamento.

O princípio geral desta análise convencional é que os genes responsáveis ​​por um fenótipo podem ser identificados determinando quais genes estão inativados em organismos que apresentam uma versão mutante do fenótipo. Se o ponto de partida for o gene, em vez do fenótipo, a estratégia equivalente seria fazer a mutação do gene e identificar a mudança fenotípica resultante. Essa é a base da maioria das técnicas usadas para atribuir funções a genes desconhecidos.

Genes individuais podem ser inativados por recombinação homóloga

A maneira mais fácil de inativar um gene específico é interrompê-lo com um segmento não relacionado de DNA (Figura 7.13). Isso pode ser alcançado por recombinação homóloga entre a cópia cromossômica do gene e um segundo pedaço de DNA que compartilha alguma identidade de sequência com o gene alvo. A recombinação homóloga (e outros tipos de) são eventos complexos, dos quais trataremos em detalhes na Seção 14.3.1. Para os presentes propósitos, é suficiente saber que se duas moléculas de DNA têm sequências semelhantes, então a recombinação pode resultar na troca de segmentos das moléculas.

Figura 7.13

Inativação de genes por recombinação homóloga. A cópia cromossômica do gene alvo se recombina com uma versão interrompida do gene transportada por um vetor de clonagem. Como resultado, o gene alvo fica inativado. Para obter mais informações sobre recombinação (mais.)

Como a inativação de genes é realizada na prática? Vamos considerar dois exemplos, o primeiro com S. cerevisiae. Desde a conclusão da sequência do genoma em 1996, os biólogos moleculares de levedura embarcaram em um esforço internacional coordenado para determinar as funções do maior número possível de genes órfãos (Oliver, 1996b). Uma técnica que está sendo usada é mostrada na Figura 7.14 (Wach et al., 1994).O componente central é o & # x02018 cassete de exclusão & # x02019, que carrega um gene para resistência a antibióticos. Este gene não é um componente normal do genoma da levedura, mas funcionará se transferido para um cromossomo da levedura, dando origem a uma célula de levedura transformada que é resistente ao antibiótico geneticina. Antes de usar o cassete de deleção, novos segmentos de DNA são anexados como caudas a cada extremidade. Esses segmentos têm sequências idênticas às partes do gene da levedura que será desativada. Depois que o cassete modificado é introduzido em uma célula de levedura, ocorre recombinação homóloga entre as caudas do DNA e a cópia cromossômica do gene da levedura, substituindo esta última pelo gene de resistência a antibióticos. As células que sofreram a substituição são, portanto, selecionadas por plaqueamento da cultura em meio de ágar contendo geneticina. As colônias resultantes não têm a atividade do gene alvo e seus fenótipos podem ser examinados para se obter algumas informações sobre a função do gene.

Figura 7.14

O uso de um cassete de deleção de fermento. O cassete de deleção consiste em um gene de resistência a antibióticos precedido pelas sequências promotoras necessárias para a expressão em leveduras e flanqueado por dois sítios de restrição. Os segmentos inicial e final do gene alvo (mais.)

O segundo exemplo de inativação de genes usa um processo análogo, mas com camundongos em vez de levedura. O camundongo é freqüentemente usado como organismo modelo para humanos porque o genoma do camundongo é semelhante ao genoma humano, contendo muitos dos mesmos genes. A identificação das funções de genes humanos desconhecidos está, portanto, sendo realizada em grande parte pela inativação dos genes equivalentes no camundongo, sendo esses experimentos eticamente impensáveis ​​com humanos. A parte do procedimento de recombinação homóloga é idêntica à descrita para a levedura e mais uma vez resulta em uma célula na qual o gene alvo foi inativado. O problema é que não queremos apenas uma célula mutante, queremos um camundongo mutante inteiro, pois somente com o organismo completo podemos fazer uma avaliação completa do efeito da inativação do gene sobre o fenótipo. Para conseguir isso, é necessário usar um tipo especial de célula de mouse, um caule embrionário ou Célula ES (Evans et al., 1997). Ao contrário da maioria das células de camundongo, as células ES são totipotentes, o que significa que não estão comprometidas com uma única via de desenvolvimento e podem, portanto, dar origem a todos os tipos de células diferenciadas. A célula ES manipulada é, portanto, injetada em um embrião de camundongo, que continua a se desenvolver e eventualmente dá origem a uma quimera, um camundongo cujas células são uma mistura de células mutantes, derivadas das células ES manipuladas, e outras não mutantes, derivadas de todas as outras células do embrião. Isso ainda não é bem o que queremos, então os ratos quiméricos podem acasalar uns com os outros. Alguns dos descendentes resultam da fusão de dois gametas mutantes e, portanto, serão não quiméricos, pois cada uma de suas células carregará o gene inativado. Estes são ratos nocautee, com sorte, seus fenótipos fornecerão as informações desejadas sobre a função do gene em estudo. Isso funciona bem para muitas inativações de genes, mas alguns são letais e, portanto, não podem ser estudados em um camundongo knockout homozigoto. Em vez disso, um camundongo heterozigoto é obtido, o produto da fusão entre um gameta normal e um mutante, na esperança de que o efeito fenotípico da inativação do gene seja aparente, embora o camundongo ainda tenha uma cópia correta do gene em estudo.

Inativação de genes sem recombinação homóloga

A recombinação homóloga não é a única maneira de interromper um gene para estudar sua função. Uma alternativa é usar a marcação de transposon, na qual a inativação é alcançada pela inserção de um elemento transponível no gene. A maioria dos genomas contém elementos transponíveis (Seção 2.4.2) e, embora a maior parte deles seja inativa, geralmente há alguns que mantêm sua capacidade de transpor. Em circunstâncias normais, a transposição é um evento relativamente raro, mas às vezes é possível usar técnicas de DNA recombinante para fazer transposons modificados que mudam de posição em resposta a um estímulo externo. Uma maneira de fazer isso, envolvendo o retrotransposon de levedura Ty1, é mostrado na Figura 7.15.

Figura 7.15

Indução artificial de transposição. Técnicas de DNA recombinante têm sido usadas para colocar uma sequência promotora (Seção 3.2.2) que é responsiva a galactose a montante de um Ty1 elemento no genoma da levedura. Quando a galactose está ausente, o Ty1 elemento não é (mais.)

A marcação de transposon é fundamental para a técnica chamada pegada genética (Smith et al., 1995), que tem sido usado para inativar muitos órfãos de levedura como um primeiro passo para avaliar sua função. A marcação do transposon também é importante na análise do genoma da mosca-das-frutas, usando o endógeno Drosófila transposon chamado de P elemento (Engels, 2000). O ponto fraco da marcação de transposon é que é difícil atingir genes individuais, porque a transposição é mais ou menos um evento aleatório e é impossível prever onde um transposon vai parar depois de ter saltado. Se a intenção é inativar um determinado gene, então é necessário induzir um número substancial de transposições e, em seguida, rastrear os organismos resultantes para encontrar um com a inserção correta. A marcação de transposon é, portanto, mais aplicável a estudos globais da função do genoma, nos quais os genes são inativados aleatoriamente e grupos de genes com funções semelhantes identificados pelo exame da progênie em busca de mudanças fenotípicas interessantes.

Uma abordagem completamente diferente para a inativação de genes é fornecida pela interferência de RNA. Nessa técnica, em vez de interromper o próprio gene, seu mRNA é destruído. Isso é realizado pela introdução na célula de moléculas curtas de RNA de fita dupla cujas sequências correspondem às do mRNA que está sendo direcionado. Os RNAs de fita dupla são quebrados em moléculas mais curtas que induzem a degradação do mRNA (Figura 7.16). O processo demonstrou funcionar eficazmente no worm Caenorhabditis elegans (Incêndio et al., 1998), cujo genoma foi completamente sequenciado (ver Tabela 2.1) e que é visto como um organismo modelo importante para eucariotos superiores (Seção 12.3.2). Quase 2.500 dos 2.769 genes previstos no cromossomo I de C. elegans foram individualmente inativados pela interferência de RNA, simplesmente colocando os vermes em uma solução contendo o RNA de fita dupla e permitindo que os processos normais de captação transportem as moléculas para as células (Fraser et al., 2000). Projetos semelhantes estão sendo direcionados ao outro C. cromossomos de elegans.

Figura 7.16

Interferência de RNA. A molécula de RNA de fita dupla é quebrada pela ribonuclease Dicer em & # x02018 RNAs de interferência curta & # x02019 (siRNAs) de 21 & # x0201325 pb de comprimento. Uma fita de cada par de bases de siRNA para o mRNA alvo, que é então degradado (mais.)

A interferência de RNA é conhecida por ocorrer naturalmente em uma variedade de eucariotos, mas era esperado que aplicá-la a células de mamíferos fosse difícil porque esses organismos exibem uma resposta paralela ao RNA de fita dupla, em que a síntese de proteínas é geralmente inibida, resultando em morte celular ( Bass, 2001). Essas preocupações eram infundadas, no entanto, porque agora foi demonstrado que a introdução de RNAs de fita dupla em células humanas em cultura por fusão com lipossomas (Figura 7.17) resulta na inativação do mRNA alvo, sem diminuição mensurável na síntese protéica geral (Elbashir et al., 2001). A desvantagem de usar esta técnica com mamíferos é que só é possível trabalhar com células únicas, em vez de organismos inteiros, porque os RNAs de fita dupla têm uma vida útil limitada dentro da célula e não podem ser usados ​​para engendrar mudanças permanentes, como as necessárias na construção de ratos knockout.

Figura 7.17

A fusão com lipossomas pode ser usada para entregar RNA de fita dupla em uma célula humana.

A superexpressão do gene também pode ser usada para avaliar a função

Até agora, nos concentramos em técnicas que resultam na inativação do gene que está sendo estudado (& # x02018 perda de função & # x02019). A abordagem complementar é projetar um organismo no qual o gene de teste é muito mais ativo do que o normal (& # x02018 ganho de função & # x02019) e determinar quais mudanças, se houver, isso tem no fenótipo. Os resultados desses experimentos devem ser tratados com cautela devido à necessidade de distinguir entre uma mudança de fenótipo que é devido à função específica de um gene superexpresso e uma mudança de fenótipo menos específica que reflete a anormalidade da situação em que um único produto de gene está sendo sintetizado em quantidades excessivas, possivelmente em tecidos nos quais o gene é normalmente inativo. Apesar dessa qualificação, a superexpressão forneceu algumas informações importantes sobre a função do gene.

Para superexpressar um gene, um tipo especial de vetor de clonagem deve ser usado, projetado para garantir que o gene clonado direcione a síntese do máximo possível de proteínas. O vetor é, portanto, multicópia, o que significa que se multiplica dentro do organismo hospedeiro para 40 & # x02013200 cópias por célula, portanto, há muitas cópias do gene de teste. O vetor também deve conter um promotor altamente ativo (Seção 9.2.2) para que cada cópia do gene de teste seja convertida em grandes quantidades de mRNA, novamente garantindo que o máximo possível de proteína seja produzido. Um exemplo da técnica usada com genes de camundongos é mostrado na Figura 7.18 (Simonet et al., 1997). Neste projeto, os genes a serem estudados foram selecionados porque suas sequências sugeriam que eles codificam para proteínas que são secretadas na corrente sanguínea. O vetor de clonagem usado continha um promotor altamente ativo que é expresso apenas no fígado, de modo que cada camundongo transgênico superexpressou o gene de teste em seu fígado e, em seguida, secretou a proteína resultante no sangue. O fenótipo de cada camundongo transgênico foi examinado em busca de pistas sobre as funções dos genes clonados. Uma descoberta interessante foi feita quando se percebeu que um camundongo transgênico tinha ossos significativamente mais densos do que os de camundongos normais. Isso foi importante por duas razões: primeiro, permitiu que o gene relevante fosse identificado como envolvido na síntese óssea, segundo, a descoberta de uma proteína que aumenta a densidade óssea tem implicações para o desenvolvimento de tratamentos para a osteoporose humana, uma doença óssea frágil .

Figura 7.18

Análise funcional por superexpressão de genes. O objetivo é determinar se a superexpressão do gene em estudo tem efeito sobre o fenótipo de um camundongo transgênico. Um cDNA do gene é, portanto, inserido em um vetor de clonagem carregando um (mais)

Caixa 7.1

Análise do cromossomo I de Caenorhabditis elegans por interferência de RNA. Funções foram atribuídas a 339 genes em C. elegans cromossomo I após inativação individual pela técnica de RNA interferência. C. elegans é um minúsculo verme nematóide (veja a Figura (mais).

7.2.3. Estudos mais detalhados da atividade de uma proteína codificada por um gene desconhecido

A inativação e a superexpressão de genes são as principais técnicas usadas pelos pesquisadores do genoma para determinar a função de um novo gene, mas esses não são os únicos procedimentos que podem fornecer informações sobre a atividade do gene. Outros métodos podem estender e elaborar os resultados de inativação e superexpressão. Eles podem ser usados ​​para fornecer informações adicionais que ajudarão na identificação da função de um gene ou podem formar a base de um exame mais abrangente da atividade de uma proteína cujo gene já foi caracterizado.

A mutagênese dirigida pode ser usada para investigar a função do gene em detalhes

A inativação e a superexpressão podem determinar a função geral de um gene, mas não podem fornecer informações detalhadas sobre a atividade de uma proteína codificada por um gene. Por exemplo, pode-se suspeitar que parte de um gene codifica para uma sequência de aminoácidos que direciona seu produto proteico a um compartimento particular na célula, ou é responsável pela capacidade da proteína de responder a um sinal químico ou físico. Para testar essas hipóteses, seria necessário deletar ou alterar a parte relevante da sequência do gene, mas deixar o volume inalterado para que a proteína ainda seja sintetizada e retenha a maior parte de sua atividade. Os vários procedimentos de dirigido ao site ou em vitro mutagênese (Nota Técnica 7.1) pode ser usada para fazer essas mudanças sutis. Essas são técnicas importantes cujas aplicações residem não apenas no estudo da atividade gênica, mas também na área de engenharia de proteínas, onde o objetivo é criar novas proteínas com propriedades que sejam mais adequadas para uso em ambientes industriais ou clínicos.

Caixa 7.1

Mutagênese dirigida ao local. Métodos para fazer uma alteração precisa em uma sequência de genes, a fim de alterar a estrutura e, possivelmente, a atividade de uma proteína. Mudanças na estrutura da proteína podem ser projetadas por técnicas de mutagênese dirigida ao local, que (mais.)

Após a mutagênese, a sequência do gene deve ser introduzida na célula hospedeira para que a recombinação homóloga possa substituir a cópia existente do gene pela versão modificada. Isso representa um problema porque devemos ter uma maneira de saber quais células sofreram recombinação homóloga. Mesmo com a levedura, isso será apenas uma fração do total, e com os camundongos a fração será muito pequena. Normalmente, resolveríamos este problema colocando um gene marcador (por exemplo, um codificador de resistência a antibióticos) ao lado do gene mutado e procurando células que assumem o fenótipo conferido por este marcador. Na maioria dos casos, as células que inserem o gene marcador em seu genoma também inserem o gene mutado intimamente ligado e, portanto, são aquelas que desejamos. O problema é que em um experimento de mutagênese dirigida ao local, devemos ter certeza de que qualquer mudança na atividade do gene que está sendo estudado é o resultado da mutação específica que foi introduzida no gene, ao invés do resultado indireto da mudança de seu ambiente em o genoma inserindo um gene marcador próximo a ele. A resposta é usar uma substituição de gene em duas etapas mais complexa (Figura 7.19). Neste procedimento, o gene alvo é primeiro substituído pelo próprio gene marcador, sendo as células nas quais esta recombinação ocorre identificadas por seleção do fenótipo do gene marcador. Essas células são então utilizadas na segunda etapa da substituição do gene, quando o gene marcador é substituído pelo gene mutado, o sucesso agora sendo monitorado pela busca de células que perderam o fenótipo do gene marcador. Essas células contêm o gene mutado e seus fenótipos podem ser examinados para determinar o efeito da mutação direcionada sobre a atividade do produto proteico.

Figura 7.19

Substituição de genes em duas etapas. Consulte o texto para detalhes.

Genes repórteres e imunocitoquímica podem ser usados ​​para localizar onde e quando os genes são expressos

Pistas para a função de um gene podem frequentemente ser obtidas determinando onde e quando o gene está ativo. Se a expressão gênica for restrita a um determinado órgão ou tecido de um organismo multicelular, ou a um único conjunto de células em um órgão ou tecido, essa informação posicional pode ser usada para inferir o papel geral do produto gênico. O mesmo se aplica às informações relacionadas ao estágio de desenvolvimento em que um gene é expresso. Este tipo de análise tem se mostrado particularmente útil na compreensão das atividades dos genes envolvidos nos primeiros estágios de desenvolvimento em Drosófila (Seção 12.3.3) e está cada vez mais sendo usado para desvendar a genética do desenvolvimento dos mamíferos. Também é aplicável aos organismos unicelulares, como a levedura, que têm estágios de desenvolvimento distintos em seu ciclo de vida.

Determinar o padrão de expressão gênica dentro de um organismo é possível com um gene repórter. Este é um gene cuja expressão pode ser monitorada de maneira conveniente, idealmente por exame visual (Tabela 7.1), as células que expressam o gene repórter tornando-se azuis, fluorescentes ou emitindo algum outro sinal visível. Para que o gene repórter dê uma indicação confiável de onde e quando um gene de teste é expresso, o repórter deve estar sujeito aos mesmos sinais regulatórios do gene de teste. Isso é conseguido substituindo a ORF do gene de teste pela ORF do gene repórter (Figura 7.20). A maioria dos sinais regulatórios que controlam a expressão do gene estão contidos na região do DNA a montante da ORF, então o gene repórter deve agora exibir o mesmo padrão de expressão que o gene de teste. O padrão de expressão pode, portanto, ser determinado examinando o organismo para o sinal repórter.

Tabela 7.1

Exemplos de genes repórter.

Figura 7.20

Um gene repórter. O quadro de leitura aberto do gene repórter substitui o quadro de leitura aberto do gene que está sendo estudado. O resultado é que o gene repórter é colocado sob controle das sequências regulatórias que geralmente ditam o padrão de expressão (mais.)

Além de saber em quais células um gene é expresso, muitas vezes é útil localizar a posição dentro da célula onde se encontra a proteína codificada pelo gene. Por exemplo, dados importantes sobre a função do gene podem ser obtidos mostrando que o produto da proteína está localizado na mitocôndria, no núcleo ou na superfície da célula. Os genes repórter não podem ajudar aqui porque a sequência de DNA a montante do gene - a sequência à qual o gene repórter está ligado - não está envolvida no direcionamento do produto proteico à sua localização intracelular correta. Em vez disso, é a sequência de aminoácidos da própria proteína que é importante. Portanto, a única maneira de determinar onde a proteína está localizada é pesquisá-la diretamente. Isso é feito por imunocitoquímica, que utiliza um anticorpo específico para a proteína de interesse e se liga a essa proteína e a nenhuma outra. O anticorpo é marcado de forma que sua posição na célula e, portanto, a posição da proteína alvo, possam ser visualizados (Figura 7.21). A marcação fluorescente e a microscopia de luz são usadas para estudos de baixa resolução. Alternativamente, a imunocitoquímica de alta resolução pode ser realizada por microscopia eletrônica usando um marcador elétron-denso, como ouro coloidal.

Figura 7.21

Imunocitoquímica. A célula é tratada com um anticorpo que é marcado com um marcador fluorescente azul. O exame da célula mostra que o sinal fluorescente está associado à membrana mitocondrial interna. Uma hipótese de trabalho seria, portanto, (mais.)


Procedimentos de laboratório úmido

Amostragem e preservação de tecido

Danos ao DNA devem ser evitados. Exemplos de boas práticas para coleta e preservação de tecidos são apresentados em Wong et al., (2012).

Extração, qualidade e quantidade de DNA

A qualidade do DNA é avaliada com

Eletroforese em gel de agarose 0,8% –1% e uma escala de peso molecular de 25 Kbp. Uma única banda de alto peso molecular (

23 Kbp) indica boa integridade do DNA. A alta pureza do DNA é confirmada com uma taxa de absorbância de 260/280 nm de

1.8–2.0.DNA altamente fragmentado deve ser evitado, pois não pode ser quantificado com precisão usando métodos baseados em fluorometria (recomendado para quantificação precisa de DNA de fita dupla) (Sedlackova, Repiska, Celec, Szemes, & Minarik, 2013). Para Pool-seq, isso é particularmente importante, pois a contribuição uniforme do DNA individual em um pool depende de uma quantificação precisa. A quantidade de DNA inicial depende dos requisitos de entrada dos kits de preparação da biblioteca descritos na Tabela 1.

Padronização da concentração de DNA entre as amostras (para Pool-seq e lcWGR)

Cada amostra de DNA é diluída ou concentrada para um valor padrão desejado (ng / μl). O líquido de diluição deve estabilizar e proteger o DNA de danos (por exemplo, baixo TE). Um robô de manuseio de líquidos é recomendado para esta etapa para eliminar o potencial de erro de pipetagem (Figura B2).

Pooling de DNA (pool-seq)

O agrupamento consiste em misturar quantidades equimolares de DNA de vários indivíduos de uma população. Quando o interesse é identificar a base genética de uma característica, os pools devem incluir indivíduos que compartilham a mesma característica (não necessariamente da mesma população) e as categorias de características extremas têm potencial aumentado para levar a sinais genéticos mais claros. Um mínimo de 50 indivíduos é recomendado por pool, mas incluir mais (& gt100) (assumindo um aumento proporcional na profundidade de sequenciamento) pode ajudar a minimizar ligeiras irregularidades na representação de poucos indivíduos, levando a estimativas de frequência de alelos mais precisas (Gautier et al., 2013 Schlötterer et al., 2014). O DNA individual é então diluído para uma concentração padrão e verificado por meio de uma etapa de quantificação. Uma vez normalizado, a mesma quantidade de DNA de amostras individuais pode ser agrupada em um único tubo.

Preparação da biblioteca de sequenciamento

Vários kits para preparação de biblioteca estão disponíveis comercialmente. Eles diferem no custo por amostra, necessidade de um sonicador, incorporação de uma etapa de PCR e quantidade de DNA de entrada. Para saber o preço atual e os requisitos de entrada de DNA dos kits Illumina, consulte a Tabela 1. A amplificação de DNA com PCR é conveniente quando pequenas quantidades de DNA estão disponíveis, mas a PCR pode introduzir vieses (por exemplo, sub-representação de fragmentos ricos em GC, amplificação preferencial de fragmentos curtos e duplicatas) que podem levar a uma cobertura desigual em alguns locais. Alguns desses vieses podem ser minimizados fazendo ajustes de protocolo de PCR (Aird et al., 2011) (por exemplo, usando o mínimo possível de ciclos de PCR, normalmente 6–8) e removendo duplicatas in silico usando ferramentas Picard, http: // broadinstitute.github.io/picard ou samtools (Li, Handsaker, et al., 2009). Pequenas variantes estruturais (INDELs e CNVs) são detectadas a partir de leituras curtas de bibliotecas padrão (

Tamanho da inserção de 350-550 bp), enquanto a detecção de grandes variantes estruturais (abrangendo Mbs) pode exigir o uso de bibliotecas de pares de pares (

Tamanho de inserção de 2–20 Kb) ou dados de leitura longa. Considerações adicionais são discutidas em Head et al. (2014).

Sequenciamento de alto rendimento de bibliotecas de DNA

Atualmente, a tecnologia mais popular para sequenciamento de alto rendimento de leitura curta é a Illumina, embora novas tecnologias estejam sendo desenvolvidas (Goodwin et al., 2016). Illumina oferece uma precisão geral & gt99,5%, que é alta em relação a outras plataformas, mas ainda restritiva, pois é difícil distinguir a variação genética verdadeira de artefatos técnicos (Laehnemann, Borkhardt, & McHardy, 2016). A cobertura mínima sugerida para huWGR é & gt30 × / individual (Sims, Sudbery, Ilott, Heger, & Ponting, 2014), e para Pool-seq, é & gt50 × / pool (Schlötterer et al., 2014), embora muito uma cobertura mais alta deve ser direcionada (& gt100–200 ×) para detecção de alelos raros (Wang, Skoog, et al., 2016) e para lcWGR é 1–4 × / indivíduo (Nielsen et al., 2011 Buerkle & Gompert, 2013) . O número de pistas Illumina necessárias depende da compensação entre o tamanho do genoma, a cobertura do alvo por amostra / pool e o rendimento da célula de fluxo. O sequenciamento Illumina é potencialmente sujeito à variação de pista a pista (Ross, Russ, & Costello, 2013), um problema que pode ser minimizado pela distribuição de bibliotecas com código de barras em várias pistas (TCAG DNA sequencing facilidade com. Pess.).

Procedimentos de computador

Controle de qualidade de sequências brutas

Leia o mapeamento para um genoma de referência

Leituras de alta qualidade são mapeadas para um genoma com base na similaridade de sequência. Vários algoritmos para mapeamento de leitura curta existem e foram revisados ​​em outro lugar (Fonseca, Rung, Brazma, & Marioni, 2012 Hatem, Bozdaǧ, & Çatalyürek, 2013 Reinert et al., 2015 Ye, Meehan, Tong, & Hong, 2015). Alguns dos alinhadores livres mais comumente usados ​​são BWA (Li & Durbin 2009, 2010 Li, 2013) (Tabela 2) e Bowtie2 (Langmead & Salzberg, 2012). Artefatos de alinhamento podem surgir devido a vários fatores, incluindo desalinhamentos em torno de INDELs e divergência entre as leituras do sujeito e o genoma de referência. Portanto, é importante entender como os vários algoritmos funcionam para tomar decisões informadas sobre como otimizar os parâmetros de execução (consulte o Quadro 3). O produto final do mapeamento de leitura é um arquivo SAM (Sequence Alignment / Map) (vários Gb de tamanho), formato que contém uma linha para cada leitura e campos com informações associadas, incluindo posição de leitura e pontuação de qualidade de mapeamento (MAPQ ou MQ) (Li , Ruan, & Durbin, 2008) que podem ser usados ​​para filtragem SNP. Um arquivo BAM, a versão binária compactada e leve do arquivo SAM, é obtido usando as ferramentas do Picard e é o formato comumente preferido como arquivo de entrada por outros programas. A classificação de leitura, marcação de duplicatas, adição de grupos de leitura e indexação são etapas adicionais para preparar os arquivos BAM para a chamada de variantes (Van der Auwera et al., 2013).

Controle de qualidade de leituras mapeadas

Realinhamento Indel (opcional, dependendo do chamador SNP)

Os artefatos de mapeamento pontual em torno de INDELs não podem ser resolvidos otimizando os parâmetros de mapeamento global. Os realinhamentos INDEL locais são um pré-requisito necessário ao usar um algoritmo de chamada SNP baseado em site como samtools (Li, Handsaker, et al., 2009) ou gatk - unifiedgenotyper (McKenna et al., 2010). Esta etapa não é necessária ao usar chamadores baseados em haplótipos como freebayes (Garrison & Marth, 2012) ou o gatk - haplotypecaller (http://gatkforums.broadinstitute.org/gatk/discussion/7847). O realinhamento do INDEL pode ser feito com funções específicas no gatk (McKenna et al., 2010) (tutorial: https://software.broadinstitute.org/gatk/guide/article?id=7156). Um arquivo com INDELs conhecidos pode ajudar a definir alvos para realinhamento (Van der Auwera et al., 2013), mas na sua ausência, INDELs identificados durante o mapeamento de leitura podem ser usados ​​(modo padrão) (https://software.broadinstitute.org /gatk/events/slides/1504/GATKwr7-X-3-Non_human.pdf).

Recalibração da base (opcional, mas recomendado)

As pontuações de qualidade por base obtidas de sequenciadores geralmente apresentam erros. Como os algoritmos de chamada SNP e de probabilidade de genótipo consideram esses índices de qualidade, eles devem ser corrigidos. Isso pode ser alcançado usando o pacote de recalibração do escore de qualidade básico (BQSR) implementado no gatk (DePristo et al., 2011 Van der Auwera et al., 2013). Um conjunto conhecido de variantes é necessário, mas na sua ausência, uma abordagem iterativa de bootstrapping pode ser seguida (Tung, Zhou, Alberts, Stephens, & Gilad, 2015 Snyder-Mackler et al., 2016).

Detecção de sites variantes

Existe software específico para a detecção dos diferentes tipos de variantes genéticas (ou seja, SNPs e INDELs, SVs e CNVs). Tais algoritmos implementam modelos particulares de variação e fontes de informação para a descoberta de polimorfismos de dados de leitura curta. As posições variantes são detectadas de forma diferente nos dados hrWGR, huWGR, Pool-seq e lcWGR. Nos três primeiros, a detecção de site polimórfico é baseada na cobertura de leitura por site e qualidade por indivíduo ou população, enquanto no último, é baseada na cobertura e qualidade de todas as leituras cobrindo um site de vários indivíduos em uma determinada amostra. SNPs não são chamados em lcWGR, em vez disso, as probabilidades de genótipo por site são calculadas usando um software como o angsd (Korneliussen et al., 2014). No hrWGR, huWGR e Pool-seq, os SNPs são chamados usando software como gatk - haplotypecaller, samtools ou freebayes (Tabela 2). Uma revisão abrangente de chamadas SNP usando dados NGS pode ser encontrada em Nielsen et al. (2011) e (2012), e para variantes estruturais em Alkan et al. (2011). Cada algoritmo de chamada SNP faz uma série de suposições que podem levar a resultados diferentes. Assim, uma boa prática é comparar os SNPs detectados por pelo menos dois algoritmos (O'Rawe et al., 2013). O produto da chamada de variante é um arquivo VCF (Variant Call Format) contendo polimorfismos brutos e anotações (Danecek et al., 2011).

A seleção de um algoritmo de chamada SNP para dados Pool-seq requer a consideração de se ele lida com ploidias maiores do que 2. Em teoria, Ploidia de piscina = Ploidia por indivíduo × Número de indivíduos. Presumindo que 50 indivíduos diplóides sejam misturados, a ploidia do pool é 100. Essas grandes ploidias, no entanto, esgotam a memória do sistema e multiplicam o tempo de execução (em gatk - haplotypecaller https://software.broadinstitute.org/gatk/gatkdocs/org_broadinstitute_gatk_tools_Haypecaller_haplotypecaller. : //github.com/ekg/freebayes/commit/576bc703c246035342538a0feeecd1, acessado em junho de 2017).

Usar a ploidia padrão (2) leva o software a chamar apenas os 2 alelos mais comuns em um pool, já que a ploidia assume a frequência de alelos 50/50 (http://gatkforums.broadinstitute.org/gatk/discussion/6551/what-if -ploidy-is-set-to-2-for-pooled-dna-sequencing-experiment, acessado em junho de 2017). Isso pode não ser um problema ao chamar SNPs entre amostras intimamente relacionadas, pois os SNPs são considerados bialélicos, mas limitaria o número geral de alelos detectados ao comparar amostras relacionadas mais distantes. O uso de grandes ploidias agora está parcialmente resolvido estabelecendo-se o número máximo de alelos alternativos a serem considerados. No gatk v.3.7, isso pode ser definido com o sinalizador –MaxGenotypeCnt (https://software.broadinstitute.org/gatk/blog?id=8692), e em FreeBayes com –Use-best-n-alleles e definir um modo agrupado (–Pooled-discrete ou –Conjunto-contínuo) Essas configurações fazem com que os algoritmos sejam executados mais rapidamente ao custo da ausência de alelos de baixa frequência em loci multialélicos (https://github.com/ekg/freebayes).

Controle de qualidade de variantes brutas

SNPs com baixo suporte devem ser removidos do conjunto de dados final, pois muito provavelmente são chamadas falsas. Isso pode ser obtido usando a recalibração de pontuação de qualidade variante (VQSR) ou aplicando filtros rígidos. O VQSR é geralmente preferido, pois é uma filtragem imparcial com base em um grande número de variantes validadas que treinam o algoritmo (Van der Auwera et al., 2013). Filtros rígidos são geralmente aplicados na ausência de variantes conhecidas e incluem a remoção de SNPs com base em parâmetros de anotação atribuídos a cada SNP durante o mapeamento de leitura e a chamada de variantes. Filtros comuns incluem baixa complexidade, profundidade máxima, equilíbrio de alelos, fita dupla, fita Fisher e filtro de qualidade (Van der Auwera et al., 2013 Li & Wren, 2014), bem como qualidade de mapeamento (MQ) (Li et al. , 2008). Cada algoritmo de mapeamento calcula a pontuação MQ de forma diferente (Ruffalo, Koyutürk, Ray, & LaFramboise, 2012) para a qual as pontuações não devem ser comparadas entre programas. A aplicação de filtros rígidos, no entanto, pode influenciar o espectro de frequência do local, excluindo variantes de baixa frequência e é limitada pela ausência de diretrizes para selecionar quais anotações ou valores de corte devem ser aplicados a um dado dado. A escolha apropriada dos valores de corte é uma função dos dados. A recomendação é, portanto, testar diferentes combinações de parâmetros e limites para otimizar esses filtros. Este fórum, https://software.broadinstitute.org/gatk/guide/article?id=6925, pode oferecer algumas dicas sobre filtragem rígida usando gatk. Além disso, SNPs em regiões de baixa complexidade devem ser removidos, pois essas regiões são problemáticas para mapeamento de leitura e chamadas SNP (Li & Wren, 2014). O arquivo VCF final após o controle de qualidade está pronto para as análises posteriores.

Anotação de variante

Os termos da ontologia de sequência podem ser anotados em variantes em um arquivo VCF usando, por exemplo, programas vcfanno (Pedersen et al., 2016), annovar (Yang & Wang, 2015) ou snpeff (Cingolani et al., 2012).

Validação de variante

As variantes detectadas a partir de dados WGR devem ser tratadas como polimorfismos putativos, especialmente em Pool-seq e lcWGR. Métodos baseados em PCR de genotipagem de SNP podem ser usados ​​para validação de SNP. A amplificação por PCR e o sequenciamento Sanger podem ser usados ​​para validação de SVs.

Para obter orientações adicionais sobre como obter variantes de alta qualidade de dados de sequenciamento de alto rendimento, consulte Van der Auwera et al. (2013) e Pfeifer (2017).

Caixa 3. Pool-seq: Limitações, fontes de erro e viés e soluções potenciais


Página de pesquisa do corpo docente

Meu laboratório estuda como as sequências genômicas que controlam a expressão do gene funcionam e evoluem. Somos movidos pelo desejo de compreender a base molecular da diversidade do organismo e pela crença de que muitas diferenças na fisiologia, morfologia e comportamento surgem de mudanças na regulação gênica. Nosso objetivo final é ser capaz de interpretar a informação regulatória codificada no DNA genômico, de modo que possamos identificar rotineiramente sequências regulatórias, discernir sua função, prever as consequências de sua perturbação e reconstruir como elas evoluíram.

Somos um laboratório híbrido computacional e experimental que une análise computacional e experimental em escala de genoma da regulação gênica em Drosophila melanogaster e Saccharomyces cerevisiae com extensa análise de dados de sequência comparativa e análise experimental de espécies intimamente relacionadas a esses sistemas de modelo. Nós nos concentramos em escalas de tempo evolutivas curtas, onde é possível acoplar mudanças específicas nas sequências do genoma com alterações na regulação e expressão gênica.

Projetos atuais

Caracterização experimental da regulação gênica em D. melanogaster embriões

Para fornecer uma base experimental sólida para nossos estudos evolutivos, estamos trabalhando com vários outros laboratórios em Berkeley para dissecar sistematicamente a expressão e a regulação gênica no início D. melanogaster embrião. Para cada um dos aproximadamente 40 fatores de transcrição críticos na formação dos padrões ântero-posterior e dorsal-ventral, nossos objetivos são: 1) medir a afinidade do fator in vitro para cada uma de suas potenciais sequências alvo, 2) identificar as regiões genômicas ligadas por cada fator em embriões vivos, 3) determinar o padrão de expressão do fator e seus alvos em três dimensões na resolução celular. Eu e os membros do meu laboratório estamos ativamente envolvidos nas partes experimentais do projeto e realizando as análises desses dados.

Modelando as restrições evolutivas em sequências regulatórias eucarióticas

Agora temos dados de sequências comparativas extensas para moscas de fruta (12 genomas de Drosophila) e leveduras (muitos genomas de fungos), e estamos usando esses dados para caracterizar como os blocos de construção individuais de sequências regulatórias (locais de ligação de fator de transcrição) e estruturas de ordem superior (por exemplo, desenvolvimento potenciadores) evoluem. Estamos particularmente interessados ​​em compreender como a seleção para manter os locais de ligação do fator de transcrição afeta a evolução das sequências alvo, e como a extensa plasticidade observada na organização dos estimuladores de desenvolvimento está relacionada à sua função.

Caracterização e modelagem da variação da rede transcricional dentro e entre as espécies de Drosophila

Meu laboratório está aplicando os métodos de imagem fluorescente de alta resolução desenvolvidos para D. melanogaster para analisar sistematicamente a expressão gênica e dissecar redes regulatórias em outras Drosófila espécies e em várias linhas consanguíneas de D. melanogaster. Os dados experimentais detalhados que estamos gerando para D. melanogaster, e as sequências do genoma de 12 espécies de Drosophila são um recurso tremendo para estudar a evolução da regulação gênica. No entanto, é difícil estudar as mudanças na sequência sem entender o contexto em que essas sequências existem e como essas mudanças afetam a função. Embora seja impraticável repetir todos os experimentos feitos em D. melanogaster em todas as outras cepas e espécies, estamos estendendo várias classes de experimentos para cepas e espécies selecionadas para que possamos entender melhor a variação regulatória em cada um de seus vários níveis: como a variação da sequência afeta a ligação, como a variação da ligação afeta a expressão e como a variação da expressão afeta o fenótipo.

Usando a evolução da sequência regulatória para elucidar os mecanismos de regulação gênica

Para tirar proveito da diversidade de sequências fora do gênero Drosophila, estamos sequenciando loci importantes para o desenvolvimento de várias famílias de moscas não drosofilídeos para fornecer informações sobre os princípios básicos da regulação gênica. Estamos particularmente interessados ​​em sequências regulatórias que sofreram extensos rearranjos em seus repertórios de sítios de ligação sem alterar sua função. Embora grandes rearranjos sejam observados entre as sequências regulatórias de Drosophla, deve haver limites para essa plasticidade. Com o tempo, as sequências regulatórias acumularão apenas as mudanças em seus repertórios de locais de ligação que são compatíveis com os eventos bioquímicos complexos necessários para produzir sua saída regulatória específica. Portanto, acreditamos que coletar e caracterizar sequências regulatórias com funções semelhantes, mas sequências diversas, acabará por levar a uma melhor compreensão dos princípios bioquímicos que relacionam a composição e organização das sequências regulatórias com sua função. Para realizar essa análise, estamos atualmente sequenciando 20 loci-alvo de 6 espécies cada uma das famílias Sepsidae (moscas insígnias), Tephritidae (moscas verdadeiras) e Diopsidae (moscas stalk-eyed). Escolhemos esses taxa, que divergiram da Drosophila entre 100 e 150 milhões de anos atrás, para fornecer o equilíbrio ideal entre a divergência de sequência e a divergência funcional. Estamos complementando a análise de sequência com a análise experimental do desenvolvimento em espécies selecionadas de cada taxa, exame da atividade de intensificadores dessas espécies em D. melanogaster embriões e testes extensivos de hipóteses sobre a função e evolução da sequência regulatória.

Publicações selecionadas

[cópias de todos os artigos estão disponíveis em rana.lbl.gov]

Pollard DA, Moses AM, Iyer VN e Eisen MB (2006). Discordância generalizada de árvores gênicas com árvores de espécies em Drosófila: evidências para classificação de linhagem incompleta. PLoS Genetics 2(10): e173.

Moses AM, Pollard DA, Nix DA, Iyer VN, Li XY, Biggin MD, Eisen MB (2006). Turnover em grande escala de sítios de ligação de fator de transcrição funcional em Drosófila. PLoS Computational Biology 2(10): e130.

Pollard DA, Moses AM, Iyer VN e Eisen MB. Detectar os limites de conservação de elemento regulatório e estimativa de divergência usando múltiplos alinhamentos em pares e múltiplos. BMC Bioinformática 7(1):376.

Chiang DY, Nix DA, Shultzaberger RK, Gasch AP, Eisen MB (2006).Requisitos de arquitetura de promotor flexível para recrutamento de coativador. BMC Molecular Biology 7(1):16.

Gasch AP, Moses AM, Chiang DY, Fraser HB, Berardini M e Eisen MB (2004). Conservação e evolução de cis-sistemas reguladores em fungos Ascomycete. PLoS Biology 2(12): e398.

Moses AM, Chiang DY, Pollard DA, Iyer VN e Eisen MB (2004). MACACO: identificação de sítios de ligação de fator de transcrição conservados em alinhamentos múltiplos usando um modelo evolutivo específico de sítio de ligação. Biologia Genômica 5(12): R98.

Berman BP, Pfeiffer BD, Laverty TR, Salzberg SL, Rubin GM, Eisen MB e Celniker SE (2004). Identificação computacional de potencializadores de desenvolvimento: conservação e função de grupos de sítios de ligação de fator de transcrição em Drosophila melanogaster e Drosophila pseudoobscura. Biologia Genômica 5(9): R61.

Moses AM, Chiang DY, Kellis M, Lander ES e Eisen MB (2003). Variação específica da posição na taxa de evolução nos locais de ligação do fator de transcrição BMC Evolutionary Biology 3(19).

Berman BP, Nubu Y, Pfeiffer BD, Tomancak P, Celniker SE, Levine M, Rubin GM e Eisen MB (2002). Explorando o agrupamento do local de ligação do fator de transcrição para identificar cis- módulos regulatórios envolvidos na formação de padrões no Drosófila genoma. Proc Natl Acad Sci USA 99, 757-62.


Arquivos de dados adicionais

Os seguintes arquivos de dados adicionais estão disponíveis. Arquivo de dados adicionais 1: tecidos analisados ​​neste estudo. Os tecidos na parte superior, destacados em cores, são aqueles considerados entre os dez tipos de tecidos comuns. Aqueles com coloração idêntica foram combinados (pela média das intensidades normalizadas) para a análise da conservação da expressão gênica entre os dez tecidos comuns. Arquivo de dados adicionais 2: Dados de expressão do gene Microarray obtidos neste estudo. Clustergrams mostram os conjuntos de dados de microarray em frango, sapo e baiacu, exibidos como razão de expressão relativa (consulte Materiais e métodos) de cada gene dentro de cada um dos 20 tecidos perfilados. Linhas e colunas foram ordenadas independentemente para cada conjunto de dados, e ramos de alto nível quebrados e reorganizados para obter uma aparência diagonal, conforme descrito em [44]. Arquivo de dados adicionais 3: Dendrograma de correlações entre dez tecidos comuns, usando 1 - correlação de Pearson e ligação média sobre 3.074 genes. Arquivo de dados adicionais 4: Categorias de Gene Ontologia que tendem a ser altamente expressas em cada um dos dez tecidos comuns. Categorias selecionadas de processos biológicos GO enriquecidas entre genes altamente expressos em cada um dos dez tecidos comuns em cada espécie são mostradas. O tecido e a ordem da categoria GO foram organizados manualmente no mapa de calor. (Uma matriz completa de pontuações WMW é fornecida no arquivo de dados adicionais 13.) Arquivo de dados adicionais 5: Matriz binária de genes classificados como tendo eventos de expressão totalmente conservados, com base na intensidade do ponto de microarray classificado, em cinco limites diferentes (1/6, 1 / 5, 1/4, 1/3, 1/2). Arquivo de dados adicionais 6: Distribuições cumulativas resumindo comparações de pares de conservação da expressão gênica usando a medida de correlação de Pearson. As distribuições cumulativas mostram a proporção de todos os 3.074 genes com Pearson r (intensidades normalizadas) abaixo do valor mostrado no eixo horizontal, para ortólogos reais (verde) e genes pareados aleatoriamente (azul). Arquivo de dados adicionais 7: Matriz de características usada para comparar medidas de conservação de expressão com outros atributos de genes individuais, com correlações de Spearman e p-valores. Arquivo de dados adicionais 8: WMW p-valores para atributos de genes categóricos, com classificações determinadas pela conservação relativa da expressão do gene por correlação de Pearson mediana para cada espécie contra Tetraodon. Arquivo de dados adicionais 9: Distribuição cumulativa de pontuações EEL para ortologia real e permutada entre humanos e baiacu. Arquivo de dados adicionais 10: Divisão da proporção de todos os genes em cada espécie que são expressos dentro de cada tecido. Arquivo de dados adicionais 11: Lista de genes classificados como TFs com base em conter um domínio de ligação ao DNA conhecido. Arquivo de dados adicionais 12: Clustergrams mostrando correlações de Spearman e p-valores para comparações de conservação da expressão gênica versus outras propriedades gênicas. Arquivo de dados adicionais 13: enriquecimento WMW p-valores dos genes associados às anotações do processo biológico GO expressos em cada tecido de cada espécie (matriz completa usada para criar o arquivo de dados adicionais 4).


Resumo

As espécies avaliadas como ameaçadas pela União Internacional de Conservação da Natureza (IUCN) mostram evidências de declínio no tamanho da população. A diversidade genética é perdida por esse declínio, o que reduz o potencial adaptativo da espécie e aumenta seu risco de extinção em um ambiente em mudança. Neste estudo, coletamos um extenso conjunto de dados de diversidades de nucleotídeos no gene mitocondrial COI (Citocromo C Oxidase subunidade I) para 4.363 espécies animais avaliadas pela IUCN e encontramos níveis significativamente reduzidos de diversidade em espécies ameaçadas de classes de animais de vida longa. Em seguida, construímos um quadro comparativo adquirindo o intervalo de confiança de 95% (CI) dos valores médios da diversidade de nucleotídeos COI em amostras bootstrapped de espécies não ameaçadas. Finalmente, testamos o quadro comparativo com dados das espécies de bivalves ameaçadas de extinção, Pinna nobilis. Concluímos que a diversidade de nucleotídeos em COI é um bom proxy para uma primeira avaliação do estado de conservação das populações de espécies, onde o conhecimento prévio é inexistente e o censo é difícil de realizar.


Reconhecimentos

Somos gratos a Eoghan Harrington e aos membros do grupo Bork em EMBL por discussões úteis e assistência. Agradecemos também a Sergej Andrejev pela ajuda na implementação da FCA. Gostaríamos de agradecer a Jean-Louis Petit pela excelente assistência técnica e a Sabine Tricot por sua expertise em LC / MS. Agradecemos também a Véronique de Berardinis por nos dar acesso à coleção de cepas bacterianas do Genoscope. A pesquisa que levou a esses resultados recebeu financiamento do Conselho de Pesquisa em Ciências Naturais e Engenharia do Canadá (NSERC), CEA, CNRS, Universidade de Evry e EMBL. Agradecemos a Y. Yuan e o serviço de TI da EMBL pelo suporte técnico e computacional

Contribuições do autor: PB planejou e supervisionou este estudo. A TY conduziu todas as análises de bioinformática. TY e ASW analisaram os dados. PB, TY e ASW escreveram o manuscrito. JR contribuiu para a concepção deste estudo. KRP e AZ contribuíram para a modelagem metabólica. NP, AP e MS realizaram os experimentos. JW deu suporte técnico e consultoria conceitual.


Assista o vídeo: Ferramentas da biologia molecular aplicadas nos estudos de doenças de plantas (Janeiro 2022).