Em formação

9: Investigando DNA - Biologia


9: Investigando DNA

Nova descoberta mostra que células humanas podem escrever sequências de RNA em DNA

As células contêm maquinaria que duplica o DNA em um novo conjunto que vai para uma célula recém-formada. Essa mesma classe de máquinas, chamada de polimerases, também cria mensagens de RNA, que são como notas copiadas do repositório central de DNA de receitas, para que possam ser lidas com mais eficiência em proteínas. Mas pensava-se que as polimerases funcionavam apenas em uma direção do DNA para o DNA ou RNA. Isso evita que as mensagens de RNA sejam reescritas de volta no livro de receitas mestre do DNA genômico. Agora, os pesquisadores da Thomas Jefferson University fornecem a primeira evidência de que segmentos de RNA podem ser escritos de volta no DNA, o que potencialmente desafia o dogma central da biologia e pode ter amplas implicações que afetam muitos campos da biologia.

"Este trabalho abre a porta para muitos outros estudos que nos ajudarão a entender a importância de ter um mecanismo para converter mensagens de RNA em DNA em nossas próprias células", disse Richard Pomerantz, Ph.D., professor associado de bioquímica e biologia molecular da Thomas Jefferson University. "A realidade de que uma polimerase humana pode fazer isso com alta eficiência levanta muitas questões." Por exemplo, esta descoberta sugere que as mensagens de RNA podem ser usadas como modelos para reparar ou reescrever o DNA genômico.

O trabalho foi publicado no dia 11 de junho na revista. Science Advances.

Junto com o primeiro autor Gurushankar Chandramouly e outros colaboradores, a equipe do Dr. Pomerantz começou investigando uma polimerase muito incomum, chamada polimerase teta. Das 14 DNA polimerases em células de mamíferos, apenas três fazem a maior parte do trabalho de duplicação de todo o genoma para se preparar para a divisão celular. Os 11 restantes estão principalmente envolvidos na detecção e na realização de reparos quando há uma quebra ou erro nas fitas de DNA. A polimerase teta repara o DNA, mas é muito propensa a erros e comete muitos erros ou mutações. Os pesquisadores, portanto, notaram que algumas das qualidades "ruins" da polimerase teta eram compartilhadas com outra máquina celular, embora uma seja mais comum em vírus - a transcriptase reversa. Como a Pol teta, a transcriptase reversa do HIV atua como uma DNA polimerase, mas também pode se ligar ao RNA e ler o RNA de volta em uma fita de DNA.

Em uma série de experimentos elegantes, os pesquisadores testaram a polimerase teta contra a transcriptase reversa do HIV, que é um dos mais bem estudados de seu tipo. Eles mostraram que a polimerase teta era capaz de converter mensagens de RNA em DNA, o que fez tão bem quanto a transcriptase reversa do HIV, e que na verdade fez um trabalho melhor do que ao duplicar DNA em DNA. A polimerase teta foi mais eficiente e introduziu menos erros ao usar um modelo de RNA para escrever novas mensagens de DNA do que ao duplicar DNA em DNA, sugerindo que essa função poderia ser seu objetivo principal na célula.

O grupo colaborou com o laboratório do Dr. Xiaojiang S. Chen na USC e usou cristalografia de raios-X para definir a estrutura e descobriu que essa molécula foi capaz de mudar de forma para acomodar a molécula de RNA mais volumosa - um feito único entre as polimerases.

"Nossa pesquisa sugere que a principal função da polimerase teta é atuar como uma transcriptase reversa", diz o Dr. Pomerantz. "Em células saudáveis, o objetivo desta molécula pode ser o reparo de DNA mediado por RNA. Em células não saudáveis, como as células cancerosas, a polimerase teta é altamente expressa e promove o crescimento de células cancerosas e a resistência aos medicamentos. Será emocionante entender melhor como A atividade da polimerase teta no RNA contribui para o reparo do DNA e a proliferação de células cancerosas. "


Introdução

O campo rapidamente emergente de vesículas extracelulares (EVs) levou a mudanças de paradigma em muitas áreas diferentes da biologia e biomedicina. A liberação de EVs, originalmente pensada para agir apenas para remover substâncias nocivas das células, mostrou ter muito mais consequências funcionais e uma ampla gama de implicações para a biomedicina. Para entender a estrutura e a função dos EVs, as abordagens bioquímicas direcionadas iniciais rapidamente progrediram para análises em grande escala sem polarização usando biologia de sistemas e bioinformática. Em 2009, o primeiro banco de dados com curadoria manual de proteínas EV, RNA e lipídios, ExoCarta 1 (http://www.exocarta.org/), foi lançado. Ele foi seguido por dois bancos de dados adicionais, incluindo Vesiclepedia 2,3 (http://www.microvesicles.org/) e EVpedia 4,5 (http://student4.postech.ac.kr/evpedia2_xe/xe/). Estes são repositórios de conjuntos de dados de RNA, proteínas, lipídios e metabólitos. Dado que os parâmetros pré-analíticos podem desempenhar papéis importantes na qualidade das preparações de VE, as entradas do banco de dados devem ser interpretadas com cautela e atenção especial deve ser dada às condições pré-analíticas. Recentemente, a ontologia genética foi estendida ao contexto da comunicação EV, devido ao crescente reconhecimento da importância do campo EV 6. Além disso, ferramentas de bioinformática que podem ser usadas para analisar conjuntos de dados EV tornaram-se disponíveis 7,8. As direções futuras podem incluir o seguinte: (i) análises de biologia de sistemas após pré-analíticos EV mais padronizados, (ii) análises multiômicas de amostras EV (combinações de diferentes grupos -ômicos usados ​​para a análise) e (iii) a determinação de doenças específicas Redes / padrões moleculares EV compostos por diferentes tipos de moléculas. Além disso, as abordagens da biologia de sistemas podem ser estendidas a novos campos, como a biologia de sistemas baseada em imagens.

Avanços na análise de sistemas biológicos complexos, como EVs, ajudarão a revelar o significado biológico dessas estruturas recentemente descobertas e a explorar seu potencial diagnóstico e / ou terapêutico.


Resultados e discussão

Visão geral do RnBeads e novos recursos

RnBeads inclui módulos para importação de dados, controle de qualidade, filtragem e normalização ("pré-processamento"), exportação de dados processados ​​("faixas e tabelas"), inferência de covariável (por exemplo, predição de idade epigenética e heterogeneidade de tipo de célula a partir de dados de metilação de DNA), exploratória análise (por exemplo, redução de dimensão, distribuição global dos níveis de metilação do DNA, agrupamento hierárquico) e análise diferencial de metilação do DNA (Fig. 1). Cada módulo de análise gera um relatório HTML que combina descrições de métodos, tabelas de resultados e gráficos de classificação de publicação. Esses relatórios fornecem ao usuário um resumo abrangente e facilmente compartilhável do conjunto de dados.

Visão geral do fluxo de trabalho de análise RnBeads e novos recursos adicionados ao RnBeads 2.0. Desenho conceitual do fluxo de trabalho RnBeads para análise de metilação de DNA, listando os principais recursos (à direita) para cada um dos módulos de análise RnBeads (centro), com recursos recém-adicionados indicados em texto vermelho em negrito. guia, arquivos tabulares (por exemplo, separados por vírgula) idat, arquivos de intensidade de sinal Infinium geo, download do repositório de dados GEO

Dos vários recursos que introduzimos no RnBeads desde a publicação original em 2014, destacamos especificamente as seguintes quatro áreas:

Novos tipos de dados e análise de plataforma cruzada: RnBeads agora suporta microarrays EPIC e permite a integração perfeita de dados em diferentes ensaios de metilação de DNA (por exemplo, microarrays EPIC, 450k e 27k, bem como WGBS e RRBS), o que facilita meta-análises de metilação de DNA que combinam várias fontes de dados em um único conjunto de resultados.

Métodos estendidos de análise e inferência: Adicionamos uma nova funcionalidade para lidar com dados incompletos e valores ausentes, para detectar evidências genéticas de contaminação da amostra ou baixa qualidade de dados, para quantificar a heterogeneidade de metilação do DNA e para inferência de informações fenotípicas baseada na metilação do DNA. Nós incorporamos o algoritmo LUMP [22], que estima o conteúdo de células imunes de tumores e outras amostras de tecido heterogêneo, e predição de idade epigenética [23] para dados de microarray Infinium e sequenciamento de bissulfito. Essas previsões são úteis não apenas para inferir anotações de doadores ausentes, mas também para detectar desvios indicativos de envelhecimento acelerado [24] ou evidência de confusão de amostras. Novos recursos adicionais incluem a identificação de regiões genômicas caracterizadas por variabilidade diferencial de metilação do DNA [25, 26] e análise de enriquecimento da região genômica usando a ferramenta LOLA [27].

Nova interface amigável: Nós fornecemos uma interface gráfica de usuário para RnBeads que facilita a configuração e execução de análises de metilação de DNA. Junto com os relatórios HTML interativos e autoexplicativos do RnBeads, esta nova interface torna as análises do RnBeads mais acessíveis para usuários com conhecimento limitado de R / Biocondutor.

Melhor eficiência computacional: Usando paralelização e distribuição automática de análises RnBeads em um cluster de computação de alto desempenho (HPC), fomos capazes de processar conjuntos de dados compreendendo centenas de perfis RRBS / WGBS e milhares de perfis baseados em microarray em uma única execução de análise.

Para ilustrar a utilidade prática desses novos recursos RnBeads, apresentamos quatro casos de uso: (i) metilação do DNA em amostras de sangue periférico humano, (ii) metilação do DNA específico do tipo de célula na hematopoiese humana, (iii) heterogeneidade de metilação do DNA em amostras de câncer e (iv) análise de metilação de DNA de plataforma cruzada. Versões reexecutáveis ​​detalhadas dessas análises, incluindo configurações e resultados, estão disponíveis para visualização e download no site RnBeads (https://rnbeads.org/methylomes.html). Essas análises pré-configuradas e relatórios pré-calculados também fornecem um bom ponto de partida para aprender sobre o uso de RnBeads, complementando assim os tutoriais fornecidos no site RnBeads (https://rnbeads.org/tutorial.html) e para configurar análises personalizadas que integram conjuntos de dados recém-gerados com dados de referência disponíveis publicamente.

Caso de uso 1: Analisando a metilação do DNA em uma grande coorte de amostras de sangue periférico

Para ilustrar o uso de RnBeads para analisar dados de microarray de metilação de DNA em uma grande coorte, obtivemos perfis de Infinium 450k para amostras de sangue periférico de 732 indivíduos saudáveis ​​[28]. Também incluímos perfis de referência para os tipos de células sanguíneas classificados [29], a fim de contabilizar as diferenças interindividuais na frequência dos diferentes tipos de células [30]. Primeiro, usamos RnBeads para inferir a idade e o sexo do doador para cada amostra, preenchendo assim um punhado de anotações ausentes com valores imputados, enquanto também verificamos possíveis misturas de amostras entre as amostras que têm idade e sexo do doador documentados como parte de seus anotação (Fig. 2a, b). Em segundo lugar, realizamos uma estimativa baseada em referência da composição da célula imune [30], conforme implementado no RnBeads, e descobrimos que o conteúdo da célula imune inferida [22] (bem como outras anotações) está de fato associado a importantes componentes principais da metilação do DNA conjunto de dados (Fig. 2c, d). Nossos resultados enfatizam a necessidade de corrigir essas covariáveis ​​ao identificar CpGs e regiões genômicas que estão associadas à (s) anotação (ões) de interesse primário. Terceiro, comparamos a idade cronológica com a fração de células T CD4 + inferidas a partir dos dados de metilação do DNA usando tipos de células sanguíneas classificadas como referência [30] (Fig. 2e) e observamos uma correlação negativa, consistente com a mudança conhecida relacionada à idade em direção hematopoiese mieloide (em vez de linfóide) [31]. Em resumo, este caso de uso ilustra a previsão de idade, sexo e composição celular com base em dados de metilação de DNA e fornece uma estrutura para estudos de associação de epigenoma em todo o epigenoma baseado em microarranjos.

Análise de um grande conjunto de dados de metilação de DNA de amostras de sangue perfiladas usando Infinium 450k. uma Gráfico de dispersão mostrando a correlação entre a idade epigenética prevista a partir da metilação do DNA e a idade cronológica relatada para 729 doadores saudáveis ​​(três indivíduos foram excluídos porque nenhuma idade cronológica foi relatada). b Posicionamento das amostras em espaço bidimensional para predição de sexo. c Associação estatística entre componentes principais (colunas) e anotações de amostra (linhas). Associações significativas com p valores abaixo de 0,01 são marcados por círculos preenchidos, enquanto valores não significativos são representados como círculos vazios. d Análise de componentes principais para 792 perfis de metilação de DNA baseados em sangue, compreendendo 732 amostras de sangue periférico e 60 populações de células sanguíneas classificadas, usando os mesmos componentes principais do painel c. O conteúdo de células imunológicas foi estimado usando o algoritmo LUMP. e Gráfico de dispersão mostrando a correlação negativa entre a idade cronológica e a fração estimada de células T CD4 +

Caso de uso 2: dissecando o cenário de metilação do DNA da hematopoiese humana

Os esforços do International Human Epigenome Consortium [14] e seus projetos contribuintes resultaram em grandes conjuntos de dados WGBS disponíveis publicamente para vários tipos de células. Para demonstrar a capacidade do RnBeads de processar essas grandes coleções de referência, analisamos um conjunto de dados de DNA metiloma compreendendo 195 perfis WGBS e 26.238.599 locais CpG únicos (após a etapa de pré-processamento) para vários tipos de células hematopoiéticas (Fig. 3a), que foi originalmente estabelecido pelo Projeto BLUEPRINT [32]. Focando em conjuntos de regiões genômicas predefinidas, incluindo o Ensembl Regulatory Build [33], observamos a distribuição esperada de metilação de DNA, com altos níveis de metilação de DNA em regiões de tiling em todo o genoma, níveis ligeiramente mais baixos em potencializadores e locais de ligação de fator de transcrição, e níveis muito mais baixos (e uma distribuição bimodal) de metilação do DNA em promotores de genes e locais de início da transcrição (Fig. 3b). Os perfis de metilação do DNA agrupados de acordo com a linhagem celular (células linfóides vs. mieloides), estágio de maturação celular (células virgens vs. efetoras / de memória) e tipo de célula (Fig. 3c). Comparando dois tipos de células mieloides (monócitos e neutrófilos), RnBeads identificou níveis de metilação de DNA diminuídos em monócitos em um subconjunto de regiões regulatórias putativas (Fig. 3d). A análise LOLA para enriquecimento de conjuntos de regiões genômicas [27] (um novo recurso que introduzimos no RnBeads 2.0 para facilitar a interpretação biológica) identificou o enriquecimento característico para regiões regulatórias específicas do tipo de célula (incluindo cromatina aberta específica de monócitos e suas modificações de histonas associadas) e para os locais de ligação de importantes fatores de transcrição hematopoiéticos, como CEBPB e SPI-1 / PU.1. Em resumo, este caso de uso demonstra a escalabilidade de RnBeads para grandes conjuntos de dados de metilação de DNA (que envolve a distribuição de trabalhos de análise em um cluster de HPC para cálculo paralelizado eficiente), análise baseada em região de metilação de DNA e interpretação biológica por análise de enriquecimento de conjunto de região .

Análise de todo o genoma da metilação do DNA em células hematopoiéticas perfiladas usando WGBS. uma Visão geral dos tipos de células e números de amostra no conjunto de dados BLUEPRINT WGBS (versão de agosto de 2016), que foi analisado com RnBeads. b Distribuição dos níveis de metilação do DNA para diferentes tipos de conjuntos de regiões genômicas. c Redução da dimensão t-SNE com base nas distâncias euclidianas da metilação média do DNA em regiões regulatórias putativas. Os tipos de células são codificados por cores como no painel uma. d Gráficos de dispersão de densidade mostrando níveis diferenciais de metilação de DNA entre monócitos (N = 20) e neutrófilos (N = 10). A densidade do ponto é indicada por sombreado azul. Os 0,1% das regiões nas áreas mais escassamente povoadas do gráfico são mostradas como pontos individuais. As 500 regiões hipometiladas de maior classificação em monócitos em comparação com neutrófilos são indicadas em roxo. e Razões log-odds da análise de enriquecimento LOLA para as 500 regiões destacadas no painel d. As 20 categorias mais enriquecidas dos bancos de dados LOLA Core e Extended são mostradas. Barras de cores diferentes representam diferentes tipos de dados da região genômica (por exemplo, picos para marcas de histonas ou locais de ligação de fator de transcrição). Mf, macrófago GM, célula linfoblastóide Mo, monócito REMC, Roadmap Epigenomics Mapping Consortium

Caso de uso 3: quantificando a heterogeneidade de metilação do DNA em uma coorte de câncer infantil

A heterogeneidade epigenética emergiu recentemente como uma propriedade chave das amostras de tumor [34]. Para demonstrar a utilidade do RnBeads para a pesquisa do câncer, nós reanalisamos 188 perfis RRBS publicados recentemente de tumores de sarcoma de Ewing, linhas celulares e células-tronco mesenquimais [7]. O sarcoma de Ewing é um câncer ósseo pediátrico caracterizado por baixa heterogeneidade genética, mas por mudanças marcantes no epigenoma [7, 35]. O processamento de dados e o controle de qualidade resultaram em 2.217.186 locais CpG exclusivos que foram cobertos por pelo menos cinco leituras de sequenciamento em mais de 50% das amostras. Com base nesses CpGs, agregamos os valores de metilação do DNA em cada amostra através de regiões genômicas anotadas, incluindo elementos regulatórios putativos definidos no Ensembl Regulatory Build [33]. A análise de componentes principais mostrou a separação esperada entre tumores, linhas celulares e células-tronco mesenquimais, com maior heterogeneidade amostra a amostra entre os tumores e linhas celulares em comparação com as células-tronco mesenquimais (Fig. 4a). Comparamos os tumores primários com as linhas celulares usando o módulo de metilação diferencial de DNA de RnBeads e descobrimos que a maioria das regiões diferencialmente metiladas estavam hipermetiladas nas linhas celulares (Fig. 4b). Também observamos um aumento da variância nas linhas de células (Fig. 4c). A análise LOLA detectou enriquecimentos marcadamente diferentes entre regiões diferencialmente metiladas (DMRs) e regiões diferencialmente variáveis ​​(DVRs), indicando que as duas medidas fornecem informações complementares sobre a paisagem de metilação do DNA (Fig. 4d-f). As regiões hipermetiladas em linhas de células de sarcoma de Ewing foram enriquecidas para locais de hipersensibilidade à DNase em várias amostras de tecido saudável (Fig. 4d), consistente com a hipermetilação generalizada e silenciamento de regiões regulatórias não essenciais em linhas de células. Em contraste, as regiões hipervariáveis ​​foram enriquecidas para a ligação do fator de transcrição e modificações de histonas em linhas de células cancerígenas e células-tronco embrionárias (Fig. 4f), indicativo de aumento da plasticidade regulatória das linhas celulares de sarcoma de Ewing em comparação com os tumores primários. Em resumo, este caso de uso descreve a análise de um conjunto de dados baseado em RRBS (que se beneficia da análise baseada em região devido a flutuações na cobertura de CpG único) e demonstra a utilidade de RRBS e RnBeads para investigar a heterogeneidade de metilação do DNA em amostras de tumor .

Dissecção da heterogeneidade de metilação do DNA em amostras de sarcoma de Ewing perfiladas usando RRBS. uma Análise de componentes principais de um conjunto de dados RRBS para tumores de sarcoma de Ewing, linhas celulares e células-tronco mesenquimais, com base nos valores de metilação do DNA agregados nas regiões de construção regulatória do Ensembl. b Gráfico de dispersão de densidade comparando os níveis de metilação de DNA agregado entre tumores de sarcoma de Ewing (N = 140) e linhas celulares de sarcoma de Ewing (N = 16). Marcadas em roxo estão as regiões diferencialmente metiladas de classificação mais elevada até um ponto de corte selecionado automaticamente. c Gráfico de dispersão de densidade comparando a variância da metilação do DNA entre tumores de sarcoma de Ewing e linhagens celulares. Regiões significativamente variáveis ​​diferencialmente são marcadas em marrom. d Enriquecimento (log-odds ratios) com base na análise de LOLA para as regiões diferencialmente metiladas mostradas no painel b e no painel e. Barras de cores diferentes representam diferentes tipos de dados da região genômica. e Gráfico de dispersão de densidade comparando as razões logarítmicas entre os níveis de metilação do DNA e a variância em tumores de sarcoma de Ewing e linhas celulares. f Enriquecimento (log-odds ratios) com base na análise LOLA para regiões diferencialmente variáveis ​​mostradas no painel c e no painel e. ESC, CGIs de células-tronco embrionárias, ilhas CpG

Caso de uso 4: Analisando dados de metilação de DNA em diferentes plataformas de ensaio

Várias gerações de microarrays de metilação de DNA Infinium foram usadas ao longo dos anos, e pode ser necessário combinar vários conjuntos de dados em uma análise integrativa. RnBeads agora fornece métodos dedicados para análise de plataforma cruzada, tornando possível combinar objetos de dados RnBeads entre as diferentes versões do microarray Infinium (27k, 450k, EPIC) e com dados de sequenciamento de bissulfito (RRBS, WGBS). Para demonstrar esse recurso, analisamos um conjunto de dados de benchmarking compreendendo três plataformas de ensaio diferentes: Infinium 450k microarrays, Infinium EPIC microarrays e WGBS [36]. Todos os três conjuntos de dados foram carregados e pré-processados ​​separadamente usando RnBeads, o que resultou em objetos de dados com sites CpG exclusivos 443.053 (450k), 801.716 (EPIC) e 25.918.426 (WGBS), respectivamente. Aplicando o método RnBeads para combinar conjuntos de dados com a opção de incluir apenas CpGs cobertos por todas as três plataformas, esses objetos foram mesclados em um conjunto de dados combinado compreendendo 408.621 CpGs compartilhados. Este conjunto de dados combinado foi processado usando os módulos de análise RnBeads. Observamos diferenças na distribuição global dos níveis de metilação do DNA entre os ensaios (Fig. 5a). No entanto, a análise de componentes principais mostrou que as diferenças biológicas entre as amostras predominaram sobre as diferenças técnicas entre as plataformas (Fig. 5b). Focando especificamente na comparação entre uma linha de células de câncer de próstata (LNCaP) e células epiteliais da próstata (PrECs), observamos a correlação mais alta entre as réplicas para o mesmo ensaio no mesmo tipo de célula (Pearson’s r = 0,9979, Fig. 5c). No entanto, a correlação entre diferentes ensaios no mesmo tipo de célula (Pearson’s r = 0,9655, Fig. 5d) ainda era alto e muito mais forte do que a correlação entre diferentes tipos de células para o mesmo ensaio (Pearson’s r = 0,6471, Fig. 5e). Em resumo, este caso de uso destaca a viabilidade e a utilidade prática da análise de plataforma cruzada de metilação de DNA usando RnBeads.

Integração de dados de plataforma cruzada usando RnBeads. uma Distribuição dos níveis de metilação do DNA para as mesmas amostras perfiladas em diferentes plataformas de ensaio. b Análise de componentes principais do conjunto de dados de comparação do ensaio. As formas e cores dos pontos representam plataformas de ensaio e tipos de células, respectivamente. c – e Gráficos de dispersão de densidade comparando réplicas de células epiteliais da próstata perfiladas usando o ensaio EPIC (painel c) células epiteliais da próstata traçadas usando o ensaio EPIC e WGBS (painel d) e células epiteliais da próstata, bem como uma linha de células de câncer de próstata perfilada com o ensaio EPIC (painel e) A densidade do ponto é indicada por sombreado azul. Os 0,1% de CpGs nas áreas mais escassamente povoadas do gráfico são mostrados como pontos individuais. Todos os gráficos são baseados em CpGs que foram cobertos por todas as três plataformas de ensaio. Os coeficientes de correlação de Pearson são mostrados abaixo de cada diagrama. NAF, fibroblastos associados a tecidos não malignos CAF, fibroblastos associados a câncer PrEC, células epiteliais de próstata LNCaP, linha de células de câncer de próstata

Comparação com outras ferramentas de software para análise de metilação de DNA

Para avaliar a eficiência computacional de RnBeads, comparamos seu desempenho com o de outros pacotes de software para análise de metilação de DNA [37,38,39,40], separadamente para dados de microarray de metilação de DNA, dados RRBS e dados WGBS (consulte os “Métodos ”Seção para detalhes e arquivo adicional 2: Tabela S2 para configurações de ferramenta). Dado que as diferentes ferramentas fornecem conjuntos de recursos amplamente diferentes, consideramos três cenários: (i) importação de dados apenas, (ii) módulos principais e (iii) análise abrangente com a maioria dos recursos ativados (arquivo adicional 3: Figura S1). RnBeads era a única ferramenta que suportava análise baseada em microarray e baseada em sequenciamento de bissulfito. Para análise baseada em microarray, os pacotes de processamento de dados de baixo nível minfi, methylumi e wateRmelon foram mais rápidos do que ChAMP e RnBeads (que precisam preparar o conjunto de dados para suas análises downstream mais extensas). Comparado ao ChAMP, RnBeads era mais eficiente em termos de memória e mais rápido no ambiente abrangente. Para análise baseada em sequenciamento de bissulfito, RnBeads mostrou melhor desempenho do que methylKit no conjunto de dados WGBS na configuração do módulo principal, mas um tempo de execução um pouco mais longo e maior uso de memória no conjunto de dados RRBS. Essas diferenças podem ser atribuídas à reformatação em estruturas de dados com eficiência de memória que o RnBeads executa durante a importação de dados. Em resumo, o desempenho em tempo de execução do RnBeads foi semelhante ao de outras ferramentas com funcionalidade mais limitada, sugerindo que a escolha da ferramenta mais adequada para a análise de metilação do DNA depende principalmente dos recursos e modos de análise desejados. Para ajudar com uma seleção informada, pesquisamos uma ampla gama de ferramentas para a análise de metilação do DNA e montamos uma tabela de recursos detalhada com base nas documentações da ferramenta (arquivo adicional 1: Tabela S1). O RnBeads emergiu dessa comparação como o software que implementa o fluxo de trabalho mais abrangente para analisar dados de metilação de DNA, ao mesmo tempo que fornece uma interface amigável e opções extensas para relatórios e reprodutibilidade.


Dinâmica do metiloma do DNA espatiotemporal do feto de camundongo em desenvolvimento

A metilação do DNA da citosina é essencial para o desenvolvimento dos mamíferos, mas a compreensão de sua distribuição espaço-temporal no embrião em desenvolvimento permanece limitada 1,2. Aqui, como parte do projeto da Encyclopedia of DNA Elements (ENCODE) do camundongo, traçamos o perfil de 168 metilomas de 12 tecidos ou órgãos de camundongo em 9 estágios de desenvolvimento, desde a embriogênese até a idade adulta. Identificamos 1.808.810 regiões genômicas que mostraram variações na metilação do CG, comparando os metilomas de diferentes tecidos ou órgãos de diferentes estágios de desenvolvimento. Esses elementos de DNA perdem predominantemente a metilação do CG durante o desenvolvimento fetal, enquanto a tendência é revertida após o nascimento. Durante os estágios finais do desenvolvimento fetal, a metilação não-CG acumulou-se nos corpos dos principais genes do fator de transcrição do desenvolvimento, coincidindo com sua repressão transcricional. A integração de dados de metilação de DNA em todo o genoma, modificação de histonas e acessibilidade de cromatina nos permitiu prever 461.141 potencializadores específicos de tecido de desenvolvimento putativos, cujos ortólogos humanos foram enriquecidos para variantes genéticas associadas a doenças. Esses mapas de epigenoma espaço-temporal fornecem um recurso para estudos de regulação gênica durante a progressão de tecido ou órgão e um ponto de partida para a investigação de elementos regulatórios que estão envolvidos em distúrbios do desenvolvimento humano.

Declaração de conflito de interesse

B.R. é cofundador e acionista da Arima Genomics, Inc. Os outros autores declaram não haver interesses conflitantes.

Bonecos

Fig. 1. Anotação da variável de metilação regulatória ...

Fig. 1. Anotação de elementos reguladores variáveis ​​de metilação no desenvolvimento de tecidos de camundongo.

Fig. 2. CG-DMRs específicos de tecido passam por desmetilação contínua ...

Fig. 2. CG-DMRs específicos de tecido sofrem desmetilação contínua durante a embriogênese e remetilação após o nascimento.

Fig. 3. O acúmulo de mCH prevê redução do gene ...

Fig. 3. O acúmulo de mCH prevê a redução da expressão gênica.

Fig. 4. Anotação de realçador de desenvolvimento de mouse ...

Fig. 4. Anotação de realçador de tecidos de camundongo em desenvolvimento.

Fig. 5. Associação entre mCG, expressão gênica ...

Fig. 5. Associação entre mCG, expressão gênica e SNPs associados a doenças.

Dados estendidos Fig. 1. Hipometilação global em ...

Dados estendidos Fig. 1. Hipometilação global no fígado fetal.

Dados estendidos Fig. 2. Categorização de CG-DMRs.

Dados estendidos Fig. 2. Categorização de CG-DMRs.

Dados estendidos Fig. 3. Caracterização de primed…

Dados estendidos Fig. 3. Caracterização de feDMRs distais e unxDMRs preparados.

Dados estendidos Fig. 4. Tamanho do efeito CG-DMR ...

Dados estendidos Fig. 4. Análise do tamanho do efeito CG-DMR.

Dados estendidos Fig. 5. Link entre metilação ...

Dados estendidos Fig. 5. Link entre a dinâmica de metilação e modificações de histonas em CG-DMRs específicos de tecido.

Dados estendidos Fig. 6. Hipometilação CG em grande escala ...

Dados estendidos Fig. 6. A hipometilação de CG em grande escala se sobrepõe fortemente aos super intensificadores.


CH450 e CH451: Bioquímica - Definindo a Vida no Nível Molecular

Ácido desoxirribonucléico genômico é o DNA cromossômico, em contraste com o DNA extra-cromossômico, como o encontrado na mitocôndria de mamíferos ou em estruturas de plasmídeo em bactérias (Figura 5.1). Os plasmídeos serão discutidos em mais detalhes na seção 5.3 durante a discussão da clonagem e expressão de genes. Também é abreviado como gDNA. A maioria dos organismos tem o mesmo DNA genômico em todas as células, no entanto, apenas alguns genes estão ativos em cada célula para permitir a função celular e a diferenciação dentro do corpo.

O genoma de um organismo (codificado pelo DNA genômico) é a informação (biológica) da hereditariedade que é passada de uma geração de organismo para a seguinte. Esse genoma é transcrito para produzir vários RNAs, necessários ao funcionamento do organismo. O mRNA precursor (pré-mRNA) é transcrito pela RNA polimerase II no núcleo. o pré-mRNA é então processado por splicing para remover os íntrons, deixando os exons no RNA mensageiro maduro (mRNA). O processamento adicional inclui a adição de um cap 5 & # 8242 e uma cauda poli (A) ao pré-mRNA. O mRNA maduro pode então ser transportado para o citosol e traduzido pelo ribossomo em uma proteína. Outros tipos de RNA incluem o RNA ribossômico (rRNA) e o RNA de transferência (tRNA). Esses tipos são transcritos pela RNA polimerase II e RNA polimerase III, respectivamente, e são essenciais para a síntese de proteínas. No entanto, o rRNA 5s é o único rRNA que é transcrito pela RNA Polimerase III.

Na genética, DNA complementar (cDNA) é DNA sintetizado a partir de um modelo de RNA de fita simples (por exemplo, RNA mensageiro (mRNA) ou microRNA) em uma reação catalisada pela enzima transcriptase reversa (Figura 5.1). A transcriptase reversa é uma enzima encontrada em retrovírus como o HIV, que têm RNA como seu material genético central. Ao entrar na célula hospedeira, o RNA é transcrito reversamente para produzir uma cópia do cDNA que pode então se integrar ao DNA genômico do hospedeiro. Em biotecnologia, a transcriptase reversa é freqüentemente usada para criar cDNA a partir do mRNA expresso em células ou tecidos específicos. Desta forma, os genes eucarióticos podem ser clonados sem quaisquer íntrons alojados na estrutura. Isso é especialmente útil se o objetivo for expressar a proteína em um hospedeiro procariótico (bacteriano). Lembre-se de que o DNA bacteriano não contém nenhuma sequência de íntron em seu DNA cromossômico. Portanto, se você estiver usando um sistema procariótico para expressar proteínas eucarióticas, deverá usar cDNA, pois o sistema procariótico não será capaz de remover sequências de íntrons após a transcrição do gene.

O termo cDNA também é usado, normalmente em um contexto de bioinformática, para se referir a uma sequência de transcrição de mRNA & # 8217s, expressa como bases de DNA (GCAT) em vez de bases de RNA (GCAU).

Figura 5.1. DNA genômico (gDNA) vs DNA complementar (cDNA). Diagrama do lado esquerdo mostra o processamento do DNA genômico dentro de uma célula para produzir uma proteína (Painel superior azul mostra os elementos estruturais comuns aos genes eucarióticos. O processo de transcrição do gene produz uma molécula de RNA mensageiro (mRNA) que deve ser modificada pós-tradução, painel cinza, para remover as sequências de íntron não codificantes e adicionar as seções 5 & # 8242-CAP e Poly-A-Tail. O mRNA maduro é transportado do núcleo para o citoplasma, onde é traduzido pelo ribossomo na sequência da proteína, painel vermelho.) O diagrama do lado direito mostra que o isolamento de mRNA de uma célula pode ser usado para sintetizar cDNA usando a enzima transcriptase reversa. O cDNA resultante contém apenas elementos do mRNA maduro, incluindo os exões e a cauda poli-A.

Técnicas de isolamento de DNA

Isolamento de DNA é um processo de purificação do DNA da amostra usando uma combinação de métodos físicos e químicos. O primeiro isolamento de DNA foi feito em 1869 por Friedrich Miescher. Atualmente é um procedimento de rotina em biologia molecular ou análises forenses. Para o método químico, existem muitos kits diferentes usados ​​para extração, e selecionar o correto economizará tempo na otimização do kit e nos procedimentos de extração. A detecção de sensibilidade de PCR é considerada para mostrar a variação entre os kits comerciais.

Existem três técnicas de purificação de DNA padrão descritas abaixo:

  • As células a serem estudadas precisam ser coletadas.
  • Quebrar as membranas celulares para expor o DNA junto com o citoplasma interno (lise celular).
    • Os lipídios da membrana celular e do núcleo são decompostos com detergentes e surfactantes.
    • Quebrando proteínas adicionando uma protease (opcional).
    • Quebrando o RNA adicionando uma RNase (opcional).
    1. Precipitação de etanolgeralmente por etanol gelado ou isopropanol. Uma vez que o DNA é insolúvel nesses álcoois, ele se agregará, dando um pelota após centrifugação. A precipitação de DNA é melhorada pelo aumento da força iônica, geralmente pela adição de acetato de sódio.
    2. Extração de fenol-clorofórmio em que o fenol desnatura as proteínas da amostra. Após a centrifugação da amostra, as proteínas desnaturadas permanecem na fase orgânica enquanto a fase aquosa contendo ácido nucléico é misturada com o clorofórmio que remove os resíduos de fenol da solução.
    3. Purificação de minicoluna que se baseia no fato de que os ácidos nucléicos podem se ligar (adsorção) à fase sólida (sílica ou outra) dependendo do pH e da concentração de sal do tampão (Figura 5.2).

    Proteínas celulares e histonas ligadas ao DNA podem ser removidas adicionando uma protease ou precipitando as proteínas com acetato de sódio ou amônio, ou extraídas com uma mistura de fenol-clorofórmio antes da precipitação do DNA.

    Após o isolamento, o DNA é dissolvido em tampão levemente alcalino, geralmente em tampão Tris-EDTA ou em água ultra-pura. As modificações feitas nessas técnicas padrão são frequentemente feitas se o tecido que está sendo usado for difícil de quebrar, se os contaminantes persistirem na solução de lise que inibem outras reações, ou se a amostra for extremamente mínima, como costuma ser o caso em investigações forenses. Além disso, diferentes kits comerciais serão adaptados para o isolamento de DNA genômico maior ou DNA de plasmídeo menor.

    Figura 5.2 Coluna Spin de sílica usada para purificação de DNA. A purificação de ácido nucléico com base em coluna spin é um método de extração em fase sólida para purificar rapidamente os ácidos nucléicos. Este método se baseia no fato de que o ácido nucleico se liga à fase sólida da sílica sob certas condições e, em seguida, é liberado quando essas condições são alteradas. Para a ligação, uma solução tampão é adicionada ao lisado de DNA junto com etanol ou isopropanol. Isso forma a solução de ligação. A solução de ligação é transferida para uma coluna de rotação e a coluna é colocada em uma centrífuga. A centrífuga força a solução de ligação através de uma membrana de gel de sílica que está dentro da coluna de rotação. Se o pH e a concentração de sal da solução de ligação forem ótimos, o ácido nucleico se ligará à membrana de gel de sílica conforme a solução passa. Para lavar componentes celulares não específicos da coluna, o fluxo é removido e um tampão de lavagem é adicionado à coluna. A coluna é colocada em uma centrífuga novamente, forçando o tampão de lavagem através da membrana. Isso remove todas as impurezas remanescentes da membrana, deixando apenas o ácido nucleico ligado ao gel de sílica. Para eluir, o tampão de lavagem é removido e um tampão de eluição com baixo teor de sal (ou simplesmente água) é adicionado à coluna. A coluna é colocada em uma centrífuga novamente, forçando o tampão de eluição através da membrana. O tampão de eluição desloca o ácido nucleico da coluna, permitindo que seja coletado no fluxo. Ao contrário do RNA, que se degrada muito rapidamente, o DNA é bastante estável e pode ser armazenado por longos períodos a -20 o C.

    Técnicas de sequenciamento de DNA

    Sequenciamento de DNA é o processo de determinação da sequência de ácido nucleico - a ordem dos nucleotídeos no DNA. Inclui qualquer método ou tecnologia usado para determinar a ordem das quatro bases: adenina, guanina, citosina e timina. O advento de métodos rápidos de sequenciamento de DNA acelerou muito as pesquisas e descobertas biológicas e médicas.

    O conhecimento das sequências de DNA tornou-se indispensável para a pesquisa biológica básica e em vários campos aplicados, como diagnóstico médico, biotecnologia, biologia forense, virologia e sistemática biológica. Comparar sequências de DNA saudáveis ​​e mutadas pode diagnosticar diferentes doenças, incluindo vários cânceres, caracterizar o repertório de anticorpos e pode ser usado para orientar o tratamento do paciente. Ter uma maneira rápida de sequenciar o DNA permite que um atendimento médico mais rápido e individualizado seja administrado e que mais organismos sejam identificados e catalogados.

    A rápida velocidade de sequenciamento alcançada com a moderna tecnologia de sequenciamento de DNA tem sido fundamental para o sequenciamento de sequências completas de DNA, ou genomas, de vários tipos e espécies de vida, incluindo o genoma humano e outras sequências completas de DNA de muitos animais, plantas e microbianos espécies.

    As primeiras sequências de DNA foram obtidas no início dos anos 1970 por pesquisadores acadêmicos usando métodos laboriosos baseados em cromatografia bidimensional. Seguindo o desenvolvimento de métodos de sequenciamento baseados em fluorescência com um sequenciador de DNA, o sequenciamento de DNA se tornou mais fácil e ordens de magnitude mais rápidas.

    A estrutura canônica do DNA tem quatro bases: timina (T), adenina (A), citosina (C) e guanina (G). O sequenciamento de DNA é a determinação da ordem física dessas bases em uma molécula de DNA. No entanto, as bases do DNA são frequentemente modificadas por processos epigenéticos para controlar a expressão gênica. Assim, muitas outras bases modificadas podem estar presentes em uma molécula de DNA além das quatro bases padrão. Por exemplo, em alguns vírus (especificamente, bacteriófago), a citosina pode ser substituída por hidroximetil- ou hidroximetilglucose citosina. No DNA eucariótico, bases variantes com grupos metil ou fosfosulfato podem ser encontradas (Figura 5.3). Dependendo da técnica de sequenciação, uma modificação particular, por exemplo, o 5mC (5-metilcitosina) comum em humanos, pode ou não ser detectada.

    Figura 5.3 Modificações de DNA com funções regulatórias epigenéticas e suas interdependências. A citosina (C) é metilada em 5-metilcitosina (5mC) por DNA metiltransferases (DNMT) e posteriormente oxidada a 5hmC, 5fC e 5caC por Tet dioxigenases. O 5-hidroxiuracil (5hmU) é produzido pela oxidação da timina (T) catalisada por Tet.N6-metiladenina (6mA) é provavelmente catalisada por DNA N6 adenina metiltransferases (DAMT-1 em C. elegans), embora a atividade bioquímica dessas enzimas ainda não tenha sido caracterizada. As enzimas ALKB semelhantes a Tet NMAD (N6-metil adenina desmetilase 1) e DMAD (DNA 6 mA desmetilase) mostraram estar envolvidas na desmetilação de 6 mA em C. elegans e em Drosófila, respectivamente, possivelmente usando um mecanismo conservado de dioxigenase.

    Métodos iniciais de sequenciamento de DNA

    O primeiro método para determinar as sequências de DNA envolveu uma estratégia de extensão de primer específica de localização estabelecida por Ray Wu na Cornell University em 1970. A catálise da DNA polimerase e a marcação de nucleotídeos específicos, ambos os quais figuram de forma proeminente nos esquemas de sequenciamento atuais, foram usados ​​para sequenciar as extremidades coesivas de DNA do fago lambda. Entre 1970 e 1973, Wu, R Padmanabhan e colegas demonstraram que este método pode ser empregado para determinar qualquer sequência de DNA usando primers sintéticos específicos de localização. Frederick Sanger então adotou essa estratégia de extensão de iniciador para desenvolver métodos de sequenciamento de DNA mais rápidos no MRC Center, Cambridge, Reino Unido e publicou um método para & # 8220DNA sequenciamento com inibidores de terminação de cadeia & # 8221 em 1977. Walter Gilbert e Allan Maxam em Harvard também desenvolveu métodos de sequenciamento, incluindo um para & # 8220DNA sequenciamento por degradação química & # 8221. Em 1973, Gilbert e Maxam relataram a sequência de 24 pares de bases usando um método conhecido como análise de pontos errantes. Avanços no sequenciamento foram auxiliados pelo desenvolvimento simultâneo da tecnologia do DNA recombinante, permitindo que as amostras de DNA fossem isoladas de outras fontes que não os vírus.

    Sequenciamento Maxam-Gilbert requer marcação radioativa em uma extremidade 5 & # 8242 do DNA e purificação do fragmento de DNA a ser sequenciado. O tratamento químico então gera quebras em uma pequena proporção de uma ou duas das quatro bases de nucleotídeos em cada uma das quatro reações (G, A + G, C, C + T). A concentração dos produtos químicos modificadores é controlada para introduzir em média uma modificação por molécula de DNA. Assim, uma série de fragmentos marcados é gerada, da extremidade radiomarcada ao primeiro local & # 8220cut & # 8221 em cada molécula. Os fragmentos nas quatro reações são submetidos à eletroforese lado a lado em géis de acrilamida desnaturantes para separação por tamanho. Para visualizar os fragmentos, o gel é exposto a um filme de raios X para autorradiografia, produzindo uma série de bandas escuras, cada uma correspondendo a um fragmento de DNA radiomarcado, a partir do qual a sequência pode ser inferida.

    Os aspectos técnicos do sequenciamento Maxam-Gilbert fizeram com que ele perdesse o uso, uma vez que o método de sequenciamento Sanger foi bem estabelecido, conforme descrito abaixo.

    Método de Sequenciação Sanger

    O método de terminação de corrente desenvolvido por Frederick Sanger e colegas de trabalho em 1977 logo se tornou o método de escolha, devido à sua relativa facilidade e confiabilidade. Quando inventado, o método do terminador de cadeia usava menos produtos químicos tóxicos e menores quantidades de radioatividade do que o método Maxam-Gilbert. Devido à sua facilidade comparativa, o método Sanger logo foi automatizado e foi o método usado na primeira geração de sequenciadores de DNA.

    O método clássico de terminação de cadeia requer um molde de DNA de fita simples, um primer de DNA, uma DNA polimerase, desoxinucleotidetrifosfatos normais (dNTPs) e di-desoxinucleotidetrifosfatos modificados (ddNTPs), o último dos quais termina o alongamento da fita de DNA. Estes nucleotídeos de terminação de cadeia carecem de um grupo 3 & # 8242-OH necessário para a formação de uma ligação fosfodiéster entre dois nucleotídeos, fazendo com que a DNA polimerase cesse a extensão do DNA quando um ddNTP modificado é incorporado. Os ddNTPs podem ser marcados radioativamente ou fluorescentemente para detecção em máquinas de sequenciamento automatizadas.

    A amostra de DNA é dividida em quatro reações de sequenciamento separadas, contendo todos os quatro desoxinucleotídeos padrão (dATP, dGTP, dCTP e dTTP) e a DNA polimerase. A cada reação é adicionado apenas um dos quatro didesoxinucleotídeos (ddATP, ddGTP, ddCTP ou ddTTP), enquanto os outros nucleotídeos adicionados são comuns (Figura 5.4).

    Figura 5.4. DdNTPs fluorescentes para sequenciamento Sanger. Os didesoxinucleotídeos são utilizados para sequenciamento, pois não podem ser estendidos mais uma vez, uma vez que são incorporados ao DNA nacent.

    A concentração de didesoxinucleotídeo deve ser aproximadamente 100 vezes menor do que a do desoxinucleotídeo correspondente (por exemplo, 0,005 mM ddTTP: 0,5 mM dTTP) para permitir que fragmentos suficientes sejam produzidos enquanto ainda transcreve a sequência completa. No total, quatro reações separadas são necessárias neste processo para testar todos os quatro ddNTPs (Figura 5.5).

    Figura 5.5. O método Sanger (terminação de cadeia) para sequenciamento de DNA. (1) Um primer é ligado a uma sequência, (2) Reagentes são adicionados ao primer e ao molde, incluindo: DNA polimerase, dNTPs e uma pequena quantidade de todos os quatro didesoxinucleotídeos (ddNTPs) marcados com fluoróforos. Durante o alongamento do primer, a inserção aleatória de um ddNTP em vez de um dNTP termina a síntese da cadeia porque a DNA polimerase não pode reagir com a hidroxila ausente. Isso produz todos os comprimentos possíveis de correntes. (3) Os produtos são separados em uma única via de gel capilar, onde as bandas resultantes são lidas por um sistema de imagem. (4) Isso produz várias centenas de milhares de nucleotídeos por dia, dados que requerem armazenamento e subsequente análise computacional.

    Após as rodadas de extensão de DNA modelo a partir do primer ligado, os fragmentos de DNA resultantes são desnaturados por calor e separados por tamanho usando eletroforese em gel. Esta técnica foi frequentemente realizada usando um gel de poliacrilamida-ureia desnaturante com cada uma das quatro reações realizadas em uma das quatro pistas individuais (pistas A, T, G, C). As bandas de DNA podem então ser visualizadas por autorradiografia ou luz ultravioleta e a sequência de DNA pode ser lida diretamente no filme de raios-X ou imagem em gel (Figura 5.6).

    Figura 5.6. Gel de sequenciação Sanger tradicional. Sequência visualizada por autorradiografia. Cada pista contém uma única reação que tem todos os quatro nucleotídeos regulares e uma pequena quantidade de um dos didesoxinucleotídeos (ddNTPs). Com o tempo, os ddNTPs serão incorporados em cada posição contendo aquele nucleotídeo específico. O gel pode então ser lido de baixo para cima, pois os fragmentos menores (aqueles fragmentos terminados mais próximos do primer na extremidade 5 & # 8242) percorrerão a maior distância no gel. A sequência deste fragmento é:

    A automação do método de sequenciamento Sanger foi possível quando a mudança de nucleotídeos marcados com radioatividade para nucleotídeos marcados com fluorescência foi feita. Dentro dos sequenciadores automatizados, a eletroforese em gel capilar é realizada em vez de separar as amostras usando a eletroforese em gel. A saída da eletroforese capilar são cromatogramas de rastreamento de pico fluorescente (Figura 5.7). Os instrumentos automatizados de sequenciamento de DNA (sequenciadores de DNA) podem sequenciar até 384 amostras de DNA em um único lote. As execuções em lote podem ocorrer até 24 vezes por dia, aumentando muito a velocidade com que as amostras podem ser sequenciadas e analisadas. Os desafios comuns do sequenciamento de DNA com o método Sanger incluem baixa qualidade nas primeiras 15-40 bases da sequência devido à ligação do primer e deterioração da qualidade dos traços de sequenciamento após 400-500 bases.

    Figura 5.7 Comparação lado a lado da eletroforese em gel e eletroforese capilar. Diagrama do lado esquerdo mostra o autorradiograma tradicional de amostras de sequenciamento Sanger. o Diagrama à Direita mostra as mesmas reações usando ddNTPs marcados com fluorescência separados por eletroforese capilar. A saída do cromatograma é mostrada à direita.

    O sequenciamento de Sanger é o método que prevaleceu da década de 1980 até

    2005. Nesse período, grandes avanços foram feitos na técnica, como marcação fluorescente, eletroforese capilar e automação geral. Esses desenvolvimentos permitiram um sequenciamento muito mais eficiente, levando a custos mais baixos. O método Sanger, em forma de produção em massa, é a tecnologia que produziu o primeiro genoma humano em 2001, inaugurando a era da genômica.

    Sequenciamento Sanger Microfluídico

    O sequenciamento Sanger microfluídico é um aplicação lab-on-a-chip para sequenciamento de DNA, em que as etapas de sequenciamento Sanger (ciclagem térmica, purificação de amostra e eletroforese capilar) são integradas em um chip em escala de wafer usando volumes de amostra em escala de nanolitro (Figura 5.8). Esta tecnologia gera leituras de sequência longas e precisas, ao mesmo tempo que evita muitas das deficiências significativas do método Sanger convencional (por exemplo, alto consumo de reagentes caros, dependência de equipamentos caros, manipulações com uso intensivo de pessoal, etc.) integrando e automatizando as etapas de sequenciamento Sanger .

    Figura 5.8 Tecnologias Lab-On-A-Chip. Exemplo de um lab-on-a-chip-dispositivo microfluídico colocado em uma placa de poliestireno. Agulhas de aço inoxidável inseridas no dispositivo servem como pontos de acesso para fluidos em pequenos canais dentro do dispositivo, que são aproximadamente do tamanho de um cabelo humano.

    Sequenciamento de próxima geração

    O sequenciamento de última geração (NGS), também conhecido como sequenciamento de alto rendimento, é o termo geral usado para descrever uma série de diferentes tecnologias de sequenciamento modernas. Essas tecnologias permitem o sequenciamento de DNA e RNA de forma muito mais rápida e econômica do que o sequenciamento Sanger usado anteriormente e, como tal, revolucionou o estudo da genômica e da biologia molecular. Essas tecnologias incluem:

    Sequenciamento Illumina & # 8211 No NGS, um grande número de leituras curtas são sequenciadas em um único curso usando a tecnologia lab-on-a-chip descrita acima. Para fazer isso, a amostra de entrada deve ser clivada em seções curtas. No sequenciamento Illumina, leituras de 100-150 bp são usadas. Fragmentos um pouco mais longos são ligados a adaptadores genéricos e recozidos a uma lâmina usando os adaptadores. O PCR é realizado para amplificar cada leitura, criando um ponto com muitas cópias da mesma leitura. Eles são então separados em DNA de fita simples para serem sequenciados (Figura 5.9).

    Figura 5.9 Procedimento para sequenciamento Illumina. (A) A lâmina com fragmentos amplificados por PCR de DNA é inundada com nucleotídeos e DNA polimerase. Esses nucleotídeos são marcados com fluorescência, com cada cor correspondendo a uma base específica. As reações também têm um terminador presente, de modo que apenas uma base é adicionada de cada vez. (B) Uma imagem é tirada do slide. Em cada local de reação, haverá um sinal fluorescente indicando que uma base específica foi adicionada. (C) Os dados são registrados e o slide é então preparado para o próximo ciclo. Na preparação, os terminadores são removidos, o que permitirá que a próxima base seja adicionada, e o sinal fluorescente é clivado, evitando que o sinal fluorescente contamine a próxima imagem. O processo é repetido, adicionando um nucleotídeo de cada vez (G, A, T ou C) e a imagem entre eles. Todas as leituras de sequência terão o mesmo comprimento, já que bases únicas são adicionadas a cada ciclo.

    Roche 454-Sequenciamentoé semelhante ao processo Illumina, mas pode sequenciar leituras muito mais longas. Como o Illumina, ele faz isso sequenciando várias leituras de uma vez, lendo sinais ópticos à medida que as bases são adicionadas.

    Como no Illumina, o DNA ou RNA é fragmentado em leituras mais curtas, neste caso até 1kb (1.000pb). Adaptadores genéricos são adicionados às extremidades e são recozidos em contas, um fragmento de DNA por conta. Os fragmentos são então amplificados por PCR usando primers específicos para adaptadores. Cada conta é então colocada em um único poço de uma lâmina. Portanto, cada poço conterá um único grânulo, coberto por muitas cópias de PCR de uma única sequência. Os poços também contêm DNA polimerase e tampões de sequenciamento (Figura 5.10).

    5.10 Procedimento para sequenciação Roche 454. (A) Uma vez que o produto de PCR é anexado ao grânulo, a lâmina é inundada com uma das quatro espécies de NTP. Onde este nucleotídeo é o próximo na sequência, ele é adicionado à sequência lida. Se essa única base se repetir, então mais será adicionada. Portanto, se inundarmos com bases de Guanina, e o próximo na sequência for G, um G será adicionado, no entanto, se a próxima parte da sequência for GGGG, quatro Gs serão adicionados. (B) A adição de cada nucleotídeo libera um sinal de luz. Esses locais de sinais são detectados e usados ​​para determinar a quais esferas os nucleotídeos são adicionados. (C) A mistura de NTP é lavada. A próxima combinação NTP agora é adicionada e o processo é repetido, percorrendo os quatro NTPs. Todas as leituras de sequência do sequenciamento 454 terão comprimentos diferentes, porque diferentes números de bases serão adicionados a cada ciclo.

    Novas tecnologias, como o Tecnologia Ion Torrente a Sistema MinION detectar dados de sequência usando sinais elétricos em um chip semicondutor, em vez de ler opticamente nucleotídeos marcados com corante. Isso é possível porque a adição de um dNTP ao polímero de DNA causa a liberação de um íon H + (Figura 5.11). Como em outros tipos de NGS, o DNA ou RNA de entrada é fragmentado, desta vez

    200 bp. Adaptadores são adicionados e uma molécula é colocada em um grânulo. As moléculas são amplificadas no grânulo por PCR de emulsão. Cada conta é colocada em um único poço de uma lâmina.

    Figura 5.11 Tecnologia de Sequenciamento Ion Torrent. (A) Semelhante ao sequenciamento 454, a lâmina é inundada com uma única espécie de dNTP, juntamente com tampões e polimerase. O pH é monitorado em cada um dos poços após a adição do dNTP específico. O pH diminuirá quando o dNTP for incorporado ao polímero causando a liberação de um próton (H +). As mudanças no pH nos permitem determinar se aquela base e quantas delas foram adicionadas à sequência lida. (B) Os dNTPs são lavados e o processo é repetido, percorrendo as diferentes espécies de dNTP. (C) A mudança de pH, se houver, é usada para determinar quantas bases (se houver) foram adicionadas a cada ciclo.

    Essas tecnologias de íons, que não requerem detecção óptica, permitiram a produção de pequenos dispositivos portáteis de sequenciamento de DNA que podem ser conectados à unidade USB de um laptop e utilizados em campo sob condições de coleta em tempo real (Figura 5.12).

    Figura 5.12 Dispositivo de sequenciamento em tempo real portátil MinION. O MinION pode produzir até 30 Gb de dados de sequência de DNA por amostra

    As quatro principais vantagens do NGS sobre o sequenciamento Sanger clássico são:

    Tamanho da amostra

    O NGS é significativamente mais barato, mais rápido, precisa de menos DNA e é mais preciso e confiável do que o sequenciamento Sanger. Vamos examinar isso mais de perto. Para o sequenciamento Sanger, uma grande quantidade de DNA modelo é necessária para cada leitura. Várias fitas de DNA modelo são necessárias para cada base sendo sequenciada (ou seja, para uma sequência de 100 pb você & # 8217d precisa de muitas centenas de cópias, para uma sequência de 1000 pb você & # 8217d precisa de muitos milhares de cópias), como uma cadeia que termina em cada base é necessário para construir uma sequência completa. No NGS, uma sequência pode ser obtida a partir de uma única fita. Em ambos os tipos de sequenciamento, várias cópias escalonadas são tiradas para construção de contig e validação de sequência.

    O NGS é mais rápido do que o sequenciamento Sanger de duas maneiras. Em primeiro lugar, a reação química pode ser combinada com a detecção de sinal em algumas versões do NGS, enquanto no sequenciamento Sanger esses são dois processos separados. Em segundo lugar e mais significativamente, apenas uma leitura (máximo

    1kb) pode ser obtido por vez no sequenciamento Sanger, enquanto o NGS é maciçamente paralelo, permitindo que 300Gb de DNA sejam lidos em uma única execução em um único chip.

    O tempo reduzido, mão de obra e reagentes em NGS significam que os custos são muito mais baixos. A primeira sequência do genoma humano custou cerca de US $ 2,7 bilhões em 2003. Usando métodos modernos de sequenciamento Sanger, auxiliados por dados da sequência conhecida, um genoma humano completo ainda custava US $ 300.000 em 2006. O sequenciamento de um genoma humano com NGS hoje custa cerca de US $ 1.000.

    As repetições são intrínsecas ao NGS, pois cada leitura é amplificada antes do sequenciamento e porque depende de muitas leituras sobrepostas curtas, de modo que cada seção de DNA ou RNA é sequenciada várias vezes. Além disso, por ser muito mais rápido e barato, é possível fazer mais repetições do que com o sequenciamento Sanger. Mais repetições significam maior cobertura, o que leva a uma sequência mais precisa e confiável, mesmo se as leituras individuais forem menos precisas para NGS.

    O sequenciamento Sanger pode ser usado para fornecer leituras de sequência muito mais longas. No entanto, a natureza paralela do NGS significa que leituras mais longas podem ser construídas a partir de muitas leituras curtas contíguas.

    Técnicas de síntese de DNA

    Síntese de DNA é a criação natural ou artificial de moléculas de ácido desoxirribonucléico (DNA). O termo síntese de DNA pode se referir a Replicação de DNA (que será abordado com mais detalhes no Capítulo XX), reação em cadeia da polimerase (PCR)ou síntese de genes (criando fisicamente sequências de genes artificiais).

    Reação em cadeia da polimerase (PCR)

    A reação em cadeia da polimerase (PCR) refere-se a uma técnica amplamente utilizada nas ciências básicas e biomédicas. PCR é uma técnica laboratorial utilizada para amplificar segmentos específicos de DNA para uma ampla gama de aplicações laboratoriais e / ou clínicas. Com base no trabalho da amplificação bem-sucedida de DNA de Panet e Khorana em vitro, Kary Mullis e colegas de trabalho desenvolveram o PCR no início dos anos 1980, tendo recebido o prêmio Nobel apenas uma década depois. Permitindo a amplificação de mais de um bilhão de vezes de regiões-alvo específicas, tornou-se instrumental em muitas aplicações, incluindo a clonagem de genes, o diagnóstico de doenças infecciosas e a triagem de bebês pré-natais para anormalidades genéticas deletérias.

    Fundamentos

    Os principais componentes da PCR são um modelo, primers, bases de nucleotídeos livres e a enzima DNA polimerase. o Modelo de DNAcontém a região específica que você deseja amplificar, como o DNA extraído de um pedaço de cabelo, por exemplo. Primers, ou oligonucleotídeos, são fitas curtas de DNA de fita simples complementares à extremidade 3 e # 8242 de cada região alvo. Tanto um primer direto quanto um reverso são necessários, um para cada fita complementar de DNA. DNA polimerase é a enzima que realiza a replicação do DNA. Análogos termoestáveis ​​da DNA polimerase I, como a Taq polimerase, originalmente encontrada em uma bactéria que cresce em fontes termais, é uma escolha comum devido à sua resistência aos ciclos de aquecimento e resfriamento necessários para a PCR.

    O PCR aproveita o emparelhamento de bases complementares, a natureza de fita dupla e a temperatura de fusão das moléculas de DNA. Este processo envolve o ciclo de 3 rodadas sequenciais de reações dependentes da temperatura: fusão do DNA (desnaturação), anelamento e replicação do DNA conduzida por enzimas (alongamento). Desnaturaçãocomeça aquecendo a reação a cerca de 95 o C, rompendo as ligações de hidrogênio que mantêm as duas fitas do DNA molde juntas. Em seguida, a reação é reduzida para cerca de 50 a 65 o C, dependendo das variáveis ​​físico-químicas dos primers, possibilitando anelamentode pares de bases complementares. Os primers, que são adicionados à solução em excesso, ligam-se ao início da extremidade 3 & # 8242 de cada fita modelo e evitam a re-hibridização da fita modelo consigo mesma. Por último, a replicação de DNA conduzida por enzimas, ou alongamento, começa ajustando a temperatura da reação para um valor que otimiza a atividade da DNA polimerase, que é em torno de 75 a 80 o C. Nesse ponto, a DNA polimerase, que precisa de DNA de fita dupla para iniciar a replicação, sintetiza uma nova fita de DNA por montagem de nucleotídeos livres em solução na direção 3 & # 8242 a 5 & # 8242 para produzir 2 conjuntos completos de fitas complementares. O DNA recém-sintetizado agora é idêntico à fita modelo e será usado como tal nos ciclos de PCR progressivos (Vídeo 5.1).

    Vídeo 5.1: Reação em cadeia da polimerase (PCR). (1) Etapas do processo de PCR tradicional. (2) Detecção de fluoróforo não específico em qPCR, e (3) Detecção de sonda de hibridização específica em qPCR.

    Tendo em vista que fitas de DNA previamente sintetizadas servem como moldes, a amplificação de DNA por PCR aumenta a uma taxa exponencial, onde as cópias de DNA dobram ao final de cada etapa de replicação. A replicação exponencial do DNA alvo eventualmente atinge um patamar em torno de 30 a 40 ciclos, principalmente devido à limitação do reagente, mas também pode ser devido a inibidores da reação de polimerase encontrados na amostra, auto-hibridação do produto acumulado e acúmulo de moléculas de pirofosfato.

    No seu advento, a tecnologia de PCR estava limitada à análise qualitativa e ou semiquantitativa devido às limitações na capacidade de quantificar os ácidos nucléicos. Nesse momento, para verificar se o gene alvo foi amplificado com sucesso, o produto de DNA foi separado por tamanho por meio de eletroforese em gel de agarose. O brometo de etídio, uma molécula que fica fluorescente quando ligada ao dsDNA, poderia dar uma estimativa aproximada da quantidade de DNA comparando aproximadamente o brilho de bandas separadas, mas não era sensível o suficiente para uma análise quantitativa rigorosa.

    Melhorias no desenvolvimento e instrumentação do fluoróforo levaram a termocicladores que não mais exigiam a medição apenas do DNA do produto final. Este processo, conhecido como PCR em tempo real,ou PCR quantitativo (qPCR), permitiu a detecção de dsDNA durante a amplificação. Os termocicladores qPCR são equipados com a capacidade de excitar fluoróforos em comprimentos de onda específicos, detectar sua emissão com um fotodetector e registrar os valores. A coleção sensível de valores numéricos durante a amplificação aumentou fortemente o poder analítico quantitativo.

    Existem dois tipos principais de fluoróforos usados ​​em qPCR: aqueles que se ligam especificamente a uma determinada sequência alvo e aqueles que não o fazem. A sensibilidade dos fluoróforos tem sido um aspecto importante do desenvolvimento de qPCR. Um dos marcadores não específicos mais eficazes e amplamente usados, o SYBR Green, após se ligar ao sulco menor do dsDNA, exibe um aumento de 1000 vezes na fluorescência em comparação com estar livre em solução (Vídeo 5.1). No entanto, se ainda mais especificidade for desejada, um oligonucleotídeo específico de sequência, ou sonda de hibridização, pode ser adicionado, que se liga ao gene alvo em algum ponto na frente do iniciador (após a extremidade 3 e # 8242). Estas sondas de hibridização contêm uma molécula repórter na extremidade 5 & # 8242 e uma molécula supressora na extremidade 3 & # 8242. A molécula supressora efetivamente inibe o repórter de fluorescência enquanto a sonda está intacta. No entanto, ao entrar em contato com a DNA polimerase I, a sonda de hibridização é clivada, permitindo a fluorescência do corante (Vídeo 5.1).

    PCR de transcrição reversa

    Desde o seu advento, a tecnologia PCR foi expandida criativamente, e PCR de transcrição reversa (RT-PCR) é um dos avanços mais importantes. A PCR em tempo real é freqüentemente confundida com a PCR de transcrição reversa, mas são técnicas distintas. Em RT-PCR, o DNA amplificado é derivado de mRNA usando enzimas de transcriptase reversa, para produzir uma cópia de cDNA do gene. Usando sequências de primers para genes de interesse, os métodos tradicionais de PCR podem ser usados ​​com o cDNA para estudar a expressão de genes qualitativamente. Atualmente, a PCR de transcrição reversa é comumente usada com a PCR em tempo real, que permite medir quantitativamente a mudança relativa na expressão gênica em diferentes amostras.

    Questões de preocupação

    Uma desvantagem da tecnologia PCR é que ela é extremamente sensível. Vestígios de contaminação por RNA ou DNA na amostra podem produzir resultados extremamente enganosos. Outra desvantagem é que os primers projetados para PCR requerem dados de sequência e, portanto, só podem ser usados ​​para identificar a presença ou ausência de um patógeno ou gene conhecido. Outra limitação é que às vezes os primers usados ​​para PCR podem emparelhar não especificamente para sequências que são semelhantes, mas não idênticas, ao gene alvo.

    Outro problema potencial do uso de PCR é a possibilidade de formação de dímero de primer (PD). PD é um subproduto potencial e consiste em moléculas de iniciador que hibridizaram entre si devido às cadeias de bases complementares nos iniciadores. A DNA polimerase amplifica o PD, levando à competição por reagentes de PCR que poderiam ser usados ​​para amplificar as sequências alvo.

    Significado clínico

    A amplificação por PCR é uma ferramenta indispensável com várias aplicações na medicina. Freqüentemente, é usado para testar a presença de alelos específicos, como no caso de futuros pais que fazem a triagem de portadores genéticos, mas também pode ser usado para diagnosticar a presença da doença diretamente e para mutações no embrião em desenvolvimento. Por exemplo, a primeira vez que a PCR foi usada dessa forma foi para o diagnóstico de anemia falciforme, por meio da detecção de uma única mutação gênica.

    Além disso, a PCR revolucionou enormemente o potencial diagnóstico de doenças infecciosas, pois pode ser usada para determinar rapidamente a identidade de micróbios que tradicionalmente não podiam ser cultivados ou que precisavam de semanas para crescer. Os patógenos rotineiramente detectados por PCR incluem Mycobacterium tuberculosis, vírus da imunodeficiência humana, vírus herpes simplex, sífilis e inúmeros outros patógenos. Além disso, qPCR não é usado apenas para testar a presença qualitativa de micróbios, mas também para quantificar as cargas bacterianas, fúngicas e virais.

    A sensibilidade das ferramentas de diagnóstico para mutações em oncogenes e genes de supressão de tumor foi melhorada pelo menos 10.000 vezes devido à PCR, permitindo o diagnóstico precoce de cânceres como a leucemia. A PCR também possibilitou terapias mais diferenciadas e individualizadas para pacientes com câncer. Além disso, a PCR pode ser usada para a tipagem de tecido feita, que é vital para o implante de órgãos e foi até proposta como uma substituição para testes baseados em anticorpos para o tipo de sangue. A PCR também tem aplicações clínicas no campo dos testes pré-natais para várias doenças genéticas e / ou patologias clínicas. As amostras são obtidas por amniocentese ou biópsia de vilosidade coriônica.

    Na medicina forense, pedaços curtos de repetição, DNA altamente polimórfico, cunhadas curtas repetições em tandem (STRs), são amplificados e usados ​​para comparar variações específicas dentro de genes para diferenciar indivíduos. [9] Primers específicos para os loci desses STRs são usados ​​e amplificados usando PCR. Vários loci contêm STRs no genoma humano, e o poder estatístico dessa técnica é aprimorado pela verificação de vários locais.

    Síntese Genética

    Síntese de genes artificiais, às vezes conhecido como Impressão de DNA é um método em biologia sintética que é usado para criar genes artificiais em laboratório. Com base na síntese de DNA em fase sólida, difere da clonagem molecular e da reação em cadeia da polimerase (PCR) porque não precisa começar com sequências de DNA preexistentes. Portanto, é possível fazer uma molécula de DNA de fita dupla completamente sintética sem limites aparentes na sequência de nucleotídeos ou no tamanho.

    O método tem sido usado para gerar cromossomos bacterianos ou de levedura funcionais contendo aproximadamente um milhão de pares de bases. A criação de novos pares de nucleobases, além dos dois pares de bases na natureza, pode expandir muito o código genético.

    A síntese do primeiro gene completo, um tRNA de levedura, foi demonstrada por Har Gobind Khorana e colaboradores em 1972. A síntese dos primeiros genes codificadores de peptídeos e proteínas foi realizada nos laboratórios de Herbert Boyer e Alexander Markham, respectivamente.

    Serviços comerciais de síntese de genes já estão disponíveis. As abordagens são mais frequentemente baseadas em uma combinação de técnicas de química orgânica e biologia molecular e genes inteiros podem ser sintetizados & # 8220de novo & # 8221, sem a necessidade de DNA modelo. A síntese de genes é uma ferramenta importante em muitos campos da tecnologia de DNA recombinante, incluindo expressão de genes heterólogos, desenvolvimento de vacinas, terapia gênica e engenharia molecular. A síntese de sequências de ácido nucleico pode ser mais econômica do que os procedimentos clássicos de clonagem e mutagênese. É também uma ferramenta de engenharia poderosa e flexível para criar e projetar novas sequências de DNA e funções de proteínas.

    Otimização de genes

    Embora a capacidade de fazer trechos cada vez mais longos de DNA de forma eficiente e a preços mais baixos seja um impulsionador tecnológico desse campo, cada vez mais atenção está sendo focada em melhorar o design de genes para fins específicos. No início da era do sequenciamento do genoma, a síntese de genes era usada como uma fonte (cara) de cDNAs que eram previstos por informações genômicas ou parciais de cDNA, mas eram difíceis de clonar. À medida que fontes de maior qualidade de cDNA clonado de sequência verificada se tornaram disponíveis, esta prática tornou-se menos urgente.

    A produção de grandes quantidades de proteínas a partir de sequências de genes (ou pelo menos as regiões codificadoras de proteínas, a estrutura de leitura aberta) encontradas na natureza pode às vezes ser difícil e é um problema de impacto suficiente para que conferências científicas tenham sido dedicadas ao tópico. Muitas das proteínas mais interessantes procuradas por biólogos moleculares são normalmente reguladas para serem expressas em quantidades muito baixas em células do tipo selvagem. O redesenho desses genes oferece um meio de melhorar a expressão gênica em muitos casos. Reescrever o quadro de leitura aberto é possível devido à degeneração do código genético. Assim, é possível alterar até cerca de um terço dos nucleotídeos em uma fase de leitura aberta e ainda produzir a mesma proteína. O número disponível de designs alternativos possíveis para uma determinada proteína é astronômico. Para uma sequência de proteína típica de 300 aminoácidos, existem mais de 10 150 combinações de códons que codificarão uma proteína idêntica. A otimização de códons, ou substituição de códons raramente usados ​​por códons mais comuns, às vezes tem efeitos dramáticos. Outras otimizações, como a remoção de estruturas secundárias de RNA, também podem ser incluídas. Pelo menos no caso de E. coli, a expressão da proteína é maximizada pelo uso predominante de códons correspondentes ao tRNA que retêm a carga de aminoácidos durante a fome. Programas de computador escritos para fazer isso e outras otimizações simultâneas são usados ​​para lidar com a enorme complexidade da tarefa. Um gene bem otimizado pode melhorar a expressão da proteína de 2 a 10 vezes e, em alguns casos, melhorias de mais de 100 vezes foram relatadas. Por causa do grande número de alterações de nucleotídeos feitas na sequência de DNA original, a única maneira prática de criar os genes recém-projetados é usar a síntese de genes.

    Síntese de oligonucleotídeos

    Os oligonucleotídeos são sintetizados quimicamente usando blocos de construção chamados fosforamiditos de nucleosídeo. Estes podem ser nucleosídeos normais ou modificados que têm grupos de proteção para evitar que suas aminas, grupos hidroxila e grupos fosfato interajam incorretamente. Um fosforamidito é adicionado por vez, o grupo hidroxila 5 & # 8242 é desprotegido e uma nova base é adicionada e assim por diante. A cadeia cresce na direção 3 & # 8242 a 5 & # 8242, que é inversa em relação à biossíntese de DNA na Vivo. No final, todos os grupos de proteção são removidos.

    Figura 5.13 Ciclo de síntese de oligodesoxinucleotídeos de fosforamidita em quatro etapas. O método da fosforamidita, iniciado por Marvin Caruthers no início dos anos 1980 e aprimorado pela aplicação de tecnologia de fase sólida e automação, está agora firmemente estabelecido como o método de escolha. A síntese do oligonucleotídeo fosforamidito prossegue na direção 3 a 5 (oposta à direção 5 a 3 da biossíntese do DNA na replicação do DNA). Um nucleotídeo é adicionado por ciclo de síntese. O ciclo de síntese de DNA de fosforamidito consiste em uma série de etapas descritas na figura

    No entanto, por ser um processo químico, várias interações incorretas ocorrem levando a alguns produtos defeituosos. Quanto mais longa a sequência de oligonucleotídeos que está sendo sintetizada, mais defeitos existem, portanto, esse processo só é prático para a produção de sequências curtas de nucleotídeos. O limite prático atual é de cerca de 200 bp (pares de bases) para um oligonucleotídeo com qualidade suficiente para ser usado diretamente em uma aplicação biológica. HPLC pode ser usado para isolar produtos com a sequência adequada. Enquanto isso, um grande número de oligos pode ser sintetizado em paralelo em chips de genes. Para um desempenho ideal em procedimentos subsequentes de síntese de genes, eles devem ser preparados individualmente e em escalas maiores.

    Síntese de DNA e biologia sintética

    A queda significativa no custo da síntese de genes nos últimos anos devido ao aumento da concorrência das empresas que fornecem esse serviço levou à capacidade de produzir plasmídeos bacterianos inteiros que nunca existiram na natureza. O campo da biologia sintética utiliza a tecnologia para produzir circuitos biológicos sintéticos, que são trechos de DNA manipulados para alterar a expressão gênica dentro das células e fazer com que a célula produza o produto desejado.

    A capacidade de produzir DNA sinteticamente permitirá o desenvolvimento de produtos ambientais, médicos e comercialmente relevantes. Por exemplo, em 2015, a Novartis, em colaboração com a Synthetic Genomics Vaccines inc. e a Autoridade de Pesquisa e Desenvolvimento Biomédico Avançado dos Estados Unidos, anunciaram que haviam efetivamente criado uma vacina de DNA sintético contra influenza. As novas vacinas de DNA sintético prometem fornecer uma alternativa às vacinas convencionais produzidas em ovos, que podem ser prejudicadas pela baixa eficácia.

    As vacinas de DNA são capazes de evitar muitos problemas associados à produção de vacinas à base de ovo, gerando proteínas virais dentro das células hospedeiras. Para criar uma vacina de DNA, um gene que codifica o antígeno é clonado em um plasmídeo de expressão não replicativo, que é entregue ao hospedeiro pelas rotas tradicionais de vacinação. As células hospedeiras que absorvem o plasmídeo expressam o antígeno da vacina, que pode ser apresentado às células imunes através das vias do complexo principal de histocompatibilidade (MHC). A ativação de células T auxiliares CD4 + após a apresentação de MHC de classe II da proteína de vacina de DNA secretada é crítica para a produção de anticorpos específicos para o antígeno (Figura 5.14).

    Figura 5.14 Criação de uma vacina de DNA. Um gene antigênico é sintetizado e clonado em um vetor plasmídeo. (As etapas relacionadas ao processo de clonagem são descritas com mais detalhes na seção 5.3). A vacina de DNA é entregue ao hospedeiro, onde será expressa para produzir e apresentar antígeno ao sistema imunológico do hospedeiro.

    Após duas décadas de pesquisa, a tecnologia da vacina de DNA está ganhando maturidade - várias vacinas veterinárias de DNA estão atualmente licenciadas para o vírus do Nilo Ocidental e melanoma e, significativamente, a primeira vacina comercial de DNA contra o H5N1 em galinhas foi recentemente aprovada condicionalmente pelo USDA. Além disso, grandes ensaios em andamento com vacinas de DNA contra outras doenças, como HIV, hepatite e zika vírus, oferecem informações valiosas que podem ser aplicadas ao projeto de vacinas de DNA da gripe. Abordagens promissoras surgiram de vários estudos avaliando diferentes formulações de vacinas de DNA e sistemas de distribuição, mas ainda não surgiu uma estratégia que elicia consistentemente proteção contra a influenza em grandes modelos animais. A entrega bem-sucedida de plasmídeos e o uso de adjuvantes apropriados continuam a ser os principais desafios que precisam ser enfrentados antes que as vacinas de DNA contra influenza se tornem eficazes para uso humano.

    5.2 Bioinformática

    Uma revolução sem precedentes foi observada na ciência com os recentes avanços tecnológicos, que forneceram uma grande quantidade de dados “ômicos”. A crescente geração e disponibilização dessas informações disponíveis em bases de dados públicas foram, e ainda são, um desafio para profissionais de diversas áreas. Porém, qual é o desafio? Em biologia, o principal desafio é dar sentido à enorme quantidade de dados e sequências estruturais que foram geradas em vários níveis de sistemas biológicos. Ainda, na bioinformática, é necessário o desenvolvimento de ferramentas (estatísticas e computacionais) capazes de auxiliar na compreensão dos mecanismos subjacentes às questões biológicas do estudo. Além disso, se considerarmos a complexidade da ciência, esta é uma visão altamente reducionista. A era de uma “nova biologia” surge acompanhada pelo nascimento / desenvolvimento de outras ciências, como a bioinformática e a biologia computacional, que possuem uma interface integrada de biologia molecular. Embora consideradas recentemente, a bioinformática e a genômica evoluíram de forma interdependente e promoveram um impacto histórico sobre o conhecimento disponível.

    Bioinformática, uma ciência híbrida que vincula dados biológicos a técnicas de armazenamento, distribuição e análise de informações para apoiar várias áreas de pesquisa científica, incluindo a biomedicina. Envolve principalmente biologia molecular e genética, ciência da computação, matemática e estatística. Problemas biológicos de grande escala e intensivos em dados são tratados do ponto de vista computacional. A bioinformática é alimentada por experimentos de geração de dados de alto rendimento, incluindo determinações de sequência genômica e medições de padrões de expressão gênica. Os projetos de banco de dados organizam e anotam os dados e depois os distribuem pela World Wide Web. A mineração desses dados leva a descobertas científicas e à identificação de novas aplicações clínicas.

    Uma solução de bioinformática geralmente envolve as seguintes etapas:

    • Colete estatísticas de dados biológicos
    • Construir um modelo computacional
    • Resolva um problema de modelagem computacional
    • Teste e avalie um algoritmo computacional

    Também aborda os seguintes aspectos:

    • Tipos de informações biológicas e bancos de dados
    • Análise de sequência e modelagem molecular
    • Análise genômica
    • Biologia de sistemas

    No campo da medicina em particular, uma série de aplicações importantes para a bioinformática foram descobertas. Por exemplo, é usado para identificar correlações entre sequências de genes e doenças, para prever estruturas de proteínas a partir de sequências de aminoácidos, para ajudar no design de novos medicamentos e para adaptar tratamentos para pacientes individuais com base em suas sequências de DNA (farmacogenômica). Em bioinformática, podemos agora conduzir análises globais de todos os dados disponíveis com o objetivo de descobrir princípios comuns que se aplicam a muitos sistemas e destacar recursos novos.

    Algumas aplicações da bioinformática em biotecnologia são fornecidas a seguir:

    Genômica

    Para gerenciar uma quantidade crescente de informações genômicas, ferramentas bioinformáticas são necessárias para manter e analisar as sequências de DNA de diferentes organismos.Determinação da homologia de sequências, descoberta de genes, identificação da região codificadora, análises estruturais e funcionais de sequências genômicas, etc., tudo isso é possível pelo uso de diferentes ferramentas de bioinformática e pacotes de software.

    Dada a seguir está uma lista de poucas ferramentas de bioinformática usadas em genômica (Tabela 5.1).

    Tabela 5.1 Ferramentas / bancos de dados de bioinformática usados ​​em Genômica

    Ferramentas de bioinformática Propósito
    Carrie Banco de dados de redes regulatórias transcricionais
    CisML Ferramenta de detecção de motivos
    ICSF Identificação de características estruturais conservadas em sítios de ligação de TF
    gambá Ferramenta para pesquisa de motivos
    Promotor Ferramenta de extração de promotor de organismos eucarióticos
    REPFIND Determine repetições agrupadas no fragmento de DNA
    Destruidor de Clusters Ferramenta para prever grupos de motivos em sequências de DNA
    Cister Encontra regiões regulatórias em fragmentos de DNA
    Trevo Encontre motivos super-representados em sequências de DNA
    GLAMOUR Ferramenta para prever motivos funcionais
    MotifViz Identificação de motivos super-representados
    NECorr Ferramenta para analisar dados de expressão gênica
    ANDARILHO Prediz motivos super-representados em fragmentos de DNA
    SeqVISTA Ferramenta de visualização de sequências
    DNADynamo Ferramenta para encontrar fatores de transcrição com locais de ligação sobre-representados nas regiões a montante de genes humanos co-expressos

    Genômica Comparativa

    A bioinformática desempenha um papel importante na genômica comparativa ao determinar a relação estrutural e funcional genômica entre diferentes espécies biológicas.

    Dada a seguir está uma lista de poucas ferramentas de bioinformática usadas em genômica comparativa (Tabela 5.2).

    Tabela 5.2 Ferramentas / bancos de dados de bioinformática usados ​​em genômica comparativa

    Ferramentas de bioinformática Propósito
    EXPLOSÃO Ferramenta de alinhamento de sequência de DNA ou proteína
    HMMER Ferramenta de pesquisa de sequências de proteínas homólogas
    Clustal Omega Ferramenta de múltiplos alinhamentos de sequência
    Sequerome Ferramenta de perfil de sequência
    ProtParam Prediz as propriedades físico-químicas das proteínas
    novoSNP Prediz mutação de ponto único em sequências de DNA
    ORF Finder Encontre quadro de leitura aberto em genes putativos
    Foorprint Virtual Análise de todo o genoma procariótico
    WebGeSTer Prediz locais de terminação de genes durante a transcrição
    Genscan Encontre sítios exon-íntron em sequências de DNA
    Softberry Tools Ferramenta de anotação de genomas junto com a predição de estrutura e função de moléculas biológicas
    MEGA Estude a relação evolutiva
    MOLPHY Ferramenta de análise filogenética baseada na máxima verossimilhança
    PHYLIP Ferramenta para estudos filogenéticos
    JStree Ferramenta para visualizar e editar árvores filogenéticas
    Jalview É uma ferramenta de edição de alinhamento
    Banco de dados de DNA do Japão Recursos para sequências de nucleotídeos
    Rfam O banco de dados contém uma coleção de famílias de RNA
    Uniprot Banco de dados de sequência de proteínas
    Banco de dados de proteínas O banco de dados fornece dados sobre estruturas de ácidos nucléicos, proteínas, etc.
    SWISS PROT Banco de dados contendo as sequências de proteínas anotadas manualmente
    InterPro Fornece informações sobre famílias de proteínas, seus domínios conservados e sites ativos
    Banco de dados de identificações proteômicas Contém dados sobre caracterização funcional e modificação pós-tradução de proteínas e peptídeos
    Conjunto Banco de dados contendo genomas anotados de eucariotos, incluindo humanos, camundongos e outros vertebrados
    Medherb Banco de dados de ervas medicinais

    Proteômica:

    Técnicas moleculares avançadas levaram ao acúmulo de enormes dados proteômicos de padrões de atividade de proteínas, interações, perfis, composição, informações estruturais, análise de imagem, impressão digital de massa de peptídeo, impressão digital de fragmentação de peptídeo, etc. Esses enormes dados podem ser gerenciados usando diferentes ferramentas de bioinformática .

    Dada a seguir está uma lista de poucas ferramentas de bioinformática usadas em proteômica (Tabela 5.3).

    Tabela 5.3 Ferramentas / bancos de dados de bioinformática usados ​​em Proteômica.

    Ferramentas de bioinformática Propósito
    K2 / FAST Ferramenta de alinhamento de estrutura de proteína
    SMM Ferramenta para determinar a ligação de peptídeos ao complexo principal de histocompatibilidade
    ZDOCK Ferramenta de acoplamento proteína-proteína
    Benchmark de ancoragem Ferramenta para avaliar o desempenho de algoritmos de encaixe
    Servidor ZDOCK Um servidor automatizado para executar ZDOCK
    MELANIE Análise proteômica para análise de imagens 2D-Gel

    Descoberta de drogas

    A bioinformática clínica é um novo campo emergente da bioinformática que emprega várias ferramentas de bioinformática, como o design de medicamentos auxiliado por computador para desenvolver novos medicamentos, vacinas, modelagem de drogas de DNA e em sílico teste de drogas para produzir medicamentos novos e eficazes em um período de tempo mais curto com riscos mais baixos.

    Pesquisa e Análise do Câncer

    Ferramentas bioinformáticas como NCI, NCIP (parte do NCI) e CBIIT têm desempenhado um papel importante na genômica, proteômica, imagem e metabolômica para aumentar nosso conhecimento da base molecular do câncer.

    Estudos Filogenéticos

    Usando inúmeras ferramentas de bioinformática, a análise filogenética dos dados moleculares pode ser facilmente alcançada em um curto período de tempo através da construção de árvores filogenéticas para estudar sua relação evolutiva com base no alinhamento de sequências.

    Ciência forense

    Vários bancos de dados consistem em perfis de DNA de delinquentes conhecidos. Avanços na tecnologia de microarray, redes bayesianas e algoritmos de programação fornecem um método eficaz de organização e interpretação de evidências.

    Bio-Defesa

    Embora a bioinformática tenha impacto limitado na perícia, uma vez que há uma necessidade de algoritmos e aplicativos computacionais mais avançados para que os bancos de dados estabelecidos possam exibir interoperabilidade entre si.

    Nutrigenômica

    As progressões na genômica estrutural / funcional e nas tecnologias moleculares, como sequenciamento do genoma e microarranjos de DNA, geram um conhecimento valioso que explica a nutrição em relação à genética de um indivíduo que influencia diretamente seu metabolismo. Devido ao influxo de ferramentas de bioinformática, a pesquisa relacionada à nutrição aumentou tremendamente.

    Expressão genetica

    A regulação da expressão gênica é o núcleo da genômica funcional, permitindo aos pesquisadores aplicar dados genômicos a tecnologias moleculares que podem quantificar a quantidade de genes que transcrevem ativamente em qualquer célula a qualquer momento (por exemplo, matrizes de expressão gênica).

    Dada abaixo está uma lista de poucas ferramentas de bioinformática usadas no estudo de expressão gênica Tabela 5.4.

    Tabela 5.4 Ferramentas de bioinformática / bancos de dados usados ​​na expressão gênica

    Ferramentas de bioinformática Propósito
    GeneChords Ferramenta de recuperação de genes conservados
    Biocondutor Fornece ferramentas para a análise de dados genômicos de alto rendimento
    GXD Banco de dados de expressão gênica para camundongos de laboratório
    Localizador de repetições invertidas Encontre repetições invertidas no DNA genômico
    BU ORChID O banco de dados armazena dados de clivagem do radical hidroxila de sequências de DNA
    ODB Prediz agrupamentos de genes funcionais
    Suporte de dobra de RNA Prediz a estrutura do RNA com base em mutações em alelos
    CellNetVis Ferramenta de visualização para redes e complexos biológicos
    Localizador de Repetição Tandem Encontra repetições tandem no DNA genômico
    VisANT Ferramentas para visualizar e analisar muitas interações biológicas
    PROMO Identificação de locais de ligação de fator de transcrição
    ConTra V.3 Detecção do sítio de ligação do fator de transcrição

    Tabela remixada de Kahn, N.T. (2018)

    Qualidade Alimentar

    Novas melhorias em algoritmos de computação e bancos de dados de simulação estrutural disponíveis de estruturas reconhecidas trouxeram a modelagem molecular para a química alimentar convencional. Essas simulações possibilitarão melhorar a qualidade dos alimentos por meio do desenvolvimento de novos aditivos alimentares por meio da compreensão das bases da tenacidade, do antagonismo e da complementação gustativa.

    Predição da estrutura e função da proteína

    A previsão da topologia de proteínas agora é muito fácil graças à bioinformática, que ajuda na previsão da estrutura 3D de uma proteína para obter uma visão sobre sua função também.

    Dada abaixo está uma lista de poucas ferramentas de bioinformática usadas na estrutura de proteínas e previsão de função Tabela 5.

    Tabela 5.5 Ferramentas de bioinformática / bancos de dados usados ​​na estrutura de proteínas e previsão de funções

    Ferramentas de bioinformática Propósito
    CATH Ferramenta para a organização categorizada de proteínas
    Phyre2 Ferramenta para previsão da estrutura da proteína
    HMMSTR Para a previsão de correlações sequência-estrutura em proteínas
    MODELADOR Prediz a estrutura 3D da proteína
    JPRED / APSSP2 Prediz estruturas secundárias de proteínas
    RaptorX Prediz a estrutura da proteína
    QUARK Prediz a Estrutura da Proteína

    Tabela remixada de Kahn, N.T. (2018)

    Medicina Personalizada

    Os médicos serão capazes de analisar o perfil genético de um paciente e prescrever a melhor terapia medicamentosa disponível e dosagem desde o início, empregando a ferramenta de bioinformática.

    Aplicações do genoma microbiano

    Os micróbios foram estudados em um nível muito básico com a ajuda de ferramentas de bioinformática necessárias para analisar seu conjunto único de genes que lhes permite sobreviver em condições desfavoráveis.

    5.3 Clonagem e Expressão Recombinante

    Para realizar as aplicações descritas acima, os bioquímicos devem ser capazes de extrair, manipular e analisar ácidos nucléicos. Para entender as técnicas básicas usadas para trabalhar com ácidos nucléicos, lembre-se de que os ácidos nucléicos são macromoléculas feitas de nucleotídeos (um açúcar, um fosfato e uma base nitrogenada). Cada um dos grupos fosfato nessas moléculas tem uma carga líquida negativa. Um conjunto completo de moléculas de DNA no núcleo dos organismos eucarióticos é denominado genoma. O DNA tem duas fitas complementares ligadas por pontes de hidrogênio entre as bases emparelhadas.

    Ao contrário do DNA nas células eucarióticas, as moléculas de RNA deixam o núcleo. O RNA mensageiro (mRNA) é analisado com mais frequência porque representa os genes codificadores de proteínas que estão sendo expressos na célula.

    As técnicas de isolamento de DNA foram descritas na seção 5.1 e são a primeira etapa usada para estudar ou manipular ácidos nucléicos. O RNA também pode ser extraído e é estudado para compreender os padrões de expressão gênica nas células. O RNA é naturalmente muito instável porque as enzimas que decompõem o RNA estão comumente presentes na natureza. Alguns são mesmo secretados pela nossa própria pele e são muito difíceis de inativar. Durante a extração de RNA, os inibidores de RNase e o tratamento especial de vidraria são usados ​​para reduzir o risco de destruição da amostra durante o isolamento

    Eletroforese em Gel

    Como os ácidos nucléicos são íons carregados negativamente em pH neutro ou alcalino em um ambiente aquoso, eles podem ser movidos por um campo elétrico. A eletroforese em gel é uma técnica usada para separar moléculas carregadas com base no tamanho e na carga. Os ácidos nucleicos podem ser separados como cromossomos inteiros ou como fragmentos. Os ácidos nucléicos são carregados em uma fenda em uma extremidade de uma matriz de gel, uma corrente elétrica é aplicada e moléculas carregadas negativamente são puxadas em direção à extremidade oposta do gel (a extremidade com o eletrodo positivo). Moléculas menores se movem através dos poros no gel mais rápido do que moléculas maiores. Essa diferença na taxa de migração separa os fragmentos com base no tamanho. Os ácidos nucléicos em uma matriz de gel são invisíveis até serem corados com um composto que permite sua visualização, como um corante. Fragmentos distintos de ácidos nucléicos aparecem como bandas a distâncias específicas do topo do gel (a extremidade do eletrodo negativo) que são baseadas em seu tamanho (Figura 5.15). Uma mistura de muitos fragmentos de tamanhos variados aparece como um esfregaço longo, enquanto o DNA genômico não cortado é geralmente muito grande para passar pelo gel e forma uma única banda grande na parte superior do gel.

    Figura 5.15 Eletroforese em gel de DNA. São mostrados fragmentos de DNA de seis amostras executadas em um gel, coradas com um corante fluorescente e visualizadas sob luz ultravioleta. (crédito: modificação do trabalho de James Jacob, Tompkins Cortland Community College)

    Reação em cadeia da polimerase (PCR)

    Os detalhes da PCR são discutidos na seção 5.1. Esta técnica é usada na clonagem de DNA para aumentar rapidamente o número de cópias de regiões específicas do DNA.

    Clonagem

    Em geral, a clonagem significa a criação de uma réplica perfeita. Normalmente, a palavra é usada para descrever a criação de uma cópia geneticamente idêntica. Em biologia, a recriação de um organismo inteiro é conhecida como "clonagem reprodutiva". Muito antes de serem feitas tentativas de clonar um organismo inteiro, os pesquisadores aprenderam como copiar trechos curtos de DNA - um processo conhecido como clonagem molecular.

    A clonagem molecular permite a criação de múltiplas cópias de genes, expressão de genes e estudo de genes específicos. Para colocar o fragmento de DNA em uma célula bacteriana em uma forma que será copiada ou expressa, o fragmento é primeiro inserido em um vetor de clonagem.

    UMA vetor de clonagem é um pequeno pedaço de DNA que pode ser mantido de forma estável em um organismo e no qual um fragmento de DNA estranho pode ser inserido para fins de clonagem. O vetor de clonagem pode ser DNA retirado de um vírus, a célula de um organismo superior ou pode ser o plasmídeo de uma bactéria. O vetor contém, portanto, características que permitem a inserção ou remoção conveniente de um fragmento de DNA para ou do vetor, por exemplo, tratando o vetor e o DNA estranho com uma enzima de restrição que corta o DNA. Os fragmentos de DNA assim gerados contêm extremidades cegas ou saliências conhecidas como extremidades coesivas, e o DNA do vetor e o DNA estranho com extremidades compatíveis podem então ser unidos por ligação molecular. Depois de um fragmento de DNA ter sido clonado em um vetor de clonagem, ele pode ser posteriormente subclonado em outro vetor projetado para uso mais específico.

    Existem muitos tipos de vetores de clonagem, mas os mais comumente usados ​​são os plasmídeos geneticamente modificados. A clonagem geralmente é realizada primeiro usando Escherichia coli, e vetores de clonagem em E. coli incluem plasmídeos, bacteriófagos (como fago λ), cosmídeos e cromossomos bacterianos artificiais (BACs). Alguns DNA, no entanto, não podem ser mantidos de forma estável em E. coli, por exemplo fragmentos de DNA muito grandes. Para esses estudos, outros organismos, como leveduras, podem ser usados. Os vetores de clonagem em levedura incluem cromossomos artificiais de levedura (YACs).

    Figura 5.16 Exemplo de um vetor de clonagem comum.

    Todos os vetores de clonagem comumente usados ​​em biologia molecular têm características essenciais necessárias para sua função, como um local de clonagem adequado com enzimas de restrição e um marcador selecionável. Outros podem ter recursos adicionais específicos para seu uso. Por razões de facilidade e conveniência, a clonagem é frequentemente realizada usando E. coli. Assim, os vetores de clonagem utilizados muitas vezes possuem elementos necessários para sua propagação e manutenção em E. coli, como um funcional origem de replicação (ori). A origem de replicação ColE1 é encontrada em muitos plasmídeos. Alguns vetores também incluem elementos que permitem que sejam mantidos em outro organismo, além de E. coli, e esses vetores são chamados vetores de transporte.

    Clonagem de site

    Todos os vetores de clonagem têm características que permitem que um gene seja convenientemente inserido no vetor ou removido dele. Isso pode ser um sítio de clonagem múltipla (MCS) ou poliligante, que contém muitos sites de restrição exclusivos. Os locais de restrição no MCS são primeiro clivados por enzimas de restrição, então um gene alvo amplificado por PCR também digerido com as mesmas enzimas é ligado aos vetores usando DNA ligase. A sequência de DNA alvo pode ser inserida no vetor em uma direção específica, se desejado. Os locais de restrição podem ser ainda usados ​​para subclonagem em outro vetor, se necessário.

    Outros vetores de clonagem podem usar topoisomerase em vez de ligase e a clonagem pode ser feita mais rapidamente sem a necessidade de digestão de restrição do vetor ou inserção. Neste método de clonagem TOPO, um vetor linearizado é ativado anexando topoisomerase I às suas extremidades, e este vetor & # 8220TOPO-ativado & # 8221 pode então aceitar um produto de PCR ligando ambas as extremidades 5 & # 8242 do produto de PCR, liberando a topoisomerase e formando um vetor circular no processo. Outro método de clonagem sem o uso de DNA digerido e ligase é por recombinação de DNA, por exemplo, como usado no sistema de clonagem Gateway. O gene, uma vez clonado no vetor de clonagem (denominado clone de entrada neste método), pode ser convenientemente introduzido em uma variedade de vetores de expressão por recombinação.

    Enzimas de restrição

    Enzimas de restrição (também chamadas de endonucleases de restrição) reconhecem sequências de DNA específicas e as cortam de maneira previsível, elas são produzidas naturalmente por bactérias como mecanismo de defesa contra DNA estranho.

    Como o nome indica, as endonucleases de restrição (ou enzimas de restrição) são “restrito”Em sua capacidade de cortar ou digerir DNA. A restrição que é útil para os bioquímicos é geralmente um palíndromo Sequência de DNA. As sequências palindrômicas são a mesma sequência para a frente e para trás. Alguns exemplos de palíndromos: CARRO DE CORRIDA, CIVIC, UM HOMEM UM PLANO UM CANAL DO PANAMÁ. No que diz respeito ao DNA, existem 2 cadeias antiparalelulares entre si. Portanto, o complemento reverso de uma fita é idêntico ao da outra.

    Como acontece com a palavra palíndromo, isso significa que a sequência palíndrômica do DNA é lida da mesma forma para a frente e para trás. Na maioria dos casos, a sequência é lida da mesma forma para a frente em uma fita e para trás na fita complementar. REs geralmente cortam o DNA em um padrão escalonado. Quando um corte escalonado é feito em sequência, as saliências são complementares (Figura 5.17).

    Figura 5.17 Sequências de reconhecimento de enzimas de restrição. Neste (a) sítio de reconhecimento de enzima de restrição de seis nucleotídeos, observe que a sequência de seis nucleotídeos é lida da mesma forma na direção de 5 'para 3' em uma fita e na direção de 5 'para 3' na fita complementar. Isso é conhecido como palíndromo. (b) A enzima de restrição faz quebras nas fitas de DNA, e (c) o corte no DNA resulta em “extremidades pegajosas”. Outro pedaço de DNA cortado em cada extremidade pela mesma enzima de restrição poderia se ligar a essas extremidades pegajosas e ser inserido na lacuna feita por esse corte.

    Os biólogos moleculares também tendem a usar essas tesouras moleculares especiais que reconhecem palíndromos de 6 ou 8. Usando cortadores 6 ou 8, as sequências ocorrem raramente em grandes extensões, mas com frequência o suficiente para serem úteis.

    EcoRI gera extremidades pegajosas ou coesas SmaI gera pontas cegas

    Figura 5.18 Enzimas de restrição. As enzimas de restrição reconhecem as sequências palindrômicas no DNA e hidrolisam as ligações fosfodiéster covalentes do DNA para deixar as extremidades "pegajosas / coesivas" ou "rombas". Esta distinção no corte é importante porque um EcoRI A extremidade pegajosa pode ser usada para combinar um pedaço de DNA cortado com a mesma enzima, a fim de colá-los ou ligá-los novamente. Enquanto as endonucleases cortam o DNA, ligases junte-os novamente. DNA digerido com EcoRI pode ser ligado novamente com outro pedaço de DNA digerido com EcoRI, mas não para uma peça digerida com SmaI. Outro cortador cego é EcoRV com uma sequência de reconhecimento de GAT | ATC.

    Marcador selecionável

    Um marcador selecionável é transportado pelo vetor para permitir a seleção de células transformadas positivamente. A resistência aos antibióticos é frequentemente usada como marcador, sendo um exemplo o gene da beta-lactamase, que confere resistência ao grupo da penicilina dos antibióticos beta-lactâmicos, como a ampicilina.Alguns vetores contêm dois marcadores selecionáveis, por exemplo, o plasmídeo pACYC177 possui o gene de resistência à ampicilina e à canamicina. Os vetores de transporte que são projetados para serem mantidos em dois organismos diferentes também podem exigir dois marcadores selecionáveis, embora alguns marcadores selecionáveis, como resistência à zeocina e higromicina B, sejam eficazes em diferentes tipos de células. Marcadores de seleção auxotróficos que permitem que um organismo auxotrófico cresça em meio de crescimento mínimo também podem ser usados. LEU2 e URA3 que são usados ​​com suas cepas auxotróficas correspondentes de levedura.

    Outro tipo de marcador selecionável permite a seleção positiva do plasmídeo com o gene clonado. Isso pode envolver o uso de um gene letal para as células hospedeiras, como barnase, Ccda e as toxinas parD / parE. Isso normalmente funciona interrompendo ou removendo o gene letal durante o processo de clonagem, e clones malsucedidos onde o gene letal ainda permanece intacto matariam as células hospedeiras, portanto, apenas clones bem-sucedidos são selecionados.

    Genes repórter

    Genes repórteres são usados ​​em alguns vetores de clonagem para facilitar a triagem de clones bem-sucedidos usando características desses genes que permitem que o clone bem-sucedido seja facilmente identificado. Tais características presentes em vetores de clonagem podem ser as lacZfragmento α para complementação α na seleção azul-branco e / ou gene marcador ou genes repórter em quadro com e flanqueando o MCS para facilitar a produção de proteínas de fusão. Exemplos de parceiros de fusão que podem ser usados ​​para a triagem são a proteína fluorescente verde (GFP) e a luciferase.

    Figura 5.19 Genes Reporter. Neste diagrama, a proteína fluorescente verde é usada como um gene repórter para estudar as sequências regulatórias a montante.

    Elementos para expressão

    Se a expressão do gene alvo for desejada, então um vetor de clonagem também precisa conter elementos adequados para a expressão do gene alvo clonado, incluindo um promotor e sítio de ligação ribossômica (RBS). O DNA alvo pode ser inserido em um local que está sob o controle de um promotor particular necessário para a expressão do gene alvo no hospedeiro escolhido. Quando o promotor está presente, a expressão do gene é de preferência fortemente controlada e induzível de modo que as proteínas sejam produzidas apenas quando necessário. Alguns promotores comumente usados ​​são o T7 e laca promotores. A presença de um promotor é necessária quando técnicas de triagem, como seleção azul-branco, são usadas.

    Os vetores de clonagem sem promotor e RBS para a sequência de DNA clonada são algumas vezes usados, por exemplo, quando genes de clonagem cujos produtos são tóxicos para E. coli células. O promotor e o RBS para a sequência de DNA clonada também são desnecessários ao fazer primeiro uma biblioteca genômica ou de cDNA de clones, uma vez que os genes clonados são normalmente subclonados em um vetor de expressão mais apropriado se sua expressão for necessária.

    Tipos de vetores de clonagem

    Um grande número de vetores de clonagem está disponível e a escolha do vetor correto pode depender de vários fatores, como o tamanho da inserção, o número de cópias e o método de clonagem. Inserções de DNA grandes podem não ser mantidas de forma estável em um vetor de clonagem geral, especialmente para aqueles com um alto número de cópias, portanto, a clonagem de fragmentos grandes pode exigir um vetor de clonagem mais especializado.

    Os plasmídeos são DNA extra-cromossômico circular que se replica autonomamente. Eles são os vetores de clonagem padrão e os mais comumente usados. A maioria dos plasmídeos gerais podem ser usados ​​para clonar inserções de DNA de até 15 kb de tamanho. Muitos plasmídeos têm alto número de cópias, por exemplo, pUC19 que tem um número de cópias de 500-700 cópias por célula, e alto número de cópias é útil, pois produz maior rendimento de plasmídeo recombinante para manipulação subsequente. No entanto, plasmídeos de baixo número de cópias podem ser preferencialmente usados ​​em certas circunstâncias, por exemplo, quando a proteína do gene clonado é tóxica para as células.

    Bacteriófago

    Os bacteriófagos mais comumente usados ​​para clonagem são o fago lambda (λ) e o fago M13. Há um limite superior na quantidade de DNA que pode ser compactada em um fago (máximo de 53 kb). O genoma médio do fago lambda é de aproximadamente 48,5 kb (Figura 5.20). Portanto, para permitir que o DNA estranho seja inserido no DNA do fago, os vetores de clonagem de fago podem precisar ter alguns de seus genes não essenciais deletados para abrir espaço para o DNA estranho.

    Também existe um limite de tamanho inferior para o DNA que pode ser empacotado em um fago, e o DNA do vetor que é muito pequeno não pode ser empacotado adequadamente no fago. Esta propriedade pode ser usada para seleção & # 8211 vetor sem inserção pode ser muito pequeno, portanto, apenas vetores com inserção podem ser selecionados para propagação.

    Figura 5.20 Lambda Phage. (A) Representação esquemática do genoma circular do fago lambda (B) Diagrama da partícula infecciosa do Fago Lambda e (C) Micrografia eletrônica do bacteriófago relacionado, vibriófago VvAWI. A barra denota comprimento de 50 nm.

    Os cosmídeos são plasmídeos que incorporam um segmento de DNA do bacteriófago λ que possui os locais finais coesos (cos), que contém os elementos necessários para empacotar o DNA em partículas λ. É normalmente usado para clonar grandes fragmentos de DNA entre 28 e 45 Kb.

    Cromossomo bacteriano artificial

    O tamanho da inserção de até 350 kb pode ser clonado no cromossomo bacteriano artificial (BAC). BACs são mantidos em E. coli com um número de cópias de apenas 1 por célula. BACs têm sido freqüentemente usados ​​para sequenciar o genoma de organismos em projetos de genoma, incluindo o Projeto Genoma Humano. Um pequeno pedaço do DNA do organismo & # 8217s é amplificado como uma inserção em BACs e, em seguida, sequenciado. Finalmente, as partes sequenciadas são reorganizadas em sílico, resultando na sequência genômica do organismo. Os BACs foram amplamente substituídos nesta capacidade por métodos de sequenciamento mais rápidos e menos trabalhosos, como sequenciamento shotgun do genoma inteiro e agora, mais recentemente, sequenciamento de última geração.

    Cromossomo artificial de levedura

    Cromossomos artificiais de levedura são usados ​​como vetores para clonar fragmentos de DNA de mais de 1 megabase (1Mb = 1000kb = 1.000.000 bases) de tamanho. Eles são úteis na clonagem de fragmentos de DNA maiores, conforme necessário no mapeamento de genomas, como no projeto do genoma humano. Ele contém uma sequência telomérica, uma sequência de replicação autônoma (recursos necessários para replicar cromossomos lineares em células de levedura). Estes vetores também contêm locais de restrição adequados para clonar DNA estranho, bem como genes a serem usados ​​como marcadores selecionáveis.

    Cromossomo artificial humano

    Cromossomos artificiais humanos podem ser potencialmente úteis como vetores de transferência de genes para entrega de genes em células humanas e uma ferramenta para estudos de expressão e determinação da função do cromossomo humano. Ele pode carregar fragmentos de DNA muito grandes (não há limite superior de tamanho para fins práticos), portanto, não tem o problema de capacidade limitada de clonagem de outros vetores e também evita possível mutagênese de inserção causada pela integração nos cromossomos do hospedeiro por vírus vetor.

    Vetores virais animais e vegetais que infectam células vegetais e animais também foram manipulados para introduzir genes estranhos em células vegetais e animais. A capacidade natural dos vírus de se adsorver às células, introduzir seu DNA e se replicar os tornou veículos ideais para transferir DNA estranho para células eucarióticas em cultura. Um vetor baseado no vírus Simian 40 (SV40) foi usado no primeiro experimento de clonagem envolvendo células de mamíferos. Vários vetores baseados em outros tipos de vírus, como adenovírus e vírus do papiloma, foram usados ​​para clonar genes em mamíferos. Atualmente, os vetores retrovirais são populares para clonagem de genes em células de mamíferos. No caso de transformação de plantas, vírus incluindo o vírus do mosaico da couve-flor, o vírus do mosaico do tabaco e os vírus Gêmeos têm sido usados ​​com sucesso limitado.

    Resumo da clonagem de DNA

    A Figura 5.21 fornece um resumo dos métodos básicos de clonagem mais amplamente usados ​​em laboratórios de bioquímica. O DNA estranho é isolado ou amplificado usando PCR para obter material suficiente para o procedimento de clonagem. O DNA é purificado e cortado com enzimas de restrição e então misturado com um vetor que foi cortado com as mesmas enzimas de restrição. O DNA pode então ser costurado novamente com DNA ligase. O DNA pode então ser transformado em um sistema hospedeiro, muitas vezes bactérias, para fazer crescer grandes quantidades do plasmídeo contendo o DNA clonado.

    A padronização de fragmentos de restrição e sequenciamento de DNA podem ser usados ​​para validar o material clonado.

    Figura 5.21 Diagrama mostrando as etapas principais da clonagem.

    Para um tutorial em vídeo sobre clonagem de DNA, visite: HHMI & # 8211 BioInteractive

    Os plasmídeos com DNA estranho inserido neles são chamados de moléculas de DNA recombinante porque contêm novas combinações de material genético. As proteínas que são produzidas a partir de moléculas de DNA recombinante são chamadas de proteínas recombinantes. Nem todos os plasmídeos recombinantes são capazes de expressar genes. Os plasmídeos também podem ser projetados para expressar proteínas apenas quando estimulados por certos fatores ambientais, de modo que os cientistas possam controlar a expressão das proteínas recombinantes.

    Clonagem Reprodutiva

    A clonagem reprodutiva é um método usado para fazer um clone ou um cópia idêntica de um organismo multicelular inteiro. A maioria dos organismos multicelulares se reproduz por meios sexuais, o que envolve a contribuição de DNA de dois indivíduos (pais), tornando impossível gerar uma cópia idêntica ou um clone de um dos pais. Avanços recentes na biotecnologia tornaram possível clonar reprodutivamente mamíferos em laboratório.

    A reprodução sexual natural envolve a união, durante a fertilização, de um espermatozóide e um óvulo. Cada um desses gametas é haplóide, o que significa que eles contêm um conjunto de cromossomos em seus núcleos. A célula resultante, ou zigoto, é então diplóide e contém dois conjuntos de cromossomos. Esta célula se divide mitoticamente para produzir um organismo multicelular. No entanto, a união de apenas duas células não pode produzir um zigoto viável. Existem componentes no citoplasma da célula-ovo que são essenciais para o desenvolvimento inicial do embrião durante as primeiras divisões celulares. Sem essas disposições, não haveria desenvolvimento subsequente. Portanto, para produzir um novo indivíduo, tanto um complemento genético diplóide quanto um citoplasma de ovo são necessários. A abordagem para produzir um indivíduo clonado artificialmente é pegar o óvulo de um indivíduo e remover o núcleo haplóide. Em seguida, um núcleo diplóide de uma célula do corpo de um segundo indivíduo, o doador, é colocado na célula-ovo. O ovo é então estimulado a se dividir para que o desenvolvimento prossiga. Isso parece simples, mas na verdade são necessárias muitas tentativas antes que cada uma das etapas seja concluída com êxito.

    O primeiro animal agrícola clonado foi Dolly, uma ovelha nascida em 1996. A taxa de sucesso da clonagem reprodutiva na época era muito baixa. Dolly viveu por seis anos e morreu de um tumor no pulmão (Figura 5.22). Especulou-se que, como o DNA da célula que deu origem a Dolly veio de um indivíduo mais velho, a idade do DNA pode ter afetado sua expectativa de vida. Desde Dolly, várias espécies de animais (como cavalos, touros e cabras) foram clonadas com sucesso.

    Houve tentativas de produzir embriões humanos clonados como fontes de células-tronco embrionárias. No procedimento, o DNA de um ser humano adulto é introduzido em um óvulo humano, que é então estimulado a se dividir. A tecnologia é semelhante à que foi usada para produzir Dolly, mas o embrião nunca é implantado em uma mãe substituta. As células produzidas são chamadas de células-tronco embrionárias porque têm a capacidade de se desenvolver em muitos tipos diferentes de células, como células musculares ou nervosas. As células-tronco podem ser usadas para pesquisar e, em última análise, fornecer aplicações terapêuticas, como a substituição de tecidos danificados. O benefício da clonagem neste caso é que as células usadas para regenerar novos tecidos seriam uma combinação perfeita para o doador do DNA original. Por exemplo, um paciente com leucemia não exigiria um irmão com um tecido compatível para um transplante de medula óssea.

    Figura 5.22 A ovelha Dolly foi o primeiro animal agrícola a ser clonado. Para criar Dolly, o núcleo foi removido de um óvulo de um doador. O ovo enucleado foi colocado próximo à outra célula, então eles foram chocados para fundir. Eles ficaram chocados novamente ao iniciar a divisão. As células foram permitidas se dividir por vários dias até que um estágio embrionário inicial fosse alcançado, antes de serem implantadas em uma mãe substituta.

    Por que Dolly era uma Finn-Dorset e não uma ovelha Blackface escocesa?

    Porque embora a célula original viesse de uma ovelha Blackface escocesa e a mãe substituta fosse uma Blackface escocesa, o DNA veio de um Finn-Dorset.

    Engenharia genética

    O uso de tecnologia de DNA recombinante para modificar o DNA de um organismo para atingir características desejáveis ​​é chamado de engenharia genética. A adição de DNA estranho na forma de vetores de DNA recombinante que são gerados por clonagem molecular é o método mais comum de engenharia genética. Um organismo que recebe o DNA recombinante é chamado de organismo geneticamente modificado (OGM). Se o DNA estranho que é introduzido vem de uma espécie diferente, o organismo hospedeiro é chamado transgênico. Bactérias, plantas e animais foram geneticamente modificados desde o início dos anos 1970 para fins acadêmicos, médicos, agrícolas e industriais.

    Assista a este pequeno vídeo explicando como os cientistas criam um animal transgênico.

    Embora os métodos clássicos de estudar a função dos genes tenham começado com um determinado fenótipo e determinado a base genética desse fenótipo, as técnicas modernas permitem que os pesquisadores comecem no nível da sequência de DNA e perguntem: “O que esse gene ou elemento de DNA faz?” Esta técnica, chamada genética reversa, resultou na reversão da metodologia genética clássica. Um exemplo desse método é análogo a danificar uma parte do corpo para determinar sua função. Um inseto que perde uma asa não pode voar, o que significa que a função da asa é voar. O método genético clássico compara insetos que não podem voar com insetos que podem voar e observa que os insetos que não voam perderam asas. Da mesma forma, em uma abordagem de genética reversa, a mutação ou exclusão de genes fornece aos pesquisadores pistas sobre a função dos genes. Alternativamente, a genética reversa pode ser usada para fazer com que um gene se superexpresse para determinar quais efeitos fenotípicos podem ocorrer.

    Tecnologia CRISPR

    CRISPR apoia agrupados com repetições palindrômicas curtas regularmente espaçadase representa uma família de sequências de DNA encontradas nos genomas de organismos procarióticos, como bactérias e arquéias. Essas sequências são derivadas de fragmentos de DNA de bacteriófagos que já infectaram o procarioto e são usadas para detectar e destruir DNA de fagos semelhantes durante infecções subsequentes. Portanto, essas sequências desempenham um papel fundamental no sistema de defesa antiviral dos procariotos.

    5.23 Estrutura cristalina de um complexo de vigilância guiado por RNA CRISPR, Cascade, ligado a um alvo ssDNA. Sistema CRISPR Subunidades de proteína em cascata CasA, CasB, CasC, CasD e CasE (ciano) ligadas ao RNA CRISPR (verde) e DNA viral (vermelho) com base em PDB 4QYZ e processado com PyMOL.

    Cas9 (ou & # 8220CRISPR-associated protein 9 & # 8221) é uma enzima que usa sequências CRISPR como um guia para reconhecer e clivar fitas específicas de DNA que são complementares à sequência CRISPR. As enzimas Cas9, juntamente com as sequências CRISPR, formam a base de uma tecnologia conhecida como CRISPR-Cas9, que pode ser usada para editar genes dentro de organismos. Este processo de edição tem uma ampla variedade de aplicações, incluindo pesquisa biológica básica, desenvolvimento de produtos de biotecnologia e tratamento de doenças.

    Figura 5.24 Diagrama do mecanismo de defesa antiviral procariótica CRISPR.

    O sistema CRISPR-Cas é um sistema imunológico procariótico que confere resistência a elementos genéticos estranhos, como aqueles presentes em plasmídeos e fagos, que fornecem uma forma de imunidade adquirida. O RNA que abriga a sequência espaçadora ajuda as proteínas Cas (associadas a CRISPR) a reconhecer e cortar DNA patogênico estranho. Outras proteínas Cas guiadas por RNA cortam RNA estranho. CRISPR são encontrados em aproximadamente 50% dos genomas bacterianos sequenciados e em quase 90% das arquéias sequenciadas.

    5.4 Microarrays de DNA

    UMA Microarray de DNA(também conhecido como chip de DNA ou biochip) é uma coleção de pontos microscópicos de DNA presos a uma superfície sólida. Os cientistas usam microarrays de DNA para medir os níveis de expressão de um grande número de genes simultaneamente ou para genotipar várias regiões de um genoma. Cada ponto de DNA contém picomoles (10-12 moles) de uma sequência de DNA específica, conhecida como sondas (ou repórteres ou oligos) Estes podem ser uma pequena seção de um gene ou outro elemento de DNA que são usados ​​para hibridizar uma amostra de cDNA ou cRNA (também chamado de RNA anti-sentido) (chamado alvo) sob condições de alta severidade. A hibridização sonda-alvo é geralmente detectada e quantificada pela detecção de alvos marcados com fluoróforo, prata ou quimioluminescência para determinar a abundância relativa de sequências de ácido nucleico no alvo. Os arranjos de ácido nucléico originais eram arranjos macro de aproximadamente 9 cm x 12 cm e a primeira análise computadorizada baseada em imagens foi publicada em 1981. Foi inventada por Patrick O. Brown.

    Figura 5.25 Esquema de DNA Microarrays. Dentro dos organismos, os genes são transcritos e combinados para produzir transcritos de mRNA maduros (vermelho). O mRNA é extraído do organismo e a transcriptase reversa é usada para copiar o mRNA em ds-cDNA estável (azul). Em microarrays, o ds-cDNA é fragmentado e marcado com fluorescência (laranja). Os fragmentos marcados ligam-se a uma matriz ordenada de oligonucleotídeos complementares e a medição da intensidade fluorescente em toda a matriz indica a abundância de um conjunto predeterminado de sequências. Essas sequências são tipicamente escolhidas especificamente para relatar genes de interesse dentro do genoma do organismo & # 8217s.

    O princípio fundamental por trás dos microarrays é a hibridização entre duas fitas de DNA, a propriedade das sequências de ácido nucleico complementares de se emparelharem especificamente, formando ligações de hidrogênio entre pares de bases de nucleotídeos complementares. Um grande número de pares de bases complementares em uma sequência de nucleotídeos significa uma ligação não covalente mais forte entre as duas fitas. Após a lavagem das sequências de ligação não específicas, apenas as fitas fortemente emparelhadas permanecerão hibridizadas. Sequências alvo marcadas com fluorescência que se ligam a uma sequência de sonda geram um sinal que depende das condições de hibridização (como temperatura) e lavagem após a hibridização. A força total do sinal, de um ponto (recurso), depende da quantidade de ligação da amostra alvo às sondas presentes naquele ponto. Microarrays usam quantificação relativa na qual a intensidade de um recurso é comparada com a intensidade do mesmo recurso em uma condição diferente, e a identidade do recurso é conhecida por sua posição.

    Figura 5.26 Hibridização do DNA alvo com o DNA da sonda durante a análise de microarray

    Existem muitos tipos de matrizes e a distinção mais ampla é se eles estão espacialmente organizados em uma superfície ou em contas codificadas:

    • A matriz de fase sólida tradicional é uma coleção de & # 8220spots & # 8221 microscópicos ordenados, chamados recursos, cada um com milhares de sondas idênticas e específicas anexadas a uma superfície sólida, como vidro, plástico ou biochip de silício (comumente conhecido como um chip de genoma, Chip de DNA ou matriz de genes) Milhares desses recursos podem ser colocados em locais conhecidos em um único microarray de DNA.
    • A matriz alternativa de grânulos é uma coleção de grânulos de poliestireno microscópicos, cada um com uma sonda específica e uma proporção de dois ou mais corantes, que não interfere com os corantes fluorescentes usados ​​na sequência alvo.

    Os microarranjos de DNA podem ser usados ​​para detectar DNA (como na hibridização genômica comparativa) ou detectar RNA (mais comumente como cDNA após a transcrição reversa) que pode ou não ser traduzido em proteínas. O processo de medição da expressão gênica via cDNA é chamado de análise de expressão ou perfil de expressão.

    Fabricação

    Os microarrays podem ser fabricados de diferentes maneiras, dependendo do número de sondas sob exame, custos, requisitos de personalização e o tipo de pergunta científica que está sendo feita. Arrays de fornecedores comerciais podem ter apenas 10 sondas ou 5 milhões ou mais sondas em escala micrométrica.

    Spotted vs. no local matrizes sintetizadas

    Microarrays podem ser fabricados usando uma variedade de tecnologias, incluindo impressão com pinos de ponta fina em lâminas de vidro, fotolitografia usando máscaras pré-fabricadas, fotolitografia usando dispositivos de microespelho dinâmico, impressão a jato de tinta ou eletroquímica em arranjos de microeletrodos.

    No microarrays manchados, as sondas são oligonucleotídeos, cDNA ou pequenos fragmentos de produtos de PCR que correspondem a mRNAs. As sondas são sintetizadas antes da deposição na superfície da matriz e são então & # 8220 manchadas & # 8221 no vidro. Uma abordagem comum utiliza uma matriz de pinos finos ou agulhas controladas por um braço robótico que é mergulhado em poços contendo sondas de DNA e, em seguida, depositando cada sonda em locais designados na superfície da matriz. A & # 8220grid & # 8221 resultante das sondas representa os perfis de ácido nucleico das sondas preparadas e está pronta para receber cDNA complementar ou cRNA & # 8220 alvos & # 8221 derivados de amostras experimentais ou clínicas. Esta técnica é usada por cientistas pesquisadores em todo o mundo para produzir microarrays & # 8220in-house & # 8221 impressos em seus próprios laboratórios. Essas matrizes podem ser facilmente personalizadas para cada experimento, porque os pesquisadores podem escolher as sondas e os locais de impressão nas matrizes, sintetizar as sondas em seu próprio laboratório (ou instalação de colaboração) e localizar as matrizes. Eles podem então gerar suas próprias amostras rotuladas para hibridização, hibridizar as amostras para a matriz e, finalmente, digitalizar as matrizes com seu próprio equipamento. Isso fornece um microarray de custo relativamente baixo que pode ser customizado para cada estudo e evita os custos de aquisição de matrizes comerciais, muitas vezes mais caras, que podem representar um grande número de genes que não são do interesse do investigador. Existem publicações que indicam que microarranjos manchados internos podem não fornecer o mesmo nível de sensibilidade em comparação com matrizes de oligonucleotídeos comerciais, possivelmente devido aos pequenos tamanhos de lote e eficiências de impressão reduzidas quando comparados aos fabricantes industriais de matrizes de oligo.

    No microarrays de oligonucleotídeo, as sondas são sequências curtas projetadas para coincidir com partes da sequência de quadros de leitura abertos conhecidos ou previstos. Embora as sondas de oligonucleotídeos sejam frequentemente usadas em microarrays & # 8220spotted & # 8221, o termo & # 8220oligonucleotide array & # 8221 geralmente se refere a uma técnica específica de fabricação. As matrizes de oligonucleotídeos são produzidas imprimindo pequenas sequências de oligonucleotídeos projetadas para representar um único gene ou família de variantes de splice do gene sintetizando esta sequência diretamente na superfície da matriz em vez de depositar sequências intactas. As sequências podem ser mais longas (sondas 60-mer, como o projeto Agilent) ou mais curtas (sondas 25-mer produzidas pela Affymetrix), dependendo da finalidade desejada, sondas mais longas são mais específicas para genes alvo individuais, sondas mais curtas podem ser localizadas em maior densidade em a matriz e são mais baratos de fabricar. Uma técnica usada para produzir matrizes de oligonucleotídeos inclui a síntese fotolitográfica (Affymetrix) em um substrato de sílica onde agentes de mascaramento sensíveis à luz e à luz são usados ​​para & # 8220build & # 8221 uma sequência de um nucleotídeo por vez em toda a matriz. Cada sonda aplicável é seletivamente & # 8220 não mascarada & # 8221 antes de banhar a matriz em uma solução de um único nucleotídeo, então uma reação de mascaramento ocorre e o próximo conjunto de sondas é desmascarado em preparação para uma exposição de nucleotídeo diferente. Depois de muitas repetições, as sequências de cada sonda são totalmente construídas. Mais recentemente, o Maskless Array Synthesis da NimbleGen Systems combinou flexibilidade com um grande número de sondas.

    Figura 5.27 Diagrama de experimento típico de microarray de duas cores. Dentro de um microarray de duas cores, o DNA da sonda é tipicamente hibridizado com o cDNA preparado a partir de duas amostras diferentes, cada uma marcada com uma sonda fluorescente diferente. A análise renderá fluorescência verde para uma amostra que regula positivamente a expressão do gene, enquanto a outra amostra marcada com um marcador de fluorescência vermelho indicará que a outra condição induz a expressão do gene naquele local. Amarelo indica expressão gênica em ambas as amostras.

    Imagem A modificada de Larssono e Imagem B de Guillaume Paumier

    Microarrays de duas cores ou microarrays de dois canais são tipicamente hibridizados com cDNA preparado a partir de duas amostras a serem comparadas (por exemplo, tecido doente versus tecido saudável) e que são marcados com dois fluoróforos diferentes. Os corantes fluorescentes comumente usados ​​para marcação de cDNA incluem Cy3, que tem um comprimento de onda de emissão de fluorescência de 570 nm (correspondendo à parte verde do espectro de luz), e Cy5 com um comprimento de onda de emissão de fluorescência de 670 nm (correspondendo à parte vermelha da luz espectro). As duas amostras de cDNA marcadas com Cy são misturadas e hibridizadas em um único microarray que é então varrido em um scanner de microarray para visualizar a fluorescência dos dois fluoróforos após a excitação com um feixe de laser de um comprimento de onda definido. Intensidades relativas de cada fluoróforo podem então ser usadas em análise baseada em razão para identificar genes regulados positivamente e regulados negativamente.

    Microarrays de oligonucleotídeos geralmente carregam sondas de controle projetadas para hibridizar com spike-ins de RNA. O grau de hibridização entre os spike-ins e as sondas de controle é usado para normalizar as medições de hibridização para as sondas alvo. Embora os níveis absolutos de expressão gênica possam ser determinados na matriz de duas cores em casos raros, as diferenças relativas na expressão entre diferentes pontos dentro de uma amostra e entre as amostras é o método preferido de análise de dados para o sistema de duas cores. Exemplos de fornecedores para tais microarrays incluem Agilent com sua plataforma Dual-Mode, Eppendorf com sua plataforma DualChip para rotulagem Silverquant colorimétrica e TeleChem International com Arrayit.

    No microarrays de canal único ou microarrays monocromáticos, as matrizes fornecem dados de intensidade para cada sonda ou conjunto de sondas indicando um nível relativo de hibridização com o alvo marcado. No entanto, eles não indicam verdadeiramente os níveis de abundância de um gene, mas sim abundância relativa quando comparados a outras amostras ou condições quando processados ​​no mesmo experimento. Cada molécula de RNA encontra protocolo e tendência específica de lote durante as fases de amplificação, rotulagem e hibridização do experimento, fazendo comparações entre genes para o mesmo microarray não informativo. A comparação de duas condições para o mesmo gene requer duas hibridizações de corante único separadas. Vários sistemas populares de canal único são Affymetrix & # 8220Gene Chip & # 8221, Illumina & # 8220Bead Chip & # 8221, matrizes Agilent de canal único, Applied Microarrays & # 8220CodeLink & # 8221 arrays, e Eppendorf & # 8220DualChip & amp Silverquant & # 8221 . Uma força do sistema de corante único reside no fato de que uma amostra aberrante não pode afetar os dados brutos derivados de outras amostras, porque cada chip de matriz é exposto a apenas uma amostra (em oposição a um sistema de duas cores em que um único - amostra de qualidade pode interferir drasticamente na precisão geral dos dados, mesmo se a outra amostra for de alta qualidade). Outro benefício é que os dados são mais facilmente comparados a matrizes de diferentes experimentos, desde que os efeitos do lote tenham sido considerados.

    5.5 Hibridização in situ

    No local hibridização (ISH) é um tipo de hibridização que usa um DNA complementar marcado, RNA ou fita de ácidos nucleicos modificados (ou seja, sonda) para localizar uma sequência específica de DNA ou RNA em uma porção ou seção de tecido (no local) ou se o tecido for pequeno o suficiente (por exemplo, sementes de plantas, Drosófila embriões), em todo o tecido (montagem inteira ISH), nas células e nas células tumorais circulantes (CTCs). Isso é diferente da imunohistoquímica, que geralmente localiza proteínas em seções de tecido.

    A hibridização in situ é usada para revelar a localização de sequências de ácido nucleico específicas nos cromossomos ou nos tecidos, uma etapa crucial para a compreensão da organização, regulação e função dos genes. As principais técnicas atualmente em uso incluem no local hibridização para mRNA com sondas de oligonucleotídeo e RNA (tanto radiomarcadas como hapteno), análise com microscópios de luz e eletrônicos, montagem completa no local hibridização, detecção dupla de RNAs e RNA mais proteína e fluorescente no local hibridização para detectar sequências cromossômicas. O DNA ISH pode ser usado para determinar a estrutura dos cromossomos. Fluorescente DNA ISH (FISH) pode, por exemplo, ser usado em diagnósticos médicos para avaliar a integridade cromossômica. RNA ISH (RNA no local hibridização) é usado para medir e localizar RNAs (mRNAs, lncRNAs e miRNAs) dentro de seções de tecido, células, montagens inteiras e células tumorais circulantes (CTCs). No local a hibridização foi inventada por Mary-Lou Pardue e Joseph G. Gall.

    Figura 5.28 Hibridização in situ de tipo selvagem Drosófila embriões em diferentes estágios de desenvolvimento do RNA de um gene denominado corcunda.

    Para histoquímica de hibridização, as células da amostra e os tecidos são geralmente tratados para fixar os transcritos alvo no lugar e para aumentar o acesso da sonda. Como observado acima, a sonda é um DNA complementar marcado ou, agora mais comumente, um RNA complementar (ribossonda). A sonda hibridiza com a sequência alvo em temperatura elevada, e então o excesso de sonda é lavado (após hidrólise prévia usando RNase no caso de sonda de RNA não hibridizada em excesso). Parâmetros de solução, como temperatura, sal e / ou concentração de detergente, podem ser manipulados para remover quaisquer interações não idênticas (ou seja, apenas correspondências exatas de sequência permanecerão ligadas). Em seguida, a sonda que foi marcada com bases marcadas com rádio, fluorescência ou antígeno (por exemplo, digoxigenina) é localizada e quantificada no tecido usando autorradiografia, microscopia de fluorescência ou imunohistoquímica, respectivamente. O ISH também pode usar duas ou mais sondas, marcadas com radioatividade ou outras etiquetas não radioativas, para detectar simultaneamente duas ou mais transcrições.

    Uma tecnologia alternativa, ensaio de DNA ramificado, pode ser usado para RNA (mRNA, lncRNA e miRNA) no local ensaios de hibridização com sensibilidade a uma única molécula sem o uso de radioatividade. Esta abordagem (por exemplo, ensaios de ViewRNA) pode ser usada para visualizar até quatro alvos em um ensaio e usa um projeto de sonda patenteado e amplificação de sinal de bDNA para gerar sinais sensíveis e específicos. As amostras (células, tecidos e CTCs) são fixadas e, em seguida, tratadas para permitir a acessibilidade do RNA ao alvo (desmascaramento do RNA). As sondas específicas do alvo hibridizam com cada RNA alvo. A amplificação de sinal subsequente é baseada na hibridização específica de sondas adjacentes (oligonucleotídeos individuais [oligos] que se ligam lado a lado em alvos de RNA). Uma sonda específica para o alvo típico conterá 40 oligonucleotídeos, resultando em 20 pares de oligo que se ligam lado a lado no alvo para detecção de mRNA e lncRNA, e 2 oligos ou um único par para detecção de miRNA. A amplificação do sinal é obtida por meio de uma série de etapas sequenciais de hibridização. Uma molécula pré-amplificadora hibridiza para cada par de oligo no RNA específico do alvo, então várias moléculas amplificadoras hibridizam para cada pré-amplificador. Em seguida, oligonucleotídeos de sonda de múltiplos marcadores (conjugados com fosfatase alcalina ou diretamente com fluoróforos) hibridizam para cada molécula amplificadora. Uma estrutura de amplificação de sinal totalmente montada “Árvore” tem 400 locais de ligação para as sondas de marcação. Quando todas as sondas específicas do alvo se ligam ao transcrito do mRNA alvo, ocorre uma amplificação do sinal de 8.000 vezes para aquele transcrito. Sistemas de amplificação de sinal separados, mas compatíveis, permitem os ensaios multiplex. O sinal pode ser visualizado usando um microscópio de fluorescência ou de campo claro.

    5.6 Referências

    Ghannam, M.G., e Varacallo, M. (2018) Biochemistry, Polymerase Chain Reaction (PCR) StatPearls Publishing. Disponível em: https://www.ncbi.nlm.nih.gov/books/NBK535453/

    Kahn, N.T. (2018) The Emerging Role of bioinformatics in Biotechnology. J. Biotech. and Biomed. Science 1 (3) ISSN: 2576-6694. Disponível em: https://openaccesspub.org/jbbs/article/803

    Lee LYY, Izzard L e Hurt AC (2018) A Review of DNA Vaccines Against Influenza. Frente. Immunol. 9: 1568. doi: 10.3389 / fimmu.2018.01568 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6046547/pdf/fimmu-09-01568.pdf

    Molnar, C. e Gair, J. (2019) 10.1 Cloning and Genetic Engineering. Capítulo em Conceitos de Biologia & # 8211 1ª Edição Candadiana. Disponível em: https://opentextbc.ca/biology/

    Nidhi M. Bioinformatics: An Introduction. Abra Acc Biostat Bioinform. 1 (4). OABB.000522. 2018. DOI: 10.31031 / OABB.2018.01.0005 22 https://pdfs.semanticscholar.org/f220/86467e2532106c8c616f03fc0a61aff9b3ea.pdf

    Seto, D. (2010) Viral genomics and Bioinformatics. Vírus 2: 2587-2593. doi: 10.3390 / v2122587


    Assista o vídeo: GENÉTICA NO VESTIBULAR: LEIS DE MENDEL, GENES, DNA E CROMOSSOMOS. QUER QUE DESENHE? (Novembro 2021).