Em formação

O que significa “escrever uma imagem e GIF no DNA de bactérias”?


A BBC News publicou recentemente um artigo dizendo que:

Uma imagem e um curta-metragem foram codificados em DNA, usando as unidades de herança como meio de armazenamento de informações ... A equipe sequenciou o DNA bacteriano para recuperar o gif e a imagem, verificando se os micróbios realmente incorporaram os dados conforme pretendido.

A notícia mostra a imagem de uma mão (mostrada acima) e um curta-metragem (não mostrado aqui) de um cavaleiro codificado no DNA "usando uma ferramenta de edição de genoma conhecida como Crispr [sic]".

Minha pergunta é: o que isso significa? Os cientistas dividiram uma imagem em 0 e 1 e (instalaram?) Em bactérias? Como um cientista (baixa?) Uma imagem em uma bactéria e depois (baixa novamente?) A imagem mais tarde? Como o DNA contém informações de uma imagem que pode ser (baixada)?


Só para acrescentar o que pode estar faltando na bela resposta de @iayork. Eu só quero dar uma imagem mais simples da codificação feita no E. coli DNA.

  • Primeiro para o estratégia rígida em que 4 cores de pixel foram especificadas por uma base diferente, suponha que tenhamos uma sequência:

    AAGCCCTGGTCAGCT

    Ignore o primeiro AAG e comece com C. Agora, cada base do DNA pode representar um número binário de 2 dígitos, e cada número corresponde a uma cor, como:

    C = 00

    T = 01

    A = 10

    G = 11

    Com essa estratégia em mente, a sequência CCCT forneceria 00000001 pixet (ou conjunto de pixels) e assim por diante, conforme a sequência cresce. Este pixet definiria a cor de quatro pixels na imagem. Assim, cada base corresponde a um pixel na imagem, e a base define a cor do pixel em uma imagem de 4 cores.

  • Agora, vamos ao estratégia flexível. Para começar, consulte a tabela novamente:

    Aqui, estamos usando códons padrão de 3 bases. A partir do valor predefinido para cada cor (1 a 21), podemos encontrar a cor usando o códon. Por exemplo, da mesma sequência:

    AAGCCCTGGTCAGCT

    Ignore AAG novamente e comece com CCC. Na tabela, o CCC codifica um valor de 1. Avance para o próximo, o TGG codifica um valor de 16, o TCA codifica 10 e o GCT codifica 7 e assim por diante para sequências mais longas. Então, agora temos uma imagem com 4 pixels, ou seja, 2 x 2 com os pixels com código de cor 1, 16, 10, 7. Dessa forma, cada pixel pode ter uma cor a partir de valores predefinidos. Ao extrair esses dados, a imagem sai como (do gizmodo):

A parte acima falava principalmente sobre a imagem única de uma mão. Agora, falando sobre o GIF de equitação, o processo é quase o mesmo. Aqui, temos que codificar 5 imagens em vez de uma. Os cientistas codificaram essas 5 imagens em 5 células diferentes. Depois de cultivá-los por algumas gerações, eles extraíram as informações de todas as imagens (usando ferramentas de bioinformática padrão) e as compilaram para obter o GIF de volta. Os GIFs iniciais e finais são semelhantes a este (de wired.com):

O que isso rígido e flexível quer dizer?

Nesta técnica, os termos rígido e flexível são mais sobre a base individual do que o códon. No rígido estratégia, o valor de cada base é fixo, ou seja, rígido. Por exemplo, em qualquer sequência, C codificará o valor '00', qualquer que seja a base seguinte ou anterior. Isso significa que tanto no CCCT quanto no GGTC, C tem seu valor rígido '00'. Então, para uma imagem de 4 cores, onde cada base corresponde rigidamente à cor de um pixel, obtemos tantos pixels quanto as bases na sequência.

Por outro lado, no flexível estratégia, as bases individuais não têm um valor fixo e o valor geral de um pixet é definido por todas as bases que codificam esse pixet. Por exemplo, o TCC codifica um valor de 6, enquanto o CCC codifica 1. O valor da base individual é degenerado (ou flexível), daí o nome estratégia flexível.

Assim, em poucas palavras, enquanto a estratégia rígida é mais eficiente, pois um pixel é definido por uma base (enquanto na estratégia flexível, um pixel é definido por um códon), a estratégia flexível é mais adequada para obter imagens mais coloridas, pois você obtém mais opções de cores aumentando o número de bases em um códon (considerando que você só obtém 4 cores na estratégia rígida, definida por 4 bases).

Por que estamos ignorando o AAG?

Como @canadianer aponta em sua resposta, AAG é um PAM isto é, Protospacer Adjacent Motif. De acordo com a Wikipedia:

O motivo adjacente do protospacer (PAM) é uma sequência de DNA de 2-6 pares de bases imediatamente após a sequência de DNA direcionada pela nuclease Cas9 no sistema imunológico adaptativo bacteriano CRISPR. PAM é um componente do vírus ou plasmídeo invasor, mas não é um componente do locus CRISPR bacteriano.

Em termos simples (evitando detalhes técnicos), o PAM é necessário para o funcionamento do CRISPR, mas não faz parte da própria sequência. Muito parecido com uma pontuação, é necessário para o funcionamento adequado do CRISPR, mas não deve ser lido para fins de codificação / decodificação. Para o Cas9 encontrado em E. coli (e é o mais popular), a sequência AAG serve como um PAM e, portanto, não é usada para fins de codificação aqui. Os cientistas também evitaram usar AAG em seus pixets para que não houvesse mais de um local de reconhecimento para integração (ignore este ponto se você não estiver ciente do funcionamento do CRISPR).

Referência: Shipman, S., Nivala, J., Macklis, J. e Church, G. (2017). Codificação CRISPR-Cas de um filme digital nos genomas de uma população de bactérias vivas. Natureza. http://dx.doi.org/10.1038/nature23017


A imagem não estava no DNA como tal, apenas como uma representação abstrata que poderia ser convertida em imagem a partir do conhecimento do código. Resumidamente, eles codificaram a imagem em DNA, usando algumas estratégias diferentes nas quais o DNA representava pixels - ou com uma única base de DNA representando um pixel, ou com um tripleto representando um pixel. Sabendo o código que usaram, eles poderiam extrair as informações e transformá-las novamente em uma imagem.

Citando o artigo original, codificação CRISPR-Cas de um filme digital nos genomas de uma população de bactérias vivas:

Começamos com uma imagem e valores de pixel armazenados em um código de nucleotídeo ... Primeiro codificamos imagens de uma mão humana usando duas estratégias diferentes de codificação de valor de pixel: uma estratégia rígida, na qual 4 cores de pixel foram especificadas por uma base diferente; e uma estratégia flexível, na qual 21 cores de pixel possíveis foram especificadas por uma tabela de tripletos de nucleotídeos degenerados ... Para distribuir as informações entre vários protoespaçadores, demos a cada protoespaçador um código de barras que definiu qual conjunto de pixels (denotado como 'pixet') foi codificado pelo nucleotídeos nesse espaçador. Quatro nucleotídeos definem cada pixet, e os pixels de um determinado pixet são distribuídos pela imagem ...

Sua estratégia de 21 cores é descrita nesta figura:

Nota: O papel não é de acesso aberto. Se você deseja uma versão de acesso total, Church freqüentemente coloca versões de acesso livre de seus documentos em seu site; este artigo, # 441 em sua lista, ainda é mostrado como "no prelo" lá, mas verifique novamente em intervalos e talvez ele esteja disponível lá


Já que algumas pessoas perguntaram por que oAAGO trio é evitado no código, pensei em adicionar isso além das outras respostas. A parte interessante desta pesquisa não é necessariamente a codificação da imagem, mas sim como eles utilizaram o sistema CRISPR para integrar o DNA codificador no genoma. Pode ser uma surpresa para alguns que a imagem não está codificada em uma longa sequência, mas sim, devido à natureza do sistema CRISPR tipo I de E. coli, em pedaços de 33 pares de bases chamados protospacers (dos quais 27 bases são usadas para a codificação real, o que dá 9 pixels por espaçador). Assim, toda a imagem de 30x30 pixels exigia integração estável de 100 protoespaçadores (embora não necessariamente em uma única célula). Esses protoespaçadores (oligonucleotídeos) foram sintetizados quimicamente e, em seguida, introduzidos nas células por eletroporação.

A integração desses protoespaçadores no locus CRISPR genômico utilizou a superexpressão de endonucleases Cas1 e Cas2 heterólogas. Essas proteínas reconhecem o DNA exógeno preferencialmente quando este é flanqueado por um motivo associado a um protoespaçador (PAM), que no caso do sistema CRISPR em questão éAAG. O complexo reconhece o PAM e cliva o DNA exógeno para formar o espaçador de 33 bp que é inserido no genoma. De forma simplista, poderia ser imaginado algo assim:

No entanto, considere uma situação em que AAG é usado para codificar um pixel:

Isso cria um PAM interno que pode levar à perda de informações, dependendo de qual PAM é reconhecido. Na verdade, os principais benefícios de ter um código degenerado é evitar certas combinações de trios que levam a PAMs internos ou repetições de sequência (que são propensas a erros na replicação).


Referências / leituras adicionais:

Amitai G, Sorek R. 2016. Adaptação CRISPR-Cas: insights sobre o mecanismo de ação. Nat Rev Microbiol 14: 67-76.

Shipman SL, Nivala J, Macklis JD, GM da Igreja. 2017. Codificação CRISPR-Cas de um filme digital nos genomas de uma população de bactérias vivas. Natureza.

Wang J, Li J, Zhao H, Sheng G, Wang M, Yin M, Wang Y. 2015. Base estrutural e mecanística da aquisição de espaçador dependente de PAM em sistemas CRISPR-Cas. Cell 163: 840-853

PS: Para quem se importa, essas imagens não são tecnicamente corretas, mas, no momento, não estou com vontade de mudá-las. Na realidade, o PAM não faz parte do espaçador processado.


Assista o vídeo: Do you know the meaning of the letter M in your hand? (Novembro 2021).