Em formação

O que posso pesquisar para uma tese sobre armazenamento de dados de DNA da matemática?


Sou um pesquisador de matemática, acabei de terminar um mestrado em códigos de correção de erros. Recentemente, vi uma apresentação sobre armazenamento de dados baseado em DNA que adorei.

Desejo continuar meus estudos em (matemática aplicada) neste assunto.

Recebi proposta de doutorado e quando mencionei o assunto o possível diretor se mostrou receptivo, mas também não está bem informado sobre o assunto, então propôs que eu fizesse um roteiro de pesquisa ...

O que você acha que é um tópico de pesquisa interessante (e digno da comunidade) sobre o armazenamento de dados de DNA da perspectiva de códigos de correção de erros?

Obrigado pela ajuda!


50 melhores tópicos de pesquisa genética para artigos acadêmicos

O estudo da genética ocorre em diferentes níveis do sistema educacional em instalações acadêmicas em todo o mundo. É uma disciplina acadêmica que busca explicar o mecanismo da hereditariedade e dos genes nos organismos vivos. Descoberto pela primeira vez na década de 1850, o estudo da genética já percorreu um longo caminho e desempenha um papel tão importante em nossa vida cotidiana. Portanto, quando você é designado para um artigo de pesquisa genética, deve escolher um tópico que não seja apenas interessante para você, mas um que você entenda bem.


Preservando a Pesquisa

Amy Maxmen
1 de agosto de 2013

& copy DRAFTER123 / ISTOCKPHOTO.COM Aluno de pós-graduação no departamento de biologia evolutiva e orgânica de Harvard & rsquos no início dos anos 2000, eu queria compartilhar publicamente todas as pesquisas que entraram em minha tese de doutorado a fim de contribuir para o pequeno corpo de literatura científica sobre o grupo pouco conhecido de artrópodes marinhos que estudei, aranhas do mar. No entanto, depois de publicar alguns relatórios e defender com sucesso meu doutorado, minha motivação para submeter o capítulo final de minha tese a um periódico se dissolveu devido ao custo e ao tempo envolvidos. No entanto, nas raras ocasiões em que os pesquisadores pediram para vê-lo, lamentei que ele tenha definhado em minha estante. Embora o capítulo esteja longe de ser surpreendente, ele pode servir de trampolim para outro biólogo.

& ldquoÉ necessário que a ciência seja comunicada mais rapidamente a outros pesquisadores e ao público, colocando os manuscritos online em locais como o [preprint.

Felizmente, o compartilhamento é mais barato e rápido agora que as coleções online de acesso aberto para a biologia estão florescendo à medida que os pesquisadores percebem os benefícios de enviar relatórios não publicados de resultados negativos, observações, pedidos de concessão, notas de protocolo e, sim, suas teses não publicadas na Web para outros para ler. Em janeiro, finalmente carreguei meu capítulo de tese sobre a metamorfose das aranhas do mar em vários sites. Dentro de 3 semanas, um zoólogo da Alemanha me enviou um e-mail perguntando como citá-lo e se eu ainda estava seguindo essa linha de estudo.

Além disso, uploads não publicados podem contribuir diretamente para a carreira de alguém. Este ano, a National Science Foundation anunciou que os revisores de bolsas tomariam nota dos “produtos” citáveis ​​e acessíveis, além das publicações. Como os repositórios online concedem aos relatórios não publicados um identificador de objeto digital, ou DOI, que pode ser referenciado em uma citação, esses uploads podem agora melhorar a reputação de um cientista.

O envio é normalmente gratuito e relativamente simples. No entanto, o quão legível, utilizável e localizável o relatório é para outras pessoas depende de você. Para explorar como funcionam vários repositórios online, carreguei meu capítulo de tese como um teste e conversei com especialistas que se voltaram para a Web por motivos semelhantes.

PENSANDO EM FAZER UPLOAD DE UM MANUSCRITO?

Os pesquisadores listam várias razões para enviar material não publicado: para obter feedback sobre um artigo antes do envio para ajudar outros a descobrir por que um subsídio foi aceito ou rejeitado, para que não precisem repetir os mesmos erros para colocar um carimbo de data / hora em seus dados ou ideias para compartilhar observações e protocolos que podem ser úteis para outros cientistas e para postar filmes e outros dados em formatos que a maioria dos periódicos não consegue lidar. Aqui estão algumas dicas para aproveitar ao máximo sua postagem.

Escolha suas palavras com sabedoria
Os mecanismos de pesquisa escolhem o título e o resumo dos relatórios carregados. Portanto, é importante pensar sobre o seu texto. “É fofo ter um título como‘Ser ou não ser, ’” Diz o físico Paul Ginsparg, fundador do primeiro grande servidor de pré-impressão, arXiv. “Mas, uma vez que isso não transmite o conteúdo essencial, seu público-alvo fará falta.” Ginsparg me cumprimentou pelo título que eu escolhi para o capítulo da tese que carreguei no arXiv, “Desenvolvimento da aranha do mar: como o Anoplodactylus eroticus amadurece de uma ninfa flutuante a um adulto aterrado”. Ele diz que inclui palavras que um não especialista pode pesquisar no Google, além de termos técnicos como “ninfa” e “encistamento” que pesquisadores da área podem usar para pesquisar o artigo. Além disso, Ginsparg aconselha os pesquisadores a anexar muitos metadados, como palavras-chave que vão do geral ao específico, a cada upload.

Verifique a licença
Antes de clicar no botão de envio em um repositório específico, leia atentamente as informações de licenciamento. Muitos repositórios agora oferecem licenças Creative Commons (CC). O tipo mais comum, “CC BY”, permite que qualquer pessoa leia e distribua um artigo, desde que dê o devido reconhecimento ao autor. Dessa forma, quem deseja postar o conteúdo na Wikipedia ou em outro site não precisa se preocupar com violação, desde que faça referência ao autor. Uma subcategoria da licença Creative Commons, “CC BY-NC,” adiciona a cláusula de que terceiros não podem distribuir o relatório para fins comerciais. Se um autor pretende também submeter o relatório a uma revista revisada por pares, esta opção é melhor, pois as revistas tendem a querer o direito exclusivo de distribuir o artigo para fins comerciais.

Compacte arquivos enormes e anexe dados brutos
Alguns repositórios se gabam de oferecer tamanho de upload ilimitado, mas isso pode não ser uma bênção. Se você conseguir fazer o upload de um arquivo enorme antes do tempo limite do servidor se esgotar, o relatório pode fazer com que o navegador tenha um mau desempenho e os leitores podem não conseguir fazer o download do arquivo sem uma conexão de alta velocidade. Por esse motivo, Ginsparg recomenda que os pesquisadores compactem as figuras em um único PDF, mas também carreguem um arquivo separado em um formato que preserva os dados brutos.

ESCOLHENDO UM HOST

ARXIV LANÇADO (1991)
PAUL GINSPARG, ARXIV.ORG Físicos teóricos postaram relatórios não publicados no arXiv.org por mais de uma década e, recentemente, um número crescente de biólogos também está fazendo o mesmo. (Veja o gráfico nesta página.)

O subtítulo de biologia, “Biologia Quantitativa”, é vago, com assuntos que variam de câncer a epigenética.

Número de relatórios enviados: Cerca de 860.000 relatórios de uma variedade de disciplinas científicas

Número de relatórios relacionados à biologia: 7.200 registrados na categoria de biologia quantitativa

Custo: Uploads são gratuitos. Desde 2001, o site é hospedado e administrado pela Cornell University Library em Ithaca, Nova York.

Enviando: Qualquer pessoa pode fazer upload de um relatório, desde que tenha uma organização ou afiliação institucional.

Capacidade de pesquisa: O mecanismo de pesquisa local arXiv indexa o nome do autor, palavras-chave e palavras no título e no resumo. Ele também examina o texto de um PDF (um formato sugerido e comum para uploads), mas um pouco menos detalhadamente.

Pró: Reputação. Com 2 milhões de downloads semanais, o Google e outros mecanismos de pesquisa descobrem artigos no arXiv rapidamente, e a maioria dos pesquisadores imediatamente reconhece o site como um pilar na publicação online.

Vigarista: Usabilidade. Não há recurso de comentário, portanto, se outro pesquisador quiser criticar o trabalho, deve enviar um e-mail. Além disso, a maioria dos uploads de biologia quantitativa estão em formato PDF, como sugere o arXiv. Dessa forma, os pesquisadores não podem atualizar os dados em um relatório compactado.


FIGCOMPARTILHADO (LANÇADO EM 2011)
O uso de figshare disparou depois que a Nature recomendou o site como alternativa, quando parou de aceitar submissões para Nature Precedings, um jornal online de pré-impressão (figshare é uma empresa irmã do Nature Publishing Group). O conteúdo da Figshare inclui dados suplementares associados a artigos publicados, bem como conjuntos de dados não publicados e relatórios, apresentações de conferências e muito mais.

Número de uploads: Centenas de milhares, mas muitos são dados complementares associados a manuscritos revisados ​​por pares

Número de usuários registrados: Milhares de usuários ativos, principalmente nas ciências da vida

Custo: Geralmente grátis. O site planeja se sustentar trabalhando com editoras, como F1000Research e PLOS, que pagam por serviços de figshare para ajudar com conteúdo visual que essas revistas não podem manipular facilmente.

Enviando: Cada upload é gratuito e limitado a 250 MB, e os usuários podem fazer upload de quantos projetos quiserem, desde que os uploads sejam públicos. Privacidade, ou privacidade parcial com um punhado de colaboradores selecionados, também é uma opção, no entanto, limita os pesquisadores a 1 GB no total. Se houver demanda por espaço ilimitado, o fundador Mark Hahnel diz que pode abrir contas premium por uma pequena taxa.

Pró: Usabilidade. Figshare apresenta uma interface de usuário intuitiva. Além disso, Hahnel fez um esforço especial em como os dados de vídeo e outros formatos não tradicionais são exibidos por causa de sua frustração por não poder compartilhar facilmente seus próprios vídeos de dinâmica celular. Finalmente, o figshare incentiva o feedback, tornando tão simples deixar comentários abaixo do manuscrito quanto no YouTube ou em um fórum de discussão.

Vigarista: Juventude. Como um site relativamente recente para dados científicos, preprints e artigos publicados, o figshare ainda não provou seu poder de permanência.


ResearchGate (LANÇADO 2008)
COLETA EM TODOS OS NÍVEIS: Meu trabalho de graduação focou na evolução de artrópodes, usando aranhas do mar como modelo. Algumas das aranhas do mar foram coletadas de rochas ao longo da costa do Pacífico do Japão. A imagem confocal do microscópio (inserção) mostra o sistema nervoso de uma aranha do mar juvenil marcado com um marcador fluorescente e codificado por cores para indicar a profundidade. Meu objetivo ao enviar o último capítulo de minha tese de doutorado era compartilhar mais de meus dados com outros cientistas. CORTESIA DE AMY MAXMEN KATSUMI MIYAZAK ResearchGate se concentra na rede acadêmica de um pesquisador mais do que em outros sites. Inicialmente, ele cria essa rede pedindo a um usuário que convide coautores e os localiza automaticamente examinando a pesquisa publicada do usuário. Quando as pessoas em sua rede carregam relatórios não publicados, uma notificação aparece em sua página inicial (a menos que os autores tenham solicitado privacidade). A maior parte do conteúdo atualmente no ResearchGate consiste em material publicado revisado por pares e postagens em fóruns relacionados à ciência, no entanto, o cofundador Ijad Madisch expandiu o banco de dados em dezembro de 2012 para incluir postagens não revisadas por pares. Em parte, Madisch fez a mudança porque “80% dos experimentos que fiz não funcionaram e nunca compartilhei esses resultados negativos”, diz ele. “Eu tinha certeza de que outra pessoa havia cometido os mesmos erros e queria ser capaz de encontrá-los.”

Número de postagens relacionadas à biologia: Mais de 100.000 uploads não revisados ​​por pares, incluindo muitos conjuntos de dados

Número de usuários registrados: Em meados de julho, quase 630.000 biólogos se inscreveram no ResearchGate.

Enviando: Os usuários se inscrevem com um e-mail anexado a uma instituição acadêmica.

Possibilidade de pesquisa: Como o ResearchGate acumula sem problemas uma grande coleção de pesquisas publicadas, uma pesquisa pelo tópico “aranha do mar”, por exemplo, retorna uma biblioteca de informações, publicadas e não publicadas.

Custo: Uploads são gratuitos. Empresas e instituições podem publicar anúncios de emprego no site mediante o pagamento de uma taxa.

Pró: Usabilidade. Os usuários recebem uma pontuação com base no número de publicações em periódicos revisados ​​por pares e no fator de impacto dos periódicos, bem como uma pontuação “RG” com base em sua participação no site. Essa pontuação pode ser enviada como parte de um pedido de subsídio, embora o valor de seu impacto ainda esteja para ser verificado. Além disso, o feedback é social. Os leitores podem postar perguntas sobre um relatório em um fórum que todos os usuários veem.

Vigarista: Networking. Alguns pesquisadores podem não gostar de compartilhar publicamente sua consulta sobre um relatório com um fórum e podem ser desligados por solicitações do ResearchGate para convidar colegas ou pela página inicial semelhante ao Facebook com um fluxo contínuo de atualizações de outros cientistas.

REPOSITÓRIOS INSTITUCIONAIS (COMEÇO ON-LINE NO INÍCIO DA DÉCADA DE 1990)

SALVANDO DADOS: No decorrer de minha pesquisa, reuni um grande número de imagens de microscópio, sequências de DNA e outros dados. CORTESIA DE AMY MAXMEN A maioria das universidades incentiva seus pesquisadores a enviar dissertações e manuscritos publicados para seus repositórios. O repositório digital chamado DASH (Digital Access to Scholarship at Harvard) na minha alma mater, Harvard University, também permite o envio de relatórios não publicados, mas Stuart Shieber, fundador e ex-diretor do Harvard's Office for Scholarly Communications, diz que os pesquisadores raramente usam para esta função. Minha análise desses repositórios é baseada no DASH, mas os recursos das diferentes instituições variam.

Número de relatórios no DASH: 12.309. A maioria são relatórios publicados em uma ampla variedade de campos. Um adicional de 625 dissertações são carregados do College of Arts and Sciences.

Capacidade de pesquisa: as pessoas que desejam encontrar relatórios sobre repositórios institucionais digitais em todo o mundo podem pesquisá-los em base-search.net/.

Pró: Reputação. Como a adesão exige afiliação a uma universidade, os leitores podem ter a certeza de que a pesquisa provém de uma fonte qualificada. Considerando que as plataformas mais novas podem perder terreno com o tempo, aquelas hospedadas por uma universidade provavelmente resistirão ao teste do tempo, mesmo se permanecerem subutilizadas.

Vigarista: Usabilidade. Como os envios são examinados manualmente, meu capítulo não apareceu online por 5 semanas depois que eu carreguei em meados de janeiro. Além disso, os leitores não podem deixar comentários ou clicar em um botão para enviar uma mensagem ao autor. Finalmente, o sistema parecia menos flexível e menos intuitivo do que outros repositórios online mencionados aqui.


Requisito de Biologia Avançada

São necessárias pelo menos dezoito unidades em cursos aprovados de Biologia avançada (numerados 300 ou acima). Os cursos que podem ser contabilizados para essas 18 unidades estão listados de acordo com o Biol 2960 e o Biol 2970 na seção 'Cursos para Biologia - Crédito Especializado'. Pelo menos um curso em cada uma das três áreas de distribuição (A-C) e um curso de laboratório avançado devem ser feitos. Cada um desses cursos conta para as 18 unidades de biologia avançada exigidas. Até 6 unidades de Bio 500 podem ser contadas para as 18 unidades de biologia avançada.

São necessárias três áreas de biologia (ofertas do outono de 2020 em negrito):

  • Área A: Biologia Vegetal e Engenharia Genética (Biol 3041) Genética Humana (Biol 324) Biologia Celular (Biol 334) Genomas Eucarióticos (Biol 3371) Microbiologia (Biol 349) Imunologia (Biol 424) Doenças infecciosas: história, patologia e prevenção (Biol 4492) Bioquímica geral (Biol 451) Bioquímica geral I (Biol 4810) Bioquímica Geral II (Biol 4820)
  • Área B: Endocrinologia (Biol 3151) Princípios em Fisiologia Humana (Biol 328) Princípios do Sistema Nervoso (Biol 3411) Introdução à Neuroetologia (Biol 3421) Genes, Brains and Behavior (Biol 3422) Como funcionam as plantas: fisiologia, crescimento e metabolismo (Biol 4023) Relógios biológicos (Biol 4030) Biologia do desenvolvimento (Biol 4071) Princípios de Anatomia e Desenvolvimento Humano (Biol 4580)
  • Área C: Plantas lenhosas de Missouri (Biol 3220) Darwin e controvérsias evolutivas (Biol 347)Evolução (Biol 3501) Comportamento Animal (Biol 370) Introdução à Ecologia (Biol 381) Genética Populacional e Microevolução (Biol 4181) Macroevolução (Biol 4182) Evolução molecular (Biol 4183) Ecologia Comunitária (Biol 419) Ecologia de doenças (Biol 4195) Ecologia Comportamental (Biol 472)

Superando os Erros

Mas, como todos os métodos de armazenamento de dados, o DNA também tem algumas deficiências. O obstáculo inicial mais significativo é o custo. Hawkins diz que os métodos atuais são semelhantes ao custo de um Apple Hard Disk 20 em 1980. Naquela época, cerca de 20 megabytes de armazenamento & mdashor a quantidade de dados que você precisaria usar para baixar um vídeo de 15 minutos & mdashwent por cerca de US $ 1.500.

Além disso, o DNA também está sujeito a erros. Lembre-se das quatro bases de nucleotídeos que constituem a escada do DNA. Em média, o DNA apresenta cerca de um erro por 100 a 1.000 nucleotídeos. Eles podem assumir três formas: substituições, inserções e exclusões.

Em uma mutação de substituição, uma única letra em uma sequência de nucleotídeos pode ser trocada por outra. No gráfico abaixo, a citosina é substituída por timina. As fitas de DNA permanecem com o mesmo comprimento. Em uma inserção ou exclusão, porém, o DNA obtém uma base de nucleotídeo extra, ou remove uma. Mas, ao contrário dos erros no código do computador, não há espaço deixado para trás onde antes vivia uma base removida, o que pode rapidamente se tornar problemático quando você decodificar os dados armazenados no DNA.

Hawkins gosta de comparar isso às palavras em inglês: "A exclusão da letra 'L' transforma 'mundo' em 'palavra'. Além disso, inserir um 'S' o transforma em 'espada'. Ler corretamente 'mundo' a partir de 'espada' é difícil não apenas porque espada ainda é uma palavra válida em inglês, mas porque todas as letras mudaram. "

Outras formas de armazenamento de DNA superaram esses erros de replicação repetindo o código para os dados de 10 a 15 vezes & mdash, mas isso é um enorme desperdício de espaço. No novo método descrito no artigo de pesquisa da equipe, no entanto, eles inserem os dados no DNA em forma de rede, em que cada bit de dados reforça o próximo, de modo que só precisa ser lido uma vez.

Eles também desenvolveram um algoritmo que supera os erros de inserção, exclusão e substituição ao mesmo tempo, tornando o armazenamento de dados digital baseado em DNA muito mais eficiente. É por isso que a equipe conseguiu encaixar tão facilmente "O Mágico de Oz" em fitas de DNA sem replicar a combinação das bases A, C, T e G muitas vezes.


BIOL191 HM - Colóquio de Biologia (feito duas vezes)

Instrutor: Pessoal

Oferecido: Outono e primavera

Descrição: Apresentações orais e discussões de tópicos selecionados, incluindo desenvolvimentos recentes. Os participantes incluem graduados em biologia, membros do corpo docente e palestrantes visitantes. Obrigatório para cursos de biologia júnior e sênior. Não mais do que 2,0 créditos podem ser ganhos para seminários / colóquios departamentais.

Pré-requisitos: HMC Biology (incluindo especializações conjuntas) apenas.

MATH198 HM - Fórum de Graduação em Matemática (de preferência realizado no primeiro ano)

Instrutores: Castro, Jacobsen, Orrison, Weinburd, Zinn-Brooks H, Zinn-Brooks L

Oferecido: Outono e primavera

Descrição: O objetivo deste curso é melhorar a capacidade dos alunos de comunicar matemática, tanto para o público geral como para o público técnico. Os alunos apresentarão material sobre os tópicos atribuídos e terão suas apresentações avaliadas por alunos e professores. Este formato expõe simultaneamente os alunos a uma ampla gama de tópicos da matemática moderna e clássica. Obrigatório para todas as especializações recomendadas para todas as especializações conjuntas em matemática CS e biologia matemática, normalmente no primeiro ano.

MCBI199 HM - Joint Colloquium for the Mathematical and Computational Biology Major

Instrutor: Pessoal

Oferecido: Outono e primavera

Descrição: Os alunos inscritos para um colóquio conjunto devem assistir a um número fixo de palestras durante o semestre em qualquer área (s) relacionada com seus interesses. As palestras podem ser em qualquer membro do The Claremont Colleges ou em uma universidade próxima e podem ser em qualquer um de uma ampla gama de campos, incluindo biologia, matemática, ciência da computação e outras disciplinas de ciências e engenharia, incluindo bioengenharia, ciências cognitivas, neurociência, biofísica e linguística. Os alunos inscritos no colóquio conjunto são obrigados a apresentar uma breve sinopse de cada palestra que frequentam. Não mais do que 2,0 créditos podem ser ganhos para seminários / colóquios departamentais.


DNA: o disco rígido definitivo

Quando se trata de armazenar informações, os discos rígidos não se comparam ao DNA. Nosso código genético embala bilhões de gigabytes em um único grama. Um mero miligrama da molécula poderia codificar o texto completo de todos os livros da Biblioteca do Congresso e ter muito espaço de sobra. Tudo isso foi principalmente teórico - até agora. Em um novo estudo, os pesquisadores armazenaram um livro didático de genética inteiro em menos de um picograma de DNA - um trilionésimo de grama - um avanço que poderia revolucionar nossa capacidade de salvar dados.

Algumas equipes tentaram gravar dados nos genomas de células vivas. Mas a abordagem tem algumas desvantagens. Primeiro, as células morrem - não é uma boa maneira de perder o seu trabalho de conclusão de curso. Eles também se replicam, introduzindo novas mutações ao longo do tempo que podem alterar os dados.

Para contornar esses problemas, uma equipe liderada por George Church, biólogo sintético da Harvard Medical School em Boston, criou um sistema de arquivamento de informações de DNA que não usa células. Em vez disso, uma impressora jato de tinta incorpora pequenos fragmentos de DNA sintetizado quimicamente na superfície de um minúsculo chip de vidro. Para codificar um arquivo digital, os pesquisadores o dividem em pequenos blocos de dados e convertem esses dados não nos 1s e 0s da mídia de armazenamento digital típica, mas sim no alfabeto de quatro letras do DNA de As, Cs, Gs e Ts. Cada fragmento de DNA também contém um "código de barras" digital que registra sua localização no arquivo original. Ler os dados requer um sequenciador de DNA e um computador para remontar todos os fragmentos em ordem e convertê-los de volta ao formato digital. O computador também corrige os erros que cada bloco de dados é replicado milhares de vezes para que qualquer falha possa ser identificada e corrigida comparando-a com as outras cópias.

Para demonstrar seu sistema em ação, a equipe usou os chips de DNA para codificar um livro de genética de autoria de Church. Funcionou. Depois de converter o livro em DNA e traduzi-lo de volta para a forma digital, o sistema da equipe tinha uma taxa de erro bruta de apenas dois erros por milhão de bits, totalizando alguns erros de digitação de uma única letra. Isso está no mesmo nível dos DVDs e é muito melhor do que discos rígidos magnéticos. E devido ao seu tamanho minúsculo, os chips de DNA são agora o meio de armazenamento com a maior densidade de informação conhecida, relatam os pesquisadores online hoje em Ciência.

Não substitua sua unidade flash por material genético ainda, no entanto. O custo do sequenciador de DNA e outros instrumentos "atualmente torna isso impraticável para uso geral", diz Daniel Gibson, um biólogo sintético do J. Craig Venter Institute em Rockville, Maryland, "mas o campo está se movendo rapidamente e a tecnologia em breve ser mais barato, mais rápido e menor. " Gibson liderou a equipe que criou o primeiro genoma completamente sintético, que incluía uma "marca d'água" de dados extras codificados no DNA. Os pesquisadores usaram um sistema de codificação de três letras que é menos eficiente do que a equipe da Igreja, mas tem salvaguardas embutidas para impedir que as células vivas traduzam o DNA em proteínas. “Se o DNA vai ser usado para este propósito, e fora de um laboratório, então você gostaria de usar uma sequência de DNA que é menos provável de ser expressa no ambiente”, diz ele. Igreja discorda. A menos que alguém "subverta" deliberadamente seu sistema de arquivamento de dados de DNA, ele vê pouco perigo.


Resumo

O DNA sintético está emergindo rapidamente como uma plataforma de armazenamento de informações durável e de alta densidade. Um grande desafio para as estratégias de codificação de informações baseadas em DNA é a alta taxa de erros que surgem durante a síntese e o sequenciamento do DNA. Aqui, descrevemos o código de correção de erros HEDGES (Hash Encoded, Decoded by Greedy Exhaustive Search) que repara todos os três tipos básicos de erros de DNA: inserções, exclusões e substituições. O HEDGES também converte erros não resolvidos ou compostos em substituições, restaurando a sincronização para correção por meio de um código externo Reed-Solomon padrão que é intercalado entre os fios. Além disso, HEDGES pode incorporar uma ampla classe de restrições de sequência definidas pelo usuário, como evitar o excesso de repetições ou conteúdo de guanina-citosina (GC) em janela muito alta ou muito baixa. Testamos nosso código tanto por meio de simulações in silico quanto com DNA sintetizado. A partir de seu desempenho medido, desenvolvemos um modelo estatístico aplicável a conjuntos de dados muito maiores. O desempenho previsto indica a possibilidade de recuperação sem erros de dados em escala de petabytes e exabytes do DNA degradado com até 10% de erros. Como o custo da síntese e do sequenciamento do DNA continua caindo, prevemos que o HEDGES encontrará aplicações na codificação de informações sem erros em grande escala.

O DNA é um meio de armazenamento em escala molecular ideal para informações digitais (1 ⇓ ⇓ ⇓ ⇓ ⇓ –7). Uma mensagem digital arbitrária pode ser codificada como uma sequência de DNA e quimicamente sintetizada como um conjunto de fitas de oligonucleotídeo. Esses fios podem ser armazenados, duplicados ou transportados através do espaço e do tempo. O sequenciamento de DNA pode então ser usado para recuperar a mensagem digital, esperançosamente exatamente. Os avanços no custo e na escala de síntese e sequenciamento de DNA estão cada vez mais tornando o armazenamento de informações baseado em DNA economicamente viável. Enquanto a síntese hoje custa

Discussão

O HEDGES foi projetado para ser flexível em relação aos comprimentos dos filamentos de DNA, tecnologias de sequenciamento e síntese de DNA, opções de código externo e detalhes de intercalação. A característica mais importante do HEDGES é que ele sempre 1) recupera a sincronização "perfeita" da fita individual de DNA ao qual é aplicado (ou seja, elimina completamente os erros de inserção e exclusão) ou 2) sinaliza que é incapaz de fazer portanto, por uma falha de decodificação. Aqui, “perfeito” significa que nossas taxas de erro de bit e byte relatadas, que são pequenas o suficiente para serem completamente corrigidas por um código externo padrão como RS, já incluem quaisquer instâncias residuais de falta de sincronização.

Nas regiões viáveis ​​(verdes) da Fig. 2, as falhas de decodificação de HEDGES ocorrem a cada 1 0 4 a 1 0 5 nucleotídeos (células inferiores). Duas estratégias são possíveis: 1) Podemos manter essas fitas e marcar como apagamentos os bits após o ponto de falha, ou 2) podemos, em vez disso, usar outra fita do pool mostrando o mesmo ID de fita - aumentando assim o requisito de profundidade de sequenciamento em uma pequena quantidade. Os valores de desempenho mostrados na Fig. 2 usam a estratégia 1 e os da Tabela 2 usam a estratégia 2. É importante ressaltar que HEDGES permite restrições nas fitas de DNA codificadas, como a redução das execuções de homopolímero e a manutenção de um conteúdo de GC balanceado. Apêndice SIA Fig. S3, quando comparada com a Fig. 2, mostra que tais restrições impõem pouca penalidade tanto na taxa de código quanto no nível de correção de erro. Assim, demonstramos que ambas são estratégias viáveis ​​para correção de erros.

Realizamos experimentos in silico e in vitro para validar HEDGES em uma variedade de taxas de erro. Essas análises estatísticas de eventos raros, com base em dados experimentais e simulações, devem ser uma parte necessária de todas as propostas futuras para armazenamento de dados de DNA. O desempenho de HEDGES no DNA real com erros totais observados de ∼ 1% e ∼ 3% (Tabelas 1 e 2) foi comparável à simulação de computador nas mesmas taxas de erro de DNA total e ao modelo estatístico que construímos usando erros aleatórios de Poisson simples (Fig. 2). Em ambos os casos, HEDGES demonstra a viabilidade de recuperação livre de erros em grande escala em taxas de código de até 0,6 (1,2 bits por nucleotídeo) para ∼ 1% de erros de DNA e 0,5 (1 bit por nucleotídeo) para ∼ 3% de erros de DNA. O armazenamento em escala de exabyte sem erros é viável em taxas de erro de DNA tão grandes quanto 7 a 10% com uma taxa de código de 0,25 (0,5 bits por nucleotídeo). Assim, o HEDGES abre caminho para a correção de erros robusta em síntese agrupada em grande escala, mas sujeita a erros, de grandes bibliotecas de DNA.

0,001 por nucleotídeo, alguns observadores projetam uma diminuição de ordens de magnitude (8). Uma fita de DNA contendo os quatro nucleotídeos naturais pode codificar no máximo 2 bits por caractere de DNA. Com esta taxa máxima de código (definida como taxa r = 1,0), nenhuma correção de erro é possível, pois não há redundância na mensagem. No entanto, tanto a síntese quanto o sequenciamento do DNA introduzem erros nos pools de DNA subjacentes, exigindo códigos de correção de erros (ECCs) eficientes para extrair as informações subjacentes. Um ECC reduz a taxa de código, mas é necessário para proteger contra erros quando uma mensagem é codificada como caracteres de DNA e, posteriormente, ao decodificar caracteres de DNA de volta para bits de mensagem.

Um ECC deve corrigir os três tipos de erros associados ao DNA - substituições de uma base por outra, bem como inserções ou deleções espúrias de nucleotídeos na fita de DNA (indels). Indels representam mais de 50% dos erros de DNA observados (Fig. 1UMA) No entanto, a maioria dos esquemas de codificação de DNA usa ECCs que podem apenas corrigir substituições, uma tarefa padrão na teoria da codificação (9 ⇓ ⇓ –12). A literatura da teoria da codificação relata apenas algumas ECCs que corrigem as deleções, e não há métodos bem estabelecidos para todas as três exclusões, inserções e substituições (13, 14). Implementações anteriores de armazenamento de DNA corrigem para indels por sequenciamento em alta profundidade, seguido por alinhamento múltiplo e chamada de base de consenso (Fig. 1B) (1, 3, 6). Esta abordagem representa um ECC de “repetição” ineficiente. Além disso, as ECCs de repetição apenas corrigem erros associados ao sequenciamento de DNA. A correção de erros de síntese usando esta abordagem também requer o agrupamento de múltiplas reações de síntese, que é a etapa mais cara e demorada no armazenamento de informações com base em DNA (2). Finalmente, o alinhamento e a decodificação de consenso não vão muito além de pequenos experimentos de prova de princípio. Em suma, os ECCs que requerem repetição de alta profundidade no DNA armazenado têm taxas de código muito pequenas porque um grande número de nucleotídeos armazenados é necessário por bit de mensagem recuperado.

(UMA) Distribuição de erros de inserção e exclusão (indels) em um pipeline de armazenamento de DNA típico (Tabela 1) ins, exclusão de inserção, sub de exclusão, substituição. (B) (Deixou) Os métodos de codificação baseados em DNA existentes exigem redundância no nível da sequência, alinhamento da fita e chamada de consenso para reduzir os erros indel. (Direito) HEDGES corrige erros indel e de substituição de uma única leitura. (C) Visão geral do pipeline de codificação intercalado usado ao longo deste artigo. (D) Algoritmo de codificação HEDGES no caso mais simples: código de meia taxa, sem restrições de sequência. O algoritmo de codificação HEDGES é uma variante da chave automática de texto simples, mas com redundância introduzida porque (no caso de um código de meia taxa, por exemplo) 1 bit de entrada gera 2 bits de saída. O hash de cada valor de bit com seu ID de fita, índice de bits e alguns bits anteriores “envenena” hipóteses de decodificação incorretas, permitindo a correção de indels. (E) Um exemplo de codificação HEDGES, codificando o bit 9 da fita de dados mostrada (caixa vermelha). Como em D, código de meia taxa, sem restrições de sequência. (F) O algoritmo de decodificação HEDGES é uma busca gananciosa em uma árvore de hipóteses em expansão. Cada hipótese adivinha simultaneamente um ou mais bits de mensagem v i, seu índice de posição de bit i e seu índice de posição de caractere de DNA correspondente k. Um "parâmetro de ganância" P ok (ver Apêndice SI, Texto Complementar) limita o crescimento exponencial da árvore: A maioria dos nós gerados nunca é revisitada. (G) Ilustração de uma decodificação HEDGES simplificada. A mensagem de cadeia de bits de exemplo é codificada e, em seguida, sequenciada com um erro de inserção. Blue squares give decoding action order: 1, Initialize Start node 2 to 5, explore best hypothesis at each step and 6, traceback and output the best hypothesis message. DNA image credit: freepik.com.

Here, we describe an algorithm to achieve high code rates with a minimum requirement for redundancy in the stored DNA. We adapt the coding theory approach of constructing an “inner” code (so termed because it is closest to the physical channel, the DNA) to correct most indel and substitution errors. The inner code translates between a string of < A , C , G , T >and an intermediate binary string of < 0,1 >, with no added or dropped bits even in the presence of indels in the DNA string. An efficient “outer” code corrects residual errors with extremely high probability. Our inner code, termed HEDGES (Hash Encoded, Decoded by Greedy Exhaustive Search), is optimized for real-world DNA-based information storage: 1) It finds and corrects indels, or converts them to substitutions (which it also usually corrects). 2) It admits varying code rates, with correspondingly greater tolerance of DNA errors at lower code rates. 3) It is adaptable to the experimental constraints on DNA synthesis, for example, balanced GC content and the avoidance of homopolymer runs. 4) It has, effectively, zero strand ordering errors, removing a source of large bursts of errors. Although this paper’s main contribution is an efficient indel-correcting code, we also develop a specific implementation of the outer Reed–Solomon (RS) code for DNA-based storage. The RS code is applied “diagonally” across multiple DNA strands (Fig. 1C) to more evenly distribute synthesis and sequencing errors, which improves error correction performance (15). We test our strategy (both in silico and in vitro) with degraded DNA oligonucleotide pools. Based on these experiments, we use computer simulations to demonstrate that this coding strategy enables error-free exabyte ( 1 0 18 )-scale DNA storage.


What can I research for thesis on DNA data storage from math? - Biologia

a Laboratory of Chemical Biology and State Key Laboratory of Rare Earth Resources Utilization, Changchun Institute of Applied Chemistry, Chinese Academy of Science, Changchun, Jilin 130022, P. R. China
O email: [email protected], [email protected]

b University of Chinese Academy of Sciences, Beijing 100039, P. R. China

c University of Science and Technology of China, Hefei, Anhui 230029, P. R. China

Resumo

DNA metallization has witnessed tremendous growth and development, from the initial simple synthesis aimed at manufacturing conductive metal nanowires to the current fabrication of various nanostructures for applications in areas as diverse as nanolithography, energy conversion and storage, catalysis, sensing, and biomedical engineering. To this, our aim here was to present a comprehensive review to summarize the research activities on DNA metallization that have appeared since the concept was first proposed in 1998. We start with a brief presentation of the basic knowledge of DNA and its unique advantages in the template-directed growth of metal nanomaterials, followed by providing a systematic summary of the various synthetic methods developed to date to deposit metals on DNA scaffolds. Then, the leverage of DNAs with different sequences, conformations, and structures for tuning the synthesis of feature-rich metal nanostructures is discussed. Afterwards, the discussion is divided around the applications of these metal nanomaterials in the fields mentioned above, wherein the key role DNA metallization plays in enabling high performance is emphasized. Finally, the current status and some future prospects and challenges in this field are summarized. As such, this review would be of great interest to promote the further development of DNA metallization by attracting researchers from various communities, including chemistry, biology, physiology, material science, and nanotechnology as well as other disciplines.


Supplementary Information 1

This file contains Supplementary Tables 1-4, Supplementary Figures 1-9, Supplementary Methods and Data, a Supplementary Discussion and Supplementary references. This file was replaced on 14 February 2013 to correct the DNA sequence in Supplementary Figure 8, which was misaligned. (PDF 2027 kb)

Supplementary Information 2

This file contains the full formal specification of the digital information encoding scheme. (PDF 244 kb)

Supplementary Information 3

This file contains FastQC QC report on Illumina HiSeq 2000 sequencing run. (PDF 411 kb)

Supplementary Data 1

This zipped file contains the five original files encoded and decoded in this study, namely wssnt10.txt (ASCII text file containing text of all 154 Shakespeare sonnets), watsoncrick.pdf (PDF of Watson & Crick’s (1953) paper describing the structure of DNA), MLK_excerpt_VBR_45-85.mp3 (MP3 file containing a 26 s excerpt from Martin Luther King's 1963 "I Have A Dream" speech), EBI.jp2 (JPEG 2000 format medium resolution colour photograph of the European Bioinformatics Institute) and View_huff3.cd.new (ASCII text file defining the Huffman code used to convert bytes of encoded files to base 3). (ZIP 646 kb)

Supplementary Data 2

This file contains the GATK ErrorRatePerCycle report on Illumina HiSeq 2000 sequencing run. (TXT 6 kb)


Assista o vídeo: O que é projeto de pesquisa? (Dezembro 2021).