Em formação

10.3: Métodos de genoma completo e aplicações industriais - Biologia


habilidades para desenvolver

  • Explicar os usos de análises comparativas de todo o genoma
  • Resuma as vantagens dos produtos farmacêuticos geneticamente modificados

Os avanços na biologia molecular levaram à criação de campos da ciência inteiramente novos. Nesta seção, forneceremos uma breve visão geral dos campos do genoma completo da genômica, transcriptômica e proteômica.

Genômica, Transcriptômica e Proteômica

O estudo e a comparação de genomas inteiros, incluindo o conjunto completo de genes e sua sequência e organização de nucleotídeos, é chamado de genômica. Este campo tem grande potencial para futuros avanços médicos por meio do estudo do genoma humano, bem como dos genomas de organismos infecciosos. A análise de genomas microbianos contribuiu para o desenvolvimento de novos antibióticos, ferramentas de diagnóstico, vacinas, tratamentos médicos e técnicas de limpeza ambiental.

O campo da transcriptômica é a ciência de toda a coleção de moléculas de mRNA produzidas pelas células. Os cientistas comparam os padrões de expressão gênica entre células hospedeiras infectadas e não infectadas, obtendo informações importantes sobre as respostas celulares às doenças infecciosas. Além disso, a transcriptômica pode ser usada para monitorar a expressão gênica de fatores de virulência em microrganismos, ajudando os cientistas a compreender melhor os processos patogênicos desse ponto de vista.

Quando a genômica e a transcriptômica são aplicadas a comunidades microbianas inteiras, usamos os termos metagenômica e metatranscriptômica, respectivamente. A metagenômica e a metatranscriptômica permitem que os pesquisadores estudem os genes e a expressão gênica de uma coleção de várias espécies, muitas das quais podem não ser facilmente cultivadas ou cultivadas em laboratório. Um microarray de DNA (discutido na seção anterior) pode ser usado em estudos de metagenômica.

Outra aplicação clínica emergente da genômica e da transcriptômica é a farmacogenômica, também chamada de toxicogenômica, que envolve a avaliação da eficácia e segurança dos medicamentos com base nas informações da sequência genômica de um indivíduo. As respostas genômicas às drogas podem ser estudadas usando animais experimentais (como ratos ou camundongos de laboratório) ou células vivas no laboratório antes de iniciar estudos com humanos. Mudanças na expressão gênica na presença de uma droga podem às vezes ser um indicador precoce do potencial de efeitos tóxicos. As informações da sequência do genoma pessoal podem algum dia ser usadas para prescrever medicamentos que serão mais eficazes e menos tóxicos com base no genótipo do paciente individual.

O estudo da proteômica é uma extensão da genômica que permite aos cientistas estudar todo o complemento de proteínas em um organismo, chamado de proteoma. Embora todas as células de um organismo multicelular tenham o mesmo conjunto de genes, células em vários tecidos produzem diferentes conjuntos de proteínas. Assim, o genoma é constante, mas o proteoma varia e é dinâmico dentro de um organismo. A proteômica pode ser usada para estudar quais proteínas são expressas sob várias condições dentro de um único tipo de célula ou para comparar padrões de expressão de proteínas entre diferentes organismos.

A doença mais proeminente sendo estudada com abordagens proteômicas é o câncer, mas esta área de estudo também está sendo aplicada a doenças infecciosas. A pesquisa está em andamento para examinar a viabilidade do uso de abordagens proteômicas para diagnosticar vários tipos de hepatite, tuberculose e infecção por HIV, que são bastante difíceis de diagnosticar usando as técnicas disponíveis atualmente.1

Uma análise proteômica recente e em desenvolvimento se baseia na identificação de proteínas chamadas biomarcadores, cuja expressão é afetada pelo processo da doença. Biomarcadores estão sendo usados ​​para detectar várias formas de câncer, bem como infecções causadas por patógenos, como Yersinia pestis e Vírus vaccinia.2

Outras ciências "-ômicas" relacionadas à genômica e proteômica incluem metabolômica, glicômica e lipidômica, que se concentram no conjunto completo de metabólitos de moléculas pequenas, açúcares e lipídios, respectivamente, encontrados dentro de uma célula. Por meio dessas várias abordagens globais, os cientistas continuam a coletar, compilar e analisar grandes quantidades de informações genéticas. Este campo emergente da bioinformática pode ser usado, entre muitas outras aplicações, como pistas para o tratamento de doenças e compreensão do funcionamento das células.

Além disso, os pesquisadores podem usar a genética reversa, uma técnica relacionada à análise mutacional clássica, para determinar a função de genes específicos. Os métodos clássicos de estudar a função dos genes envolviam a busca pelos genes responsáveis ​​por um determinado fenótipo. A genética reversa usa a abordagem oposta, começando com uma sequência de DNA específica e tentando determinar que fenótipo ela produz. Alternativamente, os cientistas podem anexar genes conhecidos (chamados genes repórter) que codificam características facilmente observáveis ​​para genes de interesse, e a localização da expressão de tais genes de interesse pode ser facilmente monitorada. Isso dá ao pesquisador informações importantes sobre o que o produto do gene pode estar fazendo ou onde está localizado no organismo. Genes repórter comuns incluem bactérias lacZ, que codifica a beta-galactosidase e cuja atividade pode ser monitorada por alterações na cor da colônia na presença de X-gal, conforme descrito anteriormente, e o gene que codifica a proteína fluorescente verde da água-viva (GFP), cuja atividade pode ser visualizada em colônias sob ultravioleta exposição à luz (Figura ( PageIndex {1} )).

Figura ( PageIndex {1} ): (a) O gene que codifica a proteína fluorescente verde é um gene repórter comumente usado para monitorar padrões de expressão gênica em organismos. Sob luz ultravioleta, o GFP é fluorescente. Aqui, dois ratos estão expressando GFP, enquanto o mouse do meio não. (b) GFP pode ser usado como um gene repórter em bactérias também. Aqui, uma placa contendo colônias bacterianas que expressam GFP é mostrada. (c) O rastreio azul-branco em bactérias é realizado através da utilização do gene repórter lacZ, seguido de plaqueamento de bactérias em meio contendo X-gal. A clivagem de X-gal pela enzima LacZ resulta na formação de colônias azuis. (crédito a: modificação do trabalho de Ingrid Moen, Charlotte Jevne, Jian Wang, Karl-Henning Kalland, Martha Chekenya, Lars A Akslen, Linda Sleire, Per Ø Enger, Rolf K Reed, Anne M Øyan, Linda EB Stuhr; crédito b : modificação do trabalho por “2.5JIGEN.com” / Flickr; crédito c: modificação do trabalho pela American Society for Microbiology)

Exercício ( PageIndex {1} )

  1. Como a genômica é diferente da genética tradicional?
  2. Se você quisesse estudar como duas células diferentes no corpo respondem a uma infecção, qual campo de –omics você aplicaria?
  3. Para que são usados ​​os biomarcadores descobertos na proteômica?

Tecnologia de DNA recombinante e produção farmacêutica

A engenharia genética forneceu uma maneira de criar novos produtos farmacêuticos chamados fármacos de DNA recombinante. Esses produtos incluem antibióticos, vacinas e hormônios usados ​​para tratar várias doenças. A Tabela ( PageIndex {1} ) lista exemplos de produtos de DNA recombinante e seus usos.

Por exemplo, as vias naturais de síntese de antibióticos de vários Streptomyces spp., há muito conhecidos por suas capacidades de produção de antibióticos, podem ser modificados para melhorar os rendimentos ou para criar novos antibióticos por meio da introdução de genes que codificam enzimas adicionais. Mais de 200 novos antibióticos foram gerados por meio da inativação direcionada de genes e da nova combinação de genes de síntese de antibióticos na produção de antibióticos Streptomyces hospedeiros.3

A engenharia genética também é usada para fabricar vacinas de subunidade, que são mais seguras do que outras vacinas porque contêm apenas uma única molécula antigênica e carecem de qualquer parte do genoma do patógeno (consulte Vacinas). Por exemplo, uma vacina para a hepatite B é criada inserindo um gene que codifica uma proteína de superfície da hepatite B em uma levedura; a levedura então produz essa proteína, que o sistema imunológico humano reconhece como um antígeno. O antígeno da hepatite B é purificado a partir de culturas de levedura e administrado aos pacientes como uma vacina. Mesmo que a vacina não contenha o vírus da hepatite B, a presença da proteína antigênica estimula o sistema imunológico a produzir anticorpos que protegerão o paciente contra o vírus em caso de exposição.4 5

A engenharia genética também tem sido importante na produção de outras proteínas terapêuticas, como insulina, interferons e hormônio de crescimento humano, para tratar uma variedade de condições médicas humanas. Por exemplo, ao mesmo tempo, era possível tratar o diabetes apenas dando aos pacientes insulina de porco, que causava reações alérgicas devido a pequenas diferenças entre as proteínas expressas na insulina humana e suína. No entanto, desde 1978, a tecnologia de DNA recombinante tem sido usada para produzir grandes quantidades de insulina humana usando E. coli em um processo relativamente barato que produz um produto farmacêutico mais consistentemente eficaz. Os cientistas também fizeram engenharia genética E. coli capaz de produzir o hormônio do crescimento humano (HGH), que é usado para tratar distúrbios do crescimento em crianças e alguns outros distúrbios em adultos. O gene HGH foi clonado a partir de uma biblioteca de cDNA e inserido em E. coli células por clonagem em um vetor bacteriano. Eventualmente, a engenharia genética será usada para produzir vacinas de DNA e várias terapias genéticas, bem como medicamentos personalizados para combater o câncer e outras doenças.

Tabela ( PageIndex {1} ): Alguns produtos e aplicações farmacêuticas geneticamente modificadas
Produto de DNA recombinanteAplicativo
Peptídeo natriurético atrialTratamento de doenças cardíacas (por exemplo, insuficiência cardíaca congestiva), doenças renais, hipertensão
DNaseTratamento de secreções pulmonares viscosas na fibrose cística
EritropoietinaTratamento de anemia grave com lesão renal
Fator VIIITratamento de hemofilia
Vacina contra hepatite BPrevenção da infecção por hepatite B
Hormônio de crescimento humanoTratamento da deficiência de hormônio do crescimento, síndrome de Turner, queimaduras
Insulina humanaTratamento de diabetes
InterferonsTratamento de esclerose múltipla, vários cânceres (por exemplo, melanoma), infecções virais (por exemplo, hepatite B e C)
TetracenomicinasUsado como antibióticos
Ativador de tecido plasminogênioTratamento de embolia pulmonar em acidente vascular cerebral isquêmico, infarto do miocárdio

Exercício ( PageIndex {2} )

  1. Que bactéria foi geneticamente modificada para produzir insulina humana para o tratamento do diabetes?
  2. Explique como os microrganismos podem ser projetados para produzir vacinas.

Tecnologia de interferência de RNA

Em Structure and Function of RNA, descrevemos a função de mRNA, rRNA e tRNA. Além desses tipos de RNA, as células também produzem vários tipos de pequenas moléculas de RNA não codificantes que estão envolvidas na regulação da expressão gênica. Estes incluem moléculas de RNA antisense, que são complementares às regiões de moléculas de mRNA específicas encontradas em células procariotas e eucariotas. As moléculas de RNA não codificantes desempenham um papel importante na interferência do RNA (RNAi), um mecanismo regulador natural pelo qual as moléculas de mRNA são impedidas de orientar a síntese de proteínas. A interferência do RNA de genes específicos resulta do emparelhamento de bases de moléculas curtas de RNA antisense de fita simples com as regiões dentro das moléculas de mRNA complementares, evitando a síntese de proteínas. As células usam interferência de RNA para se proteger da invasão viral, que pode introduzir moléculas de RNA de fita dupla como parte do processo de replicação viral (Figura ( PageIndex {2} )).

Figura ( PageIndex {2} ): Células como a célula eucariótica mostrada neste diagrama geralmente fazem pequenas moléculas de RNA antisense com sequências complementares a moléculas de mRNA específicas. Quando uma molécula de RNA antisense é ligada a uma molécula de mRNA, o mRNA não pode mais ser usado para direcionar a síntese de proteínas. (crédito: modificação do trabalho por Robinson R)

Os pesquisadores estão atualmente desenvolvendo técnicas para simular o processo natural de interferência de RNA como uma forma de tratar infecções virais em células eucarióticas. A tecnologia de interferência de RNA envolve o uso de pequenos RNAs de interferência (siRNAs) ou microRNAs (miRNAs) (Figura ( PageIndex {3} )). Os siRNAs são completamente complementares à transcrição do mRNA de um gene específico de interesse, enquanto os miRNAs são em sua maioria complementares. Esses RNAs de fita dupla são ligados a DICER, uma endonuclease que cliva o RNA em moléculas curtas (aproximadamente 20 nucleotídeos de comprimento). Os RNAs são então ligados ao complexo de silenciamento induzido por RNA (RISC), uma ribonucleoproteína. O complexo siRNA-RISC se liga ao mRNA e o cliva. Para miRNA, apenas uma das duas fitas se liga ao RISC. O complexo miRNA-RISC então se liga ao mRNA, inibindo a tradução. Se o miRNA é completamente complementar ao gene alvo, o mRNA pode ser clivado. Em conjunto, esses mecanismos são conhecidos como silenciamento de genes.

Figura ( PageIndex {3} ): Este diagrama ilustra o processo de uso de siRNA ou miRNA em uma célula eucariótica para silenciar genes envolvidos na patogênese de várias doenças. (crédito: modificação do trabalho pelo National Center for Biotechnology Information)

Conceitos-chave e resumo

  • A ciência de genômica permite aos pesquisadores estudar organismos em um nível holístico e tem muitas aplicações de relevância médica.
  • Transcriptômica e proteômica permitem que os pesquisadores comparem os padrões de expressão gênica entre diferentes células e mostra uma grande promessa no melhor entendimento das respostas globais a várias condições.
  • As várias tecnologias de -omics complementam-se e juntas fornecem uma imagem mais completa de um organismo ou comunidade microbiana (metagenômica) Estado.
  • A análise necessária para grandes conjuntos de dados produzidos por meio de genômica, transcriptômica e proteômica levou ao surgimento de bioinformática.
  • Genes repórter características de codificação facilmente observáveis ​​são comumente usadas para rastrear padrões de expressão gênica de genes de função desconhecida.
  • O uso da tecnologia de DNA recombinante revolucionou a indústria farmacêutica, permitindo a produção rápida de produtos de alta qualidade fármacos de DNA recombinante usado para tratar uma ampla variedade de condições humanas.
  • Interferência de RNA a tecnologia é muito promissora como método de tratamento de infecções virais, silenciando a expressão de genes específicos

Múltipla escolha

A ciência de estudar toda a coleção de moléculas de mRNA produzidas pelas células, permitindo aos cientistas monitorar as diferenças nos padrões de expressão gênica entre as células, é chamada de:

A. genomics
B. transcriptômica
C. proteômica
D. farmacogenômica

B

A ciência de estudar fragmentos genômicos de comunidades microbianas, permitindo aos pesquisadores estudar genes de uma coleção de múltiplas espécies, é chamada de:

A. farmacogenômica
B. metagenômica
D. proteômica

C

A insulina produzida pela tecnologia de DNA recombinante é

A. uma combinação de E. coli e insulina humana.
B. idêntica à insulina humana produzida no pâncreas.
C. mais barato, mas menos eficaz do que a insulina de porco para o tratamento da diabetes.
D. projetado para ser mais eficaz do que a insulina humana.

B

Preencher a lacuna

A aplicação da genômica para avaliar a eficácia e segurança dos medicamentos com base nas informações da sequência genômica de um indivíduo é chamada de ____________.

farmacogenômica ou toxicogenômica

Um gene cuja expressão pode ser facilmente visualizada e monitorada é chamado de ________.

gene repórter

Verdadeiro falso

A interferência do RNA não influencia a sequência do DNA genômico.

verdade

Resposta curta

Se todas as proteínas celulares são codificadas pelos genes da célula, que informação a proteômica fornece que a genômica não pode?

Pensamento crítico

Quais são algumas vantagens de clonar genes humanos em bactérias para tratar doenças humanas causadas por deficiências de proteínas específicas?

Notas de rodapé

  1. 1 E.O. List, D.E. Berryman, B. Bower, L. Sackmann-Sala, E. Gosney, J. Ding, S. Okada e J.J. Kopchick. “O uso de proteômica para estudar doenças infecciosas”. Transtornos infecciosos - alvos de drogas (Anteriormente Alvos atuais de drogas - doenças infecciosas) 8 não. 1 (2008): 31–45.
  2. 2 Mohan Natesan e Robert G. Ulrich. “Protein Microarrays and Biomarkers of Infectious Disease.” International Journal of Molecular Sciences 11 não. 12 (2010): 5165–5183.
  3. 3 Jose-Luis Adrio e Arnold L. Demain. “Organismos Recombinantes para Produção de Produtos Industriais.” Insetos de bioengenharia 1 não. 2 (2010): 116–131.
  4. 4 Departamento de Saúde e Serviços Humanos dos EUA. “Tipos de vacinas.” 2013. http://www.vaccines.gov/more_info/types/#subunit. Acessado em 27 de maio de 2016.
  5. 5 A lista de drogas da Internet. Recombivax. 2015. http://www.rxlist.com/recombivax-drug.htm. Acessado em 27 de maio de 2016.

Contribuinte

  • Nina Parker, (Shenandoah University), Mark Schneegurt (Wichita State University), Anh-Hue Thi Tu (Georgia Southwestern State University), Philip Lister (Central New Mexico Community College) e Brian M. Forster (Saint Joseph's University) com muitos autores contribuintes. Conteúdo original via Openstax (CC BY 4.0; acesse gratuitamente em https://openstax.org/books/microbiology/pages/1-introduction)


Avaliação de plataformas de sequenciamento de última geração para estudos de sequenciamento direcionados à população

Plataformas de sequenciamento de próxima geração (NGS) estão sendo utilizadas atualmente para sequenciamento direcionado de genes candidatos ou intervalos genômicos para realizar estudos de associação baseados em sequência. Para avaliar essas plataformas para esta aplicação, analisamos a sequência humana gerada pelas tecnologias Roche 454, Illumina GA e ABI SOLiD para os mesmos 260 kb em quatro indivíduos.

Resultados

As características da sequência local contribuem para a variabilidade sistemática na cobertura da sequência (diferença & gt100 vezes na cobertura por base), resultando em padrões para cada tecnologia NGS que são altamente correlacionados entre as amostras. Uma comparação das chamadas de base a 88 kb de sequência de Sanger ABI 3730xL sobreposta gerada para as mesmas amostras mostrou que todas as plataformas NGS têm alta sensibilidade, identificando & gt95% dos locais variantes. Em alta cobertura, erros de chamada de base de profundidade são sistemáticos, resultando de contextos de sequência local conforme a cobertura é reduzida, erros adicionais de 'amostragem aleatória' ocorrem na chamada de base.

Conclusões

Nosso estudo fornece informações importantes sobre vieses sistemáticos e variabilidade de dados que precisam ser considerados ao utilizar plataformas NGS para estudos de sequenciamento populacional direcionados.


Resumo do capítulo

Os ácidos nucleicos podem ser isolados das células para fins de análise posterior, quebrando as células e destruindo enzimaticamente todas as outras macromoléculas principais. Cromossomos fragmentados ou inteiros podem ser separados com base no tamanho por eletroforese em gel.Trechos curtos de DNA podem ser amplificados por PCR. O DNA pode ser cortado (e subsequentemente re-spliced ​​junto) usando enzimas de restrição. As técnicas moleculares e celulares da biotecnologia permitem aos pesquisadores fazer a engenharia genética dos organismos, modificando-os para alcançar características desejáveis.

A clonagem pode envolver a clonagem de pequenos fragmentos de DNA (clonagem molecular) ou a clonagem de organismos inteiros (clonagem reprodutiva). Na clonagem molecular com bactérias, um fragmento de DNA desejado é inserido em um plasmídeo bacteriano usando enzimas de restrição e o plasmídeo é absorvido por uma bactéria, que então expressará o DNA estranho. Usando outras técnicas, genes estranhos podem ser inseridos em organismos eucarióticos. Em cada caso, os organismos são chamados de organismos transgênicos. Na clonagem reprodutiva, um núcleo doador é colocado em uma célula-ovo enucleada, que é então estimulada a se dividir e se desenvolver em um organismo.

Nos métodos de genética reversa, um gene é mutado ou removido de alguma forma para identificar seu efeito no fenótipo de todo o organismo, como forma de determinar sua função.

10.2 Biotecnologia em Medicina e Agricultura

O teste genético é realizado para identificar genes causadores de doenças e pode ser usado para beneficiar indivíduos afetados e seus parentes que ainda não desenvolveram os sintomas da doença. A terapia gênica - pela qual genes funcionais são incorporados aos genomas de indivíduos com um gene mutante não funcional - tem o potencial de curar doenças hereditárias. Os organismos transgênicos possuem DNA de uma espécie diferente, geralmente gerado por técnicas de clonagem molecular. Vacinas, antibióticos e hormônios são exemplos de produtos obtidos por tecnologia de DNA recombinante. Animais transgênicos foram criados para fins experimentais e alguns são usados ​​para produzir algumas proteínas humanas.

Os genes são inseridos em plantas, usando plasmídeos na bactéria Agrobacterium tumefaciens, que infecta plantas. As plantas transgênicas foram criadas para melhorar as características das plantas cultivadas - por exemplo, dando-lhes resistência a insetos por meio da inserção de um gene para uma toxina bacteriana.

10.3 Genômica e Proteômica

O mapeamento do genoma é semelhante à solução de um grande e complicado quebra-cabeça com peças de informação provenientes de laboratórios de todo o mundo. Os mapas genéticos fornecem um esboço para a localização dos genes dentro de um genoma e estimam a distância entre os genes e os marcadores genéticos com base na frequência de recombinação durante a meiose. Mapas físicos fornecem informações detalhadas sobre a distância física entre os genes. As informações mais detalhadas estão disponíveis por meio do mapeamento de sequência. As informações de todas as fontes de mapeamento e sequenciamento são combinadas para estudar um genoma inteiro.

O sequenciamento do genoma completo é o mais recente recurso disponível para o tratamento de doenças genéticas. Alguns médicos estão usando o sequenciamento do genoma completo para salvar vidas. A genômica tem muitas aplicações industriais, incluindo desenvolvimento de biocombustíveis, agricultura, produtos farmacêuticos e controle de poluição.

A imaginação é a única barreira para a aplicabilidade da genômica. A genômica está sendo aplicada à maioria dos campos da biologia, ela pode ser usada para medicina personalizada, previsão de riscos de doenças em um nível individual, o estudo de interações medicamentosas antes da realização de ensaios clínicos e o estudo de microrganismos no ambiente em oposição ao laboratório. Também está sendo aplicado à geração de novos biocombustíveis, avaliação genealógica usando mitocôndrias, avanços na ciência forense e melhorias na agricultura.

Proteômica é o estudo de todo o conjunto de proteínas expressas por um determinado tipo de célula sob certas condições ambientais. Em um organismo multicelular, diferentes tipos de células terão proteomas diferentes, e estes variam com as mudanças no ambiente. Ao contrário de um genoma, um proteoma é dinâmico e está em fluxo constante, o que o torna mais complicado e mais útil do que o conhecimento apenas dos genomas.


Resultados

Montagem e avaliação do genoma

Aqui, o genoma da levedura vermelha oleaginosa S. pararoseus O NGR foi sequenciado usando a plataforma Illumina Hiseq 2500. Um total de 8347 Mb de dados brutos foi gerado a partir de duas bibliotecas de DNA: uma biblioteca de par de extremidades com um tamanho de inserção de 500 bp (2631 Mb) e uma biblioteca de pares de pares com um tamanho de inserção de 5 kb (5716 Mb). Depois de remover adaptadores, leituras de baixa qualidade e leituras ambíguas, obtivemos 6073 Mb de dados limpos (Q20 & gt 95%, Q30 & gt 90%) para a montagem do genoma. Para a estimativa do tamanho do genoma de S. pararoseus NGR, calculamos o total de 15 k-mer número é 705.505.006 e o k-mer profundidade é 28,41. De acordo com a fórmula de distribuição de frequência de profundidade de 15 mer, o tamanho estimado do genoma de S. pararoseus O NGR foi calculado em 24,44 Mb. Nossa montagem final consiste em 54 andaimes, um comprimento N50 de 2.038.020 bp, o andaime de comprimento mais longo de 4.025.647 bp, o andaime de comprimento mais curto de 513 bp, um conteúdo de GC de 47,59% e um tamanho de 20,9 Mb (85,52% do genoma estimado Tamanho). Identificamos 5963 genes no genoma com comprimento médio de 1620 bp e conteúdo médio de GC de 47,26%, que ocupou 55,07% do genoma. Os resultados do alinhamento de BUSCO mostraram que nossa montagem final contém 1273 BUSCOs completos (95,4%), dos quais 1268 eram de cópia única, enquanto 5 estavam duplicados (arquivo adicional 1). Para os resultados de RNA-seq, um total de 2662 Mb de leituras brutas foi gerado. Usando a avaliação de dados de RNA-seq, encontramos 98,68% (5884) dos genes previstos nas regiões do genoma NGR e 767 novos genes foram expressos (arquivo adicional 2). Além disso, os dados de RNA-seq mostraram que 74,07% das leituras correspondiam às regiões do exon, 4,03% às regiões do íntron e 21,9% às regiões intergênicas. Essas leituras são alinhadas à região do íntron, principalmente devido à retenção do íntron ou eventos de splicing alternativo. No total, 488 SNPs / InDel (arquivo adicional 3) foram identificados ao comparar os dados de RNA-seq com as sequências do genoma NGR. A partir dos dados de RNA-seq, também identificamos os limites de 5'UTR e 3'UTR de 2772 genes (arquivo adicional 4). Tanto o alinhamento BUSCO quanto o mapeamento de RNA-seq sugeriram que nossa montagem do genoma atual é caracterizada como de alta qualidade, integridade e precisão [21].

Anotação funcional

Entre os 5963 genes previstos, 4595 (77,05%) genes poderiam ser anotados por BLASTN (valor E & lt1e - 5) usando bancos de dados NCBI Nr com base na homologia de sequência. Além disso, 1940 (32,53%), 3002 (50,34%), 4237 (71,05%), 1806 (30,3%) e 4659 (78,13%) genes podem ser anotados de acordo com os bancos de dados KEGG, KOG, NOG, SwissProt e TrEMBL, respectivamente. Deve-se notar que, entre esses genes atribuídos ao banco de dados Nr, as 3 principais espécies de números de genes correspondentes são R. toruloides (3484, 75.82%), Rhodotorula glutinis (555, 12,08%) e Microbotryum violaceum (340, 7,4%). Além disso, 4057 genes podem ser classificados em três categorias de Ontologia Genética (GO) (arquivo adicional 5): componente celular (1883 genes), processo biológico (2802 genes) e função molecular (3388 genes). Além disso, 194 tRNA, 1753 sequências repetitivas dispersas, 2092 repetições em tandem, 1178 DNA de minissatélites (arquivo adicional 6) e DNA de 659 microssatélites (arquivo adicional 7) foram identificados no genoma. Um total de 132.885 TEs de comprimento total foram previstos no genoma inteiro do NGR. Esses TEs incluem 838 LTR-REs, 59 SINE-REs, 31 RC-REs, 598 transposons de DNA, 208 LINE-REs e 7 Desconhecidos, dos quais 47,17% são elementos da classe LTR, principalmente atribuídos a Gypsy (346) e Copia (190 ) Os TEs de comprimento total compreendiam 132.885 bp, respondendo por 0,61% de todo o genoma do NGR.

Com base no mapeamento das vias KEGG, anotamos os genes codificadores de candidatos para potencial biotecnológico no genoma NGR. Um resumo dos candidatos (arquivos adicionais 8, 9, 10 e 11 para detalhes) é apresentado a seguir: 1) Biossíntese de carotenóides, incluindo crtI (fitoeno dessaturase, GenBank: KR108014) [22], crtYB (licopeno ciclase / fitoeno sintase, GenBank: KR108013) [23], crtE (GGPP sintase, GenBank: KY652916), e outros genes que codificam hidroxilase, monooxigenase ou cetolase / carboxilase que podem ser responsáveis ​​pela transformação de toruleno em torularodina 2) metabolismo lipídico, incluindo genes que codificam acetil-CoA carboxilase, acil-CoA oxidase, fosfolipídeo: diacilglicerol aciltransferase, glicerol 3-fosfato desidrogenase 3) metabolismo de carboidratos, incluindo genes que codificam piruvato desidrogenase, piruvato carboxilase e acil-CoA: diacilglicerol aciltransferase 4) respostas de estresse, incluindo genes envolvidos na via de sinalização MAPK e transdução de sinal de cálcio.

Relações filogenéticas entre leveduras vermelhas da ordem Sporidiobolales

Entre as leveduras do filo Basidiomycetes, há uma série de espécies que crescem como colônias pigmentadas, por isso são conhecidas como leveduras vermelhas [24]. Dentre elas, 42 leveduras vermelhas pertencem à ordem Sporidiobolales. Recentemente, a ordem Sporidiobolales foi reconstruída, incluindo três gêneros. Sporobolomyces (17 espécies) Rhodosporidiobolus (9 espécies) e Rhodotorula (16 espécies) [5, 25]. A fim de determinar as possíveis trajetórias evolutivas entre essas leveduras vermelhas, construímos a árvore filogenética com as sequências de rDNA 26S disponíveis. Conforme mostrado na Fig. 1, quanto ao gênero Sporobolomyces, o NGR mostrou uma relação evolutiva mais próxima com S. ruberrimus e S. coalae do que as outras espécies, particularmente para S. johnsonii e S. salmonicolor. O gênero Rhodosporidiobolus situa uma relação evolutiva mais próxima com Rhodotorula do que com Sporobolomyces. Os balistósporos não são uniformes nas espécies da ordem Sporidiobolales, porém, sendo um modo especializado de gênero. Sporobolomyces mas ausente em Rhodotorula e duas espécies caracterizadas de Rhodosporidiobolus (R. lusitaniae e R. colostri) [26,27,28]. Isso sugere que o mesmo ancestral de Sporobolomyces e Rhodosporidiobolus espécies atiram balistósporos. No entanto, a habilidade de atirar balistósporos foi gradualmente perdida em R. lusitaniae / R. colostri ou outro não descrito Rhodosporidiobolus espécies. Posteriormente, alguns Rhodosporidiobolus espécies de balistósporos sem capacidade de atirar passou por uma série de processos evolutivos para se formar Rhodotorula espécies. Embora essas hipóteses básicas não sejam controversas, é necessária uma verificação adicional com base na descoberta de mais novas espécies de Sporidiobolales e na obtenção de seus dados de genoma.

A árvore filogenética das leveduras da ordem Sporidiobolales e espécies outgroup foi construída pelo método de Neighbor-Joining e análise bootstrap (1000 repetições) com base no alinhamento da sequência 26S rDNA. A fonte strain NGR está em negrito. Os números nos nós indicam as probabilidades de bootstrap de um ramo específico. Organismos pertencentes ao mesmo gênero foram representados no lado direito, representando como Rhodotorula, Rhodosporidiobolus, e Sporobolomyces. A escala (valor: 0,01) que representa a substituição de nucleotídeos por lado é exibida. Os números de acesso das entradas correspondentes do banco de dados estão listados atrás do nome latino de cada espécie. A capacidade de formação de balistósporos para cada entrada da árvore filogenética é representada na frente do nome latino de cada espécie. Um ponto vermelho para aqueles que formam balistósporos, um ponto preto para aqueles que não os formam e cinza para aqueles para os quais não há informações disponíveis

Análise comparativa de famílias de proteínas e genes

O genoma NGR previu 5.963 genes codificadores de proteínas, e a maioria dos genes foram anotados na espécie R. toruloides NP11. Isso nos motiva a realizar uma análise genômica comparativa entre S. pararoseus NGR e R. toruloides NP11. A fim de excluir a qualidade inerente do fermento, adicionamos o modelo de fermento S. cerevisiae S288C como um controle. Conforme mostrado na Fig. 2a, comparamos a distribuição dos genes entre as três leveduras. A fim de identificar famílias de genes / proteínas específicas da espécie, realizamos comparações de pares usando uma série de pesquisas BLASTX dentro das três espécies. Como mostrado na Fig. 2b, um total de 14.408 famílias de proteínas foram identificadas com base em semelhanças de sequência (5751 famílias para o NGR, 7935 famílias para NP11 e 5485 famílias para S288C). 1975 (2077 genes), 4102 (4159 genes) e 4485 (4736 genes) famílias de proteínas eram espécies específicas em S. pararoseus NGR, R. toruloides NP11 e S. cerevisiae S288C, respectivamente. Conforme mostrado na Fig. 2c, conduzimos a análise de GO usando os respectivos genes específicos das três espécies. Quanto aos genes de S. pararoseus NGR, 106 (16,4%), 280 (43,3%) e 261 (40,3%) termos foram enriquecidos no CC, MF e BP, respectivamente. Descobrimos que os termos GO do S. pararoseus NGR espécies específicas de genes contendo, CC: núcleo, membrana e integral à membrana MF: ligação de proteína, ligação de DNA e ligação de íon zinco BP: regulação da transcrição-dependente de DNA, transporte, transporte transmembrana, transporte intracelular de proteína, metabólico de carboidratos processo e processo de redução da oxidação. Posteriormente, realizamos o mapeamento da via KEGG de S. pararoseus Genes específicos da espécie NGR. Como mostrado na Fig. 2d, as vias significativamente enriquecidas (Top 20) do S. pararoseus Genes específicos da espécie NGR, incluindo via de sinalização MAPK - levedura, spliceossomo, transporte de RNA e vias de vigilância de mRNA (arquivo adicional 12).

Análise genômica comparativa de S. pararoseus NGR, R. toruloides NP11, e S. cerevisiae S228C. uma Distribuição de genes de cópia única, múltiplas cópias e espécies específicas entre três leveduras. b Representação do diagrama de Venn de genes compartilhados / únicos em S. pararoseus NGR e comparação com aqueles em R. toruloides e S. cerevisiae. c Porcentagem do número de genes de famílias de proteínas específicas de espécies combinadas com diferentes categorias de GO, em três genomas de levedura, respectivamente. d As 20 principais vias KEGG enriquecidas de genes específicos da espécie em S. pararoseus Genomas NGR. Um fator rico é a razão entre o número de genes enriquecidos e o número total de genes nesta via. Quanto maior o fator de riqueza, maior o grau de enriquecimento. O valor Q varia de 0 a 1 e quanto mais próximo de zero, mais significativo é o enriquecimento

Dentre os genes específicos da espécie, o NGR-1A3721 que atribuiu ao termo GO de germinação de esporos (GO: 0009847) foi considerado um dos candidatos à formação de balistósporos. Além disso, os genes específicos da espécie do NGR envolvidos nas vias KEGG do metabolismo do açúcar, incluindo amino açúcar e metabolismo do açúcar nucleotídeo (ko00520), interconversões de pentose e glucuronato (ko00040), metabolismo do amido e sacarose (ko00500), metabolismo da galactose (ko00052 ), o metabolismo da frutose e da manose (ko00051) e o metabolismo do butanoato (ko00650) podem estar relacionados à disseminação dos balistósporos, conforme relatado em estudos anteriores [29, 30]. Recentemente, Ianiri et al. relataram que o gene 3-hidroxiacil-CoA desidratase Phs1 não é apenas responsável pela biossíntese de ácidos graxos de cadeia muito longa, mas também pelo disparo de balistósporos em Sporobolomyces sp. IAM 13481 [31]. No entanto, encontramos este Phs1 gene em ambos S. pararoseus NGR e R. toruloides genomas. Além disso, o Phs1 gene não foi fortemente positivo ou negativo selecionado na análise das taxas de substituição (Ka / Ks). Portanto, o Phs1 deve ser um determinante indireto do disparo de balistosporos no gênero Sporobolomyces.


Aplicações de GEMs

GEMs de vários organismos têm sido amplamente empregados em descobertas científicas, bem como em várias aplicações industriais e médicas [7, 109, 110]. É importante ressaltar que o desenvolvimento de métodos de integração de dados ômicos para GEMs resultou na expansão do escopo de aplicação dos GEMs [111], adaptando um GEM de acordo com condições específicas de interesse. Algoritmos de integração de dados omics relevantes [5, 112, 113] incluem GIMME [114], iMAT [115], MBA [116], INIT [117], mCADRE [118], tINIT [119], CORDA [120] e TIMBR [121]. A integração de dados ômicos com GEMs é particularmente importante para modelar organismos multicelulares, como humanos e plantas, porque os GEMs genéricos que estão disponíveis para esses organismos precisam ser transformados em GEMs de contexto específico. GEMs genéricos não tratam do metabolismo específico da condição porque eles têm informações sobre todos os genes metabólicos, independentemente de seus níveis de expressão em um tecido ou tipo de célula específico. Estudos relevantes envolvendo GEMs específicos ao contexto incluem a previsão de alvos de drogas específicos da condição (por exemplo, específicos para o estágio do ciclo de vida ou ambiente de cultivo) em patógenos, a previsão de interações metabólicas hospedeiro-patógeno e a caracterização do metabolismo reprogramado do câncer de fígado células-tronco (LCSCs) e o endotélio de pacientes com sepse, que são discutidos a seguir. Mais detalhes de vários métodos de integração de dados ômicos foram completamente discutidos em outro lugar [5, 112, 113].

Produção de produtos químicos e materiais

Os GEMs têm sido usados ​​há muito tempo para prever alvos para a manipulação de genes eficaz (por nocaute ou por meio da regulação para cima ou para baixo da expressão do gene, por exemplo) para a produção microbiana aprimorada de produtos químicos e materiais. Notavelmente, GEMs foram aplicados para redesenhar aspectos do metabolismo de bactérias e eucariotos, a fim de produzir um número crescente de produtos químicos e materiais. Um exemplo recente é a produção aumentada de polímeros aromáticos envolvendo ácido d-fenilático como um monômero (por exemplo, poli (3-hidroxibutirato-co-d-fenilactato)) usando engenharia metabólica E. coli cepas (Fig. 2a) [122]. A produção direta de ácido d-fenilático a partir da glicose foi tentada pela primeira vez implementando uma análise de resposta de fluxo do E. coli GEM iJO1366 [20] para examinar os efeitos da engenharia de reações biossintéticas de aminoácidos centrais e aromáticos na produção de ácido d-fenilático. Nocautes adicionais de TyrB e aspC genes em uma engenharia E. coli cepa base (XB201T) produzindo 0,55 g / L de ácido d-fenilático aumentou com sucesso a produção de ácido d-fenilático para 1,62 g / L. A fermentação em lote alimentado da cepa final produziu 13,9 g / L de poli (61,9 mol% 3-hidroxibutirato-co-38,1 mol% d-fenilactato).

Aplicações de GEMs para a produção de produtos químicos e materiais, direcionamento de drogas em patógenos, previsão de funções enzimáticas e análise de pan-reatoma. uma. Análise de fluxo-resposta usando o Escherichia coli GEM iJO1366 [20] foi usado para identificar alvos de manipulação de genes para a produção aumentada de um monômero de um polímero aromático de ácido d-fenilático em E. coli [122]. A cepa final tem dois genes adicionais (TyrB e aspC) nocauteado de um E. coli cepa de base XB201T que expressa AroG fbr, PheA fbr e FldH. A cepa final produziu 1,62 g / L de ácido d-fenilático, muito mais do que 0,55 g / L produzido pela cepa base. b Reconstrução do Yarrowia lipolytica GEM iYLI647 e sua aplicação para a previsão de alvos de engenharia de reação usando quatro diferentes estratégias de projeto de deformação in silico [123]. c Identificação de alvos de medicamentos antimaláricos em estágio específico para Plasmodium falciparum usando GEMs de estágio específico que representam cinco diferentes estágios do ciclo de vida [124]. d Reconstrução de um GEM para Acinetobacter baumannii usando vários bancos de dados e sua aplicação para a previsão de alvos específicos de drogas para combater a resistência a antibióticos A. baumannii [125]. e Descoberta de novas funções de isoenzimas para genes que se mostraram não essenciais em experimentos, mas que foram previstos como essenciais em uma simulação de essencialidade do gene do E. coli iJO1366 GEM (ou seja, previsão de falso negativo para o aspC gene) [126]. Verificou-se que a tirosina aminotransferase, que é codificada por TyrB (linha Vermelha), pode compensar a perda de aspartato aminotransferase, codificada por aspC, que catalisa a conversão de l -aspartato (l -Asp) e α-cetoglutarato (Akg) em oxaloacetato (Oaa) e l-glutamato (l -Glu). gDCW / L gramas secos célula peso por litro. f O método PROmiscuity PrEdictoR (PROPER) identifica enzimas promíscuas em uma escala de genoma em um organismo alvo [127]. Funções promíscuas para todos os genes no organismo alvo (E. coli) foram previstos usando o método PROPER e um E. coli GEM do Modelo SEED, que identificou 98 rotas alternativas para a biossíntese de vários metabólitos. Por exemplo, o produto da thiG gene em E. coli foi recentemente descoberto que biossintetiza piridoxal 5'-fosfato, que também é conhecido por ser biossintetizado pelo produto do pdxB gene. g Análise do pan-reatoma e reatoma acessório de 410 Salmonella cepas abrangendo 64 serovares usando seus respectivos GEMs [128]. A simulação dos GEMs sob várias condições de nutrientes revelou as diferentes capacidades catabólicas das diferentes cepas, bem como seus ambientes de crescimento preferidos. h Análise do pan-reatoma e reatoma acessório de 24 Penicillium espécies usando seus respectivos GEMs [129]. O agrupamento hierárquico dos 24 GEMs revelou percepções adicionais sobre as vias biossintéticas dos metabólitos secundários, que diferenciaram com sucesso os clados metabólicos

Em outro exemplo envolvendo Yarrowia lipolytica, um microrganismo eucariótico conhecido por acumular grandes quantidades de lipídios [130], seu GEM foi usado para melhorar a produção de ácido dodecanodioico [123] (Fig. 2b). Primeiro, um GEM de Y. lipolytica, iYLI647, foi recentemente reconstruído e empregado para encontrar reações-alvo que podem levar ao aumento da produção de ácido dodecanodioico [123]. Para isso, vários métodos de projeto de cepas in silico foram implementados usando iYLI647, incluindo (1) análise de atividade de fluxo (um método que examina os efeitos das mudanças nos fluxos de reação individuais em uma taxa de produção química alvo) [131] e a otimização de cepa baseada na transcriptômica ferramenta (tSOT) [132], os quais identificam alvos de superexpressão (2) projeto genético por pesquisa local (GDLS) [133], que é usado para identificar alvos de nocaute e (3) análise de modificação de cofator (CMA) [134], que identifica alvos de modificação de cofator. A aplicação de algoritmos como esses para redesenhar o metabolismo de uma cepa microbiana permite a identificação de alvos de manipulação de genes mais robustos e está se tornando uma prática essencial na engenharia metabólica.

Direcionamento de drogas em patógenos

Outra aplicação importante dos GEMs é prever a viabilidade de um organismo sob uma determinada condição. Esta abordagem de simulação foi utilizada para sugerir alvos metabólicos de drogas cuja inibição pode matar efetivamente um patógeno. O GEM de um patógeno alvo pode ser usado para prever genes essenciais (ou reações) [32, 135] e metabólitos essenciais [136, 137], cada um dos quais pode levar a uma estratégia diferente de descoberta de drogas. Um estudo recente usando GEMs sugeriu alvos de drogas em Plasmodium falciparum que são específicos para o estágio do ciclo de vida do patógeno causador da malária [124]. P. falciparum passa por um ciclo de vida complexo para se reproduzir [138]. Como cada estágio do ciclo de vida tem uma estrutura de rede metabólica diferente, é provável que diferentes alvos de drogas possam ser encontrados para cada estágio. Assim, os GEMs específicos do estágio de P. falciparum foram reconstruídos [124]. A integração de um GEM genérico com dados de transcriptoma e fisiologia específicos de estágio, como taxas de crescimento específicas de estágio e taxas de secreção de metabólitos, levou a cinco modelos específicos de estágio que representam o trofozoíto, esquizontes, gametócito inicial, gametócito tardio e oocineto (Fig. . 2c). A análise da essencialidade do gene dos GEMs específicos do estágio mostrou 71,2% de precisão em comparação com alvos de fármacos caracterizados experimentalmente (42 de 59 alvos de fármacos). O resultado da previsão indica que a qualidade do P. falciparum O GEM precisa ser melhorado ainda mais. Além disso, novos alvos de drogas além desses 59 alvos precisam ser identificados, especialmente novos alvos que são eficazes nos estágios proliferativos e tardios dos gametócitos. A modelagem específica do estágio do ciclo de vida e abordagens de simulação como esta serão importantes para o direcionamento de drogas em outros patógenos que exibem diferentes estágios de vida, mas esta abordagem requer a aquisição de dados ômicos específicos do estágio.

O direcionamento de drogas específicas para a condição usando GEM também foi conduzido para Acinetobacter baumannii [125], que é um dos seis patógenos ESKAPE (Enterococcus faecium, Staphylococcus aureus, Klebsiella pneumoniae, A. baumannii, Pseudomonas aeruginosa, e Enterobacter spp.) associada à resistência antimicrobiana [139]. Especificamente, uma versão atualizada do A. baumannii GEM, iLP844, foi reconstruído e transformado em GEMs específicos da condição por integração com dados do transcriptoma. Os dados do transcriptoma foram obtidos de células tratadas e não tratadas com colistina, um dos antibióticos de último recurso contra patógenos multirresistentes [125]. Os alvos de drogas específicas para a condição foram obtidos pela previsão de genes que são exclusivamente essenciais em células tratadas com colistina, e não homólogos a nenhum gene humano, de modo que possíveis efeitos colaterais no corpo humano sejam evitados (Fig. 2d). Deve-se notar que abordagens semelhantes também foram aplicadas para prever alvos de drogas para células humanas doentes, como cânceres [119, 140]. Uma vez que um GEM específico da condição é construído, os alvos de drogas podem ser previstos com relativa facilidade. Os desafios mais exigentes são validar os alvos experimentalmente e identificar drogas que podem efetivamente inibir os alvos previstos.

Previsão das funções enzimáticas

A análise rigorosa dos resultados da simulação de um GEM também permite a identificação de reações ou funções enzimáticas anteriormente não identificadas. Nesse contexto, dois estudos representativos demonstram como as GEMs podem ser usadas para desvendar funções adicionais de uma enzima. Um estudo focou em um conjunto de genes que foram mostrados em experimentos como não essenciais, mas que foram previstos como essenciais em uma simulação de essencialidade do gene do E. coli GEM iJO1366 (ou seja, houve uma previsão falso-negativa de crescimento celular Fig. 2e) [126]. Acredita-se que tais previsões falso-negativas sejam causadas pela presença de reações anteriormente não identificadas que tornam um gene não essencial essencial após seu nocaute in silico. Entre os genes "falso-negativos", aspC, argD, e gltA foram selecionados para validação experimental porque a análise de homologia de sequência identificou isoenzimas candidatas de alta confiança. O nocaute dos genes que codificam as isoenzimas potenciais revelou que a tirosina aminotransferase, que é codificada por TyrB, pode compensar a perda de aspartato aminotransferase, que é codificado por aspC (Fig. 2e). A mesma abordagem de nocaute também identificou isoenzimas potenciais que poderiam servir como enzimas de reação alternativas para aquelas codificadas por argD e gltA.

Em outro estudo, um novo método denominado PROmiscuity PrEdictoR (PROPER) [127] foi desenvolvido para identificar enzimas promíscuas em um organismo-alvo na escala do genoma. Para a implementação do PROPER, árvores de similaridade de genes foram construídas para todos os genes em E. coli usando BLAST Iterado Específico de Posição (PSI), que mostram seus genes homólogos do banco de dados SEED. As árvores de similaridade de genes foram usadas para gerar uma matriz que apresenta as funções promíscuas primárias e potenciais (ou seja, reações metabólicas) de E. coli enzimas codificadas pelos genes correspondentes. Finalmente, genes "substitutos" foram identificados na matriz, que têm uma função promíscua potencial que é idêntica à função primária de outro gene condicionalmente essencial (gene "alvo") em E. coli. Uma função promíscua potencial de um gene substituto pode ser validada se a expressão desse gene puder prevenir a morte celular após o nocaute do gene alvo. Entre os pares de genes substituto-alvo previstos usando o método PROPER e um E. coli GEM do Modelo SEED [93], o pdxBthiG par de genes foi validado experimentalmente (Fig. 2f). o pdxB gene é um gene condicionalmente essencial envolvido na biossíntese de piridoxal 5'-fosfato em E. coli, e serviu como um gene alvo neste estudo. o thiG gene, um gene substituto neste estudo, codifica 1-desoxi-d -xilulose 5-fosfato: tiol sulfurtransferase, uma enzima na via biossintética do tiazol, que mostrou biossintetizar piridoxal 5′-fosfato sem envolver a enzima codificada por pdxB.

Esses dois estudos demonstraram que um GEM de alta qualidade de um organismo-alvo permite a previsão de novas funções enzimáticas e promiscuidade enzimática, o que é extremamente útil porque nem todas as funções enzimáticas são validadas experimentalmente.

Análise pan-reatômica

Recursos computacionais para reconstrução GEM de alto rendimento estão permitindo agora a análise metabólica de múltiplos organismos, incluindo múltiplas cepas de uma única espécie [141, 142] ou múltiplas espécies de um único gênero [128, 129]. A análise de um pan-reatoma, um conjunto completo de reações, de organismos biologicamente relacionados usando GEMs fornece uma melhor compreensão das características metabólicas e estilos de vida desses organismos. Este conceito foi aplicado para estudar as características metabólicas de 410 Salmonella cepas, abrangendo 64 serovares, reconstruindo um GEM para cada cepa [128]. O pan-reatoma construído revelou que as diferenças metabólicas entre as cepas vêm do reatoma acessório, um conjunto de reações que estão presentes em apenas algumas cepas. Essas reações estiveram amplamente envolvidas no metabolismo alternativo do carbono e no metabolismo da parede celular ou da membrana. Em particular, as cepas podem ser distinguidas com base em suas diferentes capacidades catabólicas, analisando seu crescimento sob várias condições de nutrientes in silico (Fig. 2g). Uma investigação mais aprofundada das capacidades catabólicas específicas do sorovar ajudou a revelar os ambientes de crescimento que são preferidos pelo Salmonella serovares e forneceram informações sobre sua evolução. As ferramentas de reconstrução automática GEM definitivamente contribuíram para a análise do pan-reatoma e continuarão a ser aplicadas a vários grupos de organismos biologicamente relacionados de alta importância científica, industrial e / ou médica.

Na mesma linha, uma análise de pan-reatoma foi conduzida para fornecer informações sobre as características metabólicas de 24 Penicillium espécies que são bem conhecidas pela produção de metabólitos secundários [129]. A análise das 24 GEMs reconstruídas revelou que a maioria das reações envolvidas no metabolismo primário foram conservadas entre essas espécies. O agrupamento hierárquico subsequente dos 24 GEMs mostrou que as vias biossintéticas para metabólitos secundários foram as vias mais distintas na diferenciação dos clados metabólicos, e que essas vias contribuíram para a diversidade genômica dos 24 Penicillium espécies (Fig. 2h). A comparação dos clados metabólicos com os clados classificados filogeneticamente, baseados em sequências inteiras de proteínas para cada espécie, demonstrou que estratificar as espécies apenas pelo uso da árvore filogenética não poderia explicar totalmente as diferenças metabólicas entre as espécies. Esses estudos representativos demonstram que o uso de GEMs pode trazer descobertas biológicas adicionais sobre um grupo de organismos relacionados biologicamente. Em um futuro próximo, um procedimento de refinamento GEM automatizado usando dados experimentais irá melhorar muito a qualidade da análise de pan-reactome, que atualmente é conduzida principalmente usando draft GEMs.

Modelagem de interações entre várias células ou organismos

A modelagem de interações metabólicas entre várias células ou organismos também é uma aplicação importante de GEMs. Esta abordagem tem sido usada para vários estudos de interações intermicrobianas, incluindo a alimentação cruzada de microrganismos (ou a troca de metabólitos entre microrganismos) [92, 143, 144] e a trajetória evolutiva de comunidades microbianas [145]. Um estudo recente usando GEMs revelou que a secreção de metabólitos gratuitos contribui para o melhor crescimento de outros microrganismos interagindo e, finalmente, para uma maior diversidade taxonômica na natureza (por exemplo, em um ambiente pobre em nutrientes) [144]. Metabólitos sem custo foram definidos como aqueles que não afetam negativamente o custo de adequação do organismo produtor (isto é, taxa de crescimento) após a secreção [144]. O crescimento par a par das 24 espécies microbianas examinadas neste estudo foi simulado sob várias condições ambientais, envolvendo diferentes fontes de carbono e variando a disponibilidade de oxigênio, a fim de examinar os efeitos da alimentação cruzada dos microrganismos pareados em seu crescimento (Fig. 3a ) O número de meios que permitiam o crescimento de pelo menos um dos dois microrganismos aumentava substancialmente se a troca de metabólitos sem custo entre os microrganismos fosse permitida na simulação. Curiosamente, trocas bidirecionais mais frequentes entre os dois microrganismos e um maior número de metabólitos gratuitos foram observados em condições anaeróbias do que em condições aeróbias. Estas simulações in silico cuidadosamente projetadas usando GEMs permitiram a identificação de novos insights biológicos em interações intermicrobianas em uma escala que seria difícil de replicar experimentalmente.

Aplicações de GEMs para interações metabólicas interespécies e compreensão de doenças humanas. uma Simulação baseada em GEM dos efeitos de metabólitos gratuitos (ou seja, metabólitos que não têm efeitos na taxa de crescimento do organismo produtor) secretados por pelo menos um dos dois microorganismos emparelhados em seu crescimento sob condições anaeróbicas e aeróbicas [144]. O número de ambientes de suporte de crescimento aumentou como resultado da alimentação cruzada. b Predição dos metabólitos (por exemplo, ácidos graxos de cadeia curta [SCFAs]) necessários ou produzidos por quatro espécies representativas da microbiota intestinal, Escherichia sp., Akkermansia muciniphila, Subdoligranulum variabile, e Intestinibacter bartlettii, que são conhecidos por serem afetados pelo medicamento metformina para diabetes tipo 2 (T2D) [146]. c Predição dos metabólitos produzidos por espécies da microbiota intestinal de crianças desnutridas usando GEMs da comunidade que descrevem o metabolismo de múltiplas espécies da microbiota intestinal [147]. Os resultados da previsão foram consistentes com os perfis de metabólitos plasmáticos das crianças. d Predição da fotossíntese suprimida de uma planta de batata (Solanum tuberosum) após infecção pelo patógeno vegetal Phytophthora infestans, que desencadeia as respostas de defesa da planta contra o ataque de patógenos por meio da oxigenação da ribulose1,5-bifosfato (RuBP) e, subsequentemente, aumenta os níveis intracelulares de espécies reativas de oxigênio (ROS) [148]. A formação de gliceraldeído-3-fosfato (GAP) e amido também diminuiu como resultado da infecção. e Identificação de diferenças metabólicas entre células-tronco de câncer de fígado (LCSCs) e não-LCSCs, e dos fatores de transcrição responsáveis ​​pelas alterações metabólicas, usando GEMs integrados com dados de transcriptoma [149]. f Caracterização do metabolismo reprogramado das células do endotélio de pacientes com sepse usando um GEM de endotélio humano, iEC2812 [150]. GEMs de contexto específico foram criados usando dados de transcriptoma e metaboloma obtidos de células endoteliais da veia umbilical humana (HUVECs) tratadas com lipopolissacarídeo (LPS) e / ou interferon-γ (IFN-γ). A simulação dos GEMs específicos do contexto indicou que o aumento do metabolismo do glicano e dos ácidos graxos levou ao aumento da liberação de glicocálice e da permeabilidade endotelial onde havia inflamação endotelial. HPAEC célula endotelial da artéria pulmonar humana, HMVEC célula endotelial microvascular humana

Em um estudo envolvendo pacientes com diabetes tipo 2 tratados com a droga metformina [146] (Fig. 3b), o metabolismo de quatro espécies representativas da microbiota intestinal, Escherichia sp., Akkermansia muciniphila, Subdoligranulum variabile, e Intestinibacter bartlettii, foi examinado usando seus respectivos GEMs. Os GEMs foram obtidos a partir dos modelos AGORA. Após o tratamento com metformina, Escherichia sp., A. muciniphila, e S. variabile são conhecidos por serem enriquecidos no intestino, enquanto I. bartlettii é relatado para diminuir. Nos estudos de simulação, bactérias contribuintes ou concorrentes foram previstas através da simulação dos GEMs para ácidos graxos de cadeia curta (por exemplo, ácidos acético e butírico), aminoácidos e gases (por exemplo, H2, H2S e CH3SH), todos os quais desempenham papéis importantes nas interações metabólicas intermicrobianas e na regulação do metabolismo humano. Por exemplo, Escherichia sp. e S. variabile foram previstos para contribuir para a produção de ácidos graxos de cadeia curta em condições aeróbias e anaeróbias. Além disso, Escherichia sp. mostrou ser o menos afetado pela disponibilidade de nutrientes intestinais. Cobrir uma gama maior de microrganismos e os metabólitos trocados entre eles agregará mais valor científico aos estudos baseados em GEM de uma microbiota específica.

Nesse sentido, outro estudo recente também merece atenção. Kumar et al. [147] examinaram a produção de metabólitos pela microbiota intestinal em crianças com desnutrição usando GEMs para 58 espécies representativas da microbiota intestinal (Fig. 3c) [147]. Os GEMs para 58 espécies representativas da microbiota intestinal foram reconstruídos usando o Modelo SEED e, em seguida, usados ​​para examinar as diferenças metabólicas (ou seja, reações comuns e únicas) entre esses microrganismos. Modelos metabólicos comunitários (CMMs) também foram reconstruídos integrando os GEMs de espécies individuais da microbiota de acordo com a composição da microbiota intestinal. Cada CMM representa toda a espécie da microbiota intestinal de cada criança. A simulação dos CMMs revelou que a produção de aminoácidos essenciais pela microbiota intestinal das crianças desnutridas foi reduzida, o que era consistente com os perfis de metabólitos plasmáticos das crianças.O desenvolvimento de estratégias para o tratamento de condições anormais de saúde com base nas descobertas dos GEMs será um grande desafio para o futuro próximo.

A interação metabólica entre um hospedeiro e um patógeno é outro tipo importante de interação entre espécies que pode ser estudada usando GEMs [151]. Em um estudo recente, os efeitos da infecção do patógeno na capacidade fotossintética da planta hospedeira foram examinados usando GEMs [148]. Uma gema genérica da folha de uma planta de batata (Solanum tuberosum) foi reconstruído pela primeira vez, e três GEMs específicos de contexto foram subsequentemente criados pela incorporação de dados de transcriptoma das células de plantas que foram infectadas com Phytophthora infestans, um patógeno de planta que causa a requeima, nos dias 0, 1 e 2 após a infecção (Fig. 3d). Os três GEMs específicos ao contexto foram subsequentemente usados ​​sozinhos para inferir as interações metabólicas sem usar o GEM do patógeno. Prevê-se que a infecção por patógenos afeta os fluxos do ciclo de Calvin e, portanto, a fixação de carbono. Em particular, no dia 1 após a infecção, a atividade da carboxilase e as atividades da oxigenase da ribulose-1,5-bisfosfato carboxilase / oxigenase (RuBisCO), a primeira enzima comprometida com a fixação de carbono no ciclo de Calvin, foram previstas como diminuídas e aumentadas, respectivamente. Sabe-se que tais alterações reduzem a fotossíntese e, subsequentemente, induzem a produção de ROS, o que poderia estar associado a um rápido mecanismo de defesa contra o ataque de patógenos. Além disso, o fluxo de formação de gliceraldeído 3-fosfato na segunda parte do ciclo de Calvin, bem como o fluxo de biossíntese de amido (um indicador de saúde da planta), foi previsto para diminuir drasticamente do dia 0 ao dia 1, mas para se recuperar ligeiramente no dia 3. Estudos baseados em GEM de estratégias para proteger plantas contra patógenos examinando fluxos do ciclo de Calvin e outras vias, que indicam o estado de saúde de uma planta, serão de interesse.

A modelagem de interações entre várias células ou organismos, especialmente a microbiota, apresenta muitos desafios técnicos. Primeiro, as espécies microbianas que constituem uma microbiota específica não são totalmente elucidadas na maioria, senão em todos os casos. Isso explica em parte porque as comunidades microbianas cobertas pelos estudos descritos acima foram simplificadas ao considerar apenas espécies microbianas representativas. Assim, o uso de GEMs se tornará mais poderoso quando for possível identificar todas (ou pelo menos a maioria) as espécies microbianas em uma determinada comunidade. Por exemplo, microrganismos ou metabólitos chave em uma microbiota específica podem ser sugeridos mais sistematicamente examinando as interações metabólicas entre combinações mais variadas de microrganismos da microbiota. Aqui, vários algoritmos de modelagem e simulação além do FBA podem ser desenvolvidos, dependendo do objetivo do estudo e da escala da modelagem metabólica a ser examinada. Em segundo lugar, é extremamente difícil medir metabólitos que são trocados por espécies microbianas in vivo. As análises de metaboloma usando alimentos, fezes e / ou soro têm sido as abordagens mais frequentemente praticadas para caracterizar o metabolismo das espécies da microbiota, mas ainda têm limitações em revelar a troca de metabólitos por espécies microbianas in vivo. Esta questão levou a discussões ativas sobre a necessidade de identificar e aplicar restrições específicas de condições precisas para os GEMs de espécies da microbiota intestinal e conduzir a curadoria manual em nível de comunidade do GEM de cada espécie de microbiota intestinal [152, 153]. Finalmente, é muito importante informar aos microbiologistas experimentais como os GEMs da microbiota são reconstruídos, como os dados ômicos são usados ​​para melhorar os GEMs e para que os GEMs das espécies da microbiota podem ser usados. Tomados em conjunto, o desenvolvimento de técnicas experimentais e computacionais para a medição precisa de metabólitos in vivo e a comunicação adequada com microbiologistas experimentais permitirão uma melhor compreensão das interações micróbio-micróbio e hospedeiro-micróbio. Isso será importante porque as GEMs de espécies da microbiota tendem a apresentar previsões de fluxo que são frequentemente distintas daquelas de organismos modelo [152, 153].

Compreendendo as doenças humanas

Doenças humanas também foram estudadas usando GEMs específicos ao contexto para elucidar disfunções metabólicas em células que estão sob condições de doença crônica ou aguda e para sugerir alvos terapêuticos eficazes. Cânceres, incluindo cânceres de fígado [140, 154,155,156], mama [157], próstata [158], pulmão [159] e cólon-reto [160], têm sido o alvo mais ativo dos GEMs específicos ao contexto. Doenças crônicas, incluindo NAFLD [161] e obesidade [140], também foram examinadas usando GEMs de contexto específico. Em um estudo de Hur et al. [149], o metabolismo de LCSCs que mostraram resistência terapêutica no carcinoma hepatocelular foi investigado em comparação com não LCSCs pela construção de GEMs específicos de contexto para ambos os tipos de células usando seus dados de transcriptoma [149] (Fig. 3e). Ao identificar reações com fluxos que diferiam significativamente entre LCSCs e não LCSCs, fatores de transcrição que são conhecidos por estarem associados a essas reações foram rastreados. Como resultado, o MYC, um fator de transcrição que é importante na proliferação celular, entre outros fatores de transcrição, está fortemente envolvido no metabolismo alterado dos LCSCs. Esta previsão foi validada experimentalmente, fornecendo informações sobre o metabolismo reprogramado de LCSCs. Esta análise comparativa baseada em GEM, juntamente com o uso de dados ômicos relevantes, também é aplicável para explicar o metabolismo reprogramado de outros tipos de células cancerosas ou outras células anormais que representam condições de doença.

Outros estudos usaram GEMs para prever distribuições alteradas do fluxo metabólico intracelular em doenças agudas, como sepse [150] e infecção viral [162]. Em um estudo, o metabolismo reprogramado do endotélio em pacientes com sepse foi investigado (Fig. 3f) [150]. Um endotélio humano GEM, iEC2812, foi reconstruído e integrado com dados do transcriptoma para representar o metabolismo de três subtipos endoteliais: célula endotelial da artéria pulmonar humana (HPAEC), célula endotelial da veia umbilical humana (HUVEC) e célula endotelial microvascular humana (HMVEC). As estruturas de rede dos três GEMs específicos de contexto foram comparadas entre si para identificar diferenças metabólicas entre os três subtipos endoteliais, que ocorreram principalmente no metabolismo de nucleotídeos. Além disso, GEMs de contexto específico para HUVECs foram reconstruídos usando dados de transcriptoma e metaboloma, que foram obtidos de HUVECs tratados com lipopolissacarídeo (LPS) e / ou interferon-γ (IFN-γ). O tratamento das células endoteliais com LPS e IFN-γ desencadeia um estado celular semelhante ao observado na infecção bacteriana e durante uma resposta imune, respectivamente. Esses GEMs específicos ao contexto para os HUVECs tratados com LPS e IFN-γ previram fluxos elevados através do metabolismo do glicano e dos ácidos graxos, que aumentaram a liberação de glicocálice e a permeabilidade endotelial em pacientes com sepse.

As doenças humanas estão associadas a pistas altamente complexas e cascata de sinais e, portanto, o uso de simulações baseadas em GEM por si só pode fornecer apenas insights limitados sobre a doença. No futuro, uma série de estudos importantes precisam ser realizados para fornecer uma melhor compreensão das doenças humanas e para ajudar na concepção de terapias adequadas. Em primeiro lugar, além de uma rede metabólica, redes regulatórias e / ou de sinalização também devem ser consideradas para permitir uma descrição computacional mais precisa de uma célula doente. Esses diferentes tipos de rede biológica estão conectados uns aos outros de uma maneira altamente complexa. Assim, será necessário integrar redes metabólicas, de regulação gênica e de sinalização na modelagem e simulação. Isso exigirá uma estrutura computacional inovadora que permita a simulação simultânea do fluxo de materiais (rede metabólica) e do fluxo de informações (redes de regulação gênica e sinalização). Em segundo lugar, é cada vez mais reconhecido que uma série de doenças humanas são significativamente afetadas pelo estilo de vida dos pacientes. Assim, será necessário desenvolver estratégias para integrar GEMs humanos com uma estrutura de medicina de precisão que envolva não apenas dados ômicos específicos do paciente, mas também dados de estilo de vida pessoal, como hábitos alimentares e padrões de várias atividades físicas.


Desenvolvimentos futuros

Dados os investimentos necessários, qual é o custo da síntese de genes que podemos esperar atingir? Hoje, o custo da síntese de genes está na mesma ordem que o custo dos oligos sintetizados em coluna usados ​​em sua montagem. Se a síntese gênica mudou para oligos baseados em array, não há razões prima facie para que os custos não caiam em 3-5 ordens de magnitude para ficar no mesmo nível do custo dos pools de oligo (US $ 1 por 10 3-10 5 bp). Os benefícios provavelmente seriam tão dramáticos quanto os ganhos de produtividade devido ao NGS, porque o teste de hipóteses genéticas se tornaria tão simples quanto o projeto e as análises permitem. No entanto, os grandes investimentos privados que levaram a quedas massivas nos custos de circuitos integrados e sequenciamento de DNA foram amplamente motivados pela expectativa razoável para seus usos de nível de consumidor de base ampla: um processador em cada bolso e uma sequência do genoma para cada pessoa 136. Enquanto os mercados potencialmente maiores podem se beneficiar da síntese de genes baratos, incluindo os da agricultura, produtos químicos, enzimas, materiais e medicamentos, o DNA sintético serve apenas como uma ferramenta de pesquisa para o produto final (com a possível exceção das nanotecnologias de DNA).

Os esforços de biologia sintética em larga escala podem ajudar a aumentar a demanda o suficiente para estimular os investimentos? Mesmo em laboratórios de pesquisa acadêmica, o custo posterior do teste de construções biológicas individuais para função é frequentemente muito mais caro do que os custos das próprias construções sintéticas. Assim, a redução nos custos de síntese de genes não afetará tremendamente o rendimento e a escala dos fluxos de trabalho experimentais atuais. No entanto, os tipos de experimentos realizados também podem mudar significativamente. Um dado a ser considerado ocorreu há uma década, quando os microarranjos foram utilizados pela primeira vez para obter oligo pools baratos. Embora os relatórios iniciais tenham usado esses pools como substitutos de plug-in para oligos sintetizados em coluna, os pesquisadores rapidamente se adaptaram a essa capacidade sintética aumentada, usando ferramentas de bioinformática poderosas para projetar grandes bibliotecas de oligos sintéticos e ensaios multiplexados baseados em NGS para medir suas consequências funcionais simultaneamente. Isso recentemente levou a muitos experimentos frutíferos em escalas que apenas alguns anos atrás seriam inimagináveis ​​para um investigador individual. Da mesma forma, a síntese de genes baratos provavelmente mudará a forma como usamos genes sintéticos por meio do desenvolvimento de ferramentas de design poderosas para bibliotecas de genes, caminhos e genomas, bem como ensaios multiplexados baratos para medir ou selecionar sua função. Esses novos paradigmas experimentais podem gerar um uso muito maior de genes sintéticos do que se imagina atualmente. O progresso inicial descrito nesta revisão garante otimismo e, com sorte, demanda e investimento suficientes para gerar grandes avanços em nossa capacidade de projetar, construir, testar e analisar hipóteses e projetos biológicos.


Outras aplicações da bioinformática

Além da análise de dados de sequência do genoma, a bioinformática agora está sendo usada para uma vasta gama de outras tarefas importantes, incluindo análise de variação e expressão de genes, análise e previsão de estrutura e função de genes e proteínas, previsão e detecção de redes de regulação de genes, simulação ambientes para modelagem de células inteiras, modelagem complexa de redes e dinâmicas regulatórias de genes e apresentação e análise de vias moleculares para entender as interações gene-doença. 16 Embora em uma escala menor, as tarefas bioinformáticas mais simples valiosas para o pesquisador clínico podem variar desde o projeto de primers (sequências curtas de oligonucleotídeos necessárias para a amplificação do DNA em experimentos de reação em cadeia da polimerase) até a previsão da função de produtos gênicos.


Uma comparação das principais tecnologias & # x0201COmics & # x0201D

A engenharia biológica requer a previsão precisa do fenótipo a partir do genótipo. Assim, testar e validar genomas modificados e sintetizados (ou seja, genômica), bem como o estudo do transcriptoma (o conjunto completo de transcritos de RNA), que é expresso a partir do genoma (ou seja, transcriptômica), são cruciais para avaliar a engenharia do genoma. A proteômica e a metabolômica também ganharam muita atenção devido ao fornecimento de informações metabólicas relativas à função e ao fenótipo (Baidoo, 2019). Quarenta anos atrás, os cientistas perceberam que o fluxo de informações bioquímicas em sistemas biológicos não é unidirecional do genoma para o metaboloma, mas sim um conjunto de interações entre os & # x0201Comes & # x0201D (Roberts et al., 2012). Portanto, uma abordagem multimômica é necessária para a elucidação da estrutura química, função, desenvolvimento, adaptação e evolução dos sistemas biológicos para uma compreensão mais profunda dos princípios da vida (Baidoo, 2019) (Figura 1).

figura 1. Uma visão geral do fluxo de informações moleculares de genes para metabólitos para função e fenótipo, e as interações entre as técnicas & # x0201Comes & # x0201D e & # x0201Comics & # x0201D usadas para medi-los.

Em comparação com metabólitos e proteínas, os genes são menos heterogêneos quimicamente. Cada gene é feito de DNA composto por apenas quatro nucleotídeos básicos (ou seja, guanina, adenina, citosina e timina), enquanto cada proteína é composta por uma mistura de 32 aminoácidos, enquanto os metabólitos são muito mais variáveis ​​em suas estruturas químicas (Wang et al., 2010). Portanto, é analiticamente menos desafiador realizar genômica e transcriptômica, quando comparada à proteômica e metabolômica (Aizat et al., 2018). Consequentemente, a genômica e a transcriptômica fornecem as plataformas mais abrangentes e robustas para aplicações de biotecnologia. Nas últimas décadas, a pesquisa mostrou que a genômica e a transcriptômica não podem fornecer apenas uma descrição completa de sistemas biológicos complexos, pois a informação genética pode produzir mais perguntas do que respostas. Por exemplo, a genômica pode descrever genes e suas interações (medir o genótipo), mas não pode explicar os fenótipos. Assim, a atenção se volta para a utilização de outras técnicas de & # x0201Comics & # x0201D, como proteômica e metabolômica, que podem preencher a lacuna entre o potencial genético e o fenótipo final para facilitar uma maior compreensão dos sistemas biológicos (Smith e Figeys, 2006 Wilmes et al., 2015). Enquanto a transcriptômica (transcrição) e proteômica (tradução) fornecem informações sobre a expressão gênica, a última liga diretamente o genótipo ao fenótipo. Além de fornecer informações fenotípicas, o metaboloma fornece uma resposta instantânea a perturbações genéticas e / ou ambientais e, portanto, fornece um instantâneo do estado metabólico e fisiológico real de uma célula (Tang, 2011). No entanto, a metabolômica sozinha não é capaz de medir as mudanças no nível do gene e correlacioná-las com as propriedades observáveis ​​dos organismos, os fenótipos, que são produzidos pelo genótipo em primeiro lugar (Fiehn, 2001). Portanto, uma compreensão abrangente de um organismo em um nível molecular requer a integração de dados & # x0201Comics & # x0201D para descobrir novas moléculas e caminhos (Wang et al., 2010) (Figura 1). A integração dos dados & # x0201Comics & # x0201D ajuda a avaliar o fluxo de informações de um nível & # x0201Comics & # x0201D para o outro e, portanto, liga o genótipo ao fenótipo (Subramanian et al., 2020). Além disso, a combinação de técnicas de & # x0201Comics & # x0201D é importante para abordar questões biológicas abertas (ou seja, pesquisa orientada a dados) que aceleram nossa compreensão do sistema como um todo e impulsionam o uso de ferramentas de engenharia metabólica de sistemas em ambientes industriais (Zhao et al., 2020).

Genômica e Transcriptômica

A construção de fenótipos previsíveis e preferidos é crucial na biologia sintética, portanto, o controle rígido e ajustável da expressão gênica é altamente desejável. Além disso, a engenharia biológica está se beneficiando muito das recentes inovações em tecnologias de genômica e edição de genoma, que oferecem ferramentas avançadas para reprojetar sistemas naturalmente evoluídos e também construir novos sistemas. Além disso, os avanços em de novo síntese e na Vivo o direcionamento de genes permite o teste eficiente de hipóteses baseadas em modelos. Além disso, a genômica permite o sequenciamento de DNA de alto rendimento e modelagem bimolecular em grande escala de redes metabólicas e de sinalização em cepas naturais e modificadas (Pagani et al., 2012).

Análise Genômica e Transcriptômica

Um dos desafios enfrentados pela genômica tradicional (e outras análises de & # x0201Comics & # x0201D) é que nem todos os microrganismos podem ser cultivados em um ambiente de laboratório. Além disso, as cepas isoladas podem se comportar de maneira diferente na cultura do que em seus ambientes naturais. Portanto, havia uma necessidade urgente de desenvolver métodos independentes de cultivo para estudar comunidades microbianas (VerBerkmoes et al., 2009). A metatranscriptômica pode revelar a diversidade de genes ativos dentro de comunidades microbianas (por exemplo, sequenciamento de 16S rRNA para reconstruir filogenias) (Bashiardes et al., 2016).

A metagenômica estuda a estrutura e função do material genético em amostras complexas de vários organismos, bem como de comunidades microbianas inteiras sem uma etapa de cultivo e pode oferecer uma solução para tais desafios e facilitar a descoberta de novos genes, enzimas e vias metabólicas. As análises metagenômicas são classificadas como triagem baseada em sequência e baseada em função, que são usadas para descobrir e identificar, respectivamente, novos genes naturais e compostos de amostras ambientais (Chistoserdova, 2010 Gilbert e Heiner, 2015 Kumar Awasthi et al., 2020). Por exemplo, a metagenômica é ativamente usada na pesquisa agrícola para compreender as comunidades microbianas no sistema do solo (Durot et al., 2009), para examinar vários micróbios que podem estimular a ciclagem de macro e micronutrientes e a liberação de nutrientes essenciais enzimas, que aumentam a produção agrícola (Cupples, 2005).

Os sequenciadores nanopore são tecnologias de sequenciamento maciçamente paralelas. Oxford Nanopore Technologies (ONT), em particular, fornece um sequenciador de molécula única usando um nanopore de proteína que realiza sequenciamento direto sem síntese ou amplificação de DNA (Brown e Clarke, 2016 Roumpeka et al., 2017). O sequenciador ONT pode determinar modificações de DNA / RNA e sequenciar uma leitura ultralonga limitada pelo comprimento de nucleotídeo de entrada (Kono e Arakawa, 2019). No entanto, as leituras ONT requerem polimento e muito cuidado deve ser tomado quando contigs são polidos individualmente para evitar a remoção da diversidade de sequência natural verdadeira devido ao mapeamento cruzado de leituras em regiões repetidas. Portanto, verificou-se que é crucial aplicar tecnologias de informação de longo alcance (por exemplo, genômica 10x, Hi-C, leituras longas sintéticas) e desenvolver novos algoritmos para simplificar o extenso fluxo de trabalho de montagem e polimento (Somerville et al., 2018 )

Sort-seq é uma plataforma de sequenciamento de célula única, que combina citometria de fluxo, classificação de células ativadas por fluorescência binned (FACS), sequenciamento de última geração (NGS) e inferência estatística para quantificar a faixa dinâmica de muitas variantes de biossensores em paralelo (Rohlhill et al., 2017 Batrakou et al., 2020 Koberstein, 2020). O FACS, que permite a classificação de células individuais, permite o enriquecimento de células específicas para gerar expressão gênica de alta resolução e mapas transcricionais (Kambale et al., 2019). As tecnologias de sequenciamento de NGS e RNA (RNA-seq) permitem o sequenciamento de DNA e RNA em grande escala de todo o genoma e transcriptoma, respectivamente, fornecendo uma visão imparcial e abrangente dos sistemas biológicos para a compreensão da função genômica (Frese et al., 2013 Alfaro et al., 2019 Stark et al., 2019). Exemplos de plataformas NGS incluem Illumina HiSeq, Genome Analyzer Systems, 454 Genome Sequencer FLX Titanium System, Helicos HeliScope, a plataforma de sequenciamento SOLiD e a plataforma de sequenciamento Ion Torrent. Além disso, existem outras técnicas utilizadas para medir a interação entre proteínas e DNA, como a imunoprecipitação da cromatina (ChIP). ChIP seguido por sequenciamento NGS (ChIP-seq) tem alto potencial para detalhar os locais de ligação de vários fatores de transcrição e ensaio de interação de proteína & # x02013DNA em um nível de genoma completo (Roukos, 2012).

Bar-seq (análise de código de barras por sequenciamento) é outra técnica de sequenciamento de DNA quantitativo de alto rendimento que permite a fenotipagem paralela de pools de milhares de mutantes e o monitoramento de milhares de interações químicas do gene (Smith et al., 2010 Robinson et al., 2014 ) Técnicas como bar-seq podem diminuir a complexidade dos dados obtidos a partir de um grande número de leituras de sequência, tornando o NGS mais eficiente e acessível (Smith et al., 2009).

Novas ferramentas computacionais permitiram aos pesquisadores realizar análises rápidas e precisas de grandes dados genômicos. As informações genômicas extraídas foram usadas para modelar processos metabólicos e redes de sinalização em toda a célula, gerando muitas novas hipóteses testáveis ​​(Lewis et al., 2012, Esvelt e Wang, 2013). Devido à robustez das medições genômicas, existem inúmeros bancos de dados genômicos e ferramentas de análise de dados disponíveis (Roumpeka et al., 2017).

Proteômica

A proteômica se concentra na análise de proteínas e peptídeos produzidos por células em diferentes estágios de desenvolvimento e ciclo de vida e em sistemas biológicos sob uma determinada condição de crescimento. A proteômica também é usada para elucidar a dinâmica temporal dos níveis de expressão de proteínas ou modificação pós-tradução (PTM) (VerBerkmoes et al., 2009).

Preparação de amostra proteômica

A alta diversidade e complexidade da amostra biológica e a faixa dinâmica dos níveis de proteína presentes em tais amostras são os principais desafios que a proteômica encontra. Esses fatores, além do grande número de proteínas, dificultam a análise de proteínas de baixa abundância. O desenvolvimento de fluxos de trabalho automatizados de preparação de amostras está se tornando mais comum para ensaios proteômicos quantitativos de alto rendimento de micróbios. Um fluxo de trabalho automatizado foi capaz de quantificar & # x0003E600 peptídeos com um coeficiente de variação mediano de 15,8%, demonstrando a robustez desta abordagem (Chen et al., 2019). Outro fluxo de trabalho automatizado de alto rendimento foi desenvolvido para aumentar o rendimento de lise de vários microrganismos bacterianos e eucarióticos representativos por meio de batimento vigoroso de esferas com sílica e esferas de vidro na presença de detergentes (Hayoun et al., 2019). Curiosamente, um protocolo de preparação de amostra universal, de alto rendimento e sem detergente foi desenvolvido este ano para a geração de peptídeos de vários micróbios [ou seja, Escherichia coli (E. coli), Staphylococcus aureus e Bacillus cereus] O protocolo tem o potencial de simplificar drasticamente e padronizar a preparação da amostra, melhorando a profundidade da cobertura do proteoma, especialmente para amostras desafiadoras (Doellinger et al., 2020).

Aquisição de dados proteômica

Identificação de proteínas e elucidação estrutural

A maioria dos fluxos de trabalho de proteômica é baseada em uma abordagem de baixo para cima, onde a proteína é extraída, digerida (por exemplo, digestão com tripsina) em peptídeos proteolíticos e, em seguida, analisada via MS (Kleiner et al., 2017). Quando a cromatografia líquida é acoplada à espectrometria de massa (LC-MS), as análises de dados qualitativos e quantitativos de proteínas são aprimoradas. Além disso, a aplicação de separação LC multidimensional antes da análise de proteína MS fornece sensibilidade MS aprimorada, reduzindo a complexidade da amostra e aumentando o número de picos cromatográficos que podem ser resolvidos em uma única execução analítica (Hinzke et al., 2019 Duong et al., 2020 ) Proteômica direcionada via LC-tandem MS (LC-MS / MS) é um método de MS comumente usado, em que a análise se concentra em um subconjunto de proteínas biológicas de interesse (Marx, 2013). Quando uma abordagem ascendente é aplicada a todas as proteínas dentro de um determinado sistema biológico, ela é chamada de proteômica shotgun (não direcionada) (Wolters et al., 2001 Nesvizhskii e Aebersold, 2005). A proteômica top-down, por outro lado, é baseada na análise (via LC-MS ou LC-MS / MS) de proteínas intactas e, portanto, fornece informações exclusivas sobre a estrutura molecular das proteínas (por exemplo, PTM) (Catherman et al. , 2014). No entanto, nem sempre é possível separar proteínas intactas, especialmente proteínas grandes, antes da análise de MS em uma abordagem de cima para baixo. Além disso, de cima para baixo é menos sensível e tem um rendimento mais baixo do que uma abordagem de baixo para cima (Catherman et al., 2014).

A determinação precisa da estrutura da proteína ajuda a definir seus papéis e funções nos sistemas biológicos. No entanto, muitas proteínas dobradas têm estruturas complexas, o que complica sua elucidação estrutural (Yates, 2019). Portanto, a microscopia eletrônica criogênica e a mobilidade iônica-MS são utilizadas para determinar as estruturas de tais proteínas (Yates, 2019). Além disso, uma combinação de MALDI, MS de alta resolução (ou seja, orbitrap e armadilha de íons MS) e um ensaio de redução com base em UV & # x02013Vis é usado para elucidar a modificação de peptídeo por meio da análise de fragmentação específica de peptídeos sintetizados, que podem ter efeitos inibitórios sobre várias doenças (R & # x000FChl et al., 2019).

A identificação de peptídeos PTM pode ser difícil no caso de modificações lábeis (por exemplo, fosforilação e S-nitrosilação) que podem quebrar durante a fragmentação de MS / MS. Essas modificações requerem fragmentação suave e métodos de alta resolução para identificar e determinar a localização de um PTM. A dissociação de transferência de elétrons é considerada a escolha favorável para a identificação de PTM responsável, pois transfere elétrons para proteínas ou peptídeos multiprotonados, o que leva à clivagem da ligação de backbone N-C & # x003B1 (Chen et al., 2017).

Metaproteômica é a caracterização em grande escala de todo o complemento protéico da microbiota ambiental em um determinado ponto no tempo para determinar a estrutura (Wilmes e Bond, 2004 Kleiner et al., 2017), metabolismo e fisiologia dos componentes da comunidade (Kleiner et al., 2012). O recente avanço em LC e MS de alta resolução permitiu a identificação e quantificação de mais de 10.000 peptídeos e proteínas por amostra em metaproteômica (Kleiner, 2019). A metaproteômica também pode medir as interações entre os componentes da comunidade (Hamann et al., 2016) e avaliar o consumo de substrato (Bryson et al., 2016 Kleiner et al., 2018).

Quantificação de Proteína

Além da identificação, as tecnologias baseadas em MS tornaram-se as ferramentas de escolha para a quantificação de proteínas em um organismo (Karpievitch et al., 2010). A rotulagem de isótopos estáveis ​​é uma abordagem que pode ser usada para quantificar proteínas medindo a abundância relativa de proteína rotulada em relação à proteína não rotulada (VerBerkmoes et al., 2009). No entanto, a variação na eficiência de ionização entre os peptídeos e proteínas e a baixa recuperação de alguns peptídeos (por exemplo, peptídeos hidrofóbicos aderem às superfícies) podem afetar a precisão de sua quantificação direta. Avanços recentes na taxa de aquisição, detecção e resolução de MS abordaram muitas das preocupações de sensibilidade da quantificação baseada em MS para proteômica (Iwamoto e Shimada, 2018). A sensibilidade de MS foi ainda mais aprimorada com a aplicação de micro-fluxo (Krisp et al., 2015 Bian et al., 2020) e nano-fluxo (Wilson et al., 2015) LC-MS. Outro grande avanço para a quantificação global de proteínas foi a introdução de marcadores isobáricos ou proteômica multiplexada, que em um único experimento permite a quantificação de proteínas em várias amostras (Pappireddi et al., 2019). Os marcadores de massa em tandem são exemplos de marcadores isobáricos comumente usados, por exemplo, em fluidos cerebroespinhais humanos (Dayon et al., 2008).

Análise de dados proteômica

Ferramentas de análise de dados de proteômica são geralmente usadas para identificação e quantificação de proteínas (via bioinformática), e ferramentas de técnicas de bioinformática usadas para processar os dados de proteômica. Alguns exemplos de ferramentas de análise de dados que são usadas para a identificação de peptídeos e proteínas incluem Mascot (Eng et al., 1994), Swiss-Prot (Bairoch e Boeckmann, 1994), Sequest (Perkins et al., 1999), Tandem (Craig e Beavis, 2004), Skyline (MacLean et al., 2010), Uni-Prot, 1 UniNovo (Jeong et al., 2013) e SWPepNovo (Li et al., 2019). Esse software baseado em algoritmo foi desenvolvido para combinar os dados coletados por MS da análise de peptídeo / proteína com seus peptídeos / proteínas de base e com em sílico predisse massas intactas e padrões de fragmentação (Urgen Cox e Mann, 2011). Além disso, eles determinam a massa e a localização exata de quaisquer modificações possíveis (Hansen et al., 2001 Savitski et al., 2006). Ferramentas de técnicas de bioinformática comuns para análise de dados proteômicos incluem CRONOS (Waegele et al., 2009), COVAIN (Sun e Weckwerth, 2012), SIGNOR (Perfetto et al., 2016), KEGG (Kanehisa et al., 2017) e STRING v11 (Szklarczyk et al., 2019).

Metabolômica

Metabolômica, que é a medição de substratos de moléculas pequenas, intermediários e / ou produtos finais do metabolismo celular (ou seja, metabólitos), fornece uma resposta imediata e dinâmica a perturbações genéticas e / ou ambientais em um sistema biológico (Fiehn, 2002 Ellis e Goodacre , 2012 Zhao et al., 2020). Metabolômicas direcionadas e não direcionadas são usadas para quantificar um grupo de metabólitos definidos e determinar todos os metabólitos mensuráveis ​​em uma amostra biológica, respectivamente (Scalbert et al., 2009). A metabolômica baseada em MS, como a proteômica, normalmente emprega separação [por exemplo, LC e cromatografia gasosa (GC)] ou eletroforese capilar (CE) antes da detecção de MS (Fiehn, 2002). Considerando que, MALDI-MS conduz a triagem de alto rendimento sem separação.

A espectroscopia de ressonância magnética nuclear (NMR) é uma técnica analítica poderosa para impressão digital metabólica de alto rendimento e fornece identificação de estrutura metabólica mais confiável (por exemplo, via NMR 2D) do que MS (Giraudeau, 2020). No entanto, embora o NMR ofereça determinação inequívoca da estrutura de metabólitos desconhecidos por meio de 1 H- e 13 C-NMR, os métodos baseados em MS compreendem técnicas metabolômicas amplamente acessadas devido à maior sensibilidade e menor custo de instrumentação (Chatham e Blackband, 2001). Além disso, NMR é semiquantitativo enquanto MS é quantitativo, portanto, NMR e MS são técnicas altamente complementares. Além disso, as diversas propriedades físico-químicas (por exemplo, solubilidade, reatividade, estabilidade e polaridade) do metaboloma limitam nossa capacidade de analisar todos os metabólitos de um sistema biológico com um único ou mesmo um conjunto limitado de técnicas analíticas (Fiehn, 2002) . Portanto, vários métodos são usados ​​para caracterização abrangente do metaboloma.

Preparação de Amostras Metabolômicas

Os metabolitos estão constantemente passando por reforma e transformação em reações bioquímicas dentro de uma célula e / ou sendo termicamente degradados (e em alguns casos oxidados) nas condições ambientais (Scalbert et al., 2009). Portanto, protocolos de extinção metabólica rápidos e eficientes são necessários para quantificar com precisão as informações metabólicas. Não surpreendentemente, os pesquisadores tendem a desenvolver métodos de inibição metabólica em conjunto com os protocolos de extração de metabólitos. Doran et al. (2017), por exemplo, propôs uma extinção metabólica de base ácida para extração de metabólito de álcool aquoso. Este protocolo rendeu baixo vazamento de metabólitos e alta recuperação de extração em Acidithiobacillus ferrooxidans. Matrizes de amostras biológicas complexas também podem suprimir a detecção de MS de metabólitos. Assim, estratégias de limpeza, como extração em fase sólida (SPE) e microextração em fase sólida (SPME) podem reduzir a complexidade das matrizes de amostra antes da análise LC-MS e GC-MS, aumentando assim a capacidade quantitativa dos métodos metabolômicos ( Yang et al., 2011). Os últimos 5 anos testemunharam o desenvolvimento de SPE de placa de 96 poços de alto rendimento (Li et al., 2015) e SPME automatizado de 96 poços (Mousavi et al., 2015) para a extração simultânea de metabólitos e lipídios de amostras biológicas.

Além disso, ferramentas de robótica e microfluídica podem ser aplicadas a aplicações de biologia sintética de alto rendimento, automatizando a preparação de células e extração de metabólitos para aumentar a cobertura (Yizhak et al., 2010 Koh et al., 2018 Vavricka et al., 2020). As tecnologias automatizadas de tratamento de líquidos, portanto, são importantes para a preparação de amostras de alto rendimento, pois garantem boa qualidade e reprodutibilidade da extração e processamento de amostras para medição imparcial de diferenças metabólicas (por exemplo, com base em estados de doença ou estímulos de intervenções) (Liu et al., 2019).

Aquisição de dados metabolômicos

O desenvolvimento de nanoeletrospray-ionização e infusão direta de nanoeletrospray MS de alta resolução levaram a um aumento considerável na faixa dinâmica e sensibilidade de detecção de metabólitos de tecidos e biofluidos em estudos humanos (Chekmeneva et al., 2017 Southam et al., 2017) . Geralmente, a tecnologia de nanospray é mais sensível do que o eletrospray, mas apresenta baixa robustez. No entanto, o nanoeletrospray emprega baixo nível de nebulização e taxa de fluxo para atingir alta sensibilidade sem comprometer a robustez (Guo et al., 2016). Além disso, a aplicação de mobilidade iônica e MS de alta resolução melhorou a identificação de isômeros, permitindo uma avaliação mais precisa de seus papéis biológicos (Ren et al., 2018 Rathahao-Paris et al., 2019). Além disso, novos desenvolvimentos em sistemas orbitrap MS melhoraram a anotação e cobertura de metabólitos em estudos de GC e LC-MS (Simirgiotis et al., 2017 Misra et al., 2018 Manier et al., 2019 Stettin et al., 2020).

Embora o GC-MS exija mais etapas de preparação da amostra ao derivatizar metabólitos não voláteis hidrofílicos, ele é mais robusto do que o LC-MS. Além disso, o desenvolvimento do método é mais fácil para GC-MS do que para LC-MS. O GC-MS também consegue uma melhor identificação de metabólitos não direcionados devido às condições de ionização padronizadas, o que possibilita a criação de uma biblioteca / banco de dados universal de identificação de compostos, como o NIST. Enquanto o CE atinge a mais alta eficiência de separação, o CE-MS é o menos robusto e sensível das três técnicas de separação.

A metabolômica em tempo real permite a análise simultânea e de alto rendimento de metabólitos microbianos sem a necessidade de etapas demoradas de preparação de amostra (Link et al., 2015 Boguszewicz et al., 2019 Nguyen et al., 2020). No entanto, a falta de separação cromatográfica ou eletroforética nesta abordagem reduz a capacidade quantitativa desta técnica (Baidoo e Teixeira Benites, 2019). Enquanto o MALDI pode ser usado para triagem de metabólitos de alto rendimento, o MALDI imaging MS surgiu como uma ferramenta poderosa para analisar espécimes de tecido em um detalhe sem precedentes. MALDI imaging MS fez contribuições significativas para a compreensão da biologia da doença e suas perspectivas para a pesquisa e prática em patologia, bem como em estudos farmacêuticos (Aichler e Walch, 2015 Mahajan e Ontaneda, 2017 Schulz et al., 2019).

As tecnologias de metabolômica são regularmente aplicadas aos estudos de análise de fluxo metabólico (MFA, ou seja, 13 C) (Baidoo e Teixeira Benites, 2019). MFA determina as taxas de na Vivo reações metabólicas. Assim, possibilitando uma compreensão do fluxo de carbono e energia em toda a rede metabólica de uma célula. No geral, o MFA acelera a descoberta de novas vias metabólicas e enzimas para uma bioprodução sintética melhorada (Feng et al., 2010 Ando e Garc & # x000EDa Mart & # x000EDn, 2019 Babele e Young, 2019 Vavricka et al., 2020). No entanto, a disponibilidade e o alto custo de compostos de isótopos estáveis ​​podem limitar a capacidade de MFA (Gonzalez e Pierron, 2015).

Análise de dados metabolômicos

Métodos de análise de dados multivariados, como análise de componente principal (PCA) e análise de mínimos quadrados parciais (PLS), são usados ​​para analisar grandes quantidades de dados de perfil metabólico (ou seja, revelar agrupamento com base em características). Além disso, há uma necessidade de ferramentas de análise de vias avançadas para interpretar dados metabolômicos para resolver alguns dos paradoxos biológicos mais desafiadores e revelar condições ideais para sistemas biológicos. Tais técnicas permitem que pesquisadores de biologia de sistemas utilizem dados metabolômicos como um recurso que contribui para um ciclo iterativo de geração de hipóteses e fases de teste de hipótese (Kell, 2004 Vavricka et al., 2020). Para resolver tudo isso, mais atenção está sendo dada à área de big data e aprendizado de máquina. Assim, a compreensão do estado da arte do metabolismo celular pode ser melhorada e ainda combinada com modelos mecanísticos para automatizar a biologia sintética e a biofabricação inteligente (Oyetunde et al., 2018). Para este fim, avanços recentes em ferramentas de metabolômica para análise, armazenamento e compartilhamento de dados foram desenvolvidos [por exemplo, WebSpecmine (Cardoso et al., 2019), SIRIUS 4 (D & # x000FChrkop et al., 2019), MetaboAnalyst 4.0 (Chong et al., 2018) e SECIM (Kirpich et al., 2018)]. O conhecimento da biologia (por exemplo, regulação, metabolismo, fisiologia, etc.) ainda é, no entanto, necessário para um projeto experimental eficiente e interpretação precisa dos dados, a fim de compreender e caracterizar com precisão os sistemas biológicos.

Multi-Omics para Biologia de Sistemas

O recente avanço nas tecnologias de ômicas melhorou a eficiência da análise, reduzindo custo e tempo, mas também coletando dados multimídia informativos e significativos. Desta forma, facilitando a implementação de técnicas multiômicas em estudos de biologia de sistemas. No entanto, a integração de plataformas multi-omics ainda é um desafio contínuo devido às suas diferenças de dados inerentes (Saito e Matsuda, 2010 Yizhak et al., 2010 Brunk et al., 2016 Koh et al., 2018 Pinu et al., 2019 Vavricka et al., 2020). Por exemplo, os dados genômicos são qualitativos, precisos e reproduzíveis, enquanto outros dados de & # x0201Comics & # x0201D, como proteômica e metabolômica, são qualitativos e quantitativos, não tão reprodutíveis e barulhentos (Kuo et al., 2002 MacLean et al., 2010 Guo et al., 2013 Gross et al., 2018). Além disso, os dados multiômicos são normalmente pré-tratados por vários métodos de tratamento de dados (por exemplo, deconvolução, normalização, dimensionamento e transformação) e software antes de serem integrados.Os estudos de multimídia também exigem especialistas em seus respectivos campos de & # x0201Comics & # x0201D (bem como suporte de TI) para validar os dados de multimídia. Embora isso forneça maior precisão de interpretação de dados, no entanto, complica a aquisição e análise de dados.

Recentemente, Pinu et al. discutiram algumas recomendações para superar o grande desafio enfrentado pela implementação de técnicas multimômicas em biologia de sistemas, que são as diferenças entre seus dados inerentes. O objetivo de suas recomendações é conscientizar os pesquisadores sobre a importância de se ter um projeto experimental adequado em primeiro lugar. Portanto, as amostras biológicas apropriadas devem ser cuidadosamente selecionadas, preparadas e armazenadas antes de planejar qualquer estudo & # x0201Comics & # x0201D. Posteriormente, os pesquisadores devem coletar cuidadosamente os dados multiômicos quantitativos e os metadados associados e selecionar as melhores ferramentas para integração e interpretação dos dados. Finalmente, desenvolva novos recursos para a deposição de conjuntos de dados multiômicos intactos (Pinu et al., 2019). Também é necessário selecionar ou desenvolver métodos que mantenham o equilíbrio ideal entre alta recuperação e baixa degradação das características biológicas extraídas.

À medida que os cientistas estão se tornando mais conscientes da importância da análise multimídia, uma série de ferramentas, bancos de dados e métodos estão sendo desenvolvidos com o objetivo de integrar conjuntos de dados multimídia. Essas ferramentas executam estatísticas avançadas (por exemplo, análise de dados multivariada) e ilustração de dados (por exemplo, mapas de correlação). Exemplos de bancos de dados usados ​​para análise multi-omics incluem ECMDB 2.0 (Sajed et al., 2016), Saccharomyces Genome Database (MacPherson et al., 2017), YMDB 2.0 (Ramirez-Gaona et al., 2017), GenBank (Benson et al., 2013), KEGG (Kanehisa e Subramaniam, 2002) e muitos outros. Uma revisão recente de Subramaniam et al. mostraram que ferramentas multiômicas comuns de integração e interpretação de dados foram capazes de derivar novos insights de dados, conduzir subtipagem de doenças e obter previsão de biomarcadores diagnósticos (Subramanian et al., 2020).

A Tabela 1 fornece uma comparação abrangente das principais tecnologias de & # x0201Comics & # x0201D. O objetivo desta comparação é facilitar o projeto experimental de estudos individuais de & # x0201Comics & # x0201D e multimídia, destacando as características gerais de cada tecnologia.

tabela 1. Uma comparação das principais técnicas de & # x0201Comics & # x0201D.


10.3: Métodos de genoma completo e aplicações industriais - Biologia

Todos os artigos publicados pela MDPI são disponibilizados imediatamente em todo o mundo sob uma licença de acesso aberto. Nenhuma permissão especial é necessária para reutilizar todo ou parte do artigo publicado pela MDPI, incluindo figuras e tabelas. Para artigos publicados sob uma licença Creative Common CC BY de acesso aberto, qualquer parte do artigo pode ser reutilizada sem permissão, desde que o artigo original seja claramente citado.

Os artigos de destaque representam a pesquisa mais avançada com potencial significativo de alto impacto no campo. Artigos de destaque são submetidos a convite individual ou recomendação dos editores científicos e passam por revisão por pares antes da publicação.

O artigo pode ser um artigo de pesquisa original, um estudo de pesquisa substancial que frequentemente envolve várias técnicas ou abordagens ou um artigo de revisão abrangente com atualizações concisas e precisas sobre os últimos avanços no campo que revisa sistematicamente os avanços mais interessantes na área científica literatura. Este tipo de papel fornece uma perspectiva sobre as futuras direções de pesquisa ou possíveis aplicações.

Os artigos do Editor’s Choice são baseados em recomendações de editores científicos de periódicos MDPI de todo o mundo. Os editores selecionam um pequeno número de artigos publicados recentemente na revista que eles acreditam ser particularmente interessantes para os autores ou importantes neste campo. O objetivo é fornecer um instantâneo de alguns dos trabalhos mais interessantes publicados nas várias áreas de pesquisa da revista.


Informações adicionais

Contribuições dos autores

JMO, WV, MAA, RO, JM, LF, LB, MØ, MS, AC e JN contribuíram para a concepção e desenho do estudo. JMO e MAA realizaram toda a fermentação e caracterização fisiológica. JMO realizou medições e análises do transcriptoma. LF, LB e MØ realizaram o sequenciamento do genoma de alto rendimento. JMO, WV, MAA, RO e JM realizaram a anotação do genoma e do fenótipo. WV desenvolveu o navegador do genoma e outras ferramentas de bioinformática. JMO, WV, MAA, RO, JM, LF, MS, AC e JN contribuíram para a análise geral do estudo, redação e revisão do manuscrito. Todos os autores leram e aprovaram o manuscrito final.


Assista o vídeo: Genomas (Novembro 2021).