Em formação

Encontrando as funções dos genes - Biologia


Encontrando as funções dos genes

Quebrando recordes

Com 473 genes, a célula mínima recém-criada, JCVI-syn3.0, tem pelo menos 50 genes a menos que o detentor do recorde da natureza & # 8217s para o genoma mais curto em organismos vivos auto-sustentáveis, Mycoplasma genitalium & # 8211 que tem 525 genes.

As células mínimas mostraram viver, crescer e se dividir, formando aglomerados de células em uma placa de laboratório contendo nutrientes para fornecê-las.

A façanha se baseia em um estudo da equipe de Venter & # 8217s em 2010, que revelou JCVI-syn1.0, a primeira bactéria viva dependente de uma cópia sintética de um genoma existente. Esse genoma foi projetado em um computador, antes da montagem e inserção nas células.

Ele e seus colegas do instituto, co-liderado por Hutchison, procuraram reduzir os 901 genes em JCVI-syn1.0 ao mínimo para sustentar a vida. Eles começaram com uma versão do JCVI-syn1.0, o bug sintético de 2010 que fizeram ao transplantar uma cópia gerada por computador de todo o genoma de Mycoplasma mycoides, uma bactéria natural que compreende cerca de 900 genes, em uma casca bacteriana hospedeira vazia.

Com a ajuda de transposons & # 8211 & # 8220 genes saltadores & # 8221 que se inserem em seções de DNA e interrompem genes individuais & # 8211, a equipe testou quais genes a bactéria poderia viver sem.

Sua primeira tentativa em uma célula minimalista falhou. & # 8220Todos os nossos projetos falharam porque os baseamos em nossa base de conhecimento existente & # 8221 diz Venter.

Mais tarde, descobriu-se que alguns genes que eles pensavam não serem essenciais eram cruciais - mas, como vinham aos pares, o organismo ainda poderia sobreviver se apenas um deles fosse removido. Quando perceberam isso, eles puderam reduzir o genoma de forma mais confiável e ainda manter uma célula viva em crescimento.

& # 8220Para obter uma célula viável, os pesquisadores precisavam fazer descobertas sobre muitos genes essenciais e semi-essenciais que não conhecíamos & # 8221 diz Steven Benner da Foundation for Applied Molecular Evolution em Alachua, Flórida.


O que são genes e por que são importantes?

Todos os seres vivos têm genes. Eles existem por todo o corpo. Genes são um conjunto de instruções que determinam como é o organismo, sua aparência, como ele sobrevive e como se comporta em seu ambiente.

Os genes são feitos de uma substância chamada ácido desoxirribonucléico ou DNA. Eles dão instruções para um ser vivo fazer moléculas chamadas proteínas.

Um geneticista é uma pessoa que estuda genes e como eles podem ser direcionados para melhorar aspectos da vida. A engenharia genética pode fornecer uma série de benefícios para as pessoas, por exemplo, aumentando a produtividade de plantas alimentícias ou prevenindo doenças em humanos.

Share on Pinterest Genes são responsáveis ​​por todos os aspectos da vida.

Os genes são uma seção do DNA responsável por diferentes funções, como a produção de proteínas. Longas fitas de DNA com muitos genes constituem os cromossomos. As moléculas de DNA são encontradas nos cromossomos. Os cromossomos estão localizados dentro do núcleo das células.

Cada cromossomo é uma única molécula longa de DNA. Este DNA contém informações genéticas importantes.

Os cromossomos têm uma estrutura única, que ajuda a manter o DNA firmemente envolvido em torno das proteínas chamadas histonas. Se as moléculas de DNA não fossem ligadas pelas histonas, seriam muito longas para caber dentro da célula.

Os genes variam em complexidade. Em humanos, eles variam em tamanho de algumas centenas de bases de DNA a mais de 2 milhões de bases.

Diferentes seres vivos têm diferentes formas e números de cromossomos. Os humanos têm 23 pares de cromossomos, ou um total de 46. Um burro tem 31 pares de cromossomos, um ouriço tem 44 e uma mosca da fruta tem apenas 4.

O DNA contém as instruções biológicas que tornam cada espécie única.

O DNA é passado de organismos adultos para seus descendentes durante a reprodução. Os blocos de construção do DNA são chamados de nucleotídeos. Os nucleotídeos têm três partes: um grupo fosfato, um grupo açúcar e um dos quatro tipos de bases de nitrogênio.

Um gene consiste em uma longa combinação de quatro bases de nucleotídeos diferentes, ou substâncias químicas. Existem muitas combinações possíveis.

Diferentes combinações das letras ACGT dão às pessoas características diferentes. Por exemplo, uma pessoa com a combinação ATCGTT pode ter olhos azuis, enquanto alguém com a combinação ATCGCT pode ter olhos castanhos.

Para recapitular em mais detalhes:

Genes carregam os códigos ACGT. Cada pessoa possui milhares de genes. Eles são como um programa de computador e fazem do indivíduo o que ele é.

Um gene é uma pequena seção de uma longa molécula de dupla hélice de DNA, que consiste em uma sequência linear de pares de bases. Um gene é qualquer seção ao longo do DNA com instruções codificadas que permitem a uma célula produzir um produto específico - geralmente uma proteína, como uma enzima - que desencadeia uma ação precisa.

DNA é o produto químico que aparece nos fios. Cada célula do corpo de uma pessoa tem o mesmo DNA, mas o DNA de cada pessoa é diferente. É isso que torna cada pessoa única.

O DNA é composto de duas fitas emparelhadas longas espiraladas na famosa dupla hélice. Cada fita contém milhões de blocos de construção químicos chamados bases.

Os genes decidem quase tudo sobre um ser vivo. Um ou mais genes podem afetar uma característica específica. Os genes também podem interagir com o ambiente de um indivíduo e mudar o que o gene faz.

Os genes afetam centenas de fatores internos e externos, como se uma pessoa terá uma determinada cor de olhos ou quais doenças eles podem desenvolver.

Algumas doenças, como a anemia falciforme e a doença de Huntington, são herdadas e também são afetadas por genes.

Um gene é uma unidade básica de hereditariedade em um organismo vivo. Os genes vêm de nossos pais. Podemos herdar nossas características físicas e a probabilidade de contrair certas doenças e condições de um pai.

Os genes contêm os dados necessários para construir e manter células e passar informações genéticas para a descendência.

Cada célula contém dois conjuntos de cromossomos: um conjunto vem da mãe e o outro vem do pai. O espermatozóide masculino e o óvulo feminino carregam um único conjunto de 23 cromossomos cada, incluindo 22 autossomos mais um cromossomo sexual X ou Y.

Uma mulher herda um cromossomo X de cada pai, mas um homem herda um cromossomo X de sua mãe e um cromossomo Y de seu pai.

O Projeto Genoma Humano (HGP) é um grande projeto de pesquisa científica. É a maior atividade de pesquisa já realizada na ciência moderna.

Seu objetivo é determinar a sequência dos pares químicos que constituem o DNA humano e identificar e mapear os 20.000 a 25.000 ou mais genes que constituem o genoma humano.

O projeto foi iniciado em 1990 por um grupo de pesquisadores internacionais, os Institutos Nacionais de Saúde dos Estados Unidos (NIH) e o Departamento de Energia.

O objetivo era sequenciar 3 bilhões de letras, ou pares de bases, no genoma humano, que compõem o conjunto completo do DNA do corpo humano.

Ao fazer isso, os cientistas esperavam fornecer aos pesquisadores ferramentas poderosas, não apenas para entender os fatores genéticos nas doenças humanas, mas também para abrir a porta para novas estratégias de diagnóstico, tratamento e prevenção.

O HGP foi concluído em 2003 e todos os dados gerados estão disponíveis para acesso gratuito na internet. Além dos humanos, o HGP também analisou outros organismos e animais, como a mosca da fruta e a E. coli.

Mais de três bilhões de combinações de nucleotídeos, ou combinações de ACGT, foram encontradas no genoma humano, ou na coleção de características genéticas que podem constituir o corpo humano.

O mapeamento do genoma humano aproxima os cientistas do desenvolvimento de tratamentos eficazes para centenas de doenças.

O projeto estimulou a descoberta de mais de 1.800 genes de doenças. Isso tornou mais fácil para os pesquisadores encontrarem em questão de dias um gene suspeito de causar uma doença hereditária. Antes de essa pesquisa ser realizada, poderia levar anos para encontrar o gene.

Os testes genéticos podem mostrar a um indivíduo se ele apresenta risco genético para uma doença específica. Os resultados podem ajudar os profissionais de saúde a diagnosticar as condições.

Espera-se que o HGP acelere o progresso da medicina, mas ainda há muito a aprender, principalmente sobre como os genes se comportam e como podem ser usados ​​no tratamento. Pelo menos 350 produtos baseados em biotecnologia estão atualmente em testes clínicos.

Em 2005, o HapMap, um catálogo de variação genética comum ou haplótipos no genoma humano, foi criado. Esses dados ajudaram a acelerar a busca pelos genes envolvidos em doenças humanas comuns.

Nos últimos anos, os geneticistas encontraram outra camada de dados genéticos hereditários que não é mantida no genoma, mas no “epigenoma”, um grupo de compostos químicos que podem dizer ao genoma o que fazer.

No corpo, o DNA contém as instruções para a construção de proteínas, e essas proteínas são responsáveis ​​por uma série de funções em uma célula.

O epigenoma é feito de compostos químicos e proteínas que podem se ligar ao DNA e dirigir uma variedade de ações. Essas ações incluem ativar e desativar genes. Isso pode controlar a produção de proteínas em células específicas.

Os interruptores genéticos podem ativar e desativar genes em momentos diferentes e por períodos de tempo diferentes.

Recentemente, os cientistas descobriram interruptores genéticos que aumentam a expectativa de vida e aumentam a aptidão dos vermes. Eles acreditam que isso pode estar relacionado a um aumento da expectativa de vida dos mamíferos.

Os interruptores genéticos que eles descobriram envolvem enzimas que aumentam após um leve estresse durante o desenvolvimento inicial.

Este aumento na produção de enzimas continua a afetar a expressão de genes ao longo da vida do animal.

Isso pode levar a um avanço na meta de desenvolver drogas que podem mudar essas opções para melhorar a função metabólica humana e aumentar a longevidade.

Marcação gênica

Quando os compostos epigenômicos se ligam ao DNA na célula e modificam a função, diz-se que eles “marcaram” o genoma.

As marcas não mudam a sequência do DNA, mas mudam a maneira como as células usam as instruções do DNA.

As marcas podem ser transmitidas de célula para célula à medida que se dividem e podem até ser transmitidas de uma geração para a seguinte.

As células especializadas podem controlar muitas funções do corpo. Por exemplo, células especializadas em glóbulos vermelhos produzem proteínas que transportam oxigênio do ar para o resto do corpo. O epigenoma controla muitas dessas mudanças dentro do genoma.

As marcas químicas no DNA e nas histonas podem ser reorganizadas conforme as células especializadas e o epigenoma mudam ao longo da vida de uma pessoa.

O estilo de vida e fatores ambientais como tabagismo, dieta e doenças infecciosas podem causar alterações no epigenoma. Eles podem expor uma pessoa a pressões que provocam reações químicas.

Essas respostas podem levar a mudanças diretas no epigenoma, e algumas dessas mudanças podem ser prejudiciais. Algumas doenças humanas são devidas a disfunções nas proteínas que “lêem” e “gravam” marcas epigenômicas.

Algumas dessas mudanças estão ligadas ao desenvolvimento de doenças.

O câncer pode resultar de alterações no genoma, no epigenoma ou em ambos. Mudanças no epigenoma podem ligar ou desligar os genes que estão envolvidos no crescimento celular ou na resposta imunológica. Essas mudanças podem causar crescimento descontrolado, uma característica do câncer ou uma falha do sistema imunológico em destruir tumores.

Pesquisadores da rede The Cancer Genome Atlas (TCGA) estão comparando os genomas e epigenomas de células normais com os de células cancerosas na esperança de compilar uma lista atual e completa de possíveis mudanças epigenômicas que podem levar ao câncer.

Os pesquisadores em epigenômica estão focados em tentar mapear os locais e entender as funções de todas as marcas químicas que marcam o genoma. Essas informações podem levar a uma melhor compreensão do corpo humano e ao conhecimento de maneiras de melhorar a saúde humana.

Terapia de genes

Na terapia genética, os genes são inseridos nas células e tecidos de um paciente para tratar uma doença, geralmente uma doença hereditária. A terapia genética usa seções de DNA para tratar ou prevenir doenças. Esta ciência ainda está em seus estágios iniciais, mas teve algum sucesso.

Por exemplo, em 2016, os cientistas relataram que conseguiram melhorar a visão de 3 pacientes adultos com cegueira congênita usando terapia genética.

Em 2017, um endocrinologista reprodutivo, chamado John Zhang, e uma equipe do New Hope Fertility Center em Nova York usaram uma técnica chamada terapia de reposição mitocondrial de uma forma revolucionária.

Eles anunciaram o nascimento de um filho de uma mãe portadora de um defeito genético fatal. Os pesquisadores combinaram o DNA de duas mulheres e um homem para contornar o defeito.

O resultado foi um menino saudável com três pais genéticos. Esse tipo de pesquisa ainda está nos estágios iniciais e muito ainda é desconhecido, mas os resultados parecem promissores.

Os cientistas estão procurando maneiras diferentes de tratar o câncer por meio da terapia genética. A terapia gênica experimental pode usar as próprias células sanguíneas dos pacientes para matar as células cancerosas. Em um estudo, 82% dos pacientes tiveram seu câncer diminuído em pelo menos metade em algum ponto durante o tratamento.

Teste de gene para prever câncer

Outro uso da informação genética é ajudar a prever quem tem probabilidade de desenvolver uma doença, por exemplo, doença de Alzheimer de início precoce e câncer de mama.

Mulheres com o gene BRCA1 têm uma chance significativamente maior de desenvolver câncer de mama. Uma mulher pode fazer um teste para descobrir se ela é portadora desse gene. Os portadores de BRCA1 têm 50 por cento de chance de passar a anomalia para cada um de seus filhos.

Testes genéticos para terapia personalizada

Os cientistas dizem que um dia seremos capazes de testar um paciente para descobrir quais medicamentos específicos são melhores para ele, dependendo de sua composição genética. Alguns medicamentos funcionam bem para alguns pacientes, mas não para outros. A terapia genética ainda é uma ciência em crescimento, mas com o tempo, pode se tornar um tratamento médico viável.


Notas de rodapé

O material eletrônico suplementar está disponível online em https://dx.doi.org/10.6084/m9.figshare.c.4392737.

Publicado pela Royal Society sob os termos da Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, que permite o uso irrestrito, desde que o autor original e a fonte sejam creditados.

Referências

et al. 1992 A seqüência completa de DNA do cromossomo III de levedura. Natureza 357, 38-46. (doi: 10.1038 / 357038a0) Crossref, PubMed, ISI, Google Scholar

et al. 1996 Vida com 6.000 genes. Ciência 274, 546, 563–567. (doi: 10.1126 / science.274.5287.546) Crossref, PubMed, ISI, Google Scholar

. 1996 Da sequência de DNA à função biológica. Natureza 379, 597-600. (http://dx.doi.org/10.1038/379597a0) Crossref, PubMed, ISI, Google Scholar

Hodges PE, McKee AH, Davis BP, Payne WE, Garrels JI

. 1999 The Yeast Proteome Database (YPD): um modelo para a organização e apresentação de dados funcionais de todo o genoma. Nucleic Acids Res. 27, 69-73. (doi: 10.1093 / nar / 27.1.69) Crossref, PubMed, ISI, Google Scholar

Wu LF, Hughes TR, Davierwala AP, Robinson MD, Stoughton R, Altschuler SJ

. Previsão em grande escala de 2002 de Saccharomyces cerevisiae função do gene usando clusters transcricionais sobrepostos. Nat. Genet. 31, 255-265. (doi: 10.1038 / ng906) Crossref, PubMed, ISI, Google Scholar

Christie KR, Hong EL, Cherry JM

. Anotações funcionais de 2009 para o Saccharomyces cerevisiae genoma: os conhecidos e os desconhecidos conhecidos. Trends Microbiol. 17, 286-294. (doi: 10.1016 / j.tim.2009.04.005) Crossref, PubMed, ISI, Google Scholar

Gibney PA, Hickman MJ, Bradley PH, Matese JC, Botstein D

. Retrato filogenético de 2013 do Saccharomyces cerevisiae genoma funcional. G3 (Bethesda ) 3, 1335-1340. (doi: 10.1534 / g3.113.006585) Crossref, PubMed, Google Scholar

. 2007 Por que ainda existem mais de 1000 genes de levedura não caracterizados? Genética 176, 7-14. (doi: 10.1534 / genetics.107.074468) Crossref, PubMed, ISI, Google Scholar

Hughes TR, Robinson MD, Mitsakakis N, Johnston M

. 2004 A promessa da genômica funcional: completando a enciclopédia de uma célula. Curr. Opiniões Microbiol. 7, 546-554. (http://dx.doi.org/10.1016/j.mib.2004.08.015) Crossref, PubMed, ISI, Google Scholar

Balakrishnan R, Park J, Karra K, Hitz BC, Binkley G, Hong EL, Sullivan J, Micklem G, Cherry JM

. 2012 YeastMine - um data warehouse integrado para Saccharomyces cerevisiae dados como um kit de ferramentas multiuso. Base de dados 2012, bar062. (doi: 10.1093 / database / bar062) Crossref, Google Scholar

, 2012 InterMine: um sistema de data warehouse flexível para a integração e análise de dados biológicos heterogêneos. Bioinformática 28, 3163-3165. (doi: 10.1093 / bioinformatics / bts577) Crossref, PubMed, ISI, Google Scholar

Rhee SY, Wood V, Dolinski K, Draghici S

. 2008 Uso e uso indevido das anotações da ontologia genética. Nat. Rev. Genet. 9, 509-515. (doi: 10.1038 / nrg2363) Crossref, PubMed, ISI, Google Scholar

Bloqueio A, Rutherford K, Harris MA, Wood V

. 2018 PomBase: o recurso científico para levedura de fissão , pp. 49-68. Nova York, NY: Humana Press, Google Scholar

. 2019 PomBase 2018: reimplementação orientada pelo usuário do banco de dados de levedura de fissão fornece acesso rápido e intuitivo a informações diversas e interconectadas. Nucleic Acids Res. 47, D821-D827. (doi: 10.1093 / nar / gky961 Crossref, PubMed, ISI, Google Scholar

Boyle EI, Weng S, Gollub J, Jin H, Botstein D, Cherry JM, Sherlock G

. 2004 GO :: TermFinder — software de código aberto para acessar informações de ontologia de genes e encontrar termos de ontologia de genes significativamente enriquecidos associados a uma lista de genes. Bioinformática 20, 3710-3715. (doi: 10.1093 / bioinformatics / bth456) Crossref, PubMed, ISI, Google Scholar

Gaudet P, Škunca N, Hu J, Dessimoz C

. 2017 Primer sobre a ontologia genética . Methods in Molecular Biology, vol. 1446. New York, NY: Humana Press. Crossref, Google Scholar

Hayles J, Wood V, Jeffery L, Hoe K-L, Kim D-U, Park H-O, Salas-Pino S, Heichinger C, Enfermeira P

. 2013 Um recurso de todo o genoma dos genes do ciclo celular e da forma celular da levedura de fissão. Abrir. Biol. 3, 130053. (doi: 10.1098 / rsob.130053) Link, ISI, Google Scholar

et al. 2008 O retrato químico genômico da levedura: descobrindo um fenótipo para todos os genes. Ciência 320, 362-365. (doi: 10.1126 / science.1150021) Crossref, PubMed, ISI, Google Scholar

(eds). 2015 Biologia de sistemas da doença de Alzheimer . Methods in Molecular Biology. New York, NY: Humana Press. Google Scholar

Edwards AM, Isserlin R, Bader GD, Frye SV, Willson TM, Yu FH

. 2011 Muitas estradas não tomadas. Natureza 470, 163-165. (doi: 10.1038 / 470163a) Crossref, PubMed, ISI, Google Scholar

Stoeger T, Gerlach M, Morimoto RI, Nunes Amaral LA

. 2018 Investigação em larga escala das razões pelas quais genes potencialmente importantes são ignorados. PLoS Biol. 16, 1-25. (doi: 10.1371 / journal.pbio.2006643) Crossref, ISI, Google Scholar

. 2017 InterPro em 2017 além da família de proteínas e anotações de domínio. Nucleic Acids Res. 45, D190-D199. (doi: 10.1093 / nar / gkw1107) Crossref, PubMed, ISI, Google Scholar

et al. Clonagem de ORFeome de 2006 e análise global da localização de proteínas na levedura de fissão Schizosaccharomyces pombe . Nat. Biotechnol. 24, 841-847. (doi: 10.1038 / nbt1222) Crossref, PubMed, ISI, Google Scholar

et al. Análise de 2010 de um conjunto de deleções genéticas em todo o genoma na levedura de fissão Schizosaccharomyces pombe . Nat. Biotechnol. 28, 617-623. (doi: 10.1038 / nbt.1628) Crossref, PubMed, ISI, Google Scholar

et al. 2014 Identificação de novos participantes na divisão celular, resposta a danos no DNA e morfogênese por meio da construção de cepas de deleção de Schizosaccharomyces pombe. G3 (Bethesda ) 5, 361-370. (doi: 10.1534 / g3.114.015701) Crossref, PubMed, Google Scholar

. 1997 Evidência molecular de uma antiga duplicação de todo o genoma da levedura. Natureza 387, 708-713. (doi: 10.1038 / 42711) Crossref, PubMed, ISI, Google Scholar


Reconhecimento

Os autores agradecem a Sean Aller pelos comentários úteis e a David Selby por compartilhar sua experiência no desenvolvimento R pacotes.

Financiamento

Este trabalho é financiado pela Universidade de Warwick e pelos Conselhos de Pesquisa em Biotecnologia e Biológica e Engenharia e Ciências Físicas (BB– e EPSRC), com IDs de bolsa: EP / L016494 / 1 (para o Centro de Treinamento de Doutorado em Biologia Sintética, SynBioCDT ), BB / K003240 / 2 (para OSS), BB / M017982 / 1 (para o Warwick Integrative Synthetic Biology Center, WISB).


Materiais e métodos

Sequências e alinhamentos de DNA

Sequências de DNA das regiões de controle do locus β-globina (LCRs) de humanos (loci GenBank combinados HUMHBB e HUMBGLOBC), galago (OCU60902), coelho (loci GenBank combinados OCU63091 e RABBGLOB), cabra (GOTGLOBE), vaca (BOVBG) e camundongo (um agrupamento de loci AF071080, MMMLCRHS4, MMMLCRHS3, MMCONREG e MMBGCXD fornecido por M. Bender) foram alinhados usando o programa Yama2 (12). Sequências e alinhamentos completos estão disponíveis em nosso Globin Gene Server (13, 14) em: http://globin.cse.psu.edu/. o Escherichia coli A sequência K-12 é de Blattner et al. (15). As sequências de bactérias relacionadas foram obtidas a partir dos seguintes locais: Salmonella typhimurium, ftp://genome.wustl.edu/pub/gsc1/sequence/st.louis/bacterial/salmonella/B_STM/B_STM.full.seq Salmonella typhi, ftp://ftp.sanger.ac.uk/pub/pathogens/st/ST.dbs Salmonella paratyphiA, ftp://genome.wustl.edu/pub/gsc1/sequence/st.louis/bacterial/salmonella/B_SPA/BEFORE_MELD/B_SPA.full.seq Klebsiella pneumonia, ftp://genome.wustl.edu/pub/gsc1/sequence/st.louis/bacterial/salmonella/B_KPN/B_KPN.full.seq.

As regiões selecionadas para as calibrações dos parâmetros foram 7188-7487, 11240-11510 e 64561-64826 (-263 a +3) para HS3, HS2 e o HBB promotor, respectivamente, na sequência humana combinada. Uma determinada posição de nucleotídeo nesta sequência é 2687 maior do que no locus HUMHBB do GenBank. A lista de posições de nucleotídeos atribuídas como funcionais está no site, junto com as referências.

A região selecionada para calibração contra a bactéria araBAD-araC região regulatória começa logo antes do códon de início ATG de árabe (orientado para a esquerda) e termina logo antes do códon de início ATG de araC (orientado para a direita). Isso corresponde às posições 70049-70386 no E.coli seqüência. Para alinhar as cinco sequências bacterianas, as sequências que correspondiam ao araBAD-araC região intergênica em comparações de pares com o E.coli sequência foram extraídas e, em seguida, alinhadas simultaneamente.

Programas para encontrar blocos de sequência conservada

Certos parâmetros são comuns a todas as ferramentas. O comprimento mínimo das regiões a serem relatadas e o número mínimo de sequências que devem estar ativas (ou seja, presentes naquela região do alinhamento) são selecionáveis ​​pelo usuário. Além disso, a busca pode ser realizada em todo o alinhamento ou pode ser restrita a uma porção especificada por um determinado intervalo em qualquer uma das sequências. Os resultados podem ser relatados como uma lista dos pontos finais das regiões selecionadas junto com suas sequências consenso / ancestral / central associadas (explicadas abaixo) ou exibidos como regiões em caixas em um diagrama de alinhamento. Um servidor que executa esses programas no alinhamento de grupos de genes de β-globina de mamíferos está disponível no Globin Gene Server.

Cada utilitário possui pelo menos duas maneiras de lidar com as lacunas. No primeiro, as colunas que contêm um símbolo de lacuna serão rejeitadas, de forma que as regiões relatadas não contenham lacunas. Como alternativa, as lacunas podem ser tratadas como caracteres comuns. Códigos de ambigüidade (por exemplo, W representando A ou T) podem ser permitidos em colunas. Detalhes completos sobre o tratamento de lacunas e códigos de ambigüidade estão disponíveis em nosso site.

aceita. Este utilitário localiza regiões em um determinado alinhamento que têm boa concordância de coluna. As colunas são examinadas individualmente para determinar se elas atendem ou não a um limite especificado pelo usuário para concordância de cartas, e execuções de colunas que passam neste teste são relatadas.

infocon. Ao pesquisar regiões conservadas em alinhamentos, o comprimento da região é frequentemente um indicador confiável de que alguma funcionalidade foi preservada entre as espécies. No entanto, como a conservação não precisa ser perfeita, essas regiões podem ser fragmentadas em pedaços conservados muito pequenos para serem detectados, e uma forma sistemática de ligar as regiões menores é necessária. Os próximos dois utilitários que descrevemos, infocon e filogênio, tente resolver este problema. A ideia é atribuir uma pontuação numérica a cada coluna e, em seguida, procurar sequências de colunas que atendam às duas condições a seguir: (i) sua pontuação cumulativa (obtida pela soma das pontuações das colunas individuais) não é menor do que a pontuação de qualquer uma de suas subexecuções e (ii) são máximas com esta propriedade, ou seja, não estão mais contidas em nenhuma execução com a propriedade (i). Referimo-nos a essas regiões como "corridas completas". Duas execuções completas não podem se sobrepor parcialmente, ou seja, se eles tiverem uma posição em comum, eles devem ser idênticos (16).

o infocon ferramenta encontra séries completas de colunas com alto conteúdo de informação no alinhamento fornecido. Para isso, a cada coluna é atribuída uma pontuação intermediária que mede seu conteúdo informativo, com base nas frequências das letras tanto na coluna quanto no alinhamento como um todo (11, 17). O valor exato desta pontuação é a fração 1 /eu do logaritmo da razão de verossimilhança obtida para a frequência de letras dentro do alinhamento e dentro da coluna em exame, onde eu é o número de sequências ativas na coluna de alinhamento. Como exemplo numérico, considere o alinhamento na Figura 1A, que faz parte de um alinhamento mais longo. As frequências gerais das letras no alinhamento mais longo (não mostrado) são fUMA = 58 525/192 535, fC = 36 937/192 535, fG = 38 963/192 535 e fT = 58 110/192 535, uma vez que as contagens das letras A, C, G e T no alinhamento são 58 525, 36 937, 38 963 e 58 110, totalizando 192 535. Da mesma forma, as frequências das letras na coluna 1 do alinhamento (C, C, T) são fcUMA = 0, fcC = 2/3, fcG = 0 e fcT = 1/3. eu é 3.


Anotação de alto rendimento de genomas eucarióticos

Encontrar genes em bactérias é relativamente fácil, em grande parte porque os genomas bacterianos são codificadores de proteínas de aproximadamente 90%, com trechos intergênicos relativamente curtos entre cada par de genes. O problema de localização de genes consiste principalmente em decidir qual dos seis quadros de leitura possíveis (três em cada direção) contém a proteína, e os localizadores computacionais de genes tiram proveito disso para produzir resultados altamente precisos. Assim, embora ainda não saibamos as funções de muitos genes bacterianos, pelo menos podemos ter certeza de que temos suas sequências de aminoácidos corretas.

Em eucariotos, por outro lado, o problema de encontrar genes é muito mais difícil, porque (i) os genes são poucos e distantes entre si e (ii) os genes são interrompidos por íntrons. Assim, enquanto 90% de um genoma bacteriano típico é coberto por sequências codificadoras de proteínas, apenas cerca de 1,3% do genoma humano (40,2 Mb no banco de dados CHESS 2.2 [2]) compreende exons codificadores de proteínas. A porcentagem é ainda menor em genomas maiores, como os mega-genomas de pinheiros e outras coníferas. Por esta e outras razões, os melhores localizadores de genes automatizados são muito menos precisos em eucariotos. A curadoria manual não resolverá esse dilema, pela razão óbvia de que ela não escala e pela razão menos óbvia de que mesmo uma análise humana cuidadosa nem sempre fornece uma resposta clara. Para ilustrar o último ponto: em uma comparação recente de todos os transcritos codificadores de proteínas e lncRNA nos bancos de dados de genes humanos RefSeq e Gencode, apenas 27,5% dos transcritos Gencode tinham exatamente os mesmos íntrons que os genes RefSeq correspondentes [2]. Assim, mesmo após 18 anos de esforço, a estrutura exata exon-íntron de muitos genes codificadores de proteínas humanas não está estabelecida. A anotação da maioria dos outros eucariotos - com exceção de organismos modelo pequenos e intensamente estudados como levedura, mosca da fruta e Arabidopsis—Está em pior estado do que a anotação humana.

Uma solução de alto rendimento fornece pelo menos uma solução parcial para este problema: sequenciamento de RNA (RNA-seq). Antes da invenção do RNA-seq, os cientistas trabalharam duro para gerar transcrições completas que pudessem fornecer uma anotação de “padrão ouro” para uma espécie. A ideia era que, se tivéssemos a sequência de RNA mensageiro de comprimento total para um gene, poderíamos simplesmente alinhá-la ao genoma para revelar a estrutura éxon-íntron do gene. A Mammalian Gene Collection, um esforço para obter esses RNAs para humanos e algumas outras espécies, concluiu em 2009 com o anúncio de que 92% dos genes codificadores de proteínas humanas foram capturados [3]. Esse projeto, embora extremamente útil, era muito caro, não era facilmente escalonável e ainda não era abrangente. (Notavelmente, a coleção de genes de mamíferos tentou capturar apenas uma única isoforma de cada gene. Agora sabemos que a maioria dos genes humanos tem várias isoformas.) A tecnologia de RNA-seq, em contraste, fornece uma maneira rápida de capturar a maioria dos genes expressos para qualquer espécie. Ao alinhar leituras de RNA-seq a um genoma e, em seguida, montar essas leituras, podemos construir uma aproximação razoavelmente boa (incluindo isoformas alternativas) do conteúdo genético completo de uma espécie, como meus colegas e eu fizemos para o genoma humano [2] .

Assim, um pipeline de anotação moderno como MAKER [4] pode usar dados de RNA-seq, combinados com alinhamentos a bancos de dados de proteínas conhecidas e outras entradas, para fazer um trabalho razoavelmente bom de encontrar todos os genes e até mesmo atribuir nomes a muitos deles.

Essa solução vem com várias advertências importantes. Primeiro, o RNA-seq não captura precisamente todos os genes em um genoma. Alguns genes são expressos em níveis baixos ou em apenas alguns tecidos, e podem ser perdidos totalmente, a menos que os dados de sequenciamento de RNA sejam realmente abrangentes. Além disso, muitas das transcrições expressas em uma amostra de tecido não são genes: podem representar transcrições incompletamente unidas ou podem ser simplesmente ruído. Portanto, precisamos de uma verificação independente antes de termos certeza de que qualquer região expressa é um gene funcional. Mesmo para genes que são repetidamente expressos em níveis elevados, determinar se eles codificam proteínas ou representam RNAs não codificantes é um problema ainda não resolvido. A atual anotação humana Gencode (versão 30), por exemplo, contém mais genes de RNA do que proteínas [5], mas ninguém sabe o que a maioria desses genes de RNA faz.

Outra advertência é que, como os genomas de rascunho podem conter milhares de contigs desconectados, muitos genes serão divididos entre vários contigs (ou andaimes) cuja ordem e orientação são desconhecidas. O problema ocorre em todas as espécies, mas é muito pior para genomas de rascunho, onde o tamanho médio do contig é menor do que a extensão de um gene típico. Isso torna virtualmente impossível para o software de anotação juntar genes corretamente, o software tenderá a anotar muitos fragmentos de genes (residindo em contigs diferentes) com as mesmas descrições, e a contagem total de genes pode estar muito superinflada. Mesmo onde eles não têm lacunas, alguns genomas de rascunho têm altas taxas de erro que podem introduzir códons de parada errôneos ou mudanças de quadro no meio dos genes. Não há como o software de anotação consertar facilmente esses problemas: a única solução é melhorar as montagens e anotar novamente.


Um número de variantes de emenda em rápida expansão

O RNA-seq revelou outra surpresa também: que o splicing alternativo, a iniciação alternativa da transcrição e a terminação alternativa da transcrição ocorreram com muito mais frequência do que qualquer um tinha conhecido antes, possivelmente afetando até 95% dos genes humanos [7, 8]. A implicação dessas descobertas é que, mesmo que saibamos onde estão todos os genes, ainda temos um trabalho considerável para descobrir todas as isoformas desses genes, e ainda mais trabalho para determinar se essas isoformas têm alguma função ou se apenas representam erros de splicing , como alguns argumentaram [9].


Gene: Tipos e Funções do Gene

O termo gene foi introduzido por Johanssen em 1909. Antes dele, Mendel havia usado a palavra fator para designar uma unidade de herança específica, distinta e particulada, que participa da expressão de um traço. Johanssen definiu gene como uma unidade elementar de herança que pode ser atribuída a uma característica particular.

Morgan’s work suggested gene to be the shortest segment of chromosome which can be separated through crossing over, can undergo mutation and influence expression of one or more traits. Presently, a gene is defined as a unit of inher­itance composed of a segment of DNA or chromosome situated at a specific locus (gene locus) which carries coded information associated with a specific function and can undergo crossing over as well as mutation.

(i) A unit of genetic material which is able to replicate,

(ii) It is a unit of recombination, i.e., capable of undergoing crossing over,

(iii) A unit of genetic material which can undergo mutation,

(iv) A unit of heredity connected with somatic structure or function that leads to a phenotypic expression. Lewin (2000) has defined gene to be a sequence of DNA that codes for a diffusible product.

From their work on Neurospora auxotrophs, Beadle and Tatum (1948) proposed one- gene one-enzyme hypothesis and defined gene as a unit of hereditary material that specifies a single enzyme. Yanofsky et al (1965) observed that certain enzymes could be composed of more than one polypeptide.

They replaced one-gene one-enzyme hypothesis with one gene one-polypeptide hypothesis (gene is a unit of hereditary material that specifies the synthesis of a single polypeptide). By this time it had become clear that hereditary material of chro­mosome is DNA and that a gene is linear segment of DNA called cistron.

Therefore, the term cistron has become synonym with gene. Further, a gene or cistron can not only synthesise a polypeptide but also ribosomal or transfer RNA. Cistron (or gene) is a segment of DNA consisting of a stretch of base sequences those codes for one polypeptide, one transfer RNA (tRNA) or one ribosomal RNA (rRNA) molecule. Currently such a gene is called structural gene.

The genetic system also contains a number of regulatory genes which control the functioning of structural genes. However, there are several exceptions e.g., overlapping genes, poly-protein genes, split genes, etc.

A gene or cistron has many positions or sites where mutations can occur. A change in single nucleotide can give rise to a mutant phenotype, e.g., sickle cell anaemia. Similarly, two defective cistrons may recombine to form a wild type cistron. Despite the above changes in the concepts of structural mutational and re-combinational features of the gene, the func­tional concept remains the same— it is a unit of heredity.

Types of Genes:

1. House Keeping Genes (Constitutive Genes):

They are those genes which are constantly expressing themselves in a cell because their products are required for the normal cellular activities, e.g., genes for glycolysis, ATP-ase

2. Non-constitutive Genes (Luxury Genes):

The genes are not always expressing themselves in a cell. They are switched on or off according to the requirement of cellular activities, e.g., gene for nitrate reductase in plants, lactose system in Escherichia coli. Non- constitutive genes are of further two types, inducible and repressible.

The genes are switched on in response to the presence of a chemical substance or inducer which is required for the functioning of the product of gene activity, e.g., nitrate for nitrate reductase.

They are those genes which continue to express themselves till a chemical (often an end product) inhibits or represses their activity. Inhibition by an end product is known as feedback repression.

5. Multigenes (Multiple Gene Family):

It is a group of similar or nearly similar genes for meeting requirement of time and tissue specific products, e.g., globin gene family (e, 5, (3, у on chromosome 11, oc and 8 on chromosome 16).

The genes occur in multiple copies because their products are required in larger quantity, e.g., histone genes, tRNA genes, rRNA genes, actin genes.

The genes are present in single copies (occasionally 2—3 times), e.g., protein coding genes. They form 60—70% of the functional genes. Duplica­tions, mutations and exon reshuffling can form new genes.

They are genes which have homology to functional genes but are unable to produce functional products due to intervening nonsense codons, insertions, de­letions and inactivation of promoter regions, e.g., several of snRNA genes.

They are eukaryotic genes which lack introns. Processed genes have been formed probably due to reverse transcription or retroviruses. Processed genes are generally non-functional as they lack promoters.

They were discovered in 1977 by many workers but credit is given to Sharp and Roberts (1977). Split genes are those genes which possess extra or nonessential regions interspersed with essential or coding parts. The nonessential parts are called introns, spacer DNA or intervening sequences (IVS). Essential or coding parts are called exons. Transcribed intronic regions are removed before RNA passes out into cytoplasm. Split genes are characteristic of eukaryotes.

However, certain eukaryotic genes are completely exonic or non-split e.g., histone genes, interferon genes. Split genes have also been recorded in prokaryotes, thymidylate synthase gene and ribonucleotide reductase gene in T4. A gene that produces calcitonin in thyroid forms a neuropeptide in hypothalamus by removing an exon. Adenovirus has also a mechanism to produce 15—20 different proteins from a single tran­scriptional unit by differential splicing.

11. Transposons (Jumping Genes Hedges and Jacob, 1974):

They are segments of DNA that can jump or move from one place in the genome to another. Transposons were first discovered by Me Clintock (1951) in case of Maize when she found that a segment of DNA moved into gene coding for pigmented kernels and produced light coloured kernels.

Transposons possess repetitive DNA, either similar or inverted, at their ends, some 5, 7 or 9-nucleotide long. Enzyme transposase separates the segment from its original by cleaving the repetitive sequences at its ends.

There are many types of transposons. In human beings the most common types of transposons belong to Alu family (having a site for cutting by restriction enzyme Alu I). The number of nucleotides per transposon is about 300 with about 300,000 copies in the genome. Passage of transposons from one place to another brings about reshuffling of nucleotide sequences in genes. Reshuffling in introns often changes expression of genes, e.g., proto-oncogenes → oncogenes. New genes may develop by exon shuffling. Other changes caused by transposons are mutations, through insertions, deletions and translocations.

In ф x 174, genes В E and К overlap other genes.

Structural genes are those genes which have encoded informa­tion for the synthesis of chemical substances required for cellular machinery.

The chemical substances may be:

(a) Polypeptides for the formation of structural proteins (e.g., colloidal complex of protoplasm, cell membranes, elastin of ligaments, collagen of tendons or carti­lage, actin of muscles, tubulin of microtubules, etc.). (b) Polypeptides for the synthesis of enzymes,

(c) Transport proteins like haemoglobin of erythrocytes, lipid transporting pro­teins, carrier proteins of cell membranes, etc.

(d) Proteinaceous hormones, e.g., insulin, growth hormone, parathyroid hormone,

(e) Antibodies, antigens, certain toxins, blood coagu­lation factors, etc.

(f) Non-translated RNAs like tRNAs, rRNA. Broadly speaking, structural genes either produce mRNAs for synthesis of polypeptides/proteins/enzymes or noncoding RNAs.

14. Regulatory Genes (Regulatory Sequences):

Regulatory genes do not transcribe RNAs for controlling structure and functioning of the cells. Instead, they control the func­tions of structural genes. The important regulatory genes are promoters, terminators, operators and repressor producing or regulator genes. Repressor does not take part in cellular activity. Instead, it regulates the activity of other genes. Therefore, repressor producing gene is of intermediate nature.

15. Tissue Specific Genes:

They are genes which are expressed only in certain specific tissues and not in others.

Gene Functions:

(i) Genes are components of genetic material and are thus units of inheritance,

(ii) They control the morphology or phenotype of individuals,

(iii) Replication of genes is essential for cell division,

(iv) Genes carry the hereditary information from one generation to the next,

(v) They control the structure and metabolism of the body,

(vi) Reshuffling of genes at the time of sexual reproduction produces variations,

(vii) Different linkages are produced due to crossing over,

(viii) Genes undergo mutations and change their expression,

(ix) New genes and consequently new traits develop due to reshuffling of exons and introns.

(x) Genes change their expression due to position effect and transposons.

(xi) Differentiation or formation of different types of cells, tissues and organs in various parts of the body is controlled by expression of certain genes and non-expression of others,

(xii) Development or production of different stages in the life history is controlled by genes.


Assista o vídeo: Chromosomy Genetyka Biologia 8 Klasa - Notatki od Facetki Od Biologii - Budowa chromosomów (Janeiro 2022).