Em formação

Como encontrar dados de sequenciamento de uma cepa específica de drosófila


Estou tentando corrigir partes de baixa cobertura de uma montagem dessas leituras do PacBio com dados da Illumina. De acordo com a PacBio, eles "sequenciaram machos adultos de uma sub-linha da cepa ISO1 (y; cn, bw, sp) de D. melanogaster. Este é o mesmo estoque usado nos conjuntos de referência BDGP oficiais desde o lançamento da primeira sequência do genoma em 2000 . "

Infelizmente, os dados Illumina sequenciados pelos mesmos caras (também ISO1 (y; cn, bw, sp), mas 2057) "revelaram diferenças significativas" para a cepa de referência oficial. Algo que também descobri.

Agora estou tentando encontrar dados Illumina para a cepa de referência no NCBI, mas estou muito perdido. Parece haver dezenas de cepas diferentes e não consigo descobrir qual é a cepa de referência, principalmente porque não estou completamente familiarizado com a nomenclatura biológica como ISO1, (y; cn, bw, sp) e 2057 ou D8, D20-C2, mbn2 e assim por diante.

Portanto, acho que minha pergunta é: que cepa exatamente é a cepa de referência de drosophila melanogaster usada no BDGP e como encontro os dados SRA dessa cepa no NCBI?


Conforme descrito no Arquivo S1 de Gutzwiller et al (2015), a relação entre a sub-cepa da cepa de referência ISO1 usada por BDGP para o proejct do genoma de Drosophila original e a sub-cepa no Bloomington Drosophila Stock Center é complicada:

"Investigamos a causa da discrepância de sequências de Wolbachia no Berkeley Drosophila Genome Project (BDGP) e nos dados genômicos ISO1 do Bloomington Drosophila Stock Center (BDSC) estabelecendo primeiro a proveniência dessas linhagens. Conforme documentado no banco de dados BDSC, o BDSC ISO1 a sub-cepa foi doada diretamente para o centro de estoque por Jim Kennison em 1994. A sub-cepa ISO1 usada pelo BDGP foi obtida do laboratório de Gerry Rubin no final dos anos 1990 (Roger Hoskins, comunicação pessoal). -strain foi obtido em meados da década de 1990 de Jim Kennison por meio de pelo menos um laboratório intermediário (Todd Laverty, comunicação pessoal). Assim, em contraste com suposições ingênuas, a sub-estirpe ISO1 no Bloomington Drosophila Stock Center não é um descendente direto nem progenitor da sub-cepa ISO1 usada no projeto do genoma de D. melanogaster, e essas duas sub-cepas têm trajetórias independentes desde pelo menos 1994. ”

O conjunto de dados PacBio ao qual você se refere foi gerado usando a subestirpe BDGP. Os dados Illumina a que você se refere foram gerados usando a subtensão BDSC e estão disponíveis aqui: https://www.ncbi.nlm.nih.gov/sra/ERX645969[accn]


Anotações de modelo de gene para Drosophila melanogaster: impacto de dados de alto rendimento

Relatamos o status atual do conjunto de genes anotados FlyBase para Drosophila melanogaster e destacamos as melhorias com base em dados de alto rendimento. O conjunto de genes anotados FlyBase consiste inteiramente em modelos de genes anotados manualmente, com exceção de algumas classes de pequenos RNAs não codificantes. Todos os modelos de genes foram revisados ​​usando evidências de conjuntos de dados de alto rendimento, principalmente do projeto modENCODE. Esses conjuntos de dados incluem dados de cobertura de RNA-Seq, dados de junção de RNA-Seq, perfis de local de início de transcrição e previsões de leitura de códon de parada de tradução. Novas diretrizes de anotação foram desenvolvidas para levar em consideração o uso de dados de alto rendimento. Descrevemos como essa enxurrada de novos dados foi incorporada a milhares de anotações novas e revisadas. FlyBase adotou uma filosofia de exclusão de dados de baixa confiança e baixa frequência de anotações de modelo de gene, também não tentamos representar todas as permutações possíveis para genes complexos e organizados de forma modular. Isso nos permitiu produzir um conjunto de dados de anotação de genes gerenciável e de alta confiança que está disponível em FlyBase (http://flybase.org). Aspectos interessantes de novas anotações incluem novos genes (codificantes, não codificantes e antisense), muitos genes com transcritos alternativos com UTRs 3 'muito longos (até 15-18 kb) e uma incompatibilidade impressionante no número de específicos masculinos genes (aproximadamente 13% de todos os modelos de genes anotados) vs. genes específicos de mulheres (menos de 1%). O número de pseudogenes identificados e mutações na cepa sequenciada também aumentou significativamente. Discutimos os desafios restantes, por exemplo, a identificação de pequenos polipeptídeos funcionais e a detecção de iniciações de tradução alternativas.

Palavras-chave: junção de exon de splice alternativo transcriptoma do local de início da transcrição do lncRNA.

Copyright © 2015 Matthews et al.

Bonecos

Mudanças no gene FlyBase ...

Mudanças na anotação do modelo de gene FlyBase definidas na era do alto rendimento ...

O modelo do gene Klp54D era ...

O modelo do gene Klp54D foi dividido em dois genes. Uma visualização GBrowse1 de ...

Site alternativo de início da transcrição e ...

Local alternativo de início da transcrição e final 3 'para CG31717. Uma visualização GBrowse2…

Novos genes longos de RNA não codificantes ...

Novos genes longos de RNA não codificantes são suportados por dados de RNA-Seq. Uma visualização GBrowse2…

O novo gene ncRNA CR45161 é ...

O novo gene ncRNA CR45161 é anti-sentido para fln. CR45161 é um novo…

Um subconjunto de possíveis AnxB9 ...

Um subconjunto de possíveis isoformas de transcrição AnxB9 foi anotado. Junção RNA-Seq e ...

As duas isoformas de proteínas não sobrepostas ...

As duas isoformas de proteína não sobrepostas de klar. Uma visualização GBrowse2 de klar…


Fundo

A anotação funcional de sequências do genoma de metazoários representa um dos maiores desafios na pesquisa biológica moderna. Por exemplo, mesmo com restrições estruturais impostas pelo código genético para orientar o projeto do algoritmo, a identificação de todos os genes codificadores de proteínas em um genoma de metazoário permanece um problema computacional não resolvido. A identificação de sequências não codificantes funcionais, como regiões não traduzidas (UTRs), genes para RNAs não codificadores de proteínas e cisOs elementos regulatórios representam um problema ainda mais difícil para a anotação do genoma abrangente, pois as regras que governam sua estrutura e função permanecem mais elusivas. Apesar dessas dificuldades, está cada vez mais claro que as abordagens genômicas comparativas ajudarão substancialmente os esforços para anotar essas e outras características importantes da sequência. Com os dados da sequência do genoma completo se tornando rapidamente disponíveis para vários organismos, é importante determinar quais comparações de espécies e características da evolução do genoma serão mais úteis para a anotação comparativa do genoma.

O gênero Drosófila oferece um sistema genético evolutivo bem caracterizado para desenvolver e testar métodos para anotação comparativa do genoma. Dos estudos genéticos populacionais e filogenéticos seminais de Dobzhansky e colegas de trabalho [1], e da classificação das relações taxonômicas no gênero por Patterson, Stone e outros [2], Drosófila há muito tempo serve como um sistema modelo para desenvolver e testar princípios evolutivos nos níveis morfológico e citológico. O gênero Drosófila também serviu como campo de provas para o desenvolvimento e teste de princípios evolutivos nos níveis de proteína [3] e sequência de DNA [4]. Além disso, por mais de uma década e meia, a análise comparativa de sequências teve um papel importante na análise funcional de genes e cis- sequências regulatórias em Drosófila (ver, por exemplo, [5,6]). Esta história de pesquisa culminou em uma rica compreensão do padrão e do processo de evolução molecular no gênero Drosófila [7]. Com o sequenciamento completo da porção eucromática do Drosophila melanogaster genoma [8,9], este conhecimento prévio pode ser aplicado à tarefa de anotação comparativa do genoma.

Realizamos um estudo piloto para avaliar a contribuição de dados comparativos de sequência genômica em larga escala na anotação funcional do Drosófila genoma. Nossos objetivos são identificar as espécies cujas sequências do genoma seriam mais úteis na anotação do D. melanogaster genoma, e para identificar características da evolução do genoma que podem auxiliar na anotação de genes codificadores de proteínas e não cis- sequências reguladoras que controlam sua transcrição. As lições aprendidas com este estudo têm implicações nos esforços para anotar todo o D. melanogaster genoma usando dados de sequência comparativa do próximo D. pseudoobscura genoma [10], bem como o recentemente concluído Anopheles gambiae genoma [11]. Além das análises iniciais apresentadas aqui, esses dados também servem como materiais para o estudo mais aprofundado dos processos evolutivos moleculares em Drosófila e a calibração de ferramentas de análise de sequência comparativa.

Aqui, relatamos o isolamento e a análise de sequências genômicas de oito regiões candidatas que representam regiões ricas e pobres em genes do Drosófila genoma, totalizando mais de 1,25 megabases (Mb) de sequência de DNA. Estas regiões foram isoladas de bibliotecas de fosmídeos de quatro divergentes Drosófila espécie (D. erecta, D. pseudoobscura, D. willistoni, e D. littoralis) escolhido para cobrir uma gama de tempos de divergência (6-15, 46, 53 e 61-65 milhões de anos, respectivamente) das espécies de referência, D. melanogaster [7]. Usando o pipeline de anotação e as ferramentas de curadoria descritas nos documentos anexos [12,13,14], previmos o conteúdo da sequência de codificação dessas sequências para análises comparativas subsequentes. Nossos resultados indicam que a maioria das sequências de codificação previstas em D. melanogaster pode ser identificado em divergentes Drosófila espécies e mostram evidências de restrição funcional. A microssintenia é geralmente mantida na escala de clones individuais de fosmídeos, e os poucos pontos de quebra de rearranjo, elementos transponíveis e transposições de genes podem ser facilmente identificados. A análise da evolução da sequência codificadora sugere que genes não caracterizados, aos quais nos referiremos como genes 'preditos', tendem a ter uma taxa maior de evolução de proteínas do que genes 'conhecidos' - aqueles genes que foram selecionados para estudo experimental e, portanto, são mais prováveis ter funções facilmente discerníveis. A análise da evolução da sequência não codificadora revela que os níveis de conservação variam com o tempo de divergência, e que as sequências não codificantes conservadas (CNCSs) exibem um padrão notável de agrupamento espacial em Drosófila. Usando ensaios repórter transgênicos, mostramos que os clusters CNCS podem ser usados ​​para prever com precisão um intensificador regulado de desenvolvimento no áptero (ap) região. Discutimos as implicações de nossos resultados para abordagens comparativas de codificação de proteínas e cis- predição de sequência regulatória no gênero Drosófila.


Müller, O. & amp Krawinkel, M. Malnutrição e saúde nos países em desenvolvimento. CMAJ 173, 279–286 (2005).

Nelson, G. et al. Um receptor de sabor de aminoácidos. Natureza 416, 199–202 (2002).

Efeyan, A., Comb, W. C. & amp Sabatini, D. M. Nutrient-sensing engines and pathways. Natureza 517, 302–310 (2015).

Simpson, S. J., Le Couteur, D. G. & amp Raubenheimer, D. Putting the balance back in diet. Célula 161, 18–23 (2015).

Jung, S.-H. et al. Identificação de um novo neuropeptídeo de inseto, CNMa e seu receptor. FEBS Lett. 588, 2037–2041 (2014).

Ganguly, A. et al. Um papel dependente do contexto molecular e celular para Ir76b na detecção do sabor do aminoácido. Cell Rep. 18, 737–750 (2017).

Croset, V., Schleyer, M., Arguello, J. R., Gerber, B. & amp Benton, R. A molecular and neuronal basis for amino acid sensing in the Drosófila larva. Sci. Representante. 6, 34871 (2016).

Nottebohm, E. et al. O gene poxn controla as diferentes etapas da formação dos órgãos quimiossensoriais em Drosófila. Neurônio 12, 25–34 (1994).

Dus, M. et al. O sensor de nutrientes no cérebro direciona a ação do eixo cérebro-intestino em Drosófila. Neurônio 87, 139–151 (2015).

Yang, Z. et al. Um sensor de aminoácidos pós-ingestivo promove o consumo de alimentos em Drosófila. Cell Res. 28, 1013–1025 (2018).

Buchon, N. et al. Caracterização morfológica e molecular da compartimentação do intestino médio em adultos em Drosófila. Cell Rep. 3, 1725–1738 (2013).

Masuyama, K., Zhang, Y., Rao, Y. & amp Wang, J. W. Mapping neural circuits with activity-dependente nuclear import of a transcription factor. J. Neurogenet. 26, 89–102 (2012).

Gallinetti, J., Harputlugil, E. & amp Mitchell, J.R. Amino acid sensing in dietary-restrição-mediated longevity: roles of signal-transducing quinases GCN2 and TOR. Biochem. J. 449, 1–10 (2013).

Dong, J., Qiu, H., Garcia-Barrio, M., Anderson, J. & amp Hinnebusch, A. G. Uncharged tRNA ativa GCN2 deslocando a porção de proteína quinase de um domínio de ligação de tRNA bipartido. Mol. Célula 6, 269–279 (2000).

Wolfson, R. L. & amp Sabatini, D. M. O alvorecer da era dos sensores de aminoácidos para a via mTORC1. Metab celular. 26, 301–309 (2017).

Ye, J. et al. A via GCN2-ATF4 é crítica para a sobrevivência e proliferação das células tumorais em resposta à privação de nutrientes. EMBO J. 29, 2082–2096 (2010).

Roczniak-Ferguson, A. et al. O fator de transcrição TFEB liga a sinalização de mTORC1 ao controle transcricional da homeostase dos lisossomas. Sci. Sinal. 5, ra42 (2012).

Bouché, V. et al. Drosófila Mitf regula a V-ATPase e a via lisossomal-autofágica. Autofagia 12, 484–498 (2016).

Leitão-Gonçalves, R. et al. Bactérias comensais e aminoácidos essenciais controlam o comportamento de escolha e reprodução dos alimentos. PLoS Biol. 15, e2000862 (2017).

Shin, S.C. et al. Drosófila O microbioma modula o desenvolvimento do hospedeiro e a homeostase metabólica por meio da sinalização da insulina. Ciência 334, 670–674 (2011).

Erkosar, B., Storelli, G., Defaye, A. & amp Leulier, F. Mutualismo hospedeiro-microbiota intestinal: “learning on the fly”. Micróbio hospedeiro celular 13, 8–14 (2013).

Sun, J. et al. Drosófila FIT é um hormônio da saciedade específico de proteína essencial para o controle da alimentação. Nat. comum. 8, 14161 (2017).

Liu, Q. et al. A plasticidade específica do ramo de um circuito de dopamina bifuncional codifica a fome de proteína. Ciência 356, 534–539 (2017).

Bjordal, M., Arquier, N., Kniazeff, J., Pin, J. P. & amp Léopold, P. Sensing of aminoácidos em um circuito dopaminérgico promove a rejeição de uma dieta incompleta em Drosófila. Célula 156, 510–521 (2014).

Hao, S. et al. ARNt não carregado e detecção de deficiência de aminoácidos no córtex piriforme de mamíferos. Ciência 307, 1776–1778 (2005).

Gribble, F. M. & amp Reimann, F. Enteroendocrine cells: chemosensors in the intestinal epithelium. Annu. Rev. Physiol. 78, 277–299 (2016).

Gribble, F. M. & amp Reimann, F. Função e mecanismos das células enteroendócrinas e hormônios intestinais no metabolismo. Nat. Rev. Endocrinol. 15, 226–237 (2019).

Marianes, A. & amp Spradling, A. C. Fisiológica e compartimentalização das células-tronco dentro do Drosófila intestino médio. eLife 2, e00886 (2013).

Lemaitre, B. & amp Miguel-Aliaga, I. O trato digestivo de Drosophila melanogaster. Annu. Rev. Genet. 47, 377–404 (2013).

Kiela, P. R. & amp Ghishan, F. K. Physiology of intestinal absorb and secreção. Best Pract. Res. Clin. Gastroenterol. 30, 145–159 (2016).

Redhai, S. et al. Um sensor de zinco intestinal regula a ingestão de alimentos e o crescimento do desenvolvimento. Natureza 580, 263–268 (2020).

Hill, C. M., Berthoud, H.-R., Münzberg, H. & amp Morrison, C. D. Homeostatic sensing of dietary protein Resting: a case for FGF21. Frente. Neuroendocrinol. 51, 125–131 (2018).

Fisher, F. M. & amp Maratos-Flier, E. Understanding the physiology of FGF21. Annu. Rev. Physiol. 78, 223–241 (2016).

De Sousa-Coelho, A. L., Marrero, P. F. & amp Haro, D. Ativando a indução de FGF21 dependente do fator de transcrição 4 durante a privação de aminoácidos. Biochem. J. 443, 165–171 (2012).

Zhang, Y. et al. Indução de termogênese dependente de TFEB pelo inibidor de hepatócito SLC2A trealose. Autofagia 14, 1959–1975 (2018).

Fon Tacer, K. et al. Recurso de pesquisa: atlas de expressão abrangente do sistema de fator de crescimento de fibroblastos em camundongos adultos. Mol. Endocrinol. 24, 2050–2064 (2010).

Arrese, E. L. & amp Soulages, J.L. Insect gordura corporal: energia, metabolismo e regulação. Annu. Rev. Entomol. 55, 207–225 (2010).

Hadjieconomou, D. et al. Os neurônios entéricos aumentam a ingestão alimentar materna durante a reprodução. Natureza 587, 455–459 (2020).

Wang, P., Jia, Y., Liu, T., Jan, Y. N. & amp Zhang, W. Os neurônios visceral mecano-sensing control drosophila alimentação usando Piezo como um sensor. Neurônio 108, 640–650 (2020).

Semba, R. D. et al. A baixa estatura infantil está associada à baixa circulação de aminoácidos essenciais. EBioMedicine 6, 246–252 (2016).

Simpson, S. J. & amp Raubenheimer, D. Obesity: the protein leverage hipótese. Obes. Rev. 6, 133–142 (2005).

Venken, K. J. T. et al. MiMIC: um recurso de inserção de transposon altamente versátil para engenharia Drosophila melanogaster genes. Nat. Métodos 8, 737–743 (2011).

Kondo, S. & amp Ueda, R. Alvejamento de gene altamente melhorado por expressão de Cas9 específica de linha germinativa em Drosófila. Genética 195, 715–721 (2013).

Dus, M., Ai, M. & amp Suh, G. S. B. A seleção de nutrientes independente do sabor é mediada por um co-transportador de Na + / soluto específico do cérebro em Drosófila. Nat. Neurosci. 16, 526–528 (2013).

Ryu, J.-H. et al. Homeostase imune inata pelo gene homeobox Caudal e mutualismo intestinal comensal em Drosófila. Ciência 319, 777–782 (2008).

Tasanapak, K., Masud-Tippayasak, U., Matsushita, K., Yongmanitchai, W. & amp Theeragool, G. Influence of Acetobacter pasteurianus SKU1108 aspS expressão gênica em Escherichia coli morfologia. J. Microbiol. 51, 783–790 (2013).

Katzen, F., Becker, A., Ielmini, M. V., Oddo, C. G. & amp Ielpi, L. Novos vetores mobilizáveis ​​adequados para substituição de genes em bactérias gram-negativas e seu uso no mapeamento da extremidade 3 'do Xanthomonas campestris pv. Campestris Chiclete operon. Appl. Environ. Microbiol. 65, 278–282 (1999).

Altschul, S. F., Gish, W., Miller, W., Myers, E. W. & amp Lipman, D. J. Basic local direction search tool. J. Mol. Biol. 215, 403–410 (1990).


Materiais e métodos

Drosophila melanogaster tensões e manutenção

As moscas da cepa T (ver Introdução), mantidas a 31–32 ° C (T32) e 25 ° C (T25) por muitos anos (ver Introdução), foram comparadas com moscas Oregon R do tipo selvagem. Em alguns casos, as moscas T32 foram criadas desde o ovo até a idade adulta a 25 ° C antes da análise.Para determinações de termotolerância e para ensaio imunoenzimático específico para Hsp70 (ELISA), as moscas T32 e T25 foram transportadas para Chicago e mantidas em suas temperaturas normais por pelo menos uma geração antes do uso. Essas moscas foram comparadas com um estoque Oregon R (A25) mantido a 25 ° C em gerações discretas por mais de 20 anos (Bettencourt et al., 1999 Cavicchi et al., 1995 Cavicchi et al., 1989). Todas as outras comparações foram com um estoque Oregon R mantido a 25 ° C em Moscou por muitos anos. Todas as moscas foram criadas em meio de fermento, fubá, melaço e ágar.

Termotolerância

Os indivíduos adjacentes foram sequestrados diariamente e, aos 4 dias de idade, foram transferidos por aspiração para um frasco de vidro fresco contendo 8ml de meio. Um círculo de papel de filtro acima do meio permitia que as moscas tivessem acesso a ele, mas evitava que aderissem a ele. Cada frasco geralmente continha 16–20 animais, mas ocasionalmente continha apenas 10. No dia seguinte, os frascos foram tampados com uma rolha umedecida acima de um tampão de algodão, colocados em uma prateleira com frascos espaçados uniformemente e imersos em um banho de água no pré-tratamento e temperaturas de choque térmico. Algumas moscas foram expostas diretamente ao choque térmico (37–41 ° C) por 30min. Outros foram submetidos à exposição a uma temperatura de pré-tratamento (36-38 ° C) por 30min, seguida de 25 ° C por 1h, e então foram submetidos a choque térmico. A termotolerância foi medida como a proporção de moscas em um frasco que conseguiam andar 24 horas após o choque térmico.

Medição da proteína Hsp70 em moscas inteiras

As moscas foram submetidas a choque térmico como acima, mas por durações diferentes dependendo do projeto experimental, imediatamente congeladas em nitrogênio líquido e então armazenadas a -80 ° C até a análise. Pares de moscas tratadas de forma idêntica foram lisados ​​em 200-400μl de inibidor de protease completo 1 × gelado (Boehringer-Mannheim Corp) em solução salina tamponada com fosfato por trituração breve com um pilão descartável gelado. Os lisados ​​foram centrifugados a 14000g durante 30 min a 4 ° C, e o teor de proteína do sobrenadante foi determinado (BCA Assay, Pierce Chemical Co., Rockford, IL, USA). Os sobrenadantes preparados no mesmo dia foram diluídos em 20μgml −1 de proteína em tampão de revestimento resfriado em gelo e usados ​​para revestir placas de micropoços (Falcon nº 3915 ProBind) para determinação do conteúdo de Hsp70 por ELISA (Feder et al., 1997 Feder et al. ., 1996). As placas foram deixadas durante a noite a 4 ° C para permitir a adsorção das proteínas. Após enxágue extensivo, Hsp70 ligado foi detectado usando uma diluição de 1: 5000 do Drosófila Anticorpo 7FB específico para Hsp70 (Velazquez et al., 1980 Velazquez et al., 1983) acoplado a fosfatase alcalina através da um anticorpo secundário (1: 1000 IgG de coelho anti-rato Cappel Organon Teknika) e um anticorpo terciário (1: 1000 IgG Sigma de cabra anti-coelho conjugado com fosfatase alcalina). As placas foram incubadas a 37 ° C com o substrato de fosfatase p-nitrofenilfosfato (1mgml −1) preparado de acordo com as instruções do fabricante (Sigma), e o produto de reação colorido foi medido a 405nm em um leitor de microplacas. Para pelo menos uma réplica de cada amostra ou padrão, o anticorpo primário foi omitido para permitir a correção de sinal não específico. O sinal ELISA é proporcional à concentração de Hsp70 nos lisados ​​e é expresso como uma porcentagem de um sinal padrão, que para um lisado de D. melanogaster Células S2 em cultura de tecidos que foram expostas a 36,5 ° C por 1h e a 25 ° C por 1h antes da lise.

Marcação de proteínas, eletroforese em gel e imunoblotting

Dez glândulas salivares de larvas de terceiro estádio foram marcadas em 20μl de meio de inseto Schneider sem metionina (Sigma) após a adição de 1μl (1,85 MBq) de l - [35 S] metionina (Amersham) por 1h a 25 ° C após vários tratamentos . Eletroforese em gel bidimensional e outros procedimentos aplicados foram conforme descrito por O’Farrell et al. (O’Farrell et al., 1977) e Ulmasov et al. (Ulmasov et al., 1992). A posição do Hsps principal e da actina foi determinada por autorradiografia (ver acima) e por coloração subsequente dos géis com prata (Creighton, 1990). As glândulas salivares também foram marcadas com aminoácidos marcados com 14C, que produziram essencialmente os mesmos resultados (dados não mostrados).

Para imunotransferência, após eletroforese de dodecil sulfato de sódio / poliacrilamida (SDS-PAGE) do lisado larval preparado como acima, as proteínas foram transferidas para uma membrana de nitrocelulose (Hybond ECL Amersham) de acordo com o protocolo do fabricante. Anticorpos monoclonais específicos para todo D. melanogaster A família Hsp70 (7.10.3) e a Hsp70 sozinha (7FB, ver acima) foram obtidas da Dra. Susan Lindquist (The University of Chicago). Os imunocomplexos foram detectados através da quimioluminescência (kit ECL, Amersham) e 3,3′-diaminobenzidina (DAB) (Sigma) com os anticorpos secundários anti-rato conjugados com peroxidase correspondentes.

Preparação de RNA e hibridização do norte

O RNA foi preparado pelo método padrão usando 4moll −1 isotiocianato de guanidina (Chomczynsky e Sacchi, 1987). Blotting e hibridização do norte com um ClaEU-BamFragmento HI contendo o Drosophila melanogaster hsp70 gene clonado no BamO local HI de pUC13 (McGarry e Lindquist, 1985) foi realizado (Sambrook e Fritsch, 1989) com ligeiras modificações. A hibridização foi durante a noite a 42 ° C em 50% de formamida, seguida por duas lavagens de 20 minutos em 2 × SSC, 0,2% de SDS a 42 ° C, duas lavagens de 20 minutos em 1 × SSC, 0,2% de SDS a 42 ° C e uma lavagem de 20 minutos em 0,2 × SSC, SDS a 0,2% a 68 ° C.

Hibridização Southern e digestão de restrição

DNA genômico de diferentes D. melanogaster estirpes (moscas adultas) foi preparada como descrito anteriormente (Zelentsova et al., 1986). O DNA genômico (20μg) foi usado para uma digestão típica com enzimas de restrição. Os digestos foram preparados para hibridização por eletroforese em géis de agarose a 1%, desnaturação e transferência capilar em membranas de náilon de acordo com o protocolo do fabricante. A fixação foi por reticulação ultravioleta com um UV Stratalinker 2400 (Stratagene). Hibridização padrão de alto rigor e condições de lavagem foram usadas (Zelentsova et al., 1986). A sonda foi a mesma usada em Northern blots.

Ensaio de mudança de mobilidade em gel

As moscas foram congeladas e pulverizadas em nitrogênio líquido, e o pó foi suspenso (1: 5) em um tampão contendo 20mmoll −1 Hepes, pH 7,9, 25% v / v glicerol, 0,42 mol −1 NaCl, 1,5mmoll −1 MgCl2, 0,2 mmol -1 EDTA, 0,5 mmol -1 de fluoreto de fenimetilsulfonil (PMSF) e 0,5 mmol -1 de ditiotreitol e centrifugado a 100000g por 20min. Os sobrenadantes foram congelados em nitrogênio líquido e armazenados a -70 ° C. A concentração de proteína dos extratos foi estimada com um método de Lowry modificado (Ulmasov et al., 1992).

A sonda de consenso HSE (Wu et al., 1988) foi preparada por anelamento de oligonucleotídeos parcialmente complementares (ATCCGAGCGCGCCTCGAATGTTCTAGAA e CTCGCGCGGAGCTTACAAGATCTTTTCCA) em tampão de fosfato de potássio 10mmoll −1, pH8,2, na presença de 0,1mmoll −1 NaCl −1. Os terminais de fita simples foram preenchidos com polimerase Klenow e [32 P] ATP (Sambrook e Fritsch, 1989). Para o ensaio de mudança de mobilidade em gel, os extratos contendo 50 μg de proteína foram misturados com 0,5 ng de [32 P] HSE no tampão de ligação (conforme descrito por Mosser et al., 1993). A mistura de reação de ligação foi incubada à temperatura ambiente (20 ° C) durante 20 min. A sonda livre foi separada dos complexos HSE-HSF por eletroforese através de géis de poliacrilamida a 5% (Mosser et al., 1993). Os géis foram secos e expostos a filme de raios X (Kodak X-Omat) a -70 ° C.

Para identificar as bandas correspondentes ao autoantígeno HSF ou Ku, extratos de células de controle ou células submetidas a choque térmico foram pré-incubados por 20 minutos com anti-D. melanogaster Anticorpos Ku (presente de D. Rio) ou com anti-D. melanogaster Soro HSF (presente de C. Wu, NIH) antes da incubação com a sonda HSE marcada, as amostras foram então submetidas a eletroforese.

Análises de sequências de nucleotídeos

O DNA genômico de 75 adultos por cepa foi obtido por extração padrão com fenol / clorofórmio e foi usado como modelo para produtos de amplificação a serem clonados e sequenciados. O DNA de uma única mosca para telas de polimorfismo foi preparado a partir de moscas individuais homogeneizando adultos em 50 μl de tampão com 0,2 μg μl −1 de Proteinase K (Gloor et al., 1993). As amostras foram incubadas a 37 ° C por 30min, aquecidas a 95 ° C para inativar a Proteinase K e armazenadas a –20 ° C.

A reação em cadeia da polimerase (PCR) de preparações de uma única mosca foi realizada adicionando 2 μl de DNA modelo ao tampão (10mmoll −1 Tris-HCl, pH9,0, 50mmoll −1 KCl, 0,1% Triton X-100) com 1,5–3,0mmoll -1 MgCl2, 0,2mmoll −1 cada dNTP, 5pmol de cada primer e 1,25unidades de Taq DNA polimerase (Promega) por 25μl de mistura de reação. Para a amplificação por PCR dos fragmentos a serem clonados e sequenciados, 1μl de DNA molde das preparações de massa foi adicionado ao tampão (50mmoll −1 KCl, 50mmoll −1 Tris-HCl, pH 8,3) com 1,5mmoll −1 MgCl2, 0,2mmoll -1 cada dNTP, 5pmol de cada primer e 2,5 unidades de mistura de DNA polimerase MasterAmp TAQurate (Epicenter Technologies) por 100μl de reação. As condições de reação para todos os PCRs foram 30 ciclos de 1 min a 92 ° C, 1 min a 54 ° C e 1,5 min a 72 ° C. Para amplificar uma porção do locus 87A7, os iniciadores foram: superior, 5′CATCCCAAAAATCTGTAAAGC3 ′ inferior, 5′ACTGTGTTTCTGGGGTTCAT3 ′. Estes flanqueiam um H.M.S. Beagle local de inserção do elemento e uma característica de inserção de aproximadamente 140 pares de base (bp) de alelos do tipo 56H8 (Bettencourt, 2001), se presente. Para amplificar o hsp70Ba promotor, os primers foram: superior, 5′GCAAGCAATCATCATCCAAT3 ′ inferior, 5′ACTGTGTTTCTGGGGTTCAT3 ′. Estes flanqueiam um Jóquei site de inserção do elemento. Fig.8A exibe os tamanhos dos produtos de amplificação resultantes, que foram resolvidos através da eletroforese em gel de agarose. Para selecionar moscas individuais para o Jóquei elemento, os primers foram os anteriores hsp70Ba primers mais um Jóquei- iniciador interno específico (inferior, 5′AAGAAGACTCAAGCGACACC3 ′).

Para clonagem e sequenciamento, os produtos de PCR foram amplificados a partir do modelo de DNA em massa, purificados em gel e / ou limpos com colunas de rotação Qiagen, suspensos em água e clonados no vetor pGEM-T Easy (Promega) de acordo com as recomendações do fabricante. Os clones de plasmídeo individuais foram preparados com colunas de rotação Qiagen Miniprep, suspensos em água e sequenciados. As reações de sequenciamento foram realizadas com kits de sequenciamento de ciclo ABI Prism (Perkin Elmer) de acordo com as instruções do fabricante. A sequenciação foi realizada em sequenciadores ABI 377. Todas as amostras foram sequenciadas usando primers baseados na sequência do vetor. Iniciadores de sequenciamento interno (sequências disponíveis mediante solicitação) foram usados ​​para fornecer cobertura de fita dupla. As sequências foram montadas manualmente e alinhadas usando CLUSTAL X (Jeanmougin et al., 1998). As informações de sequência relevantes foram depositadas no GenBank e / ou estão disponíveis mediante solicitação.


Discussão

Para obter amostras do espaço genotípico dentro das espécies, a genética empírica da população seguiu de perto o estado da arte das técnicas moleculares atuais para levantamento da variação genética (Avise, 1994). Desde os primeiros dias da eletroforese de proteínas (Lewontin e Hubby 1966), ao sequenciamento de DNA (Kreitman 1983), às pesquisas de variação de microssatélites (Schlotterer et al. 1997 Irvin et al. 1998), a telas de resequenciamento em grande escala (Hutter et al. . 2007), dois objetivos principais na genética de populações têm sido caracterizar padrões de variação genética em populações naturais e, posteriormente, inferir processos de mudança evolutiva. Os esforços para desvendar os processos evolutivos em uma escala mais precisa motivaram o desenvolvimento de ferramentas para aumentar o número de indivíduos amostrados e a fração do genoma coberto. Novas tecnologias de sequenciamento (Mardis 2008) estão agora instigando uma mudança radical no escopo da genética populacional, gerando cobertura de amostra e profundidade em uma escala muito mais alta do que nunca. À medida que a quantidade de dados disponíveis para a análise genética populacional cresce para múltiplas proporções do genoma completo (Liti et al. 2009), novas técnicas e abordagens analíticas serão necessárias. Vários estudos já começaram a desenvolver métodos para estimar a diversidade de nucleotídeos a partir de dados esparsos (Hellmann et al. 2008 Jiang et al. 2009 Lynch 2009), mas nenhum ainda aplicou essas abordagens a conjuntos de dados reais de leitura curta. À medida que os dados começam a aparecer de projetos de resequenciamento em grande escala, como o Projeto 1000 Genomes em humanos, o Projeto 1001 Genoma em Arabidopsis e o Projeto do Painel de Referência Genética da Drosophila em moscas, entender a aplicação prática e as limitações desses métodos de leitura curta tornam-se cada vez mais importantes.

Aqui, apresentamos a primeira tentativa de fazer inferência genética populacional em escala genômica a partir de alinhamentos de baixa cobertura. Usando duas populações de D. melanogaster, amostrados em diferentes níveis de cobertura, empregamos abordagens e critérios rigorosos, incluindo alinhamentos conservadores, modelos SNP probabilísticos e uma correção para estimar a diversidade de nucleotídeos. Em muitos casos, recapitulamos os padrões de variação do SNP previamente observados em Drosophila: diversidade reduzida no cromossomo X em relação aos autossomos, diversidade reduzida em populações não africanas em relação às populações ancestrais africanas e correlações positivas entre a taxa de recombinação e diversidade. Também relatamos novos resultados que dependem de amostragem em larga escala, em particular nossa observação de que as correlações entre a taxa de recombinação (com base no mapa genético padrão de D. melanogaster) e a diversidade parece ser mais forte para autossomos não africanos do que para outras populações e cromossomos.

No entanto, nossa abordagem também sofre de limitações importantes. Nossas estimativas de & # x003b8 parecem ser influenciadas pelas escolhas conservadoras feitas durante o alinhamento e a chamada SNP: tendemos a observar estimativas mais baixas de & # x003b8 do que relatado anteriormente. Em estudos futuros, será importante reconhecer que o alinhamento e os métodos de chamada SNP podem ter impactos significativos nas estimativas de diversidade a jusante. Além disso, dados os métodos atuais e a natureza esparsa de nosso conjunto de dados, não podemos fazer inferências que dependem de estatísticas baseadas em frequência. Cobertura mais profunda e métodos que permitem o cálculo das probabilidades de dados completos (em oposição a apenas a probabilidade de um site ser um SNP ou não, em relação à referência) serão necessários para capturar totalmente as informações de frequência de alelo em conjuntos de dados esparsos.

A amostragem de genomas inteiros de populações naturais por meio de um número crescente de novas plataformas de sequenciamento provavelmente se tornará a norma na genômica de populações. Como o sequenciamento diminui significativamente no custo, em breve será possível gerar dados de resequenciamento de alta cobertura completos para organismos modelo com genomas relativamente pequenos. No entanto, conjuntos de dados esparsos, como o que descrevemos aqui, sem dúvida se tornarão a norma em organismos não-modelo e em organismos com grandes genomas. Portanto, é imperativo que continuemos a desenvolver métodos estatísticos rigorosos que lidem com esse ataque de sequências genômicas aleatórias. Neste artigo, destacamos os problemas potenciais da genômica da população com cobertura esparsa, que incluem problemas de alinhamento, qualidade de sequenciamento, profundidade variável de cobertura e sites ausentes. Mostramos que as soluções para esses problemas & # x02014a montagem de Mosaik conservadora incorporando erros de sequenciamento, modelo bayesiano para identificação de SNP e estimadores imparciais da diversidade de nucleotídeos (ou seja, & # x003b8) & # x02014 nos permitem inferir os padrões esperados de variação, mesmo que sejam muito esparsos cobertura em duas populações de D. melanogaster, embora mais trabalho seja necessário para desenvolver métodos para permitir a inferência com base em frequências de alelos e para enfrentar os desafios inerentes a uma abordagem probabilística de alinhamento e qualidade de dados.

Mesmo os métodos atuais demonstram a ampla promessa de genômica populacional de leitura curta, especialmente para organismos onde os recursos para projetos de resequenciamento de alta qualidade e cobertura profunda não estão disponíveis. Projetos genômicos populacionais de cobertura esparsa sempre enfrentarão algumas limitações: a montagem de novo de dados de baixa cobertura não é viável e, portanto, qualquer estudo genômico populacional desse tipo exigirá um genoma de referência para fins de mapeamento. Embora o genoma de referência não precise ser necessariamente a mesma espécie das populações pesquisadas, genomas de referência mais distantes reduzirão a eficiência do mapeamento. A eficiência do mapeamento também tende a ser reduzida em organismos com genomas muito grandes e especialmente aqueles com alto conteúdo de DNA repetitivo, pois as sequências repetitivas geralmente não podem ser mapeadas exclusivamente para a referência. No entanto, além da disponibilidade de uma referência adequada, acreditamos que as abordagens de leitura curta de cobertura esparsa fornecem uma maneira econômica e acessível para pesquisar a variação de todo o genoma em uma ampla gama de organismos. O método para inferir & # x003b8 descrito aqui é facilmente aplicável a organismos heterozigotos (Hellmann et al. 2008), eliminando a necessidade de endogamia antes do sequenciamento. Além disso, a amostragem de todo o genoma tem vantagens importantes sobre abordagens alternativas, como sequenciamento de regiões genômicas direcionadas: como demonstramos, um único experimento pode fornecer informações sobre SNPs, CNPs e variação no conteúdo de TE.

A genética populacional tem historicamente focado em variantes mutacionais compostas de mudança de nucleotídeo único. Ao utilizar sequências aleatórias alinhadas a um conjunto de referência, novos dados genômicos mantêm a promessa de fornecer um instantâneo mais rico da variação genética existente, além das variantes de um único nucleotídeo. Com os dados de todo o genoma acumulados em uma escala populacional, também podemos caracterizar esses padrões de variação genômica como diversidade de TE e CNP. Ao amostrar a variação estrutural e de sequência de uma maneira integrada e ao fornecer maneiras econômicas para inferência genômica populacional em organismos não-modelos, o sequenciamento de próxima geração está nos conduzindo a uma nova era na genômica populacional que permitirá uma visão abrangente da variação molecular subjacente toda a evolução do genoma e do organismo.


Validação de conjunto de dados

Para validar a qualidade dos dados da sequência bruta, leituras diretas e reversas foram analisadas usando fastQC (versão 0.11.2) (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/). Os arquivos de leitura direta e reversa para todas as execuções tinham o status PASS para a maioria das estatísticas fastQC. A qualidade por sequência de base deu o status de FALHA para arquivos de leitura direta ou reversa para todas as amostras de GA (que foram sequenciadas juntas em uma execução) por causa de pontuações de baixa qualidade no terminal 1–5 bp da leitura. Esses terminais de baixa qualidade podem ser facilmente aparados e não afetam a capacidade de mapeamento, pois a porcentagem de leituras mapeadas para essas execuções é muito alta (consulte Conjunto de dados 1).

Corre SampleName PercentMapped WolbachiaDepth WolbachiaBreadth PredictedInfectionStatus ExperimentalInfectionStatus NumRead1 NumBadRead1 LengthRead1 BasicStatisticsRead1 PerBaseSequenceQualityRead1 PerTileSequenceQualityRead1 PerSequenceQualityScoresRead1 PerBaseSequenceContentRead1 PerSequenceGCContentRead1 PerBaseNContentRead1 SequenceLengthDistributionRead1 SequenceDuplicationLevelsRead1 OverrepresentedSequencesRead1 AdapterContentRead1 KmerContentRead1 NumRead2 NumBadRead2 LengthRead2 BasicStatisticsRead2 PerBaseSequenceQualityRead2 PerTileSequenceQualityRead2 PerSequenceQualityScoresRead2 PerBaseSequenceContentRead2 PerSequenceGCContentRead2 PerBaseNContentRead2 SequenceLengthDistributionRead2 SequenceDuplicationLevelsRead2 OverrepresentedSequencesRead2 AdapterContentRead2 KmerContentRead2
ERR705945 FR23 98.23 157.2661506 1 infetado y 43632996 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43632996 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705946 FR24 98.26 253.4116299 1 infetado y 43346106 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43346106 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705947 FR25 98.03 0.153247956 0.136415409 não infectado n 43752189 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43752189 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705948 FR26 98.07 0.089912146 0.080452318 não infectado n 44941659 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 44941659 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705949 FR28 97.99 243.9421572 1 infetado y 43685595 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43685595 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705950 FR29 97.87 0.081407529 0.07185147 não infectado n 42950484 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 42950484 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705951 FR30 98.23 0.002058714 0.002058714 não infectado n 42649081 0 90 PASSAR PASSAR AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 42649081 0 90 PASSAR PASSAR AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705952 FR31 98.02 0.009130119 0.003469051 não infectado n 42446188 0 90 PASSAR PASSAR AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 42446188 0 90 PASSAR PASSAR AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705953 FR32 98.15 0.011783572 0.010895406 não infectado n 43804532 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43804532 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705954 FR33 98.19 0.032124608 0.030857829 não infectado n 44688030 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 44688030 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705955 FR34 98 0.077131557 0.067549468 não infectado n 43183556 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43183556 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705956 FR35 98.3 315.1657004 1 infetado y 42738121 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 42738121 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705957 FR37 98.09 0.005362121 0.003086493 não infectado n 43621725 0 90 PASSAR PASSAR FALHOU PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43621725 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705958 FR38 98.11 0.00454179 0.003613397 não infectado n 42989610 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 42989610 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705959 FR39 97.53 0.02486153 0.002581674 não infectado n 43653460 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43653460 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705960 FR42 98.13 0.149636136 0.13461226 não infectado n 43513827 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43513827 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705961 FR44 98.25 176.3625032 1 infetado y 43999930 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43999930 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705962 FR45 98.08 231.0189465 1 infetado y 43534574 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43534574 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705963 FR46 98.25 194.166927 1 infetado y 43032033 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43032033 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705964 FR48 98.31 183.7333295 1 infetado y 44173007 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 44173007 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705965 FRpool20 98.06 98.83144421 1 infetado n / D 44255580 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 44255580 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705966 FRpool39 97.86 111.5827327 1 infetado n / D 43945723 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR FALHOU 43945723 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR FALHOU
ERR705967 GA01 98.18 150.1729217 0.999719195 infetado y 44032050 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 44032050 0 90 PASSAR FALHOU AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705968 GA02 97.95 215.2846917 1 infetado y 43935045 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43935045 0 90 PASSAR FALHOU AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705969 GA03 97.97 209.1012232 0.999730238 infetado y 43868793 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43868793 0 90 PASSAR FALHOU AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705970 GA04 98.01 147.6178483 0.999727082 infetado y 43288985 0 90 PASSAR PASSAR AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43288985 0 90 PASSAR FALHOU FALHOU PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705971 GA05 97.77 0.101011057 0.090340453 não infectado n 43348545 0 90 PASSAR PASSAR AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43348545 0 90 PASSAR FALHOU FALHOU PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705972 GA06 97.98 0.007450808 0.007387705 não infectado n 43688990 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43688990 0 90 PASSAR PASSAR AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR FALHOU
ERR705973 GA07 97.94 0.074818068 0.071163654 não infectado n 43503291 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43503291 0 90 PASSAR FALHOU FALHOU PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705974 GA08 98.1 182.8769394 0.999798861 infetado n 36815786 0 90 PASSAR PASSAR FALHOU PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 36815786 0 90 PASSAR FALHOU FALHOU PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705975 GA08 97.9 14.52127022 0.999612709 infetado n 3132551 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 3132551 0 90 PASSAR PASSAR FALHOU PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705976 GA09 98.07 188.2177543 0.999725505 infetado y 42739085 0 90 PASSAR FALHOU FALHOU PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 42739085 0 90 PASSAR FALHOU FALHOU PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705977 GA10 97.85 122.3655108 1 infetado y 42490121 0 90 PASSAR FALHOU FALHOU PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 42490121 0 90 PASSAR FALHOU FALHOU PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705978 GA11 97.95 246.9037461 0.999725505 infetado y 42911088 0 90 PASSAR FALHOU FALHOU PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 42911088 0 90 PASSAR FALHOU AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705979 GA12 97.96 197.0479893 0.999730238 infetado y 41533830 0 90 PASSAR FALHOU FALHOU PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 41533830 0 90 PASSAR FALHOU AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705980 GA13 98.15 168.4276705 0.999719983 infetado y 43339064 0 90 PASSAR FALHOU AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43339064 0 90 PASSAR FALHOU PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705981 GA15 98 0.11221882 0.105207362 não infectado n 43191678 0 90 PASSAR FALHOU AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43191678 0 90 PASSAR FALHOU AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705982 GA17 98.02 0.116029412 0.108342759 não infectado n 43375446 0 90 PASSAR FALHOU AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 43375446 0 90 PASSAR FALHOU PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705983 GApool15 98.1 60.85875647 1 infetado n / D 22168996 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22168996 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705984 GApool15 98.1 60.83926259 1 infetado n / D 22205575 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22205575 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705985 GApool30 98.08 52.71559543 1 infetado n / D 22154884 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22154884 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705986 GApool30 98.08 52.71422611 1 infetado n / D 22185750 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22185750 0 90 PASSAR PASSAR AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705987 GH01 97.49 0.025129715 0.023159344 não infectado n 22063039 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22063039 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705988 GH01 97.49 0.022915612 0.021481611 não infectado n 22097255 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22097255 0 90 PASSAR PASSAR AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705989 GH02 97.24 0.014733606 0.009604175 não infectado n 22077514 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22077514 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705990 GH02 97.24 0.014497761 0.008524336 não infectado n 22109134 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22109134 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705991 GH04 97.44 0.022074773 0.020114657 não infectado n 22221140 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22221140 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705992 GH04 97.44 0.021787657 0.019542003 não infectado n 22253515 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22253515 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705993 GH05 96.84 0.013619061 0.009383317 não infectado n 22143765 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22143765 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705994 GH05 96.85 0.014468576 0.00899366 não infectado n 22170215 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22170215 0 90 PASSAR PASSAR AVISAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705995 GH06 97.24 0.014600302 0.009973323 não infectado n 22259211 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22259211 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705996 GH06 97.23 0.011142294 0.00801794 não infectado n 22287021 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22287021 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705997 GH08 97.22 0.010342472 0.006264484 não infectado n 22223535 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22223535 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705998 GH08 97.22 0.008726264 0.006128814 não infectado n 22160305 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22160305 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR705999 GH09 97.36 0.005674477 0.004113483 não infectado n 22217543 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22217543 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706000 GH09 97.35 0.00659025 0.00413478 não infectado n 22150945 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22150945 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706001 GH10 97.35 0.009387261 0.004999282 não infectado n 22258559 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22258559 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706002 GH10 97.34 0.008257729 0.003450909 não infectado n 22189787 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22189787 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706003 GH11 97.49 0.007382184 0.007095068 não infectado n 22202208 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22202208 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706004 GH11 97.48 0.007166847 0.00646089 não infectado n 22122521 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22122521 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706005 GH12 97.49 0.006886042 0.006856857 não infectado n 22103525 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22103525 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706006 GH12 97.48 0.006885253 0.006671494 não infectado n 22030025 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22030025 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706007 GH14 97.3 0.008649752 0.005751778 não infectado n 22276314 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22276314 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706008 GH14 97.28 0.010572796 0.008571663 não infectado n 22209150 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22209150 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706009 GH15 97.48 59.98279515 0.999712884 infetado y 22233167 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22233167 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706010 GH15 97.48 60.15407617 0.999720772 infetado y 22163376 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 22163376 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706011 GH16 97.11 0.012396453 0.006327586 não infectado n 44096323 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 44096323 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706012 GH17 97.55 0.003690698 0.003533731 não infectado n 44519157 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 44519157 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706013 GH18 97.24 0.025455481 0.016151831 não infectado n 44409433 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 44409433 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR
ERR706014 GHpool15 97.35 9.322955366 0.99934768 infetado n / D 44828941 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR 44828941 0 90 PASSAR PASSAR PASSAR PASSAR AVISAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR PASSAR

Para validar que a maioria do DNA sequenciado é do (s) organismo (s) focal (s), leituras não cortadas para cada amostra foram mapeadas em modo de extremidade pareada usando Bowtie (versão 2.2.4) (Langmead & amp Salzberg, 2012) com opções padrão para um Referência de "hologenoma" gerada pela concatenação de sequências de genoma para D. melanogaster (Acesso Genbank GCA_000001215.4) (Hoskins et al., 2015) e W. pipientis (Acesso AE017196 do Genbank) (Wu et al., 2004). O mapeamento para um hologenoma foi realizado uma vez que muitas dessas cepas são conhecidas por estarem infectadas com Wolbachia (Verspoor & amp Haddrill, 2011).Arquivos BAM não filtrados foram usados ​​para estimar a proporção de leituras em cada amostra mapeada para os organismos-alvo esperados usando samtools flastat (versão 0.1.19-44428cd) (Li et al., 2009). Mais de 96,8% de todas as leituras em cada execução foram mapeadas para a referência do hologenoma, indicando baixos níveis de DNA contaminante nesses dados (Conjunto de dados 1).

O mapeamento para um hologenoma também nos permitiu verificar se as trocas de cepas ou amostras ocorreram no processo de produção dessas sequências de genoma, comparando o previsto Wolbachia status de infecção com status de infecção baseado em PCR previamente determinado (Verspoor & amp Haddrill, 2011). Wolbachia o status da infecção foi previsto a partir de sequências do genoma para cada cepa seguindo um protocolo modificado de Richardson et al. (2012). Resumidamente, as cepas foram previstas como "infectadas" quando a amplitude da cobertura de leitura mapeada era maior que 90% do Wolbachia o genoma e a profundidade média de cobertura eram maiores que um. Aqui, calculamos a amplitude da cobertura diretamente da saída do bedtools genomecov (versão v2.22.0) (Quinlan & amp Hall, 2010) em vez de uma sequência de consenso, como foi feito anteriormente por Richardson et al. (2012). Previsto Wolbachia o status de infecção combinado com o status de infecção determinado experimentalmente para 55/56 amostras (98,2% de concordância), indicando que é improvável que as trocas de cepas ou amostras tenham ocorrido durante a geração deste conjunto de dados (Conjunto de dados 1). A única exceção observada foi para a linha GA08 da população da Geórgia, que os dados WGS indicam que está infectada, enquanto os dados de PCR indicam que não está infectada. Esta observação pode ser explicada por falha de amplificação por PCR para o estoque GA08 em Verspoor & amp Haddrill (2011) ou infecção do estoque GA08 após a coleta de dados para Verspoor & amp Haddrill (2011). Uma análise mais aprofundada do Wolbachia o status de infecção deste estoque é garantido antes do uso.


Documentação

Um Manual de Referência FlyBase está disponível nos servidores FlyBase em formato html. Uma breve introdução, ‘Introdução ao FlyBase’, está incluída como a primeira seção do Manual de Referência. Anúncios das principais atualizações do banco de dados e novas ferramentas são feitos por meio de postagens no grupo de notícias bionet.drosophila. Os usuários do FlyBase são encorajados a usar este grupo de notícias para rastrear as mudanças no FlyBase.

As descrições das exibições gráficas do BDGP, ​​as perguntas mais frequentes sobre os projetos e métodos de laboratório estão disponíveis em formato html no site do BDGP. Anúncios de atualizações de banco de dados e novos recursos são publicados na página inicial.


Resultados

Detecção precisa de ponto de interrupção de CNVs de um conjunto de dados de sequenciamento 454

Sackton e colegas sequenciaram em baixa cobertura (aproximadamente 0,2x) os genomas de nove D. melanogaster cepas usando tecnologia Roche / 454 [28]. Essas sequências genômicas foram usadas para avaliar até que ponto as inferências genômicas populacionais poderiam ser feitas a partir de cobertura genômica baixa / esparsa. Sackton e colegas identificaram não apenas SNPs, mas também elementos transponíveis e CNVs. No entanto, os últimos foram identificados usando uma estrutura de extremidade pareada que não forneceu os pontos de interrupção exatos das CNVs. Aqui, empregamos uma abordagem diferente para detectar CNVs com base no mapeamento de leitura dividida que é capaz de detectar CNVs com resolução de ponto de interrupção precisa (ou seja, resolução de nucleotídeo único). Definir qual é o tamanho mínimo de uma variante para que seja considerada uma CNV em oposição a um indel é amplamente arbitrário e geralmente reflete o grau de resolução da plataforma usada para identificar essas variantes. Enquanto os estudos iniciais de CNV definiram essas variantes como tendo pelo menos 1 kb de comprimento, estudos mais recentes (por exemplo, 1000 Genomes Project [21]) usam 50 bp como o limite inferior para chamar uma variante de CNV. De acordo com a literatura anterior sobre Drosófila CNVs [5, 10], aqui usamos 25 bp como o limite inferior para classificar inserções, deleções e duplicações como CNVs.

Baixamos os dados brutos para os nove genomas sequenciados por Sackton e colegas [28] e alinhamos as leituras com o D. melanogaster genoma de referência usando o alinhador Mosaik [29]. Descartamos todas as leituras mapeadas para o genoma de referência e nos concentramos apenas no subconjunto das leituras que não foram mapeadas. Nós realinhamos essas leituras com o genoma de referência usando BLAT [30] (consulte Métodos). Como o BLAT foi projetado para alinhar o mRNA ao DNA genômico, ele não penaliza a existência de grandes lacunas entre as leituras e o genoma de referência e fornece a localização exata dessas lacunas. Ao analisar os resultados do BLAT, identificamos todas as leituras que: (1) teve uma exclusão maior que 25 bp em relação à referência (2) teve uma inserção maior que 25 bp em relação à referência e (3) mapeada para dois locais diferentes com a extremidade 3 'do mapeamento de leitura 5' da extremidade 5 'da leitura (o padrão criado por uma duplicação tandem). Como os nove genomas foram sequenciados em baixa cobertura, nosso objetivo não era identificar todos os CNVs existentes, mas, em vez disso, criar um conjunto de dados de alta qualidade de pontos de interrupção de CNV. Para esse efeito, aplicamos uma série de filtros para minimizar chamadas falso-positivas. Resumidamente, exigimos que cada ponto de interrupção fosse visto em pelo menos duas leituras independentes (do mesmo genoma ou de genomas diferentes), que essas duas leituras não fossem duplicatas de PCR, que o ponto de interrupção não estivesse localizado nos últimos 10 bp das extremidades de as leituras e que o ponto de interrupção mapeado para a região eucromática do genoma. Também excluímos do conjunto de dados todas as exclusões / inserções que correspondiam a polimorfismos de elementos transponíveis (ou seja, a sequência excluída / inserida mapeada exclusivamente para elementos transponíveis anotados). Finalmente, identificamos a configuração exata do ponto de interrupção realinhando as leituras que suportam cada um dos pontos de interrupção para a sequência do genoma de referência usando Clustal [31, 32].

Usando este pipeline, identificamos 447 deleções e 197 inserções maiores que 25 bp segregando nos nove genomas. Como exigimos que pelo menos duas leituras independentes suportassem cada ponto de interrupção, enviesamos nossa amostra para CNVs segregando em vários genomas (em oposição a ser privada para um dos genomas). Um total de 72% das chamadas CNV são suportadas por leituras de pelo menos dois dos nove genomas, com apenas 28% das CNVs suportadas por múltiplas leituras do mesmo genoma. Esse resultado é esperado dada a dispersão dos dados genômicos.

Avaliamos a qualidade de nossas chamadas, confirmando um subconjunto dessas variantes por PCR e sequenciamento Sanger. Dos 32 CNVs testados, todos foram confirmados por PCR e sequenciamento. O sequenciamento Sanger suportou não apenas a existência dos CNVs, mas também a configuração precisa do ponto de interrupção. Testamos um conjunto adicional de oito CNVs que foram filtrados do conjunto de dados final porque as leituras que os suportavam eram potenciais duplicatas de PCR. Novamente, todos os oito CNVs foram confirmados, sugerindo que este era um filtro bastante conservador. No entanto, porque nosso pipeline foi capaz de identificar um grande número de pontos de interrupção CNV (n = 644), e porque nosso foco está na inferência de mecanismos de formação de CNV a partir de padrões de sequência usando chamadas CNV de alta confiança, favorecemos o conjunto de dados mais conservador que minimizou o número de falsos positivos.

Para investigar a existência de diferenças potenciais entre os mecanismos mutacionais subjacentes à formação de inserções e deleções, usamos o D. simulans genoma de referência e uma abordagem de parcimônia para polarizar as chamadas (consulte Métodos). De 447 deleções, 338 foram confirmadas como deleções segregando na sequência D. melanogaster cepas, 13 foram reclassificadas como inserções no genoma de referência e 96 não puderam ser polarizadas. De 197 inserções, 37 foram confirmadas como inserções segregando na sequência D. melanogaster cepas, com 123 sendo reclassificadas como deleções no genoma de referência, e 37 não puderam ser polarizadas.

Os tamanhos das inserções e deleções identificadas variaram de 25 bp a 7,5 kb, com um tamanho médio de 34 bp e um tamanho médio de 76 bp. O método de leitura dividida não impõe limite ao tamanho das exclusões detectadas, mas as inserções só são detectadas se estiverem completamente englobadas em uma leitura. Por esse motivo, a maior inserção detectada em comparação com a sequência do genoma de referência (ou seja, antes da polarização) foi de apenas 64 bp. A Figura 1 mostra a distribuição de exclusões, inserções e chamadas não polarizadas sobrepondo diferentes contextos funcionais. Apenas nove dos 644 CNVs (1%) se sobrepõem aos exons codificadores: cinco estão completamente contidos no exon e quatro se sobrepõem à sequência exônica e intrônica. Todos os cinco CNVs localizados dentro dos exons codificadores têm tamanhos múltiplos de três, sugerindo que eles não levam a mutações de frameshift.

Contexto genômico das CNVs detectadas neste estudo.

A maioria das inserções não são duplicações tandem e correspondem a de novo DNA

Após a polarização, nosso conjunto de dados incluiu 50 inserções: 13 presentes na sequência do genoma de referência e 37 segregando nas cepas sequenciadas. Das 50 inserções, apenas duas (4%) são duplicações em tandem, em que a sequência inserida é uma cópia de um trecho de DNA já presente no genoma (em um local próximo). Das 48 inserções restantes, sete (14%) correspondem a expansões simples de dinucleotídeos ou pequenas repetições flanqueando as inserções, e 41 (82%) não têm correspondência com a sequência do genoma de referência e, portanto, foram classificados como 'DNA de preenchimento' [13] . O DNA de preenchimento é um resultado comum do reparo de quebras de fita dupla de DNA por NHEJ em moscas [33, 34] e outros organismos [35]. O DNA de preenchimento foi observado em vários estudos de reparo de DNA que usam construções artificiais de DNA onde quebras de fita dupla de DNA são induzidas e os produtos do reparo de DNA podem ser recuperados e sequenciados. Na maioria dos casos, apenas alguns nucleotídeos (ou nenhum) são adicionados às junções reparadas, mas em alguns casos grandes inserções são criadas [13, 33, 35].

O DNA de preenchimento foi proposto para incluir também rearranjos de repetições diretas e invertidas localizadas em sequências próximas [33]. Portanto, investigamos quanto de cada inserção classificada como DNA de preenchimento poderia ser atribuída a repetições diretas e invertidas presentes em suas sequências vizinhas. Consideramos quatro tamanhos de janela diferentes para definir as sequências vizinhas: 30 bp, 60 bp, 90 bp e 120 bp diretamente a montante e a jusante dos pontos de interrupção de inserção. Em seguida, quantificamos o número de nucleotídeos nas inserções que correspondiam a sequências vizinhas (consulte Métodos). Também aplicamos esse procedimento a um conjunto de 41.000 inserções simuladas que criamos embaralhando as coordenadas genômicas das inserções reais dentro de cada cromossomo (mantendo os tamanhos das inserções). O objetivo era determinar quanta sobreposição entre um determinado trecho de DNA e suas sequências vizinhas é esperada ao acaso. Os boxplots na Figura 2A mostram a distribuição da proporção de nucleotídeos nas inserções (e nucleotídeos nas inserções simuladas) que correspondem às sequências vizinhas. Para os dois menores tamanhos de janela (30 bp e 60 bp a montante e a jusante das inserções), a proporção de nucleotídeos nas inserções que poderiam ser atribuídos à cópia de pequenos trechos de DNA de sequências vizinhas foi significativamente maior do que o esperado pelo acaso (Teste de soma de classificação de Wilcoxon, P = 0,002 e P = 0,03, respectivamente). Consequentemente, há um excesso de inserções com nucleotídeos correspondendo a repetições vizinhas sobre a expectativa aleatória para o menor tamanho de janela (30 bp): 46% das inserções têm nucleotídeos que correspondem a repetições em sequências vizinhas vs. 27% das sequências aleatórias (teste exato de Fisher, P = 0,008 Figura 2B). Quando tamanhos de janela maiores são considerados, uma fração muito maior de inserções (e de nucleotídeos dentro dessas inserções) corresponde a repetições em sequências vizinhas. Porém, isso não difere do observado para o conjunto de inserções simuladas (Figuras 2A e 2B). É importante ressaltar que as repetições correspondentes são tipicamente pequenos trechos de DNA (aproximadamente 7 a 13 bp) e, portanto, mesmo quando presentes, eles representam apenas uma pequena fração do número total de bases inseridas.

A contribuição de sequências próximas para a formação de de novo inserções. (UMA) Proporção de nucleotídeos em inserções e controles correspondentes que correspondem a pequenos trechos de DNA presentes em sequências próximas para diferentes tamanhos de janela (janelas de 30 bp, 60 bp, 90 bp e 120 bp). P os valores referem-se aos testes de soma de postos de Wilcoxon. (B) Porcentagem de inserções e controles correspondentes que têm pelo menos um pequeno trecho de sequência de DNA também encontrado nas regiões de flanco para diferentes tamanhos de janela (janelas de 30 bp, 60 bp, 90 bp e 120 bp). P os valores referem-se aos testes exatos de Fisher.

Esses dados sugerem que a maioria das inserções em D. melanogaster não correspondem a duplicações em tandem ou a expansões de di- ou tri-nucleotídeos ou repetições, mas, em vez disso, são o produto da incorporação aleatória de nucleotídeos e da cópia de pequenos trechos de DNA de sequências próximas como parte do processo de Reparo de DNA. Embora anedótico, o fato de que as duas duplicações tandem identificadas também são duas das maiores inserções pode ser interpretado como uma sugestão de que inserções maiores podem de fato corresponder principalmente a duplicações tandem, enquanto inserções menores (isto é, menores que 60 bp) corresponderão principalmente a novas trechos da sequência de DNA. A observação de que a maioria das inserções em Drosófila correspondem a novos contrastes de sequência de DNA com uma observação anterior feita para o genoma humano, onde as inserções mais recentes (1 a 100 bp apareceu após a divisão humano-chimpanzé) foram determinadas para corresponder a duplicações em tandem [36].

Classes distintas de pontos de interrupção CNV

Os CNVs em nosso conjunto de dados se enquadram em quatro classes de ponto de interrupção: (1) 41% têm extremidades simples associadas a pequenos trechos de microhomologia (mínimo de 2 bp) (2) 35% têm extremidades cegas (3) 22% têm extremidades complexas com nucleotídeos adicionais adicionado ou excluído ao ponto de interrupção e (4) 2% têm extremidades complexas (nucleotídeos adicionados ou excluídos) e também estão associados a trechos de microhomologia (Figura 3). A microhomologia está quase exclusivamente associada a extremidades simples, com apenas 5% dos pontos de interrupção com microhomologia também tendo nucleotídeos adicionais inseridos / deletados nos pontos de interrupção. Este resultado reflete as observações feitas para CNVs humanos, onde apenas uma minoria de pontos de interrupção com microhomologia também inseriu / deletou nucleotídeos no ponto de interrupção (Tabela 1 [19, 20]). Não há diferenças entre as inserções e exclusões nas proporções relativas dos quatro diferentes tipos de pontos de quebra (teste de qui-quadrado, P = 0.54).

Distribuição de CNVs entre as diferentes classes de pontos de interrupção.

A definição do que constitui um ponto de interrupção associado à microhomologia difere entre os estudos, com alguns autores exigindo apenas 1 bp de sequência idêntica no ponto de interrupção (por exemplo, [19]), enquanto outros exigem um mínimo de 2 bp ou mais (por exemplo, [20]). A fim de determinar o número mínimo de nucleotídeos idênticos presentes em um ponto de interrupção que são funcionalmente relevantes para a formação de CNV, determinamos o número de nucleotídeos associados a três tipos distintos de microhomologia para cada um dos 644 pontos de interrupção em nosso conjunto de dados (Arquivo adicional 1, Figura S1). A microhomologia do tipo I é a forma mecanisticamente relevante de microhomologia associada à formação de CNV: a deleção ocorre entre duas sequências com microhomologia de modo que uma das sequências torna-se parte da deleção (o inverso ocorre no caso de uma inserção). Microhomologias dos tipos II e III (arquivo adicional 1, Figura S1A) não estão mecanicamente associadas à formação de CNVs, mas podem ser usadas para determinar a expectativa empírica de encontrar uma sequência semelhante de n nucleotídeos próximos aos pontos de quebra por acaso. Conforme mostrado no arquivo adicional 1, Figura S1B, apenas para 2 bp ou mais encontramos um excesso significativo de microhomologia do tipo I contra os outros dois tipos (teste de proporções, P = 2,2 × 10-12). Como resultado, neste estudo exigimos um mínimo de 2 bp de sequência idêntica para classificar um ponto de interrupção como mostrando evidência de microhomologia. Das 248 deleções associadas à microhomologia, apenas duas têm uma extensão da microhomologia & gt20 bp. Portanto, no máximo apenas duas das exclusões em nosso conjunto de dados poderiam ter sido criadas pelo SSA. É provável que seja uma superestimativa, porque o trabalho anterior em Drosófila sugeriu que trechos maiores de identidade de sequência são necessários para mediar SSA [37]. Todos os outros CNVs associados à microhomologia, conseqüentemente, são produtos de NHEJ, MMEJ ou de reparo associado à replicação.

Os pontos de interrupção de CNV que abrigam extremidades complexas (ou seja, bases adicionais presentes no ponto de interrupção) são significativamente maiores do que CNVs associados a extremidades cegas, independentemente da presença / ausência de microhomologia (tamanho médio de 43 bp vs. 32 bp, teste de soma de classificação de Wilcoxon P = 1 × 10 -13). Para 10 de 157 pontos de interrupção com extremidades complexas, os trechos de nucleotídeos adicionais inseridos são grandes o suficiente (& gt20 bp) que eles poderiam ser potencialmente mapeados para o genoma. Se mecanismos de reparo baseados em replicação estão envolvidos, espera-se que as sequências de bases inseridas sejam mapeadas para o genoma, geralmente próximas às sequências deletadas. Se NHEJ (ou uma forma de junção de extremidade alternativa) estiver envolvida, as bases inseridas devem corresponder a nucleotídeos inseridos aleatoriamente e / ou a rearranjos de repetições de sequências próximas (como visto para a maioria das inserções). Não há uma boa correspondência de sequência genômica para qualquer um dos trechos de bases inseridas. Além disso, para sete dos 10 pontos de interrupção, existem pequenos trechos de identidade entre as bases inseridas e sequências próximas que se assemelham ao tipo de alinhamento visto entre de novo Inserções de DNA e sequências próximas. Esses dados favorecem a hipótese de que essas CNVs são uma consequência de NHEJ ou reparo de junção de extremidade alternativo.

A Tabela 1 compara os tipos de pontos de corte identificados neste estudo com aqueles de duas pesquisas anteriores de pontos de corte de CNV humanos [19, 20]. Existem duas diferenças principais entre os tipos de pontos de interrupção observados em Drosófila e em humanos. O primeiro é que em Drosófila há uma proporção maior de pontos de interrupção bruscos, um resultado comum de NHEJ (35% em Drosófila vs. 11% a 19% em humanos). O segundo é que em Drosófila Os pontos de quebra raramente são associados a grandes trechos de identidade de alta sequência, a marca registrada de SSA e NAHR, enquanto em humanos Kidd e colegas descobriram que quase um terço de todos os pontos de quebra carregavam as marcas dessas vias [20]. Como fica claro na Tabela 1, as duas pesquisas de CNVs humanas encontraram uma proporção muito diferente de pontos de interrupção potencialmente associados a NAHR (1% em Conrad et al. vs. 29% em Kidd et al.).Essa diferença é provavelmente uma consequência das diferentes abordagens experimentais usadas entre os estudos. Conrad e colegas usaram uma estratégia de captura de microarray para identificar os pontos de quebra de um subconjunto de CNVs identificados em um estudo anterior [6], o que pode ter enviesado sua amostra contra CNVs associados a NAHR. Kidd e colegas, por outro lado, identificaram pontos de interrupção de CNV usando sequenciamento capilar de inserções de clones de fosmid, uma abordagem poderosa para amostrar todo o espectro de CNVs. Suporte adicional para uma porção considerável de CNVs humanas associadas ao NAHR, vem de dois outros estudos: um estimou que aproximadamente 28% dos pontos de interrupção estão associados ao NAHR [22] e o outro o aproxima de 10% a 15% [6] . Motivados pela observação de que diferentes abordagens tecnológicas podem produzir resultados diferentes em relação ao papel desempenhado por NAHR na formação de CNVs, decidimos reanalisar um conjunto de dados de 3.639 Drosófila CNVs identificados usando matrizes de tiling de alta resolução [5] e determinar se a observação de que há uma escassez de Drosófila Os CNVs associados ao NAHR são robustos para a plataforma de detecção de CNV usada.

NAHR desempenha um papel menor na formação de CNVs em Drosófila

Emerson e colegas [5] usaram matrizes de mosaico cobrindo o Drosófila genoma em uma resolução de 36 bp para identificar 3.639 CNVs (2.211 duplicações e 1.428 deleções) segregando nos genomas de 15 cepas mundiais de D. melanogaster. Microarrays podem sondar apenas regiões únicas do genoma (ou seja, as sondas no microarray têm que mapear para uma localização genômica única), o que significa que eles são tendenciosos contra a detecção de duplicações adicionais de regiões do genoma que já foram duplicadas recentemente. No entanto, eles são imparciais na detecção de duplicações de sequência única onde o número de cópias muda de uma cópia (duas cópias em um genoma diplóide) para duas cópias (três ou quatro cópias em um genoma diplóide, dependendo da duplicação ser homozigótica ou heterozigótica), independentemente de a presença / ausência de duplicações flanqueadoras. Portanto, examinamos os pontos de interrupção desses 3.639 CNVs para a presença de trechos de identidade de alta sequência, a fim de determinar a contribuição de mecanismos baseados em homologia (como SSA e NAHR) para a formação de CNVs em Drosófila.

Ao contrário dos dados 454, os dados do microarray não fornecem a localização exata do ponto de interrupção. Como consequência, para procurar a presença de trechos de alta identidade de sequência, consideramos as sequências de 500 bp a montante e a jusante do ponto de interrupção previsto de CNV e a própria sequência de CNV. Procuramos dois tipos de homologia de sequência: (1) alongamentos de pelo menos 30 bp de tamanho com uma identidade de sequência de pelo menos 98% (marca registrada de tipo I de SSA) e (2) alongamentos de pelo menos 200 bp de tamanho com uma identidade de sequência de pelo menos 95% (marca registrada do tipo II de NAHR e SSA) (consulte Métodos).

Descobrimos que apenas 2% (74/3639) de todas as CNVs estavam associadas à homologia de sequência do tipo I (capaz de mediar SSA) e 2,6% (95/3639) com homologia de sequência do tipo II (capaz de mediar SSA ou NAHR ) Como as exclusões neste conjunto de dados foram associadas a uma alta taxa de falsos positivos (47%), também restringimos essas análises apenas a duplicações (taxa de falsos positivos de 14%). Dentre o conjunto de duplicações, apenas 2,1% (46/2211) estão associadas à homologia de sequência do tipo I e 2,3% (51/2211) à homologia de sequência do tipo II. Portanto, esses resultados apoiam a observação feita usando as leituras 454 de que os mecanismos baseados em homologia (SSA e NAHR) desempenham um papel muito limitado na formação de CNVs em Drosófila.

Como as tecnologias de sequenciamento e microarray de próxima geração são tendenciosas contra a detecção de CNVs em regiões não únicas do genoma (ou seja, duplicações segmentares e elementos transponíveis), as inferências sobre a importância dos mecanismos baseados em homologia são necessariamente restritas a regiões únicas do genoma. No entanto, ao contrário do genoma humano, onde duplicações segmentares e elementos transponíveis podem ser encontrados em toda a eucromatina, em Drosófila a maioria dos elementos repetitivos estão confinados às regiões ao redor dos centrômeros (que têm taxas muito baixas de recombinação) com apenas uma minoria desses elementos presentes nas regiões da eucromatina com taxas de recombinação normais [26, 27]. Portanto, nosso trabalho sugere que fora das regiões pericentromérica e telomérica, os mecanismos baseados em homologia desempenham um papel menor na formação de CNV em Drosófila.

Taxa muito alta de recorrência de CNV em Drosófila

As CNVs são classificadas como recorrentes quando diferentes indivíduos carregam CNVs independentes, mas sobrepostas. A proporção de CNVs recorrentes no genoma humano foi estimada entre 6% e 29% [6]. A dispersão do conjunto de dados 454 nos impede de estimar a partir desses dados a proporção de CNVs recorrentes em Drosófila. Portanto, a fim de avaliar se a recorrência de CNV é um fenômeno comum neste táxon, selecionamos 26 regiões genômicas conhecidas por abrigar pelo menos uma deleção em pelo menos duas cepas com base no conjunto de dados de matriz de mosaico de alta resolução e as rastreamos em 15 em todo o mundo cepas por PCR e sequenciamento Sanger. Essas deleções estão todas localizadas na eucromatina, seu tamanho médio é semelhante ao tamanho médio de todo o conjunto de deleções e foi previsto que variassem em frequência de 2 a 11 (mediana 2). Entre as 26 regiões, 12 (46%) abrigavam mais de uma CNV sobreposta, sugerindo uma alta taxa de recorrência de CNV em Drosófila.

O sequenciamento Sanger dessas 26 regiões mostrou que as CNVs identificadas com as matrizes de mosaico têm características idênticas àquelas identificadas com as 454 leituras. Não há diferença na distribuição dos tipos de pontos de interrupção presentes no conjunto de dados 454 e no conjunto de 36 CNVs (33 deleções e três inserções) segregando nas 26 regiões descritas acima (um total de 42 CNVs foram detectados, mas para seis (principalmente em tandem duplicações) os pontos de interrupção não foram totalmente sequenciados). Além disso, semelhante ao que foi observado no conjunto de dados 454, CNVs com pontos de interrupção abrigando bases adicionais eram, em média, maiores do que CNVs com pontos de quebra simples (ou seja, extremidades cegas com ou sem microhomologia) (mediana 432 bp vs. 211 bp, respectivamente teste de soma de postos de Wilcoxon, P = 0.005).

Não houve diferença na distribuição dos tipos de ponto de interrupção entre CNVs recorrentes e não recorrentes. Além disso, assim como visto para o conjunto não recorrente, as CNVs recorrentes não foram associadas a grandes trechos de identidade de sequência que poderiam sugerir sua geração por meio de NAHR. Em vez disso, esses dados sugerem que as CNVs recorrentes são mediadas por mecanismos de reparo não homólogos. Entre as 12 regiões que mostram CNVs recorrentes, três também mostram evidências da presença de CNVs complexas. Eles ocorrem quando um único evento mutacional gera vários pontos de interrupção, ou seja, vários CNVs localizados próximos segregando dentro do mesmo indivíduo. Nessas três regiões, a distância entre pontos de quebra distintos variou de 82 bp a 325 bp. Esta associação entre CNVs complexas (CNVs múltiplos dentro do mesmo indivíduo) e CNVs recorrentes (CNVs múltiplos segregando em indivíduos diferentes) sugere que algumas regiões do Drosófila genomas são particularmente instáveis ​​e geram eventos complexos dentro dos indivíduos, bem como mutações independentes, mas sobrepostas entre os indivíduos. Embora o tamanho da amostra seja pequeno, esses dados sugerem que CNVs complexas podem corresponder a até 12% (3/26) de todos Drosófila CNVs, proporção superior aos 5% estimados para o genoma humano [6].

Estruturas de DNA não-B são enriquecidas em pontos de interrupção CNV

As conformações de DNA que não correspondem à dupla hélice de Watson-Crick destro são coletivamente denominadas DNA não B [38, 39]. Estes incluem sequências com motivos Z-DNA, motivos formadores de quadruplex, repetições invertidas, repetições de espelho e repetições diretas [40]. Sequências de DNA não-B foram encontradas associadas a variantes causais de várias doenças humanas e foi proposto que causam instabilidade genética ao prejudicar o reparo e a replicação do DNA [38, 39]. Como os erros durante o reparo do DNA e a replicação do DNA são as causas finais dos CNVs, testamos a presença de sequência de DNA não-B nos pontos de interrupção do CNV identificados usando os 454 dados.

Nós nos concentramos nas variantes que foram detectadas pela presença de lacunas nas leituras dos genomas sequenciados em comparação com o genoma de referência (n = 447) para que pudéssemos extrair a região CNV e as regiões flanqueadoras diretamente do genoma de referência. Para um conjunto de dados de controle, embaralhamos as coordenadas dos pontos de interrupção CNV (25 bp dentro do CNV e os 200 bp imediatamente flanqueando 5 'e 3') aleatoriamente dentro dos cromossomos, de modo que havia 10 vezes mais sequências de controle do que pontos de interrupção CNV. Para ambos os pontos de interrupção do CNV e sequências de controle, identificamos sequências de DNA não-B usando a ferramenta de pesquisa de motivos de DNA não-B [40]. A Figura 4 mostra a distribuição de sequências de DNA não-B ao longo dos 200 bp que flanqueiam os CNVs. Em forte contraste com as sequências de controle (em cinza), que mostram uma distribuição uniforme de sequências de DNA não-B em todo o seu comprimento, os CNVs (em vermelho) são enriquecidos com sequências de DNA não-B precisamente nos pontos de interrupção. Além disso, há um número significativamente maior de pontos de interrupção de CNV (definidos como a região abrangendo 25 bp dentro do CNV e os 25 bp imediatamente flanqueando-o) associados a estruturas de DNA não B em comparação com as sequências de controle: 11% vs. 5% (teste exato de Fisher, P = 1.3 × 10 -5 ).

Distribuição de sequências de DNA não-B nas regiões em torno dos CNVs. Em cinza está a expectativa de fundo (determinada a partir de 4.470 sequências de controle) para a presença de sequências de DNA não B em um determinado trecho de DNA e em vermelho a distribuição real de sequências de DNA não B em torno do conjunto de CNVs identificados no conjunto de dados 454 .

Algumas classes de sequências de DNA não-B são mais comuns do que outras (tanto em CNVs quanto em sequências de controle), mas para a maioria encontramos uma mudança na localização dessas repetições / motivos em direção ao ponto de interrupção CNV em comparação com as sequências de controle (arquivo adicional 2, Figura S2), sugerindo que a maioria das classes de sequências de DNA não B estão associadas à formação de CNV. Encontramos as sequências de DNA não-B igualmente associadas às três classes de pontos de interrupção (ou seja, pontos de interrupção bruscos, pontos de interrupção associados à microhomologia e pontos de interrupção contendo nucleotídeos adicionais inseridos ou excluídos do teste exato de Fisher, P = 0,98). No entanto, encontramos uma proporção significativamente maior de inserções associadas a sequências de DNA não-B do que exclusões (teste exato de Fisher, P = 0,002). A presença de sequências de DNA não-B em uma fração significativa de pontos de quebra de CNV sugere um papel causal potencial para essas sequências na formação de CNV em moscas.


Discussão

Este estudo descreve a dinâmica evolutiva do Helena retrotransposon não-LTR no sequenciado Drosófila genomas. Nós mostramos que Helena ocorre em D. sechellia, D. yakuba, D. erecta e D. ananassae (melanogaster grupo de espécies), em D. mojavensis (repleta grupo) e em D. virilis (virilis grupo), bem como em D. melanogaster e D. simulans, que havia sido estudado anteriormente [10,18]. No D. pseudoobscura, D. persimilis e D. willistoni, as pequenas cópias que encontramos exibiam identidades de porcentagem semelhantes para Helena quanto a BS, um retrotransposon não LTR relacionado com Helena. Sequências com o mesmo tipo de similaridade foram relatadas em D. melanogaster, e foram agrupados pelos autores como Helena / BS família [21]. o D. pseudoobscura, D. persimilis e D. willistoni as sequências que encontramos podem ser incluídas nesta família. Concordamos com a sugestão de que poderia haver membros da Helena / BS família nestas espécies, conforme mostrado em D. melanogaster [21], por isso não os incluímos em nosso estudo. A sequência de 907 bp de Helena que foi descrito anteriormente (GenBank <"type": "entrez-nucleotide", "attrs": <"text": "AF012036", "term_id": "3282352", "term_text": "AF012036" >> AF012036) em uma cepa (centro de estoque: 14011-0121-0, Tucson, Arizona) de D. pseudoobscura [10] não foi encontrado no genoma sequenciado desta espécie. Nossa análise filogenética mostra que Helena é um grupo monofilético de sequências distribuídas de forma fragmentada nas espécies dos dois subgêneros do gênero Drosófila (Figura & # x200B (Figura 1). 1). Tomando nossos dados juntamente com os de outros autores [10,18,20], podemos concluir que Helena estava presente no ancestral comum do Drosófila gênero, e foi transmitido verticalmente às linhagens derivadas, mas posteriormente perdido em algumas delas, ou pelo menos divergiu tanto a ponto de escapar da detecção. A alta variabilidade no número de cópias e degeneração de sequência nas diferentes espécies mostra que a dinâmica evolutiva de Helena depende do ambiente genômico, como já foi relatado para outros retrotransposons, como Tirant [31].

Trabalhos recentes relataram a presença de deteriorados e inativados Helena no D. melanogaster genoma, mas também de uma cópia completa em D. simulans carregando todas as estruturas necessárias para a atividade, e com um alto nível de polimorfismo de inserção nas populações naturais [18]. Isso sugere que nesta espécie Helena ainda está ativo ou esteve ativo até recentemente. Em nossa análise, todas as cópias de referência nas outras 10 Drosófila genomas foram considerados desprovidos de ORFs intactos, exceto em D. mojavensis. Nesta espécie, duas cópias de Helena contêm ORFs intactos, o que sugere que comprimento total e potencialmente ativo Helena sequências poderiam existir. Isso significa que esta espécie pode oferecer uma oportunidade única para estudar a dinâmica evolutiva de Helena.

Nossa análise dos números de cópias revela uma distribuição surpreendentemente variável de Helena nas 12 espécies. No D. sechellia, 181 cópias de Helena foram observados, enquanto em D. erecta apenas sete cópias foram identificadas. Mesmo que esses genomas não tenham sido bem anotados e haja algumas sequências de baixa qualidade que podem influenciar a estimativa do número de cópias, isso não deve invalidar a tendência identificada. Foi proposto que o tamanho efetivo da população poderia ser um dos principais fatores responsáveis ​​pelas diferenças no número de cópias de TEs [32,33], com a seleção contra TEs sendo menos eficaz em populações menores [34]. Isso parece se aplicar a D. sechellia. Esta espécie está restrita às Ilhas Seychelles, no Oceano Índico, e é a mosca mais especializada dentro do melanogaster grupo. Tem um tamanho populacional efetivo muito baixo [35,36], e carrega o maior número de Helena sequências gravadas (181 cópias). Esperamos encontrar um cenário semelhante para D.erecta, que também é uma espécie especializada com um pequeno tamanho populacional [37,38]. No entanto, como também foi observado para o marinheiro elemento, o número de cópias observado de Helena não é de fato consistente com esta hipótese [37]. Isso significa que outros fatores podem estar afetando o número de cópias de TEs, incluindo características genômicas e ambientais.

Não observamos nenhuma grande diferença no número de cópias entre as duas espécies de Drosófila subgênero, embora D. mojavensis tem um número de cópias maior do que D. virilis. O que é mais impressionante é que as únicas cópias ativas potencialmente completas identificadas foram detectadas em D. mojavensis, junto com a outra cópia potencialmente ativa descrita anteriormente em D. simulans [18]. As análises de Southern blot de várias populações naturais de D. mojavensis e D. simulans sugira que Helena recentemente exibiu atividade de transposição. No entanto, confirmamos que a atividade transcricional é baixa em D. simulans, como já havia sido sugerido [18], e isso indica claramente que Helena está se perdendo nesta espécie. No D. mojavensis, a situação é completamente diferente. Observamos altos níveis de Helena transcrições em várias populações, confirmando sua atividade. Além disso, a expressão variou entre as diferentes populações, indicando que Helena deve estar presente em diferentes estágios de seu ciclo evolutivo, ou seja, diferentes estágios de atividade, em diferentes populações dentro desta espécie.

Nossa análise mostrou que a evolução de Helena é influenciado pela espécie hospedeira, resultando em diferenças no número de cópias, degradação e atividade. Em todas as espécies analisadas, D. mojavensis é o único em que o Helena sobreviveu, o que nos dá uma oportunidade única de observar o "destino" deste TE. No entanto, é crucial investigar as populações naturais desta e de outras espécies no repleta grupo, a fim de saber o quão difundido é o cenário aqui descrito, e entender o processo e a velocidade de degradação e extinção de Helena.


Materiais e métodos

Estratégias de sequenciamento.

CRi: Simulans drosófila Ovos à beira do rio foram coletados após 2 horas e 1 a 2 ml de embriões foram homogeneizados. Um gradiente contínuo de renografina (28% & # x0201345%) foi usado para concentrar Wolbachia células. A zona de 28% a 32% foi coletada e colocada em tampões de agarose que foram tratados com lise de células bacterianas e solução de proteinase K. Para remover o DNA do hospedeiro contaminante, os tampões foram executados em um gel de agarose Seakem Gold a 1% (FMC BioProducts) por 24 he o DNA isolado foi subsequentemente usado para a construção da biblioteca em um vetor M13 modificado, conforme descrito anteriormente (39). Da biblioteca M13, 34.322 leituras foram sequenciadas, das quais 19.727 estavam presentes na montagem final, resultando em uma cobertura geral de 8,2 vezes. Um adicional de 18.031 leituras foram geradas durante o fechamento e finalização da lacuna.

CUni: DNA foi isolado de 300 ovários dissecados de mulheres adultas Muscidifurax uniraptor usando um protocolo CTAB, seguido por tratamento com lisozima e extração com clorofórmio. Os primers foram projetados com base na sequência do genoma de Wolbachia cepa CMel, para amplificar produtos de 1.100 pb com sobreposição de 300 pb em ambas as extremidades do produto adjacente. Os primers que amplificaram com sucesso produtos de PCR curtos foram selecionados e combinados para gerar produtos de PCR de longo alcance, onde produtos curtos não amplificaram. Em seguida, 26.834 leituras foram sequenciadas e montadas em 287 contigs, dos quais 106 tinham mais de 2 kb. Os produtos de PCR curtos foram sequenciados diretamente e os produtos longos foram cortados por nebulização e clonados no vetor pSMART-HCKan antes do sequenciamento.

Verificando o CAssembleia do Genoma Ri.

o CA montagem de Ri foi confirmada em cada elemento IS ou ponto de interrupção inferido usando DNA genômico de CRi isolado de D. simulans e outros hospedeiros infectados usando PCR com iniciadores específicos. O tamanho do genoma montado CRi é ligeiramente menor do que 1,66 Mb previamente estimado a partir da eletroforese em gel de campo de pulso (40). No entanto, a ordem relativa dos fragmentos de restrição observados coincide com os previstos a partir da sequência do genoma, exceto que os tamanhos dos fragmentos individuais parecem ter sido sistematicamente superestimados na análise eletroforética em gel de campo pulsado.

Informática

A montagem foi realizada com PHRED-PHRAP-CONSED (41 & # x0201343). Genes codificadores de proteínas foram identificados com GLIMMER (44) e CRITICA (45) e genes de tRNA por tRNAscan-SE (46). Funções putativas foram inferidas usando BLAST contra os bancos de dados do National Center for Biotechnology Information e InterProScan (47). A identificação de repetição foi feita usando MUMmer (48). Codeml, PAML 3.14 (49) foi usado para calcular as taxas de substituição. Os ortólogos usados ​​para os cálculos de Ks foram recuperados pela melhor detonação recíproca com pontos de corte adicionais. RDP3 (23) foi usado para verificar alinhamentos de nucleotídeos para recombinação intragênica usando 6 métodos, RDP, Geneconv, Bootscan, MaxChi, Chimaera e 3Seq, com configurações padrão, exceto para tamanhos de janela e passo. As sequências do gene da cápside menor foram alinhadas com CLUSTALW (50) no nível da proteína e retrotraduzidas em sequências de nucleotídeos. A filogenia foi reconstruída usando MrBayes 3.12 (51) com o modelo GTR + G e executado por 10.000.000 gerações. Repetições de anquirina foram encontradas com o ANK HMM de PFAM (52) executando HMMER 2.0 (53). Um alinhamento de aminoácidos foi produzido com hmmalign e então retrotraduzido para nucleotídeos. A filogenia foi reconstruída usando MrBayes3.12 (51) sob o modelo GTR + I + G e executado por 27 milhões de gerações. Para ambas as árvores, a amostragem foi feita a cada centésima geração com 2 execuções de 4 cadeias e antecedentes padrão e uma árvore de consenso foi construída usando um & # x0201cburnin & # x0201d de 25%.

Análise de transcrição.

Para cada um dos testados Wolbachia-Drosophila associações, 300 testículos e 150 ovários foram dissecados de adultos (homens com 1 dia e mulheres com 3 dias). Os embriões foram coletados a cada 2 he os embriões tardios a cada 16 h. O RNA total foi extraído com TRIzol (Invitrogen) e tratado com DNase livre de RNase (Invitrogen). O cDNA da primeira fita foi sintetizado a partir de 5 & # x003bcg de RNA total usando transcriptase reversa (SuperScript III Invitrogen) e primers aleatórios (Promega), e posteriormente tratado com RNase H. Para cada gene, primers específicos foram desenhados com base nos CSequência de nucleotídeos do gene Ri e usada para amplificação por PCR


Assista o vídeo: DNASTAR Montagem e análise de dados de sequenciamento de Sanger PT-BR (Novembro 2021).