Em formação

Que tipo de valor a posição do cromossomo estaria em um banco de dados ou formulário?


Eu queria criar uma ferramenta para alguns campos como SIFT, Phenotype, etc ... então, por exemplo, eu sei que Phenotype terá valores de "Texto" ou SIFT terá alguns valores determinados em uma lista suspensa ... mas e as Posições de Chrom? quais são alguns valores de amostra válidos para isso? para saber que tipo posso usar para isso.


Uma vez que parece que você é quem está projetando o banco de dados, você pode fazer isso de várias maneiras. O mais simples é provavelmente reduzi-lo a duas variáveis, provavelmente duas casas decimais.

Veja este exemplo de hemoglobina para um exemplo de locus cromossômico.

  • Existem cromossomos N (23 para humanos, se preferir, os cromossomos sexuais podem ser tratados como um par).
  • Existem 2 cromátides por cromossomo.
  • A parte da cromátide é p ou q (braço curto ou longo).
  • Depois, há a localização na parte da cromátide (por exemplo, 15,5).

A cromátide pode ser facilmente representada como um decimal, onde a parte inteira é o número do cromossomo e a parte decimal corresponde à cromátide e ao braço.

O locus cromossômico pode ser outro decimal, como 15,5 para o exemplo acima.

Obviamente, essa é uma maneira e há muitas outras maneiras de fazer isso.


Como cruzar os pais ao usar um método de codificação de valor em algoritmo genético?

Há uma fase no algoritmo genético em que devemos escolher cruzar os cromossomos dos pais para os filhos.

É fácil de fazer através da forma binária.

Mas o que fazer se codificarmos os cromossomos usando a codificação de valor?

Digamos que um bit em meus cromossomos seja um valor do tipo DOUBLE, digamos 0,99, seu intervalo é (0-1), pois representará uma probabilidade.

Como cruzar este número DOUBLE?

Converta para binário para crossover e depois converta de volta.


Este formato é usado para fornecer os chamados picos de enriquecimento de sinal
com base em dados agrupados normalizados (interpretados). É um formato BED6 + 3.

campo modelo Descrição
cromo fragmento Nome do cromossomo
chromStart int A posição inicial do recurso no cromossomo. A primeira base em um cromossomo é numerada como 0.
chromEnd int A posição final
da característica no cromossomo ou andaime. A base chromEnd não é
incluído na exibição do recurso. Por exemplo, as primeiras 100 bases
de um cromossomo são definidos como chromStart = 0, chromEnd = 100 e abrangem o
bases numeradas de 0-99.
nome fragmento Nome dado a uma região (de preferência única). Use & # 8216. & # 8217 se nenhum nome for atribuído.
pontuação int Indica como
escuro o pico será exibido no navegador (1-1000). Se & # 82160 & # 8217, o
O DCC atribuirá isso com base no valor do sinal. Idealmente valor médio do sinal
por propagação de base entre 100-1000.
vertente Caracteres +/- para denotar fita ou orientação (quando aplicável). Use & # 8216. & # 8217 se nenhuma orientação for atribuída.


Isso pode te ajudar. - de Narayana Vyas. Ele pesquisa todas as colunas de todas as tabelas em um determinado banco de dados. Já usei antes e funciona.

Este é o Stored Proc do link acima - a única alteração que fiz foi substituir a tabela temporária por uma variável de tabela para que você não precise se lembrar de descartá-la todas as vezes.

Para executar o procedimento armazenado:

Se você precisar executar essa pesquisa apenas uma vez, provavelmente poderá usar qualquer um dos scripts já mostrados em outras respostas. Mas, caso contrário, eu recomendo usar o ApexSQL Search para isso. É um complemento SSMS gratuito e realmente me economizou muito tempo.

Antes de executar qualquer um dos scripts, você deve personalizá-lo com base no tipo de dados que deseja pesquisar. Se você sabe que está pesquisando a coluna datetime, não há necessidade de pesquisar as colunas nvarchar. Isso irá acelerar todas as consultas acima.

Com base na resposta do bnkdev, modifiquei o código de Narayana para pesquisar todas as colunas, mesmo as numéricas.

A execução será mais lenta, mas esta versão realmente encontra todas as correspondências, não apenas aquelas encontradas nas colunas de texto.


Resultados

Os resultados de 822 ciclos de PGT-A foram analisados. A Tabela 1 mostra os dados relativos ao número de casos, indicação médica para PGT-A e idade do paciente, que variou de 22 a 46 anos (média: 38,8 + 3,2 anos IC95: 38,6–39,0). A Tabela 2 mostra os resultados dos testes genéticos para aneuploidias. Quarenta e seis por cento dos blastocistos (1.656 de 3.565) eram euplóides, com incidência variando significativamente de acordo com a indicação de PGT-A (Tabela 2). Os demais blastocistos foram diagnosticados como aneuplóides (53,5% 1909 de 3565). Em 45,2% (1610 de 3565) dos blastocistos diagnosticados, um (29,2%) ou mais (16,0%) cromossomos inteiros estavam implicados na aneuploidia.

No caso da aneuploidia segmentar (Tabela 2), 8,4% dos blastocistos diagnosticados (299 de 3.565) exibiram uma ou mais aneuploidias cromossômicas segmentares, algumas das quais estavam associadas à aneuploidia cromossômica total, enquanto outras não. Duzentos e setenta e quatro dos 3565 blastocistos (7,7%) tinham uma aneuploidia segmentar única (SSA), associada (n = 115) ou não (n = 159) com uma aneuploidia de cromossomo inteiro, enquanto 0,7% dos blastocistos restantes (25 de 3565) mostraram aneuploidias segmentares em dois cromossomos diferentes. Apenas um blastocisto foi diagnosticado como portador de três aneuploidias segmentares localizadas em três cromossomos diferentes (aneuploidias segmentares múltiplas). Não foram observadas mais do que três aneuploidias segmentares por embrião, ou um segmento por cromossomo e embrião.

Aneuploidias segmentares únicas na ausência de aneuploidias de cromossomo inteiro (SSA puro) foram detectadas em 159 blastocistos (4,5% dos blastocistos analisados), independentemente da indicação médica para o ciclo de tecnologia de reprodução assistida (ART) (P & gt 0,05 Tabela 2).

Frequência de SSA puro (n = 159) não foi relacionado ao dia da biópsia de blastocisto (dia 5 vs dia 6 P = 0,70) ou estágio de blastocisto (P = 0,58), enquanto estava relacionado à qualidade do ICM e TE (P & lt 0,01). Assim, conforme mostrado na Tabela 3, uma porcentagem significativamente maior de SSA pura foi observada entre os blastocistos classificados como grau “C” (referente a TE e ICM) do que entre aqueles com melhor qualidade de TE e ICM.

Do ponto de vista qualitativo, descrevemos a população SSA de acordo com a localização dos ganhos ou perdas nos braços do cromossomo p ou q. Em geral, ambos os ganhos (44,0%) e perdas (56,0%) foram igualmente representados na população SSA pura, no entanto, eles estavam mais frequentemente localizados no braço q- do que no braço do cromossomo p (67,3% vs 32,7%, respectivamente ) Além disso, o tipo de SSA, definido pela combinação de ambas as variáveis ​​(ganhos / perdas e localização do braço), foi igualmente distribuído na população de blastocisto (Tabela 4).

O tipo de SSA não foi estatisticamente afetado pela idade (P = 0,51), indicação clínica (P = 0,15), estágio de blastocisto (P = 0,54) ou qualidade ICM e TE (P = 0,2 e P = 0,28, respectivamente), mas foi significativamente afetado pelo dia da biópsia (P = 0,007 Tabela 4). Assim, os blastocistos biopsiados no dia 5 mostraram porcentagens significativamente maiores de ganhos nos braços do cromossomo q (22,0%), enquanto aqueles biopsiados no dia 6 mostraram porcentagens significativamente maiores de perdas de SSA no braço do cromossomo q (22,0%). SSA afetando os braços do cromossomo p foram igualmente distribuídos entre os blastocistos biopsiados no dia 5 ou 6 de desenvolvimento (variando de 5,0 a 11,3% Tabela 4).

A descrição qualitativa da SSA também foi definida pelo cromossomo envolvido. O teste de Kolmogorov-Smirnov revelou que a frequência dos cromossomos com SSA não segue uma distribuição normal (Fig. 2 P & lt 0,001). Na verdade, nossa população SSA exibiu uma distribuição assimétrica da frequência cromossômica: SSAs estavam localizados nos cromossomos 1 a 9 em quase dois terços dos blastocistos, enquanto 29,6% dos SSA estavam localizados nos cromossomos autossômicos e sexuais restantes. Nenhum SSA foi observado no cromossomo Y ou nos autossomos 19, 21 ou 22 (Fig. 2).

Porcentagem de blastocistos diagnosticados como aneuploide segmentar único (SSA) e tipos (perdas no braço cromossômico pequeno ou grande: -p, −q, respectivamente ou ganhos no braço cromossômico pequeno ou grande: + p, + q, respectivamente) de acordo com o portador do cromossomo

Além disso, a SSA que afeta um cromossomo específico não foi estatisticamente relacionada com a idade (P = 0,92), indicação médica (P = 0,24), dia da biópsia (P = 0,25), estágio de blastocisto (P = 0,96) ou qualidade ICM (que foi constantemente avaliada como “b”). Por outro lado, uma relação significativa foi observada entre a qualidade TE e o cromossomo afetado (P = 0,04). Nenhuma análise estatística foi realizada para explorar a relação entre o tamanho da SSA e o portador do cromossomo devido ao número relativamente baixo de casos estudados.

Curiosamente, embora as descrições qualitativas atuais incluam a localização topográfica de ganhos / perdas no braço do cromossomo e o cromossomo envolvido, nossos dados mostraram que essas duas variáveis ​​qualitativas não estavam relacionadas entre si (P = 0,09 Fig. 2 Tabela 5).

A descrição da SSA de um ponto de vista quantitativo requer o estudo do comprimento da sequência de DNA (arquivo adicional 1). O teste de Kolmogorov-Smirnov revelou que o tamanho SSA não seguiu uma distribuição de frequência normal (P & lt 0,001). Assim, essa variável contínua (tamanho SSA) foi convertida em categórica pelo reagrupamento dos tamanhos em quartis para realizar comparações estatísticas com variáveis ​​contínuas, como a idade do paciente.

O tamanho da SSA não foi estatisticamente relacionado à idade (P = 0,99), indicação médica (P = 0,48), dia da biópsia (P = 0,18), estágio de blastocisto (P = 0,40), ou TE (P = 0,09) ou qualidade ICM (constantemente classificado como “b”). No entanto, diferenças significativas foram observadas de acordo com o tipo de SSA (P = 0,003) e o cromossomo envolvido (P = 0,007). Assim, os ganhos e perdas localizados no braço p tinham tamanhos médios comparáveis ​​(45,4 ± 30,6 Mb 95CI: 36,9-53,9 Mb P = 0,99) e foram significativamente mais curtos do que os ganhos no braço q (média: 74,8 ± 33,2 Mb 95CI: 65,4-84,2 Mb P & lt 0,03), enquanto as perdas no braço q eram de um tamanho intermediário (média: 65,1 ± 36,9 Mb 95CI: 55,3–74,9 Mb Fig. 3a).

Tamanho SSA médio (círculo aberto Mb) de acordo com o tipo de SSA (Fig. 3uma) e portador de cromossomos (Fig. 3b) Barras de erro representam intervalo de confiança de 95% em Mb. Nota de rodapé: Diferentes sobrescritos representam diferenças estatisticamente significativas (P & lt 0,05) entre os tipos SSA ou cromossomos afetados

Caso contrário, o tamanho do SSA estava relacionado ao cromossomo envolvido (P = 0,003 Fig. 3b). No entanto, uma vez que a análise do tamanho da SSA em relação ao cromossomo resultou em um número relativamente baixo de casos, nenhuma análise adicional foi realizada.

A relação acima mencionada entre a qualidade do TE e o cromossomo afetado também foi observada após o agrupamento dos cromossomos de acordo com a classificação de Denver. Assim, em blastocistos de qualidade TE regular (classificado como "c"), significativamente mais SSA puro foram observados em cromossomos acrocêntricos ou de pequeno tamanho (Grupos DF) do que em blastocistos com qualidade TE excelente ou boa (classificado como "a" ou "b" ), em que esses cromossomos raramente foram afetados (P = 0,00006 Fig. 4). SSA puro estava mais frequentemente localizado em cromossomos submetacêntricos de grande ou médio porte (Grupo A-C), independentemente da qualidade do trofectoderma (média: 88,0% P = 0,25 Fig. 4).

Porcentagem (média, barras de erro: intervalo de confiança de 95%) de SSA puro localizado em cada grupo de classificação de cromossomos de Denver, de acordo com os escores de qualidade trofectoderma excelente, bom ou regular (a, bec, respectivamente Fig. 4uma) A figura inferior mostra a porcentagem (barras de erro médio: intervalo de confiança de 95%) de SSA localizado nos cromossomos pertencentes aos grupos A-C ou D-F, de acordo com os escores de qualidade do trofectoderma (Fig. 4b)

No entanto, reagrupamos a população SSA de acordo com o sistema de classificação de cromossomos padrão de Denver [26]. Conforme mostrado na Fig. 5a, SSAs puros foram mais frequentemente representados no grupo C (43,4%), seguido por aqueles nos grupos A (25,8%) e B (18,9%). Os demais blastocistos exibiram SSA nos cromossomos dos grupos D (5,0%) e E (6,3%), e apenas um blastocisto apresentou SSA no cromossomo 20 (grupo F: 0,6%). Nenhum SSA foi detectado no cromossomo 19 metacêntrico de pequeno porte ou nos cromossomos acrocêntricos 21, 22 e Y (Fig. 2 e Fig. 5a). Seguindo o Sistema Padrão de Denver, diferentes tamanhos de SSA foram observados entre as categorias de cromossomos analisadas (P = 0,0001 Fig. 5b). Assim, embora tamanhos comparáveis ​​foram observados entre os grupos D e E (31,9 ± 11,3 Mb 95CI: 26,3-37,5 Mb), eles foram significativamente mais curtos do que aqueles nos grupos AC e maiores do que o único SSA observado no cromossomo 20 (grupo F: 21,2 Mb ) Além disso, os tamanhos de SSA no grupo A foram significativamente maiores (média: 77,6 ± 38,1 Mb 95CI: 65,6–89,6 Mb) do que aqueles em cromossomos de tamanho médio ou pequeno, independentemente da localização do centrômero (grupos C-G). Os SSAs identificados em autossomos submetacêntricos de grande porte (grupo B: 69,0 ± 41,7 Mb 95CI: 53,4-84,6 Mb) eram de tamanho intermediário em relação aos grupos A (tamanho grande) e C (submetacêntrico de tamanho médio média dos cromossomos: 57,5 ​​± 29,6 Mb 95CI: 50,4–64,6 Mb), mas foram significativamente maiores do que aqueles quantificados em cromossomos de pequeno porte (grupos EF) e cromossomos acrocêntricos de médio porte (grupo D).

Frequência de blastocistos aneuploides segmentares únicos (SSA), com tipos detalhados de SSA (Fig. 5uma) e tamanhos médios de SSA (círculos abertos Mb, Fig. 5b) de acordo com o sistema de classificação de Denver. Tamanho médio médio (círculos abertos) de cada tipo de SSA classificado pelo Denver Standard System (Fig. 5c) Barras de erro representam intervalo de confiança de 95% em Mb. Nota de rodapé: Diferentes sobrescritos representam diferenças estatisticamente significativas (P & lt 0,05) no tamanho SSA entre categorias de cromossomos ou tipos SSA dentro da categoria de cromossomo C

Além disso, avaliamos o tamanho de todos os quatro tipos de SSA em cada grupo de cromossomos (Fig. 5c). Os resultados mostraram tamanhos de SSA comparáveis, independentemente do tipo de SSA em todos os grupos, exceto para o grupo C. Desta forma, as sequências correspondentes a ganhos ou perdas no braço q foram significativamente maiores (média: 68,6 ± 27,1 Mb 95CI: 60,4-76,8 Mb) do que as perdas no braço p (média: 39,2 ± 26,8 Mb 95CI: 26,2–52,3 Mb). Os ganhos no braço p foram de tamanho intermediário em relação às perdas SSA, qualquer que seja o braço cromossômico afetado (média: 34,4 ± 13,3 Mb 95CI: 22,1–46,7 Mb).

Finalmente, calculamos a proporção do tamanho SSA de acordo com o comprimento de todo o cromossomo, incluindo o centrômero (proporção SSA: cromossomo). Os resultados mostraram que a razão SSA: cromossomo era praticamente constante para todos os grupos de cromossomos classificados de acordo com o Sistema Padrão de Denver (P = 0,62), com uma média estimada de 0,37 ± 0,19 (IC95: 0,37–0,40 Fig. 6a). No entanto, a proporção SSA: cromossomo foi afetada pelo tipo de SSA (P & lt 0,001 Fig. 6b) SSAs nos braços p tiveram uma proporção significativamente menor (média: 0,27 ± 0,15 95CI: 0,23–0,31) do que os ganhos nos braços q (média: 0,46 ± 0,19 95CI: 0,40–0,51). Uma razão intermediária (0,37 ± 0,18 95CI: 0,32–0,42) foi calculada para as perdas no braço do cromossomo q.

Média SSA: proporção de cromossomos (círculos abertos variaram de 0-1) de acordo com o sistema de classificação de Denver (Fig. 6uma) e tipo SSA (Fig. 6b) Média SSA: proporção do braço (círculos abertos variaram de 0-1) de acordo com o sistema de classificação de Denver (Fig. 6c e tipo SSA (Fig. 6d) Barras de erro representam intervalo de confiança de 95% em Mb. Nota de rodapé: Diferentes sobrescritos representam diferenças estatisticamente significativas (P & lt 0,05) na proporção SSA: cromossomo ou SSA: braço entre categorias de cromossomos ou tipo SSA

A proporção do tamanho SSA para o comprimento do braço (proporção SSA: braço) foi comparável em quase todos os grupos de cromossomos quando a classificação padrão de Denver foi empregada, uma proporção média de 0,72 ± 0,37 foi obtida (IC 95: 0,66-0,78 P = 0,71 Fig. 6c), com exceção do grupo D, no qual foi significativamente menor (média: 0,37 ± 0,11 IC95: 0,27–0,46). SSA: as razões de braço também foram afetadas pelo tipo de SSA (P = 0,005 Fig. 6d). Assim, as perdas no braço q mostraram proporções SSA: braço significativamente mais baixas (média: 0,27 ± 0,15 IC 95: 0,22–0,33) do que aquelas localizadas no braço p (média: 0,37 ± 0,18 IC 95: 0,32–0,42), enquanto os ganhos exibiu SSA intermediário: razões de braço, qualquer que seja o braço do cromossomo afetado (média: 0,74 ± 0,32 95CIs: 0,66-0,82).


3. RESULTADOS

3.1 Montagem do genoma

o k-mer análise de nosso genoma sequenciado de uma mulher Salix dunnii planta indicou que a frequência de locais heterozigotos neste indivíduo diplóide é baixa (0,79%) (Figuras S2 e S3 Tabela S1). Geramos 72 Gb (

180 ×) de leituras longas ONT, 60 Gb (

150 ×) leituras de Illumina e 55 Gb (

140 ×) de leituras Hi-C (Tabelas S5 e S6). Depois de aplicar várias estratégias de montagem diferentes, selecionamos aquela com as “melhores” métricas de contiguidade (smartdenovo com correção canu, Tabela S2). O polimento / correção usando leituras curtas Illumina do mesmo indivíduo rendeu um conjunto de genoma de 333 Mb em 100 contigs (contig N50 = 10,1 Mb) (Tabela S2).

Com a ajuda do andaime Hi-C, alcançamos uma montagem final em escala cromossômica de 328 Mb de 29 andaimes (andaime N50 = 17,28 Mb), cerca de 325,35 Mb (99,17%) dos quais estão ancorados a 19 pseudocromossomos (Figura 1a, Tabela 2 Figura S4, Tabela S4), correspondendo ao número de cromossomos haplóides da espécie. Os genomas mitocondrial e cloroplástico foram montados em moléculas de DNA circulares de 711.422 e 155.620 pb, respectivamente (Figuras S5 e S6). Cerca de 98,4% de nossas leituras curtas Illumina foram mapeadas com sucesso de volta para a montagem do genoma, e cerca de 99,5% da montagem foi coberta por pelo menos 20 × leituras. Da mesma forma, 98,9% das leituras ONT mapeadas de volta para a montagem do genoma e 99,9% foram cobertas por leituras de pelo menos 20 ×. A pontuação do LTR Assembly Index (LAI) da montagem foi de 12,7, indicando que nossa montagem atingiu uma qualidade alta o suficiente para alcançar a classificação de “referência” (Ou et al., 2018). A análise de busco (Simão et al., 2015) identificou 1.392 (96,6%) das 1.440 proteínas centrais altamente conservadas no banco de dados Embryophyta, das quais 1.239 (86,0%) eram genes de cópia única e 153 (10,6%) eram genes duplicados. Outros 33 (2,3%) tinham correspondências fragmentadas com outros genes conservados e 37 (2,6%) estavam ausentes.

Tamanho total do conjunto (Mb) 328
Número total de contigs 31
Tamanho total ancorado (Mb) 325.352
Comprimento máximo de contig (Mb) 35.892
Comprimento mínimo de contig (kb) 68.49
Comprimento do Contig N50 (Mb) 16.657
Contig L50 8
Comprimento do Contig N90 (Mb) 12.795
Contig L90 17
Número total de andaimes 29
Comprimento máximo do andaime (Mb) 35.892
Comprimento mínimo do andaime (kb) 68.49
Comprimento do andaime N50 (Mb) 17.281
Contagem L50 do andaime 8
Comprimento do andaime N90 (Mb) 13.179
Contagem de andaime L90 17
Número da lacuna 2
Conteúdo GC (%) 33.09
Número do gene 31,501
Conteúdo repetido (%) 41.05

3.2 Anotação de genes e repetições

No total, 134,68 Mb (41,0%) do genoma montado consistia em regiões repetitivas (Tabela 2), próximo aos 41,4% previstos por findgse (Sun et al., 2018). LTR-RTs foram as anotações mais abundantes, formando até 19,1% do genoma, com cigano e Copia elementos transponíveis (TEs) do retrotransposão (RT) classe I, responsáveis ​​por 13% e 5,85% do genoma, respectivamente (Tabela S7). Todos os genomas até agora estudados em Salix espécies têm proporções consideráveis ​​de sequências TE, mas as maiores proporções de cigano elementos em S. dunnii (Tabela S7) (Chen et al., 2019) sugeriu uma expansão considerável nesta espécie. Com base na divergência estimada por local (consulte Métodos), a maioria dos LTR-RTs de comprimento total parecem ter se inserido em momentos diferentes nos últimos 30 milhões de anos, em vez de em uma explosão recente (Figuras S7-S9 Tabela S8). Os valores de divergência de todos os cromossomos são de 0 a 0,2, com média 0,041 e mediana 0,027. Os valores apenas para o cromossomo 7 são semelhantes, variam de 0 a 0,18, mas a média 0,0461 e a mediana 0,035 ligeiramente maior do que para os cromossomos diferentes de 7, e isso é causado principalmente por um valor mais alto / maior idade na região ligada ao X .

Usando uma estratégia abrangente combinando com base em evidências e ab initio predição do gene (consulte Métodos), então anotamos o genoma com máscara de repetição. Identificamos um total de 31.501 modelos de genes, incluindo 30.200 genes codificadores de proteínas, 650 RNAs de transferência (tRNAs), 156 RNAs ribossômicos (rRNA) e 495 RNAs não codificantes não classificáveis ​​(ncRNAs) (Tabela 2 Tabela S9). A média S. dunnii gene tem 4095,84 pb de comprimento e contém 6,07 exões (Tabela S10). A maioria dos genes codificadores de proteínas previstos (94,68%) correspondeu a uma proteína prevista em um banco de dados público (Tabela S11). Entre os genes codificadores de proteínas, 2.053 genes do fator de transcrição (TF) foram previstos e classificados em 58 famílias de genes (Tabelas S12 e S13).

3.3 Genômica comparativa e eventos de duplicação do genoma completo

Nós comparamos o S. dunnii sequência do genoma para quatro genomas de salgueiro publicados e Populus trichocarpa, como um grupo externo, usando 5950 genes de cópia única para construir uma árvore filogenética das relações das espécies (Figura 1b). Consistente com topologias publicadas (Wu et al., 2015), S. dunnii aparece em nosso estudo como um táxon divergente precoce na posição irmã dos quatro Salix espécies do Chamaetia-Vetrix clado.

Para testar eventos de duplicação do genoma inteiro (WGD), examinamos a distribuição de Ks valores entre paralogos dentro do S. dunnii genoma, junto com um gráfico de pontos para detectar regiões potencialmente sintênicas. Isso revelou um Kpico s semelhante ao observado em Populus, confirmando a conclusão anterior de que um WGD ocorreu antes de os dois gêneros divergirem (Ks em torno de 0,3 na Figura S10) (Tuskan et al., 2006). Um WGD também é apoiado por nossa análise de sintaxe dentro S. dunnii (Figura 1a Figura S11). Sintenia e colinearidade eram, no entanto, altas entre S. dunnii e S. purpurea em todos os 19 cromossomos, e entre as duas espécies de salgueiro e P. trichocarpa para 17 cromossomos (Figura 1c), com um grande rearranjo intercromossômico previamente conhecido entre o cromossomo 1 e o cromossomo 16 de Salix e Populus (Figura 1c).

3.4 Identificação do sistema de determinação do sexo

Para inferir o sistema de determinação do sexo em S. dunnii, sequenciamos 20 fêmeas e 18 machos de duas populações selvagens por sequenciamento de leitura curta da Illumina (Tabela S1). Após a filtragem, obtivemos mais de 10 Gb de leituras limpas por amostra (Tabela S14) com profundidades médias de 30 × a 40 × (Tabela S15), resultando em 4.370.362 SNPs de alta qualidade.

Um GWAS revelou um pequeno (1.067.232 bp) S. dunnii região do cromossomo 7, entre 6.686.577 e 7.753.809 bp, na qual 101 SNPs foram significativamente associados ao sexo (Figura 2a, b Tabela S16, Figura S12). Mais de 99% desses candidatos a SNPs ligados ao sexo são homozigotos em todas as mulheres e 63,74% são heterozigotos em todos os homens em nossa amostra (Tabela S17).

Consistente com nosso GWAS, o método CQ, com 18 indivíduos de cada sexo, detectou a mesma região e estimou uma região um pouco maior, entre 6,2 e 8,75 Mb, com CQ & gt 1,6 (que inclui todos os SNPs ligados ao sexo candidatos), enquanto outras regiões do cromossomo 7 e os outros 18 cromossomos e contigs têm valores CQ próximos a 1 (Figura 2c Figura S13). Esses resultados sugerem que S. dunnii tem um sistema heterogamético masculino, com uma pequena região completamente ligada ao sexo no cromossomo 7. Como essas posições são baseadas no sequenciamento de uma fêmea, e a espécie tem heterogametia masculina, nos referimos a isso como a região ligada ao X (X-LR) . Previmos (consulte Métodos) que o centrômero do cromossomo 7 está entre cerca de 5,2 e 7,9 Mb, o que implica que a região ligada ao sexo pode estar em uma região de baixa recombinação próxima a este centrômero (Figura S1). Além disso, a análise de LD usando 20 mulheres mostra que o X-LR está localizado dentro de uma região do cromossomo X com menor recombinação do que o resto do cromossomo 7, consistente com uma localização centromérica ou pericentromérica (Figura S14). Sem os mapas genéticos, ainda não está claro se essa espécie tem baixa recombinação perto dos centrômeros de todos os seus cromossomos.

Diferenciação genética (estimada como FST) entre nossas amostras de indivíduos do sexo masculino e feminino confirmaram ainda uma região X-LR de 3,205 Mb na região detectada pelo GWAS. Entre 5,675 e 8,88 Mb (21% do cromossomo 7), análise de ponto de mudança (consulte métodos) detectada FST valores significativamente maiores do que aqueles nas regiões de flanco, como esperado para uma região completamente ligada ao X (Figura 2 Figura S15). Os outros 79% do cromossomo formam dois PARs (veja a Figura 2). LD foi substancialmente maior na região supostamente totalmente ligada ao sexo do que em todo o genoma (Figura S16).

3.5 Conteúdo genético da região totalmente ligada ao sexo

Encontramos 124 genes aparentemente funcionais no X-LR (com base em sequências de codificação intactas) vs. 516 no PAR1 (definido como a região do cromossomo 7 da posição 0 a 5.674.999 pb) e 562 no PAR2 no cromossomo 7 (de 8.880.001 a 15.272.728 bp) (Figura 2e Tabelas S9 e S18). Os números do gene X-LR são apenas 10,3% dos genes funcionais no cromossomo 7, contra 21% de seu tamanho físico, sugerindo uma baixa densidade gênica ou perda de função dos genes, qualquer um dos quais poderia ocorrer em uma região do genoma pericentromérico . Também identificamos 183 pseudogenes ligados ao X. Incluindo os pseudogenes, os genes X-LR formam 17% do conteúdo do gene desse cromossomo e, portanto, a densidade geral do gene não é muito menor do que nos PARs. Em vez disso, os pseudogenes formam uma proporção muito maior (59%) do que nos autossomos (31%), ou os PARs (148 e 269 em PAR1 e em PAR2, respectivamente, ou 28% no geral, ver Tabelas S19 e S20). No total, 41 genes dentro da região ligada ao X não tiveram nenhuma explosão no cromossomo 7 de qualquer P. trichocarpa ou S. purpurea (Tabela S18).

Nossas pesquisas do S. dunnii genoma para cópias completas ou parciais da sequência Potri.019G133600 (o ARR17O gene semelhante ao descrito acima, e discutido mais adiante, que está envolvido na determinação do sexo em várias outras Salicaceae) encontrou cópias nos cromossomos 1, 3, 8, 13 e 19 (Tabela S21). É importante ressaltar que não encontramos nenhum no cromossomo 7 e, especificamente, nenhuma cópia ou cópia do pseudogene no X-LR.

3.6 Evolução molecular de S. dunnii Genes ligados ao X

A densidade do gene é menor no X-LR do que nos PARs, provavelmente porque a densidade do elemento LTR-Gypsy é maior (Figura 3a). Os elementos repetitivos constituem 70,58% do X-LR, contra 40,36% para os PARs e 40,78% para os 18 autossomos (Tabela 3). Mais da metade (53,31%) do elemento LTR-Gypsy intacto identificado do cromossomo 7 era de X-LR (Figura 3b Tabela S8).

Nós estimamos Kuma, Kareia Kuma/Ks razões para genes do cromossomo 7 que estão presentes em ambos S. dunnii e S. purpurea (992 pares de ortólogos) ou S. dunnii e P. trichocarpa (1017 pares de ortólogos). Ambos Kum e KOs valores de s são aproximadamente semelhantes em todo o cromossomo (Figuras S17 e S18), e o Kuma/KOs valores de s não diferiram significativamente entre a região ligada ao sexo e os autossomos ou PARs (Figura 3c, d Figura S19). No entanto, o Kum e KAs estimativas de s para genes PAR são significativamente maiores do que para genes autossômicos, sugerindo uma taxa de mutação mais alta (a Figura S17 mostra os resultados para divergência de P. trichocarpa, e a Figura S18 para S. purpurea).

Categoria X-LR PARs Autossomos
Genes 0.537 (16.77%) 4.679 (38.78%) 122.740 (39.58%)
Cigano-LTR 1.429 (44.60%) 1.370 (11.36%) 39.321 (12.68%)
Copia-LTR 0.190 (5.94%) 0.844 (6.99%) 17.986 (5.80%)
Total de repetições 2.262 (70.58%) 4.870 (40.36%) 126.465 (40.78%)

3.7 Expressão gênica enviesada pelo sexo em tecidos reprodutivos e vegetativos

Após o controle de qualidade e corte, mais de 80% de nossas leituras de RNAseq mapeadas exclusivamente para a montagem do genoma em todas as amostras (Tabela S22). Em ambos os conjuntos de dados de catkin e folha, há significativamente mais genes com tendência masculina do que feminina. Em amentilhos, 3734 genes têm diferenças sexuais na expressão (2503 genes com tendência masculina e 1231 feminina). Apenas 43 genes diferencialmente expressos foram detectados no material foliar (31 genes com tendência masculina vs. 12 feminina, principalmente também expressos diferencialmente em amentilhos Figura S20, Tabela S23). O cromossomo 7, como um todo, mostrou um enriquecimento semelhante para genes com expressão polarizada por homens (117 genes polarizados por homens, de 1112 que produziram estimativas de expressão, ou 10,52%), mas os genes polarizados por homens formam proporções significativamente maiores apenas no PARs, e não na região ligada ao X (Figura 4), que incluiu apenas seis genes polarizados para homens e cinco para mulheres, enquanto os outros 94 genes X-LR que produziram estimativas de expressão (90%) foram imparciais.

Dividimos os genes em três grupos de acordo com suas diferenças sexuais na expressão, com base no log2Valores FoldChange. Todos os genes X-LR de maior expressão masculina estão na categoria de expressão mais alta, mas os genes de maior expressão feminina são todos de PARs (Figura 4).


RESULTADOS

Desenvolvimento da sonda:

Relatórios anteriores de detecção de FISH de locus único sugerem que o alvo genômico mínimo que pode ser detectado usando FISH em milho é ∼3000 bp (K ato et al. 2006 W ang et al. 2006 você et al. 2007). Para desenvolver sondas que poderiam ser usadas rotineiramente, várias abordagens identificaram alvos genômicos & gt6000 bp que estariam livres de elementos repetitivos e que seriam facilmente detectáveis. Esses alvos incluíam genes organizados em clusters, grandes cDNAs, genes sem elementos repetitivos em seus íntrons e sequências únicas reunidas de BACs.

Aglomerados de genes:

Certos tipos de genes de plantas tendem a ser organizados como grandes aglomerados de genes. Como uma única sonda hibridiza com todo o grupo, esses aglomerados são excelentes alvos de FISH. Os exemplos clássicos de detecção de genes em tandem são os genes ribossomais que foram usados ​​no cariótipo de muitas espécies diferentes, incluindo milho (L i e A rumuganathan 2001 K ato et al. 2004). Além disso, os genes que medeiam a resistência a doenças do milho (W ebb et al. S mito de 2002 et al. 2004) ou que codificam o armazenamento (W oo et al. 2001) e proteínas da parede celular (W u et al. 2001) são encontrados em grandes aglomerados e têm sido usados ​​como sondas FISH em milho (B auer e B irchler 2006 K ato et al. 2006 L amb and B irchler 2006 V aldivia et al. 2007). O 19-kDa zein os genes estão presentes em grupos em vários loci, incluindo nos cromossomos 4S e 7S (S ong e M essing 2002). Porque o 19-kDa zein subfamília Um agrupamento de genes no cromossomo 4 é prontamente detectável usando FISH (K ato et al. 2006), o agrupamento de genes da subfamília B foi um candidato promissor para um marcador do cromossomo 7. A 19 kDa zein A sequência da subfamília B foi amplificada por PCR e clonada usando primers específicos da subfamília que foram descritos anteriormente (S ong e M essing 2002). Este clone foi usado em reações de PCR subsequentes para produzir o modelo para a reação de marcação de FISH. A sonda foi chamada de α-zeinB e produziu um sinal exclusivamente no 7S (Figura 1).

FISH de alvo pequeno em cromossomos somáticos da linhagem consanguínea B73 de milho. Cromossomos somáticos da linhagem consanguínea B73 foram hibridizados com sondas de pequeno alvo (vermelho) e com sondas de elemento repetitivo (CentC, microssatélites TAG e a repetição de botão de 180 bp), que em combinação com as proporções de tamanho e comprimento do braço, permitem que cada cromossomo para ser identificado. Os sinais de microssatélites CentC e TAG são verdes e os sinais de repetição do botão de 180 bp são azuis. Os cromossomos de preparações individuais foram cortados eletronicamente e dispostos em fileiras. Em cada linha, a imagem mesclada é apresentada para mostrar a posição cromossômica de cada sonda de alvo pequeno. Abaixo da imagem mesclada, os valores de cinza são exibidos para os sinais de alvo pequeno da seguinte forma: (A) dek1, (B) serk2+rf2e1, (C) 19-kDa α-zeinFamília de genes B, (D) BAC8L, (E) BAC9S, (F) acc1/acc2, e (G) myo1. Setas vermelhas indicam as posições dos sinais.

Genes únicos:

A maioria dos genes de milho são & gt3 kb (H aberer et al. 2005), o tamanho mínimo que é rotineiramente detectável pelo FISH. Portanto, genes individuais são candidatos a sondas FISH de locus único, embora alguns contenham elementos repetitivos em seus íntrons e sejam inadequados. Para desenvolver sondas para o cromossomo 5, pares de primers de PCR foram projetados para amplificar dois genes localizados em 5L: o rf2e1 gene (4739 bp) e o serk2 gene (5484 pb) (Tabela 1). o rf2e1 gene foi amplificado em dois fragmentos. Os produtos de PCR resultantes produziram sinais FISH em 5L e mostraram nenhum ou baixo fundo. The PCR products from serk2 e rf2e1 genes were combined to produce a 5L probe, referred to as serk2+rf2e1 (Figura 1). On some chromosomes, two signals were produced, probably corresponding to the two genes (Figure 1 and supplemental Figure 1, A and B, at http://www.genetics.org/supplemental/). o serk2 gene is placed on the GRAMENE Z. mays finger printed contig map (http://www.gramene.org/Zea_mays/) on chromosome 5L, contig 234, position 133.32 Mb. UMA rf2e1 homolog, found by BLASTn analysis (Z. mays PCO083188_ov mRNA, accession AY107915), is mapped on chromosome 5L, contig 240, position 145.42 Mb. The distance between the serk2 e a rf2e1 sequences is 12 Mb.

PCR probe production

Large cDNAs:

Approximately 11% of maize genes contain repetitive sequences in their introns (H aberer et al. 2005) and will not be suitable as FISH probes without removal of the repeats. Because fully processed mRNAs do not contain introns and are therefore likely to contain less repetitive DNA, a database search was conducted for large maize cDNA sequences to use as FISH probes. Thirty-six candidate mRNA sequences >4000 bp were identified, including both mapped and unmapped genes. Of these, several with cDNA sequences >6000 bp were selected for further analysis, including Z. mays B73 calpain-like protein (dek1) (7110 bp), the unconventional myosin heavy chain (myo1) (5375 bp), and the acetyl-coenzyme A carboxylase (acc1) (7324 bp) genes. o myo1 gene had not previously been localized and the maize genome contains two highly similar acc genes (A shton et al. 1994) present on chromosome arms 2L (acc2) and 10L (acc1) (http://www.maizegdb.org). The resulting PCR products were used as FISH probes (Figure 1). Probe dek1 labeled the expected interstitial position on chromosome 1S and additional signal was seen at the NOR due to contaminating cDNA from the rDNA genes (supplemental Figure 2 at http://www.genetics.org/supplemental/). By using RNA that is enriched for poly(A)-containing mRNA as the RT–PCR template, the NOR hybridization signal was eliminated (Figure 1, supplemental Figure 1, E and F, at http://www.genetics.org/supplemental/), and purified mRNA was used as the template for subsequent RT–PCR reactions. o myo1 probe produced a signal on the distal end of chromosome 3L. o acc1/acc2 probe hybridized near the centromere on chromosome 2L and at an interstitial position on chromosome 10L (Figure 1). Thus, the position of the myo1 gene has been determined and the positions of dek1, acc1, e acc2 genes have been detected using FISH.

Pooled PCR products from BACs:

Although extensive BAC libraries exist for maize, the abundance of dispersed repetitive elements prevents the direct use of maize BACs as FISH probes. Many BAC clones have been sequenced as part of the ongoing maize genome sequencing effort, allowing the identification of unique or genic regions using sequence analysis software. Pooling multiple low-copy sequences from a BAC sequence would allow FISH to a genomic target of sufficient size to be readily detectable and free of background signal.

To develop a FISH marker for chromosome 8, the 136.9-kb BAC clone sequence AC157487 was selected. Four unique regions with sizes of 7.5, 13.4, 7.0, and 8.4 kb were identified after RepeatMasker analysis (Figure 2A). Each region was analyzed using the BLASTn program and sequences with homology to plant cDNAs or mRNAs were selected for primer design. These regions were expected to be conserved among maize varieties. Seven PCR products were labeled as FISH probes and individually tested on chromosome spreads. Three PCR products showing no background were combined to produce a probe totaling 8.7 kb in length that readily detected a specific region on chromosome 8L (Figure 1, Figure 2B, Table 1). Four PCR products showed nonspecific hybridization due to elements being present, which can be missed during RepeatMasker analysis. As additional repetitive elements are added to the Repeat Masker library, selection of maize unique sequences for FISH probe development will be more effective. We anticipate that many additional probes will be produced in this fashion and propose the following naming system. Probes will be designated by the chromosome arm and the GenBank accession number used in their design. Thus, a probe produced by pooling the PCR products is named BAC8L–AC157487. Because only one probe on 8L is used in this study, an abbreviated form of the name, BAC8L, will be used.

Development of unique probes from BAC sequences. (A) Chromosome 8L anchored BAC AC157487 (136.9 kb) after RepeatMasker analysis: four long unique BAC regions were selected for primer design. (B) Seven PCR products were amplified and used as FISH probes separately. Three PCR products that showed low or no background were selected and combined as one probe.

A similar approach was applied to develop a probe for chromosome 9S using sequence AF448416 from a BAC clone containing the bz1 regions (106.2 kb). RepeatMasker and BLASTn analysis was performed in the same manner as noted above. Porque o bz1 region has been well characterized (F u and D ooner 2002 B runner et al. 2005), it was possible to select sequences shared among three different inbreds—B73, Mo17, and McC—for FISH probe development. Seven PCR primer pairs were designed. Five PCR products corresponding to regions of genes stk1, stc1, znf, tac7077, e uce2 showed low background as FISH probes and were pooled to produce a readily detectable 12.3-kb probe for the chromosome 9 bz region (Table 2, Figure 1). The other two PCR products were not used because they produced high background. This probe, BAC9S–AF448416, will be referred to as BAC9S in this report.

Karyotyping cocktail components

Karyotyping:

By combining the new probes produced for chromosomes 1S, 5L, 7S, 8L, and 9S with others described previously, including the p1 gene on 1S (Y u et al. 2007), the 5S ribosomal gene cluster on 2L (K ato et al. 2004), the rp3 disease resistance gene cluster on 3L (K ato et al. 2006), the Cent4 repeat cluster near the centromere of chromosome 4 (K ato et al. 2004), the expansin B11 gene cluster expB11 on 5L (V aldivia et al. 2007), the 45S (NOR) ribosomal gene cluster on 6S (K ato et al. 2004), the expansin B9 gene cluster expB9 on 9L (V aldivia et al. 2007), and the rp1 disease resistance gene cluster on 10S (K ato et al. 2006), a collection of single-locus FISH probes that includes at least one on each chromosome has been assembled (Table 2). By combining selected members of this collection, labeled in different colors, it is possible to identify each chromosome in the maize karyotype. The probe cocktail was successfully applied to chromosomes of inbred lines B73, Oh43, and KYS (KYS is shown in Figure 3). The position of each probe on the respective chromosome of inbred B73 was measured and an idiogram was constructed (Figure 4 ).

Inbred KYS chromosomes identified using small-target probes. FISH with small-target probes including dek1 (1S, red), p1-wr (1S, white), rp3 (3L, red), serk2+rf2e1 (5L, green), expB11 (5L, green), α-zeinB (7S, red), BAC8L (8L, green), BAC9S (9S, green), expB9 (9L, green), and rp1 (10S, red) and with probes to the repetitive elements 5S rDNA (2L, green), 45S rDNA (NOR, 6S, green), and Cent4 (green). See Table 1 for details on each probe. Bar, 10 μm.

Idiogram of Z. mays B73 chromosomes showing average relative chromosome lengths (as percentages) and positions of small-target probes on somatic chromosomes from inbred line B73. The asterisk by chromosome 4 indicates the position of a second site of hybridization to a 19-kDa zein gene probe and the asterisk by chromosome 9 indicates a minor site of hybridization to expB10. The colors used to indicate the probe positions correspond to the colors in Figure 3 except probes not used for karyotyping, which are shown in black.

Probe extension to other maize lines and relatives:

Because single-locus FISH probes detected B73 genes or gene clusters whose function is likely conserved, it was expected that they would hybridize in other maize lines and related species. To confirm this supposition, the probes dek1, serk2+rf2e1, BAC8L, and BAC9S were applied to the inbreds KYS and Oh43 and produced signals in the expected locations (supplemental Figure 1 at http://www.genetics.org/supplemental/). Several of the probes in the single-locus collection, including α-zeinUMA, rp1, e rp3, were previously shown to hybridize to unique locations in Tripsacum and Z. diploperennis (L amb and B irchler 2006). The remaining probes from the single-locus collection—dek1, serk2+rf2e1, BAC8L, BAC9S, expB11, α-zeinB, acc1/acc2, e myo1—were applied to chromosome spreads from F1 hybrids between maize and wild relatives, including Z. luxurians, Z. diploperennis, e T. dactyloides, and to a “tri-species hybrid” containing chromosomes from Z. mays, Z. diploperennis, e T. dactyloides. The presence of the maize chromosomes in these hybrids provides a positive control for ensuring that the conditions were optimal for signal detection. For all the probes, signal could be detected on the chromosomes from the wild relatives. Several examples are included in Figure 5 and supplemental Figure 2 at http://www.genetics.org/supplemental/. The number of signals in the wild Zea species was the same as that in maize for each probe. In Tripsacum, rp1, rp3, α-zeinA (L amb and B irchler 2006), α-zeinB, myo1, e acc1/acc2 probes all produced the same number of signals per haploid genome as in maize (Figure 5, supplemental Figure 2 at http://www.genetics.org/supplemental/). The other probes produced more signals per haploid genome than Zea did: BAC8L (three signals), dek1 (two signals), and serk2+rf2e1 (three signals). Because BAC8L is a mixture of three detectable PCR products (3125, 2179, and 3353 bp long), the three sites could indicate three homologous regions or result from separation of the genomic locations relative to their positions in maize.

Extension of small-target FISH probes to wild relatives of Z. mays. Small-target probes are indicated by arrowheads. The gray-value images depict the small-target labeling alone. Bars, 10 μm. (A) Maize × Z. diploperennis F1 hybrid chromosomes labeled with BAC8L (red) and (B) ExpB11 (red). The Grande retrotransposon probe (green) hybridizes strongly to maize chromosomes and with intermediate intensity to Z. diploperennis cromossomos. (C) “Tri-species” hybrid containing a haploid set of chromosomes from maize (n = 9, as chromosome 2 is missing), Z. diploperennis (n = 10), and T. dactyloides (n = 18), labeled with myo1 (red) and a Tripsacum-specific retroelement probe, TC#25 (green). Three myo1 signals are observed, two on Zea chromosomes and one on a Tripsacum chromosome. (D) Maize × Z. luxurians F1 hybrid labeled with the serk2+rf2e1 probe (red) and the 180-bp knob probe (green). Knob signals in Z. luxurians are located at the ends of chromosomes whereas maize knob signals are interstitial.


General usage¶

As described on the UCSC Genome Browser website (see link below), the browser extensible data (BED) format is a concise and flexible way to represent genomic features and annotations. The BED format description supports up to 12 columns, but only the first 3 are required for the UCSC browser, the Galaxy browser and for bedtools. bedtools allows one to use the “BED12” format (that is, all 12 fields listed below). However, only intersectBed, coverageBed, genomeCoverageBed, and bamToBed will obey the BED12 “blocks” when computing overlaps, etc., via the “-split” option. For all other tools, the last six columns are not used for any comparisons by the bedtools. Instead, they will use the entire span (start to end) of the BED12 entry to perform any relevant feature comparisons. The last six columns will be reported in the output of all comparisons.

  • Any string can be used. For example, “chr1”, “III”, “myChrom”, “contig1112.23”.
  • This column is required.
  • The first base in a chromosome is numbered 0.
  • The start position in each BED feature is therefore interpreted to be 1 greater than the start position listed in the feature. For example, start=9, end=20 is interpreted to span bases 10 through 20,inclusive.
  • This column is required.
  • The end position in each BED feature is one-based. See example above.
  • This column is required.
  • Any string can be used. For example, “LINE”, “Exon3”, “HWIEAS_0001:3:1:0:266#0/1”, or “my_Feature”.
  • This column is optional.
  1. score - The UCSC definition requires that a BED score range from 0 to 1000, inclusive. However, bedtools allows any string to be stored in this field in order to allow greater flexibility in annotation features. For example, strings allow scientific notation for p-values, mean enrichment values, etc. It should be noted that this flexibility could prevent such annotations from being correctly displayed on the UCSC browser.
  • Any string can be used. For example, 7.31E-05 (p-value), 0.33456 (mean enrichment value), “up”, “down”, etc.
  • This column is optional.
  1. blockSizes - A comma-separated list of the block sizes.
  2. blockStarts - A comma-separated list of block starts.

bedtools requires that all BED input files (and input received from stdin) are tab-delimited. The following types of BED files are supported by bedtools:

  1. BED3: A BED file where each feature is described by chrom, começar, e fim.
  1. BED4: A BED file where each feature is described by chrom, começar, fim, e nome.
  1. BED5: A BED file where each feature is described by chrom, começar, fim, nome, e score.
  1. BED6: A BED file where each feature is described by chrom, começar, fim, nome, score, e strand.

BED12: A BED file where each feature is described by all twelve columns listed above.

For example: chr1 11873 14409 uc001aaa.3 0 + 11873 11873 0 3 354,109,1189, 0,739,1347,

BEDPE format¶

We have defined a new file format, the browser extensible data paired-end (BEDPE) format, in order to concisely describe disjoint genome features, such as structural variations or paired-end sequence alignments. We chose to define a new format because the existing “blocked” BED format (a.k.a. BED12) does not allow inter-chromosomal feature definitions. In addition, BED12 only has one strand field, which is insufficient for paired-end sequence alignments, especially when studying structural variation.

The BEDPE format is described below. The description is modified from: http://genome.ucsc.edu/FAQ/FAQformat#format1.

  1. chrom1 - The name of the chromosome on which the primeiro end of the feature exists.
  • Any string can be used. For example, “chr1”, “III”, “myChrom”, “contig1112.23”.
  • This column is required.
  • Use “.” for unknown.
  1. start1 - The zero-based starting position of the primeiro end of the feature on chrom1.
  • The first base in a chromosome is numbered 0.
  • As with BED format, the start position in each BEDPE feature is therefore interpreted to be 1 greater than the start position listed in the feature. This column is required.
  • Use -1 for unknown.
  1. end1 - The one-based ending position of the first end of the feature on chrom1.
  • The end position in each BEDPE feature is one-based.
  • This column is required.
  • Use -1 for unknown.
  1. chrom2 - The name of the chromosome on which the segundo end of the feature exists.
  • Any string can be used. For example, “chr1”, “III”, “myChrom”, “contig1112.23”.
  • This column is required.
  • Use “.” for unknown.
  1. start2 - The zero-based starting position of the segundo end of the feature on chrom2.
  • The first base in a chromosome is numbered 0.
  • As with BED format, the start position in each BEDPE feature is therefore interpreted to be 1 greater than the start position listed in the feature. This column is required.
  • Use -1 for unknown.
  1. end2 - The one-based ending position of the segundo end of the feature on chrom2.
  • The end position in each BEDPE feature is one-based.
  • This column is required.
  • Use -1 for unknown.
  • Any string can be used. For example, “LINE”, “Exon3”, “HWIEAS_0001:3:1:0:266#0/1”, or “my_Feature”.
  • This column is optional.
  1. score - The UCSC definition requires that a BED score range from 0 to 1000, inclusive. However, bedtools allows any string to be stored in this field in order to allow greater flexibility in annotation features. For example, strings allow scientific notation for p-values, mean enrichment values, etc. It should be noted that this flexibility could prevent such annotations from being correctly displayed on the UCSC browser.
  • Any string can be used. For example, 7.31E-05 (p-value), 0.33456 (mean enrichment value), “up”, “down”, etc.
  • This column is optional.
  1. Any number of additional, user-defined fields - bedtools allows one to add as many additional fields to the normal, 10-column BEDPE format as necessary. These columns are merely “passed through” pairToBed e pairToPair and are not part of any analysis. One would use these additional columns to add extra information (e.g., edit distance for each end of an alignment, or “deletion”, “inversion”, etc.) to each BEDPE feature.

Entries from an typical BEDPE file:

Entries from a BEDPE file with two custom fields added to each record:

GFF format¶

The GFF format is described on the Sanger Institute’s website (http://www.sanger.ac.uk/resources/software/gff/spec.html). The GFF description below is modified from the definition at this URL. All nine columns in the GFF format description are required by bedtools.

  • Any string can be used. For example, “chr1”, “III”, “myChrom”, “contig1112.23”.
  • This column is required.
  1. fonte - The source of this feature. This field will normally be used to indicate the program making the prediction, or if it comes from public database annotation, or is experimentally verified, etc.
  • This column is required.
  • bedtools accounts for the fact the GFF uses a one-based position and BED uses a zero-based start position.
  1. score - A score assigned to the GFF feature. Like BED format, bedtools allows any string to be stored in this field in order to allow greater flexibility in annotation features. We note that this differs from the GFF definition in the interest of flexibility.
  1. attribute - Taken from http://www.sanger.ac.uk/resources/software/gff/spec.html: From version 2 onwards, the attribute field must have an tag value structure following the syntax used within objects in a .ace file, flattened onto one line by semicolon separators. Free text values must be quoted with double quotes. Note: all non-printing characters in such free text value strings (e.g. newlines, tabs, control characters, etc) must be explicitly represented by their C (UNIX) style backslash-escaped representation (e.g. newlines as ‘n’, tabs as ‘t’). As in ACEDB, multiple values can follow a specific tag. The aim is to establish consistent use of particular tags, corresponding to an underlying implied ACEDB model if you want to think that way (but acedb is not required).

An entry from an example GFF file :

Genoma file format¶

Some of the bedtools (e.g., genomeCoverageBed, complementBed, slopBed) need to know the size of the chromosomes for the organism for which your BED files are based. When using the UCSC Genome Browser, Ensemble, or Galaxy, you typically indicate which which species/genome build you are working. The way you do this for bedtools is to create a “genome” file, which simply lists the names of the chromosomes (or scaffolds, etc.) and their size (in basepairs).

Genome files must be tab-delimited and are structured as follows (this is an example for C. elegans):

bedtools includes pre-defined genome files for human and mouse in the /genomes directory included in the bedtools distribution.


Resultados

Upregulated DEGs were significantly enriched in cell cycle-related pathways

Many pipelines and strategies exist to aid in the interpretation of omics data. Firstly, we selected suitable datasets and performed canonical DEG screening to characterize ATC. Detailed sample information was listed in Table S1.

The data retrieval process for DEG screening was recorded in Fig. 1A. Using combined effect size method, we filtered out 661 DEGs, including 318 upregulated and 343 downregulated genes. Detailed information on DEGs was provided in Table S2.

After DEG filtering, we performed gene enrichment analysis to characterize the relevant KEGG pathways of these DEGs. As illustrated in Figs. 1B & 1C, upregulated DEGs were significantly enriched in cell cycle-related pathways. Meanwhile, downregulated DEGs were primarily enriched in thyroid hormone synthesis pathway.

The above results indicated that thyroid hormone synthesis pathway was significantly enriched in downregulated DEGs. We were not surprise to see that, as degenerative phenotypes are classic manifestations of ATC (Molinaro et al., 2017).

As indicated by previous literature (Evans et al., 2012 Pita et al., 2014), dyregulation of cell cycle-related pathways are important feature and potential driver of ATC. Hence, in the present work, we primarily focused on cell cycle-related key genes. We further validated the enrichment of KEGG pathway ‘Cell cycle’ using flexible GSVA method. As illustrated in Fig. 1D, pathway ‘Cell cycle’ was differentially enriched between ATC and normal thyroid tissue, with adjusted P value < 0.0001.

Detecting gene modules using WGCNA

Next, we decided to apply an unsupervised clustering algorithm WGCNA to explore the co-expression network and find if there was any gene cluster highly related to ATC. Using WGCNA (Langfelder & Horvath, 2008), we can identify the correlations among genes and cluster genes into ‘gene modules’. By quantifying the associations between these gene modules and ATC, we can filter out potential key gene modules for further analysis.

As an advanced data mining algorithm, WGCNA has high demands on sample size. To make the full use of data and produce more robust results, we re-screened and re-selected the data (Fig. 2A). Detailed sample information was listed in Table S1.

The top 5,000 genes with the highest variance were loaded for module detection. As shown in Fig. 2B, several gene modules were identified by WGCNA. Then, we calculated out the correlations between these modules and ATC using each module’s eigengene. A total of five gene modules were identified as positively correlated with ATC (P & lt 0,05). Among them, module turquoise had the highest correlation coefficient.

Identifying module turquoise as a potential key cycle-related module

After module detection, we can further uncover key gene modules by gene enrichment analysis focused on genes’ involvement in pathways. As the above analysis revealed that upregulated genes were enriched in cell cycle-related pathways, next we want to explore if any cell cycle-enriched gene module can be detected.

As illustrated in Fig. 3A, KEGG enrichment analysis revealed that cell cycle-related pathways were significantly enriched in genes of module turquoise. GSVA method confirmed the enrichment (Fig. 3B) with adjusted P value < 0.0001. No other gene module with relevant to ATC (P < 0.05, both positively and negatively correlated) showed the enrichment of cell cycle-related pathways (Table S3). Next, we will choose module turquoise as a cell cycle-related key gene module and perform further exploration.

Figure 3: Module turquoise was significantly enriched in cell cycle-related pathways.

Combining two pipelines to filter out potential cell cycle-related key genes

Genes interact with each other, forming a comprehensive network. For key genes occupying central positions in the regulatory network, even small changes may bring great impact. Hence, we tended to explore gene-gene interaction between these DEGs and tried to uncover key DEGs with potential key function. Based on protein-protein interaction (PPI) network, we identified the top 50 hub DEGs with the highest prediction scores. Interestingly, all the top 50 hub genes were clustered in module turquoise (Fig. 4).

Figure 4: Centrality of the top 50 PPI network-predicted hub DEGs in module turquoise.

The WGCNA algorithm can calculate the eigengene to feature each module. Module membership (MM) was defined as the absolute correlation coefficient between each gene’s expression and the corresponding module eigengene. Genes with high MM value indicate high centrality in the subnetwork. We defined that genes with MM > 0.85 shall be regarded as module’s hub genes. According to the above cut-off criteria, we identified 31 genes predicted as key genes by both PPI network-guided and WGCNA-guided prediction pipelines (Fig. 4). As both the upregulated DEGs and genes of module turquoise were significantly enriched in cell cycle-related pathways, these key genes can be regarded as potential cell cycle-related key genes.

Further filtering of cell cycle-related key genes with cancer/testis expression pattern

Expression of some genes are restricted to germ cells under normal conditions, but may be reactivated and upregulated in tumor. These ‘cancer/testis’ genes harbor potential of being therapeutic targets as they are both immunogenic and critical in tumorigenesis. Wang et al. recently systematically identified several testis-specific genes (Wang et al., 2016). Based on their publication, we filtered out 10 genes out of 31 predicted key genes as having cancer/testis expression pattern (Fig. 5A). Their expression levels across major organs under physiological conditions were illustrated in Fig. 5B. These genes were further regarded as putative key genes of ATC harboring therapeutic potential.

Figure 5: Identification of 10 genes with cancer/testis expression pattern as putative key genes of ATC harboring therapeutic potential.

We further validate their gene ontology (GO) ‘biological processes (BP)’ classification using ARCHS 4 database. Top 10 GO terms of each putative key gene with highest Z scores were recorded in the Table S4. These annotated GO terms again demonstrated that these putative key genes play key roles in cell cycle-related pathways. Notably, GO annotation revealed that these putative key genes were primarily associated with chromosome segregation, which will be discussed later.

Key genes’ impact on disease-free survival among patients with differentiated thyroid cancer

Next, we decided to further investigate the association between those key genes’ expression and clinical outcomes of thyroid cancer patients. Data from the THCA cohort, TCGA project was utilized. THCA cohort mainly includes differentiated thyroid cancers. Nevertheless, the tumorigenesis and progression of ATC have been widely acknowledged to be a multistep deterioration process that evolved from that of differentiated thyroid cancers (Molinaro et al., 2017). Hence, THCA cohort can still provide valuable information on the functional characterization of key genes in ATC from a pan-thyroid cancer perspective.

As illustrated in Figs. 6A–6E, expression levels of TRIP13, TPX2, DLGAP5, KIF2C e TTK were associated with shorter disease free survival (DFS) among differentiated thyroid cancer. As illustrated in Fig. 6F, patients with more key genes upregulated tended to have shorter DFS (logrank P = 0.0128) than patients with less key genes upregulated.

Figure 6: Putative key genes’ impact on disease free survival (DFS) among differentiated thyroid cancer patients.


What value type would a chromosome position be in a database or form? - Biologia

In mammalian cells, the p-arm of many acrocentric chromosomes carry nucleolar organising regions (NORs) which contain genes coding for ribosomal RNA. This is true for all five pairs of acrocentrics in human cells.

CHROMOSOME ANOMALIES: CONSTITUTIONAL versus ACQUIRED, HOMOGENEOUS versus MOSAIC, NUMERICAL versus STRUCTURAL

A chromosome anomaly can be:

    por exemplo. 1: a constitutional anomaly having occurred in a parental gamete (e.g. + 21) will be found in each of the cells of the resulting child (homogeneous trisomy 21).

Observação: In practice, when an acquired anomaly is said homogeneous, it only means that no normal cell was karyotyped within the scored sample.

MOSAIC

    por exemplo. 1: A non-disjunction (e.g. + 21) having occurred in the zygote after a few cell divisions: Only some of the embryo cells (and later, of the child’s cells) will carry the anomaly (46, XY/47, XY, +21).

* A chromosome anomaly can be:

CHROMOSOME ANOMALIES - MECHANISMS AND NOMENCLATURE

1 - Homogeneous due to meiotic non-disjunction (Figure)

    non disjunction in first meiotic division produces 4 unbalanced gametes.

Mesa: Zygotes produced for each type gamete: Empty boxes indicate a non-viable conceptus. Boxes XX and XY with ° are normal zygotes from normal gametes. Boxes with * are normal zygotes from unbalanced gametes.

gametasO Y XXYAA XXXYYXXYXXYY
O XXY* XX*XYYXXYXXYY
XXXY-XX-XXY XYYXxxXXYYXXXY
XXXX*XXYXxxXXXYXXYYXXXXXXXXY
XxxXxxXXXYXXXXXXXXY XXXXX
XXXXXXXXXXXXYXXXXX

2 - Homogenous due to a fertilisation anomaly

    digyny: non-expulsion of the 2nd polar body.

Note: Viability of the two daughter cells may differ. In the above-mentioned trisomy 21 example, the clone monosomic for 21 is non-viable and has disappeared.

Observação: Mosaicism is frequent in malignancies, either because normal cells can still be karyotyped, or because the malignant clone produces sub-clones with additional anomalies (clonal evolution).

Visually, chromosomes can appear to break, and broken ends can rejoin in various ways:

retinoblastoma . Normal individuals carry 2 functional copies, but one of these can be inactivated by mutation or removal (loss of heterozygosity) and the cell continues normal function through the normal allele (which is now acting as a tumour suppressor gene). Loss of the second allele by removal (or mutation) leads to the formation of the tumour."

Observação: Many of the structural aberrations formed are cell lethal, and are soon eliminated from the cell population. Of those that survive and are transmitted, the most frequent are translocations, small inversions and deletions.

Observação: Rearranged chromosomes that are transmitted are called derivative chromosomes (der) and they are numbered according to the centromere they carry. Thus a reciprocal translocation between chromosome 7 and chromosome 14 will result in a der(7) and a der(14).

B - Main structural anomalies (Figure)

1 - Reciprocal translocation

Transmission to descendants (constitutional anomalies)

At meiosis, where there is pairing of homologous chromosome segments (normal chromosomes form a bivalent), followed by crossing-over, translocations may form a quadrivalent (tetravalent, in Greek) and this leads to segregation problems. At meiosis anaphase I, chromosomes separate without centromere separation this separation occurs at anaphase 2. Segregation of chromatids in the case of a quadrivalent (Figure) can be according the following:

Observação There will be no mechanical transmission problems at mitosis.

Observação: Reciprocal and Complex translocations can also occur in somatic cells at any time after birth they are particularly frequent in cancer processes.


Assista o vídeo: Kurs MySQL odc. 1: Bazy danych. Pierwsze zapytania SELECT (Janeiro 2022).