Em formação

Normalização da biblioteca RNA-Seq e configuração experimental


Estou trabalhando em um projeto RNA-Seq e estou tentando descobrir a normalização da biblioteca. Estou ciente de que estou usando os meios geométricos (por exemplo, cuffdiff) do fpkm para a normalização.

No entanto, eu estava me perguntando por que as pessoas não adicionam alguma sequência única de RNA conhecida de concentração conhecida em sua amostra antes da amplificação. Então, após o sequenciamento, você teria alguma medida conhecida pela qual normalizar seu fpkm. Eu acho que essa também seria uma maneira de minimizar os efeitos do lote.

Existe uma razão técnica para que isso não seja feito?


Normalizando dados de sequenciamento de RNA de célula única: desafios e oportunidades

A transcriptômica de uma única célula está se tornando um componente importante do kit de ferramentas do biólogo molecular. Uma etapa crítica ao analisar os dados gerados com essa tecnologia é a normalização. No entanto, a normalização é normalmente realizada usando métodos desenvolvidos para sequenciamento de RNA em massa ou mesmo dados de microarray, e a adequação desses métodos para transcriptômica de célula única não foi avaliada. Aqui, discutimos as abordagens de normalização comumente usadas e ilustramos como elas podem produzir resultados enganosos. Finalmente, apresentamos abordagens alternativas e fornecemos recomendações para usuários de sequenciamento de RNA de célula única.


Fundo

Nos últimos anos, os ensaios de sequenciamento de alto rendimento têm substituído os microarrays como os ensaios de escolha para medir os níveis de transcrição de todo o genoma, nos chamados RNA-Seq [1,2], bem como o número da cópia de DNA (DNA-Seq), interações proteína-ácido nucleico (ChIP-Seq), e metilação de DNA (metil-Seq e RRBS) Vários estudos avaliando aspectos técnicos de RNA-Seq têm mostrado boa reprodutibilidade e melhorias significativas sobre microarrays em termos de faixa dinâmica e precisão da estimativa de alteração de dobra de expressão [3-5]. No entanto, como acontece com os microarrays, os principais artefatos e vieses relacionados à tecnologia afetam as medidas de expressão [3,6-20] e a normalização permanece uma questão importante, apesar das afirmações otimistas iniciais como: "Uma vantagem particularmente poderosa do RNA-Seq é que ele pode capturar a dinâmica do transcriptoma em diferentes tecidos ou condições sem normalização sofisticada de conjuntos de dados "[2].

Aqui, nos concentramos em vieses relacionados ao conteúdo de GC no contexto de dados de RNA-Seq gerados usando a plataforma Illumina Genome Analyzer. Resumidamente, o mRNA é convertido em fragmentos de cDNA que são então sequenciados para produzir milhões de curtos (normalmente 25-100 bases). Essas leituras são então mapeadas de volta para um genoma de referência e o número de leituras mapeadas para um determinado gene reflete a abundância do transcrito na amostra de interesse. No entanto, as contagens brutas não são diretamente comparáveis ​​entre os genes dentro de uma pista, nem entre as pistas replicadas (isto é, pistas testando a mesma biblioteca) para um determinado gene, e a normalização das contagens é necessária para permitir a inferência precisa das diferenças nos níveis de transcrição. Na verdade, em virtude do ensaio, espera-se que a contagem de leituras para um determinado gene seja aproximadamente proporcional ao comprimento do gene e à abundância de transcritos. A contagem de leitura também irá variar entre as vias replicadas, como resultado das diferenças na profundidade de sequenciamento, ou seja, o número total de leituras produzidas em uma determinada faixa.

Além disso, conforme detalhado na revisão da literatura abaixo, estudos anteriores relataram vieses de seleção relacionados à eficiência de sequenciamento de regiões genômicas, em que as contagens de leitura dependem não apenas do comprimento, mas também de características de sequência, como conteúdo de GC e capacidade de mapeamento (ou seja, exclusividade de uma sequência particular em comparação com o resto do genoma) [3,6-20]. Por exemplo, fragmentos ricos em GC e pobres em GC tendem a ser sub-representados em RNA-Seq, de modo que, dentro de uma faixa, as contagens de leitura não são diretamente comparáveis ​​entre os genes. Além disso, os efeitos do conteúdo de GC tendem a ser específicos da pista, de modo que as contagens de leitura para um determinado gene não são diretamente comparáveis ​​entre as pistas. Vieses relacionados ao comprimento e ao conteúdo de GC confundem resultados de expressão diferencial (DE), bem como análises downstream, como aquelas envolvendo Gene Ontology (GO). Como o conteúdo de GC varia em todo o genoma e geralmente está associado à funcionalidade, pode ser difícil inferir os verdadeiros níveis de expressão a partir de medidas tendenciosas de contagem de leitura. A normalização adequada das contagens de leitura é, portanto, crucial para permitir a inferência precisa das diferenças nos níveis de expressão.

Aqui, podemos distinguir entre dois tipos principais de efeitos nas contagens de leitura: (1) efeitos específicos do gene dentro da faixa (e possivelmente específicos da faixa), por exemplo, relacionados ao comprimento do gene ou conteúdo de GC, e (2) efeitos relacionados a diferenças de distribuição entre pistas, por exemplo, profundidade de sequenciamento. De acordo, dentro da faixa e normalização entre pistas ajuste para o primeiro e segundo tipos de efeitos, respectivamente.

Normalização dentro da faixa

O viés de seleção mais óbvio e conhecido no RNA-Seq é devido a comprimento do gene. Bullard et al. [3] e Oshlack & # x00026 Wakefield [14] mostram que as contagens de escala por comprimento do gene não são suficientes para remover esse viés e que o poder dos testes comuns de expressão diferencial está positivamente correlacionado com o comprimento do gene e o nível de expressão. Na verdade, quanto mais longo o gene, maior a contagem de leitura para um determinado nível de expressão, portanto, qualquer método para o qual a precisão está relacionada à contagem de leitura tenderá a relatar estatísticas DE mais significativas para genes mais longos, mesmo quando considerando contagens de leitura por base. Hansen et al. [12] incorporam efeitos de comprimento na média de um modelo de Poisson para contagens de leitura usando splines cúbicos naturais e ajuste para este efeito usando regressão de quantis robusta. Novo et al. [19] propõem um método que considera o viés do comprimento do gene na análise da Ontologia Genética após a realização de testes DE.

Outra fonte documentada de preconceito para a tecnologia de sequenciamento Illumina é Conteúdo GC, isto é, a proporção de nucleotídeos G e C em uma região de interesse. Vários autores relataram fortes vieses de conteúdo de GC em DNA-Seq [7,10] e ChIP-Seq [17]. Yoon et al. [18] propõem um método de normalização de conteúdo de GC para estudos de número de cópias de DNA, que envolve leituras de binning em janelas de 100 bp e escalonamento de contagens de leitura de nível de compartimento pela razão entre a mediana geral e a mediana para compartimentos com o mesmo conteúdo de GC . Mais recentemente, Boeva et al. [8] propõem uma abordagem de regressão polinomial, com base em leituras de binning em janelas não sobrepostas e contagens de nível de bin de regressão no conteúdo de GC (com grau polinomial padrão de três). Ainda no contexto de DNA-Seq, Benjamini & # x00026 Speed ​​[6] relatam que as contagens de leitura são mais afetadas pelo conteúdo de GC dos fragmentos de DNA reais da biblioteca de sequências (em comparação com as próprias leituras sequenciadas) e que o efeito do conteúdo de GC é específico da amostra e unimodal, ou seja, tanto fragmentos ricos em GC quanto pobres em GC estão sub-representados. Eles desenvolvem um método para estimar e corrigir o viés de conteúdo de GC que funciona no nível do par de bases e acomoda informações de biblioteca, fita e comprimento de fragmento, bem como tamanhos de bin variados em todo o genoma.

Vieses de composição de sequência também foram observados em RNA-Seq. Hansen et al. [11] relatam vieses de leitura específicos de base grandes e reproduzíveis associados ao priming de hexâmero aleatório no protocolo de preparação de biblioteca padrão da Illumina. A tendência assume a forma de padrões nas frequências de nucleotídeos da primeira dúzia ou mais de bases de uma leitura. Eles fornecem um esquema de reponderação, onde cada leitura recebe um peso com base em sua composição de nucleotídeos, para mitigar o impacto do viés e melhorar a uniformidade das leituras ao longo das transcrições expressas.

Roberts et al. [16] também consideram o problema da distribuição não uniforme de fragmentos de cDNA em RNA-Seq e usam uma abordagem baseada em probabilidade para corrigir o viés deste fragmento.

Ao analisar dados de RNA-Seq de um híbrido diplóide de levedura para expressão específica de alelo (ASE), Bullard et al. [9] observam que as contagens de leitura de um par de genes ortólogos podem superestimar o nível de expressão do ortólogo mais rico em GC. Para corrigir este efeito de confusão, eles desenvolveram um método baseado em reamostragem, onde a significância das diferenças nas contagens de leitura é avaliada por referência a uma distribuição nula que explica as diferenças entre as espécies na composição de nucleotídeos.

Embora haja um acordo geral sobre a necessidade de ajustar os efeitos do conteúdo de GC ao comparar as contagens de leitura entre regiões genômicas para uma determinada amostra (como em DNA-Seq e ChIP-Seq) ou entre ortólogos (como em ASE com RNA-Seq em um organismo híbrido F1 [9]), a necessidade de fazê-lo não foi imediatamente reconhecida para estudos padrão de RNA-Seq DE, onde um compara contagens de leitura entre as amostras de um determinado gene. A crença comum era que, para um determinado gene, o efeito do conteúdo de GC era o mesmo em todas as amostras e, portanto, seria cancelado ao considerar estatísticas DE, como razões de contagem. Pickrell et al. [15] parecem ser os primeiros a observar a especificidade da amostra do efeito do conteúdo de GC no contexto de RNA-Seq e a confusão resultante das estimativas de alteração de dobra de expressão. Para resolver este problema, eles desenvolveram um procedimento de correção específico da faixa que envolve exons binning de acordo com o conteúdo de GC, definindo para cada GC-bin e cada faixa um fator de enriquecimento de leitura relativo como a proporção de leituras naquele compartimento originadas daquela faixa dividida pela proporção geral de leituras naquela pista e escalonamento das contagens de nível de exon pelos fatores de enriquecimento suavizados por spline. Conforme observado por Hansen et al. [12], essa abordagem sofre de duas desvantagens principais. Em primeiro lugar, como os fatores de enriquecimento são calculados para cada pista em relação a todas as outras, o procedimento equaliza o efeito do conteúdo de GC nas pistas em vez de removê-lo. Em segundo lugar, ao adicionar contagens entre exões e pistas, o método não leva em consideração o fato de que regiões com contagens mais altas também tendem a ter variâncias mais altas.

Zheng et al. [20] observam que as contagens de leitura de nível de base do RNA-Seq podem não ser distribuídas aleatoriamente ao longo do transcriptoma e podem ser afetadas pela composição local de nucleotídeos. Eles propõem uma abordagem baseada em modelos aditivos generalizados para corrigir simultaneamente diferentes fontes de polarização, como comprimento do gene, conteúdo de GC e frequências de dinucleotídeos.

Em seu manuscrito recente, Hansen et al. [12] mostram que o conteúdo de GC tem um forte impacto na estimativa de alteração de dobra da expressão e que a falha em ajustar para este efeito pode enganar a análise de expressão diferencial. Eles desenvolvem um procedimento de normalização de quantis condicional (CQN), que combina a normalização dentro e entre as faixas e é baseado em um modelo de Poisson para contagens de leitura. Vieses sistemáticos específicos de pista, como conteúdo de GC e efeitos de comprimento, são incorporados como funções suaves usando splines cúbicos naturais e estimados usando regressão de quantis robusta. A fim de contabilizar as diferenças de distribuição entre as pistas, um procedimento de normalização de quantis completos é adotado, no espírito daquele considerado em Bullard et al. [3]. A principal vantagem dessa abordagem é que ela é específica da pista, ou seja, funciona de forma independente em cada pista, com o objetivo de remover a polarização em vez de equalizá-la entre as pistas. A modelagem simultânea de conteúdo e comprimento de GC (e, em princípio, outras fontes de viés) leva a um método de normalização flexível. Por outro lado, para alguns conjuntos de dados, como o conjunto de dados Yeast analisado no presente artigo, uma abordagem de regressão pode ser muito fraca para remover completamente o efeito do conteúdo de GC e outras estratégias de normalização mais agressivas podem ser necessárias.

Normalização entre pistas

O procedimento de normalização entre as faixas mais simples ajusta a profundidade de sequenciamento da faixa dividindo as contagens de leitura no nível do gene pelo número total de leituras por faixa (como no modelo multiplicativo de Poisson de Marioni et al. [4] e leituras por quilobase de modelo de exon por milhão de leituras mapeadas (RPKM) de Mortazavi et al. [5]). No entanto, esta abordagem ainda amplamente utilizada se mostrou ineficaz e procedimentos mais benéficos foram propostos [3,12,21,22].

Em particular, Bullard et al. [3] considere três tipos principais de procedimentos de normalização entre faixas: (1) escala global procedimentos, em que as contagens são escaladas por um único fator por faixa (por exemplo, contagem total como em RPKM, contagem para gene de manutenção ou quantil único de distribuição de contagem) (2) quantil completo (FQ) procedimentos de normalização, onde todos os quantis das distribuições de contagem são combinados entre as faixas e (3) procedimentos com base em modelos lineares generalizados (GLM). Eles demonstram o grande impacto da normalização nos resultados de expressão diferencial em alguns contextos, a sensibilidade varia mais entre os procedimentos de normalização do que entre os métodos de DE. A normalização de contagem total padrão (cf. RPKM) tende a ser fortemente afetada por uma proporção relativamente pequena de genes altamente expressos e pode levar a resultados de DE enviesados, enquanto os procedimentos de normalização de quartil superior (UQ) ou de quantil completo propostos em [ 3] tendem a ser mais robustos e melhorar a sensibilidade sem perda de especificidade.

Neste artigo, propomos três estratégias diferentes para normalizar os dados de RNA-Seq para conteúdo de GC após um dentro da faixa (isto é, específico de amostra) abordagem em nível de gene. Examinamos seu desempenho em dois tipos diferentes de dados: um novo conjunto de dados RNA-Seq para leveduras cultivadas em três meios diferentes e conjuntos de dados RNA-Seq de benchmarking bem conhecidos para dois tipos de amostras de referência humana do Projeto de Controle de Qualidade MicroArray (MAQC) [ 23]. Para os últimos conjuntos de dados, as medidas de expressão gênica de qRT-PCR e chips Affymetrix servem como padrões úteis para avaliação de desempenho de RNA-Seq. Comparamos nossas abordagens ao procedimento CQN de última geração de Hansen et al. [12] (que foi mostrado para superar métodos concorrentes, como o de Pickrell et al. [15]), em termos de viés e erro quadrático médio para estimativa de alteração de dobra de expressão e em termos de erro Tipo I e p- distribuições de valores para testes de expressão diferencial. Demonstramos como a correção adequada do viés do conteúdo de GC, bem como das diferenças entre as faixas nas distribuições de contagem, leva a uma estimativa mais precisa dos níveis de expressão gênica e alterações de dobra, tornando a inferência estatística da expressão diferencial menos propensa a descobertas falsas. A análise exploratória de dados e os métodos de normalização propostos neste artigo são implementados no pacote de código aberto Bioconductor R EDASeq.


7.3 Normalização por deconvolução

Como mencionado anteriormente, vieses de composição estarão presentes quando qualquer expressão diferencial desequilibrada existe entre as amostras. Considere o exemplo simples de duas células em que um único gene (X ) é regulado positivamente em uma célula (A ) em comparação com a outra célula (B ). Essa regulação positiva significa que (i) mais recursos de sequenciamento são dedicados a (X ) em (A ), diminuindo assim a cobertura de todos os outros genes não-DE quando o tamanho total da biblioteca de cada célula é experimentalmente fixo (por exemplo, devido à quantificação da biblioteca) ou (ii) o tamanho da biblioteca de (A ) aumenta quando (X ) é atribuído a mais leituras ou UMIs, aumentando o fator de tamanho da biblioteca e produzindo valores de expressão normalizados menores para todos os genes não DE. Em ambos os casos, o efeito líquido é que os genes não-DE em (A ) parecerão incorretamente regulados para baixo em comparação com (B ).

A remoção de vieses de composição é um problema bem estudado para análise de dados de sequenciamento de RNA em massa. A normalização pode ser realizada com a função estimativaSizeFactorsFromMatrix () no DESeq2 pacote (Anders e Huber 2010 Love, Huber e Anders 2014) ou com a função calcNormFactors () (Robinson e Oshlack 2010) no edgeR pacote. Estes pressupõem que a maioria dos genes não são DE entre as células. Qualquer diferença sistemática no tamanho da contagem na maioria dos genes não-DE entre duas células é assumida para representar o viés que é usado para calcular um fator de tamanho apropriado para sua remoção.

No entanto, os dados de uma única célula podem ser problemáticos para esses métodos de normalização em massa devido à predominância de contagens baixas e zero. Para superar isso, reunimos contagens de muitas células para aumentar o tamanho das contagens para uma estimativa precisa do fator de tamanho (Lun, Bach e Marioni 2016). Fatores de tamanho baseados em pool são então "deconvolvidos" em fatores baseados em células para normalização do perfil de expressão de cada célula. Isso é realizado usando a função calculSumFactors () de scran, como mostrado abaixo.

Usamos uma etapa de pré-agrupamento com quickCluster (), em que as células em cada cluster são normalizadas separadamente e os fatores de tamanho são redimensionados para serem comparáveis ​​entre os clusters. Isso evita a suposição de que a maioria dos genes não são DE em toda a população - apenas uma maioria não DE é necessária entre pares de clusters, o que é uma suposição mais fraca para populações altamente heterogêneas. Por padrão, quickCluster () usará um algoritmo aproximado para PCA com base em métodos do irlba pacote. A aproximação depende da inicialização estocástica, portanto, precisamos definir a semente aleatória (via set.seed ()) para reprodutibilidade.

Vemos que os fatores de tamanho de deconvolução exibem desvios específicos do tipo de célula dos fatores de tamanho da biblioteca na Figura 7.2. Isso é consistente com a presença de vieses de composição que são introduzidos por forte expressão diferencial entre os tipos de células. O uso dos fatores de tamanho de deconvolução se ajusta para esses vieses para melhorar a precisão da normalização para aplicações downstream.

Figura 7.2: Fator de tamanho de deconvolução para cada célula no conjunto de dados do cérebro Zeisel, em comparação com o fator de tamanho equivalente derivado do tamanho da biblioteca. A linha vermelha corresponde à identidade entre os dois fatores de tamanho.

A normalização precisa é mais importante para procedimentos que envolvem estimativa e interpretação de estatísticas por gene. Por exemplo, os vieses de composição podem comprometer as análises DE, deslocando sistematicamente as mudanças log-fold em uma direção ou outra. No entanto, ele tende a fornecer menos benefícios em relação à normalização do tamanho da biblioteca simples para análises baseadas em células, como clustering. A presença de vieses de composição já implica fortes diferenças nos perfis de expressão, portanto, alterar a estratégia de normalização provavelmente não afetará o resultado de um procedimento de agrupamento.


Resumo

Em disciplinas ômicas de alto rendimento, como a transcriptômica, os pesquisadores enfrentam a necessidade de avaliar a qualidade de um experimento antes de uma análise estatística aprofundada. Para analisar com eficiência essas coleções volumosas de dados, os pesquisadores precisam de métodos de triagem que sejam rápidos e fáceis de usar. Tal método de normalização para quantificação relativa, CONSTANd, foi recentemente introduzido para espectros de massa marcados isobáricamente em proteômica. Ele transforma a matriz de dados de abundâncias por meio de um processo convergente iterativo que impõe três restrições: (I) somas de coluna idênticas (II) cada soma de linha é fixa (entre matrizes) e (III) idêntica a todas as outras somas de linha. Neste estudo, investigamos se CONSTANd é adequado para dados de contagem de sequenciamento massivamente paralelo, comparando qualitativamente seus resultados com os de DESeq2. Além disso, propomos um ajuste do método de modo que possa ser aplicado a experimentos equilibrados de forma idêntica, mas de tamanhos diferentes para análise conjunta. Descobrimos que CONSTANd pode processar grandes conjuntos de dados em bem mais de 1 milhão de registros de contagem por segundo, enquanto mitiga o viés sistemático indesejado e, assim, revela rapidamente a estrutura biológica subjacente quando combinado com um gráfico PCA ou agrupamento hierárquico. Além disso, permite a análise conjunta de conjuntos de dados obtidos de diferentes lotes, com diferentes protocolos e de diferentes laboratórios, mas sem explorar informações da configuração experimental que não seja o delineamento de amostras em conjuntos processados ​​de forma idêntica (IPSs). A simplicidade e aplicabilidade de CONSTANd para dados proteômicos, bem como dados transcriptômicos, tornam-no um candidato interessante para integração em fluxos de trabalho multiômicos.


Normalização da biblioteca RNA-Seq e configuração experimental - Biologia

Identificar os genes relevantes (ou outras características genômicas, como transcritos, miRNAs, lncRNAs, etc.) em todas as condições (por exemplo, tumor e amostras de tecido não tumoral) é um interesse comum de pesquisa em estudos de expressão gênica. Nessa seleção de genes, os pesquisadores muitas vezes estão interessados ​​em detectar um pequeno conjunto de genes para fins diagnósticos na medicina que envolve a identificação do subconjunto mínimo de genes que atinge o desempenho preditivo máximo. descoberta de biomarcadores e problema de classificação.

VoomDDA é uma ferramenta de apoio à decisão desenvolvida para conjuntos de dados de sequenciamento de RNA para auxiliar os pesquisadores em suas decisões para a descoberta de biomarcadores diagnósticos e problemas de classificação. O VoomDDA consiste em classificadores de aprendizagem estatística esparsos e não esparsos adaptados com o método voom. Voom é um método recente que estima a relação de média e variância das contagens de log de dados de RNA-Seq (contagens de log por milhão, log-cpm) em nível de observação. Ele também fornece pesos de precisão para cada observação que podem ser incorporados aos valores log-cpm para análise posterior. Os algoritmos em nossa ferramenta incorporam os valores log-cpm e os pesos de precisão correspondentes na descoberta de biomarcadores e no problema de classificação. Para este propósito, esses algoritmos usam estatísticas ponderadas na estimativa das funções discriminatórias dos algoritmos de aprendizagem estatística usados.

VoomNSC é um classificador esparso desenvolvido para reunir dois métodos poderosos de classificação de RNA-Seq:

1. estender o método voom para estudos de classificação de RNA-Seq,
2. para disponibilizar o algoritmo de centróides encolhidos mais próximos (NSC) para a tecnologia de RNA-Seq.

O VoomNSC fornece resultados de classificação rápidos, precisos e esparsos para dados RNA-Seq. Mais detalhes podem ser encontrados no artigo de pesquisa. Esta ferramenta também inclui extensões de RNA-Seq de classificadores discriminantes diagonais lineares e diagonais quadráticos: (i) voomDLDA e (ii) voomDQDA.

Referências

[1] Zararsiz, G., Goksuluk, G., Korkmaz, S., et al. (2015). VoomDDA: Descoberta de Biomarcadores de Diagnóstico e Classificação de Dados de RNA-Seq.

[4] Dudoit, S., Fridlyand, J. e Speed, T.P. (2002). Comparison of Discrimination Methods for the Classification of Tumors using Gene Expression Data. Journal of the American Statistical Association 97 (457): 77-87.

Obtendo resultados do modelo. Isso pode demorar um pouco.

Criando mapa de calor. Isso pode demorar um pouco.

Criando plotagem de rede. Isso pode demorar um pouco.

Resultados da ontologia genética

Obtendo resultados da ontologia. Isso pode demorar um pouco.

Tutorial

Dois conjuntos de dados de exemplo estão disponíveis no aplicativo da web voomDDA. O câncer cervical é um miRNA, o câncer de pulmão é um conjunto de dados de expressão gênica. Para análise GO, os usuários devem selecionar a opção necessária (miRNA ou gene) para obter os resultados da análise relacionada.

O aplicativo VoomDDA requer três entradas do usuário. Os conjuntos de treinamento e teste devem ser arquivos de texto (.txt) que contêm as contagens de leitura mapeadas brutas em forma de matriz, onde as linhas correspondem às características genômicas (para simplificar a linguagem, digamos genes) e as colunas correspondem às observações (ou amostras) . Este tipo de dados de contagem pode ser obtido a partir de softwares de contagem de recursos, como HTSeq [1] ou featureCounts [2]. Observe que este tipo de dados de contagem deve conter o número bruto de leituras mapeadas, não deve ser normalizado ou conter valores RPKM. Os rótulos das classes também devem estar em um arquivo de texto (.txt) e devem conter cada condição de amostra. Observe que cada linha deve conter apenas um rótulo de uma amostra. Conjuntos de dados de exemplo para Witten et al. O conjunto de dados cervicais é fornecido como abaixo:

Se o objetivo for a previsão dos rótulos de classe de novas observações de teste, os usuários devem fazer o upload de todos os três arquivos necessários. No entanto, o conjunto de testes não é necessário, quando a finalidade for apenas a identificação dos biomarcadores diagnósticos.

Após fazer o upload dos dados, certifique-se de que os dados sejam exibidos na tela.

2. Pré-processamento dos dados

Classificadores VoomDDA (VoomNSC, VoomDLDA e VoomDQDA) introduzidos neste aplicativo têm as mesmas premissas com voom + limma pipeline [3], ou seja, filtrar as linhas com contagens zero ou muito baixas. Em dados RNA-Seq, muitas vezes encontramos dados de contagem que contêm linhas com valores únicos únicos (principalmente zero). Este tipo de dados pode levar a uma estimativa não confiável da relação de média e variância dos dados e a um ajuste de modelo instável para os classificadores introduzidos. Três critérios de filtragem possíveis estão disponíveis: (i) outlier DESeq2 e filtragem independente, (ii) filtragem de variância quase zero, (iii) filtragem de variância.

O pacote DESeq2 [4] contém um critério de filtragem baseado na detecção de outliers e filtragem independente. Outliers são detectados com base na distância de Cook e a filtragem independente é aplicada com base nas contagens normalizadas médias do gene. Mais detalhes podem ser obtidos na vinheta do pacote DESeq2 [5].

A filtragem de variância quase zero é descrita no pacote circunflexo de R [6]. Este pacote aplica a filtragem com base em dois critérios: (i) a frequência do valor mais frequente para o segundo valor mais frequente é superior a 19 (95/5), (ii) o número de valores únicos dividido pelo tamanho da amostra é menor de 10%.

A filtragem de variância é outra opção para filtrar os genes não informativos. Esta opção também pode ser selecionada para diminuir o custo computacional do processo de construção do modelo para conjuntos de dados muito grandes. Após selecionar esta opção, o usuário pode inserir o número de genes que deseja incluir nos modelos de classificação.

Depois de selecionar um ou vários critérios de filtragem, as estatísticas de filtragem são demonstradas na tela.

O tamanho das bibliotecas para cada observação depende do projeto experimental e pode levar à existência de vieses técnicos. Esses vieses podem ter um efeito significativo nos resultados da classificação e devem ser corrigidos antes de iniciar a construção do modelo de classificação. Em nossos experimentos, descobrimos que a normalização tem um efeito significativo nos resultados de classificação para conjuntos de dados que têm diferenças de tamanho de biblioteca muito grandes entre as amostras. Duas abordagens de normalização estão disponíveis no aplicativo: (i) razão da mediana DESeq [7], (ii) média aparada dos valores M (TMM) [8]. Mais detalhes sobre essas abordagens podem ser encontrados em artigos referenciados.

3. Construção de modelo para classificação

Após o processamento dos dados, os usuários podem construir modelos de classificação com três algoritmos introduzidos: (i) voomNSC, (ii) voomDLDA, (iii) voomDQDA. VoomNSC é um classificador esparso que reúne dois métodos poderosos, o método voom [3] e o algoritmo de centróides encolhidos mais próximos [9], para a classificação de dados RNA-Seq. VoomDLDA e voomDQDA são classificadores não esparsos que são extensões dos classificadores discriminantes diagonais [10]. Detalhes desses classificadores são fornecidos no artigo referenciado [11].

Após selecionar qualquer um dos três classificadores, um resumo do processo de adaptação é exibido na tela. Uma matriz de confusão e várias medidas de diagnóstico estatístico são fornecidas para examinar o quão bem-sucedido o classificador se ajustou aos dados fornecidos. Além disso, um gráfico de mapa de calor é construído para exibir os níveis de expressão dos genes e as relações entre os genes e as amostras. O mapa de calor é exibido para todos os genes não filtrados para classificadores não esparsos, enquanto é exibido para o subconjunto de genes selecionado para o classificador voomNSC esparso.

4. Identificação de biomarcadores de diagnóstico

Se VoomNSC for o classificador selecionado, o subconjunto de genes, que são mais relevantes com a condição de classe, é identificado e os nomes dos genes são exibidos na tela. Vários gráficos também são fornecidos. O primeiro gráfico demonstra a seleção do parâmetro de limite. O parâmetro que se ajusta ao modelo mais preciso e esparso é identificado como ótimo. O segundo gráfico exibe a distribuição dos genes selecionados em cada classe. O terceiro gráfico exibe as diferenças reduzidas dos genes selecionados. O gráfico final é o gráfico do mapa de calor discutido na seção anterior.

Com base no classificador selecionado, as previsões aparecem na tela para cada observação de teste. Observe que as observações de teste devem ser processadas da mesma forma que as observações de treinamento. Os mesmos procedimentos experimentais e computacionais devem ser aplicados antes de obter os dados de contagem bruta. Os dados devem estar no mesmo formato que os dados de treinamento para obter as previsões. Ele deve conter as contagens de leitura mapeadas brutas e os nomes dos genes devem corresponder aos dados de treinamento.

O aplicativo VoomDDA filtra e normaliza os dados de teste com base nas informações obtidas dos dados de treinamento. Assim, os parâmetros estimados dos dados de treinamento são usados ​​para os dados de teste. Isso garante que ambos os conjuntos estejam na mesma escala e homocedásticos.

6. Análise Downstream

Depois de detectar biomarcadores de diagnóstico por meio do algoritmo voomNSC, pode ser útil visualizar os resultados para ver as interações ou fazer análises adicionais, como a análise GO. Para isso, várias ferramentas de análise downstream também estão disponíveis neste aplicativo da web. Essas ferramentas incluem mapas de calor, análise de rede e análise de ontologia genética. Informações detalhadas sobre a análise de ontologia genética podem ser encontradas no pacote topGO BIOCONDUCTOR.

[1] Anders, S., Pyl, P.T., e Huber, W. (2015) HTSeq - uma estrutura Python para trabalhar com dados de sequenciamento de alto rendimento. Bioinformatics 31 (2): 166-9.

[2] Liao, Y., Smyth, G.K. e Shi, W. (2013). featureCounts: um programa de propósito geral eficiente para atribuir leituras de sequência a características genômicas. Bioinformática. doi: 10.1093 / bioinformática / btt656.

[3] Law, C.W., Chen, Y., Shi, W. e Smyth, G.K. (2014). voom: Pesos de precisão desbloqueiam ferramentas de análise de modelo linear para contagens de leitura de RNA-Seq. Genome Biology 15: R29.

[4] Love, M.I., Huber, W. e Anders, S. (2015). Estimativa moderada de alteração e dispersão de dados de RNA-seq com DESeq2. Genome Biology 15 (550). doi: 10.1186 / s13059-014-0550-8.

[5] Love, M.I., Huber, W. e Anders, S. (2015). Análise diferencial de dados de contagem - o pacote DESeq2. http://www.bioconductor.org/packages/release/bioc/vignettes/DESeq2/inst/doc/DESeq2.pdf (19.06.2015).

[6] Kuhn, M. (2008). Construindo modelos preditivos em R usando o pacote acento circunflexo. Journal of Statistical Software 28 (5).

[7] Anders, S. e Huber, W. (2010). Análise de expressão diferencial para dados de contagem de sequência. Genome Biology 11 (R106): doi: 10.1186 / gb-2010-11-10-r106.

[8] Robinson, M.D. e Oshlack, A. (2010). Um método de normalização de escala para análise de expressão diferencial de dados de RNA-seq. Genome Biology 11 (R25).

[9] Tibshirani, R., Hastie, T., Narasimhan, B. e Chu, G. (2002). Diagnóstico de vários tipos de câncer por meio de centróides encolhidos de expressão gênica. PNAS 99 (10): 6567–72.

[10] Dudoit, S., Fridlyand, J. e Speed, T.P. (2002). Comparação de métodos de discriminação para a classificação de tumores usando dados de expressão gênica. Journal of the American Statistical Association 97 (457): 77-87.

[11] Zararsiz, G., Goksuluk, D, Korkmaz, S., et al. (2015). VoomDDA: Descoberta de Biomarcadores de Diagnóstico e Classificação de Dados de RNA-Seq.


Introdução

O sequenciamento de RNA (RNA-seq) tornou-se a principal tecnologia usada para o perfil de expressão gênica, com a detecção em todo o genoma de genes diferencialmente expressos entre duas ou mais condições de interesse, uma das perguntas mais comuns dos pesquisadores. o edgeR (Robinson, McCarthy e Smyth 2010) e limma packages (Ritchie et al. 2015) available from the Bioconductor project (Huber et al. 2015) offer a well-developed suite of statistical methods for dealing with this question for RNA-seq data.

In this article, we describe an edgeR - limma workflow for analysing RNA-seq data that takes gene-level counts as its input, and moves through pre-processing and exploratory data analysis before obtaining lists of differentially expressed (DE) genes and gene signatures. This analysis is enhanced through the use of interactive graphics from the Glimma package (Su et al. 2017) , that allows for a more detailed exploration of the data at both the sample and gene-level than is possible using static R parcelas.

The experiment analysed in this workflow is from Sheridan et al. (2015) (Sheridan et al. 2015) and consists of three cell populations (basal, luminal progenitor (LP) and mature luminal (ML)) sorted from the mammary glands of female virgin mice, each profiled in triplicate. RNA samples were sequenced across three batches on an Illumina HiSeq 2000 to obtain 100 base-pair single-end reads. The analysis outlined in this article assumes that reads obtained from an RNA-seq experiment have been aligned to an appropriate reference genome and summarised into counts associated with gene-specific regions. In this instance, reads were aligned to the mouse reference genome (mm10) using the R based pipeline available in the Rsubread package (specifically the align function (Liao, Smyth, and Shi 2013) followed by featureCounts (Liao, Smyth, and Shi 2014) for gene-level summarisation based on the in-built mm10 RefSeq-based annotation).


Cuffdiff options:

Prints the help message and exits

-o/–output-dir <string>

Sets the name of the directory in which Cuffdiff will write all of its output. The default is “./”.

-L/–labels <label1,label2,…,labelN>

Specify a label for each sample, which will be included in various output files produced by Cuffdiff.

Use this many threads to align reads. The default is 1.

-T/–time-series

Instructs Cuffdiff to analyze the provided samples as a time series, rather than testing for differences between all pairs of samples. Samples should be provided in increasing time order at the command line (e.g first time point SAM, second timepoint SAM, etc.)

–total-hits-norm

With this option, Cufflinks counts all fragments, including those not compatible with any reference transcript, towards the number of mapped fragments used in the FPKM denominator. It is inactive by default.

–compatible-hits-norm

With this option, Cufflinks counts only those fragments compatible with some reference transcript towards the number of mapped fragments used in the FPKM denominator. Using this mode is generally recommended in Cuffdiff to reduce certain types of bias caused by differential amounts of ribosomal reads which can create the impression of falsely differentially expressed genes. It is active by default.

-b/–frag-bias-correct <genome.fa>

Providing Cufflinks with the multifasta file your reads were mapped to via this option instructs it to run our bias detection and correction algorithm which can significantly improve accuracy of transcript abundance estimates. See How Cufflinks Workshow_it_works/index.html#) for more details.

-u/–multi-read-correct

Tells Cufflinks to do an initial estimation procedure to more accurately weight reads mapping to multiple locations in the genome. See How Cufflinks Works for more details.

-c/–min-alignment-count <int>

The minimum number of alignments in a locus for needed to conduct significance testing on changes in that locus observed between samples. If no testing is performed, changes in the locus are deemed not signficant, and the locus’ observed changes don’t contribute to correction for multiple testing. The default is 10 fragment alignments.

-M/–mask-file <mask.(gtf/gff)>

Tells Cuffdiff to ignore all reads that could have come from transcripts in this GTF file. We recommend including any annotated rRNA, mitochondrial transcripts other abundant transcripts you wish to ignore in your analysis in this file. Due to variable efficiency of mRNA enrichment methods and rRNA depletion kits, masking these transcripts often improves the overall robustness of transcript abundance estimates.

The allowed false discovery rate. The default is 0.05.

–library-type

–library-norm-method

–dispersion-method

Cuffdiff advanced options:

This is the expected (mean) fragment length. The default is 200bp.

Note: Cuffdiff now learns the fragment length mean for each SAM file, so using this option is no longer recommended with paired-end reads.

-s/–frag-len-std-dev <int>

The standard deviation for the distribution on fragment lengths. The default is 80bp.

Note: Cuffdiff now learns the fragment length standard deviation for each SAM file, so using this option is no longer recommended with paired-end reads.

–max-mle-iterations <int>

Sets the number of iterations allowed during maximum likelihood estimation of abundances. Default: 5000

Print lots of status updates and other diagnostic information.

Suppress messages other than serious warnings and errors.

–no-update-check

Turns off the automatic routine that contacts the Cufflinks server to check for a more recent version.

–poisson-dispersion

Use the Poisson fragment dispersion model instead of learning one in each condition.

–emit-count-tables

Cuffdiff will output a file for each condition (called <sample>_counts.txt) containing the fragment counts, fragment count variances, and fitted variance model. For internal debugging only. This option will be removed in a future version of Cuffdiff.

-F/–min-isoform-fraction <0.0-1.0>

Cuffdiff will round down to zero the abundance of alternative isoforms quantified at below the specified fraction of the major isoforms. This is done after MLE estimation but before MAP estimation to improve robustness of confidence interval generation and differential expression analysis. The default is 1e-5, and we recommend you not alter this parameter.

–max-bundle-frags <int>

Sets the maximum number of fragments a locus may have before being skipped. Skipped loci are marked with status HIDATA. Default: 1000000

–max-frag-count-draws <int>

Cuffdiff will make this many draws from each transcript’s predicted negative binomial random numbder generator. Each draw is a number of fragments that will be probabilistically assigned to the transcripts in the transcriptome. Used to estimate the variance-covariance matrix on assigned fragment counts. Default: 100.

–max-frag-assign-draws <int>

For each fragment drawn from a transcript, Cuffdiff will assign it this many times (probabilistically), thus estimating the assignment uncertainty for each transcript. Used to estimate the variance-covariance matrix on assigned fragment counts. Default: 50.

–min-reps-for-js-test <int>

Cuffdiff won’t test genes for differential regulation unless the conditions in question have at least this many replicates. Default: 3.

Cuffdiff will not employ its “effective” length normalization to transcript FPKM.

–no-length-correction

Cuffdiff will not normalize fragment counts by transcript length at all. Use this option when fragment count is independent of the size of the features being quantified (e.g. for small RNA libraries, where no fragmentation takes place, or 3 prime end sequencing, where sampled RNA fragments are all essentially the same length). Experimental option, use with caution.

Cuffdiff takes a GTF2/GFF3 file of transcripts as input, along with two or more SAM files containing the fragment alignments for two or more samples. It produces a number of output files that contain test results for changes in expression at the level of transcripts, primary transcripts, and genes. It also tracks changes in the relative abundance of transcripts sharing a common transcription start site, and in the relative abundances of the primary transcripts of each gene. Tracking the former allows one to see changes in splicing, and the latter lets one see changes in relative promoter use within a gene.

If you have more than one replicate for a sample, supply the SAM files for the sample as a single comma-separated Lista. It is not necessary to have the same number of replicates for each sample.

Note that Cuffdiff can also accepted BAM files (which are binary, compressed SAM files). It can also accept CXB files produced by Cuffquant. Note that mixing SAM and BAM files is supported, but you cannot currently mix CXB and SAM/BAM. If one of the samples is supplied as a CXB file, all of the samples must be supplied as CXB files.

Cuffdiff requires that transcripts in the input GTF be annotated with certain attributes in order to look for changes in primary transcript expression, splicing, coding output, and promoter use. These attributes are:

The ID of this transcript’s inferred start site. Determines which primary transcript this processed transcript is believed to come from. Cuffcompare appends this attribute to every transcript reported in the .combined.gtf file.

The ID of the coding sequence this transcript contains. This attribute is attached by Cuffcompare to the .combined.gtf records only when it is run with a reference annotation that include CDS records. Further, differential CDS analysis is only performed when all isoforms of a gene have p_id attributes, because neither Cufflinks nor Cuffcompare attempt to assign an open reading frame to transcripts.

Note: If an arbitrary GTF/GFF3 file is used as input (instead of the .combined.gtf file produced by Cuffcompare), these attributes will not be present, but Cuffcompare can still be used to obtain these attributes with a command like this:

The resulting cuffcmp.combined.gtf file created by this command will have the tss_id e p_id attributes added to each record and this file can be used as input for cuffdiff.

FPKM tracking files

Cuffdiff calculates the FPKM of each transcript, primary transcript, and gene in each sample. Primary transcript and gene FPKMs are computed by summing the FPKMs of transcripts in each primary transcript group or gene group. The results are output in FPKM tracking files in the format described here. There are four FPKM tracking files:

isoforms.fpkm_tracking Transcript FPKMs
genes.fpkm_tracking Gene FPKMs. Tracks the summed FPKM of transcripts sharing each gene_id
cds.fpkm_tracking Coding sequence FPKMs. Tracks the summed FPKM of transcripts sharing each p_id, independent of tss_id
tss_groups.fpkm_tracking Primary transcript FPKMs. Tracks the summed FPKM of transcripts sharing each tss_id

Count tracking files

Cuffdiff estimates the number of fragments that originated from each transcript, primary transcript, and gene in each sample. Primary transcript and gene counts are computed by summing the counts of transcripts in each primary transcript group or gene group. The results are output in count tracking files in the format described here. There are four Count tracking files:

isoforms.count_tracking Transcript counts
genes.count_tracking Gene counts. Tracks the summed counts of transcripts sharing each gene_id
cds.count_tracking Coding sequence counts. Tracks the summed counts of transcripts sharing each p_id, independent of tss_id
tss_groups.count_tracking Primary transcript counts. Tracks the summed counts of transcripts sharing each tss_id

Read group tracking files

Cuffdiff calculates the expression and fragment count for each transcript, primary transcript, and gene in each replicate. The results are output in per-replicate tracking files in the format described here. There are four read group tracking files:

isoforms.read_group_tracking Transcript read group tracking
genes.read_group_tracking Gene read group tracking. Tracks the summed expression and counts of transcripts sharing each gene_id in each replicate
cds.read_group_tracking Coding sequence FPKMs. Tracks the summed expression and counts of transcripts sharing each p_id, independent of tss_id in each replicate
tss_groups.read_group_tracking Primary transcript FPKMs. Tracks the summed expression and counts of transcripts sharing each tss_id in each replicate

Differential expression tests

This tab delimited file lists the results of differential expression testing between samples for spliced transcripts, primary transcripts, genes, and coding sequences. Four files are created:

isoform_exp.diff Transcript-level differential expression.
gene_exp.diff Gene-level differential expression. Tests differences in the summed FPKM of transcripts sharing each gene_id
tss_group_exp.diff Primary transcript differential expression. Tests differences in the summed FPKM of transcripts sharing each tss_id
cds_exp.diff Coding sequence differential expression. Tests differences in the summed FPKM of transcripts sharing each p_id independent of tss_id

Each of the above files has the following format:

Column number Column name Exemplo Description
1 Tested id XLOC_000001 A unique identifier describing the transcipt, gene, primary transcript, or CDS being tested
2 gene Lypla1 The gene_name(s) or gene_id(s) being tested
3 locus chr1:4797771-4835363 Genomic coordinates for easy browsing to the genes or transcripts being tested.
4 sample 1 Fígado Label (or number if no labels provided) of the first sample being tested
5 sample 2 Cérebro Label (or number if no labels provided) of the second sample being tested
6 Test status NOTEST Can be one of OK (test successful), NOTEST (not enough alignments for testing), LOWDATA (too complex or shallowly sequenced), HIDATA (too many fragments in locus), or FAIL, when an ill-conditioned covariance matrix or other numerical exception prevents testing.
7 FPKMx 8.01089 FPKM of the gene in sample x
8 FPKMy 8.551545 FPKM of the gene in sample y
9 log2(FPKMy/FPKMx) 0.06531 The (base 2) log of the fold change y/x
10 test stat 0.860902 The value of the test statistic used to compute significance of the observed change in FPKM
11 p value 0.389292 The uncorrected p-value of the test statistic
12 q value 0.985216 The FDR-adjusted p-value of the test statistic
13 significativo não Can be either “yes” or “no”, depending on whether p is greater then the FDR after Benjamini-Hochberg correction for multiple-testing

Differential splicing tests - splicing.diff

This tab delimited file lists, for each primary transcript, the amount of isoform switching detected among its isoforms, i.e. how much differential splicing exists between isoforms processed from a single primary transcript. Only primary transcripts from which two or more isoforms are spliced are listed in this file.

Column number Column name Exemplo Description
1 Tested id TSS10015 A unique identifier describing the primary transcript being tested.
2 gene name Rtkn The gene_name or gene_id that the primary transcript being tested belongs to
3 locus chr6:83087311-83102572 Genomic coordinates for easy browsing to the genes or transcripts being tested.
4 sample 1 Fígado Label (or number if no labels provided) of the first sample being tested
5 sample 2 Cérebro Label (or number if no labels provided) of the second sample being tested
6 Test status OK Can be one of OK (test successful), NOTEST (not enough alignments for testing), LOWDATA (too complex or shallowly sequenced), HIDATA (too many fragments in locus), or FAIL, when an ill-conditioned covariance matrix or other numerical exception prevents testing.
7 Reserved 0
8 Reserved 0
9 √JS(x,y) 0.22115 The amount of isoform switching between the isoforms originating from this TSS, as measured by the square root of the Jensen-Shannon divergence computed on the relative abundances of the splice variants
10 test stat 0.22115 The value of the test statistic used to compute significance of the observed overloading, equal to √JS(x,y)
11 p value 0.000174982 The uncorrected p-value of the test statistic.
12 q value 0.985216 The FDR-adjusted p-value of the test statistic
13 significativo não Can be either “yes” or “no”, depending on whether p is greater then the FDR after Benjamini-Hochberg correction for multiple-testing

Differential coding output - cds.diff

This tab delimited file lists, for each gene, the amount of overloading detected among its coding sequences, i.e. how much differential CDS output exists between samples. Only genes producing two or more distinct CDS (i.e. multi-protein genes) are listed here.

Column number Column name Exemplo Description
1 Tested id XLOC_000002 A unique identifier describing the gene being tested.
2 gene name Atp6v1h The gene_name or gene_id
3 locus chr1:5073200-5152501 Genomic coordinates for easy browsing to the genes or transcripts being tested.
4 sample 1 Fígado Label (or number if no labels provided) of the first sample being tested
5 sample 2 Cérebro Label (or number if no labels provided) of the second sample being tested
6 Test status OK Can be one of OK (test successful), NOTEST (not enough alignments for testing), LOWDATA (too complex or shallowly sequenced), HIDATA (too many fragments in locus), or FAIL, when an ill-conditioned covariance matrix or other numerical exception prevents testing.
7 Reserved 0
8 Reserved 0
9 √JS(x,y) 0.0686517 The CDS overloading of the gene, as measured by the square root of the Jensen-Shannon divergence computed on the relative abundances of the coding sequences
10 test stat 0.0686517 The value of the test statistic used to compute significance of the observed overloading, equal to √JS(x,y)
11 p value 0.00546783 The uncorrected p-value of the test statistic
12 q value 0.985216 The FDR-adjusted p-value of the test statistic
13 significativo não Can be either “yes” or “no”, depending on whether p is greater then the FDR after Benjamini-Hochberg correction for multiple-testing

Differential promoter use - promoters.diff

This tab delimited file lists, for each gene, the amount of overloading detected among its primary transcripts, i.e. how much differential promoter use exists between samples. Only genes producing two or more distinct primary transcripts (i.e. multi-promoter genes) are listed here.

Column number Column name Exemplo Description
1 Tested id XLOC_000019 A unique identifier describing the gene being tested.
2 gene name Tmem70 The gene_name or gene_id
3 locus chr1:16651657-16668357 Genomic coordinates for easy browsing to the genes or transcripts being tested.
4 sample 1 Fígado Label (or number if no labels provided) of the first sample being tested
5 sample 2 Cérebro Label (or number if no labels provided) of the second sample being tested
6 Test status OK Can be one of OK (test successful), NOTEST (not enough alignments for testing), LOWDATA (too complex or shallowly sequenced), HIDATA (too many fragments in locus), or FAIL, when an ill-conditioned covariance matrix or other numerical exception prevents testing.
7 Reserved 0
8 Reserved 0
9 √JS(x,y) 0.0124768 The promoter overloading of the gene, as measured by the square root of the Jensen-Shannon divergence computed on the relative abundances of the primary transcripts
10 test stat 0.0124768 The value of the test statistic used to compute significance of the observed overloading, equal to √JS(x,y)
11 p value 0.394327 The uncorrected p-value of the test statistic
12 q value 0.985216 The FDR-adjusted p-value of the test statistic
13 significativo não Can be either “yes” or “no”, depending on whether p is greater then the FDR after Benjamini-Hochberg correction for multiple-testing

Read group info - read_groups.info

This tab delimited file lists, for each replicate, key properties used by Cuffdiff during quantification, such as library normalization factors. The read_groups.info file has the following format:

Column number Column name Exemplo Description
1 Arquivo mCherry_rep_A/accepted_hits.bam BAM or SAM file containing the data for the read group
2 condition mCherry Condition to which the read group belongs
3 replicate_num 0 Replicate number of the read group
4 total_mass 4.72517e+06 Total number of fragments for the read group
5 norm_mass 4.72517e+06 Fragment normalization constant used during calculation of FPKMs.
6 internal_scale 1.23916 Scaling factor used to normalize for library size
7 external_scale 1.0 Currently unused, and always equal to 1.0.


This project was funded by NIH/NLM training grant T15 LM011270, NIH/NCI Cancer Center Support Grant P30 CA016058, and NIH/NLM Individual Fellowship 1F31LM013056. Publication costs are funded by Philip R.O. Payne’s startup fund.

Afiliações

Department Biomedical Informatics, Ohio State University, 250 Lincoln Tower, 1800 Cannon Dr. Columbus, Columbus, OH, 43210, USA

Zachary B. Abrams, Travis S. Johnson & Kevin Coombes

Department of Medicine, Indiana University School of Medicine, 545 Barnhill Drive, Indianapolis, IN, 46202, USA

Travis S. Johnson & Kun Huang

Regenstrief Institute, Indiana University, 1101 West 10th Street, Indianapolis, IN, 46262, USA

Department of Biomedical Informatics, Washington University, 4444 Forest Park Ave, Suite 6318 Campus Box 8102, St. Louis, MO, 63108-2212, USA


Afiliações

Institute for Genomic Biology, University of Illinois at Urbana-Champaign, Urbana, IL, 61801, USA

Key Laboratory for Applied Statistics of MOE and School of Mathematics and Statistics, Northeast Normal University, Changchun, 130024, Jilin Province, P.R. China

Department of Mathematics, Washington University in Saint Louis, 63130, Saint Louis, Missouri, USA

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Autor correspondente


Assista o vídeo: O PAPEL DA BIBLIOTECA UNIVERSITÁRIA NA NORMALIZAÇÃO DOS TRABALHOS ACADÊMICOS com ELIENE MOURA (Janeiro 2022).