Em formação

Quanto tecido é necessário para fazer a análise de RNA-seq em um único organismo?


Quanto tecido seria necessário para fazer a análise de RNA-seq em um único organismo? Mais especificamente, se uma pessoa quisesse uma análise de RNA-seq da expressão de um único órgão, quanto tecido ela precisaria doar?


Nosso núcleo de DNA precisa de 1,5 ug de RNA. Descobri que posso obter essa quantidade de uma preparação Trizol padrão de cerca de 1 mg de tecido floral de Arabidopsis. Eu geralmente dobro ou triplo o que colho para compensar a variação aleatória na produção.


http://healthcare.utah.edu/huntsmancancerinstitute/research/shared-resources/center-managed/high-throughput-genomics-site/services/illumina-sequencing/rna-sequencing.php

O kit Illumina TruSeq RNA Sample Prep v2 com seleção de oligo (dT) recomenda uma entrada de 100 a 1000 ng de RNA total em um volume de 30 ul para a construção da biblioteca.

O Kit Epicenter TotalScript RNA-Seq (Epicenter cat # TSRNA1296) é projetado para uma entrada de 1-5 ng de RNA total em um volume de 12 ul para uma biblioteca de sequenciamento de RNA.

Se você obterá uma imagem completa de um órgão inteiro a partir de uma fatia tão pequena, é uma questão totalmente diferente. O cérebro possui diferentes regiões, com diferentes expressões gênicas.


Um guia prático para sequenciamento de RNA de célula única para pesquisa biomédica e aplicações clínicas

O sequenciamento de RNA (RNA-seq) é uma abordagem genômica para a detecção e análise quantitativa de moléculas de RNA mensageiro em uma amostra biológica e é útil para estudar as respostas celulares. O RNA-seq alimentou muitas descobertas e inovações na medicina nos últimos anos. Por razões práticas, a técnica é geralmente realizada em amostras compreendendo milhares a milhões de células. No entanto, isso tem impedido a avaliação direta da unidade fundamental da biologia - a célula. Desde o primeiro estudo de sequenciamento de RNA de célula única (scRNA-seq) foi publicado em 2009, muitos mais foram conduzidos, principalmente por laboratórios especializados com habilidades únicas em genômica de célula única de laboratório úmido, bioinformática e computação. No entanto, com a crescente disponibilidade comercial de plataformas de scRNA-seq e a rápida maturação contínua das abordagens de bioinformática, chegou-se a um ponto em que qualquer pesquisador biomédico ou clínico pode usar scRNA-seq para fazer descobertas interessantes. Nesta revisão, apresentamos um guia prático para ajudar os pesquisadores a projetar seus primeiros estudos de scRNA-seq, incluindo informações introdutórias sobre hardware experimental, escolha de protocolo, controle de qualidade, análise de dados e interpretação biológica.


Quanto tecido é necessário para fazer a análise de RNA-seq em um único organismo? - Biologia

Visão geral da análise de dados de RNA-Seq

O RNA-Seq revolucionou a maneira como exploramos os dados de expressão gênica. Análise de dados simples em nível de gene ou mais avançada em nível de transcrição, com potencial para detectar eventos de emenda alternativos, agora estão ao seu alcance. Você está interessado em RNA não codificante longo? Transcrições de fusão? O organismo de seu interesse não é nenhum dos suspeitos do costume? Você quer usar sua coleção de amostras fixadas em formalina e embebidas em parafina (FFPE)? Tudo é possível e a qualidade dos resultados é impressionante. No entanto, com as novas possibilidades, surgem novos obstáculos e muitas decisões têm de ser tomadas para obter o melhor resultado possível. E mesmo o melhor resultado pode não ser o certo. Achamos que a análise dos dados sempre precisa ser ajustada também ao objetivo inicial do pesquisador. Entendemos projetos experimentais complicados e adaptaremos nosso fluxo de trabalho de análise de dados de acordo com seu objetivo. Sem pipelines padrão. Prometido.

Nenhum resultado conta, se não for apresentado da melhor maneira. Nosso objetivo é obter figuras de alta qualidade. Fornecemos imagens de alta resolução e, adicionalmente, versões em pdf de seus gráficos, que permitem manipular cores, texto e muitas outras opções. Por favor, veja um exemplo de vídeo aqui.

Caso você queira contratar a biologia da it & # 8217s para analisar seu projeto de RNA-Seq, dividiremos todo o processo em 4 etapas, com você escolhendo o nível de análise que você precisa:

Design Exerimental

Consultoria no desenho experimental e procedimento técnico do experimento. Às vezes, um telefonema pode ajudar tremendamente.

Análise de dados de baixo nível

Avaliação da qualidade dos dados, manipulação de leitura (corte, filtragem), alinhamento e quantificação e normalização

Estatísticas e visualizações

Estatísticas e visualização de genes expressos diferenciais, transcritos ou isoformas.

Interpretação e Integração

Análises posteriores, como enriquecimento genético-ontológico, envolvimento do caminho ou integração com resultados de outros ensaios.

Estamos analisando dados de RNA-Seq de todos os sequenciadores de próxima geração da Illumina ou Ion-Torrent. Podemos começar a partir de arquivos em FASTA, FASTQ, arquivos BAM não alinhados ou formato SRA.
Role para baixo para obter mais informações sobre as etapas individuais de nosso fluxo de trabalho RNA-Seq. Por favor contacte-nos aqui, caso tenha alguma questão sobre o nosso serviço.

Controle de qualidade e preparação de leitura

Não é segredo que o controle de qualidade dos dados brutos de RNA-Seq é essencial para revelar um bom resultado. Isso não é diferente de outros dados de ensaio biológico, mas no RNA-Seq temos a possibilidade de moldar os dados brutos de acordo com parâmetros de qualidade. Um exemplo de tal modelagem seria o corte das extremidades de leitura com base nas pontuações de qualidade das bases. Usamos ferramentas de controle de qualidade padrão, como FASTQC, no entanto, adicionamos avaliações de qualidade adicionais sempre que necessário. Por exemplo, verificamos também por padrão a possibilidade de degradação de RNA para cada amostra. Vimos que esta etapa é particularmente importante ao trabalhar com amostras de tecido fixado em formalina e embebido em parafina (FFPE). Além disso, verificamos se há RNA ribossômico contaminante em suas amostras e excluímos essas leituras da análise para não interferir nos procedimentos de normalização posteriores. Para amostras de RNA-Seq provenientes de cultura de células, também incluímos uma triagem contra contaminantes proeminentes como leveduras, bactérias (intra e extracelulares), vírus e contaminação cruzada com outras espécies (durante a preparação da amostra). E por segurança, fazemos sempre essa verificação de contaminação, independentemente da origem da amostra.
Você receberá um relatório em PDF contendo todos os gráficos de qualidade cruciais para dados brutos e de qualidade aprimorada. Discutiremos com você todas as etapas de manipulação e, claro, documentamos todas as etapas que executamos.

Alinhamento de leitura

O alinhamento das leituras de RNA-Seq com o genoma é o processo de maior demanda computacional em todo o fluxo de trabalho. E mais uma vez complicado, uma vez que algumas decisões precisam ser tomadas. Qual alinhador? O que devo usar como referência? O genoma completo ou apenas o transcriptoma? Quais são os parâmetros otimizados para o algoritmo de alinhamento escolhido? Definitivamente, temos respostas para essas perguntas e podemos fornecer os primeiros resultados de seu experimento de RNA-Seq de tamanho médio (16 amostras, 200 GB de dados brutos) em apenas um dia útil.
Aqui está o que fazemos. Após o pré-processamento das leituras, alinhamos a todo o genoma usando nosso alinhador de RNA-Seq favorito, Star, que mostra alta especificidade e sensibilidade. E é rápido. Em paralelo, também alinhamos subamostras de seus dados usando um conjunto de outros alinhadores com reconhecimento de local de emenda (por exemplo GSNAP e Tophat2). Caso o alinhamento em estrela não corresponda aos nossos parâmetros para um alinhamento bem-sucedido, comparamos com os outros conjuntos de alinhamento, com base nos parâmetros selecionados e também inspecionando as leituras alinhadas visualmente, a fim de tomar uma decisão sobre a melhor estratégia de alinhamento.
O resultado desta etapa são arquivos BAM classificados e indexados, que podem ser usados ​​para a próxima etapa, quantificação, ou visualizados em qualquer navegador do genoma.

Quantificação e Normalização

Agora, uma vez que agora conhecemos a posição das leituras no genoma, o próximo passo é quantificar as leituras para genes e transcritos conhecidos. Novamente, há uma infinidade de ferramentas disponíveis, algumas sendo melhores do que outras. Temos uma experiência muito boa com SALMON, um sucessor do SAILFISH, que é agora nossa ferramenta favorita, para obter valores estáveis ​​de expressão de genes / transcritos. Outra decisão a fazer aqui é qual banco de dados de genes / transcritos conhecidos deve ser usado aqui. RefSeq, sendo conservador, contém muito menos isoformas do que, por exemplo, ENSEMBL. E ambos têm vantagens, que discutiremos com você para adequar os resultados ao seu objetivo.
Quando temos nossa tabela com valores de expressão, precisamos normalizar os dados. Ainda não há um acordo claro sobre qual estratégia de normalização funciona melhor com dados de sequenciamento de próxima geração, embora alguns tenham demonstrado ter desvantagens claras (por exemplo, normalização rpkm). Aplicamos & # 8220o normalizador & # 8221 “para aplicar uma seleção de procedimentos de normalização válidos e verificar qual funciona melhor com o conjunto de dados em questão. Um critério principal aqui é como o algoritmo de normalização está lidando com a derivação local e geral da média. Além disso, aplicamos estatísticas a todos os conjuntos de normalização e verificamos a saída por meio de sensibilidade, taxa de falso-positivo e significado biológico.

Estatísticas e mais

Da mesma forma que testamos vários procedimentos de normalização nos diferentes conjuntos de dados, nossa experiência enfatiza fortemente a seleção cuidadosa do teste estatístico adequado para seu conjunto de dados. Cada conjunto de dados se comporta de maneira diferente, com o número de amostras por condição sendo um parâmetro crucial. Aplicamos o teste estatístico do prefeito disponível para dados de RNA-Seq e verificamos cuidadosamente o resultado de cada teste, respectivamente. Para ser mais preciso, agrupamos todos os genes / transcritos que são específicos para um ou outro ou qualquer sobreposição entre qualquer um dos testes estatísticos. Postamos um exemplo para um conjunto de dados em nosso Blog. Investigando cuidadosamente o resultado de cada teste estatístico também no significado biológico, estamos confiantes para selecionar o teste certo para seus dados. Este pode ser um teste estatístico específico ou um meta-conjunto baseado em dois ou mais testes.
Além do cluster hierárquico, oferecemos uma grande seleção de visualizações exploratórias que nos ajudam a interpretar os resultados. Os exemplos seriam gráficos x-y (dispersão) clássicos das médias de suas condições, agrupamento SOM, agrupamento K-means, gráficos de vulcão, análise de componente principal (PCA), gráficos de caixa ou histogramas. Estamos aplicando não apenas o enriquecimento Gene-Ontology (GO) e o enriquecimento de vias nos conjuntos de genes / transcritos significativos. Também utilizamos conjuntos de genes personalizados, locais alvo de fator de transcrição ou sequências alvo mi-RNA. Isso pode revelar fatores de transcrição ou mi-RNAs atuando como reguladores no experimento. Além disso, fazemos um teste estatístico nas classes GO e conjuntos de vias para todos os genes / transcritos expressos, independentemente da significância. Isso nos permite revelar caminhos que geralmente são direcionados pelo procedimento experimental, mas talvez em um nível que seria detectado por uma análise de enriquecimento simples.
No nível de um único gene, estamos oferecendo gráficos de barras, gráficos de pontos, gráficos de interação e gráficos de linha. Isso sempre é feito no nível de amostra única, mas também nas médias das condições. Selecionamos cuidadosamente as anotações recentes de vários recursos selecionados. Por exemplo, um relatório PDF de gene único sempre incluiria o resumo RefSeq abrangente para o gene. Isso tudo para ajudá-lo a obter ideias e insights biológicos para o seu experimento com facilidade.
Também podemos fazer análises de integração com seus resultados de RNA-Seq. Você pode ter, por exemplo, dados miRNA-Seq ou Chip-Seq que deseja colocar em paralelo com seus dados de expressão. Nós reunimos os conjuntos. Você já fez o experimento usando microarrays? Somos especialistas em comparar conjuntos de dados de microarray e RNA-Seq.
Você ainda não tem dados de RNA-Seq, mas outra pessoa publicou um conjunto de dados no qual você está interessado? Você quer saber se os resultados são válidos? Você já analisou seus dados, mas quer uma segunda opinião? Todas as perguntas sobre as quais você pode nos contatar. Estamos confiantes de que podemos fornecer respostas.

Emenda Alternativa

  • >

A descoberta de verdadeiros eventos alternativos de splicing é complicada, uma vez que pode relatar eventos falso-positivos. É crucial que seu conjunto de dados tenha profundidade de leitura suficiente para obter resultados razoáveis. Em princípio, existem duas abordagens diferentes para detectar padrões de emenda alternativos: Com base na expressão do transcrito ou no nível do exon. Preferimos a detecção de splicing alternativo no nível da transcrição, pois achamos que a saída é mais fácil de interpretar pelo investigador. Após a quantificação das isoformas, aplicamos a modelagem estatística ANOVA para obter um valor p para a probabilidade de splicing alternativo. Depois de ajustar os valores-p para vários testes, selecionamos manualmente todos os genes significativos para garantir eventos de splice alternativo positivos verdadeiros. Você obterá um relatório em pdf incluindo todos os gráficos necessários para interpretar o padrão de emenda detectado tanto na transcrição quanto no nível do exon, tanto no nível de amostra única (para visualizar o desvio) quanto no nível das médias de suas condições. Também incluímos gráficos genômicos focados em genes, incluindo o modelo de transcrição e as leituras brutas para exame visual. Plotagens de exemplo podem ser vistas na janela deslizante acima.


Desenvolvimento de ensaios de RNA-Seq em massa e de célula única

O desenvolvimento inicial de RNA-Seq beneficiou enormemente o estudo de RNAs pequenos / não codificantes. Microarrays não eram um bom ajuste para pequenos RNA não codificantes como sequências de oligonucleotídeos em microarrays eram baseadas em sequências de genoma existentes, particularmente genes codificadores. Além disso, pequenos RNAs eram curtos demais para serem capturados em um chip. Um dos primeiros estudos usando pirosequenciamento de RNA foi liderado por Bartel DP. no MIT, usando C. elegans amostras. Este estudo, que sequenciou

400K pequenos RNAs permitiram a descoberta de 18 novos microRNAs, milhares de siRNAs e uma terceira classe de pequenos RNAs, chamados 21U-RNAs. Esses pequenos 21U-RNAs têm 21 nucleotídeos de comprimento com uma uridina 5 & rsquo e são mapeados em duas regiões diferentes do cromossomo IV, entre genes codificadores ou dentro dos íntrons.

O miRnome foi estudado pelo mesmo grupo em Drosophila, integrando previsões computacionais de novos microRNAs com RNA-Seq de pequenos RNAs. Usando o pirosequenciamento, quase 50% dos miRNAs previstos foram identificados e 59 novos genes foram descobertos. Os mesmos dados de sequenciamento levaram a outra publicação onde Ruby JG. et al. identificou uma via alternativa para a biogênese de miRNA. Acontece que alguns miRNAs intrônicos são capazes de contornar a clivagem de DROSHA e são traduzidos como pré-miR chamados de & ldquomirtrons. & Rdquo Quatorze mirtrons foram descobertos em Drosophila e quatro em C. elegans. Ao mesmo tempo, o grupo Lai EC & rsquos do Memorial Sloan-Kettering Cancer Center em Nova York confirmou essa via alternativa de biogênese miR em outra publicação.

Os experimentos de RNA-Seq em larga escala não só trouxeram muitas novas descobertas para o campo do RNA não codificador, mas também para a transcriptômica, melhorando as anotações do genoma. Estes revelaram que as regiões do genoma transcritas são mais largas do que o esperado anteriormente. No entanto, como para outros experimentos em massa, bulk RNA-Seq pode ter algumas limitações para amostras heterogêneas, incluindo órgãos, biópsias ou durante processos dinâmicos, como desenvolvimento e diferenciação. Em 2011, a equipe de Linnarsson S. & lsquos desenvolveu um protocolo para codificar células individuais durante a etapa de transcrição reversa. Células únicas (células ES R1 e MEF) foram carregadas em uma placa de 96 poços e lisadas. Os RNAs foram transcritos reversamente para gerar cDNA. Oligos auxiliares únicos foram então usados ​​para incorporar uma sequência específica na extremidade 3 & rsquo do cDNA. Apesar das dificuldades em detectar splicing alternativo, o nível de expressão de mRNA foi semelhante aos resultados de qPCR. Gerando um mapa celular bidimensional, os pesquisadores destacaram os padrões de expressão gênica específicos para cada linha celular.

A quantidade de material de partida necessária para o RNA-Seq em massa também pode ser um problema. Em 2009, Tang F. et al. publicou o primeiro protocolo para scRNA-Seq. Eles foram capazes de analisar a expressão de mRNA em um único blastômero de camundongo. Eles identificaram 75% mais genes do que microarrays e descobriram 1.753 junções emendadas. Eles analisaram ainda os efeitos de miRNAs na expressão de mRNA por esgotamento Dicer1 ou Ago2 genes em oócitos. Eles observaram uma regulação positiva de mais de 1.500 genes com 619 genes em comum.

Essas duas publicações pioneiras trouxeram uma nova tecnologia que ainda está em desenvolvimento. Enquanto o bulk RNA-Seq é bastante simples de analisar o transcriptoma, o scRNA-Seq fornece mais informações sobre as variações do transcriptoma durante os processos em evolução (saudáveis ​​ou patológicos).


“Vemos o RNA-seq de célula única como a maneira certa de fazer análises de expressão gênica”

Algumas aplicações de sequenciamento, como a detecção de polimorfismos de nucleotídeo único, podem ser gerenciadas com tecnologia de leitura curta. Outras aplicações, como a detecção de variantes estruturais, podem exigir tecnologia de leitura longa, e algumas aplicações, como a montagem do genoma de um novo organismo, podem exigir uma abordagem combinada, com leituras curtas fornecendo precisão e alto rendimento, quando possível, e leituras longas lidando com regiões genômicas altamente repetitivas.

de & # 8220Next-Generation Sequencing Challenges & # 8221 por Shawn C. Baker em Notícias de engenharia genética

Embora as principais empresas de plataformas de sequenciamento tenham passado anos reduzindo o custo de geração de sequência bruta, o mesmo não aconteceu com a preparação de bibliotecas. A preparação da biblioteca para o sequenciamento do genoma humano completo, a cerca de US $ 50 por amostra, ainda é uma parte relativamente pequena do custo total. Mas para outras aplicações, como sequenciamento de genomas bacterianos ou sequenciamento de RNA de baixa profundidade (RNA-seq), pode ser responsável pela maior parte do custo.

Vários grupos estão trabalhando em soluções caseiras multiplexadas para reduzir os custos efetivos, mas não houve muitos desenvolvimentos na frente comercial. Um ponto positivo é o desenvolvimento de soluções de sequenciamento de célula única, como o sistema Chromium ™ da 10X Genomics, que usa um sistema baseado em esferas para processar centenas a milhares de amostras em paralelo.

“Vemos o RNA-seq de célula única como a maneira certa de fazer análise de expressão gênica”, insiste Serge Saxonov, Ph.D., cofundador e CEO da 10X Genomics. “Nos próximos anos, grande parte do mundo fará a transição para a resolução de uma única célula para experimentos de RNA, e estamos entusiasmados com nossa plataforma para liderar o caminho até lá.” Para grandes projetos, como os necessários para RNA-seq de célula única, soluções altamente multiplexadas serão críticas para manter os custos por amostra razoavelmente baixos.

O domínio da Illumina no mercado de sequenciamento significa que a grande maioria dos dados gerados até agora é baseada em leituras curtas. Ter um grande número de leituras curtas é uma boa opção para várias aplicações, como a detecção de polimorfismos de nucleotídeo único em DNA genômico e contagem de transcritos de RNA. No entanto, as leituras curtas por si só são insuficientes em várias aplicações, como a leitura de regiões altamente repetitivas do genoma e a determinação de estruturas de longo alcance.

Plataformas de leitura longa, como RSII e Sequel da Pacific Biosciences e MinION da Oxford Nanopore Technologies, são rotineiramente capazes de gerar leituras na faixa de 15-20 quilobases (kb), com leituras individuais de mais de 100 kb relatadas. Essas plataformas ganharam o respeito de cientistas como Charles Gasser, Ph.D., professor de biologia molecular e celular da Universidade da Califórnia, Davis.

“Estou impressionado com o sucesso que as pessoas tiveram com o uso de métodos de leitura longa para a montagem de novo do genoma, especialmente em montagens híbridas quando combinados com dados de alta fidelidade de leitura curta”, comenta o Dr. Gasser. “Esta combinação de tecnologias possibilita que um único investigador com um grupo muito pequeno e um orçamento mínimo produza um conjunto utilizável do genoma de um novo organismo.”


Análise de dados de scRNA-seq de espécimes esqueléticos

Talvez a etapa que requer o maior esforço em um experimento de scRNA-seq não seja o isolamento ou sequenciamento de células, mas sim a análise de dados. Felizmente, as abordagens de análise de scRNA-seq têm evoluído pelo menos tão rapidamente quanto os próprios métodos de sequenciamento, levando a uma ampla gama de opções, que incluem várias ferramentas muito acessíveis que facilitam os biólogos ósseos sem nenhum treinamento computacional anterior para conduzir essa análise por conta própria 43 -45 (Tabela 2). Independentemente do software usado, o processo de análise normalmente envolve quatro etapas principais: abordagens para contabilizar artefatos técnicos / limpeza de dados, redução de dimensionalidade, agrupamento e exame pós-agrupamento da expressão gênica (Fig. 2). Para resumir cada um deles em ordem, o scRNA-seq está sujeito a confusão de características por covariáveis ​​que devem ser tratadas durante os estágios iniciais da análise. Estes incluem efeitos de lote, o conteúdo relativo de RNA mitocondrial e ribossomal, o número total de transcritos coletados de cada equivalente de célula ou o estágio do ciclo celular de cada célula. Freqüentemente, os efeitos dessas covariáveis ​​podem ser grandes em relação à variação biológica de interesse, exigindo compreensão e, subsequentemente, abordando seu impacto. Os métodos para lidar com isso incluem filtragem de células discrepantes, redução da amostragem de populações com maior amostragem transcricional por célula do que o resto da amostra ou regressão para remover a porção do sinal conduzida por essas covariáveis. No entanto, o impacto de "regredir" essas covariáveis ​​deve ser cuidadosa e manualmente avaliado na análise final, pois algumas dessas covariáveis ​​podem estar desigualmente presentes em grupos de células de interesse, levando à regressão potencialmente mascarando o verdadeiro sinal biológico associado a essas populações . É importante enfatizar que esta e quase todas as outras etapas deste processo de análise estarão idealmente sujeitas a ajustes iterativos de parâmetros de análise e observar se esses ajustes ajudam a recapitular a biologia esperada presente na amostra. A este respeito, a análise de scRNA-seq é intensamente informada pelo conhecimento da pessoa da biologia subjacente relevante e é melhor conduzida por investigadores com uma profunda familiaridade com esta biologia, embora o apoio de núcleos institucionais e consultoria de bioinformáticos possam ser críticos.

Pipeline Ano Linguagem de programação Redução de dimensionalidade Estratégia
Monóculo 2014 R ICA, MST Expressão diferencial
SCUBA 2014 Matlab t-SNE Curva principal
Cascata 2015 R PCA, k-médias, MST Agrupamento de células
Fúrcula 2016 Pitão PCA, mapas de difusão Conjunto
TSCAN 2016 R PCA Clusters MST
StemID 2016 R PCA, ICA Agrupamento de células
Estilingue 2017 R Algum MST baseado em cluster
scTDA 2017 Pitão Qualquer (MDS, ICA, t-SNE) Expressão diferencial baseada em topologia
Velocito 2018 R, Python PCA Agrupamento de células
Monóculo 3 2019 R t-SNE ou UMAP Louvain aglomerado
  • ICA = análise de componente independente MST = árvore de abrangência mínima t-SNE = t PCA de incorporação de vizinho estocástico distribuído = análise de componente principal MDS = escalonamento multidimensional UMAP = aproximação e projeção de variedade uniforme.
  • Uma série de pipelines de análise se concentram em inferir a trajetória de diferenciação de populações presentes em dados de scRNA-seq, incluindo Monocle, 57 SCUBA, 95 Waterfall, 96 Wishbone, 97 TSCAN, 98 Slingshot, 99 scTDA, 100 e Monocle 3. 40 Velocyto se concentra em inferir perfis de expressão gênica futuros de cada célula por meio da análise de transcritos não duplicados. 56 StemID se concentra na identificação de populações raras de outliers. 55

Aplicação de sequenciamento de scRNA para decodificar a complexidade biológica. (UMA, B) A análise de célula única captura o perfil transcricional de células individuais e pode deconvoluir as populações presentes em suspensão de tipos celulares mistos. A análise de componente principal (PCA) é um método de redução de dimensionalidade linear e pode ser usada para identificar diferentes agrupamentos de células presentes em populações de células heterogêneas (B). t-SNE (t- incorporação de vizinhança estocástica distribuída) é um método de redução de dimensionalidade não linear comumente usado para exibir diferentes clusters de células. (C) Um gráfico de violino é um gráfico de densidade que pode ser usado para determinar a expressão de um gene em diferentes grupos de células. Os pontos representam células individuais. (D – G) Diferentes tipos de pipelines de análise de scRNA podem inferir o comprometimento / hierarquia da célula (D), trajetória da célula (E), decodificar padrões de expressão gênica (F), ou diferenciação de células-tronco (G) Os pontos representam a localização de células individuais na trajetória de diferenciação. scTDA (análise de dados topológicos de célula única) é um algoritmo computacional baseado em topologia que pode ser usado para inferir hierarquia e diferenciação de células. As células assíncronas representam diferentes pontos de tempo instantâneos ao longo das trajetórias celulares. scTDA resolve assincronia e reconstrói um caminho dinâmico e contínuo de trajetória celular (D) Monocle é um algoritmo não supervisionado que infere trajetórias de diferenciação celular que ocorrem ao longo do pseudotempo substituto do tempo (E) [Figura colorida pode ser vista em wileyonlinelibrary.com]

Em seguida, a maioria das plataformas de análise se envolve em algum tipo de redução de dimensionalidade e agrupamento. A redução da dimensionalidade geralmente assume a forma de análise de componentes principais (PCA), que simplifica a variação complexa presente na amostra, identificando transcrições covariantes e agrupando-as em componentes principais (PCs). Por exemplo, osteocalcina (BGLAP) e outras transcrições altamente expressas em osteoblastos, como COL1A1 e sialoproteína óssea (IBSP) e outros, podem ser agrupados, um conjunto de genes chamados metágenos, em um componente principal que reflete a identidade do osteoblasto. Freqüentemente, é instrutivo examinar manualmente os genes que compõem cada um dos PCs para ver que aspecto da biologia mesenquimal está sendo capturado. Dependendo do método de preparação da amostra, os primeiros PCs provavelmente serão dominados pela assinatura de células eritróides ou leucócitos, devido às suas amplas diferenças na expressão gênica em comparação com o mesênquima esquelético. Alguns PCs podem corresponder amplamente às covariáveis ​​discutidas acima, e visualizar essas covariáveis ​​entre os poucos componentes principais pode ser um método útil para entender seu impacto nas análises posteriores. Por exemplo, o ciclo celular geralmente conduz um ou mais dos primeiros PCs, e observar o desaparecimento desse PC pode ser útil para garantir que a regressão ou outras abordagens tenham contribuído para os efeitos do ciclo celular. Após a geração do PC, os usuários geralmente selecionam qual desses PCs usar para agrupar os dados usando k significa agrupamento ou outro método. Métodos computacionais, como um gráfico de Jackstraw, podem ajudar a ilustrar a probabilidade de cada componente principal ter sido observado ao acaso e, assim, ajudar a orientar a seleção de quais PCs podem ajudar a guiar um agrupamento biologicamente significativo dos dados. No entanto, talvez o método mais útil seja conduzir iterativamente a análise com diferentes números de PCs e observar empiricamente como essas escolhas impactam as populações de interesse, usando populações que correspondem a osteoblastos, condrócitos ou outras populações mesenquimais claramente delineadas como "marcos" para ajudar na avaliação de como as populações esperadas segregam como um controle interno para a correção do agrupamento.

A última etapa na análise de scRNA-seq é exibir os clusters e entender quais populações celulares são representadas analisando os genes que definem cada cluster e também a expressão de genes de interesse que classicamente definem populações conhecidas, como transcritos de osteocalcina que definem osteoblastos maduros. Os clusters são normalmente representados usando t incorporação vizinha estocástica distribuída (t-SNE), um algoritmo de visualização de dados de redução de dimensionalidade 46 ou mais recentemente, aproximação e projeção de variedade uniforme (UMAP). 47 Notavelmente, t-SNE emprega vários parâmetros definidos pelo usuário que podem ter efeitos dramáticos na saída final, o que significa que é necessário cuidado para evitar a interpretação excessiva de recursos, como tamanho ou distância do cluster, que podem refletir esses parâmetros definidos pelo usuário mais do que os dados subjacentes (https: //distill.pub/2016/misread-tsne/). 48

Com a capacidade de caracterizar os transcriptomas de células individuais, uma questão intrigante é se as mudanças na expressão gênica em populações de células distintas podem ser detectadas após perturbações farmacológicas, genéticas ou ambientais no esqueleto. Embora esta seja uma possibilidade empolgante, há vários desafios importantes a serem considerados antes de tentar experimentos de perfil de expressão gênica comparativos com scRNA-seq. Primeiro, as metodologias atualmente disponíveis capturam apenas uma pequena porcentagem das transcrições (cerca de 5% a 15%) presentes em cada célula. Como resultado dessa amostragem esparsa e estocástica, os dados de expressão gênica podem ser difíceis de interpretar para genes com níveis de expressão médios a baixos, já que muitos desses genes podem apresentar aparente “queda” da expressão desses transcritos dentro de cada cluster devido a esse transcrito não sendo amostrado nessa célula particular. Como resultado, a aparente ausência de um gene de interesse em um cluster deve ser interpretada com cautela, pois pode simplesmente representar que o transcrito é expresso em um nível abaixo do limite alto necessário para detecção. Esses problemas podem ser ainda mais complicados se as diferenças na amostragem de transcritos entre as populações de celulares levarem a diferentes limiares de detecção em cada cluster. Estratégias computacionais para resolver esse problema incluem MAGIC (Markov affinity-based graph imputation of cells), que infere valores para dados de expressão gênica ausentes devido a problemas de amostragem em cada célula com base na expressão gênica em células semelhantes. 49 Alternativamente, quando viável, o isolamento celular seguido por sequenciamento de RNA em massa oferece talvez o método mais direto para validar experimentalmente as alterações de expressão gênica observadas por scRNA-seq. Em segundo lugar, uma consideração igualmente importante é garantir a definição adequada de grupos distintos que representam com precisão a diversidade celular dos tecidos esqueléticos em questão: como descendem de linhagens semelhantes e exibem semelhanças funcionais, populações de células mesenquimais distintas co-expressam vários genes em níveis elevados, e seus transcriptomas em um conjunto de dados de RNA-seq de uma única célula podem se assemelhar, levando ao agrupamento de populações de células muito distintas. Portanto, uma avaliação completa de cada cluster de células para excluir artefatos metodológicos é essencial durante a análise de dados. Técnicas de código de barras de recursos desenvolvidas recentemente, como CITE-seq e TotalSeq, mostram pouca evasão e podem ajudar a superar esse problema e verificar a identidade celular por meio da correlação de marcadores de proteína ligados à membrana e da saída transcricional. 26 Um terceiro e talvez mais óbvio desafio é garantir que os transcriptomas das células não sejam significativamente alterados pelo processo de isolamento celular. Embora haja preocupações de que o FACS possa perturbar a expressão gênica, estudos de validação publicados em tecidos não ósseos mostram efeitos mínimos na expressão gênica com protocolos otimizados. 50-52 As also discussed above, cell isolation–induced biases or artifacts can be particularly difficult to exclude when the goal of the experiment is to characterize the effects of environmental changes (such as dietary intake or mechanical loading) in the absence of an internal control (such as a genetic mutation blocking this response).

Despite the potential complexity of the scRNA-seq analysis pipeline, an increasing number of software tools are available, and several of these are designed to be accessible to investigators with no prior computational biology training. Notably, Seurat has online tutorials designed to get new users started with scRNA-seq analysis (https://satijalab.org/seurat/) and has several tools to help with regression or filtering-based approaches to account for covariates. 53 In addition to the basic analysis pipeline described here, a number of analytic tools have been designed to focus on answering specialized questions (Table 2). One of these, RaceID, focuses on identifying outlier cells relative to each of the clusters and thereby attempts to identify rare, sparsely sampled populations that may be of biologic interest. 54 Combination of RaceID approaches with identification of computational features of stemness, including high transcriptional entropy and interconnectedness of the population in an inferred differentiation trajectory, has been used for de novo computational identification of stem cell populations. 55

Another set of analysis tools focuses on inferring the relationships among the populations defined during the clustering step, often by defining a series of edges or lines that connect these populations into a tree or trajectory through additional dimensionality reduction. These connections are typically inferred on the principle that changes in gene expression as cells differentiate tend to be parsimonious, involving minimal changes during each differentiation event. For example, a series of cells differentiating along an osteoblast differentiation pathway are likely to retain many elements of the transcriptional character of osteoblasts during this process and therefore be more transcriptionally similar to each other than to unrelated mesenchymal lineages. In a common form of this analysis, construction of a minimum spanning tree, algorithms seek to connect all of the cell clusters with a “tree” that minimizes total sum of the “distances” of these connections across a space representing gene expression. Notably these kinds analyses makes the assumption that all of the cell types present in the sample share a lineage relationship, and for some types of specimens such as those including both endosteal and periosteal mesenchymal cells, this assumption may be false. 3 Thus, these approaches are greatly enhanced when used in conjunction with positive selection for a genetically encoded lineage tracing marker to provide assurance that the cells under analysis do share a lineage relationship. In an alternative method to infer cellular differentiation trajectories, a recent approach measures RNA velocity, or the rate of change in the expression of a gene through the ratio of unspliced to mature transcripts. 56 This can in turn be used to infer the future expression profile of cells and predict impending transitions among cell types. One of the most widely used tools for this kind of analysis is Monocle. 40, 57, 58 After dimensionality reduction and clustering, Monocle performs minimum spanning tree analysis to connect each cell cluster, finds the longest path along this tree, and then orders these clusters according to an inferred timeline of differentiation. Because this timeline does not refer to actual measured time, it is instead termed “pseudotime.” Proof of concept of this approach includes demonstrating that Monocle 2 can reconstruct known hematopoietic lineage trees from single-cell data. Notably, Monocle is able to accept sequential data drawn from multiple time points, making it particularly suitable for reconstructing in vitro cellular differentiation pathways from multiple sampled cultures of asynchronously differentiating cells or an analysis of the differentiation of cells in a fracture callus over time.

In scRNA-seq studies, some tissue types appear to show robust separation by clustering, such as different lineages of immune cells, while other tissue types display less robust separation due to broadly shared gene expression programs, intermediate cell states, or other causes. Studies to date suggest that skeletal mesenchyme may fall more in the latter than the former category, so tools that focus on resolving closely related populations may be useful in skeletal studies. 3 One clustering algorithm, biSNE (biclustering on stochastic neighbor embedding), aims to enforce a more robust separation of populations and thereby delineate between distinct but related cell populations and may thereby be useful for separating distinct mesenchymal subpopulations. 35


“We see single-cell RNA-seq as the right way to do gene expression analysis”

Some sequencing applications, such as the detection of single nucleotide polymorphisms, can be managed with short-read technology. Other applications, such as the detection of structural variants, may demand long-read technology, and some applications, such as the assembly of a new organism’s genome, may require a combined approach, with short reads providing accuracy and high throughput, where possible, and long reads coping with highly repetitive genomic regions.

from “Next-Generation Sequencing Challenges” by Shawn C. Baker at Genetic Engineering News

Although the major sequencing platform companies have spent years bringing down the cost of generating raw sequence, the same has not been true for library prep. Library prep for human whole-genome sequencing, at about $50 per sample, is still a relatively minor part of the total cost. But for other applications, such as sequencing bacterial genomes or low-depth RNA sequencing (RNA-seq), it can account for the majority of the cost.

Several groups are working on multiplexed homebrew solutions to bring the effective costs down, but there haven’t been many developments on the commercial front. One bright spot is in the development of single-cell sequencing solutions, such as the Chromium™ system from 10X Genomics, which uses a bead-based system for processing hundreds to thousands of samples in parallel.

“We see single-cell RNA-seq as the right way to do gene expression analysis,” insists Serge Saxonov, Ph.D., co-founder and CEO of 10X Genomics. “Over the next several years, much of the world will transition to single-cell resolution for RNA experiments, and we are excited for our platform to lead the way there.” For large projects, such as those required for single-cell RNA-seq, highly multiplexed solutions will be critical in keeping per-sample costs reasonably low.

Illumina’s dominance of the sequencing market has meant that the vast majority of the data that has been generated so far is based on short reads. Having a large number of short reads is a good fit for a number of applications, such as detecting single-nucleotide polymorphisms in genomic DNA and counting RNA transcripts. However, short reads alone are insufficient in a number of applications, such as reading through highly repetitive regions of the genome and determining long-range structures.

Long-read platforms, such as the RSII and Sequel from Pacific Biosciences and the MinION from Oxford Nanopore Technologies, are routinely able to generate reads in the 15–20 kilobase (kb) range, with individual reads of over 100 kb having been reported. Such platforms have earned the respect of scientists such as Charles Gasser, Ph.D., professor of molecular and cellular biology at the University of California, Davis.

“I am impressed with the success people have had with using the long-read methods for de novo genome assembly, especially in hybrid assemblies when combined with short-read higher fidelity data,” comments Dr. Gasser. “This combination of technologies makes it possible for a single investigator with a very small group and a minimal budget to produce a useable assembly from a new organism’s genome.”


Visualizing Single-Cell RNA-Seq Data with t-SNE: Researcher Interview with Dmitry Kobak and Philipp Berens

Enlarge

t-SNE embedding of 2 million mouse embryo cells with default parameters from the original publication (left) versus recommended parameters for preserving cell lineage relationships (right), with neuronal development clusters highlighted.

Single-cell transcriptomics can help to untangle the complexities of cancer, from how the disease develops to how a particular tumor responds to or resists treatment.

For example, researchers are starting to deconvolve the tumor microenvironment in terms of both cell type and their active transcriptional programs—an unprecedented level of detail for many cancers that may provide therapeutic insights.

With this widely used, perhaps even now commonplace method, it has become relatively easy to produce single-cell data sets. However, the prospect of analyzing transcripts from hundreds of thousands (or even millions) of individual cells might still be overwhelming.

A logical first step in analyzing single-cell RNA-sequencing (scRNA-seq) data is visualization, and a popular method for this is t-distributed stochastic neighbor embedding (t-SNE).

In “The art of using t-SNE for single-cell transcriptomics,” published in Nature Communications, Dmitry Kobak, Ph.D. and Philipp Berens, Ph.D. perform an in-depth exploration of t-SNE for scRNA-seq data. They come up with a set of guidelines for using t-SNE and describe some of the advantages and disadvantages of the algorithm. The researchers are from the Institute for Ophthalmic Research at the University of Tübingen, and Dr. Berens is a professor of Data Science for Vision Research.

Peggy I. Wang: As researchers at the Institute for Ophthalmic Research, what’s the link that brings you to visualization for RNA-seq data?

Philipp Berens: Single-cell RNA-seq holds tremendous potential for many fields, including basic retinal research and research into mechanisms of eye diseases. For example, it allows linking cell types between the mouse, the primate, and the human, and even organoids, identifying potential target sites for new drug developments.

We’ve focused a lot on data visualizations and machine learning techniques, including applying many of our tools to understand the mouse cortex. We also have exciting collaborations right now applying our RNA-seq tools to ophthalmic data.

PIW: What is it about single-cell RNA-seq data that requires a new visualization method?

Dmitry Kobak: There is probably a new method for visualizing single-cell transcriptomic data appearing every month, sometimes several! There are several reasons for this, I think:

First, scRNA-seq data is just awesome to visualize, with a wealth of biological information reflected in the way the cells are arranged in the so-called embedding, most often a two-dimensional (2D) scatter plot.

For example, there can be dozens of different cell types within one tissue, all appearing as distinct islands in the scatter plot. Islands can cluster together to form archipelagoes, reflecting related but distinct cell types and subtypes. Or they can form connected structures, reflecting continuous biological features, like cells transitioning between stem cell stages. The data can form a tree-like structure that on the 2D plot often ends up looking like an octopus!

Second, single-cell datasets are often collected with an exploratory goal in mind: taking a biological tissue apart into its constituent parts—single cells—and describing what cells are there, how they look and work. This makes unsupervised statistical methods very popular: people want to lay out their data in two or three dimensions, find interesting patterns, and find some way to make sense of those patterns.

Third, there is no perfect method, at least not yet! Some visualization methods can deal with clustered data really well but tend to obscure developmental trajectories. Some can capture continuous structures but tend to clump multiple clusters together. Some are computationally expensive and cannot deal with millions of cells. Also, with amazing progress in experimental techniques, new datasets present new challenges. A visualization method that worked well a few years ago might be now pushed to its limits, and new tools are needed.

PIW: Is t-SNE a new thing? Or repurposed from something else?

DK: t-SNE was developed in 2008 as an extension of an earlier algorithm called simply, ‘SNE’. In retrospect, I think the original SNE paper was really transformative, more so than was appreciated at the time. It initiated this new genre of dimensionality reduction methods based on preserving neighborhood relationships (SNE stands for “stochastic neighbor embedding”).

It wasn’t until around 2013 that the first efficient implementation of t-SNE was developed and the first major application of t-SNE to a single-cell data set was published. I’d say this gradually led to the t-SNE boom we’ve been seeing since then.

PIW: Without getting too technical, how does t-SNE work?

DK: The main idea behind SNE is very simple: the algorithm first finds similar data points, or “close neighbors”, in the original data set (in this case, cells with tens of thousands of gene expression measurements each). Then it tries to arrange the points in a 2D plot such that those close neighbors remain close and distant points remain distant.

This idea was revolutionary because popular methods of the past focus on preserving large distances the points that are far away in the original data should have similarly large distances in the 2D embedding. This is true of principal component analysis (PCA) and multidimensional scaling (MDS), the previous visualization methods of choice.

It turns out that preserving large distances does not work very well for transcriptomic data! Distances calculated from the original data behave very differently from distances in 2D spaces, and there just is no way to arrange the points in 2D such that they faithfully preserve the actual distances.

The SNE/t-SNE approach effectively says, “We give up! We will not even try to preserve numeric distances!” Instead, it only preserves whether the points are “near” or “far”, in some sense. This is how all other modern and effective visualization algorithms work, including largeVis and UMAP.

Let’s consider, for example, scRNA-seq data from the mouse cortex. Neurons of the same category, let's say fast-spiking interneurons, should have similar gene expression and be designated as “close” neighbors. t-SNE will try to position the fast-spiking interneurons so they do not overlap with other cell types, such as non-neural astrocytes.

PIW: So the final output of the algorithm is groups of cells with the original distances between the cells essentially forgotten. How does the algorithm achieve this output?

DK: t-SNE places the points in some initial configuration and allows them to interact as if they are physical particles. There are two “physical laws” of this interaction: 1) each pair of close neighbors attracts each other and 2) all other points repulse each other.

When I teach this process, I like to show the animation of how this happens. Close neighbors feel the attractive forces and gather together. Distant points are repulsed from each other and drift apart. This process runs for some time until the movement settles and the arrangement does not change anymore.

PIW: Can you explain the concept of local and global structure, which is discussed quite a bit in the paper?

DK: The idea of “structure” in dimensionality reduction actually lends itself quite well to cellular or organ structures in biology. Continuing with the example of the mouse cortex, fast-spiking interneurons may actually consist of several subtypes, and one would want to see these subtypes as individual clusters in the 2D plot. This is “local” structure.

But all inhibitory neurons and all excitatory neurons together are much more similar to each other than to non-neural cells, such as astrocytes or microglia. This is “global” structure.

t-SNE excels at finding local structure and showing specialized cell types as isolated islands. But it easily fails at representing the global structure: imagine that all these isolated islands are shuffled around and randomly arranged on the 2D space, such that an astrocyte island ends up in between two interneuron islands. This is what t-SNE will typically do.

PIW: What are the main dos and don’ts you’ve uncovered for using t-SNE?

DK: Initialization is one thing that we’ve found to be very important. As I mentioned, t-SNE positions the points in 2D in some initial configuration and then moves them around in small steps. The global arrangement of islands mostly depends on the initial configuration. Standard implementations use random initial configuration, leading to random arrangement of islands—and different results every time you run it.

We suggest using something called informative initialization, where rather than randomly placing points at the start, we use principal components or other prior knowledge about the cells’ relationships to help decide where points should start out. This often does the trick of preserving much more of the global structure and also produces a deterministic output.

Optimization parameters, such as the learning rate, can also have dramatic effects. We provide clear guidelines on how to set these parameters in our paper. The importance of learning rate was established in another paper published back-to-back with ours.

We also advise using something called “exaggeration” when embedding very large datasets (with hundreds of thousands or millions of points). Exaggeration makes the clusters tighter and increases the amount of white space, making visualizations easier to interpret. Interestingly, the mathematical reason behind why it works so well is not entirely clear this is one of the things we are currently working on.

PIW: Is t-SNE the clear winner for single-cell RNA-seq visualization? How does it compare with the other modern visualization methods?

DK: UMAP appeared in 2018 and has become hugely popular in the single-cell community, perhaps even more so than t-SNE. I think it has big potential, plus a very convenient and effective implementation.

As I previously mentioned, UMAP falls firmly within the same framework of embedding nearest neighbors. The equations for attraction are actually very similar to t-SNE but the equations for repulsion are different, making the internal implementation for UMAP very different.

On the surface, the main difference is that UMAP has stronger attractive forces, roughly corresponding to the t-SNE exaggeration factor of

4. Our group has been working on why it works out like this and figuring out the relationships between attractive and repulsive forces.

In our testing, we found that if following our guidelines, UMAP and t-SNE perform similarly. I think a lot of work still needs to be done to flesh out the trade-offs between the two methods.

PIW: Is t-SNE easy to use? How does accessibility compare with UMAP?

Dr. Dmitry Kobak, postdoctoral researcher at the Institute for Ophthalmic Research at the University of Tübingen.

DK: The fastest t-SNE implementation is called FIt-SNE. It is implemented in C++ and has wrappers for Python, R, and Matlab, making it very easy to use. There is also a pure Python re-implementation called openTSNE that is more flexible. Both are relatively easy to install (also true of UMAP).

Overall, the runtime for 2D embedding with t-SNE and UMAP are roughly comparable. For very large datasets (with millions of cells), FIt-SNE tends to run somewhat faster than UMAP. For 3D or higher-dimensional embeddings, UMAP is currently much faster.

PIW: Does t-SNE not scale for large data sets? What are the modifications to make it work?

DK: Until FIt-SNE appeared in 2017, it was a challenge to run t-SNE on any dataset with hundreds of thousands of points. Now I can embed a dataset with a million points in half an hour on my laptop, and in around 10 minutes on a powerful lab computer.

Another challenge is that large data sets tend to emphasize t-SNE’s weakness with capturing global structure. The archipelagoes and tree-like structures we described can get scrambled or distorted.

In our paper we suggest some ways to mitigate these problems with parameter settings and initialization techniques, but I see this only as a first step. These are heuristics for running t-SNE more effectively, and there is still a lot of room to develop new methods that could better preserve global and local structure. I am sure we will see more interesting developments in the next few years.

PIW: For someone with less statistics background, how do you know if you’ve done a good job using t-SNE or if you’ve just adjusted the parameters until you see what you want?

Dr. Philipp Berens, Professor of Data Science for Vision Research at the Institute for Ophthalmic Research, University of Tübingen.

DK: This question touches on an important problem: how to quantify whether a given 2D plot is faithful to the original data. I can easily imagine somebody running 10 different visualization algorithms with 10 different parameter settings on one dataset, getting 100 different embeddings and struggling to choose the “best” one. As you suggested, this could lead to cherry-picking.

Unfortunately, quantifying the faithfulness is a very difficult problem. There are some measures that are often used (e.g., fraction of preserved nearest neighbors, correlation between low-dimensional and high-dimensional distances), but my feeling is that many important properties of the data are not captured by these measures.

That said, if one wants to use t-SNE, our study explains how to set the algorithm parameters and initialization to achieve an effective visualization for large and small data sets. This is a straightforward way to get started, rather than play with parameters and risk cherry-picking.


Book Description

The State of the Art in Transcriptome Analysis RNA sequencing (RNA-seq) data offers unprecedented information about the transcriptome, but harnessing this information with bioinformatics tools is typically a bottleneck. RNA-seq Data Analysis: A Practical Approach enables researchers to examine differential expression at gene, exon, and transcript levels and to discover novel genes, transcripts, and whole transcriptomes.

Balanced Coverage of Theory and Practice. Each chapter starts with theoretical background, followed by descriptions of relevant analysis tools and practical examples. Accessible to both bioinformaticians and nonprogramming wet lab scientists, the examples illustrate the use of command-line tools, R, and other open source tools, such as the graphical Chipster software.

The Tools and Methods to Get Started in Your Lab. Taking readers through the whole data analysis workflow, this self-contained guide provides a detailed overview of the main RNA-seq data analysis methods and explains how to use them in practice. It is suitable for researchers from a wide variety of backgrounds, including biology, medicine, genetics, and computer science. The book can also be used in a graduate or advanced undergraduate course.


Assista o vídeo: RNA-seq: a arma mais poderosa para análise de transcriptoma (Janeiro 2022).