Em formação

Como detectar variantes de nucleotídeo único (SNVs)?


Esta imagem foi obtida neste artigo.

A descrição desta imagem é a seguinte: -
As leituras de sequência de DNA de uma amostra de tumor são alinhadas a um genoma de referência (mostrado em cinza). Diferenças de nucleotídeo único entre leituras e o genoma de referência indicam variantes de nucleotídeo único da linha germinativa (SNVs; círculos verdes), SNVs somáticos (círculos vermelhos) ou erros de sequenciamento (losangos pretos). (a) Em uma amostra de tumor puro, um local contendo incompatibilidades ou substituições de nucleotídeo único em aproximadamente metade das leituras que cobrem o local indica um SNV de linha germinativa heterozigoto ou um SNV somático heterozigoto - assumindo que não há aberração do número de cópias no locus. Algoritmos para detectar SNVs distinguem SNVs verdadeiros de erros de sequenciamento, exigindo múltiplas leituras com a mesma substituição de uma letra para serem alinhadas na posição (caixas cinzas). (b) Conforme a pureza do tumor diminui, a fração de leituras contendo mutações somáticas diminui: células cancerosas e normais, e as leituras originadas de cada uma, são mostradas em azul e laranja, respectivamente. O número de leituras que relatam uma mutação somática diminui com a pureza do tumor, diminuindo o sinal para distinguir mutações somáticas verdadeiras de erros de sequenciamento. Neste exemplo, apenas um SNV somático heterozigoto e um SNV de linha germinativa hetererozygous são detectados (caixas cinzas) como a mutação no conjunto do meio de r eads alinhados não é distinguível de erros de sequenciação.

Este é o meu entendimento abaixo. Estou correcto?

Existem várias leituras que estão alinhadas de modo que, para um determinado local no genoma de referência, (aqui em quarto lugar), se aproximadamente metade ou mais das leituras que cobrem esse local tem uma única incompatibilidade de nucleotídeo com o genoma de referência, então é um SNV heterozigoto .
Por exemplo:-


Seu link não leva ao papel e você parece estar ignorando metade do que a imagem está tentando transmitir.

A questão é que, como os tumores são heterogêneos, você pode muito bem ter apenas 40% das células heterozigotas para um determinado SNV, o que significa que só seria observável em 20% das leituras. Mas se várias leituras com sites de início diferentes mostrarem o mesmo SNV, é provável que seja real. Se a cobertura for tão baixa que você obtenha apenas uma leitura mostrando um SNV real, você não será capaz de distingui-lo do ruído.


A resposta existente está correta, mas quero expandir um pouco isso.

No mundo ideal, uma amostra de tecido será completamente homogênea (cada célula tem exatamente o mesmo DNA genômico com 0 diferenças), as máquinas de sequenciamento de DNA cometerão 0 erros e os experimentos de sequenciamento irão amostrar cada porção do genoma (uniformemente) para uma profundidade nível de cobertura. Nesse mundo ideal, distinguir SNVs heterozigotos de SNVs homozigotos é trivial: para SNVs homozigotos, 100% das leituras alinhadas à posição de interesse terão o mesmo nucleotídeo que difere da referência; para SNVs heterozigotos, haverá uma divisão perfeita de 50% / 50% entre as leituras que correspondem à referência e as leituras que correspondem ao nucleotídeo alternativo.

O grande problema é que nenhum desses 3 ideais é verdadeiro no mundo real. Os experimentos de sequenciamento NÃO amostram o genoma de maneira uniforme, então algumas regiões têm muitos mapeamentos de leituras (dizemos que essas regiões têm "alta cobertura"), enquanto outras regiões têm poucos mapeamentos de leituras ("baixa cobertura"). Além disso, as máquinas de sequenciamento de DNA cometem erros, da ordem de 1% para a máquina Illumina e 10-30% para sequenciadores de leitura longa como PacBio e Oxford Nanopore. Como os erros de sequenciamento são aleatórios, eles geralmente são bastante fáceis de distinguir da variação genética real, mas apenas em regiões de cobertura média a alta. Finalmente, nem sempre podemos presumir que todas as células em uma amostra terão DNA idêntico - isso é ESPECIALMENTE verdadeiro com tecido tumoral.

Por todas essas razões, não podemos distinguir SNVs heterozigotos simplesmente exigindo que exatamente 50% do mapeamento de leituras correspondam a um nucleotídeo alternativo. Como afirma swbarnes2, pode ser muito inferior a 50%, mas com cobertura suficiente, você pode tomar uma decisão confiante.


Como detectar variantes do COVID-19 de preocupação

É um pequeno déjà-vu escrever este título um ano depois de uma postagem semelhante no blog sobre como validar um ensaio COVID-19 no início da pandemia. Em muitos aspectos, os desafios são semelhantes: reagentes / materiais de controle limitados e contagem crescente de casos. Pelo menos agora, há um apoio crescente na forma de financiamento do governo federal que poderia ajudar no monitoramento e fiscalização. Vou resumir os métodos atuais disponíveis para detectar as variantes de preocupação e variantes emergentes.

Sequenciamento do genoma completo

O principal método usado por muitos é o sequenciamento do genoma completo. Ele tem a vantagem de ser capaz de examinar de forma abrangente todas as letras (nucleotídeos) do genoma da SARS-CoV-2 (30 quilobases de comprimento). Em nossa instituição, tenho trabalhado no esforço de sequenciar todos os nossos espécimes positivos. Embora seja possível, não é simples nem viável na maioria dos locais. As limitações incluem:

  • Financeiro: já deve possuir sequenciadores caros
  • Experiência: pessoal de diagnóstico molecular avançado necessário para realizar os testes NGS
  • Análise de dados: pessoal de bioinformática necessário para criar pipelines, analisar dados e relatá-los em um formato digerível.
  • Tempo: o processo geralmente leva uma semana, no máximo, e várias semanas se houver um acúmulo ou amostras insuficientes para que uma execução de sequenciamento seja financeiramente viável.
  • Sensibilidade: o limite de detecção para NGS é de 30 ciclos de CT, o que para nós inclui apenas cerca de 1 / 2- 1/3 de todas as amostras COVID19 positivas.

Conclusão: WGS é o melhor na detecção de cepas novas / emergentes ou mutações quando custo / tempo não é uma preocupação.

Triagem de mutação

Outras instituições iniciaram esforços para rastrear variantes preocupantes, detectando mutações características. Por exemplo, a mutação N501Y na proteína spike é comum aos principais Variants of Concern (UK B.1.1.7, Brazil P.1, and S Africa B.1.351) e E484K está presente no Brasil (P.1), S Africa (B.1.351) e New York Variant (B. 1.526). Assim, várias instituições (listadas abaixo) adotaram abordagens para 1) rastrear essas mutações e, em seguida, 2) executar WGS sequencialmente.

InstituiçãoMétodoAlvos
Hackensack Meridian Health (HMH)Molecular Beacon Probes, derretimento tempFaróis moleculares N501Y, E484K
Rutgers, Nova JerseyMolecular Beacon Probes, derretimento tempFaróis moleculares N501Y
VancouverSonda + curva de fusão (Ensaios de mutação VirSNiP SARS-CoV-2)Tela N501Y + sonda de reflexo qPCR, ensaio de curva de fusão
YaleEnsaio de sonda RT-qPCRS: 144del, ORF1Adel
ColumbiaEnsaio de sonda RT-qPCRN501Y, E484K

Como você pode ver, HMH, Rutgers e Vancouver estão usando ensaios que usam sondas específicas para alelos característicos combinado com curvas de temperatura de fusão para detectar uma mudança induzida por mutação. A análise da curva de fusão é normalmente realizada após qPCR para garantir que um único produto de PCR correto seja formado. Esta medida é calculada com base na mudança na fluorescência que ocorre quando o marcador fluorescente é capaz de se ligar ao seu DNA alvo. Assim, o Tm (temperatura de fusão) é semelhante à temperatura de recozimento. Neste caso, onde uma mutação está presente no local de ligação da sonda (fragmento de DNA), a ligação é interrompida e ocorre em uma temperatura mais baixa, conforme visto pelo deslocamento para baixo de 5 graus Celsius no gráfico abaixo.

Figura 1. Esquema mostrando a mudança de temperatura de fusão para as sequências normais e mutantes de ligação da sonda projetada por HMH (variante E484K) em concentrações decrescentes. Figura 2. Mudança semelhante para baixo na temperatura de fusão para o ensaio de Rutgers quando uma sonda de tipo selvagem encontra uma sequência mutante vs. WT.

Essas abordagens são rápidas, mas só podem realizar 2-3 reações por poço e exigem muito dos mesmos gastos que os ensaios de diagnóstico RT-qPCR. A maioria dos estudos descreve este método como uma forma de triagem de amostras a serem sequenciadas por NGS, no entanto, eles não serão tão bons na detecção de cepas emergentes. Por exemplo, a mutação N501Y não está presente nas variantes de Nova York nem da Califórnia.

RT-qPCR multiplex pode resolver alguns desses problemas. Em Columbia e Yale, vários alvos são projetados para detectar B.1.1.7 (N501Y apenas em Columbia e S144del + ORF1A em Yale) vs. variantes do Brasil / África do Sul (N501Y e amp E484K em Columbia e ORF1A apenas em Yale). À medida que novas variantes chegaram, encontramos a cepa New York carregando tanto a deleção ORF1A quanto a mutação E484K. Agora está claro que existem algumas áreas de hotspot para mutação no genoma SARS-CoV-2, o que pode complicar as interpretações. Portanto, esses ensaios RT-PCR ainda são úteis para a triagem, mas não substituem a necessidade de sequenciamento do genoma completo.

Dado o espectro sobreposto de mutações, seria útil testar vários marcadores de uma só vez em uma única reação. Em um determinado ponto, isso efetivamente “genotiparia” uma variante, bem como WGS. Os ensaios acima foram limitados a 2 alvos / reação devido aos canais de detecção de luz limitados. Portanto, criei um ensaio multiplex que pode ser ampliado para incluir 30-40 alvos em uma única reação, sem a necessidade de sondas caras. Este método é multiplex Análise de fragmento de PCR, que é tradicionalmente usado para impressões digitais forenses ou rastreamento de transplante de medula óssea. Neste método, DNA de comprimento diferente é amplificado por PCR, então separados por eletroforese capilar-o mesmo instrumento que realiza o Sequenciamento Sanger.

A análise de fragmentos pode ser realizada para detectar mutações de exclusão / inserção e polimorfismos de nucleotídeo único (SNPs) por primers específicos de alelo ou com Enzimas de restrição que apenas corta a sequência WT ou Mutante.

Eu projetei o ensaio para atingir 3 mutações de deleção em B.1.1.7: S: D69_70, S: D144 e ORF1A: D3675_3677. Cada deleção tem um comprimento específico e se 3/3 mutações estiverem presentes, então há 95% de especificidade para a cepa B.1.1.7. Amostras de dezembro até o presente foram testadas e no primeiro lote, eu detectei o padrão característico B.1.1.7 (padrão esperado e padrão observado abaixo).

Quadro teórico de como seria o ensaio de análise de fragmento para B.1.1.7. Uma amostra real do paciente resulta abaixo, que mostrou as exclusões esperadas exatamente como previsto:

Testamos e sequenciamos mais de 500 amostras positivas e encontramos níveis crescentes de prevalência da cepa B.1.1.7 de até quase 30% em meados de março. Todos os espécimes B.1.1.7 selecionados foram validados por WGS. Esses resultados e a capacidade de detectar as variantes de Nova York e Califórnia são detalhados em nossa recente pré-impressão.

Prevalência semanal de isolados consistente com B.1.1.7 no norte do Texas.

Implicações para vigilância futura de variantes

Como B.1.1.7 se tornou a cepa dominante, e os esforços de sequenciamento estão aumentando. Eu diria que os ensaios devem ser usados ​​para o que eles são melhores. Por exemplo, pode ser considerado um desperdício de tempo e recursos do NGS sequenciar todas as variantes quando & gt50% for B.1.1.7 se outros testes puderem verificar a deformação mais rapidamente por 10-20% do custo. Em vez disso, eu acho WGS deve estar focado na descoberta de variantes emergentes para o qual é mais adequado. Nos EUA, o número de casos tem diminuído e o número de amostras testáveis ​​pode ser expandido usando um ensaio de PCR mais sensível.

  1. Clark AE et al. Análise de fragmento multiplex identifica variantes SARS-CoV-2. https://www.medrxiv.org/content/10.1101/2021.04.15.21253747v1
  2. Zhao Y et al. Um novo teste de diagnóstico para rastrear variantes de SARS-CoV-2 contendo mutações E484K e N501Y. Um novo teste de diagnóstico para rastrear as variantes do SARS-CoV-2 que contêm as mutações E484K e N501Y | medRxiv
  3. Banada P et al. Um ensaio simples de temperatura de fusão por RT-PCR para rastrear rapidamente variantes de SARS-CoV-2 de ampla circulação. Um ensaio simples de temperatura de fusão por RT-PCR para rastrear rapidamente variantes de SARS-CoV-2 de ampla circulação | medRxiv
  4. Annavajhala MK et al. A Novel SARS-CoV-2 Variant of Concern, B.1.526, Identified in New York. Uma nova variante de preocupação do SARS-CoV-2, B.1.526, identificada em Nova York | medRxiv
  5. Matic N. et al. Detecção rápida de variantes SARS-CoV-2 preocupantes, identificando um cluster da variante B.1.1.28 / P.1 na Colúmbia Britânica, Canadá. Detecção rápida de variantes do SARS-CoV-2 preocupantes, identificando um cluster da variante B.1.1.28 / P.1 na Colúmbia Britânica, Canadá | medRxiv
  6. Vogels CBF et al. Ensaio de PCR para melhorar a vigilância global para variantes de SARS-CoV-2 preocupantes. Ensaio de PCR para melhorar a vigilância global para as variantes do SARS-CoV-2 preocupantes | medRxiv

Jeff SoRelle, MD é instrutor assistente de patologia no Southwestern Medical Center da University of Texas em Dallas, TX, trabalhando no laboratório de sequenciamento de última geração. Seus interesses de pesquisa clínica incluem entender como a medicina de laboratório afeta a saúde para transgêneros e melhorar a interpretação de variantes genéticas. Siga-o no Twitter @Jeff_SoRelle.


Introdução

As variantes da sequência genômica podem ser herdadas verticalmente (ou seja, transmitidas através da linha germinativa) ou geradas após a formação do zigoto (ou seja, levando ao mosaicismo somático ou gonadal). Está bem estabelecido que o mosaicismo somático ocorre em células de indivíduos fenotipicamente normais [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17] e pode levar a várias doenças [18]. No entanto, a prevalência de mosaicismo somático e a extensão em que ele contribui para doenças fora do câncer requerem elucidação [18].

Estudos recentes estimam que cada célula no cérebro humano contém centenas a alguns milhares de variantes somáticas de nucleotídeo único (SNVs) e que uma fração menor de células abriga variações somáticas no número de cópias (CNVs) e inserções de elementos genéticos móveis (ou seja, retrotransposon) [10, 15, 17, 19,20,21,22]. Dezenas de SNVs somáticos estão presentes em altas frações alélicas variantes (VAFs) em vários tecidos, indicando que eles surgiram durante o desenvolvimento inicial [17, 23]. Em comparação, alguns SNVs somáticos estão presentes em VAFs baixos e têm distribuições de tecido limitadas, sugerindo que surgiram mais tarde no desenvolvimento [15,16,17].

O sequenciamento de DNA de uma única célula é a abordagem mais direta para identificar variantes somáticas. No entanto, as mutações introduzidas durante a amplificação de DNA e / ou geração de bibliotecas de sequenciamento de célula única, bem como vieses de amplificação de DNA não uniforme, tornam difícil discriminar SNVs de mosaico genuíno de artefatos de procedimento [24]. Além disso, essa abordagem para identificar SNVs em mosaico requer a amostragem de um grande número de células em um determinado indivíduo e, consequentemente, é dispendiosa.

Outra abordagem para identificar variantes de mosaico envolve a comparação de populações de células em massa de duas amostras de tecido derivadas do mesmo indivíduo - a amostra de interesse e uma amostra de controle - conforme realizado rotineiramente durante a análise de genomas de câncer. No entanto, essa abordagem é limitada pela incapacidade de definir um tecido de controle adequado porque os SNVs do mosaico, particularmente aqueles que surgem durante o desenvolvimento inicial, estão frequentemente presentes em vários tecidos do corpo. Da mesma forma, as abordagens de código de barras moleculares, como sequenciamento duplex, podem corrigir erros introduzidos pela amplificação ou sequenciamento de PCR e oferecer uma melhoria de precisão de & gt 10.000 vezes em comparação com o WGS convencional [25, 26]. No entanto, as abordagens de consenso molecular mais precisas requerem profundidade de sequenciamento extremamente alta (1000 × ou superior) para garantir que cada molécula de DNA seja sequenciada várias vezes, utilizando assim de forma eficaz apenas alguns por cento das leituras geradas para a chamada de variantes [27]. Do ponto de vista prático, esse requisito restringe o principal benefício do código de barras a abordagens direcionadas. Assim, o desenvolvimento de um conjunto unificado de melhores práticas para detectar SNVs somáticos a partir de conjuntos de dados de sequenciamento do genoma completo (WGS) forneceria uma abordagem alternativa e econômica para identificar SNVs somáticos.

Neste estudo, membros da Rede de Mosaicismo Somático Cerebral (BSMN) conduziram um estudo multi-institucional coordenado que analisou o mosaicismo em uma única amostra neurotípica do cérebro e estabeleceu padrões unificados para chamar e validar SNVs de mosaico a partir de dados WGS e WES em massa.


Resultados

Justificativa da abordagem COBASI.

Quando um único nucleotídeo específico é pesquisado ao longo do genoma, a posição a que pertence não pode ser determinada de forma inequívoca. Se dois nucleotídeos adjacentes forem incorporados à busca, o conjunto de localizações possíveis é reduzido, embora permaneça bastante grande. Em algum ponto, no entanto, o contexto do nucleotídeo alvo conterá informações suficientes para determinar de forma inequívoca sua posição de origem única (Fig. 1UMA) Em nossa pesquisa anterior, definimos COIN-Strings (CSs) como o conjunto de todas as sequências sobrepostas (com uma janela deslizante de um nucleotídeo) do genoma de referência de um tamanho específico (k) que são exclusivamente localizadas. Assim, cada nucleotídeo ao longo do genoma de referência está contido em, no máximo, k CSs.

Justificativa da abordagem COBASI. (UMA) Um nucleotídeo específico (C grande em negrito) não pode ser exclusivamente localizado ao longo do genoma até que seu contexto seja incluído na pesquisa. (Deixou) A string a ser pesquisada (Direito) o número de posições em que tal string é encontrada. A string inferior é uma string COIN (CS) de 30 nt. (BD) (Superior) Representação esquemática de leituras de sequência. (Diminuir) Regiões específicas de paisagens de variação (VLs) para três cenários. (B) Sem sinal de variação. (C) Um sinal de variação SNV heterozigoto. (D) Um sinal de variação de SNV homozigoto. Linhas pretas em B, C, e D representam leituras do projeto genoma que contêm o alelo de referência. As linhas vermelhas representam leituras do projeto do genoma que contêm o alelo SNV. As seções do VL na ref. 2 são representados por linhas azuis. o x eixo indica a posição do genoma para cada início de CS. o y eixo indica o número de leituras contendo a sequência CS começando nessa posição.

O COBASI estende esta análise de CSs para encontrar variações robustas na amostra em todo o genoma. Quando um SNV está presente em uma amostra em uma determinada posição X, espera-se que cerca de metade das leituras para SNVs heterozigotos, ou quase todas as leituras em SNVs homozigotos que se sobrepõem a X, conterão o SNV. Consequentemente, os CSs que incluem X estarão presentes apenas nas leituras que não contêm o alelo alternativo. Isso pode ser traduzido em padrões específicos que são designados como regiões de assinatura de variação (VSRs) (Figs. 1 C e D e 2UMA) Uma vez que as regiões candidatas são identificadas, os alinhamentos locais entre as leituras e o genoma nas regiões de interesse irão revelar a natureza das variantes específicas.

Transformação de paisagem de variação em uma paisagem de cobertura relativa. (Deixou) Um SNV homozigoto é mostrado. (Direito) Um SNV heterozigoto é mostrado. (UMA) O VL para uma região composta de 30 nt a montante e 30 nt a jusante de cada VSR é mostrado. Os gráficos mostram a posição inicial de cada CS nessa região genômica (x eixo) e a cobertura para cada CS (y eixo). (B) O VL é transformado em RVL usando o RCI. RCIn refere-se ao índice de cobertura relativo para o nucleotídeo n. Cn e Cn1 denotam o número de leituras que contêm o CS começando no nucleotídeo n e no próximo CS a jusante, respectivamente. (C) O RVL para as mesmas regiões mostradas em UMA. Os gráficos mostram a posição inicial de cada CS (x eixo) e os valores RCI associados a cada CS (y eixo). O VL e o RVL são representados por linhas azuis. O PrevCS e PostCS são mostrados como linhas laranja e amarelas no Fundo de cada gráfico, e suas posições iniciais são destacadas com linhas verticais pretas tracejadas (Apêndice SI, Fig. S1).

De Novo SNV Discovery usando o pipeline COBASI.

Com base na justificativa apresentada, projetamos e implementamos uma estratégia para detectar SNVs de novo de um trio de pais e filhos. Primeiro, todas as posições CS do genoma de referência são calculadas. Definimos o genoma acessível ao COBASI como regiões com pelo menos 100 bp de comprimento para as quais pelo menos 50% dos kmers que começam dentro da região são CSs usando k = 30 bp. Embora mais de 50% do genoma humano seja classificado como sequências repetitivas (24), a grande maioria (cerca de 84%) do genoma pode ser interrogada usando COBASI (Apêndice SI, Tabela S1).

Em seguida, todos os SNVs do indivíduo criança são identificados por meio da análise do cenário de variação (VL). O VL é uma representação do número de leituras que contêm cada sequência CS (cobertura) ao longo de todo o genoma (Fig. 2UMA) Para ampliar a diferença na cobertura entre dois CSs adjacentes, o VL foi transformado em uma paisagem de variação relativa (RVL) usando um índice de cobertura relativa (RCI), medido em uma escala de -1 a +1 (Fig. 2B) Sob esta formulação, o RCI é próximo de zero quando há pouca ou nenhuma diferença na cobertura, e seu valor absoluto se aproxima de 1 quando ocorrem diferenças abruptas, na maioria das vezes por causa da variação genética subjacente (Fig. 2C) Uma vez que o RVL é variável em regiões de baixa cobertura, um limite de cobertura foi estabelecido para evitar ruído no processo de identificação do VSR (Materiais e métodos).

A partir do RVL, os VSRs podem ser identificados abrangendo quaisquer mutações candidatas. Definimos o último CS antes do início de um VSR como PrevCS e definimos o primeiro CS após o final de um VSR como PostCS, e ambos os CSs chamamos de CSs de assinatura. Em seguida, as leituras contendo correspondências perfeitas com os CSs de assinatura são identificadas e os alinhamentos globais entre a região correspondente nas leituras e o genoma são calculados. Finalmente, os nucleotídeos variantes nas leituras são destacados no alinhamento local para identificar o SNV específico (Fig. 3). Uma vez que os CSs têm a garantia de serem únicos no genoma e apenas correspondências perfeitas são consideradas, nenhum outro filtro de qualidade é necessário.

O pipeline experimental COBASI para descoberta de SNV em um indivíduo. (UMA, Deixou) Cada kmer de 30 nt sobreposto (com uma janela deslizante de 1 nt) ao longo de cada uma das leituras do projeto de sequenciamento é obtido (apenas 3 kmers são mostrados por leitura). As contagens de cada kmer são armazenadas em um banco de dados. Leituras e kmers lidos são mostrados como linhas cinza e cinza claro, respectivamente. (UMA, Direito) CS ao longo do RG é obtido, e as posições inicial e final de todas as regiões únicas não sobrepostas são armazenadas. Os kmers RG e RG são mostrados como linhas roxas e roxas claras. (B) Os dois produtos virtuais são mesclados e o cenário de variação (VL) é gerado. (C) Uma região do VL contendo um SNV heterozigoto é apresentada. O gráfico mostra a posição inicial de cada CS ao longo do genoma (x eixo) e cada cobertura CS (y eixo). O VL é representado por uma linha azul. O VL é transformado no RVL. Apenas o VL é representado. A posição inicial do PrevCS e PostCS é indicada por linhas verticais laranja e amarelas, respectivamente. O PrevCS e PostCS são representados por linhas horizontais laranja e amarelas, respectivamente. Alguns interCSs são mostrados como linhas horizontais marrons. A posição do SNV é mostrada como uma linha vertical vermelha. Todos os CSs localizados entre Prev- e PostCSs (interCSs) contêm a posição SNV. (D) Os CSs anteriores e posteriores (CSs de assinatura) são usados ​​como âncoras para recuperar todas as leituras de interesse (Materiais e métodos). (E) Cada uma das leituras recuperadas é então alinhada com a região correspondente do RG. Uma região RG de leitura alinhada é mostrada. A posição SNV e o nucleotídeo específico são destacados em um retângulo vermelho.

Para descobrir os SNVs de novo, as posições variáveis ​​na criança são interrogadas a seguir nos pais. Para cada SNV na criança, seus CSs de assinatura foram usados ​​como âncoras para recuperar as leituras de interesse dos pais. Essas leituras dos pais são então alinhadas ao RG usando o procedimento acima. Um catálogo contendo todos os SNVs filhos e os alelos encontrados em cada pai para as mesmas posições é então gerado. Os genótipos para cada indivíduo são atribuídos e comparados, de modo que os SNVs candidatos de novo possam ser identificados (Fig. 4). Consideramos como variantes genuínas de novo aquelas não encontradas em nenhum dos pais em mais de um alinhamento contendo ambos os CSs de assinatura, que são considerados alinhamentos de alta qualidade.

O pipeline experimental COBASI para descoberta de SNV em uma estrutura baseada em família. (UMA) Para cada SNV no filho, seus CSs de assinatura são usados ​​como âncoras para recuperar as leituras correspondentes nos pais. As leituras são então alinhadas ao RG. (B) Um catálogo contendo todos os SNVs filhos e os alelos encontrados em cada pai nas mesmas posições é gerado. Os três genótipos são então comparados e os possíveis SNVs de novo são identificados.

Desempenho do COBASI por experimentos de simulação.

Primeiro avaliamos o COBASI em relação aos dutos mais comumente usados ​​por meio de experimentos de simulação, considerando várias profundidades de sequenciamento diferentes, tamanhos de kmer e outros parâmetros internos (Apêndice SI, Materiais e métodos SI) Mutações foram introduzidas em um cromossomo diplóide humano (cromossomo 12), leituras simuladas foram produzidas e SNVs foram chamados usando COBASI. Nós quantificamos o desempenho usando a área amplamente usada sob a estatística da curva de recall de precisão (AUPR).

Os parâmetros de melhor desempenho foram derivados dos experimentos de simulação. Em todas as profundidades de sequenciamento testadas, o melhor tamanho de kmer foi 30, e a melhor razão entre a cobertura de ambos os CSs de assinatura foi 2,0. Isso manteve um baixo número de FPs, mas não aumentou significativamente os falsos negativos (FNs). Valores de 0,2 ou 0,3 para o limite de RCI tiveram pontuações AUPR muito semelhantes. Em contraste, o melhor valor para outros parâmetros-chave dependia da profundidade do sequenciamento. Se a profundidade de sequenciamento era 35 ×, a cobertura mínima para os CSs de assinatura era 5, a extensão ideal para alinhamentos que contêm apenas PrevCS era 5 bp e o número mínimo de alinhamentos com ambos os CSs era 2. Se a profundidade de sequenciamento era 100 ×, a cobertura mínima para os CSs de assinatura foi 10, a extensão ideal para alinhamentos que contêm apenas o PrevCS foi 5 bp ou 10 bp e o número mínimo de alinhamentos totais com ambos os CSs foi 3 ou 4. Uma vez que os parâmetros de melhor desempenho foram identificados, o AUPR variou de 0,94 a 0,96. Para comparar o desempenho do COBASI com o desempenho do pipeline de chamada de variante mais comumente usado, os SNVs também foram chamados a partir do experimento de simulação com uma profundidade de sequenciamento de 100 × usando uma combinação de BWA, Ferramentas Picard e GATK. O AUPR foi de 0,99, enquanto o AUPR obtido para o COBASI foi de 0,96. No entanto, o tempo necessário para obter uma lista de SNVs a partir de dados de sequenciamento brutos foi incrivelmente reduzido, de mais de 30 h no caso do pipeline baseado em alinhamento padrão para menos de 6 h exigidas pelo COBASI.

Além disso, em estudo anterior, Hwang et al. mediu o desempenho para qualquer combinação de três mapeadores diferentes e três chamadores diferentes para qualquer um dos 11 conjuntos de dados (10). Na maioria dos casos, o AUPR para COBASI foi semelhante aos AUPRs relatados anteriormente, embora Hwang et al. utilizou apenas dados de exoma (cerca de 2% do genoma) e COBASI foi testado em todo o genoma chamável (cerca de 84% do genoma) (Apêndice SI, Tabelas S2 e S3).

Em seguida, medimos o desempenho da descoberta de novo SNV pelo COBASI usando simulações de trio de pais e filhos. Um trio de genomas progenitores-descendentes foi criado seguindo a herança Mendeliana junto com um número limitado de variantes de novo (com uma média de 35 SNVs de novo por simulação) (Materiais e métodos), a partir do qual os dados de sequenciamento foram simulados. A profundidade de sequenciamento foi escolhida para se parecer com nossos dados de sequenciamento experimental: 35 × para os pais e 100 × para a criança. Os SNVs de novo foram então chamados usando COBASI. O experimento foi repetido cinco vezes, de modo que valores robustos de precisão mediana pudessem ser calculados. A precisão mediana obtida foi 1,0 e a recordação mediana foi 0,91 com uma mediana de 32 verdadeiros positivos (TPs), 3 FNs e 0 FPs.

Como acontece com qualquer pipeline de detecção de variantes, é necessária uma cobertura de sequenciamento suficiente para detectar mutações com precisão. Para examinar isso para COBASI, traçamos a curva de recuperação de precisão ordenada pela cobertura disponível, definida como o número de alinhamentos que contêm a variante. A mediana AUPR em todos os valores de cobertura foi de 0,86. No entanto, a maioria dos erros foi encontrada em variantes de baixa cobertura e com um nível de cobertura razoável (leituras & gt10), a precisão mediana e a recuperação para simulações de novo foram 1,0 e 0,91, respectivamente. Em um experimento individual, a precisão e a recuperação no mesmo limite de cobertura foram 0,9999 e 0,9613, respectivamente. Assim, o pipeline de descoberta de novo foi mais preciso do que o pipeline de todo o genoma à custa de um pequeno grau de sensibilidade. Usando os mesmos dados simulados, os SNVs de novo foram chamados usando as práticas padrão do pipeline baseado em alinhamento mais comumente usado, resultando em um AUPR de 0,91. Assim, o desempenho do COBASI pode ser comparado com pipelines de última geração, reduzindo o tempo necessário para concluir o processo de chamada de variante.

Aplicação COBASI em uma estrutura baseada em família.

Em seguida, aplicamos o pipeline COBASI de descoberta de novo para encontrar SNVs em todo o genoma em um trio progenitor que sequenciamos usando o sequenciamento Illumina (Materiais e métodos) Aqui, usamos os parâmetros de melhor desempenho determinados a partir dos experimentos de simulação. Além disso, consideramos como variantes genuínas de novo aquelas não relatadas anteriormente em bancos de dados públicos, como dbSNP, uma vez que a probabilidade de dois indivíduos independentes terem um evento de mutação de novo no mesmo nucleotídeo é muito baixa (Apêndice SI, Materiais e métodos SI) Usando esses parâmetros, encontramos 2.912.889 SNVs na descoberta individual e 58 variantes de novo (Fig. 5).

Exemplo experimental da estratégia COBASI na estrutura baseada na família. (Deixou) Um SNV Mendeliano é mostrado. A posição 1 nos gráficos corresponde à posição chrX 8928409. (Direito) Um SNV de novo é mostrado. A posição 1 nos gráficos corresponde à posição chr11 66915681. (UMA) A seção correspondente do VL é mostrada para cada indivíduo do trio pai-filho: as linhas vermelha, verde e roxa correspondem ao VL para o pai, a mãe e o filho, respectivamente. Como o SNV Mendelian está localizado no chrX, o pai tem cerca de metade da cobertura da mãe. (B) O RVL é mostrado para ambos os pais. (C) O RVL é mostrado para a criança. (D) O nucleotídeo presente no RG é mostrado. (E) Os cromatogramas obtidos pelo sequenciamento Sanger para essas regiões são mostrados. Os genótipos obtidos para cada indivíduo pela abordagem COBASI são apresentados em negrito. Um asterisco próximo ao genótipo individual indica que o cromatograma está na orientação reversa. A posição SNV é sombreada de acordo com o código de cor individual.

Os 58 SNVs de novo e uma seleção de dois SNVs escolhidos aleatoriamente por cromossomo (46 variantes aleatórias no total) identificados na criança foram selecionados para validação experimental via PCR e sequenciamento Sanger. No caso das variantes de novo, em cinco casos não foi possível obter nenhum produto de PCR e em um caso não foi possível sequenciar adequadamente. Para todas as 52 mutações de novo que poderiam ser sequenciadas, o sequenciamento Sanger confirmou que cada SNV previsto representava uma variante real de novo. Apêndice SI, A Tabela S4 apresenta as coordenadas genômicas, o genótipo para cada indivíduo e os resultados da validação experimental para cada SNV de novo. Apêndice SI, A Fig. S2 apresenta a validação experimental para cada indivíduo do trio familiar para 10 variantes de novo, escolhidas aleatoriamente. Todas as 46 variantes de Mendel foram validadas com sucesso (Apêndice SI, Fig. S3 and Table S5) (five examples).


Resumo

Next Generation sequencing (NGS) is a powerful tool to identify somatic mutations associated with tumor onset and drug response. While it is well suited for high quality fresh/frozen samples, NGS is not proven for FFPE tissue which is the most common type of clinical specimen. Since the nucleic acids can be readily extracted from FFPE samples for a variety of genomic analyses, a comparative mutational analysis of paired frozen and FFPE tissues is urgently needed. Our long term goal is to establish a lab protocol to detect mutations in FFPE tumors using a targeted capture and sequencing approach for genes of interest. This pilot study focuses on the comparison of FFPE and frozen samples to test the validity of using FFPE tissues in such application.

Gene Selection: 128 genes associated with known pathogenic mutations in lymphoma

Sample Selection: 9 diffuse large B-cell lymphoma (DLBCL) cases with FFPE, frozen and germline samples, as well as 10 frozen normal lymphatic tissues as references for CNV detections

Capture Probe Design: We targeted coding exons and UTR, as well as the evolutionarily conserved intronic regions. The capture probes were designed using the Agilent eArray tool. The titling density of the probes was set to 3 probes overlapping with every base in the target region to improve the capture efficiency in FFPE samples. The least stringent masking of the repeat regions was allowed to include regions with small repeats that are shorter than the length of the sequencing reads (100-bp). In addition, boosting parameters were picked to set various levels of probe replication in different regions in order to minimize the local coverage differences (e.g. between regions of different GC contents)

Sequencing and Bioinformatics: The target capture and sequencing were performed by the Mayo Clinic Medical Genome Facility. The reads were mapped to Human Reference Genome Build 37 using Novalign, and SNVs were called using GATK. The CNVs were identified using an in-house developed algorithm, patternCNV.

The designed probes covered 99.65937% of the target regions. We generated 2.2-6.7 Gbp of reads per sample, 57.4-71.5% of which were on target. This equalled an average coverage of 2100-6700 folds which is 10-30 times higher than the minimal coverage recommended by Agilent. Due to this high coverage, we observed duplicate reads that accounted for 7.7-73.5% of the total reads. When we analysed the data with and without the duplicated reads, the concordance of the called SNVs was between 84-93% out of 207-249 mutated positions per trio-sample. There were 7.8-8.9% and 1.1-2.2% unique SNVs per sample by excluding or including duplicate reads, respectively.

The dis-concordances were mostly missed calls, where a SNV was observed in only 1 or 2 of the trio samples. The missed calls from frozen samples ranged from 0-10.4% compared to 1.4-10.4% from the FFPE tissues, with 0.88-2.4% more SNVs missed in FFPE. Further analyses showed that all of the missing calls came from the lack of or low coverage of the corresponding positions. There were also differences of the called SNVs between the trio samples. However, this was extremely rare. Only 2 out of the 9 trio samples at a total of 3 positions had disagreements in called SNVs between FFPE and frozen tissues, all due to the allelic imbalance where the percentage of reads supporting the alternative alleles were below 20%. Therefore, this dis-concordance can be removed by back-filling of the read-level information for each position.

Unfortunately only 11.9-47.4% of the CNVs called in frozen tissues were identified in FFPE samples, due to the widely various coverage in FFPE samples. The consequent large noises of the log ratio values between the FFPEs and normal references significantly reduced the sensitivity for CNV calling.

This pilot study compared the performance of SNV and CNV detection in FFPE and paired frozen tissues using a target capture and sequencing approach. With a capture probe design strategized to benefit FFPE samples, we observed SNV detection rates in FFPE that were only slightly lower (0.88-2.4%) than those of frozen tissues due to poor coverage of some positions in FFPE samples. With a proper back-filling step, there was no dis-concordance of the called SNVs between FFPE and frozen samples. However, CNV detections in FFPE were more problematic due to the un-predictable regional coverage in FFPE samples.


RESULTS AND DISCUSSIONS

Reads mapping, redundancy filtering and SNV detection

In order to detect SNVs in the protein-coding and untranslated regions of the human genome using the next generation sequencing techniques, we designed a strategy as outlined in Figure 1 . cDNAs synthesized from mRNAs were fragmented to 100–200 bp by sonication and sequenced using Illumina Genome Analyzer II. The short reads of 30 bp were mapped to the reference consisting of hg18 human genome plus a collection of synthetic exon junctions using ELAND software, allowing up to two mismatches with the reference (see ‘Materials and methods’ section).

The mismatches with the reference sequence can occur due to sequencing errors or point mutations present in the sample. In order to distinguish between these two possibilities and hence filter noise from signal, we applied the following two-step procedure to the set of uniquely mapped reads (see ‘Materials and methods’ section). Multiple identical copies of a read can be present as an artifact of PCR amplification procedure and this can provide false evidence for variant site discovery. Therefore, in the first step, we retained only a single copy of each read ( Figure 2 A). This filter can also reduce confounding effects of systematically bad sequencing cycles within a read. In the second step, if multiple reads map to the same genomic position, we randomly selected only one read from each of the categories U0, U1 and U2 ( Figure 2 A). Thus, there can be at most three reads that map to the same genomic position ( Figure 3 A). The application of the above two filters (named together as ‘Redundant Reads Filter’ in Figure 1 ) should reduce false-positive rate of SNV discovery. Since there can be only a small number of unique and nonredundant genomic reads at the exon edges, we generated a library containing exon junctions to detect potential SNVs in these genomic regions, which increased the power of SNV detection at the exon edges. We found that about 6% of all significant SNVs are detected due to exon-junction reads. The nonredundant reads were analyzed by our point mutation analyzer. A very small probability of observing multiple overlapping but noncoincident short sequence reads agreeing at a given mismatched genomic location by random chance is taken as the evidence in favor of the presence of a genuine SNV at that location ( Figure 2 B and ‘Materials and methods'section).

The number of reads that align uniquely to the genome and exon junctions is shown in Table 1 . We obtained about 27 million uniquely mapped 30-bp sequence reads for each sample. The resulting mean coverage of exonic regions is ∼11×. Since gene expression varies dramatically, we examined the distribution of coverage for all exonic sequences ( Figure 4 A). Our data indicate that with 26 million uniquely mapped non-redundant short sequence reads, about 40% of exonic regions were covered ≥5 times.

We performed sequencing cost analysis for SNV detection (see ‘Materials and methods’ section). We show that at the stringency we use to call SNV ( P -value = 10 –9 ), fold coverage of C = 5 and C = 14 are needed to detect homozygous and heterozygous SNVs, respectively. At the sequencing depth we achieved (around 13 million 30-bp unique nonredundant reads), these fold coverages correspond to RPKM values 13 and 35, respectively. Thus, we estimate that about 40% of homozygous and 14% of heterozygous expressed SNVs were detected in this work. Our analysis demonstrates that about 80% of homozygous and 55% of heterozygous SNVs in expressed exons can be detected using 67 million 30-bp nonredundant unique reads ( Figure 4 B). However, our hypothesis is that mutation of a highly expressed gene may have more functional consequence than a gene expressed at low level or not expressed therefore, it may not be necessary to do much deeper sequencing than what we have achieved in this study.

SNV validation and annotation

At a very stringent significance threshold ( P -value < 1.0 × 10 –9 ), we detected 12176 and 10621 SNV in Jurkat and CD4 + T cells, respectively. Many of detected sites overlap with known single nucleotide polymorphism sites (dbSNP build 126): 7473 for Jurkat and 7669 for CD4 + T cells ( Figure 5 A). Interestingly, more nonsynonymous SNVs in Jurkat cells as compared to CD4 + T cells ( Figure 5 B and Tables 1 , Supplementary Data for further details), which could be related with the disease or generated during em vitro cultura.

Summary of results. ( UMA ) Venn diagram of single nucleotide variants (SNVs) detected in Jurkat and CD4 samples. ( B ) Summary table of SNVs detected in Jurkat and CD4 samples. Shown in the brackets are numbers of SNVs that are novel, i.e. not present in dbSNP Build 126 database.

Summary of results. ( UMA ) Venn diagram of single nucleotide variants (SNVs) detected in Jurkat and CD4 samples. ( B ) Summary table of SNVs detected in Jurkat and CD4 samples. Shown in the brackets are numbers of SNVs that are novel, i.e. not present in dbSNP Build 126 database.

To validate the genetic mutations detected using RNA-Seq, we randomly selected five nonsynonymous SNVs that are also present in dbSNP and four SNVs that are novel in Jurkat cells ( Table 2 ). The genomic regions containing these SNVs were amplified using PCR and sequenced using Sanger sequencing method. Our results indicate that all the nine SNVs were confirmed ( Supplementary Data ). Interestingly, the SNV identification indicated existence of only the mutated allele in the TAL1 gene that is implicated in T-cell acute leukaemia ( 7 ). However, the Sanger sequencing revealed that both the wild-type and mutated alleles were present, suggesting that only one parental copy is mutated and it is the mutated allele but not the wild-type allele that is expressed in Jurkat cells.

Confirmation of selected Jurkat single nucleotide variants by Sanger sequencing of genomic DNA

Gene . Chromosome . Position a . Predicted allele b . Reference allele c . #A . #C . #G . #T . P -value . Known SNP . Amino acid change . Confirmed .
LCP1 chr13 45606292 C T 0 58 0 0 1.0e-102 sim K → E sim
LOC554226 chr2 132729041 C T 2 53 1 1 1.9e-97 Não intronic sim
ECH1 chr19 44013927 G T 0 0 55 1 1.1e-95 sim E → A sim
SEPT9 chr17 73006300 G UMA 0 1 50 0 2.1e-90 sim M → V sim
POLR3K chr16 43517 C UMA 0 48 2 0 1.2e-88 sim S → A sim
CYC1 chr8 145222820 G UMA 0 0 49 0 7.0e-87 sim M → V sim
FLNA chrX 153235779 UMA G 45 3 2 0 4.7e-82 Não R → W sim
MYO1G chr7 44983146 T C 0 0 3 36 2.7e-69 Não V → M sim
TAL1 chr1 47456811 T C 0 0 0 39 2.7e-69 Não UTR sim
Gene . Chromosome . Position a . Predicted allele b . Reference allele c . #A . #C . #G . #T . P -value . Known SNP . Amino acid change . Confirmed .
LCP1 chr13 45606292 C T 0 58 0 0 1.0e-102 sim K → E sim
LOC554226 chr2 132729041 C T 2 53 1 1 1.9e-97 Não intronic sim
ECH1 chr19 44013927 G T 0 0 55 1 1.1e-95 sim E → A sim
SEPT9 chr17 73006300 G UMA 0 1 50 0 2.1e-90 sim M → V sim
POLR3K chr16 43517 C UMA 0 48 2 0 1.2e-88 sim S → A sim
CYC1 chr8 145222820 G UMA 0 0 49 0 7.0e-87 sim M → V sim
FLNA chrX 153235779 UMA G 45 3 2 0 4.7e-82 Não R → W sim
MYO1G chr7 44983146 T C 0 0 3 36 2.7e-69 Não V → M sim
TAL1 chr1 47456811 T C 0 0 0 39 2.7e-69 Não UTR sim

a Shows 1-based chromosomal location of SNV.

b Shows the allele inferred from RNA-seq data using the Point Mutation Analyzer.

c Shows the allele from hg18 (NCBI Build 36) human genome sequence both alleles refer to the forward strand of the genome sequence.

#‘X’ denotes the number of uniquely mapped nonredundant RNA-seq reads that have nucleotide X at the location of SNV.

‘Known SNP’ status is based on dbSNP build 126 database.

Confirmation of selected Jurkat single nucleotide variants by Sanger sequencing of genomic DNA

Gene . Chromosome . Position a . Predicted allele b . Reference allele c . #A . #C . #G . #T . P -value . Known SNP . Amino acid change . Confirmed .
LCP1 chr13 45606292 C T 0 58 0 0 1.0e-102 sim K → E sim
LOC554226 chr2 132729041 C T 2 53 1 1 1.9e-97 Não intronic sim
ECH1 chr19 44013927 G T 0 0 55 1 1.1e-95 sim E → A sim
SEPT9 chr17 73006300 G UMA 0 1 50 0 2.1e-90 sim M → V sim
POLR3K chr16 43517 C UMA 0 48 2 0 1.2e-88 sim S → A sim
CYC1 chr8 145222820 G UMA 0 0 49 0 7.0e-87 sim M → V sim
FLNA chrX 153235779 UMA G 45 3 2 0 4.7e-82 Não R → W sim
MYO1G chr7 44983146 T C 0 0 3 36 2.7e-69 Não V → M sim
TAL1 chr1 47456811 T C 0 0 0 39 2.7e-69 Não UTR sim
Gene . Chromosome . Position a . Predicted allele b . Reference allele c . #A . #C . #G . #T . P -value . Known SNP . Amino acid change . Confirmed .
LCP1 chr13 45606292 C T 0 58 0 0 1.0e-102 sim K → E sim
LOC554226 chr2 132729041 C T 2 53 1 1 1.9e-97 Não intronic sim
ECH1 chr19 44013927 G T 0 0 55 1 1.1e-95 sim E → A sim
SEPT9 chr17 73006300 G UMA 0 1 50 0 2.1e-90 sim M → V sim
POLR3K chr16 43517 C UMA 0 48 2 0 1.2e-88 sim S → A sim
CYC1 chr8 145222820 G UMA 0 0 49 0 7.0e-87 sim M → V sim
FLNA chrX 153235779 UMA G 45 3 2 0 4.7e-82 Não R → W sim
MYO1G chr7 44983146 T C 0 0 3 36 2.7e-69 Não V → M sim
TAL1 chr1 47456811 T C 0 0 0 39 2.7e-69 Não UTR sim

a Shows 1-based chromosomal location of SNV.

b Shows the allele inferred from RNA-seq data using the Point Mutation Analyzer.

c Shows the allele from hg18 (NCBI Build 36) human genome sequence both alleles refer to the forward strand of the genome sequence.

#‘X’ denotes the number of uniquely mapped nonredundant RNA-seq reads that have nucleotide X at the location of SNV.

‘Known SNP’ status is based on dbSNP build 126 database.

Among all the 12 176 SNVs identified in Jurkat cells, 4703 are novel and 7473 are known ( Figure 5 B). Among these, we detected 3206 nonsynonymous and 47 nonsense mutations. Further analysis of the 47 nonsense SNVs indicates that 41 are novel. Interestingly, all the 20 Jurkat-specific nonsense SNVs are single-allele changes ( Table 3 ). We were able to PCR amplify genomic regions containing 18 of these 20 SNVs and obtained their sequences using Sanger sequencing method. Our results indicate that 16 SNVs were confirmed ( Supplementary Data ). Interestingly, we found that one of the two SNVs not confirmed by sequencing of genomic DNA was in fact present in mRNA as revealed by Sanger sequencing of cDNA ( Supplementary Data ). The SNV is located in the last exon of TAF6 gene. These results suggest that the SNV may be introduced by RNA-editing.


A NGS solution to detect copy number variants, single nucleotide variants and loss of heterozygosity in Intellectual Disability and Developmental Delay samples

James Reid, Sandra Kachhia, Paul Dougall, John Shovelton, Duarte Molha, Christina Taylor, Jagath Kasturiarachchi, Jolyon Holdstock, Venu Pullabhatla, Laura Parkes, Ewa Marek, Natalie Milner, Emma Shipstone, Douglas Hurd

Introdução

The detection of Copy Number Variants (CNVs) in intellectual disability and developmental delay (ID/DD) samples is crucial in elucidating the genetic cause of abnormality. We have developed a targeted NGS panel and analytical software (Interpret) to accurately detect CNVs, as well as SNVs, indels and LOH.

The assay uses a bait capture approach, which is able to capture the exons and untranslated regions (UTRs) from over 700 genes, chosen for their relevance in ID/DD, as well as a range of backbone regions across the genome. Combined with OGTs proprietary CNV detection algorithm in the software, both intragenic and large ‘backbone’ CNVs can be detected robustly.

We implemented a web-based solution that runs OGTs NGS analysis pipeline, comprising many state-of-the-art open-source NGS software tools. These tools were carefully chosen and deployed using containers to ensure cross-platform compatibility and reproducibility. Pipeline optimisation and performance was assessed using equivalent array data and reference materials.

We will outline the results from over 200 intellectual disability and developmental delay research samples to demonstrate the efficiency of the CNV, SNV and LOH detection. The study demonstrated that the assay automatically called 100% of SNVs and 97% of reported pathogenic CNVs (including small intragenic CNVs), the uncalled CNVs were visible on Interpret but the protocol of the study precluded them from being called. We have described an improved method to investigate ID/DD samples, providing critical information on not just CNVs, but SNVs and Indels as well.

Register with us to read the full article

Once you have registered with us for free you will be able to read all our supportive literature, video tutorials and webinars.


Single Nucleotide Variant Detection Using Next Generation Sequencing

Single nucleotide variants (SNVs) occur when a single nucleotide (e.g., A, T, C, or G) is altered in the DNA sequence. SNVs are by far the most common type of sequence change, and there are a number of endogenous and exogenous sources of damage that lead to the single base pair substitution mutations that create SNVs. The biologic impact of SNVs in coding regions depends on their type (synonymous versus missense), and in noncoding regions depends on their impact on RNA processing or gene regulation. Nonetheless, selection pressure reduces the overall frequency of single base pair substitutions in coding DNA and in associated regulatory sequences, with the result that the overall SNV rate in coding DNA is much less than that of noncoding DNA. The utility of a clinical next generation sequencing (NGS) assay designed to detect SNVs depends on assay design features including an amplification-based versus hybrid capture-based targeted approach, DNA library complexity, depth of sequencing, tumor cellularity (in sequencing of cancer specimens), specimen fixation, and sequencing platform. From a bioinformatic perspective, many popular NGS analysis programs for SNV detection are designed for constitutional genome analysis where variants occur in either 50% (heterozygous) or 100% (homozygous) of the reads these prior probabilities are often built-in to the algorithms, and consequently SNVs with variant allele frequencies (VAFs) falling too far outside the expected range for homozygous and heterozygous variants are often ignored as false positives. Thus, sensitive and specific bioinformatic approaches for acquired SNVs require either significant revision of the software packages designed for constitutional testing or new algorithms altogether. Some bioinformatic tools are optimized for very sensitive detection of SNVs in NGS data, but these tools require high coverage depth for acceptable performance and rely on spike-in control samples in order to calibrate run-dependent error models, features that must be accounted for in assay design. There are a number of online tools that can be used to predict the impact of an SNV and evaluate whether an SNV has a documented disease association. Guidelines for reporting SNVs detected in constitutional NGS testing have been developed consensus guidelines for reporting somatic or acquired SNVs are under development.


A resource of variant effect predictions of single nucleotide variants in model organisms

The effect of single nucleotide variants (SNVs) in coding and noncoding regions is of great interest in genetics. Although many computational methods aim to elucidate the effects of SNVs on cellular mechanisms, it is not straightforward to comprehensively cover different molecular effects. To address this, we compiled and benchmarked sequence and structure-based variant effect predictors and we computed the impact of nearly all possible amino acid and nucleotide variants in the reference genomes of Homo sapiens, Saccharomyces cerevisiae e Escherichia coli. Studied mechanisms include protein stability, interaction interfaces, post-translational modifications and transcription factor binding sites. We apply this resource to the study of natural and disease coding variants. We also show how variant effects can be aggregated to generate protein complex burden scores that uncover protein complex to phenotype associations based on a set of newly generated growth profiles of 93 sequenced S. cerevisiae strains in 43 conditions. This resource is available through mutfunc (www.mutfunc.com), a tool by which users can query precomputed predictions by providing amino acid or nucleotide-level variants.

Sinopse

This study presents mutfunc, a resource that includes the pre-computed impact of genetic variants in three model organisms (human, yeast and E. coli) These predictions can be used to prioritize genetic variants and compute gene burden scores.


RESULTADOS

A novel computational pipeline (the eSNV-Detect) was developed to identify known and novel expressed SNVs from RNA-Seq experiment. To call variants the software requires post alignment files from any two aligners. The two aligner concept has been shown to be effective in reducing the false positives ( 27). Below are few examples of how we have shown the utility of the software in a lymphoblastoid cell line, Sanger validation of an ER+ tumor sequenced at Mayo, TCGA ER+ breast tumors and single-cell RNA-Seq data from a breast cancer cell line (Supplementary Methods). The mapping strategies used in the below examples are BWA + TopHat2 for most of the analyses (lymphoblastoid cell line, Mayo ER+ tumor samples and single-cell data from breast cancer cell line). We applied TopHat + MapSplice combination only for 25 TCGA ER+ breast tumors. We chose this combination, because all the TCGA RNA-Seq data from TCGA data repository has MapSplice alignments readily available.

High precision of the eSNV-detect method when applied to a lymphoblastoid cell line

We applied the eSNV-Detect method for the RNA-Seq data of a lymphoblastoid cell line (NA07347) from the 1000 genome project. Alignment of the RNA-Seq data was performed by TopHat2 and BWA against the human genome (release NCBI GRCh37.1b) respectively and the bam files were processed through the eSNV-Detect pipeline. In this analysis, we chose the splice aligner TopHat2 as the preferred aligner. The variant calls from the workflow were validated with the HumanOmni2.5 SNP chip that consisted of genotyping information for 2 448 222 genomic locations over the whole genome.

Our method identified 39 255 high confident (validated by both aligners, CONF = 2) eSNVs in the NA07347 RNA-Seq data, of which genotyping data was available for 15 796 nucleotide positions on the HumanOmni2.5 chip. The remaining eSNVs could not be validated due to absence of genotype information. Hence, our validation was based on these 15 796 loci. The HumanOmni2.5 chip data confirmed 15 753 out of the 15 796 RNA-Seq eSNV candidates to be true positives and the eSNV-Detect achieved a high precision rate of 99.7% (Figure 2a). The genomic composition of the 15 753 validated eSNVs is shown in Figure 2b. The variant calls were mainly present in exonic and untranslated region (UTR) regions, but part of the high precision calls were also distributed in intronic and intergenic regions.

Validation of the eSNVs in NA07347 mRNA-Seq data against the Omni 2.5 Chip data. (uma) 15 753 out of 15 796 eSNVs were validated by the Omni data. There were 1554 Omni SNPs that were expressed but not called by the eSNV-Detect (b) The validated 16 441 validated eSNVs distributed across the whole genome, mainly in exonic (36.9%), UTR (38.4%), intronic region (14.3%).

Validation of the eSNVs in NA07347 mRNA-Seq data against the Omni 2.5 Chip data. (uma) 15 753 out of 15 796 eSNVs were validated by the Omni data. There were 1554 Omni SNPs that were expressed but not called by the eSNV-Detect (b) The validated 16 441 validated eSNVs distributed across the whole genome, mainly in exonic (36.9%), UTR (38.4%), intronic region (14.3%).

Of the 2 448 222 SNP loci on the Omni chip of NA07347, only 17 307 SNPs were expressed in the transcriptome (i.e. >3 alternative allele supporting reads in the RNA-Seq data. A detailed transcriptomic expression distribution of all SNPs on the Omni chip can be found in Supplementary Table S2). Among the expressed variants, the eSNV-Detect called 15 753 out of 17 307 as high confident eSNVs and achieved a high sensitivity/recall rate of 91.0%. The 1553 variants not found in the high confident eSNV list were either called by only one aligner (683 found with TopHat evidence only and 19 found in BWA evidence only), or eliminated by the stringent filter criteria (i.e. 851 by low alternative allele frequency or extreme ReadPosRankSum score or strand bias ratio).

We thus also investigated the medium/low confident variants called by single aligner. In the NA07347 RNA-Seq data, there were 4363 medium confidence variants (CONF = 1) with evidence from TopHat2 alone. Among them 706 have genotype information on the Omni and 683 of 703 (97.1%) were verified to be true positive. There were 5106 low confidence variants (CONF = 0) with evidence from BWA only. Among them 358 had genotype information on the Omni Chip and 343 of 358 (95.8%) were validated. As the preferred aligner, eSNVs with only TopHat2 evidence showed a slightly higher precision than those with BWA evidence, while variants set with support from both aligners had the highest precision. Our analysis concludes that the two-aligner strategy improved the precision of the eSNV calling.

The impact of the selected mapping strategies

Using the same set of data for the lymphoblastoid cell line (NA07347) that consists of both RNA-Sequencing and SNP chip data, we investigated the impact of different mapping strategies. Engstrom and his colleagues ( 25) have shown that MapSplice, STAR-2pass and TopHat2 are top performance aligners for RNA-Seq. Hence we have chosen these three aligners along with BWA for the following analysis. After alignment with the four aligners, the bam files were processed through the eSNV-detect pre-processing and variant calling steps, respectively. We compared all pair-wise combinations of two-aligners with the Omni SNP chip data. Since the read-depth at a nucleotide position may differ during alignment process, we have chosen SNVs for comparison that have read depth ≥4 in at least two aligners and have Omni-SNP chip data (17389 SNVs).

Among the pair-wise comparisons (Supplementary Table S3), the combination of MapSplice + TopHat2 detected the truest positive variants, thus have the highest recall rate. It should be noted that MapSplice and TopHat2 both use Bowtie (both used bowtie 1 in the comparison) for segment mapping, which could be part of the reason of the high recall rate. It is noted that different combinations of aligners affect the precision very little. We have also tried combinations of three and four aligners to call variants using the eSNV-Detect. Intuitively, the evidence from more aligners may improve the performance precision. However, it turned out that the improvement of precision was only marginal with the price of a substantial loss in recall rate (Supplementary Table S4). Moreover, increasing the number of aligners will require extra computational resources. Hence, we recommend using two-aligner mapping strategy with the eSNV-Detect.

Sanger sequencing validation of variants identified by the eSNV-Detect in breast tumor and adjacent normal

We have used an earlier version of the eSNV-Detect method to call variants from RNA-Seq data in lung adenocarcinomas ( 26) and breast cancer samples ( 27). In a recent study, we have validated the variants predicted by the eSNV-Detect method with high accuracy in ERBB2 overexpressed (HER2+) breast tumors and adjacent normal tissues using Sanger sequencing. In a survey of 32 breast tumors from RNA-Seq data, a HER2+ breast tumor with the highest number of novel eSNVs (83 candidate variants) predicted by the eSNV-Detect was selected for Sanger sequencing validation. Tumor and tumor-adjacent normal tissues were sequenced along with a control sample for validation. We have confirmed 79/83 eSNVs in the HER2+ study using Sanger sequencing ( 27).

Similarly, in the present study, we also selected an ER+ breast tumor sample that was processed through the eSNV-Detect method for validation, and 29 out of 31 eSNVs were validated. An example of Sanger sequence chromatogram plots of eSNVs from ER+ tumor is shown in Figure 3. As indicated in Figure 3A the variant in PDCL3 gene called with low minor allele frequency and read depth was also validated by Sanger sequencing.

Sanger sequencing validated the eSNVs called. Not only eSNVs with higher allele frequency were validated, an eSNV in PDCL3 gene called with low minor allele frequency was also validated by Sanger sequencing.


Assista o vídeo: Secuenciacion ADNMetodo Sanger (Janeiro 2022).