Em formação

Erros comuns para baixo valor de R no ensaio de Bradford


Recentemente, comecei a fazer ensaios de Bradford para minhas amostras e minha curva padrão tem sido não linear e tenho obtido valores de R baixos (0,90-0,95). Inicialmente, pensei que o erro estava na pipetagem, provavelmente na adição de BSA ao estabelecer os padrões, mas repeti com cuidado e de alguma forma ainda obtenho valores de R baixos. Existem outras fontes possíveis de erro?


  • Você pode estar medindo fora da faixa dinâmica do ensaio (você só pode adicionar muito / pouco BSA a uma certa quantidade de reagente).
  • Você pode estar fora da faixa linear de seu espectrofotômetro, geralmente menos de 1 é bom, embora alguns antigos / ruins possam não ser confiáveis ​​acima de 0,5.
  • Se você for rápido, estará medindo suas diferentes concentrações também em momentos diferentes. Bradford depende um pouco do tempo, portanto, esperar o tempo recomendado antes de medir seus padrões não é uma má ideia.

Provavelmente ainda está pipetando, tente pipetar pelo menos 20 uL em cada etapa de diluição e veja se você ainda está desligado.


A integridade genômica é comprometida por erros de replicação da DNA polimerase, que ocorrem de maneira dependente da sequência em todo o genoma. A quantificação precisa e completa do espectro de erro de uma DNA polimerase é um desafio porque os erros são raros e difíceis de detectar. Relatamos um ensaio de sequenciamento de alto rendimento para mapear em vitro Erros de replicação de DNA no nível de uma única molécula. Ao contrário dos métodos anteriores, nosso ensaio é capaz de detectar rapidamente um grande número de erros de polimerase na resolução de base sobre qualquer substrato modelo sem viés de quantificação. Para superar a alta taxa de erro de sequenciamento de alto rendimento, nosso ensaio usa uma estratégia de código de barras em que cada produto de replicação é marcado com uma sequência de nucleotídeos única antes da amplificação. Isso permite que várias leituras de sequenciamento do mesmo produto sejam comparadas para que os erros de sequenciamento possam ser encontrados e removidos. Demonstramos a capacidade de nosso ensaio de caracterizar a taxa de erro média, pontos de acesso de erro e fidelidade de desvio de lesão de várias DNA polimerases.

As DNA polimerases atuam durante a replicação e reparo do DNA para catalisar a síntese de uma fita complementar de DNA a partir de um molde de DNA. Erros cometidos durante esse processo de replicação são raros, mas podem levar a doenças (1, 2) ou evolução (3, 4). O impacto dos erros da DNA polimerase depende do tipo de erro e de sua localização e frequência, mas são difíceis de prever. Isso ocorre porque cada DNA polimerase tem um espectro de erro único e cada organismo contém uma mistura diversa de DNA polimerases que são recrutadas por diferentes vias (5). As taxas de erro também variam com a sequência modelo, e as bases onde uma DNA polimerase é particularmente propensa a erros ("pontos de acesso de erro") sofrem mutagênese acelerada (6, 7). Além disso, as bases do DNA estão sujeitas a modificações químicas na Vivo que pode comprometer a fidelidade em diferentes graus, dependendo da polimerase replicante (8, 9). Ao todo, a fidelidade da DNA polimerase e seu impacto na estabilidade do genoma têm sido difíceis de entender.

A fidelidade da DNA polimerase pode ser medida quantificando os erros cometidos durante em vitro Replicação do DNA, mas os erros são raros e os métodos existentes de quantificação têm limitações significativas. Os métodos iniciais envolviam a transfecção dos produtos de replicação em bactérias para amplificação clonal e sequenciamento (10). Este método permite que a taxa média de erro de uma polimerase seja determinada, mas as taxas de erro não podem ser quantificadas na resolução de base porque muito poucos erros podem ser coletados. Os ensaios de mutação, que seguem uma metodologia semelhante, selecionam um gene alvo que causa uma mudança fenotípica na bactéria transfectada se incorretamente replicada, permitindo que colônias com produtos contendo erros sejam selecionadas (11–14). Esta modificação melhora o rendimento, mas só pode ser usada para detectar erros em locais detectáveis ​​fenotipicamente em um número limitado de sequências de modelo e permanece com um rendimento relativamente baixo. Erros não fenotipicamente detectáveis ​​só podem ser pontuados se vários erros forem cometidos durante cada rodada de replicação, o que só ocorre com frequência para polimerases altamente imprecisas (15). Como uma alternativa à seleção fenotípica, eletroforese desnaturante ou cromatografia em camada delgada podem ser usadas para separar produtos contendo erros (16, 17). A separação usando essas técnicas é simples quando apenas alguns produtos estão presentes, como quando uma lesão de DNA faz com que a maioria dos erros sejam cometidos em uma única posição. No entanto, quando a diversidade de erros é maior, alcançar uma boa resolução de erros é um desafio porque múltiplos ciclos de separação, purificação e identificação de sequenciamento são necessários. À luz dessas limitações, nosso entendimento da fidelidade da DNA polimerase se beneficiaria de uma nova técnica que tem maior rendimento e menos restrições práticas.

Desenvolvemos uma abordagem mais poderosa para quantificar a fidelidade da DNA polimerase usando sequenciamento de alto rendimento. Com o sequenciamento de alto rendimento, um grande número de produtos de replicação pode ser sequenciado no nível de uma única molécula, permitindo a quantificação direta de erros raros sem detecção de erro intermediário e etapas de separação de produto. Um obstáculo significativo a essa abordagem é a alta taxa de erro de sequenciamento em instrumentos de sequenciamento de alto rendimento. No entanto, esse obstáculo foi superado com uma estratégia conhecida como código de barras (18–22), que permite identificar e separar os erros de sequenciamento. Técnicas de sequenciamento de alto rendimento com código de barras foram usadas anteriormente para quantificar a fidelidade da DNA polimerase, mas essas abordagens anteriores tinham limitações. Em uma abordagem, a taxa de erro da DNA polimerase Phusion projetada foi determinada pela quantificação da proporção de produtos de PCR que continham erros (18). No entanto, erros podem afetar a eficiência da PCR e causar viés de amplificação (23). Outra abordagem teve uma alta taxa de erro de fundo, tornando os erros da DNA polimerase difíceis de distinguir (24).

Neste relatório, apresentamos uma nova abordagem para quantificar a fidelidade da DNA polimerase usando o sequenciamento de alto rendimento com código de barras na plataforma Illumina. Nosso método evita o viés de quantificação por PCR ao quantificar as taxas de erro de uma única rodada de síntese de DNA. Demonstramos que nossa abordagem de código de barras pode remover erros de sequenciamento, resultando em um fundo de baixo erro. Em seguida, avaliamos sua capacidade de quantificar a taxa de erro geral da DNA polimerase, obter espectros de erro reproduzíveis, identificar pontos críticos de mutação e avaliar o impacto de uma lesão de DNA de base única na fidelidade.


Introdução

A biologia em geral e a biologia de sistemas em particular requerem cada vez mais a detecção e quantificação de um grande número de analitos. Os estudos proteômicos são comumente realizados usando uma abordagem shotgun, em que as proteínas da amostra são degradadas enzimaticamente em peptídeos, que são então analisados ​​por espectrometria de massa (MS). Desse modo, um subconjunto dos peptídeos presentes na amostra é automaticamente e em parte estocasticamente selecionado pelo espectrômetro de massa em um processo referido como seleção de precursor dependente de dados. A biologia de sistemas requer a quantificação precisa de um conjunto específico de peptídeos / proteínas em várias amostras derivadas de células em estados diferencialmente perturbados (Ideker et al, 2001). Esse requisito rigoroso é impulsionado pelo objetivo de longo prazo da biologia de sistemas de gerar modelos matemáticos que simulem o sistema e façam previsões específicas sobre seu comportamento em diferentes condições. Embora a análise quantitativa abrangente do transcriptoma tenha se tornado rotina usando tecnologia de microarray e outras tecnologias de perfilamento de transcrição (Katagiri e Glazebrook, 2004), análises proteômicas quantitativas com uma profundidade e consistência semelhantes não foram alcançadas pelas abordagens proteômicas shotgun atuais. Além de sua sensibilidade limitada, a principal lacuna desses métodos é a baixa reprodutibilidade da seleção do alvo, o que resulta na identificação de conjuntos de proteínas apenas parcialmente sobrepostos de amostras substancialmente semelhantes. Esses conjuntos de dados fragmentários também são insatisfatórios para aplicações além da biologia de sistemas, em que perfis de quantificação completos para cada uma das proteínas quantificadas são necessários. Portanto, novas abordagens são necessárias para fornecer dados quantitativos precisos de conjuntos definidos de proteínas de forma confiável, em várias amostras.

O monitoramento de reação selecionada (SRM) tem o potencial de superar, pelo menos em parte, as deficiências das abordagens proteômicas shotgun atuais (ver Box I para uma visão geral dos métodos de quantificação baseados em MS). SRM explora os recursos exclusivos do triplo quadrupolo (QQQ) MS para análise quantitativa. No SRM, o primeiro e o terceiro quadrupolo atuam como filtros para selecionar especificamente os pré-definidos m/z valores correspondentes ao íon peptídeo e um íon fragmento específico do peptídeo, enquanto o segundo quadrupolo serve como célula de colisão (Figura 1). Várias dessas transições (pares de íons precursor / fragmento) são monitoradas ao longo do tempo, produzindo um conjunto de traços cromatográficos com o tempo de retenção e a intensidade do sinal para uma transição específica como coordenadas. Os dois níveis de seleção de massa com janelas de massa estreitas resultam em uma alta seletividade, pois os íons de fundo coeluentes são filtrados de forma muito eficaz. Ao contrário de outras técnicas proteômicas baseadas em MS, nenhum espectro de massa total é registrado na análise SRM baseada em QQQ. A natureza de não varredura deste modo de operação se traduz em um aumento da sensibilidade em uma ou duas ordens de magnitude em comparação com as técnicas convencionais de 'varredura completa'. Além disso, resulta em uma resposta linear em uma ampla faixa dinâmica de até cinco ordens de magnitude. Isso permite a detecção de proteínas de baixa abundância em misturas altamente complexas, o que é crucial para estudos quantitativos sistemáticos.


Qual é um bom valor para R ao quadrado?

A pergunta costuma ser feita: & quotqual é um bom valor para R ao quadrado? & Quot ou & # 8220Que grande deve ser o R ​​ao quadrado para que o modelo de regressão seja válido? & # 8221 Às vezes, chega-se a afirmar: & o modelo de cota não é útil, a menos que seu R-quadrado seja pelo menos x & quot, onde x pode ser alguma fração maior do que 50%. A resposta correta a essa pergunta é uma risada educada seguida de: & quotIsso depende! & Quot. Um ex-aluno meu conseguiu um emprego em uma importante empresa de consultoria por ser o único candidato que deu essa resposta durante sua entrevista.

R-quadrado é o & # 8220por cento da variância explicada & # 8221 pelo modelo. Isso é, R-quadrado é a fração pela qual a variância dos erros é menor que a variância da variável dependente. (O último número seria a variância do erro para um modelo apenas constante, que apenas prevê que todas as observações serão iguais à média da amostra.) É chamado de R ao quadrado porque em um modelo de regressão simples é apenas o quadrado da correlação entre as variáveis ​​dependentes e independentes, comumente denotadas por & # 8220r & # 8221. Em um múltiplo modelo de regressão R-quadrado é determinado por correlações de pares entre tudo as variáveis, incluindo correlações das variáveis ​​independentes entre si, bem como com a variável dependente. Na última configuração, a raiz quadrada de R ao quadrado é conhecida como & # 8220múltiplos R & # 8221 e é igual à correlação entre a variável dependente e as previsões do modelo de regressão & # 8217s para ela. (Observação: se o modelo não incluir uma constante, que é uma chamada & # 8220 regressão através da origem & # 8221, então R ao quadrado tem uma definição diferente. Consulte esta página para obter mais detalhes. Você não pode comparar R-quadrado entre um modelo que inclui uma constante e outro que não.)

Geralmente é melhor olhar para R-quadrado ajustado em vez de R ao quadrado e olhar para o erro padrão da regressão em vez do desvio padrão dos erros. Estes são imparcial estimadores que corrigem o tamanho da amostra e o número de coeficientes estimados. O R-quadrado ajustado é sempre menor do que o R-quadrado, mas a diferença geralmente é muito pequena, a menos que você esteja tentando estimar muitos coeficientes de uma amostra muito pequena na presença de muito ruído. Especificamente, o R-quadrado ajustado é igual a 1 menos (n - 1) / (n & # 8211 k - 1) vezes 1-menos-R-quadrado, onde n é o tamanho da amostra ek é o número de variáveis ​​independentes. (É possível que o R-quadrado ajustado seja negativo se o modelo for muito complexo para o tamanho da amostra e / ou as variáveis ​​independentes tiverem muito pouco valor preditivo, e algum software apenas relatar que R-quadrado ajustado é zero nesse caso.) R-quadrado ajustado tem a mesma relação com o padrão erro da regressão que R-quadrado tem para o desvio padrão dos erros: um necessariamente sobe quando o outro desce para modelos ajustados à mesma amostra da mesma variável dependente.

Agora, qual é a variação relevante que requer explicação e quanto ou quão pouca explicação é necessária ou útil? Há uma grande variedade de aplicações para análise de regressão linear em ciência, medicina, engenharia, economia, finanças, marketing, manufatura, esportes, etc. Em algumas situações, as variáveis ​​em consideração têm relações muito fortes e intuitivamente óbvias, enquanto em outras situações você pode estar procurando por sinais muito fracos em dados muito barulhentos. As decisões que dependem da análise podem ter margens estreitas ou largas para erros de previsão e as apostas podem ser pequenas ou grandes. Por exemplo, na pesquisa médica, um novo tratamento medicamentoso pode ter efeitos altamente variáveis ​​em pacientes individuais, em comparação com tratamentos alternativos, e ainda assim ter benefícios estatisticamente significativos em um estudo experimental de milhares de indivíduos. Ou seja, a quantidade de variância explicada ao prever resultados individuais pode ser pequena, e ainda assim as estimativas dos coeficientes que medem os efeitos da droga podem ser significativamente diferentes de zero (conforme medido por valores P baixos) em um grande amostra. Um resultado como esse pode salvar muitas vidas a longo prazo e valer milhões de dólares em lucros se resultar na aprovação do medicamento para uso generalizado.

Mesmo no contexto de um único problema de decisão estatística, pode haver muitas maneiras de enquadrar a análise, resultando em diferentes padrões e expectativas para a quantidade de variância a ser explicada no estágio de regressão linear. Já vimos que existem muitos transformações que pode ser aplicado a uma variável antes de ser usada como uma variável dependente em um modelo de regressão: deflação, perfilagem, ajuste sazonal, diferenciação. Todas essas transformações vão mudar a variância e também podem mudar o unidades em que a variância é medida. O registro muda completamente as unidades de medida: grosso modo, as medidas de erro tornam-se porcentagens em vez de valores absolutos, conforme explicado aqui. A deflação e o ajuste sazonal também alteram as unidades de medida, e a diferenciação geralmente reduz a variação drasticamente quando aplicada a dados de série temporal não estacionários. Portanto, se a variável dependente no modelo de regressão já foi transformada de alguma forma, é possível que grande parte da variância já tenha sido "explicada" meramente por esse processo. Com relação a qual variância a melhoria deve ser medida em tais casos: a da série original, a série deflacionada, a série com ajuste sazonal, a série diferenciada ou a série registrada? Você não pode comparar significativamente o R-quadrado entre modelos que usaram diferentes transformações da variável dependente, como o exemplo abaixo irá ilustrar.

Além disso, a variância é uma quantidade difícil de pensar porque é medida em unidades quadradas (dólares ao quadrado, latas de cerveja ao quadrado & # 8230.). É mais fácil pensar em termos de desvio padrão, porque são medidas nas mesmas unidades que as variáveis ​​e determinam diretamente as larguras dos intervalos de confiança. Portanto, é instrutivo também considerar o & # 8220porcento do desvio padrão explicado, & # 8221 isto é, a porcentagem pela qual o desvio padrão dos erros é menor do que o desvio padrão da variável dependente. Isso é igual a um menos a raiz quadrada de 1-menos-R-quadrado. Aqui está uma tabela que mostra a conversão:

Por exemplo, se o modelo & # 8217s R-quadrado é 90%, a variância de seus erros é 90% menor que a variância da variável dependente e o desvio padrão de seus erros é 68% menor que o desvio padrão da variável dependente . Ou seja, o desvio padrão dos erros do modelo de regressão & # 8217s é cerca de 1/3 do tamanho do desvio padrão dos erros que você obteria com um modelo apenas constante. Isso é muito bom, mas não soa tão impressionante quanto & # 8220NINETY POR CENTO EXPLICADO! & # 8221.

Se o R-quadrado do modelo & # 8217s for 75%, o desvio padrão dos erros é exatamente a metade do desvio padrão da variável dependente. Agora, suponha que a adição de outra variável ou duas a este modelo aumente R ao quadrado para 76%. Isso é melhor, certo? Bem, pela fórmula acima, isso aumenta o percentual de desvio padrão explicado de 50% para 51%, o que significa que o desvio padrão dos erros é reduzido de 50% daquele do modelo apenas constante para 49%, um encolhimento de 2% em termos relativos. Os intervalos de confiança para as previsões produzidas pelo segundo modelo seriam, portanto, cerca de 2% mais estreitos do que os do primeiro modelo, em média, não o suficiente para notar em um gráfico. Você deve se perguntar: vale a pena aumentar a complexidade do modelo?

Um aumento no R ao quadrado de 75% para 80% reduziria o desvio padrão do erro em cerca de 10% em termos relativos. Isso começa a subir ao nível de uma redução perceptível na largura dos intervalos de confiança. Mas não se esqueça, os intervalos de confiança são guias realistas para a precisão das previsões apenas se as suposições do modelo e # 8217s estiverem corretas. Ao adicionar mais variáveis ​​a um modelo, você precisa pensar sobre as suposições de causa e efeito que implicitamente as acompanham e também deve observar como sua adição altera os coeficientes estimados de outras variáveis. Eles se tornam mais fáceis de explicar ou mais difíceis? E as estatísticas e gráficos residuais indicam que as suposições do modelo e # 8217s estão corretas? Se eles não forem, você não deve ficar obcecado por pequenas melhorias no R ao quadrado. Seus problemas estão em outro lugar.

Outra regra prática: para valores pequenos (R ao quadrado menor que 25%), a porcentagem de desvio padrão explicada é aproximadamente a metade da porcentagem de variância explicada. Assim, por exemplo, um modelo com um R-quadrado de 10% produz erros que são 5% menores do que aqueles de um modelo apenas constante, em média.

Qual é o tamanho de um R ao quadrado & # 8220 grande o suficiente & # 8221, ou motivo para celebração ou desespero? Isso depende da situação de tomada de decisão, e depende de seus objetivos ou necessidades, e depende de como a variável dependente é definida. Em algumas situações, pode ser razoável esperar e esperar explicar 99% da variância ou, de forma equivalente, 90% do desvio padrão da variável dependente. Em outros casos, você pode considerar que está indo muito bem se explicar 10% da variância, ou o equivalente a 5% do desvio padrão, ou talvez até menos. A seção a seguir fornece um exemplo que destaca esses problemas. Se você quiser pular o exemplo e ir direto para os comentários finais, clique aqui.

Um exemplo em que R-quadrado é um guia pobre para análise: Considere a série de vendas mensais de automóveis nos EUA que foi usada para ilustração no primeiro capítulo destas notas, cujo gráfico é reproduzido aqui:

As unidades são $ bilhões e o intervalo de datas mostrado aqui vai de janeiro de 1970 a fevereiro de 1996. Suponha que o objetivo da análise seja prever as vendas mensais de automóveis a partir da renda pessoal total mensal. Estou usando essas variáveis ​​(e esse intervalo de datas antiquado) por dois motivos: (i) este exemplo (bobo) foi usado para ilustrar os benefícios da análise de regressão em um livro que eu estava usando naquela época, e (ii) eu vi muitos alunos realizarem projetos de previsão autodesenvolvidos nos quais eles ajustaram cegamente modelos de regressão usando indicadores macroeconômicos, como renda pessoal, produto interno bruto, desemprego e preços de ações como preditores de quase tudo, a lógica é que eles refletem o estado geral da economia e, portanto, têm implicações para todo tipo de atividade empresarial. Talvez sim, mas a questão é se eles fazem isso em um linear, aditivo moda que se destaca contra o ruído de fundo na variável que deve ser prevista, e se eles explicam adequadamente os padrões de tempo nos dados, e se eles geram útil previsões e inferências em comparação com outras maneiras pelas quais você pode escolher gastar seu tempo. Voltar ao topo da página.

O gráfico correspondente de renda pessoal (também em US $ bilhões) tem a seguinte aparência:

Não há sazonalidade nos dados de renda. Na verdade, quase não há padrão nele, exceto por uma tendência que aumentou ligeiramente nos anos anteriores. (Este não é um bom sinal se esperamos obter previsões com alguma especificidade.) Em comparação, o padrão sazonal é a característica mais marcante nas vendas de automóveis, então a primeira coisa que precisa ser feita é ajustar sazonalmente o último. As vendas de automóveis ajustadas sazonalmente (obtidas independentemente da mesma fonte governamental) e a renda pessoal alinham-se assim quando representadas no mesmo gráfico:

As tendências fortes e geralmente semelhantes sugerem que obteremos um valor muito alto de R ao quadrado se regredirmos as vendas com base na receita, e de fato o fazemos. Aqui está a tabela de resumo para essa regressão:

O R-quadrado ajustado é quase 97%! No entanto, um resultado como este é esperado ao se regredir uma série de tendência forte em qualquer outra série de tendência forte, independentemente de estarem logicamente relacionados. Aqui estão o gráfico de ajuste de linha e o gráfico de resíduos x tempo para o modelo:

O gráfico residual x tempo indica que o modelo tem alguns problemas terríveis. Primeiro, é muito forte autocorrelação positiva nos erros, ou seja, uma tendência de cometer o mesmo erro muitas vezes consecutivas. Na verdade, a autocorrelação lag-1 é 0,77 para este modelo. É claro por que isso acontece: as duas curvas não têm exatamente a mesma forma. A tendência na série de vendas de automóveis tende a variar ao longo do tempo, enquanto a tendência na receita é muito mais consistente, de modo que as duas variações ficam fora de sincronia uma com a outra. Isso é típico de dados de série temporal não estacionários. Segundo, os maiores erros do modelo ocorreram nos anos mais recentes e especialmente nos últimos meses (no & # 8220 business end & # 8221 dos dados, como gosto de dizer), o que significa que devemos esperar que os próximos erros também sejam enormes, dada a forte correlação positiva entre erros consecutivos. E, finalmente, a variância local dos erros aumenta de forma constante ao longo do tempo. A razão para isso é que as variações aleatórias nas vendas de automóveis (como a maioria das outras medidas de atividade macroeconômica) tendem a ser consistentes ao longo do tempo em percentagem termos, em vez de termos absolutos, e o nível absoluto da série aumentou dramaticamente devido a uma combinação de crescimento inflacionário e crescimento real. À medida que o nível aumenta, a variância das flutuações aleatórias também aumenta. Intervalos de confiança para previsões no futuro próximo serão, portanto, muito estreitos, sendo baseados em tamanhos de erro médios ao longo de todo o histórico da série. Portanto, apesar do alto valor de R ao quadrado, este é um muito modelo ruim. Voltar ao topo da página.

Uma maneira de tentar melhorar o modelo seria esvaziar ambas as séries primeiro. Isso, pelo menos, eliminaria o componente inflacionário do crescimento, o que, esperançosamente, tornará a variância dos erros mais consistente ao longo do tempo. Aqui está um gráfico de série temporal mostrando vendas de automóveis e renda pessoal após terem sido deflacionados, dividindo-os pelo índice de preços ao consumidor (IPC) de todos os produtos dos EUA em cada ponto no tempo, com o IPC normalizado para um valor de 1,0 em fevereiro de 1996 (a última linha dos dados). Isso de fato acalma um pouco a tendência e também traz alguns pequenos detalhes nas variações de mês a mês que não eram tão aparentes no gráfico original. Em particular, começamos a ver alguns pequenos solavancos e oscilações nos dados de receita que quase se alinham com maiores solavancos e oscilações nos dados de vendas de automóveis.

Se ajustarmos um modelo de regressão simples a essas duas variáveis, os seguintes resultados serão obtidos:

O R-quadrado ajustado é de apenas 0,788 para este modelo, o que é pior, certo? Bem não. Nós & # 8220explicamos & # 8221 algumas das variações nos dados originais, esvaziando-os antes de ajustar este modelo. Como as variáveis ​​dependentes não são as mesmas, não é apropriado fazer uma comparação direta de R ao quadrado. Provavelmente este é um modelo melhor, porque separa o crescimento real das vendas do crescimento inflacionário e também porque os erros têm uma variação mais consistente ao longo do tempo. (O último problema não é o resultado final, mas é um passo na direção de corrigir as suposições do modelo.) O mais interessante é que os dados de renda deflacionados mostram alguns pequenos detalhes que correspondem a padrões semelhantes nos dados de vendas. No entanto, a variância do erro ainda está muito longe de ser constante nas duas décadas e meia completas, e os problemas de erros mal autocorrelacionados e um ajuste particularmente ruim para os dados mais recentes não foram resolvidos.

Outra estatística que podemos ficar tentados a comparar entre esses dois modelos é o erro padrão da regressão, que normalmente é a melhor estatística de resultado final para focar. O erro padrão do segundo modelo & # 8217s é muito maior: 3,253 vs. 2,218 para o primeiro modelo. Mas espere & # 8230, esses dois números também não podem ser comparados diretamente, porque eles não são medidos nas mesmas unidades. O erro padrão do primeiro modelo é medido em unidades de dólar atuals, enquanto o erro padrão do segundo modelo é medido em unidades de dólar de 1996s. Essas foram décadas de alta inflação, e os dólares de 1996 não valiam tanto quanto os dólares valiam nos anos anteriores. (Na verdade, um dólar de 1996 valia apenas cerca de um quarto de um dólar de 1970.) Voltar ao início da página.

Os coeficientes de inclinação nos dois modelos também são de interesse. Como as unidades das variáveis ​​dependentes e independentes são as mesmas em cada modelo (dólares atuais no primeiro modelo, dólares de 1996 no segundo modelo), o coeficiente de inclinação pode ser interpretado como o aumento previsto em dólares gastos em automóveis por dólar de aumento na receita. Os coeficientes de inclinação nos dois modelos são quase idênticos: 0,086 e 0,087, o que implica que, na margem, 8,6% a 8,7% da receita adicional é gasta em automóveis.

Vamos agora tentar algo totalmente diferente: ajustar um modelo de série temporal simples aos dados deflacionados. Em particular, vamos & # 8217s caber um modelo random-walk-with-drift, que é logicamente equivalente a ajustar um modelo apenas constante à primeira diferença (mudança de período para período) na série original. Deixe a série diferenciada ser chamada de AUTOSALES_SADJ_1996_DOLLARS_DIFF1 (que é o nome que seria atribuído automaticamente em RegressIt). Observe que agora estamos com 3 níveis de profundidade nas transformações de dados: ajuste sazonal, deflação e diferenciação! Esse tipo de situação é muito comum na análise de séries temporais. Aqui estão os resultados do ajuste deste modelo, em que AUTOSALES_SADJ_1996_DOLLARS_DIFF1 são as variáveis ​​dependentes e não há variáveis ​​independentes, apenas a constante. Este modelo apenas prevê que cada diferença mensal será a mesma, ou seja, prevê um crescimento constante em relação ao valor do mês anterior.

O R-quadrado ajustado caiu para zero! Isso não é um problema: uma regressão apenas constante sempre tem um R-quadrado de zero, mas isso não implica necessariamente que não seja um bom modelo para a variável dependente particular que foi usada. Em vez disso, devemos olhar para o erro padrão da regressão. As unidades e a amostra da variável dependente são as mesmas para este modelo e para o anterior, de modo que seus erros padrão de regressão podem ser comparados legitimamente. (O tamanho da amostra para o segundo modelo é na verdade 1 menor que o do primeiro modelo devido à falta de valor de período zero para calcular uma diferença de período 1, mas isso é insignificante em um conjunto de dados tão grande.) O padrão de regressão o erro deste modelo é de apenas 2,111, em comparação com 3,253 do anterior, uma redução de cerca de um terço, o que é uma melhoria muito significativa. (O gráfico residual x tempo para este modelo e o anterior têm a mesma escala vertical: observe os dois e compare o tamanho dos erros, especialmente aqueles que ocorreram recentemente.) A razão pela qual as previsões deste modelo e # 8217s são muito mais preciso é que olha para valores de vendas reais do mês passado e # 8217s, enquanto o modelo anterior analisava apenas dados de renda pessoal. Frequentemente, a melhor informação sobre para onde uma série temporal irá em seguida é onde ela esteve recentemente.

Não há gráfico de ajuste de linha para este modelo, porque não há variável independente, mas aqui está o gráfico residual versus tempo:

Esses resíduos parecem bastante aleatórios a olho nu, mas eles realmente exibem autocorrelação negativa, ou seja, uma tendência de alternar entre superpredição e subpredição de um mês para o outro. (A autocorrelação lag-1 aqui é -0,356.) Isso geralmente acontece quando dados diferenciados são usados, mas no geral os erros desse modelo estão muito mais próximos de serem distribuídos de forma independente e idêntica do que os dos dois anteriores, então podemos ter uma boa dar mais confiança em quaisquer intervalos de confiança para previsões que podem ser calculadas a partir dele. É claro que esse modelo não esclarece a relação entre renda pessoal e vendas de automóveis.

Então, qual é a relação entre vendas de automóveis e renda pessoal? Essa é uma questão complexa e não será mais abordada aqui, exceto para observar que existem algumas outras coisas simples que poderíamos fazer além de ajustar um modelo de regressão. Por exemplo, poderíamos calcular a porcentagem da receita gasta em automóveis ao longo do tempo, ou seja, basta dividir a série de vendas de automóveis pela série de renda pessoal e ver como é o padrão. Aqui está a imagem resultante:

Este gráfico ilustra bem as variações cíclicas na fração da receita gasta em automóveis, o que seria interessante tentar fazer a correspondência com outras variáveis ​​explicativas. O intervalo é de cerca de 7% a cerca de 10%, o que geralmente é consistente com os coeficientes de inclinação que foram obtidos nos dois modelos de regressão (8,6% e 8,7%). No entanto, este gráfico enfatiza novamente o que foi visto nos gráficos residual versus tempo para os modelos de regressão simples: a fração da renda gasta em automóveis não é consistente ao longo do tempo. Em particular, observe que a fração estava aumentando no final da amostra, ultrapassando 10% no último mês.

O ponto principal aqui é que R-quadrado não foi útil para nos guiar através desta análise particular em direção a modelos cada vez melhores. De fato, entre os modelos considerados acima, o pior teve R-quadrado de 97% e o melhor teve R-quadrado de zero. Em vários estágios da análise, foram sugeridas transformações de dados: ajuste sazonal, deflação, diferenciação. (O log não foi tentado aqui, mas teria sido uma alternativa à deflação.) E toda vez que a variável dependente é transformada, torna-se impossível fazer comparações antes e depois significativas de R ao quadrado. Além disso, a regressão provavelmente nem foi a melhor ferramenta a ser usada aqui para estudar a relação entre as duas variáveis. Não é uma & # 8220 chave inglesa & # 8221 que deve ser usada em todos os problemas. Voltar ao topo da página.

Então, qual é um bom valor para R ao quadrado? Depende da variável com relação à qual você a mede, depende das unidades em que essa variável é medida e se alguma transformação de dados foi aplicada, e depende do contexto de tomada de decisão. Se a variável dependente for uma série temporal não estacionária (por exemplo, tendência ou passeio aleatório), um valor de R ao quadrado muito próximo de 1 (como o valor de 97% obtido no primeiro modelo acima) pode não ser muito impressionante. Na verdade, se R-quadrado for muito próximo de 1 e os dados consistirem em séries temporais, isso geralmente é um mau sinal, e não um bom sinal: frequentemente haverá padrões de tempo significativos nos erros, como no exemplo acima. Por outro lado, se a variável dependente é um propriamente estacionarizado série (por exemplo, diferenças ou diferenças percentuais em vez de níveis), então um R-quadrado de 25% pode ser muito bom. Na verdade, um R-quadrado de 10% ou até menos poderia ter algum valor de informação quando você estiver procurando por um sinal fraco na presença de muito ruído em um ambiente onde até mesmo um muito fraco seria de interesse geral. Às vezes, há muito valor em explicar apenas uma fração muito pequena da variância, e às vezes não. Transformações de dados, como registro ou deflação, também mudam a interpretação e os padrões para R-quadrado, visto que mudam a variância com a qual você começa.

No entanto, tenha muito cuidado ao avaliar um modelo com um valor baixo de R ao quadrado. Em tal situação: (i) é melhor se o conjunto de variáveis ​​no modelo é determinado a priori (como no caso de um experimento projetado ou um teste de uma hipótese bem formulada), em vez de pesquisar entre uma lista de aleatoriamente suspeitos selecionados (ii) os dados devem ser limpos (não contaminados por outliers, medições inconsistentes ou ambigüidades no que está sendo medido, como no caso de pesquisas mal formuladas dadas a indivíduos desmotivados) (iii) as estimativas de coeficiente devem ser individualmente ou pelo menos em conjunto significativamente diferente de zero (conforme medido por seus valores P e / ou o valor P da estatística F), o que pode exigir uma grande amostra para obter na presença de correlações baixas e (iv) é um bom ideia de fazer validação cruzada (teste fora da amostra) para ver se o modelo tem um desempenho quase igualmente bom em dados que não foram usados ​​para identificá-lo ou estimá-lo, particularmente quando a estrutura do modelo não era conhecida a priori. É fácil encontrar correlações espúrias (acidentais) se você sair em uma expedição de pesca em um grande grupo de variáveis ​​independentes candidatas enquanto usa padrões baixos de aceitação. Frequentemente, os alunos usam essa abordagem para tentar prever os retornos das ações usando modelos de regressão - o que eu não recomendo - e não é incomum para eles encontrarem modelos que produzem valores de R ao quadrado na faixa de 5% a 10 %, mas eles virtualmente nunca sobrevivem a testes fora da amostra. (Você deve comprar fundos de índice em vez disso.)

Existem várias maneiras de fazer a validação cruzada de um modelo. Uma discussão sobre alguns deles pode ser encontrada aqui. Se o seu software não oferecer essas opções, existem testes simples que você pode realizar por conta própria. Uma é dividir o conjunto de dados pela metade e ajustar o modelo separadamente às duas metades para ver se você obtém resultados semelhantes em termos de estimativas de coeficiente e R-quadrado ajustado.

Ao trabalhar com dados de série temporal, se você comparar o desvio padrão dos erros de um modelo de regressão que usa preditores exógenos com aquele de um modelo de série temporal simples (digamos, um modelo de suavização auto-regressiva ou exponencial ou passeio aleatório), você pode ficar desapontado com o que encontrar. Se a variável a ser prevista for uma série temporal, muitas vezes acontecerá que a maior parte do poder preditivo seja derivado de sua própria história por meio de defasagens, diferenças e / ou ajuste sazonal. Esta é a razão pela qual passamos algum tempo estudando as propriedades dos modelos de séries temporais antes de abordar os modelos de regressão.

Uma regra para pequenos valores de R ao quadrado : Se R-quadrado for pequeno (digamos 25% ou menos), então a fração pela qual o desvio padrão dos erros é menor do que o desvio padrão da variável dependente é aproximadamente metade de R ao quadrado, conforme mostrado na tabela acima. Então, por exemplo, se seu modelo tem um R-quadrado de 10%, então seus erros são apenas 5% menores em média do que aqueles de um modelo apenas constante, que meramente prevê que tudo será igual à média. Isso é o suficiente para ser útil ou não? Outro ponto de referência útil: se o modelo tem um R-quadrado de 75%, seus erros são 50% menores em média do que os de um modelo apenas constante. (Isso não é uma aproximação: resulta diretamente do fato de que reduzir o desvio padrão do erro para & frac12 de seu valor anterior é equivalente a reduzir sua variância para & frac14 de seu valor anterior.)

Em geral, você deve olhe para R ao quadrado ajustado em vez de R ao quadrado. R-quadrado ajustado é um imparcial estimativa da fração de variância explicada, levando em consideração o tamanho da amostra e o número de variáveis. Normalmente o R-quadrado ajustado é apenas ligeiramente menor do que o R-quadrado, mas é possível que o R-quadrado ajustado seja zero ou negativo se um modelo com variáveis ​​insuficientemente informativas for ajustado para uma amostra muito pequena de dados.

Que medida do poder explicativo do seu modelo você deve relatar ao seu chefe, cliente ou instrutor? Se você usou a análise de regressão, para ser perfeitamente sincero, é claro que você deve incluir o R-quadrado ajustado para o modelo de regressão que foi realmente ajustado (seja para os dados originais ou alguma transformação dos mesmos), junto com outros detalhes da saída, em algum lugar em seu relatório. Você deve enfatizar mais fortemente o erro padrão da regressão, no entanto, porque isso mede a precisão preditiva do modelo em termos reais e dimensiona a largura de todos os intervalos de confiança calculados a partir do modelo. Você também pode relatar outras medidas práticas do tamanho do erro, como o erro médio absoluto ou erro percentual médio absoluto e / ou erro médio absoluto escalado.

O que nunca deveria acontecer com você: Nunca se deixe cair na armadilha de ajustar (e então promover!) Um modelo de regressão que tem um R ao quadrado de aparência respeitável, mas na verdade é muito inferior a um modelo de série temporal simples. Se a variável dependente em seu modelo for uma série temporal não estacionária, certifique-se de fazer uma comparação das medidas de erro em relação a um modelo de série temporal apropriado. Lembre-se de que o que R-quadrado mede é a redução proporcional na variância do erro que o modelo de regressão atinge em comparação com um modelo apenas constante (ou seja, modelo médio) ajustado à mesma variável dependente, mas o modelo apenas constante pode não ser o ponto de referência mais apropriado, e a variável dependente que você acaba usando pode não ser aquela com a qual você começou, se as transformações de dados se tornarem importantes.

E finalmente: R-quadrado não é o resultado final . Você não é pago na proporção de R ao quadrado. O resultado final real da sua análise é medido pelas consequências das decisões que você e outras pessoas tomarão com base nisso. Em geral, os critérios importantes para um bom modelo de regressão são (a) cometer os menores erros possíveis, em termos práticos, ao prever o que vai acontecer no futuro, e (b) para derivar inferências úteis da estrutura do modelo e os valores estimados de seus parâmetros. Voltar ao topo da página.


Quantificação de frações solúveis ou insolúveis de Leishmania Proteínas Parasitárias em Aplicações de Microvolume: Uma Simplificação para o Ensaio Lowry Padrão

A quantificação de proteínas é frequentemente uma etapa essencial em qualquer campo de pesquisa que envolva proteínas. Embora o ensaio Lowry padrão e suas modificações sejam mais abundantemente usados ​​na quantificação de proteínas, os métodos existentes são rígidos ou frequentemente demonstram não linearidade entre a concentração de proteína e a intensidade da cor. Um método para a determinação qualitativa e / ou quantitativa rápida e precisa de proteínas solúveis / insolúveis totais ou proteínas imobilizadas em placas de micro-poços isoladas de Leishmania parasitas em microvolumes foi descrito no presente estudo. Melhorias nas técnicas econômicas são necessárias para aumentar os resultados da pesquisa em ambientes com recursos limitados. Este método é uma modificação do ensaio de Lowry estabelecido para quantificação de proteínas. As concentrações de amostras desconhecidas foram calculadas usando uma curva padrão preparada usando uma série padrão de albumina de soro bovino (BSA). Os reagentes otimizados foram 2 N NaOH (hidróxido de sódio), 2% Na2CO3 (carbonato de sódio), CuSO a 1%4 (sulfato de cobre), 2% KNaC4H4O6 (tartarato de sódio e potássio) e 2 N de Folin e fenol de Ciocalteu. Este ensaio de proteína modificada foi sensível para quantificar Leishmania proteínas em um extrato bruto total ou em uma fração solúvel dentro da faixa aproximada de 10-500 µg / ml (1-50 µg / ensaio) e mostrou uma linearidade entre a intensidade da cor e a concentração da proteína. Este é um método mais fácil, rápido e preciso para quantificar proteínas com microvolumes de uma maneira econômica para uso rotineiro em laboratórios de pesquisa em ambientes com recursos limitados.

1. Introdução

A leishmaniose é uma doença parasitária transmitida por vetores com ampla distribuição geográfica no mundo. A doença é causada por protozoários parasitas do gênero Leishmania [1]. O manejo da doença é desafiador devido aos sintomas não patognomônicos e à toxicidade significativa dos tratamentos. Portanto, é necessário um melhor manejo do paciente com uma distribuição mais ampla dos casos. Em tais situações, a maioria dos cientistas pesquisadores está trabalhando no desenvolvimento de ferramentas ou biomarcadores com base em Leishmania antígenos protéicos para diagnóstico de doenças, prognóstico ou aplicações terapêuticas onde preparações de antígenos parasitas estão envolvidas e a quantificação de proteínas é necessária [2–4].

A quantificação de proteínas também é necessária em outras aplicações clínicas ou de pesquisa diferentes. Portanto, muitos pesquisadores e instituições comerciais estabeleceram diferentes ensaios de proteínas para quantificação de proteínas. A adequação do método depende do tempo do procedimento, exigindo quantidade de uma amostra de proteína, precisão, reprodutibilidade e custo.

Entre os ensaios de proteína mais comuns relatados até o momento, o ensaio de proteína Lowry [5] e o ensaio de Biureto [6] são os dois métodos estabelecidos e mais antigos amplamente usados ​​para quantificação de proteínas. Em 1972, o ensaio de Lowry foi modificado para produzir uma cor mais elevada com uma relação linear entre a concentração da amostra e a intensidade da cor [7]. Depois de 1972, o ensaio de proteína Lowry padrão foi modificado várias vezes por diferentes grupos de pesquisa. Eles aumentaram a precisão da quantificação de proteínas na presença de produtos químicos interferentes, melhoraram o protocolo para a rápida recuperação quantitativa de proteínas solúveis e de membrana de substâncias interferentes, adaptado para uso com placas de microtitulação de 96 poços e um espectrofotômetro de microplaca automático e densidade óptica aprimorada que atinge um máximo e permanece constante por um período suficiente [8-11].

Também em 1976, Bradford et al. descreveram um novo método para quantificação de proteínas, fornecendo um reagente que compreende o corante Coomassie Brilliant Blue. Mas é adversamente afetado pela presença de detergentes na amostra ou ampla variação de proteína para proteína [12, 13]. Existem vários ensaios de proteínas descritos por diferentes grupos de pesquisa posteriormente. Esses incluíram um ensaio usando um reagente de corante Coomassie Brilliant Blue G250 em ácido perclórico ou clorídrico, um ensaio usando a reação de proteína com cobre alcalino com ácido bicinconínico (BCA), um ensaio que pode ser usado com um elemento analítico seco de multicamadas, a ensaio modificado do protocolo de BCA com a utilização de um forno de micro-ondas para irradiar amostras e um processo para proteínas imobilizadas em fase sólida total ou micropartículas [14-18].

Recentemente, métodos mais avançados de quantificação de peptídeos e / ou proteínas foram desenvolvidos para uso em espectrometria de massa e para quantificação eletroquímica de proteínas em aplicações médicas [19, 20]. Além disso, existem várias marcas comerciais para ensaios de proteínas que foram desenvolvidas por fornecedores comerciais bem estabelecidos [21-23].

No estudo atual, descrevemos uma modificação econômica e altamente precisa para o ensaio de Lowry padrão para quantificar a proteína solúvel total e a proteína bruta extraída de Leishmania parasitas com um tempo mínimo de ensaio. O ensaio é útil em ambientes com recursos limitados.

2. Materiais e métodos

2.1. Instrumentação, Materiais e Reagentes

As medições de absorvância foram obtidas por espectrofotômetro Shimadzu UV 1601 UV / visível (Shimadzu Corporation, Kyoto, Japão), leitor de microplacas Multiskan EX da Thermo electron corporation e espectrofotômetro de microplacas Epoch 2 (instrumentos BioTek). Micropipetas (0–20 µl, 20–200 µl, e 100-1000 µl micropipetas Nichipet EXII da Nichiryo), placas de micropoços (96 poços) (Sterilin, Tentorio, Itália) e os reagentes necessários para a cultura de células [penicilina-estreptomicina (Penstrep), soro fetal bovino inativado por calor (HI-FBS), meio 199 sais balanceados de Hank (M199)] (Gibco Life Technologies, Grand Island, EUA). Todos os outros produtos químicos e reagentes, incluindo fosfato de sódio dibásico (Na2HPO4), fosfato de sódio monobásico (NaH2PO4), cloreto de sódio (NaCl), cloreto de potássio (KCl), fosfato de potássio monobásico (KH2PO4), carbonato de sódio (Na2CO3), sulfato de cobre (CuSO4), tartarato de sódio e potássio (KNaC4H4O6), hidróxido de sódio (NaOH), reagente de fenol de Folin e Ciocalteu, albumina de soro bovino (BSA / fração V), eram da Sigma-Aldrich (agora conhecida como Merck, Saint Louis, Missouri, EUA).

2.2. Preparação de Padrões

BSA foi usado como padrão de referência. As amostras padrão BSA foram preparadas com o mesmo reagente usado para as amostras desconhecidas [por exemplo, água desionizada, 1XPBS (solução salina tamponada com fosfato 1X), tampão de lise com detergente (por exemplo, triton X-100 a 1%) ou tampão de lise sem detergente ] Neste estudo, a concentração da solução estoque de BSA foi de 1 mg / ml, que foi obtida pela dissolução de 1 mg de BSA no total de 1 ml de água desionizada.

2.3. Protocolo para ensaio de Lowry realizado em uma placa de micropoço

Uma série de diluição de BSA (10 a 500 µg / ml de BSA) e amostra desconhecida (100 µl) foram adicionados a poços separados e misturados com 20 µ1 de NaOH (2 N) em um agitador de placas por 10 minutos. Um volume de 100 µl da mistura de reagentes A (2% Na2CO3, 1% CuSO4, e 2% KNaC4H4O6 na proporção de 100: 1: 1) foi adicionado a cada poço e bem misturado durante 5 minutos seguido de incubação à temperatura ambiente durante 10 minutos. Reagente de fenol de Folin e Ciocalteu (2 N, 20 µl) foi adicionado, bem misturado imediatamente e incubado à temperatura ambiente no escuro durante 30 minutos. A absorvância foi lida a 650 nm usando um leitor de microplaca.

2.4. Validação de método e análise de dados

A validação do método foi realizada de acordo com as diretrizes para validação de método bioanalítico distribuídas pela Food and Drug Administration (FDA), EUA [24]. A seletividade do ensaio foi avaliada avaliando os efeitos da matriz. Consequentemente, o paralelismo de padrões BSA diluídos foi avaliado e a curva padrão foi analisada. A ligação não específica foi determinada usando uma matriz em branco (sem analito). O valor de absorvância medido para a matriz em branco foi reduzido dos valores de absorvância medidos para cada matriz com analito (padrões BSA), evitando assim qualquer interferência proveniente da matriz e aumentando a seletividade do ensaio. A repetibilidade do ensaio foi determinada usando dez determinações para cada concentração e, assim, determinou a precisão do ensaio. Seis concentrações diferentes de padrões BSA (10, 30, 100, 150, 300 e 500 µg / ml) foram realizados e M (média), SD (desvio padrão), M + 2SD (limite superior), M-2SD (limite inferior) e CV (coeficiente de variação) foram calculados. A precisão ou repetibilidade intrabatch (dentro da execução) e interbatch (entre as execuções) foram ainda determinadas usando dez determinações em seis concentrações diferentes de BSA, conforme descrito acima, executando no mesmo dia na mesma placa e executando em 20 dias diferentes, respectivamente. Se o valor de absorvância para qualquer concentração de BSA em qualquer ocasião foi observado fora dos limites aceitos (entre M + 2SD e M-2SD), os valores foram rejeitados e o ensaio foi repetido. A precisão interbatch também foi medida em relação ao tempo diferente (20 dias diferentes), equipamento diferente (usando leitor de microplaca Multiskan EX da Thermo electron corporation e espectrofotômetro de microplaca Epoch 2 da BioTek Instruments) e diferentes reagentes (cinco lotes diferentes de reagentes de estoque preparados) e em dois laboratórios diferentes. O limite inferior de quantificação (LLOQ) foi estabelecido usando as seis menores concentrações selecionadas de BSA (5, 10, 30, 60, 80, 100 µg / ml) com dez determinações para cada concentração. O limite superior de quantificação (ULOQ) foi definido usando o padrão mais alto com reprodutível, alta precisão e alta exatidão. A linearidade do ensaio foi determinada usando a curva padrão criada com seis concentrações diferentes de BSA, incluindo LLOQ, concentrações baixas, médias e altas em duplicata em cada execução. SD0 (interceptação da curva padrão na concentração zero) foi usado para avaliar o limite de detecção (LOD) e o limite de quantificação (LOQ) do ensaio. Os valores de 3 × SD0 e 10 × SD0 foram calculados como LOD e LOQ, respectivamente [25]. A estabilidade química das soluções estoque e o padrão foram posteriormente determinados para avaliar a estabilidade do novo ensaio [24]. O ensaio validado foi posteriormente analisado para uma amostra de proteína BSA com concentração desconhecida e comparado com o ensaio Lowry padrão descrito abaixo, que foi realizado em grande escala e já estabelecido no laboratório doméstico [5, 7].

2,5. Protocolo para ensaio Lowry padrão realizado em tubos de microcentrífuga

Uma série de diluição de BSA (10 a 500 µg / ml de BSA) e amostra desconhecida (100 µl) foram adicionados a tubos de microcentrífuga separadamente e bem misturados com 100 µ1 de NaOH (2 N). A mistura foi incubada a 100 ° C durante 10 minutos seguido por arrefecimento à temperatura ambiente. Um volume de 1 ml de mistura de reagentes A (2% Na2CO3, 1% CuSO4, e 2% KNaC4H4O6 na proporção de 100: 1: 1) foi adicionado a cada tubo e bem misturado. Os tubos foram incubados durante 10 minutos à temperatura ambiente. Reagente de fenol de Folin e Ciocalteu (2 N, 100 µl) foi adicionado, bem misturado imediatamente e incubado à temperatura ambiente no escuro durante 30 minutos. O volume final da mistura reagente foi de 1300 µl em cada tubo. A absorvância foi lida a 750 nm usando um espectrofotômetro de UV.

2.6. Quantificação de proteínas do parasita Leishmania usando o novo ensaio

Leishmania promastigotas foram cultivadas em meio M199 completo suplementado com 10% de HI-FBS e 0,1% de Penstrep [26]. Os parasitas na fase log tardia com uma densidade média de cerca de 1 × 10 7 células / ml foram colhidos e os pellets foram armazenados a -20 ° C até o uso. Bruto Lisado de leishmania foi extraído dos promastigotas colhidos de Leishmania usando o método de congelamento-descongelamento [27]. O sedimento foi lavado quatro vezes em PBS 0,01 M frio, pH 7,4, e ressuspenso a uma concentração de 1,0 g de sedimento celular em 2,0 ml de PBS 0,01 M frio, pH 7,4. Posteriormente, a suspensão foi congelada-descongelada (congelamento por 30 segundos em nitrogênio líquido e descongelamento em temperatura ambiente) por três vezes. A suspensão continha o lisado bruto total e foi posteriormente centrifugada a 10.000 g durante 10 minutos e o sobrenadante contendo a fração solúvel do lisado bruto foi separado. Teores de proteína do lisado bruto extraído e fração solúvel de Leishmania O lisado bruto foi estimado usando o ensaio validado de micro-Lowry (usamos água desionizada para preparar os padrões de BSA, uma vez que apenas 2–5 µ1 de amostra desconhecida / antígeno bruto foi suficiente para quantificação e foi preparado para 100 µl usando água desionizada).

2.7. Monitoramento da eficiência de diferentes tampões para revestimento de antígeno em placas de micropoços usando o novo ensaio

Três diferentes tampões de revestimento de antígeno em ensaio de imunoabsorção enzimática (ELISA) foram analisados ​​para selecionar o melhor tampão de revestimento para aplicações subsequentes de Leishmania antígeno usando ELISA. A ligação de uma proteína à superfície de poliestireno da placa de micropoços é geralmente feita por interações hidrofóbicas que acontecem em tampões básicos, neutros e ácidos. PBS (1X, pH 7,4), tampão de fosfato (0,02 M, pH 7,8) e tampão de carbonato (0,05 M, pH 9,6) foram usados ​​como tampões de revestimento para o estudo, uma vez que foram amplamente utilizados por outros pesquisadores trabalhando em Leishmania [28–30]. Leishmania a preparação e quantificação do antígeno foram feitas conforme descrito acima. Quantidade igual de antígeno (3 µg / poço) foi usado para revestir os poços. Dez repetições foram realizadas para cada tampão de revestimento. O antígeno foi adicionado a cada poço (3 µg / 100 µl / poço) e incubados durante a noite no refrigerador +4 ° C. Após a incubação durante a noite, os poços foram lavados três vezes com PBS (1X, pH 7,4) para remover os materiais não ligados e a placa foi usada para o ensaio de quantificação de proteína. O ensaio de proteína descrito foi realizado para poços revestidos com antígeno. Uma série padrão de diluições de BSA foi realizada dentro da mesma placa paralela aos poços revestidos como descrito acima. M, SD e CV foram calculados e analisados ​​para dez repetições realizadas com três tampões de revestimento e o melhor tampão de revestimento com o mais alto desempenho foi selecionado para aplicações de ELISA subsequentes de Leishmania antígeno.

3. Resultados

O novo ensaio mostrou uma alta seletividade para o analito medido. De acordo com a curva padrão construída usando os resultados obtidos para a série de diluições de BSA (10 a 500 µg / ml), as duas variáveis ​​do ensaio, a concentração de BSA e o valor de absorbância a 650 nm, mostraram uma relação linear onde o coeficiente de correlação quadrado, R 2, foi de 0,999 (Figura 1).


Erros comuns para baixo valor de R no ensaio de Bradford - Biologia

Baixe um arquivo ZIP contendo todas as planilhas acima (em ambos os formatos).

Nota: para executar essas planilhas, você deve ter o Excel ou o OpenOffice Calc instalado. Eu recomendo o Excel 2013 ou o OpenOffice Versão 4 ( baixar do OpenOffice).

Fundo

Em química analítica, a medição quantitativa precisa da composição de amostras, por exemplo, por vários tipos de espectroscopia, geralmente requer que o método seja calibrado usando amostras padrão de composição conhecida. Isso é mais comumente, mas não necessariamente, feito com amostras de solução e padrões dissolvidos em um solvente adequado, devido à facilidade de preparação e diluição de misturas homogêneas e precisas de amostras e padrões na forma de solução. No método da curva de calibração, uma série de soluções padrão externas é preparada e medida. Uma linha ou curva é ajustada aos dados e a equação resultante é usada para converter as leituras das amostras desconhecidas em concentração. Uma vantagem desse método é que os erros aleatórios na preparação e leitura das soluções padrão são calculados em vários padrões. Além disso, a não linearidade na curva de calibração pode ser detectada e evitada (diluindo na faixa linear) ou compensada (usando métodos de ajuste de curva não linear). Existem planilhas aqui para vários métodos de calibração diferentes:

    Um ajuste de primeira ordem (linha reta) do sinal medido A (eixo y) vs concentração C (eixo x). A equação do modelo é A = inclinação * C + interceptação. Este é o método mais comum e direto e deve ser usado se você souber que a resposta do seu instrumento é linear. Este ajuste é realizado usando as equações descritas e listadas em http://terpconnect.umd.edu/

toh / spectrum / CurveFitting.html. Você precisa de no mínimo dois pontos na curva de calibração. A concentração de amostras desconhecidas é dada por (A - interceptação) / inclinação, onde A é o sinal medido e a inclinação e a interceptação do ajuste de primeira ordem. Se você gostaria de usar este método de calibração para seus próprios dados, baixe no formato Excel ou OpenOffice Calc.Visualize equações para mínimos quadrados lineares.

toh / spectrum / CurveFitting.html. Você precisa de no mínimo três pontos na curva de calibração.A concentração de amostras desconhecidas é calculada resolvendo esta equação para C usando a "fórmula quadrática" clássica, a saber C = (- b + SQRT (b 2 -4 * a * (c - A))) / (2 * a) , onde A = sinal medido e a, b e c são os três coeficientes do ajuste quadrático. Se você gostaria de usar este método de calibração para seus próprios dados, baixe no formato Excel ou OpenOffice Calc.Visualize equações para mínimos quadrados quadráticos. A versão alternativa CalibrationQuadraticB.xlsx calcula o desvio padrão da concentração (coluna eu) e desvio padrão relativo percentual (coluna M) usando o método bootstrap. Você precisa de pelo menos 5 padrões para que o cálculo do erro funcione. Se você receber um "#NUM!" ou # DIV / 0 "nas colunas eu ou M, basta pressionar o F9 chave para recalcular a planilha. Há também um invertido modelo quadrático e exemplo, que é análogo ao cúbico invertido (# 5 abaixo).

Instruções:

1. Baixe e abra a planilha de calibração desejada dentre as listadas acima.

2. Insira as concentrações dos padrões e suas leituras do instrumento (por exemplo, absorbância) na tabela azul à esquerda. Deixe o resto da tabela em branco. Você deve ter pelo menos dois pontos na curva de calibração (três pontos para o método quadrático ou quatro pontos para o método cúbico), incluindo o branco (padrão de concentração zero). Se você tiver várias leituras de instrumento para um padrão, é melhor inserir cada um como um padrão separado com a mesma concentração, em vez de inserir a média. A planilha automaticamente atribui mais peso aos padrões que possuem mais de uma leitura.

3. Insira as leituras do instrumento (por exemplo, absorbância) das incógnitas na tabela amarela à direita. Você pode ter qualquer número de incógnitas até 20. (Se você tiver várias leituras de instrumento para uma incógnita, é melhor inserir cada uma como uma incógnita separada, em vez de calcular a média, para que você possa ver quanta variação na concentração calculada é produzida por variação na leitura do instrumento).

4. As concentrações das incógnitas são calculadas automaticamente e exibidas na coluna K. Se você editar a curva de calibração, excluindo, alterando ou adicionando mais padrões de calibração, as concentrações são recalculadas automaticamente.

Para o ajuste linear (CalibrationLinear.xls), se você tiver três ou mais pontos de calibração, o desvio padrão estimado da inclinação e da interceptação será calculado e exibido nas células G36 e G37, e o desvio padrão resultante (SD) de cada concentração será exibido nas linhas L (SD absoluto) e M (SD percentual relativo). Esses cálculos de desvio padrão são estimativas da variabilidade de inclinações e interceptações que você provavelmente obterá se repetir a calibração várias vezes nas mesmas condições, assumindo que os desvios da linha reta são devidos a rvariabilidade de andom e erro não sistemático causado por não linearidade. Se os desvios forem aleatórios, eles serão ligeiramente diferentes de tempos em tempos, fazendo com que a inclinação e a interceptação variem de medição para medição. No entanto, se os desvios são causados ​​por não linearidade sistemática, eles serão iguais da medição para medição, caso em que essas previsões de desvio padrão não serão relevantes, e você ficaria melhor usando um ajuste .polinomial, como um quadrático ou cúbico. A confiabilidade dessas estimativas de desvio padrão também depende do número de pontos de dados no ajuste da curva que melhoram com a raiz quadrada do número de pontos.

5. Você pode remover qualquer ponto do ajuste da curva excluindo os valores X e Y correspondentes na tabela. Para excluir um valor, clique com o botão direito do mouse na célula e clique em "Excluir conteúdo" ou "Limpar conteúdo". A planilha é recalculada automaticamente e o gráfico é redesenhado; caso isso não aconteça, pressione F9 para recalcular. (Observação: a planilha de calibração cúbica deve ter pontos de calibração contíguos sem células em branco ou vazias na faixa de calibração).

6. A planilha de calibração linear também calcula o coeficiente de determinação, R 2, que é um indicador da "qualidade do ajuste", na célula C37. R 2 é 1,0000 quando o ajuste é perfeito, mas menor do que quando o ajuste é imperfeito. Quanto mais próximo de 1,0000, melhor.

7. Um "gráfico de resíduos" é exibido logo abaixo do gráfico de calibração (exceto para o método de interpolação). Isso mostra a diferença entre a curva de calibração de melhor ajuste e as leituras reais dos padrões. Quanto menores esses erros, mais de perto a curva se ajusta aos padrões de calibração. (O desvio padrão desses erros também é calculado e exibido abaixo do gráfico de resíduos, quanto menor esse desvio padrão, melhor).

Você pode dizer muito olhando para a forma do gráfico residual: se os pontos estão espalhados aleatoriamente acima e abaixo de zero, isso significa que o ajuste da curva é tão bom quanto pode ser dado o ruído aleatório nos dados. Mas se o gráfico residual tiver uma forma suave, digamos, uma curva em forma de U, isso significa que há uma incompatibilidade entre o ajuste da curva e a forma real da curva de calibração, sugerindo que as outras técnicas de ajuste de curva podem ser tentadas (digamos , um ajuste quadrático ou cúbico em vez de um linear) ou que as condições experimentais sejam modificadas para produzir uma forma de curva de calibração experimental menos complexa.

8. Se estiver usando a planilha para calibração corrigida pelo desvio, você deve medir duas curvas de calibração, uma antes e uma depois da execução das amostras, e registrar a data e hora em que cada curva de calibração é medida. Insira as concentrações dos padrões na coluna B. Insira as leituras dos instrumentos para a primeira (pré-) calibração na coluna C e a data / hora dessa calibração na célula C5 insira as leituras dos instrumentos para a pós-calibração na coluna D e a data / hora dessa calibração na célula D5. O formato para a entrada de data / hora é Mês-Dia-Ano Horas: Minutos: Segundos, por exemplo, 6-2-2011 13:30:00 para 2 de junho de 2011, 1:30 PM (13:30 no dia 24- relógio de horas). Nota: se ambas as calibrações forem executadas no mesmo dia, você pode ignorar a data e apenas inserir a hora. No gráfico, a curva de pré-calibração é mostrada em verde e a curva de pós-calibração é mostrada em vermelho. Em seguida, para cada amostra desconhecida medida, insira a data / hora (no mesmo formato) na coluna K e a leitura do instrumento para essa amostra desconhecida na coluna L. A planilha calcula as concentrações de amostra corrigidas pelo desvio na coluna M. Nota: A versão 2.1 desta planilha (julho de 2011) permite diferentes conjuntos de concentrações para as pré e pós-calibrações. Basta listar todas as concentrações usadas na coluna "Concentração de padrões" (B) e colocar as leituras do instrumento correspondentes nas colunas C ou D, ou ambas. Se você não usar uma concentração específica para uma das calibrações, apenas deixe a leitura do instrumento em branco.

Perguntas frequentes (retirado de consultas reais do mecanismo de pesquisa)

1. Pergunta: Qual é o propósito da curva de calibração?
Resposta: A maioria dos instrumentos analíticos gera um sinal de saída elétrica, como corrente ou voltagem. Uma curva de calibração estabelece a relação entre o sinal gerado por um instrumento de medição e a concentração da substância que está sendo medida. Diferentes compostos químicos e elementos fornecem sinais diferentes. Quando uma amostra desconhecida é medida, o sinal do desconhecido é convertido em concentração usando a curva de calibração.

2 Pergunta: Como você faz uma curva de calibração?
Resposta: Você prepara uma série de "soluções padrão" da substância que pretende medir, mede o sinal (por exemplo, absorvância, se estiver fazendo espectrofotometria de absorção) e plota a concentração no eixo xe o sinal medido para cada padrão no eixo y. Desenhe uma linha reta o mais próximo possível dos pontos na curva de calibração (ou uma curva suave se uma linha reta não couber), de modo que o maior número possível de pontos esteja na curva ou próximo a ela.

3 Pergunta: Como você usa uma curva de calibração para prever a concentração de uma amostra desconhecida? Como você determina a concentração de um gráfico de calibração não linear?
Resposta: Isso pode ser feito de duas maneiras, graficamente e matematicamente. Graficamente, desenhe uma linha horizontal do sinal da incógnita no eixo y até a curva de calibração e, em seguida, direto para o eixo da concentração (x) até a concentração da incógnita. Matematicamente, ajuste uma equação aos dados de calibração e resolva a equação para concentração como uma função do sinal. Então, para cada incógnita, basta inserir seu sinal nesta equação e calcular a concentração. Por exemplo, para uma equação linear, a equação de ajuste de curva é Sinal = declive * Concentração + interceptação, onde declive e interceptação são determinados por um ajuste de curva de mínimos quadrados linear (de primeira ordem) para os dados de calibração. Resolver esta equação para Concentração resulta em Concentração = (Sinal - interceptação) / declive, onde Sinal é a leitura do sinal (por exemplo, absorvância) da solução desconhecida. (Clique aqui para obter uma planilha de preenchimento do OpenOffice que faz isso para você. Veja a captura de tela).

4 Pergunta: Como faço para saber quando usar um ajuste de curva de linha reta e quando usar um ajuste de linha curva como um quadrático ou cúbico?
Resposta: Ajuste uma linha reta para os dados de calibração e observe um gráfico dos "residuais" (as diferenças entre os valores de y nos dados originais e os valores de y calculados pela equação de ajuste). Os desvios da linearidade serão muito mais evidentes no gráfico de resíduos do que no gráfico da curva de calibração. (Clique aqui para obter uma planilha de preenchimento do OpenOffice que faz isso para você. Veja a captura de tela). Se os resíduos estiverem espalhados aleatoriamente ao longo da linha de melhor ajuste, isso significa que os desvios são causados ​​por erros aleatórios, como ruído de instrumento, ou por erros volumétricos ou de procedimento aleatórios. Nesse caso, você pode usar um ajuste de linha reta (linear). Se os resíduos tiverem uma forma suave, como uma forma de "U", isso significa que a curva de calibração é curva e você deve usar um ajuste de curva não linear, como um ajuste quadrático ou cúbico. Se o gráfico residual tiver uma forma de "S", você provavelmente deve usar um ajuste cúbico. (Se você estiver fazendo espectrofotometria de absorção, consulteComparação de Métodos de Ajuste de Curva em Espectroscopia de Absorção).

5 Pergunta: E se minha curva de calibração for linear em baixas concentrações, mas se desviar nas concentrações mais altas?
Resposta: Você não pode usar um ajuste de curva linear nesse caso, mas se a curvatura não for muito severa, você pode conseguir um bom ajuste com um ajuste quadrático ou cúbico. Caso contrário, você pode quebrar a faixa de concentração em duas regiões e ajustar uma curva linear para a região linear inferior e uma curva quadrática ou cúbica para a região não linear superior região.

6 Pergunta: Qual é a diferença entre uma curva de calibração e uma linha de melhor ajuste? Qual é a diferença entre um ajuste linear e uma curva de calibração.
Resposta: A curva de calibração é uma relação medida experimentalmente entre concentração e sinal. Você nunca sabe realmente a curva de calibração verdadeira, você só pode estimá-la em alguns pontos medindo uma série de soluções padrão. Em seguida, desenhe uma linha ou uma curva suave que passe o máximo possível pelos pontos, com alguns pontos um pouco mais altos do que a linha e alguns pontos um pouco mais baixos do que a linha. Isso é o que queremos dizer com "melhor ajuste" aos pontos de dados. A curva de calibração real pode não ser perfeitamente linear, portanto, um ajuste linear nem sempre é o melhor. Um ajuste quadrático ou cúbico pode ser melhor se a curva de calibração mostrar uma curvatura suave gradual.

7 Pergunta: Por que a reta inclinada não passa por todos os pontos de um gráfico?
Resposta: Isso só acontecerá se você (1) for um experimentador perfeito, (2) tiver um instrumento perfeito e (3) escolher a equação de ajuste de curva perfeita para seus dados. Isso não vai acontecer. Sempre existem pequenos erros. O método de ajuste de curva de mínimos quadrados produz um melhor ajuste, não um ajuste perfeito, para os dados de calibração para uma determinada forma de curva (linear, quadrática ou cúbica). Presume-se que os pontos que caem da curva caiam devido a erros aleatórios ou porque a forma da curva de calibração real não corresponde à equação de ajuste da curva.

Na verdade, existe uma maneira artificial de fazer a curva passar por todos os pontos, que é usar poucos padrões de calibração: por exemplo, se você usar apenas dois pontos para um ajuste de linha reta, então a linha de melhor ajuste vai passar direto por esses dois pontos, não importa o quê. Da mesma forma, se você usar apenas três pontos para um ajuste quadrático, a curva de melhor ajuste quadrática passará direto por esses três pontos, e se você usar apenas quatro pontos para um ajuste cúbico, a curva de melhor ajuste cúbica ficará correta através desses quatro pontos. Mas isso não é realmente recomendado, porque se um de seus pontos de calibração estiver realmente errado por um grande erro, o ajuste da curva ainda parecerá perfeito e você não terá ideia de que algo está errado. Você realmente tem que usar mais padrões do que aqueles para saber quando algo deu errado.

8 Pergunta: O que acontece quando a leitura de absorbância é mais alta do que qualquer uma das soluções padrão?
Resposta: Se você estiver usando uma equação de ajuste de curva, ainda obterá um valor de concentração calculado para qualquer leitura de sinal que inserir, mesmo acima do padrão mais alto. No entanto, é arriscado fazer isso, porque você realmente não sabe ao certo qual é a forma da curva de calibração acima do padrão mais alto. Ele pode continuar reto ou pode se curvar de alguma forma inesperada - como você sabe com certeza? É melhor adicionar outro padrão na extremidade superior da curva de calibração.

9 Pergunta: Qual é a diferença entre usar um único padrão e vários padrões e um gráfico?
Resposta: O método padrão único é o método mais simples e rápido, mas é preciso apenas se a curva de calibração for conhecida como linear. O uso de vários padrões tem a vantagem de que qualquer não linearidade na curva de calibração pode ser detectada e evitada (diluindo na faixa linear) ou compensada (usando métodos de ajuste de curva não linear). Além disso, os erros aleatórios na preparação e leitura das soluções padrão são calculados em vários padrões, o que é melhor do que "colocar todos os ovos na mesma cesta" com um único padrão. Por outro lado, uma desvantagem óbvia do método padrão múltiplo é que ele requer muito mais tempo e usa mais material padrão do que o método padrão único.

10 Pergunta: Qual é a relação entre a sensibilidade na análise e a inclinação da curva padrão?
Resposta: A sensibilidade é definida como a inclinação da curva padrão (calibração).

11 Pergunta: Como você faz uma curva de calibração no Excel ou no OpenOffice?
Resposta: Coloque a concentração dos padrões em uma coluna e seus sinais (por exemplo, absorbâncias) em outra coluna. Em seguida, faça um gráfico de dispersão XY, colocando a concentração no eixo X (horizontal) e o sinal no eixo Y (vertical). Trace os pontos de dados apenas com símbolos, não com linhas entre os pontos. Para calcular um ajuste de curva de quadrados mínimos, você pode colocar as equações de quadrados mínimos em sua planilha ou pode usar a função PROJ.LIN no Excel e no OpenOffice Calc para calcular ajustes polinomiais e outros quadrados mínimos curvilíneos. Para obter exemplos de planilhas do OpenOffice que representam gráficos e se ajustam às curvas de calibração, consulte Planilhas para curvas de calibração analítica.

12 Pergunta: Qual é a diferença em usar uma curva de calibração em espectrometria de absorção em relação a outros métodos analíticos, como fluorescência ou espectroscopia de emissão?
Resposta: A única diferença são as unidades do sinal. Na espectroscopia de absorção, você usa a absorbância (porque é quase linear com a concentração) e na espectroscopia de fluorescência (ou emissão) você usa a intensidade da fluorescência (ou emissão), que geralmente é linear com a concentração (exceto às vezes em altas concentrações). Os métodos de ajuste de curva e cálculo da concentração são basicamente os mesmos.

13 Pergunta: Se a solução obedece à Lei de Beer, é melhor usar uma curva de calibração em vez de um único padrão?
Resposta: Pode não fazer muita diferença de qualquer maneira. Se a solução é conhecida por medições anteriores para obedecer à Lei de Beer exatamente no mesmo espectrofotômetro e sob as condições em uso, um único padrão pode ser usado (embora seja melhor se esse padrão fornecer um sinal próximo ao sinal de amostra máximo esperado ou para qualquer sinal que forneça a melhor relação sinal-ruído - uma absorbância próxima a 1,0 na espectroscopia de absorção). A única vantagem real de vários padrões neste caso é que os erros aleatórios na preparação e leitura das soluções padrão são calculados em vários padrões, mas o mesmo efeito pode ser alcançado mais simplesmente criando várias cópias do mesmo padrão único (para calcular a média os erros volumétricos aleatórios) e lendo cada um separadamente (para calcular a média dos erros aleatórios de leitura do sinal). E se os erros de leitura do sinal forem muito menores do que os erros volumétricos, uma única solução padrão pode ser medida repetidamente para calcular a média dos erros de medição aleatórios.

14 Pergunta: Qual é o efeito na medição da concentração se o monocromador não for perfeito?
Resposta: Se a calibração do comprimento de onda se desviar um pouco, não terá efeito significativo, desde que a configuração do monocromador seja deixada intacta entre a medição dos padrões e a amostra desconhecida, a inclinação da curva de calibração será diferente, mas as concentrações calculadas serão OK. (Mas se algo alterar o comprimento de onda entre o momento em que você mede os padrões e o momento em que mede as amostras, ocorrerá um erro). Se o comprimento de onda tiver uma classificação de luz dispersa pobre ou se a resolução for ruim (a passagem de banda espectral é muito grande), a curva de calibração pode ser afetada adversamente. Na espectroscopia de absorção, a luz dispersa e a baixa resolução podem resultar em não linearidade, o que requer um método de ajuste de curva não linear. Na espectroscopia de emissão, luz dispersa e baixa resolução podem resultar em interferências espectrais que podem resultar em erros analíticos significativos.

15 Pergunta: O que significa se a interceptação do ajuste da minha curva de calibração não for zero?
Resposta: Idealmente, a interceptação do eixo y da curva de calibração (o sinal na concentração zero) deve ser zero, mas há vários motivos pelos quais isso pode não ser assim. (1) Se houver dispersão aleatória substancial nos pontos de calibração acima e abaixo da linha de melhor ajuste, então é provável que a interceptação diferente de zero seja apenas devido a um erro aleatório. Se você preparou outro conjunto separado de padrões, essa curva padrão teria uma interceptação diferente, positiva ou negativa. Não há nada que você possa fazer a respeito, a menos que possa reduzir o erro aleatório dos padrões e amostras.(2) Se a forma da curva de calibração não corresponder à forma do ajuste da curva, é muito provável que você obtenha uma interceptação diferente de zero todas as vezes. Por exemplo, se a curva de calibração dobra para baixo à medida que a concentração aumenta e você usa um ajuste de curva de linha reta (linear), a interceptação será positiva (ou seja, a linha de ajuste da curva terá uma interceptação positiva do eixo y, mesmo se a curva de calibração real passa de zero). Este é um artefato da seleção de ajuste de curva pobre. Se você ver isso acontecer, tente uma forma de curva diferente (quadrática ou cúbica). (3) Se o instrumento não for "zerado" corretamente, ou seja, se o instrumento der uma leitura diferente de zero quando a solução em branco for medida. Nesse caso, você tem três opções: você pode zerar o instrumento (se for possível), você pode subtrair o sinal em branco de todas as leituras padrão e de amostra ou pode apenas deixar o ajuste da curva subtrair a interceptação para você (se o seu procedimento de ajuste de curva calcula a interceptação e você a mantém na solução dessa equação, por exemplo, Concentração = (Sinal - interceptação) / declive).

16 Pergunta: Como posso reduzir a dispersão aleatória dos pontos de calibração acima e abaixo da linha de melhor ajuste?
Resposta: Erros aleatórios como este podem ser devidos a erros volumétricos aleatórios (pequenos erros em volumes usados ​​para preparar a solução padrão diluindo da solução de pilha ou adicionando reagentes) ou podem ser devidos a erros de leitura de sinal aleatório do instrumento, ou para ambos. Para reduzir o erro volumétrico, use um equipamento volumétrico mais preciso e pratique sua técnica para aperfeiçoá-lo (por exemplo, use sua técnica para fornecer água pura e pesar em uma balança analítica precisa). Para reduzir o erro de leitura do sinal, ajuste as condições do instrumento (por exemplo, comprimento de onda, comprimento do caminho, largura da fenda, etc) para a melhor razão sinal-ruído e média de várias leituras de cada amostra ou padrão.

17 Pergunta: O que são interferências? Que efeito as interferências têm na curva de calibração e na precisão da medição da concentração?
Resposta: Quando um método analítico é aplicado a amostras complexas do mundo real, por exemplo, a determinação de drogas no soro sanguíneo, podem ocorrer erros de medição devido a interferências. As interferências são erros de medição causados ​​por componentes químicos nas amostras que influenciam o sinal medido, por exemplo, contribuindo com seus próprios sinais ou reduzindo ou aumentando o sinal do analito. Mesmo que o método seja bem calibrado e seja capaz de medir soluções de analito puro com precisão, erros de interferência podem ocorrer quando o método é aplicado a amostras complexas do mundo real. Uma maneira de corrigir as interferências é usar "padrões de matriz combinada", solução padrão preparada para conter tudo o que as amostras reais contêm, exceto que têm concentrações conhecidas de analito. Mas isso é muito difícil e caro de fazer exatamente, então todo esforço é feito para reduzir ou compensar as interferências de outras maneiras. Para obter mais informações sobre os tipos de interferências e métodos para compensá-las, consulte Comparação de métodos de calibração analítica.

18 Pergunta: Quais são as fontes de erro na preparação de uma curva de calibração?
Resposta: Uma curva de calibração é um gráfico de sinal analítico (por exemplo, absorbância, em espectrofotometria de absorção) vs concentração das soluções padrão. Portanto, as principais fontes de erro são os erros nas concentrações padrão e os erros em seus sinais medidos. Os erros de concentração dependem principalmente da precisão da vidraria volumétrica (frascos volumétricos, pipetas, dispositivos de distribuição de soluções) e da precisão da sua utilização pelas pessoas que preparam as soluções. Em geral, a exatidão e a precisão do manuseio de grandes volumes acima de 10 mL são maiores do que em volumes menores abaixo de 1 mL. A vidraria volumétrica pode ser calibrada pesando água em uma balança analítica precisa (você pode consultar a densidade da água em várias temperaturas e, assim, calcular o volume exato de água a partir de seu peso medido), isso permitiria rotular cada um dos frascos, etc. , com seu volume real. Mas a precisão ainda pode ser um problema, especialmente com volumes mais baixos, e é muito dependente do operador. É preciso prática para ser bom no manuseio de pequenos volumes. O erro de medição do sinal depende muito do método instrumental usado e da concentração do analito pode variar de cerca de 0,1% em condições ideais a 30% perto do limite de detecção do método. A média de medições repetidas pode melhorar a precisão em relação ao ruído aleatório. Para melhorar a razão sinal-ruído em baixas concentrações, você pode considerar modificar as condições, como alterar a largura da fenda ou o comprimento do caminho, ou usar outro método instrumental (como um atomizador de forno de grafite em vez de absorção atômica com chama).

19 Como posso encontrar o erro em uma quantidade específica usando o método de ajuste de mínimos quadrados? Como posso estimar o erro na inclinação calculada e interceptar?
Ao usar um ajuste de mínimos quadrados em linha reta simples (primeira ordem), a linha de melhor ajuste é especificada por apenas duas quantidades: a inclinação e a interceptação. O erro aleatório na inclinação e na interceptação (especificamente, seu desvio padrão) pode ser estimado matematicamente a partir da extensão em que os pontos de calibração se desviam da linha de melhor ajuste. As equações para fazer isso são fornecidas aqui e são implementadas no "planilha para calibração linear com cálculo de erro". É importante perceber que esses cálculos de erro são apenas estimativas, porque se baseiam na suposição de que o conjunto de dados de calibração é representativo de todos os conjuntos de calibração que seriam obtidos se você repetisse a calibração um grande número de vezes - em outras palavras, a suposição é que os erros aleatórios (erros volumétricos e de medição de sinal) em seu conjunto de dados específico são típicos. Se seus erros aleatórios forem pequenos quando você executar sua curva de calibração, você obterá uma curva de calibração aparentemente boa , mas suas estimativas do erro aleatório na inclinação e na interceptação serão muito baixas. Se seus erros aleatórios forem grandes, você obterá uma curva de calibração aparentemente ruim e suas estimativas do erro aleatório na inclinação e a interceptação será muito alta. Essas estimativas de erro podem ser particularmente ruins quando o número de pontos em uma curva de calibração é pequeno, a precisão das estimativas aumenta se o número de pontos de dados aumentar reases, mas é claro que preparar um grande número de soluções padrão é demorado e caro. O resultado final é que você só pode esperar que essas previsões de erro de uma única curva de calibração sejam muito grosseiras; elas poderiam facilmente estar erradas por um fator de dois ou mais, conforme demonstrado pela simulação "Propagação de erro no Método da Curva de Calibração Linear" ( baixar a versão do OpenOffice).


Resultados

Os dados MPRA são produzidos a partir de dois procedimentos paralelos: o sequenciamento de RNA é usado para medir o número de transcrições produzidas a partir de cada código de barras e o sequenciamento de DNA é usado para medir o número de cópias de construção de cada código de barras. Assim, para cada código de barras, a proporção de RNA para DNA pode servir como um proxy conceitual para a taxa de transcrição [7]. No entanto, os procedimentos de medição de DNA e RNA fornecem uma estimativa aproximada e ruidosa, um problema exacerbado pela natureza instável de uma proporção: pequenas diferenças nas próprias contagens podem resultar em grandes mudanças na proporção, especialmente ao lidar com pequenos números. Esse problema pode ser resolvido associando vários códigos de barras a cada sequência, fornecendo várias réplicas em um único experimento e uma única biblioteca de sequenciamento. Esta abordagem apresenta um problema adicional de resumir contagens de vários códigos de barras para obter uma estimativa de taxa de transcrição única para uma sequência reguladora candidata, o que é dificultado uma vez que a eficiência da incorporação dentro das células, embora teoricamente uniforme entre os diferentes construtos, tem um grau significativo de variabilidade na prática (Fig. 1a). Duas técnicas comumente usadas para resolver esse problema são baseadas em estatísticas resumidas: a proporção agregada, que é a proporção da soma das contagens de RNA nos códigos de barras dividida pela soma das contagens de DNA nos códigos de barras ( left ( frac < frac < 1>soma _^ RNA_> < frac <1>soma _^ DNA_> right) ) e a razão média, que é a média das razões RNA / DNA observadas nos códigos de barras ( left ( frac <1>soma _^ frac <>><>> right) ). Embora intuitivas, ambas as estatísticas de resumo têm limitações inerentes. A proporção agregada perde o poder estatístico que os códigos de barras múltiplos fornecem e é frequentemente dominada por uma minoria de códigos de barras com contagens altas, e a proporção média é altamente sensível ao ruído, como recentemente demonstrado em um artigo de Myint e colegas [20]. Um método para alavancar a multiplicidade de códigos de barras de uma maneira robusta é, portanto, necessário para cumprir totalmente o potencial desses ensaios.

MPRAanalisa as propriedades e o ajuste do modelo. uma Distribuição de abundâncias de construção (códigos de barras de DNA) em conjuntos de dados, calculada como a contagem de código de barras observada + 1 para fins de visualização. b Uma representação gráfica do modelo MPRAnalyze. As covariáveis ​​externas (por exemplo, condições de interesse, efeitos de lote, efeitos de código de barras) dependem do projeto. As contagens de construção latente e de transcrição estão relacionadas pela taxa de transcrição α. c Gráficos de qualidade de ajuste para bibliotecas de DNA e RNA em conjuntos de dados. As contagens esperadas foram extraídas dos GLMs ajustados. O modelo da MPRAnalyze se ajusta bem aos dados da MPRA, com R 2 & gt0.86 em todos os conjuntos de dados. Como os dados de Kwasnieski têm apenas uma réplica na biblioteca de DNA, o modelo de DNA é capaz de atingir um ajuste perfeito, caso em que as estimativas de DNA usadas no modelo de RNA são idênticas às contagens de DNA original

Modelo MPRAnalyze

Apresentamos MPRAnalyze, um método para a análise de dados MPRA que usa um modelo gráfico para relacionar as contagens de DNA e RNA, dar conta da incerteza em ambas as bibliotecas e aproveitar a estrutura única e as oportunidades apresentadas pelos dados MPRA. Nosso modelo se baseia na suposição de uma relação linear entre as contagens de RNA e as contagens de DNA correspondentes: RNUMA=DNUMA×α, semelhante às abordagens baseadas em proporção, com α denotando a taxa de transcrição. Nossa estrutura compreende dois modelos aninhados: o modelo de DNA, que estima as contagens de construção latente para as contagens de DNA observadas, e o modelo de RNA, que usa as estimativas de contagem de construção do modelo de DNA e as contagens de RNA observadas para estimar a taxa de transcrição, α (Fig. 1b).

Para cada sequência regulatória candidata, o modelo requer dois vetores de observações: contagens de DNA ( vec ) e contagens de RNA ( vec ), onde cada observação é o número de vezes que um código de barras específico, associado a esta sequência, foi observado nos níveis de DNA e RNA, respectivamente. Além disso, denotamos ( vec < hat > ) o vetor de contagens de construção latente (DNA) e ( vec < hat > ) o vetor de contagens de transcrição latente (RNA). Assumimos que as contagens de construção latente, a partir das quais as contagens de DNA observadas são amostradas, são geradas por uma distribuição gama. Em segundo lugar, assumimos que a distribuição condicional das contagens de RNA segue uma distribuição de Poisson. Formalmente:

Isso resulta em uma probabilidade binomial negativa de forma fechada para as contagens de RNA:

A distribuição binomial negativa é uma aproximação comum de dados de sequenciamento devido à superdispersão observada [22] e, de fato, todos os conjuntos de dados que examinamos têm uma relação quadrática entre a média e a variância, que pode ser capturada por um binomial negativo. Essa relação também é observada para as bibliotecas de DNA, o que é esperado de dados com distribuição Gama se o parâmetro de forma da distribuição k≈1 (Arquivo adicional 1: Figuras S1, S3 “Métodos”).

Agora, suponha que temos duas condições. Nesse caso, cada código de barras é medido duas vezes (uma vez em cada condição), e o modelo precisa relacionar essas observações e levar em conta as possíveis diferenças entre elas. O MPRAnalyze consegue isso assumindo que os efeitos são log aditivos e substituindo os componentes simples da estimativa de DNA ( ( vec < hat > )) e a estimativa da taxa de transcrição (α) com modelos lineares generalizados (GLM) que permitem a codificação fácil de várias relações entre fatores experimentais. O modelo então se torna:

Aqui, SD,SR são fatores de correção externos, usados ​​para explicar vários efeitos técnicos, como o tamanho da biblioteca nos dados de DNA e RNA, respectivamente. XD,XR são matrizes de design para os modelos de DNA e RNA, que codificam a configuração experimental do ensaio. Por exemplo, em duas configurações de condição, cada matriz incluirá uma coluna com um indicador 0/1 correspondente à primeira ou segunda condição, respectivamente. Os respectivos coeficientes β e γ irá então capturar o efeito associado à escolha da condição. Notavelmente, a matriz de design de DNA XD também normalmente codificará a identidade do código de barras, de modo a permitir a estimativa por código de barras da abundância de construção. Isso não é necessário para a matriz de design de RNA XR já que assumimos que os códigos de barras são réplicas que devem ter uma única estimativa da taxa de transcrição. Um exemplo ilustrativo é fornecido na Figura S2 (arquivo adicional 1) e uma descrição formal do modelo é fornecida no arquivo adicional 2.

O modelo pode ser estendido para codificar várias covariáveis, tanto quantitativas quanto qualitativas, e assim apoiar a estrutura comum de experimentos MPRA, ou seja, vários códigos de barras por sequência, várias réplicas ou lotes e várias condições analisadas simultaneamente. Um aspecto importante dessa flexibilidade é que ela suporta conjuntos de dados “não emparelhados” nos quais o sequenciamento de DNA foi realizado no conjunto de construtos, antes da incorporação nas células [10–13]. Nesses casos, pode não haver estimativas de DNA separadas para cada condição testada, caso em que as condições de interesse seriam modeladas apenas na matriz de desenho de RNA e excluídas do modelo de DNA.

Em resumo, o MPRAnalyze utiliza um modelo que leva em consideração os efeitos específicos do código de barras e os aproveita para aumentar o poder estatístico e a robustez da estimativa. Uma vez que um padrão para o projeto experimental MPRA ainda não foi formado, a construção GLM aninhada fornece flexibilidade e é facilmente ajustável para alterar os projetos experimentais. Nosso modelo também é altamente interpretável, permitindo que estimativas quantitativas de atividade de sequência sejam facilmente extraídas, bem como a atividade diferencial a ser testada diretamente usando testes estatísticos estabelecidos. Esta estrutura pode alavancar explicitamente controles negativos (sequências sem função regulatória esperada) quando disponíveis, seja para estabelecer a distribuição nula em análises de classificação ou para corrigir o viés sistêmico em análises comparativas (“Métodos”).

Conjuntos de dados de referência

Nas seções a seguir, investigamos o desempenho do MPRAnalyze na quantificação da atividade transcricional de regiões candidatas, bem como nas três principais tarefas de análise, a saber: classificação, análise de condição cruzada e comparações alélicas. Finalmente, avaliamos o MPRAnalyze em uma configuração complexa, onde investigamos várias condições e alelos múltiplos. Comparamos o MPRAnalyze com o conjunto atual de ferramentas e metodologias de análise, usando dados simulados e uma coleção de conjuntos de dados públicos. Esses conjuntos de dados foram escolhidos por representar uma diversidade de protocolos MPRA (por exemplo, integração epissomal ou lentiviral, sequenciamento de DNA pré ou pós-transdução), foco do estudo (classificação, análises comparativas, comparações alélicas) e projeto experimental (número de códigos de barras por sequência , número de repetições). Um resumo dos conjuntos de dados e suas propriedades é fornecido na Tabela 1. Aplicando MPRAnalyze a esses dados, descobrimos que o modelo é capaz de fornecer um bom ajuste (R 2 & gt0.86 para todos os conjuntos de dados, Fig. 1c), o que é consistente com nossas suposições de distribuição (Arquivo adicional 1: Figura S3).

Quantificação

Procuramos examinar as propriedades da estimativa da taxa de transcrição gerada por MPRAnalyze, denotada α (alfa), e compará-lo com as estatísticas de resumo com base na razão (isto é, a média das razões RNA-para-DNA em todos os códigos de barras, ou alternativamente, a razão das médias [doravante referida como o proporção agregada]).

Tranquilizadoramente, as três estimativas estão amplamente de acordo (Pearson's r& gt0.9 em conjuntos de dados, arquivo adicional 1: Figura S4). Para examinar melhor a precisão das estimativas, usamos as sequências de controle negativo incluídas em alguns dos conjuntos de dados. Assume-se que estes têm uma taxa de transcrição idêntica induzida pelo promotor mínimo incluído em cada construção sem atividade induzida por sequência. Examinamos a variação das estimativas nesses conjuntos. No conjunto de dados Kwasnieski, o número limitado de códigos de barras (n= 4) é mitigado por contagens altas por código de barras (Fig. 1a), fazendo com que todas as estimativas tenham variância igualmente baixa. Nos conjuntos de dados ricos em código de barras (n≥90), a proporção média é esperada [20] a mais variável, com α sendo o mais consistente nos conjuntos de dados Inoue-Kircher e comparativamente consistente com a proporção agregada no conjunto de dados Inoue-Kreimer (Fig. 2a). Estes resultados sugerem que MPRAnalyze está estimando taxas de transcrição semelhantes entre os controles negativos, como esperado desta coleção.

Comparação de MPRAnalyze's α estimativa da taxa de transcrição com as estimativas baseadas na proporção ( left ( text frac < frac <1>soma _^ RNA_> < frac <1>soma _^ DNA_> texto frac <1>soma _^ frac <>><>> right) ) uma A variação medida entre as estimativas de sequências de controle negativo em cada conjunto de dados (presume-se que tenham uma taxa de transcrição idêntica). b – d Os códigos de barras foram amostrados e a quantificação foi recalculada com base nos dados parciais para medir o efeito do número do código de barras no desempenho da estimativa [Consulte “Métodos” para mais detalhes de subamostragem]. As análises foram realizadas usando a estimativa de dados completos como a verdade fundamental. por exemplo Os dados da MPRA foram simulados para fornecer uma verdade fundamental. Em cada caso, medimos o viés (esteumumatetrvocêth) (ser) o desvio padrão ( left ( sqrt direito)) (c, f) e a correlação de Spearman entre as estimativas e a verdade fundamental (d, g)

Em seguida, exploramos o efeito do número de códigos de barras no desempenho das estimativas. Usando os conjuntos de dados ricos em códigos de barras, os códigos de barras foram amostrados em várias taxas e as estimativas foram recomputadas para cada sequência (3 amostras independentes por sequência por taxa de código de barras). Usando as estimativas de dados completos como a verdade básica, descobrimos que os códigos de barras de amostragem não resultam em um viés sistêmico em qualquer uma das estimativas (Fig. 2b), e todas as estimativas mostraram variância reduzida com códigos de barras aumentados, com a razão média desempenho inferior às outras duas estimativas, e α tendo uma variância semelhante ou inferior à razão agregada (Fig. 2c).

Em muitos casos, o objetivo de quantificar a atividade da sequência é classificar e comparar diferentes sequências, como em experimentos de mutagênese. Para comparar a estabilidade da ordenação das sequências, a correlação de Spearman foi calculada entre as estimativas em cada subamostra com as estimativas dos dados completos. Alfa tem correlação semelhante ou mais alta do que ambas as estimativas baseadas em razão entre conjuntos de dados e abundância de código de barras (Fig. 2d).

Uma vez que essas análises são limitadas pela falta de verdade fundamental, os dados MPRA foram então simulados gerando coeficientes aleatórios e usando a mesma construção GLM aninhada, conforme descrito acima, para gerar amostras. Para evitar o enviesamento dos resultados, as amostras foram geradas com um modelo de ruído log-normal em vez do modelo convolucional Gamma-Poisson padrão que o MPRAnalyze usa (“Métodos”). Geramos 281 sequências com taxas de transcrição gradualmente crescentes abrangendo uma faixa de valores possíveis (de 0,2 a 3, em etapas de 0,01), com três repetições em cada simulação. As análises acima foram repetidas com os dados simulados. Descobrimos que, embora o viés medido de fato não tenha sido influenciado pelo número de códigos de barras, a razão média é substancialmente mais tendenciosa do que ambos α e a proporção agregada (Fig. 2e). Semelhante aos resultados de dados reais, encontramos α tem menor variância do que ambas as estimativas baseadas em razão e maior correlação com as taxas de transcrição verdadeiras (Fig. 2f, g). Também simulamos dados com número variável de repetições e descobrimos que aumentar o número de repetições tem um efeito semelhante ao aumento do número de códigos de barras, uma vez que ambos os parâmetros aumentam o tamanho efetivo da amostra. Com qualquer número de códigos de barras, aumentar o número de réplicas melhorou o desempenho - o grau de melhoria diminuiu quando mais códigos de barras estavam disponíveis (arquivo adicional 1: Figura S5).

No geral, descobrimos que α executa de forma semelhante ou melhor do que ambos os estimadores baseados em razão em termos de precisão, consistência e robustez para dados ausentes.

Classificação

Um caso de uso comum para MPRA é a classificação de sequências ativas, que induzem a atividade transcricional. Isso é comumente feito comparando as estimativas baseadas na proporção das sequências testadas com um conjunto de sequências de controle [9, 10], uma abordagem que sofre com a sensibilidade das estatísticas resumidas a ruído e dados ausentes, demonstrada acima, que no contexto de classificação leva à diminuição da potência e precisão. Outros estudos realizaram essa análise usando DESeq2 [18], um método de análise de expressão diferencial (DEA), tratando as bibliotecas de DNA e RNA como duas condições e procurando por diferenças significativas entre as duas [11]. A seguir, demonstramos que os métodos gerais de DEA carecem de energia ou não estão bem calibrados para dados MPRA. Mais importante, esses métodos baseiam-se em uma suposição implícita de que a maioria das características não exibe comportamento diferencial, uma suposição válida para RNA-seq que não é válida para MPRA, em que as sequências testadas são frequentemente selecionadas explicitamente por sua atividade potencial. Essa suposição torna os resultados dos métodos DEA altamente dependentes do projeto experimental e da seleção de sequência.

MPRAnalyze realiza a classificação de sequências ativas comparando as respectivas α estimativas contra a distribuição nula da taxa de transcrição induzida apenas pelo promotor mínimo. O nulo é baseado em sequências de controle negativo, quando disponíveis, e caso contrário, MPRAnalyze se baseia em uma suposição conservadora de que o modo de distribuição do α values ​​é o modo da distribuição nula e os valores inferiores ao modo são amplamente gerados pelo nulo. Esses valores são, portanto, usados ​​para estimar a média e a variância da distribuição nula.

Em ambos os cenários, o α valor de cada sequência candidata é comparado com a distribuição nula usando o desvio absoluto mediano (MAD) - uma variante do Z-score que é menos sensível a outliers. MPRAnalyze suporta um teste unilateral ou bilateral, permitindo a identificação de sequências indutoras (induzindo a transcrição além dos níveis mínimos do promotor) ou sequências repressivas (reprimindo a transcrição abaixo dos níveis do promotor). Um teste unilateral foi usado para gerar todos os resultados apresentados neste artigo.

Comparando mPRAnalyze com métodos existentes

Para avaliar o desempenho do MPRAnalyze nas análises de classificação, comparamos seis métodos: MPRAnalyze com e sem controles negativos empíricos pvalores calculados usando as duas estimativas baseadas em razão e DESeq2 em modo completo (cada código de barras como uma amostra separada) ou modo recolhido (cada replicação como uma amostra, tomando a soma dos códigos de barras dentro de cada replicação, consulte "Métodos"). Da mesma forma que MPRAnalyze, DESeq2 foi aplicado usando um modo assimétrico, ou seja, com foco na indução de sequências que têm um sinal mais alto na biblioteca de RNA do que na biblioteca de DNA.

Examinamos a fração de sequências que eram significativamente ativas (FDR & lt0,05) em cada conjunto de dados, estratificada por grupo: controles negativos, sequências candidatas e controles positivos quando disponíveis (Fig. 3a). Como esperado, empírico p os valores das estimativas baseadas em proporções mostram uma clara falta de poder. Tanto o colapso do DESeq2 quanto o MPRAnalyze sem controles aumentaram as taxas de falsos positivos nos conjuntos de dados de Kwasnieski (em comparação com a taxa de descoberta falsa teoricamente esperada de 5% entre o conjunto de controles negativos). Ao examinar os resultados em todos os conjuntos de dados, descobrimos que, embora MPRAnalyze e DESeq2 tenham resultados gerais comparáveis, ambos os modos de MPRAnalyze alcançam um melhor equilíbrio entre sensibilidade (identificando candidatos como ativos) e especificidade (não identificando controles negativos como ativos) do que ambos os modos de DESeq2 (Fig. 3b).

Comparações de análise de classificação. uma fração de sequências identificadas como significativamente ativas (corrigido por BH P& lt0.05) por método e classe de sequência. O MPRAnalyze resulta em modos empíricos baseados em controle (vermelho) e sem controles (laranja) p valores baseados na proporção média (azul) ou proporção agregada (verde) DESeq2 resulta no modo recolhido (os códigos de barras são somados dentro de cada lote, roxo) ou modo completo (dados completos, azul claro). O número absoluto de sequências ativas é exibido nas barras. b Curva de recuperação de precisão. A precisão é baseada no desempenho nos controles negativos, Recall é baseado na população total de sequências, assumindo que todos os candidatos estão ativos. Barras de erro são ± o desvio padrão dessas medidas nos conjuntos de dados. c Fração de sequências ativas detectadas após a reexecução das análises em 685 sequências do conjunto de dados Inoue-Kreimer que foram identificados como ativos por MPRAnalyze (modo regular) e ambos os modos DESeq2 e os 200 controles do mesmo conjunto de dados. MPRAnalyze recapitula os mesmos resultados, descobrindo que 100% dos candidatos estão ativos, enquanto DESeq2 full identifica apenas 161 (23,5%) e DESeq2 colapsado falha completamente em identificar quaisquer sequências ativas

Uma vez que a análise acima ignora o comportamento estatístico geral dos métodos, examinamos todo o p distribuição de valor de cada método dentro de cada conjunto de dados. Considerando vários conjuntos de dados, descobrimos que ambos os modos de MPRAnalyze, ambos os métodos baseados em razão e DESeq2-full parecem bem calibrados, enquanto o DESeq2 colapsado não segue a distribuição teórica de p valores: uma mistura de valores uniformes (correspondendo a sequências não ativas que seguem a distribuição nula) e valores baixos (sequências ativas para as quais o nulo é rejeitado) (Arquivo adicional 1: Figura S6). Resultados semelhantes foram encontrados ao examinar a distribuição sobre controles negativos apenas (espera-se que seja uniforme), com MPRAnalyze no modo sem controle tendo alguns valores inflados (atribuindo mais valores baixos p valores do que o esperado), o que enfatiza a importância do uso de controles negativos em estudos de classificação (Arquivo adicional 1: Figura S7). Finalmente, examinamos a distribuição sobre controles positivos (disponível apenas nos conjuntos de dados Inoue-Kircher) e descobrimos que MPRAnalyze em ambos os modos tem poder estatístico significativamente maior, sendo superado apenas por DESEq2 colapsado mal calibrado (Arquivo adicional 1: Figura S8) . No geral, descobrimos que, apesar das taxas comparáveis ​​de sequências encontradas estatisticamente significativas, o modelo MPRAnalyze é melhor calibrado para os dados MPRA.

Advertências sobre o uso de métodos projetados para expressão diferencial

DESeq2 agrupa informações em todos os recursos incluídos no conjunto de dados (genes para RNA-seq, potencializadores candidatos para MPRA), tanto na correção do tamanho da biblioteca quanto na estimativa do parâmetro de dispersão. No entanto, ao contrário de ensaios de todo o genoma, como RNA-seq, o conjunto de recursos testados em experimentos MPRA é organizado de acordo com os objetivos específicos e o contexto do estudo. Nossa hipótese é que a classificação baseada em DESeq2 seria altamente dependente das sequências incluídas na análise. Repetimos a análise de classificação no conjunto de dados Inoue-Kreimer usando apenas as 200 sequências de controle negativo e 685 sequências candidatas que foram previamente classificadas como ativas por MPRAnalyze e ambos os modos de DESeq2. Isso simulou um cenário no qual os dados foram gerados em um experimento que incluiu menos sequências. Confirmando nossa hipótese, os resultados do MPRAnalyze permanecem inalterados com todas as sequências candidatas significativamente ativas, enquanto o DESeq2-full classifica apenas 161 (23,5%) das sequências como ativas e o DESeq2 colapsado não encontra nenhuma sequência ativa. Isso revela uma limitação inerente ao uso de métodos de expressão diferencial, como DESEq2, para analisar dados MPRA.

Estudos comparativos

Outro uso comum para MPRAs são estudos comparativos, procurando por transcrição diferencial induzida por uma sequência regulatória putativa entre diferentes tipos de células, estímulos ou outras covariáveis ​​experimentais [11, 16]. Configurações experimentais mais complexas também são possíveis, por exemplo, usando MPRA para avaliar a atividade transcricional ao longo do tempo como nos dados de Inoue-Kreimer [17], ou a interação entre a atividade diferencial do alelo e a presença de um determinado fator de transcrição, conforme realizado por Ulirsch e colegas [12].

Aqui, usamos os dados de Inoue-Kircher para demonstrar que MPRAnalyze é estatisticamente mais poderoso do que estabelecer métodos para analisar dados comparativos de MPRA e, portanto, permite a descoberta de sinais biológicos mais avançados e que MPRAnalyze oferece suporte a projetos experimentais mais complexos que não são suportados por métodos anteriores (por exemplo, análise temporal).

A realização da análise de atividade diferencial no MPRAnalyze pode ser feita de duas maneiras: primeiro, uma vez que o MPRAnlyze otimiza o modelo usando a maximização de probabilidade, qualquer hipótese única que pode ser codificada em um modelo linear generalizado pode ser testada usando um teste de razão de verossimilhança. Isso inclui hipóteses complexas que podem ser capturadas por termos de interação entre covariáveis ​​(por exemplo, tipo de célula e fundo genético [12]). Além disso, em projetos simples de duas condições, ou nos casos em que vários contrastes são comparados a uma única referência (por exemplo, vários estímulos diferentes em comparação com o comportamento não estimulado), os coeficientes do modelo podem ser extraídos do modelo de RNA e testados usando um teste de Wald . Embora ambas as opções sejam suportadas na implementação do MPRAnalyze, os resultados neste documento são baseados em testes de razão de verossimilhança.

Ao realizar uma análise comparativa, é importante levar em consideração possíveis vieses, como aqueles induzidos por diferenças gerais na taxa de transcrição basal. Em experimentos de RNA-seq, esse problema é geralmente resolvido por meio da correção do tamanho da biblioteca [23], mas com o MPRA isso não é necessariamente suficiente. Isso ocorre porque, para que o tamanho da biblioteca corresponda adequadamente à polarização dos dados, a grande maioria dos recursos deve ser não diferencial ou o sinal diferencial deve ser simétrico. Nenhuma dessas premissas é necessariamente válida para os dados MPRA, uma vez que dependem em grande parte da seleção das sequências candidatas. Por exemplo, o MPRA pode ser projetado com a maioria das sequências sendo mais ativas em uma condição do que na outra e, portanto, a maioria das sequências são de fato diferencialmente ativas. Para resolver esse problema, o MPRAnalyze utiliza controles negativos nos dados para definir o comportamento diferencial nulo. Isso é feito ajustando um modelo conjunto separado para os controles, em que cada sequência de controle tem um modelo de DNA distinto, mas todos compartilham um único modelo de RNA, refletindo a atividade basal em cada condição (Métodos).

Métodos alternativos foram desenvolvidos para abordar esta ou outras questões semelhantes. QuASAR-MPRA [19] foi projetado especificamente para comparações alélicas e usa um modelo beta-binomial e mpralm [20] que é uma ferramenta geral de atividade diferencial projetada para MPRA que se ajusta a um modelo linear. Ambos os métodos usam estatísticas resumidas e não incluem informações em nível de código de barras em seu modelo. Mpralm pode usar a razão agregada ou a razão média como estatística e, portanto, está sujeito às limitações descritas acima. O QuASAR-MPRA, semelhante ao MPRAnalyze, modela o DNA e o RNA separadamente, mas o faz usando a soma das contagens em todos os códigos de barras em cada condição, agrupando os dados em uma única medição.

Comparando mPRAnalyze com métodos existentes

Para comparar esses métodos diferentes, usamos o conjunto de dados Inoue-Kreimer e estendemos o subconjunto de amostras que usamos para incluir os pontos de tempo 0 he 72 h (pós-indução neural de células-tronco embrionárias humanas (hESC)). Em seguida, procuramos sequências cuja atividade diferisse entre os dois momentos, usando MPRAnalyze, mpralm (ambos os modos de razão agregada e razão média) e QuASAR-MPRA (“Métodos”). A distribuição de p Os valores (Fig. 4a) mostram que o MPRAnalyze geral e ambos os modos de mpralm estão bem calibrados, seguindo a mistura esperada de valores uniformes e valores baixos entre os candidatos, e mostrando leve inflação, mas comportamento geral uniforme entre os controles negativos. Por outro lado, QuASAR-MPRA é menos calibrado em ambas as sequências candidatas e de controle negativo, recapitulando os resultados descritos por Myint et al. [20]. Na verdade, o QuASAR-MPRA identificou apenas dois candidatos como significativamente diferenciais (corrigido por BH p valores & lt0,05).

Resultados da análise comparativa da comparação do ponto de tempo de 0h a 72h no conjunto de dados Inoue-Kreimer. umap distribuições de valor de candidatos (parte superior) e controles (parte inferior). O QuASAR-MPRA está mal calibrado, enquanto o MPRAnalyze e ambos os modos mpralm seguem o comportamento teórico (mistura de valores uniformes e baixos). b Comparação direta do MPRAnalyze com métodos concorrentes. Os painéis superiores mostram o tamanho do efeito biológico (log fold-change) Os painéis inferiores mostram a significância estatística (corrigido por BH p linhas pontilhadas são 0,05 limiar). c Diagrama de Venn para MPRAnalyze e mpralm (ambos os modos). Os números em cada área são (parte superior) o número total de sequências na área e (parte inferior) o número de sequências de atividade decrescente (esquerda) + e sequências de atividade crescente (direita). d Enriquecimento de locais de ligação de fator de transcrição em sequências diferencialmente ativas conforme determinado por cada método. A linha sólida representa o limite de 0,05. (veja “Métodos” para mais detalhes)

No geral, observamos que as estimativas do tamanho do efeito (log fold-change) são amplamente reproduzíveis entre os métodos (Pearson’s r & gt0.84 em todos os pares). Em termos de poder estatístico (Fig. 4b), observamos que MPRAnalyze chama mais sequências como significativas em comparação com os outros métodos. Observamos ainda que os valores de FDR de MPRAnalyze são amplamente correlacionados com os de mpralm entre os candidatos estatisticamente significativos (correlação de Spearman & gt0.63 para sequências que MPRAnalyze chama diferencial) e que as estimativas de QuASAR-MPRA não se correlacionam com os outros dois métodos (consistente com os resultados da Fig. 4a). Um exame mais aprofundado dos resultados excluiu QuASAR-MPRA, uma vez que não identificou um número suficiente de sequências diferenciais.

Examinamos ainda as sequências diferenciais, após filtrar os resultados para incluir apenas as sequências candidatas que são classificadas como ativas em pelo menos uma das condições (corrigido por BH p& lt0.05, usando o método de classificação do MPRAnalyze). Curiosamente, mpralm no modo agregado encontra um número aproximadamente equilibrado de sequências que estão aumentando (99) e diminuindo (91) na atividade (comparando 0 h a 72 h), e no modo médio encontra mais diminuição (89) do que aumento (49) , enquanto MPRAnalyze encontra muito mais sequências crescentes (351) do que decrescentes (115) (Fig. 4c). No entanto, as sequências no estudo Inoue-Kreimer foram explicitamente selecionadas para corresponder ao aumento da atividade ao longo da diferenciação (2037 [82%] das sequências testadas são regiões genômicas selecionadas devido ao seu gene mais próximo mostrando expressão aumentada sobre a diferenciação). Portanto, o desequilíbrio nos resultados do MPRAnalyze se ajusta ao design do experimento.

Em seguida, exploramos o conjunto de candidatos detectados por cada método. Para este fim, dividimos o conjunto de sequências diferencialmente ativas em atividade decrescente e crescente (comparando 0 h com o ponto de tempo de 72 h) e, em cada conjunto, testamos a super-representação de motivos de ligação de DNA (teste hipergeométrico, corrigido por BH p& lt0.05 “Métodos”). Para restringir os resultados, examinamos a união dos 15 principais motivos de ligação do fator de transcrição mais enriquecidos por cada método (Fig. 4d, Arquivo adicional 1: Figura S9, Arquivo adicional 3: Tabela S1, Arquivo adicional 4: Tabela S2).

Entre as sequências de atividade decrescente, encontramos como locais de ligação esperados para dois dos principais fatores pluripotentes (NANOG, POU5F1). Embora sejam capturados por todos os métodos, observamos uma significância mais alta com MPRAnalyze. Entre as sequências de atividade crescente, onde os métodos têm diferenças mais profundas, descobrimos que MPRAnalyze geralmente tem pontuações de enriquecimento mais baixas, mas compensa por um aumento substancial no poder estatístico. No geral, mpralm em quer dizer modo não detecta muitos dos fatores de transcrição enriquecidos encontrados pelos outros métodos, com um total de 23 (em comparação com 106 e 195 encontrados por mpralm agregar e MPRAnalyze, respectivamente), e exibe poder estatístico diminuído.

Para garantir que esses resultados não sejam simplesmente explicados pelo maior número de sequências diferenciais detectadas pelo MPRAnalyze, também examinamos um consenso + ruído opção, onde o conjunto de consenso (sequências chamadas diferenciais por todos os métodos) foi inflado com sequências escolhidas aleatoriamente (retiradas da população restante) para coincidir com o número de sequências diferenciais chamadas por MPRAnalyze (“Métodos”). Descobrimos que esta inflação simulada que não reflete o verdadeiro sinal biológico não explica o aumento de potência exibido pelo MPRAnalyze.

Notavelmente, os resultados do MPRAnalyze são enriquecidos para sítios de ligação para TEAD2 e NRF1, mas os resultados de acordo com os outros métodos não contêm tal enriquecimento.Ambos os fatores foram implicados na neurogênese por estudos anteriores [24, 25], e após um exame mais detalhado, descobrimos que os locais de ligação de NRF1 têm enriquecimento de dobra comparável em todos os métodos (1,48 em MPRAnalyze, 1,39 em mpralm agregar e 1,45 em mpralm quer dizer), mas apenas ultrapassar o limite estatístico com MPRAnalyze. Na outra direção, descobrimos que os resultados do mpralm são enriquecidos para os locais de ligação de MYF5 e GSX1, mas não os resultados do MPRAnalyze. No entanto, ao examinar os níveis de mRNA medidos nos pontos de tempo correspondentes, descobrimos que ambos os fatores têm níveis de expressão muito baixos nas condições em que o MPRA foi conduzido (Arquivo adicional 5: Tabela S3). Esses níveis estão abaixo de seus níveis de expressão característicos em tecidos em que são conhecidos por serem ativos [26], tornando-os candidatos menos atraentes para conduzir a transcrição diferencial. No geral, o MPRAnalyze identifica o sinal biológico que é consistente com os métodos concorrentes, com maior poder estatístico, o que permite resultados mais diferenciados.

Detectando atividade temporal

Por fim, observamos que o MPRAnalyze pode ser usado em todo o conjunto de dados Inoue-Kreimer, que consiste em sete pontos no tempo, para identificar sequências cuja atividade muda ao longo do tempo. O MPRAnalyze realiza esta análise comparando dois modelos: o modelo completo, que permite a atividade dependente do tempo, e o modelo reduzido, no qual os fatores de ponto no tempo são excluídos, forçando assim um comportamento constante entre os pontos de tempo (métodos). Esta análise não pode ser realizada por nenhum dos métodos concorrentes: QuASAR-MPRA suporta apenas comparações de duas condições e mpralm suporta apenas testes de hipóteses baseados em coeficientes. Executamos o MPRAnalyze dessa maneira e, após filtrar as sequências apenas para aquelas que estão ativas em pelo menos um ponto no tempo (FDR & lt0.05, usando o MPRAnalyze para realizar a análise de classificação por ponto no tempo), o MPRAnalyze encontra 749 (28%) sequências que têm atividade temporal (métodos, FDR & lt0,05). De forma tranquilizadora, das 466 sequências identificadas como diferenciais entre o primeiro e o último ponto no tempo, 420 (90,1%) apresentam atividade temporal geral.

Descobrimos que as sequências temporais geralmente tendem a ter um padrão de ativação semelhante a um impulso suave ao longo do tempo [27], enquanto as sequências de controle negativo têm padrões menos claros (Arquivo adicional 1: Figura S10). Em seguida, agrupamos as sequências temporais (K-significa com K = 4 em α valores, z-normalizado para cada sequência) a fim de agrupar sequências com um padrão de comportamento temporal semelhante, e repetiu a mesma análise de enriquecimento de sítio de ligação como acima (arquivo adicional 6: Tabela S4) para cada cluster. Como evidência da validade de nossa abordagem, descobrimos que as sequências que são ativas nos pontos de tempo iniciais foram de fato enriquecidas para sítios de ligação de fatores pluripotentes centrais (NANOG, SOX2, POUF51), e que as sequências que são ativas posteriormente na diferenciação processo foram enriquecidos para sítios de ligação de fatores de transcrição conhecidos por participar na diferenciação neural (ATF2 [28], HES1 [29], GLI1, LEF [30]).

Comparação alélica

Muitos estudos MPRA lidam com a quantificação do efeito de variantes de sequência na função regulatória. Esses estudos, aqui referidos como estudos de comparação alélica, incluem aqueles que comparam variantes genéticas observadas para investigar o efeito regulatório de diferentes alelos de uma sequência regulatória [12], bem como estudos que alteram deliberadamente uma sequência para elucidar a gramática regulatória em um moda sistêmica [13]. Embora conceitualmente semelhantes às análises comparativas, as comparações alélicas requerem que diferentes fatores sejam considerados. Duas diferenças importantes são: (1) as sequências comparadas (por exemplo, tipo selvagem e alelo mutante) vêm da mesma amostra e, portanto, um viés sistêmico é menos preocupante do que ao comparar diferentes condições, e (2) os diferentes alelos sendo comparados estão associados a diferentes códigos de barras, em contraste com a comparação de condições em que os códigos de barras são compartilhados entre as condições.

Para demonstrar a utilidade do MPRAnalyze neste cenário, usamos dados publicados recentemente por Mattioli e colegas [13], que mediram os efeitos de todas as possíveis deleções de nucleotídeo único foram examinados em 31 promotores selecionados. Para tanto, foi realizado um MPRA com todas as deleções e sequências de tipo selvagem (WT) correspondentes, onde cada deleção foi associada a 26 códigos de barras e cada sequência WT foi associada a 80 códigos de barras. Uma única amostra dos plasmídeos de pré-transdução foi sequenciada para produzir a biblioteca de DNA. As amostras de RNA foram retiradas de dois tecidos diferentes: oito amostras da linha celular HepG2 e quatro amostras da linha celular K562. Este projeto experimental assimétrico exemplifica a natureza diversa dos estudos MPRA e a necessidade de uma estrutura flexível.

Usando este conjunto de dados, demonstramos que o MPRAnalyze está bem calibrado e estatisticamente mais poderoso do que os métodos estabelecidos, e suporta o estudo da interação de várias condições: neste caso, encontrar variantes de sequência com efeitos funcionais específicos de linha celular.

Comparando mPRAnalyze com métodos existentes

Semelhante à análise comparativa descrita acima, comparamos cada sequência de exclusão com o WT correspondente em cada tecido separadamente, com todos os três métodos: MPRAnalyze, mpralm (que suporta apenas o agregado modo para comparações alélicas) e QuASAR-MPRA.

Ao examinar o p distribuição de valores gerada por cada método, descobrimos que MPRAnalyze e mpralm são melhor calibrados do que QuASAR-MPRA (Fig. 5a-b). Consistente com nossos resultados anteriores, todos os métodos têm estimativas correlacionadas de efeitos biológicos (Fig. 5c-f). Os métodos estão melhor correlacionados nos dados HepG2 em comparação com os dados K562 (correlações com MPRAnalyze: Pearson’s r= 0,72 em K562 e 0,77 em HepG2 para mpralm, e 0,78 em K562 e 0,96 em HepG2 para QuASAR), que hipotetizamos ser devido ao maior número de repetições nos dados de HepG2. Quando a comparação foi repetida usando apenas quatro réplicas dos dados HepG2, as correlações entre os métodos diminuíram (correlações com MPRAnalyze: Pearson’s r= 0,63 para mpralm e 0,38 para QuASAR, arquivo adicional 1: Figura S11).

Avaliação de desempenho na comparação alélica. a, bp densidade de valor dos três métodos avaliados em ambas as linhas de células. c – f Os valores de logFC entre métodos em cada tipo de célula mostram que todos os métodos encontram um sinal biológico semelhante. g – eu Valores logFC entre tipos de células para cada método. Algumas diferenças são esperadas, mas os valores gerais são altamente correlacionados. j Esquema da análise de enriquecimento, testando deleções funcionais específicas da linha celular para enriquecimento de motivos que foram ganhos ou perdidos por essas deleções. k, l resultados de análises de enriquecimento de motivos. Fatores de transcrição com enriquecimento significativo (FDR & lt 0,05) são rotulados

Em seguida, comparamos os efeitos estimados por cada método nas linhas de células. No geral, encontramos um alto grau de similaridade nos efeitos da perturbação da sequência entre as linhas de células - uma descoberta apoiada por todos os métodos que consideramos (Fig. 5g-i). Olhando mais de perto, descobrimos que mpralm e QuASAR-MPRA encontram uma distorção sistêmica em direção a efeitos mais fortes em K562, com 72,6% e 63,1% das deleções tendo um valor de alteração de dobra log mais extremo em K562 em comparação com HepG2 em mpralm e QuASAR- MPRA, respectivamente, enquanto os resultados do MPRAnalyze são mais equilibrados, com 49,8%. Ao comparar o poder estatístico, descobrimos novamente que o MPRAnalyze pode detectar mais deleções que afetam significativamente a taxa de transcrição (FDR & lt0,05). Em HepG2, MPRAnalyze encontra 2855 (72%) deleções com um efeito significativo, enquanto mpralm encontra 2710 (68,4%), com 2071 (52,2%) das sequências significativas em ambos em K562, MPRAnalyze encontra 1230 (31%) deleções significativas em comparação com 360 (9%) encontrado por mpralm, com 272 (6,8%) significativo em ambos. Em ambos os tipos de células, o QuASAR-MPRA não encontra nenhuma deleção funcional significativa. Como esperado, devido ao maior tamanho da amostra, MPRAnalyze e mpralm são mais poderosos em HepG2 em comparação com K562.

Identificação de variantes com efeitos específicos de linha celular

Uma vez que o estudo Mattioli realizou comparações alélicas em dois tipos de células, ele também pode ser usado para a identificação de deleções que têm um efeito diferente nas células HepG2 em comparação com as células K562. Com o MPRAnalyze, é possível abordar essa questão diretamente, testando a interação entre o tecido e as covariáveis ​​alélicas no modelo. Ao realizar esta análise, MPRAnalyze encontrou 608 (15,3%) deleções diferenciais que tiveram um efeito diferente entre os tipos de células. Por exemplo, o promotor do núcleo do gene lncRNA DLEU1 tem várias deleções funcionais que são altamente concordantes entre os tipos de células e uma única exclusão funcional diferencialmente na posição 83, onde a exclusão tem um efeito significativamente maior em HepG2 (euogFC= −0,86) do que em K562 (euogFC= −0,13) (Arquivo adicional 1: Figura S12).

Para examinar as implicações biológicas de nossos resultados, seguimos a análise realizada por Mattioli e colegas e identificamos os motivos de ligação do fator de transcrição que são perturbados pelas deleções de nucleotídeo único. Focando apenas em deleções funcionais (ou seja, deleções que tiveram qualquer efeito em uma ou ambas as linhas celulares), procuramos por motivos de ligação de DNA cujas deleções disruptivas estão super-representadas no conjunto de deleções funcionais condicionalmente (isto é, deleções com significativamente mais efeito em uma linha celular contra a outra) (Fig. 5j). No geral, encontramos três estatísticas enriquecidas (teste hipgergeométrico, FDR& lt0.05, Métodos) motivos nas deleções específicas do tipo de célula (Fig. 5k, 1). Tranquilizadoramente, descobrimos que as deleções específicas de K562 foram enriquecidas para motivos do fator de transcrição eritróide NF-E2. Esses resultados demonstram a utilidade potencial do MPRAnalyze no tratamento de casos de projetos experimentais complexos e possivelmente assimétricos.


Navegue pelo esboço completo

Erros aleatórios são causados ​​por fontes que não são imediatamente óbvias e pode levar muito tempo tentando descobrir a fonte.

O erro aleatório também é chamado de erro estatístico porque pode ser eliminado em uma medição por meios estatísticos porque é aleatório por natureza.

Ao contrário do caso de erros sistemáticos, a média simples de várias medições da mesma quantidade pode ajudar a compensar erros aleatórios. Erros aleatórios raramente podem ser entendidos e nunca são fixos na natureza - como ser proporcional à quantidade medida ou ser constante ao longo de muitas medições.

A razão pela qual os erros aleatórios podem ser resolvidos pela média é que eles têm um valor esperado zero, o que significa que são verdadeiramente aleatórios e estão espalhados em torno do valor médio. Isso também significa que se espera que a média aritmética dos erros seja zero.

Pode haver várias fontes possíveis de erros aleatórios e sua fonte depende do tipo de experimento e dos tipos de instrumentos de medição usados.

Um erro aleatório também pode ocorrer devido ao instrumento de medição e à maneira como ele é afetado pelas mudanças nas redondezas. Por exemplo, uma balança de mola pode mostrar alguma variação na medição devido a flutuações de temperatura, condições de carga e descarga, etc. Um instrumento de medição com uma precisão maior significa que haverá menos flutuações em sua medição.

Erros aleatórios estão presentes em todos os experimentos e, portanto, o pesquisador deve estar preparado para eles. Ao contrário dos erros sistemáticos, os erros aleatórios não são previsíveis, o que os torna difíceis de detectar, mas mais fáceis de remover, uma vez que são erros estatísticos e podem ser removidos por métodos estatísticos como a média.


Lições aprendidas

Por meio de 11 iterações do curso, revisamos o currículo com base no feedback do aluno e do instrutor. Abaixo estão algumas lições importantes que aprendemos.

  1. É útil ter um membro da equipe em tempo integral que possa trabalhar durante os períodos em que o curso não é oferecido para preparar materiais de laboratório (novas cepas de levedura e plasmídeos), introduzir novos protocolos ou otimizar os atuais e atualizar os materiais escritos. Também é útil ter uma pessoa de suporte técnico para preparar e configurar os materiais de laboratório semanais.
  2. Fazer os alunos trabalharem como pares nas tarefas do curso (tarefas pós-laboratório e pôster final) melhora o desempenho nessas tarefas. A avaliação da compreensão individual pode ser feita com questionários preenchidos de forma independente.
  3. Exigir que os alunos enviem uma planilha com sua análise de dados permite que os TAs avaliem mais prontamente as análises quantitativas em conjunto com os modelos fornecidos pelo instrutor.
  4. A codificação de cores de todos os materiais do aluno (racks, tubos, fita adesiva, etc.) por mutante (ou seja, mut1 = laranja, mut2 = azul, mut3 = rosa, mut4 = amarelo, mut5 = verde) facilita sua distribuição e organização.
  5. Erros (tanto da equipe quanto dos alunos) acontecerão, mas geralmente é possível transformá-los em boas oportunidades de aprendizado.
  1. Descobrimos que as proteínas p53 (particularmente as versões mutantes) são altamente suscetíveis à proteólise. Portanto, é essencial que, uma vez que os alunos lisem suas células de levedura, eles mantenham suas amostras a 4 ° C e trabalhem com eficiência para minimizar o tempo antes de alíquotar e congelar seus extratos de proteína.
  2. O ensaio de ligação ao DNA é sujeito a alta variabilidade. Descobrimos que as dicas a seguir ajudam, mas não eliminam essa variabilidade: (A) não deixe tampão de lavagem nos poços e não deixe os poços secarem, pois ambos têm potencial para aumentar o fundo (B) não raspe fundo dos poços com pontas de pipeta, pois isso pode remover o revestimento de avidina segurando os DNAs biotinilados no poço (C), o ensaio deve ser feito em temperatura ambiente, pois o fundo aumenta dramaticamente quando realizado a 30 ° C e (especialmente) 36 ° C e (D) quando há pouca ou nenhuma ligação específica ao DNA, a subtração de fundo às vezes produz atividade de ligação “negativa”. Os alunos devem ser lembrados dessa possibilidade.
  3. Na semana 3, os dados do ensaio de Bradford devem ser verificados pelos instrutores para confirmar se estão dentro da faixa linear da curva padrão, os alunos devem repetir a análise se o R 2 & lt 0,95 ou um ou mais pontos de dados não estão dentro do intervalo linear da curva padrão.
  4. A principal fonte de erro experimental ao longo do curso foi a pipetagem imprecisa. Achamos útil enfatizar a técnica de pipetagem adequada e estabelecer critérios quantitativos para duplicatas, ou seja, eles não devem diferir em & gt50%, que os alunos devem atender para que seus dados sejam incluídos em análises posteriores.

Ensinamos este curso em um formato trimestral de 10 semanas. Para instrutores que estão considerando este currículo para um curso de laboratório de um semestre, experimentos de laboratório adicionais podem ser adicionados. Por exemplo, os alunos podem fazer seus próprios construtos mutantes p53 marcados com GFP, usando recombinação homóloga na Vivo, e confirmar por análise de sequência, os alunos que estudam os mutantes de oligomerização putativos podem avaliar o estado de oligomerização usando eletroforese em gel nativo. Os alunos podem testar mais parâmetros de ligação ao DNA, como outros elementos ou extratos de DNA, e todos os alunos podem ter um ou dois períodos para repetir um experimento de escolha. Fazer com que os alunos repitam os experimentos pode ser o uso mais produtivo das semanas extras para ajudar a solidificar a compreensão do aluno sobre a “bagunça” inerente dos dados e a necessidade de múltiplas repetições, também aumentaria a probabilidade de obter dados com qualidade de publicação.


Análise de dados

Prepare sua curva padrão e estime as concentrações de proteína

Sua curva padrão de proteína servirá como uma ferramenta para estimar as concentrações de proteína em laboratório. Portanto, você deseja que seja bastante grande & ndash deve ocupar a maior parte da largura da página e ser bem proporcionado, conforme sugerido no tutorial de gráficos que você completou no início do curso. Escolha rótulos informativos para os eixos conforme aprendeu anteriormente. Plote seus dados de curva padrão e, em seguida, inclua uma linha de tendência de melhor ajuste. A relação pode ser linear ou um tanto curvilínea. Use o bom senso para se ajustar à sua linha de tendência e lembre-se de que não é uma boa prática extrapolar, seja para perto ou para longe da origem.

A partir das absorbâncias de suas incógnitas, estime cada concentração de proteína. Lembre-se de que a concentração do desconhecido é a quantidade de proteína dividida pelo volume da amostra usada, não o volume total no tubo de ensaio. Por convenção, quase sempre relatamos as concentrações de proteína em miligramas / mililitro (mg / ml). Para cada incógnita, lembre-se também de usar o valor de absorvância único que se enquadra na parte mais linear da curva padrão.

Plano para fazer diluições

Mostrar todo o trabalho. Primeiro, teremos que diluir um volume inicial específico para uma concentração final desejada de proteína. Este é o tipo de diluição que você executaria para fazer uma solução de trabalho. Em segundo lugar, você determinará como preparar cada uma de suas amostras para um volume e concentração final desejados.

  1. Seu primeiro problema é determinar como diluir 150 µg de cada uma de suas duas incógnitas para uma concentração final de 1 mg / ml. Voce sabe v1, você determinou c1 usando sua curva padrão, e sua concentração final desejada de 1 mg / ml é c2. Em seu caderno, registre as três variáveis ​​conhecidas para diluir cada uma de suas incógnitas. Calcular v2 , mostrando todos os cálculos em seu caderno. Escreva ambos v2 e o volume para adicionar a v1.
  2. Seu segundo problema é determinar como diluir cada desconhecido para obter um volume final de 150 & microl a uma concentração final de 1,5 mg / ml. Registre novamente as três variáveis ​​conhecidas e determine a variável desconhecida para cada uma delas. Mostra todos os cálculos.

Estimar rendimentos de fração

Uma abordagem comum para aprender como algo funciona é desmontá-lo. Aplicamos esse princípio ao tecido vivo quando realizamos o que chamamos de fracionamento de tecido. Geralmente, começamos homogeneizando o tecido, depois separamos o homogenato em componentes, muitas vezes empregando um método chamado centrifugação diferencial. A centrifugação produz um componente sólido (o pellet) que ressuspendemos em um volume de líquido. Também produz um componente líquido, o sobrenadante, que processamos posteriormente. Quando conduzimos um fracionamento, queremos ser capazes de relatar quanto de cada componente temos, geralmente em termos da quantidade de proteína recuperada.