Em formação

18: Genômica regulatória - Biologia


18: Genômica regulatória

Genômica na terra da ciência regulatória

A ciência da genômica tem desempenhado um papel importante na geração de novos conhecimentos na área de pesquisa básica, e atualmente questiona-se quanto ao seu potencial para apoiar processos regulatórios. No entanto, a integração da genômica no processo de tomada de decisão regulatória requer uma avaliação rigorosa e se beneficiaria do consenso entre parceiros internacionais e comunidades de pesquisa. Para tanto, a Coalizão Global para Pesquisa Científica Regulatória (GCRSR) sediou a quarta Cúpula Global sobre Ciência Regulatória (GSRS2014) para discutir o papel da genômica na tomada de decisão regulatória, com ênfase específica em aplicações em segurança alimentar e desenvolvimento de produtos médicos. Desafios e questões foram discutidos no contexto do desenvolvimento de um consenso internacional para critérios objetivos na análise, interpretação e relatório de dados genômicos com ênfase na transparência, rastreabilidade e "adequação ao propósito" para a aplicação pretendida. Foi reconhecido que existe a necessidade de um caminho global no estabelecimento de uma estrutura regulatória de bioinformática para o desenvolvimento de processos transparentes, confiáveis, reproduzíveis e auditáveis ​​na gestão de riscos de segurança de alimentos e produtos médicos. Também foi reconhecido que o treinamento é um mecanismo importante para alcançar resultados consistentes internacionalmente. GSRS2014 forneceu um local eficaz para reguladores e pesquisadores se encontrarem, discutirem questões comuns e desenvolverem colaborações para enfrentar os desafios colocados pela aplicação da genômica à ciência regulatória, com o objetivo final de integrar sabiamente novas inovações técnicas na tomada de decisão regulatória.

Palavras-chave: Genomics Sequenciamento de última geração Ciência regulatória.


A descoberta sistemática e a perturbação de genes reguladores em células T humanas revelam a arquitetura das redes imunológicas

Redes reguladoras de genes complexos garantem que genes importantes sejam expressos em níveis precisos. Quando a expressão do gene é suficientemente perturbada, pode levar à doença. Para entender como as rupturas de expressão gênica percolam através de uma rede, devemos primeiro mapear as conexões entre os genes reguladores e seus alvos a jusante. No entanto, não temos conhecimento abrangente dos reguladores upstream da maioria dos genes. Aqui, desenvolvemos uma abordagem para a descoberta sistemática de reguladores a montante de fatores imunológicos críticos - IL2RA, IL-2 e CTLA4 - em células T humanas primárias. Em seguida, mapeamos a rede dos genes alvo e intensificadores desses reguladores usando perturbações CRISPR, RNA-Seq e ATAC-Seq. Esses reguladores formam redes densamente interconectadas com extensos loops de feedback. Além disso, essa rede é altamente enriquecida para variantes e genes de doenças associadas ao sistema imunológico. Esses resultados fornecem informações sobre como os genes de doenças associadas ao sistema imunológico são regulados nas células T e princípios mais amplos sobre a estrutura das redes regulatórias de genes humanos.

Uma abordagem sistemática para identificar reguladores upstream dos principais genes do sistema imunológico em células humanas primárias

Mapas de perturbação abrangentes de RNA-Seq e ATAC-Seq após KO de reguladores descobertos individuais

A análise revela uma rede regulatória altamente interconectada de potenciadores e genes em células T

Esta rede é altamente enriquecida para variantes de doenças imunológicas e genes que lançam luz sobre as conexões trans-regulatórias entre os principais genes do sistema imunológico na saúde e na doença


Genômica regulatória

A pesquisa no campo da regulação gênica está evoluindo rapidamente no ambiente científico em constante mudança. Avanços nas técnicas de microarray e genômica comparativa permitiram estudos mais abrangentes de genômica regulatória. O estudo dos locais de ligação genômica dos fatores de transcrição possibilitou uma modelagem mais abrangente das redes regulatórias. Além disso, sequências genômicas completas e comparação de várias espécies relacionadas demonstraram a conservação de sequências de DNA não codificantes, que muitas vezes fornecem evidências para cis- locais de ligação reguladores. Métodos sistemáticos para decifrar o mecanismo regulatório também são cruciais para corroborar essas redes regulatórias. A chave para esses métodos são algoritmos de descoberta de motivos que podem ajudar a prever cis-Elementos reguladores. Esses programas de descoberta de motivos de DNA estão se tornando mais sofisticados e estão começando a aproveitar as evidências da genômica comparativa. Esses e outros tópicos foram discutidos no 3º Workshop Anual RECOMB sobre Genômica Regulatória, que reuniu mais de 90 participantes e incluiu cerca de 22 excelentes palestras de pesquisadores líderes na área. Este volume de anais contém dez manuscritos originais selecionados que foram apresentados durante o workshop.

  • TScan: A Two-step De novo Método de descoberta de motivo (O Abul et al.)
  • Eliminação de redundância em algoritmos de descoberta de motivo (H Leung & amp F Chin)
  • GAMOT: um algoritmo genético eficiente para encontrar motivos desafiadores em sequências de DNA (N Karaoglu et al.)
  • Identificação de locais regulatórios espaçados por meio de modelagem de submotivos (E Wijaya e R Kanagasabai)
  • Refinando Motif Finders com ECálculos de valor (N Nagarajan et al.)
  • Alinhamento de Sequência de Indexação Múltipla para Identificação de Característica de Grupo (W-Y Chou et al.)
  • Melhorando a precisão da construção do caminho de transdução de sinal usando vizinhos de nível 2 (T K F Wong et al.)
  • Investigando os papéis da flexibilidade do DNA no reconhecimento e regulamentação do promotor (J D Bashford)
  • Redes regulatórias de genes afetados pela MorA, um regulador global que contém domínios GGDEF e EAL em Pseudomonas Aeruginosa (W-K Choy et al.)
  • e outros papéis

Série atualizada & # x26 ed em 06/11/2008

Conteúdo atualizado, pp, data de publicação & # x26 in-hse ed em 07/10/2008

FRONT MATTER
PREDIÇÃO COMPUTACIONAL DE ELEMENTOS REGULATÓRIOS POR ANÁLISE DE SEQUÊNCIA COMPARATIVA

Com muitos genomas de vertebrados agora completamente sequenciados, os métodos mais promissores para prever elementos de sequência funcional são baseados na comparação de sequências de várias espécies. Nós nos concentramos nos problemas que surgem ao usar essas ferramentas em uma escala ampla do genoma nos vertebrados. Esses problemas incluem dificuldades em encontrar sequências promotoras homólogas confiáveis, dificuldades em escolher a melhor ferramenta e parâmetros a serem aplicados a essas sequências e dificuldades em avaliar a significância das previsões produzidas. Soluções são oferecidas para cada um desses problemas, embora estejam longe de serem completas.

UMA HISTÓRIA DE DOIS TÓPICOS - SIGNIFICADO DO MOTIVO E SENSIBILIDADE DE SEMENTES ESPAÇADAS

Calcular o valor p de um motivo tem sido um problema muito difícil. Muitos algoritmos heurísticos tentam aproximar isso. Acontece que este problema é muito semelhante ao design de sementes com espaçamento ideal na pesquisa de homologia. Conectando os dois tópicos, pela primeira vez mostramos a computação do valor p é NP-difícil e fornecemos um algoritmo razoavelmente rápido por programação dinâmica. Os resultados do teste serão fornecidos.

DESAFIOS COMPUTACIONAIS PARA MODELAGEM TOP-DOWN E SIMULAÇÃO DE VIAS BIOLÓGICAS

Se o conceito de equações diferenciais ordinárias / parciais fosse a única maneira de modelar caminhos biológicos para simulação, nossa compreensão da vida como sistema por meio da computação não seria drasticamente aumentada e seria muito enviesada. Se a linguagem para modelar e descrever caminhos biológicos não fosse rica, perderíamos muitos conhecimentos e informações valiosas sobre os sistemas biológicos produzidos e relatados. Colocando esse entendimento como nossa base de desenvolvimento, temos desenvolvido um formato XML Cell System Markup Language CSML (http://www.csml.org/) e uma ferramenta de modelagem e simulação Cell Illustrator (http: //www.gene- networks.com/). Nesta palestra, apresentamos a mais nova versão CSML 3.0 e Cell Illustrator 3.0 que suporta CSML 3.0…

UM MÉTODO DE AMOSTRAGEM DE GIBBS APRIMORADO PARA DESCOBERTA DE MOTIVOS VIA PESO DE SEQUÊNCIA

A descoberta de motivos em sequências de DNA continua sendo um problema fundamental e desafiador em biologia molecular computacional e genômica regulatória, embora um grande número de métodos computacionais tenham sido propostos na última década. Entre esses métodos, a estratégia de amostragem de Gibbs tem se mostrado muito promissora e é rotineiramente usada para encontrar elementos de motivo regulatório nas regiões promotoras de genes coexpressos. Neste artigo, apresentamos um aprimoramento do método de amostragem de Gibbs quando os dados de expressão dos genes em questão são fornecidos. Um esquema de ponderação de sequência é proposto levando-se em conta explicitamente a variação da expressão gênica na amostragem de Gibbs. Ou seja, a cada elemento de motivo putativo é atribuído um peso proporcional à mudança de dobra no nível de expressão de seu gene a jusante sob uma única condição experimental, e uma matriz de pontuação específica de posição (PSSM) é estimada a partir desses elementos de motivo putativos ponderados. Tal PSSM estimado pode representar um modelo de motivo mais preciso, uma vez que elementos de motivo com mudanças dramáticas de dobra na expressão do gene são mais propensos a representar motivos verdadeiros. Este método de amostragem ponderada de Gibbs foi implementado e testado com sucesso em dados de sequências simuladas e biológicas. Nossos resultados experimentais demonstram que o uso de ponderação de sequência tem um impacto profundo no desempenho de um algoritmo de amostragem de motivo de Gibbs.

DESCOBRINDO MOTIVOS COM CONHECIMENTO DE DOMÍNIO DE FATOR DE TRANSCRIÇÃO

Encontrar os locais de ligação de fatores de transcrição de um conjunto de regiões promotoras de genes co-regulados é um problema importante na biologia molecular. A maioria dos algoritmos de descoberta de motivos consideram padrões semelhantes super-representados como sítios de ligação e encontram a matriz de pontuação específica de posição (PSSM) com a probabilidade máxima como o motivo da solução. No entanto, muitos motivos em dados biológicos reais não podem ser descobertos por esses algoritmos porque eles não consideram as características biológicas dos locais de ligação. Apresentamos um novo algoritmo, DIMDom, que explora dois tipos de informação: (a) o padrão característico das classes de sítios de ligação, onde a classe é determinada com base em informações biológicas sobre domínios de fatores de transcrição e (b) probabilidades posteriores dessas classes. Comparamos o desempenho de DIMDom com MEME em todos os fatores de transcrição de Drosophiia no banco de dados TRANSFAC e descobrimos que DIMDom superou MEME com mais do que o dobro do número de sucessos e o dobro da precisão em encontrar locais de ligação e motivos.

APLICAÇÕES DE ILP EM BIOLOGIA COMPUTACIONAL

Na aula expositiva, irei apresentar vários problemas em Biologia Computacional relacionados em particular com a combinatória filogenética e análise de redes que podem ser abordados com sucesso usando Programação Linear Inteira.

SOBRE A EVOLUÇÃO DAS REDES DE REGULAÇÃO DE TRANSCRIÇÕES

Estamos desenvolvendo métodos que empregam sequência, expressão e outros dados de múltiplas espécies, a fim de identificar as interações fator de transcrição-DNA e rastrear sua evolução. Vou discutir vários de nossos esforços nessa direção:

• Um estudo sobre a dinâmica de mudanças mínimas nas sequências regulatórias, usando genomas de quatro espécies de leveduras intimamente relacionadas.

• Análise de estabilidade e mudança em módulos transcricionais em 17 espécies de levedura, usando dados de expressão e sequência.

• Um modelo evolutivo integrado de todo o genoma do código regulatório.

O quadro emergente da evolução nas redes de regulação da transcrição é bastante fascinante. Se o tempo permitir, também discutirei nossa nova ferramenta de software para descoberta de motivos de novo em grande escala.

FARMACOLOGIA DE SISTEMAS EM TERAPÊUTICA DO CÂNCER: INFORMAÇÃO ITERATIVA-INTERFACE EXPERIMENTAL

A biologia de sistemas, como disciplina, busca explicar o fenômeno biológico por meio das interações de rede de todos os componentes celulares e bioquímicos dentro de uma célula ou organismo. Apresentamos um trabalho que usa uma abordagem de sistemas para construir a estrutura para farmacologia preditiva. Usamos como sistema modelo, a resposta transcricional do p53 in vitro e em tumores humanos. Primeiro, analisamos perfis de transcrição em 251 cânceres de mama primários nos quais o gene p53 havia sido sequenciado e identificamos uma assinatura de expressão de 32 genes clinicamente incorporada que distingue p53 mutante e tumores de tipo selvagem de diferentes histologias que superam o sequenciamento de p53. Assim, a impressão digital transcricional é um indicador a jusante mais definitivo da função do p53. Em segundo lugar, identificamos um papel único para a síntese de glicogênio quinase-3beta (GSK-3beta) na regulação da função de p53 em células de câncer colorretal humano. A modulação farmacológica de GSK-3beta prejudicou marcadamente a transativação de alvos dependente de p53, incluindo p21 e Puma, mas promoveu a ativação conformacional de Bax dependente de p53 levando à apoptose. Assim, a parada do ciclo celular após a resposta ao dano mediado por p53 é convertida em apoptose após a exposição a uma variedade de agentes quimioterápicos (Tan, et al. Cancer Res. 65 (19): 9012-20., 2005). O sucesso deste composto dependerá de uma avaliação confiável do status de p53 em tumores primários. Com base nessas observações, buscamos identificar os mecanismos precisos de regulação do gene p53, desenvolvendo uma abordagem robusta que acopla a imunoprecipitação da cromatina (ChIP) com a estratégia de sequenciamento de ditag de extremidade pareada (PET) para localização global imparcial e precisa dos locais de ligação de p53. A partir de uma amostra saturada de mais de meio milhão de sequências de PET, caracterizamos 65.572 fragmentos de DNA ChIP de p53 únicos e estabelecemos clusters de PET sobrepostos como uma leitura para definir os loci de ligação de p53 com notável especificidade. Com base nessas informações, refinamos o motivo de ligação de p53 de consenso, identificamos pelo menos 542 loci de ligação com alta confiança, descobrimos 98 genes alvo de p53 anteriormente não identificados que estavam implicados em novos aspectos das funções de p53, como adesão celular e motilidade. Finalmente, mostramos sua relevância clínica para a tumorigênese dependente de p53 em amostras de câncer primário (Wei CL, et al. Cell. 124 (1): 207-19, 2006). A estrutura de descoberta de apoio mútuo que estabelecemos no GIS tem sido a chave para explorar ao máximo as descobertas individuais de maneira coletiva.

PROTEOMIA COMPUTACIONAL ESTRUTURAL E DESCOBERTA DE INIBIDORES

O rápido avanço da proteômica estrutural exige o desenvolvimento de novos métodos para prever mudanças estruturais, associação, função, bem como métodos de aprimoramento para projeto molecular baseado em estrutura. Os principais desafios da biologia estrutural computacional e química serão revistos. Desenvolvemos métodos para prever o mapa funcional de uma proteína com uma estrutura 3D conhecida, acoplamento preciso de compostos a um local de ligação e triagem de ligante virtual de grandes bancos de dados químicos e previsão de estrutura por otimização de energia global, por exemplo, caracterizando mutantes e SNPs, modelagem de homologia, proteína de proteína ou acoplamento de peptídeo e previsão de loop precisa ...

CARACTERIZAÇÃO DE RESPOSTAS TRANSCRIPCIONAIS AO ESTRESSE AMBIENTAL POR ANÁLISE DE LOCALIZAÇÃO DIFERENCIAL

Organismos unicelulares, como a levedura, precisam responder rapidamente às mudanças nas condições ambientais para sua sobrevivência. Usando análise de localização de alto rendimento (Chromatin Immuno-Precipitation on DNA chip, ou ChIP-Chip resumidamente), Harbison et al. determinaram os locais de ligação genômica de 204 fatores de transcrição (TFs) da levedura Saccharomyces cerevisiae em condição de mídia rica e 13 condições de estresse. Aqui, relatamos um método estatístico para análise de localização diferencial, para determinar o conjunto de reguladores que se ligam a regiões genômicas significativamente diferentes sob certas condições de estresse. A partir dos dados ChIP-Chip publicados por Harbison et al., Fomos capazes de identificar 105 pares de condições TFs que mostraram padrões de ligação diferencial estatisticamente significativos (p & lt 0,05). A comparação com os dados publicados do Microarray revelou que os níveis de expressão de quase metade dos TFs testados não mudaram significativamente sob o estresse ambiental correspondente, o que implica que tais respostas regulatórias não seriam reveladas apenas pelos dados do Microarray. Em conclusão, análises diferenciais complementares (por exemplo, análise de localização diferencial) são necessárias, além da análise de expressão diferencial baseada em Microarray comumente usada, a fim de compreender a imagem global das respostas celulares aos estresses ambientais.

UM ALGORITMO HÍBRIDO BASEADO NO CONHECIMENTO PARA PREDIÇÃO DE ESTRUTURA SECUNDÁRIA DE PROTEÍNAS

Em nossa abordagem anterior, propusemos um método híbrido chamado HYPROSP II para predição de estrutura secundária de proteínas, que combinou nosso algoritmo de predição baseado em conhecimento proposto PROSP e uma abordagem de rede neural PSIPRED. Nesta palestra, melhoramos ainda mais o desempenho do PROSP, propondo uma estratégia de votação melhor e uma taxa de cobertura mais ampla usando 7-mers e 5-mers ...

MONOTONIA E SURPRESA (ABORDAGENS DE CONSERVAÇÃO PARA DESCOBERTA DE PADRÃO)

A descoberta de padrões é muitas vezes dividida entre a rigidez do modelo e a abundância de candidatos, uma circunstância que tende a gerar cargas computacionais assustadoras e dar origem a um rendimento impossível de visualizar e digerir ...

EVOLUÇÃO DOS SISTEMAS DE REGULAÇÃO BACTERIANA

A análise comparativa de genomas bacterianos permite não apenas a identificação de novos sistemas regulatórios e anotação funcional de genes hipotéticos, mas também a caracterização de mudanças nos padrões regulatórios. Embora seja prematuro falar em teoria da evolução regulatória, alguns padrões começam a surgir. Apresentarei os resultados da análise genômica de vários sistemas de complexidade variável. Em particular, mostrarei como a análise computacional de NrdR, um regulador universal de ribonucleotídeos redutases, resultou em uma descrição detalhada do sinal regulatório e do mecanismo de regulação, e estabeleceu ligações entre este regulon e a replicação. Apresentarei exemplos de expansão, contração, fusão e desaparecimento de regulon nas vias metabólicas de oligossacarídeo e utilização de açúcar. Finalmente, tentarei reconstruir a história evolutiva da regulação do sistema de homeostase do ferro em alfa-proteobactérias.

TSCAN: UM DOIS PASSOS DE NOVO MÉTODO DE DESCOBERTA DE MOTIVOS

A descoberta computacional de novos motivos em sequências biológicas é um problema importante e bem estudado. A chave para os métodos de descoberta de motivos, seja de novo ou baseado em biblioteca, tem funções de pontuação bem definidas. Várias funções de pontuação de valor escalar diferentes foram propostas para medir algumas propriedades de motivos biológicos. No entanto, não existe uma função de pontuação geral capaz de unificar todas as propriedades. Neste trabalho, propomos um projeto de duas etapas de novo paradigma de descoberta de motivos que emprega duas funções de pontuação que medem diferentes propriedades de relevância biológica. Definimos um método baseado em contagem de palavras, chamado TScan, usando este paradigma. É principalmente inspirado por MDScan, mas não requer dados suplementares do chip ChIP.Nossos resultados em sete conjuntos de dados de um estudo recente são promissores, com motivos descobertos concordando bem com os motivos de consenso definidos para os conjuntos de dados.

ELIMINAÇÃO DE REDUNDÂNCIA EM ALGORITMOS DE DESCOBERTA DE MOTIF

O problema de encontrar motivos em locais de ligação é muito importante para a compreensão das redes reguladoras de genes. No entanto, ao prever um conjunto de motivos, os algoritmos existentes sofrem o problema de prever muitos motivos redundantes (motivos com locais de ligação semelhantes) ou, no outro extremo, perder o motivo oculto. Neste artigo, formulamos o Motif Redundancy Problem (MRP) para modelar este tipo de problema e apresentamos um algoritmo denominado RME (Redundancy Motif Elimination) para resolver o MRP. Resultados experimentais em dados biológicos reais mostram que um algoritmo de descoberta de motivo baseado em EM padrão aprimorado com RME tem um desempenho melhor do que o algoritmo de descoberta de motivo MEME popular.

GAMOT: UM ALGORITMO GENÉTICO EFICIENTE PARA ENCONTRAR MOTIVOS DESAFIADORES EM SEQUÊNCIAS DE DNA

Sinais fracos que marcam os locais de ligação do fator de transcrição envolvidos na regulação do gene são considerados motivos desafiadores. Identificar esses motivos em sequências de DNA não alinhadas é um problema computacionalmente difícil que requer algoritmos eficientes. Algoritmos Genéticos (GA), inspirados na evolução na natureza, são uma classe de algoritmos de busca estocástica que foram aplicados com sucesso a muitos problemas computacionalmente difíceis, incluindo previsão de sites regulatórios. Neste artigo, propomos o GAMOT, um AG eficiente para resolver problemas de Motivos (l, d) -Motivos introduzidos por Pevzner e Sze. Mostramos empiricamente que nosso algoritmo não só é capaz de resolver as instâncias do problema desafiador com motivos curtos, como (14,4) e (15,4) de forma eficiente, mas também que é capaz de resolver problemas com motivos mais longos, como (20, 7), (30,11) e (40,15). O GAMOT pode encontrar os motivos plantados em tempo computacional quase linear graças a uma etapa adicional que cria uma população de soluções altamente ajustada, mesmo antes de o processo evolutivo ser aplicado. Apresentamos uma comparação de nossos resultados com alguns dos algoritmos de última geração, como VAS e PROJEÇÃO.

IDENTIFICAÇÃO DE SITES REGULATÓRIOS ESPAÇADOS VIA MODELAGEM DE SUBMOTIFICAÇÃO

Neste artigo, propomos uma nova abordagem para a identificação de motivos genéricos de uma maneira integrada, introduzindo a noção de submotivos. Formulamos o problema de localização de motivos como uma mineração de padrões de submotivos restritos e apresentamos um algoritmo chamado SPACE para identificar motivos que podem conter espaçadores. Quando espaçadores estão presentes, mostramos que o algoritmo pode identificar motivos onde 1) os espaçadores podem ser de comprimentos variados, 2) o número de segmentos de motivo pode ser desconhecido e 3) os comprimentos dos segmentos de motivo podem ser desconhecidos. Realizamos experimentos rigorosos com o Motif Assessment Benchmarks de Tompa et al., E observamos que nosso algoritmo em geral é capaz de superar todos os algoritmos populares testados até agora, com melhorias significativas na sensibilidade e especificidade.

REFINANDO O MOTIF FINDERS COM CÁLCULOS DE E-VALOR

Os localizadores de motivos são uma ferramenta importante para a pesquisa de elementos reguladores no DNA. Programas populares existentes otimizam a pontuação de entropia para pesquisar motivos de maneira eficiente. Embora os valores E sejam comumente usados ​​para atribuir significância aos motivos ótimos relatados, eles não são diretamente otimizados. Isso levanta a questão de saber se a otimização para valores E em vez de entropia poderia melhorar a capacidade dos localizadores de detectar motivos fracos. Primeiro apresentamos um algoritmo eficiente para calcular com precisão vários valores E que muda a natureza da questão acima de hipotética para prática. Incorporando este método em localizadores baseados em CONSENSUS e Gibbs, demonstramos em dados sintéticos que a resposta à nossa pergunta é positiva. Em particular, as otimizações baseadas no valor E mostram uma melhoria significativa em relação às ferramentas existentes para encontrar motivos de largura desconhecida.

ALINHAMENTO DE SEQUÊNCIAS DE INDEXAÇÃO MÚLTIPLA PARA IDENTIFICAÇÃO DE RECURSOS DE GRUPO

Um novo esquema para padrões combinatórios e identificação de características de grupo exclusivas empregando alinhamento de sequência de indexação múltipla (MISA) com base em algoritmos de busca de salto de intervalo e técnicas de agrupamento hierárquico é proposto neste artigo. O algoritmo de busca de salto de intervalo transforma sequências em conjuntos de números digitais para encontrar motivos de consenso e fornece resultados de correspondência aproximados. Os motivos de consenso pesquisados ​​com características tolerantes são rotulados e formulados uma matriz de pontuação a fim de agrupar sequências importadas em vários subgrupos antes do alinhamento de sequência de indexação múltipla proposto. Para extrair características distinguíveis entre grupos agrupados, o sistema proposto realiza várias combinações de operações bit a bit fundamentais para obter suas características distintas. Neste artigo, o MISA foi empregado para analisar dados biológicos reais e demonstrou ser prático para pesquisar padrões combinatórios para cada subgrupo e suas características distintas de outros subgrupos também são identificadas para análise posterior. Comparações com outros algoritmos existentes também são apresentadas neste artigo para demonstrar o desempenho superior do sistema proposto.

MELHORANDO A PRECISÃO DA CONSTRUÇÃO DA VIA DE TRANSDUÇÃO DE SINAL USANDO VIZINHOS DE NÍVEL-2

Neste artigo, consideramos o problema de reconstruir uma via para um determinado conjunto de proteínas com base em informações genômicas e proteômicas disponíveis, como dados de expressão gênica. Em todas as abordagens anteriores, a função de pontuação para uma via candidata geralmente depende apenas de proteínas adjacentes na via. Propomos também considerar proteínas que estão a uma distância dois no caminho (nós as chamamos de vizinhas de nível 2). Derivamos uma função de pontuação com base em proteínas adjacentes e vizinhos de nível 2 na via e mostramos que nossa função de pontuação pode aumentar a precisão das vias previstas por meio de um conjunto de experimentos. O problema de calcular a via com pontuação ótima, em geral, é NP-difícil. Assim, estendemos um algoritmo aleatório para fazê-lo funcionar em nossa função de pontuação para calcular o caminho ideal com alta probabilidade.

INVESTIGANDO OS PAPÉIS DE FLEXIBILIDADE DO DNA NO RECONHECIMENTO E REGULAÇÃO DO PROMOTOR

Tentamos quantificar parcialmente a característica de "leitura indireta" do reconhecimento do promotor que pode aumentar ou inibir a ligação da RNA polimerase. Usando avanços recentes na compreensão da flexibilidade do B-DNA, desenvolvemos e testamos um modelo de brinquedo de dobra do DNA. O modelo é usado para estimar o custo energético de um tipo específico de curva, simulando um evento de ligação DNA-proteína, em cada local dentro de uma sequência de DNA contendo um promotor. A flexibilidade de promotores fortes e não regulados de colifagos líticos é comparada com a de promotores mais fracos e não regulados Escherichia coli sequências. Encontramos i) em ambos os casos, a localização favorecida para a introdução de uma curva de tamanho RNAP é frequentemente dentro da região do promotor do núcleo, embora, proporcionalmente, muito mais sequências de fago tenham esta característica ii) promotores regulados por Crp (um fator de transcrição de dobra de DNA) carecem desse recurso, sendo mais flexíveis de 50 a 80 sites antes da iniciação. Estas observações podem sugerir i) a flexibilidade do núcleo em promotores não regulados aumenta a atividade de transcrição e ii) papéis diferentes para a flexibilidade em sequências reguladas por Crp versus não reguladas na ativação.

REDES REGULATÓRIAS DE GENES AFETADAS POR MORA, UM REGULADOR GLOBAL CONTENDO GGDEF E DOMÍNIOS EAL EM PSEUDOMONAS AERUGINOSA

Pseudomonas aeruginosa é um patógeno bacteriano oportunista bem conhecido, que causa alta mortalidade em pacientes imunocomprometidos. É a principal causa de aumento da morbidade e mortalidade em pacientes com fibrose cística (FC) (Stover et al., 2000) e em pacientes com infecções associadas à AIDS (Quinn, 1998). Pacientes com FC comumente sofrem de infecções do trato respiratório por P. aeruginosa, que pode causar infecções persistentes nos pulmões. Esses pacientes eventualmente sucumbem ao dano pulmonar causado pela infecção persistente, resultando em insuficiência pulmonar e morte (Stover et al., 2000). Relatórios de P. aeruginosa infecções hospitalares são generalizadas. Uma pesquisa no Reino Unido mostrou que o organismo mais comum isolado da expectoração de pacientes com FC é P. aeruginosa (Pitt et al., 2003). Em um estudo italiano, P. aeruginosa o isolamento foi responsável por 14% dos 25.266 isolados consecutivos de bactérias aeróbias e por 21% dos isolados de bactérias Gram negativas clinicamente importantes (Bonfiglio et al., 1998). Duas razões principais surgiram para a persistência de P. aeruginosa em infecções hospitalares e em pacientes com FC levando a situações crônicas (i) o estabelecimento de biofilmes (comunidades bacterianas aderidas à superfície) nos pulmões de pacientes com FC e (ii) surgimento de cepas multirresistentes (MDR) de P. aeruginosa. Biofilmes bacterianos podem causar sérios problemas ambientais e as células podem se tornar 100 a 1.000 vezes mais resistentes aos agentes antimicrobianos. Por essas razões, existe um grande interesse mundial no desenvolvimento de antibióticos antipseudomonais que serão especialmente eficazes no combate à formação de biofilme. Um novo regulador, morA, foi identificado anteriormente por afetar a formação de biofilme em P. aeruginosa (Choy et al., 2004). Estudos de expressão gênica foram subsequentemente realizados no Wild-Type (WT) e morA mutante de P. aeruginosa. A partir dos resultados dos estudos de expressão, vários genes que apresentaram diferença significativa entre WT e mutante foram selecionados para análise posterior. Isso levou ao desenvolvimento de redes que ligavam genes com base em semelhanças em suas regiões promotoras ou regulatórias. Os genes que estavam altamente conectados na rede foram de grande interesse e estudos adicionais sobre esses genes podem ajudar a lançar luz sobre a relação entre P. aeruginosa motilidade e sua virulência.


Referências

Acuna-Hidalgo R, Veltman JA, Hoischen A. Novos insights sobre a geração e o papel das mutações de novo na saúde e na doença. Genome Biol. 201617: 241.

Collins RL, Brand H, Redin CE, Hanscom C, Antolik C, Stone MR et al. Definindo o espectro de grande variação estrutural complexa e cromotripsia extrema na linha germinal humana mórbida. Genome Biol. 10.1186 / s13059-017-1158-6

Shaheen R, Szymanska K., Basu B, Patel N., Ewida N., Faqeih E, et al. Caracterizando o genoma mórbido das ciliopatias. Genome Biol. 201617: 242.

Eggers S, Sadedin S, van den Bergen JA, Robevska G, Ohnesorg T, Hewitt J, et al. Distúrbios do desenvolvimento sexual: percepções do sequenciamento de genes direcionados de uma grande coorte internacional de pacientes. Genome Biol. 201617: 243.

Shamseldin HE, Masuho I, Alenizi A, Alyamani S, Patil DN, Ibrahim N, et al. A mutação GNB5 causa um novo transtorno neuropsiquiátrico com transtorno de déficit de atenção e hiperatividade, desenvolvimento de linguagem gravemente prejudicado e cognição normal. Genome Biol. 201617: 195.

Abouelhoda M, Faquih T, El-Kalioby M, Alkuraya FS. Revisitando o genoma mórbido dos distúrbios de Mendel. Genome Biol. 201617: 235.

Jansen IE, Ye H, Heetveld S, Lechler M, Michels H, Seinstra RI et al. Descoberta e priorização funcional de genes candidatos à doença de Parkinson a partir do sequenciamento de exoma completo em larga escala. Genome Biol. 10.1186 / s13059-017-1147-9

Katsanis N. O continuum de causalidade em doenças genéticas humanas. Genome Biol. 201617: 233.

Delahaye-Duriez A., Srivastava P., Shkura K., Langley SR, Laaniste L., Moreno-Moral A., et al. As epilepsias raras e comuns convergem em uma rede reguladora de genes compartilhada, proporcionando oportunidades para a descoberta de novos medicamentos antiepilépticos. Genome Biol. 201617: 245.

Yu B, de Vries PS, Metcalf GA, Wang Z, Feofanova EV, Liu X, et al. Análise da sequência do genoma completo dos níveis de aminoácidos no soro. Genome Biol. 201617: 237.

Quintana-Murci L. Compreendendo as doenças raras e comuns no contexto da evolução humana. Genome Biol. 201617: 225.

Sams AJ, Dumaine A, Nédélec Y, Yotova V, Alfieri C, Tanner JE, et al. O haplótipo Neandertal adaptativamente introgresso no locus OAS impacta funcionalmente as respostas imunes inatas em humanos. Genome Biol. 201617: 246.

Hannon E, Dempster E, Viana J, Burrage J, Smith AR, Macdonald R, et al. Uma análise genética-epigenética integrada da esquizofrenia: evidências para co-localização de associações genéticas e metilação diferencial de DNA. Genome Biol. 201617: 176.

Meddens CA, Harakalova M., van den Dungen NAM, Asl HF, Hijma HJ, Cuppen EPJG, et al. A análise sistemática das interações da cromatina nos loci associados à doença liga novos genes candidatos à doença inflamatória intestinal. Genome Biol. 201617: 247.

Ligthart S, Marzi C, Aslibekyan S, Mendelson MM, Conneely KN, Tanaka T, et al. As assinaturas de metilação do DNA de inflamação crônica de baixo grau estão associadas a doenças complexas. Genome Biol. 201617: 255.

Joehanes R, Zhang X, Huan T, Yao C, Ying S-X, Nguyen QT et al. A análise integrada de todo o genoma da expressão de loci de características quantitativas auxilia na interpretação de estudos de associação genômica. Genome Biol. 10.1186 / s13059-016-1142-6

McGovern A, Schoenfelder S, Martin P, Massey J, Duffus K., Plant D, et al. Capture Hi-C identifica um novo gene causal, IL20RA, na região de suscetibilidade genética pan-autoimune 6q23. Genome Biol. 201617: 212.

Nazeen S, Palmer NP, Berger B, Kohane IS. A análise integrativa de conjuntos de dados genéticos revela um componente imunológico inato compartilhado no transtorno do espectro do autismo e suas comorbidades. Genome Biol. 201617: 228.

Liang S, et al. iRegNet3D: rede reguladora integrada 3D para a análise genômica de mutações de doenças codificantes e não codificantes. Genome Biol. 201718: 10.

Chen L, Jin P, Qin ZS. DIVAN: identificação precisa de variantes de risco específicas da doença não codificantes usando perfis multiômicos. Genome Biol. 201617: 252.

Contribuições dos autores

Ambos os autores escreveram e aprovaram o manuscrito final.

Interesses competitivos

MIM atua em painéis consultivos para Pfizer e NovoNordisk recebeu honorários da Pfizer, NovoNordisk e Eli Lilly e recebeu financiamento para pesquisa da Pfizer, Eli Lilly, NovoNordisk, Sanofi-Aventis, Boehringer Ingelheim, Astra Zeneca, Janssen, Takeda, Roche, Merck , Abbvie e Servier como parte de iniciativas de pesquisa pré-competitiva apoiadas pela Innovative Medicines Initiative e pela Accelerating Medicines Partnership. DGM é um fundador com participação acionária na Goldfinch Biopharma e recebeu financiamento para pesquisa da Biogen, Merck, Pfizer e Eisai.


Discussão

Neste trabalho, demonstramos a utilidade dos sistemas repórter de tag de DNA para medições quantitativas de alto rendimento de cis- atividade reguladora: primeiro, por identificação de novo de 81 CRMs ativos para 34 genes e, segundo, por medição simultânea de alta resolução das saídas temporais de & # x0003e80 CRMs ativos. Não há nenhuma razão óbvia para que os sistemas de etiqueta de DNA projetados de acordo com os mesmos princípios demonstrados aqui não funcionem em outros sistemas modelo. Esta abordagem pode ser diretamente transferível para outros animais ou plantas com apenas pequenas modificações, como a mudança do promotor basal para um promotor endógeno promiscuamente ativo.

Pontos fortes e fracos do alto rendimento cis-Análise regulatória usando vetores de tag.

A principal vantagem que esse avanço confere é óbvia: ele fornece um grande aumento na eficiência e na taxa da operação mais importante em genômica funcional experimental, cis-análise regulatória. O uso do sistema de 13 DNA-tag proporcionou literalmente um aumento maior que 10 vezes na taxa de análise, além de apresentar uma oportunidade para medições comparativas de múltiplos CRMs no mesmo experimento. Os experimentos usando o sistema de etiqueta de DNA 129 não poderiam nem mesmo ter sido concebidos de forma prática usando métodos tradicionais, portanto, embora possa ser calculado que a taxa de análise é melhorada & # x0003e100 vezes, a melhoria real é qualitativa: agora podemos considerar tipos de experimentos que antes estavam totalmente fora dos limites. Além disso, muitos outros aspectos de cis-análises regulatórias do que aquelas que escolhemos investigar neste estudo são passíveis de aceleração pelos mesmos métodos. Por exemplo, múltiplas mutações de CRM específicas do site & # x02013 podem ser examinadas de uma vez em experimentos únicos para seus efeitos na produção regulatória e, novamente, tais comparações realizadas em experimentos únicos com um conjunto comum de controles oferecem projetos experimentais superiores.

Várias advertências importantes precisam ser consideradas. Primeiro, existem dois aspectos essenciais de cis-análise regulatória que este desenvolvimento inicial não aborda. Não fornece informação de expressão espacial e não detecta CRMs, cuja função é a repressão. Ambos os objetivos podem, em princípio, ser alcançados por procedimentos de alto rendimento, usando princípios semelhantes, e agora estamos engajados apenas nesses projetos. Mais sérios, talvez, sejam os recursos funcionais inerentes às construções de expressão curta, que são os cavalos de batalha usuais de cis-análise regulatória. Em estudos recentes em nosso laboratório, comparamos diretamente a funcionalidade de construções curtas contendo dados cis-módulos reguladores com a atividade dos mesmos módulos no contexto do sistema regulatório multimódulo completo, usando vetores de expressão BAC recombinados (33, 35). Uma observação não incomum em tais comparações é que, no contexto, os mecanismos de escolha do módulo medeiam o uso exclusivo de um módulo em um determinado momento e a exclusão dos outros. No entanto, em construções curtas, onde não há escolha, o promotor basal usará tudo o que for fornecido e, portanto, a faixa observada de atividade de construções curtas excede a do mesmo módulo no contexto. Isso certamente nem sempre é verdade, e às vezes a diferença entre a expressão de um BAC do qual um módulo foi excluído e a expressão do BAC de controle é exatamente igual à previsão, com base no comportamento de uma construção curta conduzida por esse módulo. No entanto, porque a leitura temporal de construções curtas pode exceder sua função normal, os resultados da análise na Fig. 4 devem ser considerados apenas como indicando os limites possíveis externos de sobreposição do módulo, em vez de uma medição dos mesmos. Isso não afetará os casos em que os módulos de um determinado gene operam em momentos diferentes, pois isso simplesmente significa que eles respondem a entradas regulatórias apresentadas em diferentes estágios de desenvolvimento. Da mesma forma, construções curtas que se expressam em vários locais específicos são indicadores perfeitamente confiáveis ​​das entradas espaciais às quais respondem.

Múltiplos CRMs por gene.

Os genes neste estudo são principalmente genes reguladores, e a alta fração desses que têm vários CRMs não é surpresa. No entanto, a facilidade com que fomos capazes de recuperar vários módulos por gene merece destaque. O mesmo acontece com o resultado do St análise, que, mesmo dada a advertência acima, sugere que geralmente não é difícil recuperar CRMs que abrangem todas as fases da atividade de um gene & # x02019s. A tecnologia é suficientemente poderosa que, mesmo na ausência de informações de conservação interespecíficas, ou independentemente dela, uma grande região intergênica pode ser dividida em pedaços cegos de 3 & # x020135 kb (ou maiores), e todos eles podem ser ensaiados em um único experimentar. Embora não tenhamos tentado sistematicamente fazer isso, agora está aberto o caminho para recuperar a priori todos os CRMs positivos para qualquer gene de interesse, examinando todo o espaço de sequência possível em que esse gene & # x02019s CRMs possa existir. É claro que o problema de determinar qual gene na vizinhança de um CRM está sendo regulado por ele requer mais informações, porque estamos principalmente interessados ​​em genes expressos especificamente. Os dados de expressão espacial para CRMs recém-descobertos são críticos aqui. A evidência das funções potenciais de todos os CRMs que constituem o sistema de controle geral de um gene será inestimável quando realizada em conjunto com o contexto cis-análise regulatória desse gene. Essa evidência fornece a linha de base da função de CRM individual potencial com a qual a operação do sistema quando está completo pode ser comparada. Assim, acreditamos que a metodologia de descoberta de CRM de alto rendimento deve contribuir materialmente para o progresso em uma área amplamente inexplorada, mas conceitualmente muito importante, da biologia molecular regulatória, controle do uso de CRMs alternativos.

Implicações de alto rendimento cis-Metodologia regulatória para resolução de redes regulatórias de genes.

Atualmente, as redes de regulação gênica são resolvidas pelos métodos & # x0201ctop down & # x0201d, nos quais dados de expressão e perturbação de todo o sistema são usados ​​para construir o modelo de rede. Em seguida, uma etapa crucial é a validação das ligações previstas na rede, pelo isolamento do relevante cis-módulos regulatórios e teste da funcionalidade dos sites de destino mediando respostas às entradas regulatórias. Agora, no entanto, podemos considerar uma abordagem baseada no uso de alto rendimento cis- sistemas regulatórios ab initio, nos quais a análise de módulos cis- as respostas regulatórias às perturbações da expressão gênica são testadas simultaneamente com a análise dos efeitos da perturbação nos genes endógenos. Isso irá indicar qual cis-módulo regulatório é relevante para a rede em questão e ajudará muito na distinção entre ligações diretas e indiretas, mesmo durante a formulação da rede. Além disso, os procedimentos de aquisição de dados controlados internamente e quantitativos que o sistema de etiquetas possibilita devem facilitar as análises computacionais e estatísticas subsequentes. O resultado será revolucionar a análise de GRN onde esses métodos podem ser aplicados, produzindo GRNs de rascunho que desde o início usam cis-trans interações para determinar a arquitetura da rede.


RECOMB Regulatory Genomics / Systems Biology / DREAM Conference 2010

Pelo terceiro ano, três conferências sobre regulação genética, biologia de sistemas e biologia de rede uniram forças. Durante cinco dias, de 16 a 20 de novembro de 2010, a reunião na Igreja Riverside perto da Universidade de Columbia combinou a 7ª Conferência Satélite RECOMB sobre Genômica Regulatória, presidida por Manolis Kellis e Ziv Bar-Joseph, com a 6ª Conferência Satélite RECOMB sobre Biologia de Sistemas e a 5ª Conferência DREAM, presidida por Gustavo Stolovitzky e Andrea Califano.

Além das palestras resumidas no relatório da reunião, as conferências incluíram apresentações orais e em pôsteres de novos trabalhos empolgantes nesses campos dinâmicos. Além disso, a Conferência DREAM destacou os resultados da última rodada de "Desafios" para avaliar as habilidades dos participantes em aprender sobre redes biológicas a partir de dados cegos. Relatórios e vídeos mais detalhados da conferência podem ser acessados ​​usando a barra de navegação acima.

Use as guias acima para encontrar um relatório de reunião e multimídia deste evento.

Apresentações disponíveis em:

Matti Annala (Universidade de Tecnologia de Tampere, Finlândia)
Nicola Barbarini (Universidade de Pavia, Itália)
Harmen Bussemaker (Universidade de Columbia)
Alberto de la Fuente (CRS4)
Tom Gingeras (Laboratório Cold Spring Harbor)
V & acircn Anh Huynh-Thu (Universidade de Li e egravege, Bélgica)
Leonid Kruglyak (Universidade de Princeton)
Robert K & uumlffner (Ludwig-Maximilians-Universit & aumlt, Munique, Alemanha)
Po-Ru Loh (MIT)
Daniel Marbach (Instituto de Tecnologia de Massachusetts)
Randall T. Moon (HHMI e Universidade de Washington)
Raquel Norel (IBM Research)
Yaron Orenstein (Universidade de Tel Aviv)
Rob Patro (Universidade de Maryland)
Scott Powers (Laboratório Cold Spring Harbor)
Bobby Prill (IBM Research)
Stuart Schreiber (HHMI, Broad Institute of Harvard e MIT)
Eran Segal (Instituto de Ciência Weizmann, Israel)
Michael Snyder (Universidade de Stanford)
Peter Sorger (Harvard Medical School)
John Stamatoyannopoulos (Universidade de Washington)
Hans-J & uumlrgen Thiesen (Universidade de Rostock)
Marc Vidal (Harvard Medical School)
Matthieu Vignes (Institut National de la Recherche Agronomique (INRA), Toulouse, França)
Matthew Weirauch (Universidade de Toronto)

Imagem: Rede de dependência filogenética para adaptação ao HIV.
Crédito: Jonathan Carlson e David Heckerman (Microsoft Research).

Apresentado por:

Estratégias para identificar e validar novos componentes de redes de transdução de sinal

Randall T. Moon (HHMI, Universidade de Washington)
    1. Introdução a rede Wnt-beta-catenina 2. A via de sinalização Promoção e inibição Papéis dependentes do contexto em adultos 3. Identificação e validação de redes de sinalização 4. Telas proteômicas Telas de moléculas pequenas 5. Limitações Telas de intregrantes 6. Resumo Agradecimentos e conclusões

Lego transcricional: controle previsível da expressão gênica pela manipulação dos blocos de construção do promotor

Eran Segal (Instituto de Ciência Weizmann)
    1. Introdução 2. A estrutura de modelagem 3. Medição da expressão de uma sequência promotora 4. Medição de elementos de sequência sistematicamente variados 5. A presença, comprimento e força do limite 6. Fator e afinidade do local O local TF A importância da distância 7 O ajuste fino dos níveis de expressão 8. A importância das sequências desfavoráveis ​​do nucleossomo Agradecimentos e conclusões

Preenchendo a lacuna com sondas de câncer de pequenas moléculas

Stuart Schreiber (HHMI, Broad Institute of Harvard e MIT)
    1. Introdução 2. Mapeamento de genótipo / sensibilidade SM 3. Direcionamento de co-dependências não oncogênicas Modelagem 4. Biologia de ROS e sensibilidade de molécula pequena A Rede CTD2 5. Modelos de linha celular de câncer CCLE e o kit de sonda de molécula pequena 6. Agrupamento global de estudos de dados da fase piloto 7. Agradecimentos e conclusões

Redes Interactome e doenças humanas

Marc Vidal (Dana – Farber Cancer Institute)
    1. Introdução 2. A abordagem de rede e propriedades globais Atributos biológicos 3. Mapeamento controlado empiricamente Examinando perturbações de rede, experimentos 4. Comparando variações genéticas e patógenos 5. Visões da evolução centradas no gene e centradas na extremidade Paralogs Família Actin 6. A evolução de redes interativas 7. Agradecimentos, resumo e conclusões

Transdução de sinal e mecanismo farmacêutico das perspectivas de baixo para cima e de cima para baixo

Peter Sorger (Harvard Medical School)
    1. Introdução 2. Sinalização EGFR e receptores ErbB Experimento ErbB1 3. ErbB2 e ErbB3 Phospho turnover 4. Diferenças na fosfodinâmica 5. Implementações de modelos e estimativas de taxas 6. Contexto de rede Inferência de diferenças em topologias 7. Modelos de comparação e agrupamento Lógica difusa modelagem Mapeamento específico do contexto 8. Resumo Oportunidades de concessão Agradecimentos e conclusões

Identificação de fatores oncogênicos e biomarcadores preditivos no câncer de fígado

Scott Powers (Laboratório Cold Spring Harbor)
    1. Introdução Opções de tratamento do CHC 2. Oncogenes ativados no HCC humano Rastreamento de cDNA oncogenômico 3. Algoritmos de predição POFUT1 4. CCND1 e FGF19 5. Rastreamento oncogenômico em câncer de ovário 6. Agradecimentos e conclusões

Genomas e Variação

Michael Snyder (Universidade de Stanford)
    1. Introdução Sequenciamento com diferentes tecnologias 2. Mapeamento de variações estruturais variação de ligação ao TF em levedura 3. Ligação de Ste12 e seis novos fatores Trans QTLs Amn1 e Flo8 4. Variação de ligação de TF entre pessoas Variações mapeáveis ​​5. Conclusões e reconhecimento

Qual é a base genética da variação fenotípica?

Leonid Kruglyak (Universidade de Princeton)
    1. Introdução Altura e herdabilidade 2. Dissecando fenótipos geneticamente complexos através de leveduras 3. Sensibilidade 4NQO Avaliando efeitos e interações Diferenças arquitetônicas 4. Dissecando características complexas em populações Padrões alélicos simples 5. Resumo e direções futuras Agradecimentos e conclusões

Transcriptomas eucarióticos: complexos, multifuncionais, compartimentalizados e elegantes

Thomas Gingeras (Laboratório Cold Spring Harbor)
    1. Introdução 2. GENCODE Alterações nos dados RNAseq 3. Compartimentação subcelular ENCODE transcriptoma IDR do projeto 4. Transcrições não anotadas Conclusio

Identificando os determinantes genéticos da atividade de TF

Harmen Bussemaker (Universidade de Columbia)
    1. Introdução Filosofia de modelagem 2. Aspectos da função do TF Identificação dos determinantes genéticos da atividade do fator do TF 3. Identificação por meio de dados de interação proteína-proteína 4. Resumo e conclusão

Aprendendo com a Diversidade

Rob Patro (Universidade de Maryland)

Predição da reatividade do peptídeo com IVIg humano por meio de uma abordagem baseada no conhecimento

Nicola Barbarini (Universidade de Pavia, Itália)

Um Método de Melhor Desempenho DREAM5 para Predição de Afinidade de Ligação TF em Microarrays PBM

Matti Annala (Universidade de Tecnologia de Tampere, Finlândia)

Analisando dados de PBM para encontrar motivos de local de ligação e prever intensidades de ligação TF

Yaron Orenstein (Universidade de Tel Aviv)

Reconstrução da rede reguladora de genes usando redes bayesianas, o seletor de Dantzig e o laço: uma meta-análise

Matthieu Vignes (Institut National de la Recherche Agronomique, Toulouse, França)

Max-Correlation Min-Redundancy e outras variantes de regressão predizem o fenótipo em DREAM5

Po-Ru Loh (Instituto de Tecnologia de Massachusetts)

Inferência de Rede Regulatória com GENIE3: Aplicação ao Desafio DREAM5

Vân Anh Huynh-Thu (Universidade de Liège, Bélgica)

Inferência de GRNs por ANOVA

Robert Küffner (Ludwig-Maximilians-Universität, Munique, Alemanha)

Reconhecimento de epítopo-anticorpo (EAR)

Hans-Jürgen Thiesen (Universidade de Rostock)

Aprendendo e testando modelos de fator de transcrição usando microarrays de ligação de proteínas

Matt Weirauch (Universidade de Toronto)

Os desafios da genética de sistemas DREAM5

Alberto de la Fuente (CRS4)

Perfis de métodos de inferência de rede: O desafio de inferência de rede DREAM5

Daniel Marbach (Instituto de Tecnologia de Massachusetts)

Resultados do DREAM5 Challenge2

Raquel Norel (IBM Research)

Resultados do Desafio 1 de DREAM5: Reconhecimento de Epítopo-Anticorpo (EAR)

Bobby Prill (IBM Research)

Resultados do Desafio 3 de DREAM5: Genética de Sistemas A e B

Bobby Prill (IBM Research)

Resultados do Desafio 4 de DREAM5: Inferência de Rede [Gene]

Bobby Prill (IBM Research)

Projetos, bancos de dados e ferramentas

Coleção de genes de mamíferos
Este banco de dados fornece aos pesquisadores acesso irrestrito a clones de cDNA codificadores de proteínas de comprimento total validados por sequência para genes humanos, de camundongo e de rato.

Banco de dados de mutações de genes humanos
Este banco de dados reúne lesões de genes publicados responsáveis ​​por doenças hereditárias humanas.

Atlas do Genoma do Câncer
O Atlas do Genoma do Câncer é um esforço abrangente e coordenado para acelerar nossa compreensão da genética do câncer usando tecnologias inovadoras de análise do genoma.

Consórcio Internacional do Genoma do Câncer (ICGC)
O ICGC visa obter uma descrição abrangente das alterações genômicas, transcriptômicas e epigenômicas em 50 tipos e / ou subtipos diferentes de tumor de importância clínica e social em todo o mundo.

Portal do Caminho do Genômico do Câncer
Este portal fornece download direto e visualização de conjuntos de dados genômicos de câncer em grande escala, atualmente câncer de próstata, sarcoma e glioblastoma multiforme. (Vídeo de demonstração)

Rede de descoberta e desenvolvimento de alvos para câncer (CTD 2)
A rede tem como objetivo desenvolver novas abordagens científicas para acelerar a tradução de descobertas genômicas em novos tratamentos.

ChemBank
ChemBank é um ambiente de informática público baseado na web, incluindo dados derivados de pequenas moléculas e telas de pequenas moléculas, e recursos para estudar os dados.

Projeto ENCODE
O Projeto ENCODE visa identificar todos os elementos funcionais na sequência do genoma humano.

Projeto GENCODE
O projeto GENCODE é um subprojeto do projeto de aumento de escala ENCODE, cujo objetivo é anotar todas as características genéticas baseadas em evidências em todo o genoma humano com alta precisão

modENCODE
modENCODE tentará identificar todos os elementos funcionais baseados em sequência no Caenorhabditis elegans e Drosophila melanogaster genomas.

NIH Roadmap Epigenetics Mapping Consortium
O NIH Roadmap Epigenetics Mapping Consortium visa produzir para um recurso público de dados epigenômicos humanos para catalisar biologia básica e pesquisas orientadas para doenças.

Pathway Commons
Pathway Commons é uma ferramenta para pesquisar e visualizar informações de vias biológicas públicas.

Herança Mendeliana Online no Homem (OMIM)
OMIM é um compêndio abrangente, confiável e oportuno de genes e fenótipos genéticos humanos.

Pfam
Pfam é uma grande coleção de famílias de proteínas, cada uma representada por múltiplos alinhamentos de sequência e modelos ocultos de Markov (HMMs)

Navegador UCSC Genome
Este site contém a sequência de referência e conjuntos de rascunho de trabalho para uma grande coleção de genomas.

Projeto 1000 Genomes
O Projeto 1000 Genomes visa sequenciar os genomas de um grande número de pessoas, para fornecer um recurso abrangente sobre a variação genética humana.

Catálogo de estudos de associação de todo o genoma
O Catálogo de Estudos de Associação de todo o Genoma lista estudos que tentam testar pelo menos 100.000 polimorfismos de nucleotídeo único (SNPs).

Artigos de jornal

Steven Altschuler

Altschuler SJ, Angenent SB, Wang Y, Wu LF. Sobre o surgimento espontâneo da polaridade celular. Natureza. 2008454(7206):886-889.

Charlie Boone

Costanzo M, Baryshnikova A, Bellay J, et al. A paisagem genética de uma célula. Ciência. 2010327(5964):425-431.

Dowell RD, Ryan O, Jansen A, et al. Genótipo para fenótipo: um problema complexo. Ciência. 2010328(5977):469.

Harmen Bussemaker

Brown TA. Genomas. 2ª edição. Oxford: Wiley-Liss 2002.

Rockman MV, Kruglyak L. Genetics of global gene expression. Nat. Rev. Genet. 20067(11):862-872.

Tom Gingeras

Leonid Kruglyak

Khan Z, Bloom JS, Garcia BA, Singh M, Kruglyak L. Quantificação de proteína em centenas de condições experimentais. Proc. Natl. Acad. Sci. EUA. 2009106(37):15544-15548.

Randall T. Moon

Major MB, Moon RT. Avaliação de risco "Omic". Sci Signal. 20092 (72): eg7.

Scott Powers

Chris Sander

Cerami EG, Gross BE, Demir E, et al. Pathway Commons, um recurso da web para dados de vias biológicas. Res de ácidos nucléicos. 201139 (problema de banco de dados): D685-690.

Taylor BS, Barretina J, Socci ND, et al. Alterações funcionais do número de cópias no câncer. PLoS ONE. 20083 (9): e3179.

Stuart Schreiber

Schreiber SL, Shamji AF, Clemons PA, et al. Rumo à terapêutica do câncer baseada no paciente. Nat. Biotecnol. 201028(9):904-906.

Eran Segal

Peter Sorger

Morris MK, Saez-Rodriguez J, Sorger PK, Lauffenburger DA. Modelos baseados em lógica para a análise de redes de sinalização celular. Bioquímica. 201049(15):3216-3224.

Michael Snyder

Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB. Anotar regiões não codificantes do genoma. Nat. Rev. Genet. 201011(8):559-571.

Kasowski M, Grubert F, Heffelfinger C, et al. Variação na ligação do fator de transcrição entre humanos. Ciência. 2010328(5975):232-235.

John Stamatoyannopoulos

Bernstein BE, Stamatoyannopoulos JA, Costello JF, et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotecnol. 201028(10):1045-1048.

Marc Vidal

Goh K, Cusick ME, Valle D, et al. A rede de doenças humanas. Proc. Natl. Acad. Sci. EUA. 2007104(21):8685-8690.

Desafios DREAM

Candès e Tao. 2007. O seletor de Dantzig: estimativa estatística quando p é muito maior que n. Ann. Estado.35:2313-2351.

Friedman N, Linial M, Nachman I, Pe'er D. Usando redes Bayesianas para analisar dados de expressão. J. Comput. Biol. 20007(3-4):601-620.

Margolin AA, Wang K, Lim WK, et al. Redes celulares de engenharia reversa. Nat Protoc. 20061(2):662-671.

Tiengo A, Barbarini N, Troiani S, Rusconi L, Magni P. Um procedimento Perl para identificação de proteínas por Peptide Mass Fingerprinting. BMC Bioinformática. 200910 Suppl 12: S11.

Organizadores

Ziv Bar-Joseph, PhD

Ziv Bar-Joseph é professor associado do Lane Center for Computational Biology da Carnegie Mellon University. Antes de iniciar este posto acadêmico, Bar-Joseph passou 4 anos (1999–2003) em Cambridge, Massachusetts, obtendo seu PhD em ciência da computação sob a orientação de David Gifford e Tommi Jaakkola. Ele fez seu mestrado e graduação na universidade hebraica, obtendo um BSc em ciência da computação e matemática e, em seguida, um M Sc em ciência da computação.

Seu trabalho na Carnegie Mellon é em biologia computacional, bioinformática e aprendizado de máquina. Bar-Joseph também lidera o grupo de biologia de sistemas, onde os pesquisadores desenvolvem métodos computacionais para a compreensão das interações, dinâmica e conservação de sistemas biológicos complexos. Alguns de seus trabalhos anteriores se concentraram nas áreas empolgantes da computação distribuída e da computação gráfica.

Andrea Califano, PhD

Andrea Califano é professor de informática biomédica na Columbia University, onde lidera várias atividades entre campus em biologia computacional e de sistemas. Califano também é codiretor do Centro de Biologia Computacional e Bioinformática, diretor do Centro de Análise Multiescala de Redes Genéticas e diretor associado de bioinformática do Irving Cancer Research Center.

Califano concluiu sua tese de doutorado em física na Universidade de Florença e estudou o comportamento de sistemas dinâmicos de alta dimensão. De 1986 a 1990, ele fez parte da equipe de pesquisa do Exploratory Computer Vision Group no IBM Thomas J. Watson Research Center, onde trabalhou em vários algoritmos para aprendizado de máquina, incluindo a interpretação de cenas visuais bidimensionais e tridimensionais. Em 1997, ele se tornou o diretor do programa do IBM Computational Biology Center e, em 2000, foi cofundador da First Genetic Trust, Inc., para realizar pesquisas genômicas translacionais e atividades relacionadas à infraestrutura no contexto de estudos de pacientes em larga escala com componentes genéticos.

Manolis Kellis, PhD

Manolis Kellis é Professor Associado de Ciência da Computação no MIT e membro do Laboratório de Ciência da Computação e Inteligência Artificial e do Broad Institute of MIT e Harvard, onde dirige o Grupo de Biologia Computacional do MIT. Seu grupo foi recentemente financiado para liderar os esforços de análise integrativa do projeto modENCODE para Drosophila melanogaster e também para a análise integrativa do NIH Epigenome Roadmap Project. Ele recebeu o Prêmio Presidencial de Carreira em Ciência e Engenharia (PECASE) por seu trabalho no NIH R01 em Genômica Computacional, o prêmio NSF CAREER, o Alfred P. Sloan Fellowship, a cadeira Karl Van Tassel no EECS, a cadeira Distinguished Alumnus 1964 e o Prêmio de Ensino Ruth e Joel Spira no EECS. Kellis obteve seu PhD do MIT, onde recebeu o prêmio Sprowls para a melhor tese de doutorado em ciência da computação, e a primeira bolsa de pós-graduação Paris Kanellakis. Antes da biologia computacional, ele trabalhou em inteligência artificial, esboço e reconhecimento de imagem, robótica e geometria computacional, no MIT e no Centro de Pesquisas Xerox Palo Alto.

Gustavo Stolovitzky, PhD

Gustavo Stolovitzky é gerente do Functional Genomics and Systems Biology Group no IBM Computational Biology Center em IBM Research. O grupo Functional Genomics and Systems Biology está envolvido em vários projetos, incluindo análise de chip de DNA e mineração de dados de expressão gênica, engenharia reversa de redes metabólicas e de regulação gênica, modelagem de músculo cardíaco, descrição de propriedades emergentes do miofilamento, modelagem de vias de sinalização de P53 e realizando análises de sequenciamento de assinaturas massivamente paralelas.

Stolovitzky recebeu seu PhD em engenharia mecânica pela Yale University e trabalhou na The Rockefeller University e no NEC Research Institute antes de vir para a IBM. Ele atuou como professor convidado Joliot no Laboratoire de Mecanique de Fluides em Paris e como professor visitante no departamento de física da Universidade Chinesa de Hong Kong. Stolovitzky é membro do comitê diretor do Grupo de Discussão de Biologia de Sistemas da Academia de Ciências de Nova York.

Caixas de som

Steven Altschuler, PhD
Matti Annala

Universidade de Tecnologia de Tampere, Finlândia
o email

Nicola Barbarini, PhD
Charlie Boone, PhD
Harmen Bussemaker, PhD
Alberto de la Fuente, PhD
Tom Gingeras, PhD
Vân Anh Huynh-Thu
Leonid Kruglyak, PhD
Robert Küffner, PhD

Ludwig-Maximilians-Universität, Munique, Alemanha
e-mail | site | publicações

Po-Ru Loh
Randall T. Moon, PhD
Raquel Norel, PhD
Yaron Orenstein
Rob Patro
Scott Powers, PhD

Laboratório Cold Spring Harbor
e-mail | local na rede Internet

Bobby Prill, PhD
Chris Sander, PhD

Memorial Sloan-Kettering Cancer Center, Sloan-Kettering Institute
e-mail | site | publicações

Stuart Schreiber, PhD

HHMI, Broad Institute of Harvard e MIT
e-mail | site | publicações

Eran Segal, PhD

Instituto de Ciência Weizmann, Israel
e-mail | site | publicações

Michael Snyder, PhD
Peter Sorger, PhD
John Stamatoyannopoulos, PhD
Gustavo Stolovitzky, PhD
Marc Vidal, PhD
Matthieu Vignes, PhD

Institut National de la Recherche Agronomique (INRA), Toulouse, França
e-mail | site | publicações

Matthew Weirauch, PhD
Don Monroe

Don Monroe é um escritor científico que mora em Murray Hill, New Jersey. Depois de obter um PhD em física no MIT, ele passou mais de quinze anos fazendo pesquisas em física e tecnologia eletrônica no Bell Labs. Ele escreve sobre biologia, física e tecnologia.

Patrocinadores

Pelo terceiro ano, três conferências sobre regulação genética, biologia de sistemas e biologia de rede uniram forças. Durante cinco dias, a reunião na Igreja Riverside perto da Universidade de Columbia combinou a 7ª Conferência Satélite RECOMB sobre Genômica Regulatória, presidida por Manolis Kellis e Ziv Bar-Joseph, com a 6ª Conferência Satélite RECOMB sobre Biologia de Sistemas e a 5ª Conferência DREAM, presidida por Gustavo Stolovitzky e Andrea Califano.

Além das palestras resumidas abaixo, as conferências contaram com apresentações orais e em pôsteres de novos trabalhos empolgantes nesses campos dinâmicos. Além disso, a Conferência DREAM destacou os resultados da última rodada de "Desafios" para avaliar as habilidades dos participantes em aprender sobre redes biológicas a partir de dados cegos.

Sinalização

Os padrões de expressão das células dependem em parte do contexto celular fornecido pelas vias de sinalização, como as vias Wnt e ErbB, cada uma das quais está implicada em cânceres. A estimulação da via de sinalização Wnt versátil tem efeitos marcadamente diferentes, dependendo de quando e onde ocorre. Para encontrar moléculas que controlam essa sensibilidade, Randall Moon usa ensaios de embriões de rã e peixe e ensaios baseados em células usando siRNA, proteômica e pequenas moléculas. Integrar os resultados dessas telas ajuda a compensar suas fraquezas individuais, mas várias etapas de validação ainda são críticas, disse ele. Peter Sorger integra experimentos e modelos de sinalização, incluindo o da via ErbB, em vários níveis de detalhe. Os modelos de Sorger variam de equações diferenciais para dinâmicas detalhadas a modelos booleanos para grandes redes. Ele notou um conflito inerente entre o nível de detalhe biológico e a capacidade de determinar os parâmetros do modelo.

Câncer

Os cânceres de fígado mostram mudanças generalizadas no número de cópias dos genes. Scott Powers explorou regiões genômicas que são frequentemente amplificadas nesses cânceres e encontrou 18 genes cuja superexpressão causa câncer de fígado em um modelo de camundongo. Esses genes podem ser úteis como biomarcadores para as vias que são interrompidas em tumores específicos. Os projetos do genoma do câncer mostram que as mutações em cada paciente são diferentes, mas tendem a afetar um grupo comum de vias. Chris Sander acredita que as melhores terapias reconhecerão esses módulos comuns, mas usam combinações de drogas destinadas a subgrupos específicos de pacientes.

Heterogeneidade

A heterogeneidade nas populações de células é onipresente, disse Steven Altschuler, e geralmente é biologicamente importante. Como as células individuais podem se comportar de maneira completamente diferente da média da população, os pesquisadores precisam justificar o uso de médias. Reconhecer a distribuição heterogênea de RNA transcrito em diferentes compartimentos subcelulares, disse Thomas Gingeras, permite que os pesquisadores encontrem transcrições raras. Cerca de metade do genoma é transcrito e processado, diz ele, e parece incluir muitos tipos de RNA cuja função ainda não é conhecida.

Perturbações

A análise da resposta das células a pequenas moléculas, disse Stuart Schreiber, fornece uma visão biológica sobre os processos celulares, bem como o potencial para a terapêutica. Ele e seus colegas estão catalogando sistematicamente as relações dose-resposta para um painel de moléculas altamente específicas, que junto com a caracterização genética das células deve fornecer uma ferramenta importante para traduzir a ciência em tratamentos. Marc Vidal disse que o crescente mapeamento e compreensão de redes, como as de interações de proteínas, fornecem informações biológicas importantes. Mais da metade das mutações que causam doenças humanas parecem mudar a maneira como as macromoléculas interagem, em vez de incapacitar as espécies moleculares individuais. Essas mutações "edgetic" podem ajudar a explicar as relações estreitas entre muitas doenças.

Interações genéticas

Os padrões de interação genética, como quais pares de genes apresentam letalidade sintética quando ambos são excluídos, fornecem uma visão poderosa sobre suas funções, disse Charlie Boone. Ele e seus colaboradores estão usando análises quantitativas para avaliar todos os 18 milhões de possíveis mutantes duplos dos 6.000 genes de levedura e construindo redes com base nos resultados. Mas a variabilidade natural é muito mais complicada, porque as variantes gênicas geralmente têm pequenos efeitos e aparecem contra um pano de fundo de variações em outros genes. O fundo pode modificar o efeito de uma variante e confundir as tentativas de rastrear características hereditárias para variantes individuais. Leonid Kruglyak desenvolveu métodos para mapear todos os loci genéticos que contribuem para características continuamente variáveis, revelando muitos loci e interações complexas entre eles.

Regulação de todo o genoma

Diferenças nas interações regulatórias, em particular na ligação de fatores de transcrição, estão por trás de muitas variações individuais, bem como de doenças, disse Michael Snyder. As diferenças de sequência subjacentes às variações de ligação geralmente afetam não os motivos dos fatores de transcrição em si, mas de outros cofatores que podem ser tão importantes para os poucos genes que regulam. A acessibilidade geral do DNA a moléculas regulatórias pode ser mapeada usando a endonuclease DNase I, disse John Stamatoyannopoulos, e o padrão de sua ligação ao genoma reflete as linhagens de desenvolvimento. Em um nível de nucleotídeo único, a clivagem fornece uma impressão digital específica para cada fator de transcrição.

Interações DNA & ndashproteína

A organização dos nucleossomos e dos fatores de transcrição é amplamente explicada por sua afinidade dependente da sequência, disse Eran Segal. Sua equipe desenvolveu um ensaio de expressão quantitativa para avaliar os efeitos das mudanças de sequência, incluindo o efeito dramático de sequências de poli-adenosina rígidas na inibição da formação de nucleossomos e, portanto, permitindo o acesso de fatores de transcrição ao DNA. A afinidade de ligação calculada das proteínas ao DNA deve incluir dependências entre as diferentes posições, disse Harmen Bussemaker, conforme mostrado pela clivagem dependente da sequência de DNA pela DNase I. O uso de afinidades previstas permite aos pesquisadores extrair com precisão os determinantes genéticos dos fatores de transcrição.

Os desafios DREAM

O DREAM desafia a avaliação crítica dos métodos para fazer deduções sobre os sistemas biológicos a partir de dados de alto rendimento. Devido à diversidade de técnicas de medição e problemas biológicos, os vários desafios são personalizados e ajustados de ano para ano.

Este ano, os co-organizadores dos desafios foram Gustavo Stolovitzky, Robert Prill, e Julio Saez-Rodriguez. A pontuação foi liderada por Prill e Raquel Norel, com suporte do site de Tom Garben. Havia quatro desafios para DREAM5.

o Desafio de reconhecimento de epítopo-anticorpo (EAR) exigiu que as equipes previssem quais peptídeos reagiriam com um painel de anticorpos, com base na reatividade conhecida de um grupo semelhante de peptídeos. Os dados foram reunidos por Hans-Juergen Thiessen e seus colegas. As equipes de melhor desempenho, representadas por Rob Patro e Nicola Barbarini ambos usaram classificação de máquina com base principalmente em vários recursos de dados de sequência de peptídeos.

o Desafio de reconhecimento do fator de transcrição-DNA-motivo os dados foram reunidos por Matt Weirauch e Tim Hughes da Protein-Binding Microarrays (PBMs). O principal desafio era prever as preferências de ligação dos fatores de transcrição a uma ampla gama de sequências de DNA, com base nas especificidades medidas de um conjunto de fatores de transcrição de treinamento. Um desafio bônus foi identificar os fatores de transcrição testados em cada experimento. A equipe com melhor desempenho para o desafio principal, representada por Matti Annala, usou um modelo de afinidade linear com base nas sequências curtas mais informativas. Essa equipe compartilhou o título de melhor desempenho para a rodada de bônus com uma equipe representada por Yaron Orenstein empregando o localizador de motivos Amadeus, também baseado nas sequências curtas mais informativas.

o Desafio de genética de sistemas usou o tipo de dados que emergem de cruzamentos entre duas cepas puras muito diferentes. O cruzamento produz um grande número de descendentes distintos, cada um com um genótipo que possui um ou o alelo do outro pai para cada gene. Os dados foram reunidos por Alberto de la Fuente e seus colegas. A parte A deste desafio usou dados simulados de uma rede de 1000 genes com ambos cis e trans variações genéticas. A equipe de melhor desempenho, representada por Matthieu Vignes, usou vários algoritmos diferentes e combinou os resultados. A Parte B usou dados experimentais para resistência a fungos em soja. A equipe de melhor desempenho, representada por Po-Ru Loh, usou uma transformação de ordem de classificação para evitar ser inundada por outliers extremos e incluiu combinações lógicas booleanas para explicar as possíveis interações entre os genes.

o Desafio de inferência de rede representou um desafio recorrente nas reuniões DREAM, de deduzir uma rede de genes a partir dos níveis de expressão em vários estados perturbados. Daniel Marbach, Jim Costello, Diogo Camacho e Jim Collins reuniram os dados. Eles incluíram dados de um perfeitamente conhecido em sílico rede, como nos desafios DREAM anteriores, mas também três conjuntos de dados biológicos. Fermento e E. coli os dados foram pontuados com base em redes bem aceitas para essas espécies. Em contraste, os dados para Staphylococcus aureus não foi pontuado, mas será usado para gerar uma previsão da comunidade, uma vez que não há rede aceita para este micróbio. O melhor desempenho geral e em sílico foi representado por V & acircn Anh Huynh-Thu, e, como em sua análise de melhor desempenho de DREAM4, usou um modelo de árvore de decisão. O melhor intérprete para na Vivo dados, representados por Robert K & uumlffner, também foi uma repetição de DREAM4 e usou o teste ANOVA.

A inclusão de dados biológicos e simulados lado a lado representa um importante amadurecimento dos desafios DREAM e pode ajudá-los a atrair mais atenção dos biólogos para esses métodos de inferência.

Caixas de som:
Randall Moon, Universidade de Washington
Peter Sorger, Harvard Medical School e Massachusetts Institute of Technology

Destaques

  • A via de sinalização Wnt está envolvida em muitos processos, incluindo desenvolvimento embrionário e regeneração celular, mas seu efeito varia fortemente com o contexto celular.
  • Ensaios baseados em células em grande escala, incluindo silenciamentos de siRNA, redes proteômicas e telas de pequenas moléculas fornecem pistas importantes sobre quais genes e proteínas modulam a sinalização nesta via.
  • A integração de dados de várias telas identifica os candidatos com mais precisão do que análises únicas, mas vários níveis de validação ainda são essenciais para garantir conclusões precisas.
  • As medições dinâmicas da via de sinalização Erb mostraram uma rápida renovação do estado de fosforilação que contrasta com os longos tempos de recuperação normais e é crítica para a modelagem das respostas aos medicamentos.
  • Existe um conflito inerente entre a modelagem biológica abrangente e a capacidade de determinar os valores dos parâmetros, mas escolher os experimentos mais informativos pode melhorar muito a eficiência desse processo.
  • A modelagem de redes em grande escala requer abordagens como lógica booleana ou fuzzy, que são mais eficientes do que equações diferenciais exaustivas.

Dissecando sinalização Wnt

A sinalização biológica define o contexto biológico no qual os programas genéticos são executados. Em seus 25 anos de estudo da via de sinalização Wnt, Randall Moon aprendeu a importância de verificações independentes de significado biológico. "Múltiplos níveis de validação são incrivelmente importantes", diz ele, especialmente à medida que os pesquisadores aplicam novas ferramentas de alto rendimento que geram muitos candidatos moleculares para funções em um caminho.

O receptor Wnt transmembrana inicia sinais que afetam uma ampla variedade de processos. No desenvolvimento, por exemplo, esse sinal é central para a organização de tecidos e órgãos, de modo que embriões de rã desenvolvem uma segunda cabeça em resposta à sinalização Wnt externa. Em adultos, a via é importante para a regeneração e a homeostase das células-tronco, enquanto a sinalização Wnt excessiva leva a vários tumores.

"A sinalização Wnt pode ter alguns efeitos diferentes dependendo de quando e onde é expressa", enfatizou Moon, produzindo mudanças quase opostas em células idênticas cuja idade difere por apenas algumas horas. "A marca registrada da sinalização Wnt é que ela depende do contexto."

"O controle principal desta via gira em torno da regulação da estabilidade da proteína beta-catenina", observou ele, que atua por translocação para o núcleo para modificar a transcrição. A atividade da beta-catenina é regulada pela ubiquitinação, que visa a degradação proteossômica da proteína. A sinalização Wnt inibe essa ubiquitinação.

Muitos dos experimentos de Moon são realizados com embriões, por exemplo de rãs e peixes-zebra, onde ele observou que "a via de sinalização Wnt é usada em um contexto completamente normal" em vários tecidos. Para identificar outros atores candidatos na sinalização Wnt, Moon usa ensaios baseados em células, como silenciamento de siRNA, proteômica e ensaios de moléculas pequenas. Ainda assim, ele enfatizou, é importante "maximizar a validade de quaisquer acertos, para que você não gaste todo o seu tempo perseguindo acertos fora do alvo."

Moon descreveu uma tela de siRNA com base em um repórter de luciferase otimizado para a presença de beta-catenina, que em um tipo de célula produziu 804 resultados de uma biblioteca de 22.325 genes. Uma triagem secundária, que usava três siRNAs adicionais para cada gene e exigia resposta em várias linhas celulares, reduziu o número de candidatos para 310. Uma terceira triagem, que quantificou a expressão dos genes endógenos, não apenas repórteres exógenos, reduziu o número para 63 genes.

A validação final procurou por fenótipos mutantes Wnt estereotipados em embriões de peixe-zebra ou uma análise proteômica que posicionou o gene em uma rede de interação de proteína e proteína com outros elementos da via Wnt / beta-catenina. Em um exemplo, este processo identificou AGGF1, que "é necessário para modular cerca de metade dos genes alvo de beta-catenina", disse Moon.

Em um sucesso semelhante, as telas proteômicas sugeriram que a proteína supressora de tumor WTX interagiu com a & beta-catenina. Para verificar esta previsão, a equipe de Moon verificou que WTX recombinante interage com & beta-catenina, provavelmente aumentando sua ubiquitinação e, portanto, mantendo seu nível baixo. "Qualquer coisa que saia de uma tela de proteômica ou de uma tela de siRNA, em última análise, você precisa empurrá-la para o nível de compreensão bioquímica", enfatizou.

Em um terceiro ensaio baseado em células, Moon disse, "usamos telas de pequenas moléculas para desenvolver terapêuticas potenciais, mas também para identificar componentes de vias de sinalização." Levantando uma biblioteca de compostos, semelhante ao descrito por Stuart Schreiber, identificou um medicamento aprovado pelo FDA chamado Riluzole. O receptor de glutamato GRM1 que esta droga tem como alvo não havia sido reconhecido anteriormente na sinalização de beta-catenina, então a técnica aponta para uma nova biologia, bem como um potencial terapêutico. "Usar telas de pequenas moléculas para identificar componentes de uma via de sinalização é muito poderoso", observou Moon.

Embora cada ensaio baseado em células seja útil por si só, "integrar essas técnicas é uma forma poderosa de compensar a deficiência de qualquer tela", disse Moon. "A maior limitação dos siRNAs é que eles fornecem muitos resultados fora do alvo e também que você não obtém nenhuma percepção do mecanismo de sinalização", enquanto a proteômica fornece "muitos dados, mas absolutamente nenhuma pista se seus resultados são funcionais". Se os pesquisadores estabelecerem um limite alto de significância nesses testes, eles correm o risco de perder candidatos promissores.Ao combinar siRNA e telas de pequenas moléculas, Moon e seus colegas identificaram uma quinase particular como contribuinte para a via Wnt / & beta-catenina e a validaram usando espectrometria de massa.

Modelagem de dinâmica de sinalização

Uma análise completa da sinalização requer saber não apenas quais moléculas interagem, mas os detalhes de como elas influenciam umas às outras. Peter Sorger descreveu alguns dos esforços de sua equipe para criar modelos mais completos em vários níveis diferentes de descrição.

Um projeto envolveu a medição da dinâmica do receptor do fator de crescimento epidérmico (EGFR, também chamado de ErbB1 e Her1). A ligação de EGF extracelular a esta molécula transmembrana faz com que homodimerize ou heterodimerize com outros membros da família ErbB, que são frequentemente direcionados na terapia do câncer. O dímero é então fosforilado, o que permite encaixar proteínas intracelulares que têm domínios de ligação SH2 ou PTB e ativá-los para sinalização adicional.

"Esta é uma classe de proteínas bem compreendida", observou Sorger, e estudos mostraram que a adaptação a um ligante persiste por várias horas. Vários medicamentos inibem a resposta do receptor, alguns ligando-se ao bolso de ATP de ErbB1. Surpreendentemente, em resposta a um desses medicamentos, o gefitinibe, o receptor é desfosforilado em dezenas de segundos, não em horas. "Foi uma reação de desfosforilação muito mais rápida do que poderíamos ter imaginado", observou Sorger. Os parceiros de ligação ErbB2 ou ErbB3, bem como Shc e outras proteínas a jusante, também foram desfosforilados rapidamente.

Os pesquisadores modelaram com sucesso esse comportamento usando equações diferenciais que explicam a concentração de fundo muito alta de ATP. "Essas drogas estão tentando obter acesso à sua bolsa de ligação na presença de um competidor de 2 milimolares, o que é um de seus maiores problemas terapeuticamente", observou Sorger.

Para modelar os efeitos de outro medicamento, o lapatinibe, foi necessário um modelo mais sofisticado com 47 equações diferenciais ordinárias que incluem transições do receptor para uma configuração inativa. “A rápida rotatividade é necessária para ver a diferença entre os dois medicamentos”, observou Sorger. "Olhar para o que parece um pedaço da biologia de 25 anos em um cenário dinâmico simples levou à noção de que, na verdade, esses sinalossomos são altamente dinâmicos."

A crescente complexidade desses modelos, embora fundamentados biologicamente, representa uma "troca inevitável", disse Sorger. "À medida que ficamos mais sofisticados com as hipóteses subjacentes, temos maior dificuldade em construir uma estrutura rigorosa para inferências futuras." A equipe de Sorger resolve esse problema em parte derivando faixas estatísticas de valores, em vez de valores enganosamente precisos.

Comparando modelos para quatro linhas de células cancerosas: Os modelos mais eficientes para representar as respostas de quatro diferentes linhagens de células cancerígenas apresentam diferenças significativas em suas interações (setas de cores diferentes).

O pós-doutorado William Chen analisou como diferentes experimentos de knockdown de RNAi determinavam os parâmetros para uma topologia de rede conhecida. Ele descobriu que escolher as espécies mais informativas para knockdown, com base em análises detalhadas, era muito mais eficiente do que escolher experimentos ao acaso. "Os três melhores experimentos são melhores, em média, do que 25 RNAi escolhidos aleatoriamente", disse Sorger, embora as melhores escolhas "não fossem obviamente intuitivas" mesmo quando a rede era conhecida. Combinar RNAi com outros experimentos foi ainda mais eficiente.

Embora modelos matemáticos detalhados de sinalização possam ser muito úteis, a dificuldade em determinar parâmetros torna esse nível de detalhe impraticável para redes mais abrangentes. Uma manifestação dessa dificuldade é a falta de consenso sobre a topologia das redes, observou Sorger. "Dependendo de onde você for na literatura, encontrará uma ideia diferente sobre como a rede deve ser."

Sorger e seus colegas de trabalho têm caracterizado extensivamente um sistema experimental que consiste em culturas de células primárias de fígado humano e linhagens de células de câncer hepático. Eles expõem essas linhas a muitas perturbações e medem muitas respostas, como a produção de citocinas e a reação com anticorpos fosfo-específicos.

Ao modelar este sistema, Julio Saez-Rodriguez montou uma rede de consenso a partir de informações da literatura e, em seguida, refinou o modelo com base em experimentos. O consenso estava "errado uma grande parte do tempo", disse Sorger, principalmente porque a literatura indicava links que não tinham suporte nos experimentos. Usando uma descrição simples de lógica de dois estados para os nós, e penalizando a complexidade extra, os pesquisadores ficaram satisfeitos ao descobrir que os dados poderiam ser descritos por um modelo muito mais simples do que no início. Os modelos resultantes, construídos separadamente para cada um dos tipos de células, permitiram à equipe determinar como as linhas de células primárias e tumorais diferem na topologia da rede.

A equipe de Sorger também está tentando estabelecer uma ponte entre os modelos matemáticos detalhados e os modelos booleanos simplificados, observando uma descrição de "lógica difusa". "A lógica difusa permite que você pegue o que seria uma transição direta on-off na lógica discreta e, em vez disso, codifique-a como uma transição gradual", disse ele, mas ainda é bastante eficiente.

Caixas de som:
Scott Powers, Cold Spring Harbor Laboratory
Chris Sander, Memorial Sloan-Kettering Cancer Center

Destaques

  • Deleções e inserções frequentemente detectadas em análises genéticas de tumores hepáticos podem apontar para possíveis genes protetores e oncogenes, respectivamente.
  • A transfecção de camundongos com cDNA de tais genes amplificados confirmou 18 oncogenes novos e conhecidos.
  • Esses genes podem ser mais úteis para levar a biomarcadores indicando quais vias de sinalização são interrompidas em um paciente específico, em vez de como alvos terapêuticos diretos.
  • A análise genética mostra que os pacientes que aparentemente têm o mesmo câncer costumam ter mutações específicas diferentes, mas essas mutações interrompem módulos comuns.
  • A terapia combinatória adaptada às variações individuais provavelmente é a melhor maneira de tratar o câncer.
  • Para grandes redes, primeiro deduzir propriedades estatísticas e, em seguida, selecionar exemplos específicos pode ser mais eficaz do que generalizar a partir de soluções individuais.

Encontrando novos oncogenes no câncer de fígado

As alterações genéticas são uma característica comum nos cânceres e os tornam muito mais diversos e difíceis de tratar. Projetos recentes, incluindo o Atlas do Genoma do Câncer e o Consórcio Internacional do Genoma do Câncer, estão caracterizando extensivamente a variação genética em vários tipos de câncer, com a esperança de encontrar características comuns e novas maneiras de tratá-los.

No câncer de fígado, dos genes do câncer bem conhecidos direcionados pelas terapias existentes, "nenhum está realmente mutado com qualquer frequência", disse Scott Powers. Ele e seus colegas usaram dados do genoma do câncer para encontrar novos genes candidatos para a terapêutica ou para novos biomarcadores para orientar a terapia.

“Cerca de 80% dos cânceres de fígado têm variações extensas no número de cópias do DNA”, observou Powers. Ele e seu colega de Cold Spring Harbor, Scott Lowe, analisaram anteriormente regiões que eram frequentemente deletadas nos cânceres para identificar genes protetores usando experimentos de knockdown de RNA curto. Em seu trabalho atual, Powers disse, "pegamos regiões amplificadas e olhamos para ver quais continham oncogenes, não por derrubá-los com RNAi, mas por superexpressá-los usando cDNAs." Usando sequências verificadas da coleção de genes de mamíferos, sua equipe transfectou hepatócitos de camundongos que foram modificados para serem propensos ao câncer. Nessas células, o supressor de tumor p53 foi perdido e o oncogene Myc foi superexpresso & mdash "duas alterações genéticas muito comuns no câncer de fígado".

As células transfectadas com oncogenes candidatos foram injetadas no baço. "Se você fizer isso com cuidado, obterá a dispersão das células por todo o fígado" através do sistema sanguíneo, disse Powers. De 124 cDNAs escolhidos por sua superexpressão em cânceres, 18 geraram novos cânceres de fígado neste modelo de camundongo.

Além disso, os genes de pequenas regiões amplificadas eram muito mais prováveis ​​de serem oncogenes verdadeiros, em vez de "passageiros". Para as maiores regiões amplificadas, mais de 10 megabases, as chances de um gene ser um driver não eram muito maiores do que para um conjunto de controle, disse Powers. "No futuro, para ir além desses pequenos amplicons, temos que desenvolver uma abordagem híbrida de seleção computacional."

"Este foi o maior conjunto de dados de cDNAs de oncogenes que já foi construído", disse Powers, para que os pesquisadores pudessem verificar quais abordagens computacionais podem ter previsto os oncogenes. Eles descobriram que nem o nível de expressão de RNA amplamente usado nem o método GRAIL fizeram previsões estatisticamente significativas.

O método que funcionou melhor baseou sua classificação em uma rede de interação funcional de proteínas, contendo cerca de 20.000 interações. "O algoritmo final é a culpa por associação", disse Powers. A pontuação final de um gene é baseada na pontuação mais alta das proteínas com as quais seu produto interage. "A interface de validação computacional e funcional será cada vez mais importante para permitir a análise produtiva dos projetos do genoma do câncer", disse Powers.

Um dos novos oncogenes é POFUT1, que atua na sinalização Notch. Experimentos de acompanhamento confirmaram que as células com amplificação POFUT1 parecia ser mais sensível à inibição da gama-secretase da via Notch.

Outro oncogene é FGF19, o que foi uma surpresa, pois se encontra em uma região que tem sido amplamente estudada em câncer. Powers sugeriu que o efeito foi perdido porque diferentes tecidos variam amplamente na expressão do gene, por exemplo, "no câncer de fígado, mas não no câncer de mama". Powers disse que, em contraste com a sinalização ErbB mais familiar, aumentar o FGF19 desativa e a beta-catenina sem ativar a quinase MAP. "No câncer de fígado, talvez você possa simplesmente dar anticorpo monoclonal para FGF19 para pacientes que têm uma amplificação deste locus."

Em ambos os casos, "os dados mais interessantes que obtemos são os testes de dependência", disse Powers. "Não descobrimos realmente novos alvos per se, tanto quanto descobrimos novos biomarcadores para a administração de tratamentos."

Redes de câncer

Os genomas do câncer também permitem que os pesquisadores vão além dos genes individuais para examinar suas redes de interação. Um resultado profundo para o glioblastoma multiformae, um dos primeiros cânceres analisados ​​no Atlas do Genoma do Câncer, foi que havia uma "diversidade incrível" nos genes afetados, disse Chris Sander. "Mesmo que tudo isso seja glioblastoma, as diferenças são bastante substanciais."

A quantidade de dados torna impraticável comparar manualmente os perfis genéticos dos tumores com o conhecimento de fundo, como vias biológicas, Sander observou. "Tem que ser feito computacionalmente." Esse tipo de análise mostra que "qualquer gene individual não dá uma contribuição consistente em todos esses tumores, mas o que é consistente são os módulos, coleções de genes que aparecem juntos. Esses módulos são recorrentes em essencialmente todos esses indivíduos, mas a implementação é diferente de um indivíduo para o outro. "

Abordar essa diversidade requer que a população de pacientes com câncer seja dividida, pelo menos em grupos principais, para garantir que o tratamento seja direcionado para suas compleições genéticas específicas, enfatizou Sander. "Estou confiante de que a abordagem da terapia combinatória, direcionada a módulos, mas modificada de um indivíduo para o outro, é o caminho certo a seguir."

Em outros tipos de câncer, as alterações no número de cópias do DNA são notavelmente diferentes daquelas no glioblastoma, disse Sander. Os tumores de próstata diferem significativamente na extensão das alterações no número de cópias, e os tumores metastáticos têm muito mais alterações. Mesmo antes que as metástases sejam evidentes, as alterações no número de cópias são preditivas, pois os pacientes com baixo número de cópias têm melhor sobrevida. Este teste é "mais preditivo do que o grau de Gleason, que é o que os patologistas relatariam", disse Sander. "A questão é se isso pode ser traduzido em um teste clínico." Ele acrescentou que "é preciso ter um nível razoável de previsão e certeza para poder realmente ir até lá. Psicologicamente, as pessoas querem ser tratadas".

No lado conceitual, Sander está trabalhando em um "sabor de biologia de sistemas" que ele chamou de "Biologia de células de perturbação". O objetivo é modelar as respostas de linhas celulares a perturbações sistemáticas, como drogas e combinações de drogas, conforme refletido em observações ricas, incluindo fenótipos celulares e medições moleculares.

A descrição matemática subjacente são as equações diferenciais que descrevem as concentrações de moléculas em diferentes estados de fosforilação, semelhantes às discutidas por Peter Sorger. A abordagem tradicional é determinar um conjunto ideal de parâmetros do modelo localmente e, em seguida, repetir o processo muitas vezes com novas condições iniciais. "Em seguida, você relata as propriedades estatísticas agregadas desse conjunto de soluções e desenha o mapa." Para sistemas pequenos, disse Sander. "Você recupera alguns livros didáticos de biologia."

"O desafio é escalar isso para sistemas maiores", enfatizou Sander, porque "os problemas de inferência de rede na verdade tornam-se bastante incontroláveis ​​em sistemas maiores." Em colaboração com Riccardo Zecchina, do Politecnico di Torino, Sander está analisando ideias de física estatística que são "um tipo de algoritmo global para local". Em vez de construir distribuições de probabilidade calculando a média de soluções individuais, os pesquisadores primeiro derivam distribuições para cada um dos valores dos parâmetros, como aqueles que descrevem a interação entre duas espécies. Na construção deste "gráfico de fatores", as outras interações entram de forma média e a rede é inferida usando "propagação de crenças". Só então os pesquisadores geram soluções particulares. "É muito mais eficiente", disse Sander. Mas isso ainda é um trabalho em andamento.

Caixas de som:
Steven Altschuler, University of Texas Southwestern Medical Center
Thomas Gingeras, Cold Spring Harbor Laboratory

Destaques

  • Células diferentes em uma população geralmente se comportam de maneira diferente, mas essa heterogeneidade geralmente é ignorada, embora nenhuma das células possa se comportar como a média.
  • A enorme diversidade epigenética de células cancerosas cultivadas reflete populações variáveis ​​de alguns tipos, e as populações relativas de cada tipo se enquadram em padrões que predizem a resposta ao taxol da droga.
  • Em um modelo de feedback positivo simples, a heterogeneidade dentro de uma população de células sempre acompanha as condições que permitem que a polaridade da célula se desenvolva.
  • Diferentes compartimentos subcelulares contêm transcritos de RNA que surgem de diferentes seções do genoma.
  • Rastrear as transcrições por compartimento permite que os pesquisadores identifiquem as transcrições que podem perder em toda a célula e mostra que quase metade do genoma é transcrito e dividido em RNA maduro.
  • Emendas quiméricas entre transcritos originados de cromossomos diferentes estão presentes em níveis baixos em alguns compartimentos celulares.

Heterogeneidade celular

Biólogos de sistemas estão construindo modelos de rede complexos para muitos aspectos da biologia. Mas "essas redes são quase inteiramente derivadas de medições de médias populacionais", adverte Steven Altschuler. "Em muitos casos, você pode ter respostas bastante preditivas em populações perturbadas, mas sua medição média corresponde a nenhuma célula em todo o seu ensaio."

"Se você pretende fazer a suposição de que a média é uma boa representação de suas células, você precisa provar isso", afirmou Altschuler. Ele descreveu três projetos do laboratório que dirige com sua esposa, Lani Wu, nos quais a heterogeneidade não era apenas ruído, mas era biologicamente significativa. "As células que são diferentes da média podem ser muito importantes."

O primeiro exemplo dizia respeito ao desenvolvimento de adipócitos ou células de gordura. Os circuitos moleculares bem conhecidos subjacentes a este processo incluem o regulador mestre PPAR & gama que conduz o crescimento constante de gotículas de lipídios nas células, bem como o nível de adiponectina. Uma expectativa natural seria que as células individuais seguiriam a mesma trajetória, com crescimento correlacionado de gotículas e níveis de adiponectina.

"Se você olhar para as células, é bastante perturbador", disse Altschuler, porque a maioria das células tem gotas grandes de lipídios ou altos níveis de adiponectina, mas nunca ambos. O rastreamento de células individuais mostra que em "praticamente todas" elas, o nível de adiponectina sobe primeiro, com pequenas gotículas de lipídios. Mais tarde, as gotículas crescem, acompanhadas por uma queda no nível de adiponectina, o oposto do que era esperado das medições em média da população.

“A correlação é uma ilusão”, concluiu Altschuler, porque uma grande população de células que ainda está passando pela diferenciação inicial distorce a média. Além disso, os compostos adicionados quase sempre afetam diferentes subpopulações de maneira diferente, em vez de apenas movê-los todos da mesma maneira. Como resultado, disse Altschuler, ao estudar os efeitos nas subpopulações, "nós realmente temos uma maneira de identificar novos alvos de compostos".

Na segunda parte de sua palestra, Altschuler voltou-se para o câncer. “Quase sempre, a heterogeneidade é ignorada, porque você simplesmente não sabe o que fazer com ela”, disse ele. Sua equipe comparou um grupo de 49 clones de uma linha celular de câncer de pulmão. "Presumo que muitas das diferenças que estamos vendo são epigenéticas", disse Altschuler.

Usando marcadores para sinalização, "você vê uma grande diversidade", observou Altschuler. "Você está pensando que o câncer deve ser infinitamente complicado." Mas os algoritmos de extração de recursos tornam a classificação gerenciável, e a análise de componentes principais reduziu 1000 recursos para cerca de 20 eigendimensões por célula. Além disso, toda a variação entre as células pode ser capturada usando cerca de cinco subpopulações, disse Altschuler. "Isso não parecia mais um problema de complexidade infinita."

Ao analisar os 49 clones, Altschuler disse, "a coisa mais surpreendente aconteceu: eles se agrupam em seis ou sete clados diferentes", cada um com uma fração característica das células nas diferentes subpopulações. Além disso, esta classificação segregou quase perfeitamente os clones no que diz respeito à sua resposta ao taxol da droga. “As subpopulações do conjunto nos permitiram, antes mesmo de darmos a essas populações qualquer droga, a capacidade de distinguir se seriam sensíveis a drogas ou não”, concluiu Altschuler.

O terceiro tópico de Altschuler explorou como a heterogeneidade surge em um modelo teórico de polarização celular. O modelo inclui partículas ativas na membrana celular que podem recrutar partículas inativas do citosol e torná-las ativas. "É o seu clássico ciclo de feedback positivo." Altschuler disse. Além disso, as partículas da membrana se difundem em torno da superfície da célula.

Acontece que há um parâmetro-chave no modelo: o número de partículas por célula. Se esse número for grande, as partículas se difundem em todos os lugares e nenhuma polarização se desenvolve.(Isso difere dos casos clássicos estudados por Turing e outros, nos quais a formação de padrões reflete feedback positivo e negativo.) Se o número de partículas for pequeno, o feedback é muito pequeno para que a polaridade surja. Apenas para números intermediários de partículas este modelo produz polaridade celular. Mas para os valores dos parâmetros para os quais ocorre polarização, ela ocorre apenas para cerca de metade das células. "A heterogeneidade é matematicamente inevitável aqui", disse Altschuler.

Localização subcelular de RNA transcrito

A expressão heterogênea, mesmo dentro de uma célula, também é importante para o RNA. Uma maneira de supor quanto do genoma é funcional é medir quanto dele é transcrito em RNA e processado em formas utilizáveis. A grande equipe GENCODE do projeto ENCODE está revisando sequências de cDNA completas publicadas e fazendo a curadoria delas para garantir "qualidade, capacidade de codificação, aparentemente legitimidade de locais de splicing e assim por diante", disse Thomas Gingeras. Cerca de 142.000 transcrições foram bem anotadas, disse ele, metade das quais parecem ser não-codificantes de proteínas. “Cerca de 70% das transcrições não são anotadas”, observou Gingeras, portanto, há muito a ser aprendido.

Um aspecto importante deste projeto é o rastreamento, em 15 linhas celulares, de transcritos que aparecem em diferentes compartimentos subcelulares, incluindo o citoplasma e núcleo, e para uma linha celular no nucléolo, no nucleoplasma e na cromatina. O reconhecimento da composição heterogênea desses compartimentos sugere a possibilidade de diferentes funções para os transcritos.

A observação de diferentes compartimentos também destaca a importância de transcrições raras. "Este enriquecimento está permitindo que você veja menos coisas que de outra forma estariam na cauda da distribuição", disse Gingeras. Em contraste, "se você tratar a célula inteira como um saco de moléculas, é melhor sequenciá-la totalmente".

Os pesquisadores obtiveram cerca de 400 milhões de leituras de sequência em cada compartimento. "Isso parece muito, mas só nos permite ver um vislumbre das transcrições de baixo número de cópias que estão em certos compartimentos", disse Gingeras. Mas ele enfatizou que a maioria das leituras passou por uma rigorosa "taxa de descoberta irredutível", ou IDR, a chance de que uma medição repetida não medisse o mesmo resultado. "Esses dados que estamos usando são muito conservadores." Mesmo com um IDR de 0,1, disse ele, "o genoma está quase coberto pela metade com transcrições que são processadas e emendadas".

Das muitas classes intrigantes de transcrições, "uma classe se destaca", disse Gingeras. A transcrição dessas fitas parece começar nas regiões 3 & prime-untranslated (UTRs) na cauda de outras transcrições. Esses transcritos ocorrem em 80% dos genes expressos na mosca e em 62% dos genes humanos expressos examinados até agora. "Parece um tipo diferente de região regulada para expressão", disse Gingeras.

Seqüências transcritas em diferentes compartimentos vêm de regiões muito diferentes. Por exemplo, "no núcleo e na cromatina, as extremidades 5 e primárias cobertas são mais proeminentemente encontradas emanando das regiões intergênicas, não de transcrições anotadas." Gingeras observou. "A célula está colocando nesses compartimentos transcritos que são iniciados em diferentes partes do genoma."

As populações de RNA transcrito diferem amplamente, dependendo do compartimento celular do qual são isoladas.

Gingeras também descreveu RNAs "quiméricos", que mesclam segmentos transcritos de diferentes cromossomos. Essas combinações estranhas foram descritas por outros na literatura, mas sua função e até mesmo sua existência têm sido controversas. Após extensas verificações cruzadas experimentais, Gingeras disse, "claramente essas moléculas existem nas células onde as identificamos, embora em um número de cópias muito menor dentro desse tipo de célula do que as formas normais de splicing."

Entre outras coisas, os pesquisadores descobriram que as quimeras tendem a unir regiões próximas na cromatina tridimensional. "Setenta e seis por cento dos RNAs quiméricos que vemos caem nas regiões onde o DNA, por meio de experimentos de reticulação, está perto o suficiente para ser reticulado em um experimento 5C. Parece que essas regiões genômicas são reunidas para fins de transcrição. "

"Não achamos que sejam eventos aleatórios, embora estejam presentes em um número bastante baixo de cópias", disse Gingeras. No geral, "o panorama da transcrição contém toda uma variedade de transcrições cuja função ainda precisa ser determinada, mas cujas características desconhecíamos."

Caixas de som:
Stuart Schreiber, Broad Institute
Marc Vidal, Dana-Farber Cancer Institute e Harvard Medical School

Destaques

  • A resposta a pequenas moléculas pode servir como um classificador para a presença ou subtipo de câncer.
  • Os pesquisadores estão catalogando sistematicamente as respostas moleculares das células a vários níveis de pequenas moléculas altamente específicas, para ajudar a gerar hipóteses para a biologia e o tratamento de doenças.
  • O estudo de redes, por exemplo de interações proteína e proteína ndashproteína, forneceu informações importantes entre genótipos e fenótipos, como doenças.
  • Cerca de metade das mutações que causam doenças humanas parecem ser "edgeticas": modificar as interações entre as proteínas em vez de sua presença.
  • Encontrar proteínas direcionadas por vírus e genes que causam a mesma doença identifica novos candidatos para intervenção.
  • As redes de interação parecem evoluir mais rápido do que as sequências codificadoras de proteínas.

Sondas de pequenas moléculas de câncer

O amplo conhecimento das redes moleculares subjacentes às doenças não é de grande utilidade para os pacientes sem meios de manipular essas redes, por exemplo, usando medicamentos de pequenas moléculas. Ao mesmo tempo, a resposta a pequenas moléculas que perturbam nós específicos em uma rede pode gerar uma visão biológica poderosa sobre como aquele nó interage com outros. Para acelerar a terapêutica e a compreensão básica, Stuart Schreiber e seus colegas estão montando um catálogo abrangente de resposta dependente da dose de culturas de células a uma biblioteca de compostos estritamente direcionados. "Estamos tentando olhar para a terapêutica do câncer de uma forma integrada", disse ele, complementando os catálogos anteriores de respostas com a caracterização genética detalhada das células.

Algumas pequenas moléculas são extraordinariamente eficazes contra versões genéticas específicas de cânceres. Imatinib, comercializado nos EUA como Gleevec, é essencialmente 100% eficaz contra leucemia mielóide crônica, por exemplo. Mas "menos de 1% dos pacientes com câncer hoje se beneficiam desse dramático desfecho clínico", observou Schreiber, porque nenhuma droga análoga é conhecida para seus cânceres. Seu novo projeto visa alcançar benefícios mais amplos, vinculando populações de pacientes geneticamente distintos a alvos para medicamentos ou combinações de medicamentos.

A equipe de Schreiber demonstrou recentemente que a resposta de células em cultura a várias moléculas pequenas pode identificar pacientes com uma forma genética de diabetes chamada MODY1. "Você pode usar pequenas moléculas como um classificador e prever se as células vieram de indivíduos afetados ou não", disse ele. Este trabalho foi uma inspiração para seu projeto, financiado pela Rede de Desenvolvimento e Descoberta de Alvos do Câncer do NCI, ou CTD 2, para traduzir os dados do genoma do câncer (discutido por Scott Powers e Chris Sander) em aplicações clínicas.

"O que não sabemos é se pequenas moléculas que têm como alvo co-dependências não oncogênicas, usando o princípio da letalidade sintética, podem ter o mesmo tipo de resultados clínicos", advertiu Schreiber. Essas dependências são comuns no câncer porque, à medida que os oncogenes cooptam vias de sinalização pré-existentes para a proliferação e sobrevivência do câncer, eles recrutam o suporte de outras proteínas para habilitar essas vias.

Por exemplo, os oncogenes são frequentemente proteínas lábeis sensíveis à temperatura, por isso adquirem a necessidade de acompanhantes. A exploração inicial dos dados acumulados mostrou que o efeito de um inibidor de tal chaperone, a proteína de choque térmico HSP70, aumentou em células com Myc amplificado, que são encontrados com frequência em cânceres.

Outra pequena molécula tem um efeito muito maior em células com mutações ativadoras no oncogene beta-catenina. Schreiber sugeriu que este efeito não está relacionado ao papel de & beta-catenina na sinalização Wnt (discutido por Randall Moon), mas ao efeito da pequena molécula na neutralização de espécies reativas de oxigênio, que se relacionam com o metabolismo incomum das células cancerosas.

Esses primeiros casos de teste, e outros, apóiam os esforços de Schreiber e sua equipe para catalogar sistematicamente a relação dose-resposta das linhas de células a vários compostos. Estes compostos, que constituem o kit de sonda CTD 2, são escolhidos "principalmente com base na existência de evidências de que o composto é altamente seletivo", disse Schreiber. "Nós os chamamos de 'compostos estreitamente ativos'." Usando extensa automação, os pesquisadores caracterizam a resposta molecular e fenotípica de 1000 células geneticamente caracterizadas a uma gama de concentrações de pequenas moléculas. Além das respostas individuais, destacou Schreiber, "você pode usar essas células geneticamente caracterizadas para observar combinações de compostos".

Outro projeto no qual Schreiber e seus colegas estão trabalhando é o chamado Cancer Cell Line Encyclopedia Project, uma colaboração com o Novartis Institute for Biomedical Research. Este recurso fornecerá em breve dados de caracterização extensivos para muitas linhas de células disponíveis publicamente, incluindo dados de número de cópias em todo o genoma, expressão de genes e mutações de oncogenes alvo, além de sequenciamento extensivo de exoma. Schreiber espera que esses recursos possam mudar drasticamente a tradicional "brigada de balde" em série do desenvolvimento farmacêutico.

Conectando genótipo e fenótipo por meio de redes de interação

Dados genotípicos para diversos indivíduos saudáveis ​​e para tumores estão amplamente disponíveis. As relações entre esses genótipos e fenótipos, como a suscetibilidade a doenças "são as questões mais interessantes da biologia", diz Marc Vidal. Mas a conexão é complexa. Mesmo traços simples de Mendel mostram penetrância incompleta, efeitos múltiplos de mutações e modificação por outros genes. Para características complexas, a conexão é ainda menos direta. "Para entender as relações genótipo-fenótipo, que estão longe de ser lineares, precisamos entender os sistemas", disse Vidal.

Uma das maneiras mais eficazes de descrever essa conexão não linear é com a linguagem das redes, com espécies macromoleculares representadas como nós e suas interações como bordas. Com base em mais ou menos uma década de progresso, disse Vidal, "podemos dizer com segurança que existem propriedades realmente globais nas redes interativas celulares E que essas propriedades se relacionam com a biologia."

Vidal é um pioneiro em medições exaustivas de interações proteína e proteína ndashproteína, em particular através do método de dois híbridos de levedura. Até agora, apenas cerca de 20% do interactoma de levedura e cerca de 5% do interactoma humano são conhecidos. Mas Vidal acredita que em outros 10 anos cerca de 70% & ndash90% dessas redes serão mapeadas com alta qualidade e continuarão a gerar percepções biológicas.

No contexto da doença humana, Vidal observou que “em muitos casos você tem mutações em vários genes que podem causar um distúrbio, e o inverso, que é que diferentes mutações no mesmo gene podem dar origem a diferentes distúrbios”. Para explorar essas relações, ele e seus colaboradores exploraram o banco de dados Online Mendelian Inheritance in Man (OMIM) para construir o "diseaseome". Ao conectar doenças que compartilham um gene e genes que compartilham uma doença, eles criaram um gráfico bipartido que ajuda a ilustrar as relações complexas entre as doenças.

Olhar para essa relação entre as doenças leva a novas questões, disse Vidal, como "Como explicar que diferentes mutações no mesmo gene dêem origem a diferentes doenças, de uma perspectiva de rede?" Ele sugeriu que algumas doenças surgem não porque um nó particular, que representa a macromolécula, está faltando no gráfico. Em vez disso, uma borda de rede, ou interação, pode ser alterada. "A perturbação de outra borda pode dar um fenótipo diferente", disse ele.

Aproximadamente metade das mutações associadas às doenças humanas parecem interromper as interações entre as proteínas, ou bordas, em vez de desativar as próprias proteínas.

Vidal e seus colegas usaram dados de sequência do banco de dados de mutação do gene humano para testar essa possibilidade, hipotetizando que mudanças de sequência como códons de parada prematuros provavelmente representam perturbações de nodo, enquanto mutações missense ou in-frame são provavelmente "edgetic", afetando as interações de proteínas. Eles descobriram que cerca de metade das mutações conhecidas por estarem associadas a doenças parecem edgeticas.

Em testes de acompanhamento, Vidal disse, "toda vez que dissemos, de acordo com esse modelo simples, esse gene pode realmente dar origem a perturbações edgeticas, poderíamos verificar experimentalmente que esse era realmente o caso." Olhando para proteínas que têm múltiplos domínios de ligação e cujos genes estão ligados a pelo menos duas doenças, ele disse, mostrou que os diferentes distúrbios sempre refletiram mutações em domínios diferentes, como era de se esperar.

A ideia de mudar as bordas das redes também oferece uma nova janela para a evolução, disse Vidal. Sua equipe está explorando como a fiação das redes muda durante a evolução, ao invés da própria sequência dos genes. Eles exploram dados empíricos de plantas, que têm muitos pares parálogos que se parecem e provavelmente surgiram de uma duplicação em um ancestral comum. A análise até agora sugere que os perfis de interação para genes duplicados divergem mais rápido do que as sequências correspondentes.

Em outro projeto em andamento, Vidal e sua equipe estão analisando vírus causadores de doenças e comparando-os com mutações genéticas que causam a mesma doença. Eles confirmaram que os alvos proteicos dos vírus estão próximos na rede de interação dos produtos dos genes envolvidos na mesma doença. "Os caminhos mais curtos nos ajudam a levantar hipóteses para a etiologia da doença", disse Vidal.

Caixas de som:
Charlie Boone, Universidade de Toronto
Leonid Kruglyak, Universidade de Princeton

Destaques

  • Interações não aditivas, como letalidade sintética, entre pares de genes deletados são altamente informativas sobre as relações dos genes e estão sendo sistematicamente catalogadas em leveduras.
  • Genes com padrões semelhantes de interação com outros estão frequentemente no mesmo caminho e implicam em redes com funções biológicas reconhecíveis.
  • Em comparação com os mutantes duplos, a variação natural completa revelada por cruzamentos entre cepas geneticamente diversas é muito mais complexa.
  • A herdabilidade das doenças humanas não é completamente explicada pelos pequenos efeitos das variantes individuais que os estudos do genoma identificaram.
  • Os cruzamentos de leveduras geram milhões de cepas geneticamente distintas, permitindo uma avaliação quantitativa das contribuições de diferentes loci genéticos para uma característica.

Pesquisando mutantes duplos de levedura

A exclusão sistemática de pares de genes na levedura fornece informações valiosas sobre como os genes interagem uns com os outros, disse Charlie Boone. Redes baseadas nessas interações genéticas recapitulam a biologia conhecida e revelam novos aspectos de caminhos e complexos. Mas os cruzamentos entre as cepas mostram que o efeito da variação natural não é facilmente explicado em termos até mesmo dos pares em interação.

Dos 6.000 genes da levedura em crescimento, disse Boone, 5.000 podem ser deletados sem matar os organismos. Para os 1.000 genes "essenciais" restantes, os pesquisadores estão desenvolvendo alelos sensíveis à temperatura (ts) que efetivamente os excluem após o desenvolvimento. Ao todo, isso significa que os pesquisadores podem fazer cerca de 18 milhões de mutantes de dupla deleção distintos, cada um dos quais Boone pretende caracterizar.

"A interação genética ocorre quando algo estranho acontece", disse Boone. O exemplo mais óbvio é a letalidade sintética, quando nenhum dos genes é essencial por si só, mas a exclusão de ambos é mortal. Isso pode ocorrer quando dois genes estão em caminhos redundantes e a célula precisa de pelo menos um caminho para sobreviver. "Muitos caminhos não são essenciais. Porque há um caminho de backup", disse Boone. A interação oposta acontece quando um dos genes causa alguma redução na aptidão, mas, uma vez que ambos interrompem a mesma via, a exclusão de ambos não torna as coisas piores.

"Genes com o mesmo padrão de interações letais sintéticas estão frequentemente no mesmo caminho", disse Boone. Conectar genes que têm padrões de interação semelhantes cria redes de interação genética análogas àquelas baseadas em interações físicas de proteínas ou semelhanças na expressão gênica. "No final, a posição de um gene na rede e sua conectividade definem sua função", disse Boone.

O agrupamento de genes com base em sua similaridade de interações leva a redes nas quais genes com funções biológicas familiares são agrupados, juntamente com alguns genes não anotados anteriormente. "Inevitavelmente, quando o testamos, esses genes são novos componentes do caminho ao qual estão ligados."

Boone, Brenda Andrews e seus colaboradores esperam estender essas medições para cobrir todos os pares possíveis dentro de alguns anos. “Um dos maiores desafios desses projetos é levá-los à conclusão”, disse ele. Além de automatizar a configuração e a medição do tamanho da colônia como um indicador de aptidão, um grande desafio foi desenvolver uma medida quantitativa do desvio de mutantes duplos do efeito esperado de combinação de deleções individuais. Esses desvios podem ser "negativos" para backups ou "positivos" quando os genes trabalham juntos.

A rede de interação genética inferida unicamente de resultados inesperados de mutações duplas freqüentemente conecta genes de funções biológicas relacionadas.

Comparar a rede de interação genética com as interações conhecidas de proteína e proteína ndash produz algumas surpresas. Por exemplo, seria esperado que proteínas interagindo fisicamente dentro de um complexo apresentassem interações genéticas positivas, de modo que o par seja menos prejudicial do que seu efeito combinado esperado, uma vez que o complexo já está desativado. Mas embora "haja interações positivas que se sobrepõem às interações físicas, existem apenas muitas interações negativas que se sobrepõem às interações físicas", disse Boone. Além disso, "muitas das interações positivas também ocorrem entre as vias".

Em última análise, os pesquisadores gostariam de entender como diferentes variantes de genes interagem em seu complexo ambiente natural, não apenas em pares isolados. Para aprender sobre esta variabilidade natural, Boone e seus colegas estudaram cruzamentos entre duas cepas de laboratório bem caracterizadas.

A equipe procurou por genes "essenciais condicionais", que são essenciais em uma linhagem, mas não na outra. Eles então realizaram cruzamentos entre uma cepa onde um gene era essencial, mas estava presente com outra onde não era essencial e foi deletada. Eles esperam que a sobrevivência do híbrido frequentemente dependerá da presença de um alelo de um gene diferente que tornou o gene deletado fatal.Olhando para as estatísticas dos cruzamentos, "podemos avaliar se esses fundamentos condicionais são devido a um simples caso de letalidade sintética ou não", disse Boone. Mas "nunca foi um simples caso de um único modificador levando a uma interação letal sintética", ele descobriu para sua surpresa. "Nossa conclusão é que genótipo para fenótipo é um problema incrivelmente complexo."

Quantificando contribuições genéticas para características

Embora algumas características e doenças humanas sigam uma herança simples de Mendel, disse Leonid Kruglyak, "a maioria das coisas com que realmente nos importamos. segue padrões de herança muito mais complicados." Embora estudos de associação ampla do genoma nos últimos anos tenham revelado quase 1000 regiões genéticas associadas a doenças, o efeito total desses genes geralmente não explica a herdabilidade conhecida.

A altura humana, por exemplo, é 80% hereditária, mas os 180 loci conhecidos explicam apenas 10% da variância da população. Uma possível fonte da "herdabilidade ausente" é que existem muitas variantes com um tamanho de efeito maior, mas são raras demais para serem vistas de forma convincente na maioria dos estudos.

"Como estamos lidando com efeitos pequenos, precisamos de tamanhos de amostra muito grandes", disse Kruglyak. Embora caracterizar 100.000 humanos seja um grande desafio, “não há problema em cultivar grandes populações de levedura”. Sua equipe escolheu uma série de características, a sensibilidade a diferentes drogas, que são continuamente variáveis ​​na levedura de uma maneira geneticamente complexa. Eles então perguntaram se poderiam encontrar todos os genes envolvidos na variação dessas características. "Colocar a questão dessa maneira quase nos assegura do fracasso", disse Kruglyak, "mas gostaríamos de ir o mais longe possível."

Como nos experimentos de Boone, o cruzamento de duas cepas diferentes produz uma grande variação, neste caso na sensibilidade ao medicamento. Em vez de fenotipar a progênie individual, os pesquisadores decidiram tirar vantagem dos grandes números e fenotipar a população - mas apenas os outliers. "A maior parte da informação genética está contida em indivíduos fenotipicamente extremos", disse Kruglyak.

A população resultante, contendo milhares ou dezenas de milhares de cepas geneticamente distintas, ainda é muito grande para ser genotipada individualmente. Portanto, "em vez de genotipá-los um de cada vez, apenas medimos as frequências dos dois alelos parentais em todo o genoma". Para alelos que empurram a característica para um valor extremo, a frequência esperada deve se desviar da proporção 50/50 para toda a população.

"O truque é fazer isso de forma quantitativa", disse Kruglyak. Mas com cuidado, "podemos detectar loci mesmo quando eles têm efeitos fenotípicos muito pequenos". Um truque importante para melhorar a relação sinal-ruído é usar microarrays personalizados com sondas para o alelo de cada cepa, em vez de apenas inferir o alelo a partir da presença ou ausência de um sinal.

Kruglyak havia estudado anteriormente a sensibilidade ao 1-óxido de 4-nitroquinolina, ou 4NQO, ligando a sensibilidade a este agente danificador de DNA a um gene específico denominado RAD5 que atua no reparo de danos ao DNA. “Isso explicava parte da variação, mas não explicava tudo”, lembrou.

A partir de um cruzamento, sua equipe selecionou os segregantes com extrema resistência a 4NQO e genotipou quantitativamente essa subpopulação. "Além de RAD5, que apareceu como nossa seleção mais clara e forte como deveria, há cerca de uma dúzia de contribuições de outros loci de ambas as cepas de origem ", disse Kruglyak.

Esta abordagem combinada identifica loci importantes, mas não é muito precisa sobre o tamanho de seu efeito ou se e como eles interagem, disse Kruglyak. "Você pode se recuperar fazendo coleções de segregantes individuais, medindo seus fenótipos e apenas genotipando-os nas posições em que encontrou os loci. Portanto, você não precisa pagar o custo experimental ou estatístico para pesquisar o todo genoma. "

Esta análise mostrou que os outros loci têm efeitos muito menores do que RAD5, o que explica cerca de 40% da variância. Os efeitos dos outros loci estão todos abaixo de cerca de 5%, o que não teria sido estatisticamente significativo em uma varredura de ligação de todo o genoma tradicional.

Os pesquisadores passaram a testar a sensibilidade a "cerca de 20 outros compostos químicos e outras formas de tornar as células de levedura infelizes", disse Kruglyak. "As arquiteturas genéticas podem ser bem diferentes." Para alguns insultos, a sensibilidade é dominada por um único locus com um padrão de herança Mendeliano. Em outros casos, existem até 20 loci estatisticamente significativos que contribuem para a variação.

A técnica não se limita ao enriquecimento para resistência aos medicamentos. Uma extensão poderosa é usar a classificação de células para isolar indivíduos com fenótipos extremos. Essa técnica pode então ser usada para qualquer propriedade para a qual haja um relator apropriado. Kruglyak ilustrou a classificação com base na produção mitocondrial, mas poderia ser aplicada para rastrear os loci genéticos para muitos tipos de variação fenotípica.

Caixas de som:
Michael Snyder, Universidade de Stanford
John Stamatoyannopoulos, Universidade de Washington

Destaques

  • A diferença regulatória devido à ligação variável de fatores de transcrição está subjacente a muitas variações individuais, bem como à doença.
  • Fatores de transcrição especializados que regulam apenas alguns genes podem ser tão importantes, para esses genes, quanto reguladores mestres que têm efeitos generalizados.
  • O sequenciamento do genoma personalizado precisa de melhor precisão, em particular na avaliação do número de cópias do gene, e sua interpretação é frequentemente incerta.
  • O mapeamento da clivagem pela DNase I fornece indicações diretas em todo o genoma de locais acessíveis às características regulatórias do DNA, como a formação de nucleossomos e a ligação do fator de transcrição.
  • Os padrões de locais de hipersensibilidade à DNase I em diferentes células refletem as relações de desenvolvimento das células.
  • O sequenciamento profundo dos locais de clivagem revela padrões característicos de clivagem, na resolução de um único nucleotídeo, para diferentes fatores de transcrição.

Variações na ligação do fator de transcrição

Como especialista em técnicas genômicas, Michael Snyder decidiu verificar as opções cada vez mais acessíveis para análise pessoal do genoma. Ele comparou os resultados do Complete Genomics e do Illumina, que identificaram mais de 3 milhões de polimorfismos de nucleotídeo único (SNPs). Cada um tinha várias centenas de milhares de chamadas que não estavam no outro conjunto, uma diferença que Snyder atribuiu aos dados ausentes. "O problema número um em obter o sequenciamento do seu genoma é que eles não são profundos o suficiente em todas as regiões."

Mesmo SNPs relatados por ambas as empresas discordaram em muitos casos sobre zigosidade, o que "faz uma grande diferença. Não é grande coisa para 1000 genomas com baixa cobertura", disse Snyder. Mas "Eu não me importo com a média. Eu me importo comigo." De maneira geral, ele disse, ainda há um longo caminho a percorrer em termos de precisão e interpretação dos dados pessoais do genoma. As técnicas são ainda menos confiáveis ​​para variantes estruturais, como inserções, deleções e inversões, disse Snyder.

Em sua pesquisa primária, Snyder e sua equipe estão explorando as variações entre espécies relacionadas e entre indivíduos. Em particular, eles estão procurando ver quanta variabilidade surge das diferenças na ligação do fator de transcrição.

Em um estudo, eles mapearam a ligação de todo o genoma, usando imunoprecipitação da cromatina e sequenciamento (ChIP-seq), do fator de transcrição Ste12 em levedura. Eles exploraram a variação natural entre 45 cepas segregantes de um cruzamento entre duas cepas de laboratório e rastrearam a ligação, bem como a expressão do gene, após expor a levedura a um feromônio.

A maioria dos sites (cerca de 70%) mostrou segregação Mendeliana clássica, ligando Ste12 em um fundo genético e não no outro. Mas outros sites mostraram "transgressão" dessa expectativa, por exemplo, ligação em alguns dos segregantes quando nenhum dos pais o fez.

A equipe de Snyder então procurou por loci de características quantitativas (QTLs) que contribuem para a ligação nesses locais altamente variáveis. De 195 sites com um QTL único, 166 são cis (perto da região de ligação), enquanto 35 são trans (alguns são ambos). "A maioria dos sites de ligação variável estão ligados em cis aos QTLs ", disse Snyder.

A explicação mais simples seria que as diferenças na ligação refletem mudanças na sequência do sítio de ligação para Ste12. "Isso acabou sendo verdade, mas só é verdade em 36 dos 166 cis-regiões variáveis ​​", disse Snyder. Para o restante, parece haver variações nas sequências que codificam os cofatores que ajudam o Ste12 a se ligar. Usando um teste para o que eles chamaram de" Cooperatividade de vinculação de alelos ", ou ABC, a equipe encontrou seis novos sítios de ligação para fatores cujo motivo covar com ligação Ste12.

"Nenhum desses fatores era conhecido anteriormente para funcionar com Ste12", disse Snyder, que é um regulador mestre que liga cerca de 1000 locais em todo o genoma. "Esses caras estão operando apenas em um subconjunto de regiões, mas eles têm um efeito muito forte" nos lugares em que se ligam. "Achamos que esse tipo de ligação cooperativa é galopante em todo o genoma", disse Snyder. Mas como o efeito ocorre apenas em alguns locais, é difícil detectá-lo em uma varredura ampla do genoma, disse ele. "Isso é o que tornará o código regulatório muito, muito difícil de decifrar."

Em trabalhos relacionados em humanos, Snyder e seus colegas mapearam a ligação de dois fatores, RNA polimerase II (Pol-II) e NF e kappaB. Eles compararam os dados ChIP-seq para células de dez indivíduos, encontrando variação em 7,5% dos locais para NF & kappaB e 25% para Pol-II. "Existem várias regiões de ligação variáveis", observou Snyder, e, em média, a ligação se correlaciona com a expressão do gene.

Apenas cerca de 7% da variação na ligação corresponde a desvios do motivo de ligação de consenso. Existem também alguns sites cuja ligação se correlaciona com variantes de número de cópias, bem como com inversões (juntas cerca de 3%). Outros 31% dos sites têm um SNP próximo, mas para dois terços dos sites, "não temos ideia do que está acontecendo", disse Snyder.

Usando seu teste ABC, Snyder disse, "encontramos cinco fatores diferentes cujo motivo varia de acordo com sua ligação NF e kappaB", mas não no local de ligação NF e kappaB. Os resultados sugerem que, como na levedura, alguns locais são controlados não apenas por reguladores principais, mas também por outros fatores localmente poderosos. "Esta é uma boa maneira de ver quais fatores estão trabalhando juntos."

Mapeamento de proteínas no DNA em todo o genoma

"Encontrar fatores reguladores no genoma, por si só, não indica necessariamente o que eles estão fazendo, mas serve como um marcador genérico incrivelmente útil de toda a ampla gama de classes de elementos", disse John Stamatoyannopoulos. Ele ajudou a popularizar o mapeamento do genoma da clivagem do DNA pela desoxirribonuclease I, ou DNase I, em projetos incluindo ENCODE e o Roadmap Epigenomics Mapping Consortium. Os locais de hipersensibilidade à DNase-I, ou DHSs, são regiões de DNA que são particularmente acessíveis à clivagem, o que muitas vezes reflete a presença de sequências regulatórias como promotores.

Até agora, os projetos ENCODE e Roadmap Epigenomics mapearam DHSs, com resolução de aproximadamente 150 pares de base, em mais de 100 tipos de células e tecidos e estágios de desenvolvimento, disse Stamatoyannopoulos. "Você encontra entre 100.000 e 275.000 locais hipersensíveis à DNase por tipo de célula, ou 0,5% & ndash1,5% do genoma", mesmo com uma taxa de descoberta falsa de 1% rigorosa. "Os números reais são um pouco mais altos", disse ele.

Em todos os tipos de células, "detectamos cerca de 2,2 milhões de posições distintas de hipersensibilidade à DNase-I no genoma humano", disse Stamatoyannopoulos. Em comparação com a literatura, esses sites abrangem cerca de 96% de todos os elementos reguladores não promotores conhecidos, como intensificadores, silenciadores e isoladores.

As diferenças entre as diferentes células na estrutura da cromatina e outras interações regulatórias podem modificar a ligação nesses locais. "Cerca de 340.000 são específicos para cada tipo de célula", disse Stamatoyannopoulos, enquanto "cerca de 7.500 estão presentes em cada tipo de célula". O restante dos sites mostra ricos padrões de expressão intermediários. Uma análise de agrupamento desses padrões revela uma relação hierárquica que reflete precisamente as relações das células correspondentes, disse ele. "Estamos olhando para uma codificação de processos de desenvolvimento inicial e linhagens de desenvolvimento nos padrões de DNA regulador que persistem em adultos."

Um mecanismo de regulação da expressão em diferentes tecidos é a organização em larga escala da cromatina, que pode reunir sequências que estão em partes muito distantes da molécula de DNA. Para capturar essas interações físicas na Vivo, Stamatoyannopoulos e seus colaboradores estão usando a técnica de cross-linking conhecida como Chromosome Conformation Capture Carbon Copy, ou 5C. "Obtemos informações muito, muito quantitativas sobre essas interações", disse Stamatoyannopoulos, com uma resolução de cerca de um quilobase.

Em uma escala ampla do genoma, a clivagem da DNase-I revela áreas onde a enzima e, presumivelmente, os fatores de transcrição têm livre acesso ao DNA. Mas em uma escala mais precisa, uma proteína do fator de transcrição que se liga e depois bloqueia o acesso pela Dnase I, "deixando para trás uma imagem negativa da proteína", disse Stamatoyannopoulos. "Ao sequenciar profundamente os dados da DNase-I, você pode efetivamente transformar os dados de mapeamento em dados de pegada para revelar a ligação do fator de transcrição na resolução de nucleotídeos."

Na escala de dezenas de bases, "cada tipo de sítio de ligação de fator de transcrição diferente tem seu próprio padrão de clivagem estereotipado de DNase-I, uma espécie de impressão digital", disse Stamatoyannopoulos. "Esses padrões de clivagem são muito parecidos com os motivos estruturais identificados na cristalografia", acrescentou ele, e também podem ser usados ​​para localizar fatores específicos em uma varredura do genoma. Ele ressaltou que essas impressões digitais não refletem simplesmente as taxas de corte dependentes da sequência descritas por Harmen Bussemaker.

A profundidade das pegadas na atividade da DNase-I pode ser usada para rastrear a frequência com que um fator de transcrição ocupa um local. Stamatoyannopoulos e seus colegas descobriram que essa ocupação muda exatamente como esperado durante as mudanças nas condições celulares, por exemplo, durante a diferenciação. "Esses dados são qualitativos e quantitativos em termos de medidas de ocupação", disse ele.

Os pesquisadores também desenvolveram técnicas para detectar fatores específicos em locais específicos. Eles primeiro replicaram a sequência na pegada e a marcaram para criar uma sonda específica para aquela região. Eles então usaram uma das duas técnicas para detectar a ligação de um fator de transcrição à sonda. Fatores para os quais existem anticorpos apropriados podem ser detectados usando um Western blot. Para outros fatores, eles usaram espectrometria de massa direcionada para encontrar peptídeos de assinatura, cuja proporção de tamanho para carga é específica para proteínas particulares. "Não precisamos mais de anticorpos, desde que você possa clonar os fatores de transcrição", disse Stamatoyannopoulos. "Com esta abordagem, você pode provar que uma proteína está realmente engajando uma sequência de motivo específica, mesmo em um contexto competitivo com outras proteínas."

Caixas de som:
Eran Segal, Instituto de Ciência Weizmann
Harmen Bussemaker, Universidade Columbia

Destaques

  • Uma estrutura baseada na mecânica estatística prevê a probabilidade de qualquer configuração de nucleossomos e fatores de transcrição no DNA, com base em suas afinidades dependentes de sequência.
  • Um sistema experimental de levedura permite a comparação do efeito na expressão de diferentes sequências de promotores com uma precisão melhor do que 10%.
  • Muito, mas não tudo, da organização dos nucleossomos na Vivo é determinado por suas preferências de sequência de DNA.
  • Sequências de poli-adenosina, que são muito rígidas para facilmente enrolar em nucleossomos, modificam significativamente a expressão controlada pela ligação de fatores de transcrição próximos e parecem ter sido usadas para esse propósito durante a evolução da levedura.
  • A descrição da matriz de peso comum, que descreve a dependência da sequência da afinidade de ligação entre uma proteína e o DNA, ignora dependências potencialmente importantes entre bases em posições diferentes.
  • A taxa de clivagem pela DNase I varia em várias ordens de magnitude com a sequência de DNA local e fornece informações sobre a afinidade com a resolução de um único nucleotídeo.
  • A combinação de modelos de afinidade com cruzamentos genéticos permite que os pesquisadores encontrem regiões que afetam a atividade dos fatores de transcrição, o que é mais poderoso do que a identificação de locus para outras características.

Especificidade de sequência da organização do nucleossomo

Compreender as regras que determinam como a transcrição é regulada, de forma análoga à nossa compreensão do código genético, seria extremamente útil em biologia, diz Eran Segal. Mas "apesar de muitos anos de estudo, realmente ainda não entendemos muito do básico e muitas questões fundamentais ainda estão em aberto." Algumas das questões mais complicadas envolvem os papéis de elementos distantes como intensificadores, estrutura da cromatina e as interações cooperativas de vários eventos regulatórios. Esclarecer essas questões complexas requer uma compreensão quantitativa de como a expressão do gene é afetada quando o DNA próximo é ligado por fatores de transcrição ou envolve proteínas histonas para formar nucleossomos.

Para explorar essas questões, Segal e seus colegas desenvolveram uma estrutura de modelagem para prever a ligação dependente da sequência e um sistema experimental que pode distinguir quantitativamente até mesmo pequenos efeitos transcricionais de mudanças na sequência. Ao variar as sequências e comparar os resultados com os modelos, eles estão desvendando as regras de organização dependente da sequência de fatores de transcrição e nucleossomos.

A estrutura de modelagem começa com uma "paisagem de afinidade", que descreve como a afinidade entre uma determinada molécula e o DNA varia ao longo da sequência. Para fatores de transcrição, a afinidade é determinada por sequências relativamente curtas e pode ser deduzida a partir de dados de microarranjos de ligação de proteínas. Experimentos análogos revelam a ligação sensível à sequência de DNA em nucleossomos, que reflete regiões maiores de 147 bases.

As afinidades experimentais são medidas em vitro. "Gostaríamos de entender como, nessa paisagem de afinidade, em uma situação dinâmica, você pode obter diferentes configurações de moléculas ligadas reais", disse Segal. Usando um modelo de mecânica estatística, "sob a suposição de equilíbrio termodinâmico, podemos calcular exatamente a probabilidade de que o sistema estará em qualquer uma dessas configurações." As posições previstas dos nucleossomos combinam bem com na Vivo experimentos em levedura. "Muito, mas certamente não tudo, da organização dos nucleossomos na Vivo é ditada pelas preferências de sequência de nucleossomos ”, concluiu Segal.“ Nós entendemos em grande parte as regras que governam as preferências de sequência de nucleossomos ”.

Uma consequência biológica de tais preferências de ligação é seu efeito na expressão de genes próximos.Segal e sua equipe desenvolveram um sistema experimental em leveduras que permite a avaliação quantitativa das mudanças de expressão que resultam de mudanças de sequência nas regiões promotoras. Como o contexto genômico é sempre o mesmo, "o sistema controla muitas coisas diferentes", disse Segal. "Podemos distinguir diferenças de expressão tão pequenas quanto 5 ou 10%."

Os pesquisadores têm usado este sistema experimental para esclarecer como as mudanças na sequência afetam a expressão, trocando os promotores naturais e sintéticos e fazendo mudanças sistemáticas nos elementos reguladores. Segal discutiu em detalhes o papel das sequências de poli-adenosina (poli-A ou poli (dA: dT)), que são abundantes em genomas eucarióticos, especialmente em regiões promotoras. "Eles repelem os nucleossomos devido à sua rigidez e incapacidade de se conformar à curvatura acentuada do DNA que é exigida pela estrutura do nucleossomo", disse ele. A deleção de tais sequências perto de um local de ligação para o fator de transcrição GCN4 em levedura foi mostrado quinze anos atrás para reduzir a expressão do gene que regula.

A proximidade e posição de uma sequência de poli-adenosina próxima no DNA tem um forte efeito na ligação de um fator de transcrição e na expressão gênica resultante.

"Queríamos examinar essas questões de uma forma mais sistemática e abrangente", disse Segal. Sem alterar o sítio de ligação do GCN4, os pesquisadores modularam a expressão por meio de várias alterações nas sequências poli-A próximas, o que mudou a probabilidade de um nucleossomo se formar nas proximidades e, assim, bloquear o acesso do fator de transcrição ao sítio de ligação. "Fazendo alterações apenas nas sequências poli-A. Podemos obter influências dramáticas nos níveis de expressão do gene", concluiu Segal.

As alterações de expressão resultantes são tão grandes quanto aquelas resultantes de alterações de sequência no local de ligação e podem fornecer uma maneira de ajustar a expressão. Para ver se a evolução explorou esse mecanismo, o grupo de Segal comparou promotores para vários componentes ribossômicos, que precisam ser produzidos em quantidades semelhantes. Eles descobriram que, para genes que têm apenas uma única cópia, os promotores associados são muito mais propensos a ter sequências poli-A próximas que os tornam altamente expressos, em comparação com genes que têm várias cópias. Isso sugere que o controle transcricional fino fornecido pela organização do nucleossomo foi realmente explorado durante a evolução para compensar as variações do número de cópias.

Modelagem de interações de DNA e proteína ndashprotein

Harmen Bussemaker e seus colegas usam uma matriz de afinidade específica de posição motivada biofisicamente para capturar a especificidade da sequência. Eles então usam a afinidade de ligação calculada de cis- regiões reguladoras para estimar a atividade regulatória de cada fator de transcrição em um estado particular da célula.

A atividade reguladora dos fatores de transcrição, que é "quanto mais atividade transcricional você obtém quando a afinidade do promotor aumenta", disse Bussemaker, pode ser considerada uma característica. Os pesquisadores mapeiam as influências genéticas nesta atividade para loci de características quantitativas, ou "aQTLs", de segregantes de levedura. "Podemos determinar não apenas como os níveis de mRNA são determinados por uma sequência não codificadora, mas ir um nível a montante e entender como as atividades dos próprios fatores de transcrição são determinadas", disse Bussemaker.

Combinar afinidades de ligação do promotor calculadas com dados de expressão permite aos pesquisadores inferir quais loci (aQTLs) afetam a atividade regulatória.

"Há um poder estatístico muito bom para isso", disse Bussemaker. As tendências na atividade são menos ruidosas do que os níveis de atividade individuais usados ​​na expressão de QTLs. Além disso, o número de testes é limitado a cerca de 100 fatores de transcrição, em vez de milhares de níveis de expressão gênica.

Os aQTLs normalmente cobrem 10 ou 20 genes, disse Bussemaker. "Essa variação genética influencia causalmente a expressão, por meio dos fatores de transcrição, mas em geral não conhecemos o mecanismo." Em contraste, as interações proteína & ndashproteína fornecem informações moleculares mecanicistas, mas podem não ser relevantes em um estado particular da célula. Combinar os dois pode restringir o campo a um gene específico.

Em outro projeto, Bussemaker colaborou com John Stamatoyannopoulos para explorar a especificidade da sequência de clivagem pela DNase I. O sequenciamento dos fragmentos resultantes mostra que a taxa de corte varia em duas ou três ordens de magnitude, "muito mais do que você poderia esperar com base na literatura", disse Bussemaker. Como a posição da enzima pode ser determinada em um único par de bases, este estudo fornece um "caso ideal para modelagem".

Os pesquisadores determinaram a taxa de corte para todas as sequências hexâmeras possíveis abrangendo o corte. Um modelo de matriz de peso de posição prevê a taxa de corte muito mais precariamente do que a sequência completa do hexâmero, "portanto, deve haver dependências significativas entre as posições dos nucleotídeos", concluiu Bussemaker. Usar o conjunto de dados completo permitiu aos pesquisadores quantificar sistematicamente a força dessas dependências.

A descrição da matriz de peso de posição da afinidade de ligação considera cada base dentro de um motivo de forma independente, mas Bussemaker adverte que este cálculo é muito simplista. “É importante ser quantitativo e ir além do pressuposto de independência dessas matrizes de peso para poder discriminar entre esses fatores”, disse ele.

Bussemaker e seus colegas também estudaram a especificidade da sequência das proteínas Hox. Experimental em vitro "as especificidades dos monômeros não podem realmente explicar a variação na especificidade do alvo das proteínas Hox na Vivo", disse ele. Os colegas da Columbia, Barry Honig e Richard Mann, sugeriram que a especificidade na Vivo surge quando o sulco menor do DNA interage com o junção entre a proteína Hox e um cofator denominado extradentículo (Exd).

Em colaboração com o grupo de Mann, os pós-docs Matt Slattery e Todd Riley desenvolveram uma extensão do SELEX (Systematic Evolution of Ligands by Exponential Enrichment), que explora a seleção laboratorial da ligação de alta afinidade ao DNA. Ao parar antes que o enriquecimento seja saturado e, em seguida, sequenciar a população enriquecida, disse Bussemaker, os pesquisadores "obtêm informações quantitativas sobre a taxa na qual diferentes sequências de DNA são selecionadas, e essa é uma boa fonte de modelos de especificidade de sequência".

A equipe comparou a ligação ao DNA de duas proteínas Hox, Ubx e Scr, ambas na presença de Exd. A força de ligação foi fortemente alterada pelas duas bases centrais no motivo de ligação. "Esperançosamente, isso permitirá que as pessoas entendam na Vivo por que esses Hoxes podem ter alvos tão diferentes ", disse Bussemaker.

Coordenadores gerais:
Gustavo Stolovitzky, IBM
Robert Prill, IBM
Raquel Norel, IBM

Palestrantes do desafio:
Hans-Juergen Thiesen, Universidade de Rostock
Rob Patro, Universidade de Maryland
Nicola Barbarini, Universidade de Pavia
Matt Weirauch, Universidade de Toronto
Matti Annala, Universidade de Tecnologia de Tampere
Yaron Orenstein, Universidade de Tel Aviv
Alberto de la Fuente, CRS4
Matthieu Vignes, INRA-Toulouse
Po-Ru Loh, Instituto de Tecnologia de Massachusetts
Daniel Marbach, Instituto de Tecnologia de Massachusetts
V & acircn Anh Huynh-Thu, Universidade de Li e egravege
Robert K & uumlffner, Ludwig Maximilian University

Destaques

  • DREAM, o Diálogo para Avaliações e Métodos de Engenharia Reversa, permite que pesquisadores colaborem por competição para resolver problemas biológicos ou de inspiração biológica com respostas conhecidas, mas retidas.
  • Os desafios deste ano incluíram dois que combinam dados simulados de uma rede conhecida com dados biológicos medidos.
  • A combinação adequada de previsões de todas as equipes geralmente supera até mesmo a melhor equipe, por causa dos pontos fortes e fracos complementares de diferentes técnicas.

Introdução

Um objetivo contínuo da conferência DREAM (Diálogo para Avaliações e Métodos de Engenharia Reversa) é determinar o mais objetivamente possível quão bem os pesquisadores podem inferir e prever a realidade biológica. As competições para cegos conhecidas como Desafios DREAM são o veículo para essa avaliação. Muito antes de cada reunião, os organizadores Gustavo Stolovitzky, Robert Prill e Julio Saez-Rodriguez trabalharam com outros pesquisadores para reunir quatro conjuntos de dados não publicados ou disfarçados.

As tarefas mudam de ano para ano e são escolhidas para iluminar questões biológicas importantes e problemas computacionais desafiadores, mas que podem ser resolvidos. Uma questão recorrente na escolha de problemas é o conflito entre a especificação matemática perfeita e a precisão biológica. Como parte do esforço contínuo para testar a relevância biológica das tarefas, dois dos desafios deste ano usaram dados biológicos reais e dados simulados em diferentes partes do desafio.

Os dados foram disponibilizados a inúmeras equipes de pesquisadores, que buscaram extrair as regras ou estruturas não divulgadas que deram origem aos dados, ou fazer previsões sobre dados adicionais que foram retidos. As previsões de 73 equipes, cuja adesão não foi tornada pública, foram coletadas, pontuadas e comparadas por Prill, Raquel Norel e Gustavo Stolovitzky, e organizadas no site do projeto DREAM com o apoio de Tom Garben e Aris Floratos da Universidade de Columbia. Na maioria dos casos, o desempenho combinado de todas as previsões foi melhor do que qualquer previsão individual, e Prill, Norel e Daniel Marbach descreveram maneiras de a comunidade fazer uso dessa sabedoria coletiva.

As equipes individuais de melhor desempenho para cada um dos quatro desafios foram convidadas a falar brevemente na conferência sobre seus métodos. Os organizadores também tomaram nota de outras equipes para menção honrosa. A seguir, um resumo dos diferentes desafios, os resultados gerais e as abordagens adotadas pelos melhores desempenhos.

DREAM Challenge 1: Reconhecimento de epítopos e ndashantibody

O primeiro desafio pediu aos participantes para prever se os peptídeos individuais reagiriam fortemente, ou não reagiriam, com uma mistura comercialmente disponível de anticorpos. Hans-Juergen Thiesen e seus colegas reuniram os dados experimentais para o desafio de descrever conjuntos de regras para reconhecimentos de epítopos e ndashantibody (EAR).

A mistura diversa de anticorpos, chamada imunoglobulina intravenosa, ou IVIG, é usada clinicamente e foi obtida de 10.000 a 100.000 pessoas saudáveis. Os peptídeos em sua maioria correspondiam a sequências do genoma humano, mas alguns foram ligeiramente modificados e outros eram aleatórios. Esses peptídeos foram sintetizados e dispostos em alta densidade em lâminas de vidro para leitura quantitativa. As equipes receberam uma lista de mais de 13.000 sequências de peptídeos que reagiram fortemente ou não reagiram com o IVIG e receberam um número semelhante de sequências para classificar. Em princípio, o desafio era encontrar regras ou atributos comuns que determinassem a interação de anticorpos com sequências de peptídeos, exemplificando a interação de anticorpos com epítopos lineares. Um sub-desafio da "rodada de bônus" pediu às equipes que predissem as sequências de peptídeos que se qualificam para serem fortemente ou não se ligarem a IVIG.

Os dois melhores jogadores para o desafio 1 foram significativamente melhores na previsão do que o resto das equipes. O melhor intérprete foi Team Pythia, formado por Rob Patro e Carl Kingsford, da University of Maryland. Eles estabeleceram uma implementação de máquina de vetor de suporte e combinaram um grande número de recursos candidatos para classificação. O melhor classificador é a composição local de aminoácidos, disse Patro, então "características simples não devem ser desconsideradas". O cálculo estrutural da melhor geometria de encaixe usando Zdock teve pior desempenho como um único classificador. "Há muito espaço para melhorias", observou ele.

Team Pavia, consistindo de Nicola Barbarini, Alessandra Tiengo e Riccardo Bellazzi da Universidade de Pavia, ficaram em segundo lugar. Eles avaliaram um grande número de recursos de sequência, incluindo alguns proxies para recursos estruturais, mas nenhuma modelagem estrutural abrangente. Eles usaram uma abordagem de deixar um de fora para treinar vários algoritmos e descobriram que o melhor desempenho veio com um modelo de regressão linear e explorou 28 atributos. Nenhuma regra única dominou a classificação.

Os peptídeos previstos na rodada de bônus por ambos os grupos de melhor desempenho são atualmente validados experimentalmente pelo grupo de Hans-Juergen Thiesen.

DREAM Desafio 2: Fator de transcrição e reconhecimento do motivo ndashDNA

O segundo desafio dizia respeito à previsão de motivos de ligação do fator de transcrição em sequências de DNA. Matt Weirauch e Tim Hughes, da University of Toronto, reuniram os dados de Protein-Binding Microarrays (PBMs).

O paradigma atual para avaliar sequências, observou Weirauch, é a matriz posição-peso, que simplesmente combina as contribuições do nucleotídeo em cada posição. "Está se tornando mais óbvio que há problemas com essa abordagem", disse ele. Em particular, ele não pode lidar com lacunas de largura variável entre seções do motivo, fatores de transcrição com vários modos de ligação e dependências entre resíduos em diferentes posições, conforme descrito por Harmen Bussemaker.

Os participantes receberam dados de especificidade de ligação para 20 fatores de transcrição diferentes de duas matrizes de PBM contendo diferentes sequências de sonda. As sondas em cada matriz são projetadas de modo que todas as sequências de 10 bases possíveis estejam presentes uma vez, de modo que todas as sequências de 8 meros possíveis estejam presentes 32 vezes. As equipes então previram a afinidade para mais 66 fatores, 33 para cada tipo de matriz. Um sub-desafio da "rodada de bônus" pedia às equipes que nomeassem os fatores de transcrição anônimos.

O melhor desempenho tanto no desafio principal quanto na rodada de bônus foi Equipe csb_tut, consistindo em Matti Annala da Universidade de Tecnologia de Tampere, Kirsti Laurila, Matti Nykter e Harri L & aumlhdesm & aumlki. Eles usaram um modelo de afinidade linear que incluiu k-mers de comprimento entre 4 e 8, mas regularizou os dados excessivamente restritos, retendo apenas os mais informativos k-mers. Eles realizaram várias correções nos dados de PBM para artefatos e saturação de sinal e acharam importante incluir as sequências de linker usadas para construir as matrizes em sua análise. Para identificar os nomes dos fatores de transcrição, eles avaliaram a similaridade das sequências com motivos nas bases de dados TRANSFAC e JASPAR.

Compartilhar o melhor desempenho na rodada de bônus foi Equipe ACGT, Yaron Orenstein, Chaim Linhart e Ron Shamir da Universidade de Tel Aviv. Eles usaram seus laboratórios ' Amadeus localizador de motivo, que foi projetado para encontrar sequências em regiões promotoras. A maneira mais óbvia de aplicar essa ferramenta, no entanto, simplesmente aplicando as sondas com a ligação mais alta, "falhou miseravelmente" no conjunto de treinamento, disse Orenstein. O que funcionou foi classificar todos k-mers com base na ligação da sonda, e fornecem aqueles mais informativos k-mers para Amadeus. Em particular, eles calcularam a média das forças de ligação de todas as sondas contendo cada 9-mer e forneceram os 1000 primeiros classificados como sequências de entrada para Amadeus para encontrar uma matriz de peso de posição de motivo de largura 8.

DREAM Desafio 3: Genética de sistemas

O terceiro desafio dizia respeito a dados de populações segregadas, um campo conhecido como genética de sistemas ou genômica genética. Os dados incluem dados simulados e dados medidos de plantas, e foram reunidos por Alberto de la Fuente e seus colegas.

Dados genéticos e fenotípicos combinados de segregantes que resultam de cruzamentos entre cepas consanguíneas foram discutidos em várias palestras nesta conferência, incluindo as de Charlie Boone, Leonid Kruglyak, Michael Snyder e Harmen Bussemaker. Como essas palestras ilustram, a variação genética natural, mas altamente restrita, entre os segregantes produz informações poderosas sobre os contribuintes genéticos para o fenótipo. O desafio da genética de sistemas DREAM deve fornecer uma visão contínua sobre a avaliação deste tipo de dados.

A parte A do desafio usou dados de genética de sistemas simulados. Os pesquisadores primeiro geraram redes de 1000 genes com uma topologia livre de escala modular usando SysGenSIM, uma ferramenta desenvolvida pelos laboratórios de de la Fuente e Ina Hoeschele. Eles modelaram a interação entre genes usando equações diferenciais não lineares. Os parâmetros deste modelo descrevem a taxa de transcrição basal (cis) ou seu efeito em um gene alvo (trans) foram escolhidos a partir de dois valores, representando os alelos parentais, e a expressão do gene em estado estacionário foi calculada.

Os participantes receberam os níveis de expressão e o alelo parental correspondente para todos os 1000 genes, para cruzamentos simulados entre os pais. Os sub-desafios A1, A2 e A3 tiveram populações de 100, 300 e 999 descendentes. As equipes então relataram as arestas em um gráfico direcionado, em ordem de confiança. "Essas redes são muito maiores do que tínhamos no DREAM antes", comentou Prill, "então pedimos apenas as primeiras 100.000 bordas."

O melhor desempenho na Parte A foi Equipe SaAB_meta e SaAB Dantzig, Matthieu Vignes, J. Vandel, N. Ramadan, D. Allouche, C. Cierco, S. De Givry, Brigitte Mangin e Thomas Schiex do INRA-MIA em Toulouse. Eles primeiro fizeram um teste de regressão para distinguir cis- e trans-alelos atuantes. Para uma análise posterior, eles executaram três algoritmos diferentes: uma rede Bayesiana, regressão Lasso e o Seletor de Danzig. Eles então combinaram as três técnicas no algoritmo Meta que forneceu seus resultados de melhor desempenho.

A Parte B usou dados de plantas de soja, produzidas no Virginia Bioinformatics Institute, para ver se os participantes poderiam prever dois fenótipos medindo sua suscetibilidade ao mofo. As plantas vieram de cruzamentos entre um ancestral que era resistente ao patógeno e outro que era sensível. Genótipos para 941 genes e expressão gênica pré-exposição para 28.397 genes foram fornecidos para 200 plantas diferentes. As equipes foram solicitadas a prever o fenótipo para 30 outros descendentes, usando apenas o genótipo (B1), apenas a expressão gênica pré-exposição (B2) ou ambos (B3).

No geral, os resultados "não foram muito bons", disse de la Fuente, especialmente no genótipo sozinho, então talvez a tarefa precise ser mais simples. Prill comentou que, particularmente para o desafio B1, "todas as equipes estão correlacionadas entre si, e nenhuma delas está correlacionada com o padrão ouro" (dados medidos). Ainda assim, dois performers fizeram previsões de fenótipo estatisticamente significativas.

O melhor desempenho para a Parte B2 foi Time orangeballs, Po-Ru Loh, George Tucker, Michael Yu e Bonnie Berger do Instituto de Tecnologia de Massachusetts. Com dados de expressão para tantos genes, o desafio é descobrir "quais desses 20.000 vão ser os que realmente falam sobre o fenótipo", disse Loh. O desafio é agravado pela possibilidade de correlações entre os preditores, tanto genótipos quanto fenótipos. A variação foi dominada por outliers extremos, que a equipe diminuiu usando uma transformação de classificação.Para explicar as possíveis interações não lineares entre os preditores, eles incluíram combinações booleanas de genótipos. No final, um punhado de preditores bem escolhidos alcançou a maior parte do desempenho.

Os melhores desempenhos na Parte B3, Equipe RNI_group, consistindo de Madhuchhanda Bhattacharjee da Universidade de Pune e Mikko Silanp & auml & auml da Universidade de Helsinque não foram capazes de apresentar seus métodos.

Desafio 4: Inferência de Rede

O quarto desafio avaliou o objetivo biológico comum de inferir quatro redes regulatórias da transcrição de dados de expressão após perturbações. Os dados foram reunidos por Daniel Marbach, Jim Costello, Diogo Camacho e Jim Collins.

Este desafio baseia-se na experiência de anos anteriores com "em sílico"redes, onde a rede que gerou os dados é precisamente conhecida. Para DREAM5, a rede simulada, inspirada em Escherichia coli, forneceu apenas um dos quatro conjuntos de dados. O segundo conjunto de dados foi baseado na expressão para Staphylococcus aureus, onde ainda não existe nenhuma rede de referência que possa ser considerada padrão ouro. "Esperançosamente, os biólogos ficarão mais animados se começarmos a nos concentrar não apenas no benchmarking, mas nesta previsão baseada na comunidade", disse Marbach. O terceiro e o quarto conjuntos de dados foram medidos em E. coli e o fermento de brotamento Saccharomyces cerevisiae, onde as redes subjacentes estão bastante bem estabelecidas.

Os participantes receberam uma lista de genes e uma grande quantidade de dados de expressão de microarray, tornados anônimos dos dados originais. Eles também receberam informações complementares, como as condições dos experimentos, e também alguns fatores de transcrição candidatos.

As previsões foram avaliadas por um desempenho consistente em todas as redes, mas "vejo uma grande diversidade nos desempenhos das várias equipes" nas diferentes redes, comentou Prill. Em particular, as previsões do fermento foram "terríveis". o S. aureus a rede não foi pontuada, uma vez que não havia um padrão ouro, mas será usada como base para uma previsão da comunidade. Os dois melhores desempenhos gerais foram ambos líderes de retorno de DREAM4.

O melhor desempenho geral e em sílico era Equipe ulg_biomod, consistindo em V & acircn Anh Huynh-Thu, Alexandre Irrthum, Louis Wehenkel e Pierre Geurts, da Universidade de Li & egravege, e Yvan Saeys da Universidade de Ghent. Eles usaram um modelo baseado em árvore de decisão, baseado apenas em dados de expressão. Huynh-Thu observou que as previsões melhoram dramaticamente quando os fatores de transcrição são conhecidos. Além disso, embora a equipe tenha se saído muito melhor do que outras no em sílico dados, seu desempenho para o na Vivo os dados eram "apenas competitivos".

Melhor intérprete na Vivo, e o segundo lugar geral, foi Team Amalia, incluindo Robert K & uumlffner, Florian Erhard, Tobias Petri, Lukas Windhager e Ralf Zimmer da Ludwig Maximilian University. Para classificar as interações candidatas entre fatores de transcrição e possíveis genes-alvo, a equipe usou o teste ANOVA. Isso não requer linearidade, como assumido em um coeficiente de correlação, nem discretização dos dados, que é necessária para redes Bayesianas ou técnicas de informação mútua. Esta técnica funcionou bem para E. coli. Mas para a rede de fermento, onde todas as equipes se saíram mal, e os não pontuados S. aureus rede, o número de experimentos de perturbação no conjunto de dados era muito pequeno para esperar resultados confiáveis, disse K & uumlffner. No entanto, ele considerou a inclusão de na Vivo dados para ser um "grande passo em frente" para DREAM.


Onde procurar?

Os padrões descobertos entre as regiões regulatórias de um grupo co-expresso de genes serão tipicamente PWMs, como aqueles derivados de TFBSs conhecidos. O problema, entretanto, é que a inspeção de PWMs para sites de ligação reais nos ensinou a não esperar padrões bem definidos com alto conteúdo de informação. Por outro lado, padrões tão mal definidos quanto os reais podem ser facilmente extraídos de qualquer conjunto de regiões a montante se apenas a região escolhida for grande o suficiente. Isso demonstra uma limitação inerente da capacidade de identificar padrões de genes co-regulados. No entanto, na levedura, tem havido um sucesso considerável com de novo identificação de motivos [84]. Identificação de padrão em Drosófila lucrou muito com as muitas sequências que agora estão disponíveis em conjunto com regiões intensificadoras razoavelmente bem definidas compostas por elementos reguladores claramente discerníveis. Sequências regulatórias de vertebrados, no entanto, parecem ser muito mais difíceis de identificar. As dificuldades decorrem da falta de conhecimento sobre como restringir as regiões de sequência nas quais procurar padrões e, provavelmente, da natureza irregular dos MRCs de vertebrados.

Existem várias maneiras de estreitar as regiões de sequência a serem pesquisadas quanto a padrões regulatórios. Em primeiro lugar, a identificação sistemática de cDNAs completos juntamente com novas tecnologias, como marcadores de expressão de gene de análise de cap (CAGE), levaram a uma identificação altamente precisa de locais de início de transcrição em humanos e camundongos [85]. Portanto, focar em uma sequência de promotor é menos adivinhação hoje do que há alguns anos. Um preço a ser pago, entretanto, é o aumento da complexidade da definição do promotor resultante do insight de que promotores alternativos para um gene são mais a regra do que a exceção. Portanto, parece apropriado estudar vários promotores por gene. A noção de um intensificador costumava ser definida biologicamente, mas com sequências genômicas cada vez mais completas disponíveis, os intensificadores tendem a ser identificados com regiões não codificantes altamente conservadas. O mapeamento sistemático de locais de hipersensibilidade à DNase I também está contribuindo para localizar regiões potenciadoras. No entanto, com a identificação de locais de início da transcrição que estão muito a montante do início da tradução, está se tornando cada vez mais difícil distinguir claramente entre um intensificador e um promotor.


Genômica cis-regulatória funcional para biologia de sistemas

A expressão gênica é controlada por interações entre fatores trans-reguladores e sequências de DNA cis-regulatórias, e essas interações constituem as ligações funcionais essenciais das redes reguladoras de genes (GRNs). A validação de modelos GRN requer testes experimentais cis-regulatórios de ligações previstas para autenticar suas identidades e funções propostas. No entanto, a análise cis-regulatória está, no momento, em um severo gargalo na biologia do sistema genômico por causa das exigentes metodologias experimentais atualmente em uso para descobrir módulos cis-reguladores (CRMs), no genoma, e para medir suas atividades. Aqui, demonstramos uma abordagem de alto rendimento tanto para a descoberta quanto para a caracterização quantitativa de CRMs. O aspecto único é o uso de tags de sequência de DNA para "códigos de barras" de construções de expressão de CRM, que podem então ser misturadas, injetadas em ovos de ouriço-do-mar e, subsequentemente, deconvolvidas. Este método aumentou a taxa de análise regulatória cis em & gt100 vezes em comparação com os ensaios repórter convencionais um a um. A utilidade dos repórteres de DNA-tag foi demonstrada pela rápida descoberta de 81 CRMs ativos de 37 genes de ouriço-do-mar até então inexplorados. Em seguida, obtivemos a caracterização temporal simultânea de alta resolução das atividades regulatórias de mais de 80 CRMs. Em média, 2-3 CRMs foram descobertos por gene. A comparação dos perfis de expressão de genes endógenos com os dos CRMs recuperados de cada gene mostrou que, na maioria dos casos, pelo menos um CRM está ativo em cada fase da expressão endógena, sugerindo que a recuperação do CRM foi abrangente. Esta abordagem irá alterar qualitativamente a prática de construção GRN, bem como validação, e terá impacto em muitas áreas adicionais da biologia do sistema regulatório.

Declaração de conflito de interesse

Os autores declaram não haver conflito de interesses.

Figuras

Medição paralela de na Vivo…

Medição paralela de in vivo cis - atividades regulatórias de muitas sequências de DNA por ...

Distribuição dos números de ...

Distribuição do número de CRMs descobertos para cada gene. Os genes são categorizados ...

Pontuações de suficiência temporal ( S ...

Pontuações de suficiência temporal ( S t ) de CRMs. o S t valor…


Interpretando o genoma regulatório: a genômica da função do fator de transcrição em Drosophila melanogaster

Os pesquisadores já tiveram acesso ao genoma totalmente sequenciado de Drosophila melanogaster por mais de uma década, e os genomas sequenciados de 11 espécies adicionais de Drosophila estão disponíveis há quase 5 anos, com mais genomas de espécies se tornando disponíveis a cada ano [Adams MD, Celniker SE, Holt RA, et al. A sequência do genoma de Drosophila melanogaster. Science 2000287: 2185-95 Clark AG, Eisen MB, Smith DR, et al. Evolução de genes e genomas na filogenia de Drosophila. Nature 2007450: 203-18]. Embora os fatores de transcrição (TFs) mais bem estudados de D. melanogaster tenham sido clonados antes do sequenciamento do genoma, a disponibilidade de dados de sequência prometia transformar nossa compreensão dos TFs e das redes regulatórias de genes. Genomas sequenciados permitiram aos pesquisadores gerar ferramentas para caracterização de alto rendimento dos níveis de expressão gênica, localização de TF em todo o genoma e análises de restrições evolutivas em elementos de DNA em várias espécies. Com uma estimativa de 700 proteínas de ligação ao DNA no genoma da Drosophila, levará muitos anos antes que cada TF específico de sequência potencial seja estudado em detalhes, mas a última década de pesquisas genômicas funcionais já impactou nossa visão das redes reguladoras de genes e do DNA do TF reconhecimento.

Figuras

Comparação de pares de ligação TF ...

Comparação par a par da sobreposição do sítio de ligação TF, com (esquerda) ou sem (direita) TF ...


Assista o vídeo: : (Dezembro 2021).