Em formação

Redes genéticas vs arquiteturas genéticas?


Qual é a diferença entre os termos rede genética e arquitetura genética? Já ouvi ambos em uma variedade de contextos usados ​​por pessoas diferentes, então estou interessado no que as pessoas pensam que eles querem dizer, além do que é descrito na Wikipedia:

Arquitetura genéticarefere-se à base genética subjacente de uma característica fenotípica

Rede regulatória genética(GRN) é uma coleção de segmentos de DNA em uma célula que interagem uns com os outros indiretamente e com outras substâncias na célula, governando assim as taxas nas quais os genes na rede são transcritos em mRNA.

EDIT: então o que eu deduzi das respostas até agora é que umrede genéticaé a fiação molecular de todos os loci em interação, enquantoarquitetura genéticadescreve a (s) conseqüência (ões) fenotípica (s) que alguém seria capaz de ver nessa rede. Então, tentando reunir as duas definições, se assumirmos que conhecemos todos os detalhes moleculares de umrede genética, precisaríamos apenas adicionar os outros fatores no modelo, como perturbações ambientais, para terminar com a descrição doarquitetura genética, direito?


Você pode pensar em um rede genética como uma rede de genes em interação, ligando e desligando uns aos outros com base em relacionamentos complexos e estímulos externos. Uma rede genética é tipicamente caracterizada em termos de teoria dos grafos - conectividade, densidade, etc.

O termo arquitetura genética, por outro lado, normalmente se refere a uma característica ou fenótipo e às características do (s) gene (s) que contribuem para esse fenótipo (é isso que o artigo da Wikipedia quer dizer com mapeamento genótipo-fenótipo) A caracterização da arquitetura genética de um fenótipo envolve a descrição de como o (s) fenótipo (s) está / estão relacionados ao (s) genótipo (s). Por exemplo, para uma determinada característica ou conjunto de características, existe uma relação direta entre gene e característica? Ou vários genes contribuem para uma única característica? Ou as características múltiplas são afetadas por mudanças em um único gene? A terminologia relevante é discutida brevemente no artigo da Wikipedia: poligenia, pleiotropia, etc.


Pelo que entendi, "rede de genes" refere-se a "vias" funcionais nas quais um gene está envolvido. Por exemplo, há uma extensa rede de genes em torno do supressor de tumor p53 - muitos produtos gênicos diferentes regulam e são regulados por p53, que constituem esta rede particular. Essas interações são frequentemente visualizadas usando diagramas semelhantes a fluxogramas, com os estímulos na parte superior e o "resultado" da rede de interações na parte inferior.

A arquitetura genética se refere à estrutura real do próprio gene. Por exemplo, o comprimento da sequência de codificação, a razão íntron: exon, os comprimentos UTR 5 'e 3' são todos traços relacionados à arquitetura genética.

Presumivelmente, você já leu as páginas do Wiki, então dei minha opinião sobre os significados, visto que os entendo de uma maneira geral - isso pode diferir de outros.


Os estudos de associação do genoma dissecam as redes genéticas subjacentes às características agronômicas da soja

Soja (Glycine max [L.] Merr.) É uma das mais importantes culturas de óleo e proteína. O consumo cada vez maior de soja exige o aprimoramento de variedades para uma produção mais eficiente. No entanto, ambas as correlações entre diferentes características e interações genéticas entre genes que afetam uma única característica representam um desafio para o melhoramento da soja.

Resultados

Para entender as redes genéticas subjacentes às correlações fenotípicas, coletamos 809 acessos de soja em todo o mundo e os fenotipamos por dois anos em três locais para 84 características agronômicas. Estudos de associação do genoma identificaram 245 loci genéticos significativos, entre os quais 95 interagiram geneticamente com outros loci. Determinamos que 14 genes relacionados à síntese de óleo são responsáveis ​​pelo acúmulo de ácidos graxos na soja e funcionam em linha com um modelo aditivo. As análises de rede demonstraram que 51 características podem ser ligadas por meio do desequilíbrio de ligação de 115 loci associados e essas ligações refletem correlações fenotípicas. Revelamos que 23 loci, incluindo os conhecidos Dt1, E2, E1, Ln, Dt2, , e Fap loci, bem como 16 loci associados indefinidos, têm efeitos pleiotrópicos em diferentes características.

Conclusões

Este estudo fornece insights sobre a correlação genética entre características complexas e facilitará futuros estudos funcionais de soja e melhoramento por meio de projeto molecular.


Introdução

A ação do gene é comumente determinada por suas interações com outros genes. Isso inclui não apenas genes conhecidos por estarem associados à ação em estudo, mas também aqueles cuja associação é menos esperada ou suas propriedades bioquímicas ainda desconhecidas. Ambas as classes de interações podem agora ser efetivamente mapeadas em grande escala, seguindo duas estratégias complementares.

O primeiro depende do progresso de ferramentas experimentais para produzir perturbações genéticas em grandes números e quantificar automaticamente seus efeitos (Baryshnikova et al. 2013, crescimento sendo tipicamente a leitura fenotípica primária, mas ver, por exemplo, Jonikas et al. 2009). Essas ferramentas agora estão fornecendo paisagens genéticas iniciais de células (por exemplo, Roguev et al. 2008 Costanzo et al. 2010). Uma segunda abordagem se beneficia do avanço de métodos computacionais capazes de prever fenótipos. Modelos de balanço de fluxo metabólico são particularmente úteis a este respeito, uma vez que incorporam informações genômicas (do metabolismo) em uma estrutura in silico que pode estimar o crescimento celular sob condições específicas (Reed et al. 2006). Notavelmente, as previsões de equilíbrio de fluxo foram confirmadas experimentalmente (por exemplo, Snitkin et al. 2008). Adequação de mutante único e suas interações genéticas correspondentes também podem ser produzidos neste quadro (Szappanos et al. 2011).

Essas estratégias estão sendo combinadas para melhor interpretar as bases moleculares das interações genéticas (ou seja, epistasia), tanto negativas quanto positivas. Epistasia negativa (observada quando o defeito de aptidão de um mutante duplo é menor do que o esperado de valores de mutante único) indica redundância que pode revelar como associações funcionais entre algumas vias e / ou complexos (por exemplo, a presença de epistasia negativa entre a via de urmilação e o complexo elongator na levedura sugeriu que ambos modificam conjuntamente certos RNAs de transferência, Costanzo et al. 2010) ou como o tamponamento de rotas metabólicas alternativas (por exemplo, levando à síntese do mesmo componente, Papp et al. 2004). Em contraste, as interações genéticas positivas são comumente observadas entre genes que constituem um complexo multiproteico ou via metabólica, ou seja, genes que fazem parte da mesma unidade funcional (St Onge et al. 2007): uma mutação em um de seus constituintes pode inativar esta unidade o que reduz o efeito de outras perturbações em componentes adicionais.

Abordagens em grande escala levam também à identificação de padrões no nível do sistema, quando as interações são representadas como redes genéticas. Por exemplo, a apresentação da rede de dados de alto rendimento de Caenorhabditis elegans e Saccharomyces cerevisiae identificou claramente a presença de centros genéticos que estão principalmente associados à regulação da cromatina (Lehner et al. 2006 Costanzo et al. 2010). Outra característica, revelada pela primeira vez com a modelagem de equilíbrio de fluxo, é a monocromaticidade, a distribuição específica dos tipos de epistasia nas interações dentro / entre os módulos funcionais (Segr & # x000e8 et al. 2005). Esta característica foi posteriormente confirmada por experimentos metabólicos (Szappanos et al. 2011) e dados de alto rendimento (Costanzo et al. 2010), nos quais uma distribuição específica de intensidades de epistasia foi identificada adicionalmente (Poyatos 2011).

Todas as propriedades anteriores sugerem implicitamente uma arquitetura estável de redes genéticas, uma visão que foi parcialmente influenciada pelas condições constantes em que as interações foram examinadas. No entanto, estudos recentes estão enfatizando que essa estabilidade não deve ser necessariamente o caso. As interações genéticas e, mais amplamente, as redes genéticas mostraram mudar dependendo do contexto particular onde a aptidão é avaliada (You e Yin 2002 Harrison et al. 2007 St Onge et al. 2007 Bandyopadhyay et al. 2010 Gu & # x000e9nol & # x000e9 et al. . 2013). A reconfiguração é ainda confirmada por meio de análise comparativa entre organismos (Dixon et al. 2008 Roguev et al. 2008 Frost et al. 2012 Ryan et al. 2012). Além disso, a & # x0201cinstabilidade & # x0201d dessas redes não deve ser uma surpresa trabalhos anteriores já discutidos sobre a influência do contexto (ambiental e genético) no efeito fenotípico das mutações e suas interações (por exemplo, Chandler et al. 2013 Chari e Dworkin 2013), um fenômeno que pode influenciar diretamente a dinâmica evolutiva (Greenspan 2009 Chou et al. 2011 Khan et al. 2011). Até que ponto as redes genéticas são dependentes do contexto é, no entanto, em grande parte desconhecido.

Aqui, perguntamos como a estrutura de uma rede genética se reorganiza em resposta às mudanças no background do gene. Para tanto, mapeamos as interações genéticas entre genes metabólicos usando um modelo computacional de metabolismo em S. cerevisiae. A vantagem desta abordagem (além de evitar a complexidade experimental) é que ela permite a interpretação do fenótipo (ou seja, adequação) como uma consequência unívoca da estrutura da rede de reação metabólica subjacente. Consideramos duas classes amplas de background (genético). A primeira classe corresponde a deleções de gene único de cada uma das enzimas que são ativas (ou seja, apresentaram fluxo diferente de zero) em condições de tipo selvagem (WT). Nós caracterizamos quais tipos de fundos originam mudanças de rede mais fortes e em quais tipos de interações essa variação é mais pronunciada. Os padrões de religação encontrados enfatizam a organização diferente das rotas biossintéticas e catabólicas e como isso afeta sua capacidade de compensar as mudanças. Uma segunda classe apresenta fundos neutros que são gerados por uma trajetória de mutações neutras acumuladas. Isso nos ajuda a apreciar como a variabilidade críptica modifica o buffer em redes genéticas e como as novas estruturas de rede se associam à plasticidade ambiental diferencial. Além disso, corroboramos alguns desses padrões com a inspeção de dados experimentais.


Loci de traços quantitativos

O mapeamento quantitativo do locus de características é uma ferramenta fundamental para investigar a evolução de polimorfismos em populações naturais e a base genética de características e componentes de aptidão. Esta metodologia requer fenotipagem e genotipagem de indivíduos para identificar regiões cromossômicas que fundamentam a diferenciação na característica de interesse. Além disso, o genótipo (ou seja, QTL) por interações com o ambiente pode iluminar a base genética da adaptação local e pode facilitar a análise de características fenotipicamente plásticas, como defesas vegetais induzíveis (Mitchell-Olds, Willis & Goldstein 2007). O mapeamento de QTL pode ser conduzido usando populações experimentais com pedigree (abordagem baseada na família) ou indivíduos não relacionados de populações naturais (abordagem baseada na população) abaixo, nós revisamos essas abordagens.

Abordagem baseada na família

O mapeamento quantitativo de loci de características com pedigrees experimentais é uma maneira poderosa de detectar a posição e o efeito das regiões genômicas que influenciam as características defensivas das plantas. Em espécies tolerantes à endogamia, cruzamentos entre dois pais divergentes podem produzir um híbrido F1 geração, que pode ser autopolinizada para produzir um F heterozigoto2 geração e linhagens consanguíneas recombinantes (RILs) após 6-8 gerações (Collard et al. 2005). RILs fornecem genótipos "imortais" que podem ser pontuados uma vez para marcadores moleculares e, posteriormente, fenotipados para muitas características em muitos ambientes por uma ampla comunidade de pesquisa. Por cruzamento subsequente, autopolinização, genotipagem e seleção de progênie, linhas quase isogênicas (NILs) podem ser geradas. Esses NILs segregam dois alelos contrastantes em uma região QTL, embora sejam isogênicos (idênticos) em outras partes do genoma. Na era pré-genômica, a região de segregação QTL normalmente confundia centenas de loci com o gene de característica quantitativa de interesse. No entanto, a tecnologia atual permite NILs que diferem por apenas um ou alguns genes (Fridman et al. 2004). A geração de NILs exige muito tempo e mão de obra (Tuinstra, Ejeta & Goldsbrough 1997). Em vez disso, HIFs (famílias heterogêneas consanguíneas) que segregam apenas perto do QTL de interesse podem ser identificados a partir de linhagens parcialmente consanguíneas para produzir NILs para mapeamento fino (Tuinstra, Ejeta & Goldsbrough 1997). Essencialmente, RILs que são heterozigotos para o QTL de interesse, mas homozigotos em outros loci, são propagados para produzir famílias (HIFs) que diferem apenas no genótipo naquele QTL. Após várias gerações de autofecundação, espera-se que o genoma seja principalmente homozigoto (homozigotia esperada em F6 RILs: 96,9% homozigotos), o que poderia reduzir a possibilidade de encontrar famílias heterozigotas no QTL de interesse. No entanto, se houver um número suficiente de famílias em um estudo, então pode ser possível identificar várias famílias heterozigotas naquele QTL.

Mapear QTLs usando linhagens consanguíneas é ideal para investigar a arquitetura genética das defesas anti-herbívoros quando essas características têm um forte componente genético e variam dentro ou entre as populações. Na verdade, a abordagem baseada na família tem sido usada em sistemas modelo e não modelo para investigar as defesas químicas e mecânicas anti-herbívoros (por exemplo, Kroymann et al. 2003 Freeman et al. Lou de 2008 et al. 2008) resistência a herbívoros especialistas e generalistas (por exemplo, Lambrix et al. Kliebenstein 2001 et al. 2002b), tolerância de herbívoros mamíferos (por exemplo, Weinig, Stinchcombe & Schmitt 2003), colocalização de QTLs de aptidão e resistência (por exemplo, Weinig, Stinchcombe & Schmitt 2003), a arquitetura genética das defesas constitutivas e induzíveis (Holeski, Chase-Alone & Kelly 2010), e a influência da ontogenia em traços defensivos (Mauricio 2005). Por exemplo, Kliebenstein et al. (2002b) descobriram que Arabidopsis QTLs para produção de glucosinolato co-localizados com aqueles para resistência a um generalista, mas não um herbívoro especialista, esse padrão é concordante com a teoria e sugere que as defesas químicas podem ser mais eficazes contra generalistas do que especialistas (mas ver Carmona, Lajeunesse & Johnson 2011).

A análise de dados envolve a criação de mapas de ligação com marcadores suficientemente próximos para facilitar a detecção de QTL, e. O espaçamento de 10 cM geralmente dá bons resultados (a distância de 1 cM entre os marcadores em um mapa de ligação se traduz em 1% de frequência de recombinação) (Erickson et al. Collard 2004 et al. 2005), seguido pelo mapeamento de QTL. Uma rodada preliminar de análise de QTL pode ser realizada para determinar se marcadores adicionais devem ser pontuados para aumentar a densidade do marcador perto de QTLs potencialmente significativos. Uma variedade de marcadores pode ser usada, incluindo AFLPs, RFLPs, SNPs, marcadores RAD e microssatélites, desde que as linhas parentais carreguem diferentes alelos em cada locus (por exemplo, ver Erickson et al. Collard 2004 et al. 2005 Hohenlohe et al. 2010 para uma discussão sobre as vantagens e desvantagens desses marcadores). Os marcadores AFLPs e RAD podem ajudar na construção inicial de mapas de ligação em espécies não-modelo porque podem ser rastreados de forma rápida e econômica (Erickson et al. Collard 2004 et al. 2005 Herrera & Bazaga 2009 Hohenlohe et al. 2010). A detecção e pontuação de marcadores em espécies não-modelo se tornará mais fácil em um futuro próximo à medida que os custos de sequenciamento diminuam.

O mapeamento de locus de características quantitativas é usado para detectar QTLs individuais, identificar interações epistáticas entre loci (Kao, Zeng & Teasdale 1999) e testar QTL × interações com o ambiente. Interações significativas de QTL × E indicam que diferentes loci são ativados em ambientes distintos e / ou a expressão gênica varia com o ambiente. Devido à natureza induzível de muitas defesas de plantas, é importante testar se os QTLs são constantes em todos os ambientes e / ou tratamentos com herbivoria. Não é suficiente simplesmente comparar QTLs mapeados em diferentes ambientes ou sob diferentes tratamentos, porque a falta de concordância pode ser devido ao poder estatístico limitado e não a diferenças genéticas entre os ambientes. Análises estatísticas explícitas e robustas de interações QTL × E estão disponíveis em programas de computador gratuitos, como qtl Cartographer (Basten, Weir & Zeng 2004), e o pacote r / qtl no ambiente estatístico r (Broman & Sen 2009). Ao mapear QTLs na presença e ausência de herbívoros e testar as interações QTL × E, os pesquisadores podem identificar regiões do genoma que influenciam as defesas induzidas.

Abordagem baseada na população (mapeamento de desequilíbrio de ligação)

Estudos de Populus, Eucalipto, Pseudotsuga e outras árvores ilustram que a abordagem baseada na família para o mapeamento de QTL pode ser implementada para algumas espécies de vida longa (por exemplo, Wu 1998 Jermstad et al. 2001 Freeman et al. 2008), e o mapeamento de QTL com famílias com pedigree é um método robusto que pode ser empregado para espécies com tempos de geração curtos que são passíveis de cruzamento em condições controladas. No entanto, a abordagem de QTL baseada em família não é adequada para muitas espécies não-modelo devido aos longos tempos de geração ou aos desafios na produção de populações experimentais com pedigree. Além disso, as linhagens consanguíneas podem não capturar a diversidade alélica em populações naturais porque os indivíduos parentais são homozigotos e, portanto, apenas dois alelos estão presentes na população de mapeamento. Da mesma forma, alelos QTL com efeitos fortes podem realmente ser raros em populações naturais (Erickson et al. 2004 Nordborg & Weigel 2008 Mackay, Stone & Ayroles 2009). Em contraste com a abordagem baseada na família, métodos baseados na população, como estudos de associação do genoma (GWAS) analisam a relação entre o fenótipo e o genótipo em populações existentes (por exemplo, Mackay, Stone & Ayroles 2009). Esta abordagem foi aplicada a humanos (por exemplo, Hardy & Singleton 2009), Arabidopsis (Atwell et al. 2010) e plantas de vida longa (por exemplo, Gonzalez-Martinez et al. 2007), mas é potencialmente confundido pela estrutura da população (Pritchard et al. 2000), que nem sempre pode ser controlado estatisticamente (Atwell et al. 2010 Mitchell-Olds 2010). Assim, GWAS pode ser mais informativo para análises dentro da população.

Esta abordagem sofre de várias complicações adicionais, incluindo epistasia e desequilíbrio de ligação local devido a varreduras seletivas recentes (Chan, Rowe & Kliebenstein 2010). Populações naturais usadas em GWAS geralmente têm menor desequilíbrio de ligação entre marcadores e QTLs do que populações consanguíneas experimentais, o que pode dificultar a identificação de QTL (Erickson et al. 2004). Além disso, o mapeamento de associação pode falhar em detectar alelos raros que influenciam fortemente os fenótipos (Gupta, Rustgi & Kulwal 2005 Nordborg & Weigel 2008). No entanto, as populações naturais provavelmente têm níveis mais elevados de recombinação do que pedigrees experimentais, o que pode facilitar a localização de QTLs (Erickson et al. 2004 Mitchell-Olds 2010). Chan, Rowe & Kliebenstein (2010) usaram uma abordagem GWA para avaliar a evolução do glucosinolato em Arabidopsis thaliana, mas falhou em detectar 12 dos 16 QTLs que foram mapeados anteriormente em populações com pedigree, talvez devido à estrutura da população, epistasia e alelos de baixa frequência. No entanto, sua análise revelou os dois principais loci que influenciam o fenótipo do glucosinolato (Chan, Rowe & Kliebenstein 2010).Os estudos de GWA requerem um grande número de loci para genotipagem (na ordem de 10 5 SNPs), que podem não estar disponíveis para estudos de defesa de plantas até que as tecnologias de próxima geração possibilitem um sequenciamento rápido e barato.

Um método adicional foi usado para identificar QTLs em populações humanas, mas foi subutilizado em estudos evolutivos (Mackay 2001 Erickson et al. 2004). O método do par de irmãos explora a relação entre irmãos para modelar as diferenças nos fenótipos como uma função dos loci para os quais um par de irmãos tem alelos idênticos por descendência (Drigalenko 1998). Semelhante ao GWAS, o método de par de irmãos pode ser usado em populações não consanguíneas, no entanto, ele usa variação de características entre irmãos para mapear QTLs e, portanto, as relações familiares devem ser conhecidas. Este método requer um grande número (centenas a milhares) de famílias amostradas para mapear QTLs de forma confiável, e é improvável que detecte QTLs de pequeno efeito (Fulker & Cherny 1996 Iliadou et al. Kleensang 2007 et al. 2010) no entanto, pode ser usado para identificar regiões gênicas com efeitos importantes sobre os fenótipos e testar o genótipo por meio de interações com o ambiente (Erickson et al. 2004), que são especialmente importantes no estudo de defesas induzíveis. Na verdade, este método pode ser especialmente útil para populações de plantas, onde existem muitas famílias de meio-irmãos (Erickson et al. 2004 ).

O mapeamento de locus de características quantitativas com famílias com pedigree e populações puras são abordagens complementares que podem revelar regiões do genoma que têm grandes e pequenos efeitos sobre os fenótipos, e que são relevantes para a evolução da variação em populações naturais (Chan, Rowe & Kliebenstein 2010). Uma vez que um QTL significativo é mapeado, os pesquisadores podem conduzir estudos adicionais para verificar o QTL, isolar e clonar o gene e investigar a biologia molecular e a bioquímica dos genes causais (Mackay 2001). No entanto, centenas de genes podem estar contidos dentro dos limites de confiança de QTLs significativos, e isolar o gene ou genes que regulam a expressão fenotípica não é uma questão trivial (Salvi & Tuberosa 2005). As informações genéticas e de sequência limitadas restringirão os estudos funcionais em sistemas não modelos e podem impedir a identificação do (s) gene (s) subjacente (s). No entanto, os estudos ainda podem abordar questões fundamentais na ecologia, evolução e interações planta-herbívoro. Por exemplo, experimentos de campo usando famílias que segregam para alelos QTL significativos podem avaliar os efeitos pleiotrópicos desses QTLs em componentes de aptidão e investigar a seleção em QTLs na presença e ausência de herbívoros para avaliar os custos de defesa. Esses estudos podem quantificar as compensações entre tolerância e resistência, por ex. determinando se os QTLs para resistência e tolerância a herbívoros co-localizam e exibem correlações genéticas negativas. Uma abordagem QTL poderia ajudar a determinar se as correlações genéticas negativas restringiriam a evolução das características de tolerância e resistência (por exemplo, Gardner & Latta 2007). Esses experimentos irão elucidar quais forças evolutivas mantêm a variação fenotípica nas populações, especialmente quando as linhagens são transplantadas reciprocamente para os ambientes parentais. No entanto, tais estudos raramente foram conduzidos (Mitchell-Olds, Willis & Goldstein 2007).


Discussão

Qual é o melhor modelo? (A Questão dos Mil Dólares)

Neste blog, descrevi duas redes principais: com e sem a rede auxiliar e uma rede adicional com parâmetros aprimorados. O benefício das redes de predição de parâmetros é que elas reduzem consideravelmente o número de parâmetros livres na primeira camada de um modelo quando a entrada é dimensional muito elevada, como em sequências genéticas.

Mostrei como alterar os parâmetros da rede básica produziu uma melhor generalização em termos de sobreajuste. Eu validei as abordagens dessas redes no disponível publicamente 1000 genomas conjunto de dados, abordando a tarefa de predição de ancestralidade com base em dados SNP. Este trabalho demonstrou o potencial dos modelos de redes neurais para lidar com tarefas onde há um descompasso entre o número de amostras e sua alta dimensionalidade, como no sequenciamento de DNA.

Dada a alta precisão alcançada na tarefa de predição de ancestralidade, acredito que as técnicas de rede neural podem melhorar as práticas padrão na análise de dados genéticos. Espero que essas técnicas nos permitam enfrentar estudos de associação genética mais desafiadores.


MÉTODOS

Modelo de equação estrutural linear: Equações estruturais lineares podem ser usadas para a construção de um modelo de aproximação de primeira ordem de uma rede genética usando medições de expressão gênica em estado estacionário (D atta 2001). As equações de taxa que expressam a taxa de produção de componentes no sistema são freqüentemente usadas para modelar as concentrações de mRNA, proteína e outras moléculas. As equações de taxas de forma simplificada são fornecidas por J ong (2002), d Z d t = G (Z) - R Z, (1) onde R é uma matriz diagonal e G(Z) é um vetor de funções não lineares. O lado direito da Equação 1 tem dois termos: o primeiro é a produção de moléculas e o segundo é a degradação das moléculas existentes. O sistema de equações diferenciais não lineares (1) pode ser aproximado de primeira ordem por um sistema linear de equações próximo a um estado estacionário do sistema d Y d t = A Y - R Y, onde Y é um vetor do desvio das variáveis ​​em Z de seus meios e UMA é uma matriz Jacobiana de G(Z), ou seja., UMA = ∂G(Z)/∂Z, medindo a força das interações regulatórias entre os genes na rede. Quando o sistema atinge um estado estacionário, o que é equivalente a definir a derivada de tempo de Y para zero, temos R Y = A Y.

As equações acima mostram que a matriz Jacobiana envolve ciclos de feedback de um sistema biológico dinâmico e expressões de genes ou proteínas em células ou tecidos são determinadas conjunta ou simultaneamente. Os dados de expressão gênica gerados por sistemas biológicos devem ser descritos como um sistema de relações conjuntas entre as variáveis ​​de expressão gênica.

A abordagem ingênua da equação diferencial assume que a rede genética está totalmente conectada, ignorando as relações estruturais entre os genes na rede (D’H aeseleer et al. 1999). Essa suposição resulta em um grande número de parâmetros nas equações diferenciais. Devido a um número limitado de amostras, é difícil desenvolver quaisquer métodos estatísticos significativos para estimativa dos parâmetros. No entanto, a maioria das redes genéticas não está totalmente conectada (G ardner et al. 2003). As relações das redes contêm informações estruturais ou causais sobre as variáveis ​​de expressão gênica. O Matrix UMA é uma matriz esparsa e a maioria dos elementos da matriz UMA são zero. Portanto, as variáveis ​​de expressão gênica em redes genéticas são modeladas por equações estruturais, que consideram relações simultâneas e estruturais entre as variáveis ​​de expressão gênica. As equações estruturais podem incluir simultaneamente todas as variáveis ​​endógenas em um lado das equações, o que nos permite considerar a causalidade bidirecional. Ao contrário das técnicas de regressão comuns que não podem lidar com gráficos cíclicos direcionados, os modelos de equação estrutural permitem loops bidirecionais de causalidade / feedback (que são referidos como modelos não recursivos M aruyama 1998). Essa característica notável torna as equações estruturais uma ferramenta de inferência causal útil para a reconstrução de redes genéticas, porque muitas redes genéticas contêm loops de feedback.

Começamos a descrever equações estruturais para modelar redes genéticas, introduzindo um diagrama de caminho (Bollen 1989 S hipley 2000). Um diagrama de caminho (ou gráfico direcionado) é uma representação gráfica de um sistema de equações estruturais e é usado para descrever redes genéticas graficamente como mostrado na Figura 1. O diagrama de caminho consiste em nós, representados por letras, e arestas, representadas por linhas. Os nós do diagrama de caminho correspondem a variáveis. As bordas direcionadas entre os nós denotam a direção da relação regulatória entre os nós (variáveis) conectados pelas bordas e indicam uma influência regulatória direcionada de um gene sobre outro. As bordas direcionadas podem representar ativação (controle positivo) ou inibição (controle negativo).

Variáveis ​​em diagramas de caminho podem ser classificadas em dois tipos básicos de variáveis, variáveis ​​observadas que podem ser medidas e variáveis ​​de erro residual que não podem ser medidas e representam todas as outras causas não modeladas das variáveis. Variáveis ​​mais observadas (por exemplo., níveis de expressão gênica) são aleatórios. Algumas variáveis ​​observadas podem ser não aleatórias ou variáveis ​​de controle (por exemplo., doses de drogas) cujos valores permanecem os mesmos em amostragens aleatórias repetidas ou podem ser manipulados pelo experimentador. As variáveis ​​observadas serão posteriormente classificadas em variáveis ​​exógenas, que ficam fora do modelo, e variáveis ​​endógenas, cujos valores são determinados por meio da interação conjunta com outras variáveis ​​dentro do sistema. Todas as variáveis ​​não aleatórias e alguns dos dados de expressão do gene (ou proteína) (por exemplo., iniciadores da via) podem ser vistos como variáveis ​​exógenas. A maioria dos dados de expressão de genes (ou proteínas) são vistos como variáveis ​​endógenas. Os termos exógeno e endógeno são específicos do modelo. Pode ser que uma variável exógena em um modelo seja endógena em outro. As variáveis ​​observadas são incluídas em caixas e as variáveis ​​de erro não são incluídas de forma alguma.

Deixar Y ser um vetor do p variáveis ​​endógenas e X ser um vetor de q variáveis ​​exógenas. Ocasionalmente, um ou mais dos XNão são aleatórios. Denotamos os erros por e. Nós assumimos que E[e] = 0 e isso e não está correlacionado com as variáveis ​​exógenas em X. Também assumimos que eeu é homocedástico e não autocorrelacionado (Bollen 1989). Então, as equações estruturais para modelar expressões gênicas na rede genética são dadas por Y = B Y + Γ X + e, (2) onde B é um p × p matriz e Γ é um p × q matriz. Os elementos das matrizes de coeficientes B e Γ descrever os efeitos regulatórios de um gene sobre outro ou de uma variável não aleatória no gene, que é uma influência regulatória direta de uma variável sobre a outra. Portanto, ao longo do artigo, as matrizes B e Γ são referidos como matrizes regulatórias. Uma vez que as redes genéticas não estão totalmente conectadas, muitos elementos nas matrizes B e Γ será zero. As matrizes B e Γ são, em geral, esparsos. O Matrix B pode descrever as relações de feedback no diagrama de caminho. As equações estruturais podem modelar gráficos cíclicos direcionados e, portanto, redes genéticas com loops de feedback (Bollen 1989).

Na Figura 1, assumimos que os níveis de expressão dos genes CDC28, CLB1, e CLB3, denotado por x1, x2, e x3, respectivamente, são variáveis ​​exógenas e os níveis de expressão dos genes MCM1, MCM2, SWI4, CLN3, CDC47, e CDC6, denotado por y1, y2, y3, y4, y5, e y6, respectivamente, são variáveis ​​endógenas. As equações estruturais da rede genética são escritas como y 1 = 1,19 x 1 + e 1 y 2 = 0,16 x 1 + 0,28 x 2 - 0,34 x 3 + e 2 y 3 = 0,06 y 1 + 0,19 y 2 + e 3 y 4 = 4 y 3 + e 4 y 5 = 0,19 y 4 + e 5 y 6 = 0,2 y 5 + e 6.

Assumimos que a influência dos genes na rede é em uma direção e que os erros nas equações são independentes e não correlacionados com variáveis ​​exógenas. Sob essas premissas, se as redes genéticas não contiverem ciclos de feedback, o B A matriz pode ser triangular inferior organizando a ordem das variáveis ​​endógenas e a matriz de variância-covariância dos erros é diagonal. Portanto, as equações estruturais para as redes genéticas sem loops de feedback são modelos recursivos, que garantem que os parâmetros no modelo recursivo são identificáveis ​​(Bollen 1989).

Estimativa de parâmetro: Para estimar os parâmetros das equações estruturais, assumimos que a estrutura da rede é conhecida. Como identificar a estrutura da rede é discutido no Seleção de modelo seção. Está bem documentado que o estimador de mínimos quadrados ordinários é tendencioso e inconsistente para parâmetros em equações estruturais (Bollen 1989). Para garantir que os estimadores sejam consistentes e não enviesados, usamos os procedimentos de estimação baseados na análise de covariância, que assume que ∑ = ∑ (θ), onde Σ é a matriz de covariância da população das variáveis Y e X, e Σ (θ) é a matriz de covariância escrita em função dos parâmetros do modelo livre nos modelos, que denotamos por θ. Sejam Φ e Ψ denotarem as matrizes de covariância de X e e, respectivamente. A matriz Σ (θ) consiste em três partes: (1) a matriz de covariância de Y, (2) a matriz de covariância de X com Y, e (3) a matriz de covariância de X. Primeiro, consideramos ΣAA(θ), a matriz de covariância implícita de Y. Da Equação 2, temos Y = (eu - B) -1 (ΓX + e) Portanto, ΣAA(θ) = (eu -B) -1 (ΓΦΓ ′ + Ψ) (I B) -1 ′. A matriz de covariância implícita de Y e X é dado por ∑ Y X = E <(I - B) - 1 (Γ X + e) ​​X> = (I - B) - 1 Γ Φ. Portanto, temos Σ (θ) = ⌊ (I - B) - 1 (Γ Φ ​​Γ ′ + Ψ) (I - B) - 1 ′ (I - B) - 1 Γ Φ Φ Γ ′ (I - B) - 1 ′ Φ ⌋ (Bollen 1989). A equação acima implica que cada elemento da matriz de covariância é uma função dos parâmetros do modelo. Os parâmetros desconhecidos em B, Γ, Ψ e Φ são estimados de modo que a matriz de covariância implícita Σ (θ) seja o mais próximo da matriz de covariância de amostra S, o estimador da matriz Σ, se possível. Para saber quando nossas estimativas estão o mais “próximas” possível, devemos definir próximo, ou seja, exigimos uma função de ajuste que seja minimizada. A função de ajuste mais amplamente utilizada é baseada no método de máxima verossimilhança (ML) definida pela maximização da função de verossimilhança ou seu log, F ML = log ∣ ∑ (θ) ∣ + Tr (S ∑ - 1 (θ)) - log ∣ S ∣ - (p + q), onde p e q são o número de variáveis ​​endógenas e exógenas, e Tr denota o traço de uma matriz. A função de ajuste FML compara a diferença entre as matrizes de covariância observada e prevista. Em geral, FML é uma função não linear complicada dos parâmetros estruturais, e soluções explícitas nem sempre são encontradas. Em vez disso, um procedimento de otimização irrestrita de Newton é empregado para encontrar soluções (Bertsekas 1995).

É bem conhecido que os estimadores de ML são consistentes e não enviesados ​​assintoticamente. A teoria da grande amostra garante que (N - 1)FML é distribuído assintoticamente como distribuição χ 2 com ½ (p + q)(p + q + 1) - t d.f., onde t é o número de parâmetros livres e a distribuição do estimador é assintoticamente normal. Portanto, a proporção do parâmetro estimado para seu erro padrão se aproxima de um Z-distribuição para grandes amostras e pode ser usado para testar os parâmetros. Os erros padrão podem ser obtidos a partir da seguinte matriz de covariância assintótica para os estimadores ML, (2 N - 1) - 1, onde N é o número de amostras.

Seleção de modelo: Aprender sobre redes genéticas consiste em duas partes: aprendizado de parâmetros e aprendizado de estrutura. Para aprendizagem de parâmetros, na seção anterior, assumimos que a estrutura da rede é conhecida. No entanto, na maioria dos casos, a estrutura da rede é desconhecida e precisa ser identificada. Para aprender a estrutura da rede a partir de perfis de expressão gênica de todo o genoma consiste em duas etapas. O primeiro passo é selecionar o conjunto de genes cuja rede reconstruída melhor se ajusta aos dados de expressão gênica. A segunda etapa é aprender a estrutura das redes para um conjunto de genes selecionados, que fornece o melhor ajuste aos dados de expressão gênica.

Para identificar a estrutura da rede, uma medida geral de ajuste do modelo é necessária para avaliar o quão bem uma rede genética se ajusta aos dados e para comparar os méritos de uma estrutura de rede alternativa (J ordan, 1999). A medida geral de ajuste do modelo é calcular a diferença entre a matriz de covariância prevista pelo modelo e a matriz de covariância de amostra a partir dos dados observados. Essas diferenças medem o quão semelhante é o modelo hipotético de rede genética. A medida de ajuste do modelo nos permite classificar as redes genéticas de acordo com sua capacidade de ajustar os dados observados. Uma medida de ajuste de modelo amplamente utilizada é o critério de informação de Akaike (AIC Bollen 1989 M aruyama 1998), que é definido como (N - 1) F ML - 2 d, onde N é o número de amostras, FML é a função adequada, d = ½(p + q)(p + q + 1) - t são graus de liberdade, e t é o número de parâmetros livres no modelo. O valor AIC fornece uma ordem relativa de diferentes modelos que se ajustam aos dados. Quanto menor o valor AIC, melhor o modelo se ajusta aos dados.

No entanto, as informações do AIC não podem ser utilizadas para testar se a rede genética identificada é válida. Felizmente, a estatística (N - 1)FML é assintoticamente distribuído como uma distribuição χ (d) 2 sob a hipótese nula H0: Σ = Σ (θ). Deve-se notar que a hipótese nula significa que as restrições sobre Σ impostas pelo modelo da rede genética são válidas. Em contraste com os testes comuns onde a probabilidade de obter um valor de χ 2 maior do que um valor pré-especificado é a probabilidade de cometer erro pela rejeição da hipótese nula, no teste de seleção de modelo aqui, a probabilidade de obter um valor de χ 2 maior do que um valor pré-especificado é a probabilidade de garantir que o modelo ajustado está correto e é referido como a probabilidade de ajuste. Portanto, quanto maior a probabilidade do χ 2, mais próximo é o modelo ajustado para a rede genética da verdadeira rede genética.

Algorítmos genéticos: Pesquisar a rede genética é um problema muito difícil devido ao grande número de redes possíveis. Pesquisar exaustivamente todas as redes possíveis é inviável, na prática, mesmo com computadores de alto desempenho. Algoritmos genéticos (GAs) podem ser usados ​​para pesquisar redes (L arranaga et al. 1996).A pesquisa de rede consiste em duas partes. Primeiro, precisamos pesquisar um conjunto de genes que estão incluídos na rede. Então, para o conjunto fixo de genes, pesquisamos as estruturas da rede que especificam como os genes na rede estão conectados. Desenvolvemos um novo tipo de GA que realiza essas duas tarefas simultaneamente.

Nós usamos um k × k matriz conectiva C para representar a estrutura de uma rede com k genes. Os elementos de C são dados por c i j =

Os AGs começam com uma população que consiste em um grande número de indivíduos. Em nosso algoritmo genético, os indivíduos da população representam genes selecionados e estruturas de rede. Este tipo de indivíduo é denotado por um fio, g 1 g 2 ... gkc 11 c 21 ... ck 1 ... c 1 kc 2 k ... ckk, que é geralmente referido como um cromossomo na literatura GA (em oposição a um cromossomo real ) A primeira parte do cromossomo g1g2. gk é um conjunto de números inteiros que representam genes selecionados na rede. A segunda parte c11c21. ck1. c1kc2k. ckk é uma string binária que indica a estrutura da rede. Os GAs tentam encontrar indivíduos do espaço de pesquisa com a melhor aptidão (por exemplo., menor valor AIC). O procedimento de busca de AGs pode ser descrito resumidamente como segue. Primeiro, a população inicial é gerada aleatoriamente e a aptidão de cada indivíduo é calculada. Em segundo lugar, os indivíduos com boa forma física são selecionados como pais. Esses pais produzem filhos por meio de operações de cruzamento e mutação. Uma operação de crossover em um algoritmo GA produz dois filhos por uma troca de segmentos de cromossomos entre dois pais. A operação de mutação cria crianças alterando os cromossomos dos pais. Todas as novas crianças produzidas são adicionadas à população. Alguns indivíduos com pior aptidão (por exemplo., valores de AIC mais altos) são removidos da população estendida (incluindo pais e filhos) para gerar uma nova população com seu tamanho inicial, mas com melhor adequação. O cruzamento e a mutação desempenham papéis diferentes no algoritmo genético. O crossover aumenta a aptidão média da população. A mutação pode ajudar o algoritmo a evitar ótimos locais explorando novos estados. Depois de muitas iterações de GAs, as redes mais prováveis ​​ou próximas às mais prováveis ​​para ajustar os dados podem ser encontradas. Quando a diferença entre os valores de AIC de duas iterações sucessivas é menor que um limite pré-especificado, a iteração de GAs é interrompida.

O generalizado T 2 estatística para testar a expressão diferencial de redes genéticas: Deixar 1 e 2 ser o valor médio de expressão de todos os genes da rede de tecidos normais e anormais, respectivamente. Deixar Spiscina ser a estimativa combinada da matriz de covariância comum entre as expressões gênicas. Pode ser mostrado que T2 = ⌊ n 1 + n 2 - p - 1 (n 1 + n 2 - 2) p ⌋ ⌊ n 1 n 2 n 1 + n 2 ⌋ D 2 (A nderson 1984) segue um F-distribuição com v1 = p e v2 = n1 + n2 - p - 1 d.f., onde D 2 = (X - 1 - X - 2) T S pool - 1 (X - 1 - X - 2),

n1 e n2 são os tamanhos de amostra de tecidos normais e anormais, respectivamente, e p é o número de genes selecionados na estatística de teste. Consequentemente, T 2 pode ser usado para testar se as médias da população, μ1 e μ2, diferem significativamente e para testar a significância da separação de duas populações (tecidos normais e anormais). Formalmente, a hipótese nula H0: μ1 = µ2 vs. a hipótese alternativa Huma: μ1 ≠ μ2 é assumido. If H0 é rejeitado com base em um T No teste 2, podemos concluir que a separação entre as populações de tecidos normais e anormais é significativa e a rede genética é expressa diferencialmente.

Índice para medir a diferença na regulação das redes genéticas: Deixar UMA = [BΓ] ser uma matriz de coeficientes de equações estruturais para modelar uma rede genética. Deixar UMA1 e UMA2 ser suas matrizes de coeficiente correspondentes nas amostras de tecido normais e anormais. Deixar C = UMA1 - UMA2 e Ceu j ser um elemento da matriz C. Desde a Ceu j é um parâmetro na rede, seu desvio padrão assintótico pode ser calculado a partir da raiz quadrada da diagonal principal da matriz de covariância assintótica dos parâmetros estimados na rede e denotado por SWij. Nós definimos a estatística de teste TG como T G = W i j S W i j.

Embora a distribuição exata de TG é desconhecido, sua distribuição assintótica pode ser aproximada por um t distribuição com N - 2 d.f. Essa estatística pode ser usada para testar a diferença do efeito regulador de um gene em outro entre tecidos normais e anormais.

A diferença do efeito regulador de um gene em outro não pode medir a diferença no comportamento global das redes genéticas entre os tecidos normais e anormais. Uma quantidade simples para medir a diferença no comportamento global das redes genéticas entre os tecidos normais e anormais é o maior valor absoluto da diferença do efeito regulatório de um gene sobre outro na rede entre os tecidos normais e anormais, ou seja., C0 = maxeu j|Ceu j| = |Ceu0j0| A estatística TG para testar a diferença do efeito regulatório individual pode ser usado para testar a diferença no comportamento global das redes genéticas. Especificamente, a estatística para testar a regulação diferencial das redes genéticas é dada por T G 0 = w i 0 j 0 S w i 0 j 0.

o P valor é calculado por um teste de permutação. A matriz do perfil de expressão gênica é permutada aleatoriamente, e o modelo de equação estrutural e algoritmos genéticos são aplicados aos dados de expressão gênica permutados aleatoriamente para reconstruir a rede genética centenas ou milhares de vezes. Então, nós calculamos TG0 e obter uma distribuição empírica de TG0. o P valor do teste é então definido como a probabilidade de que TG0 excede seu valor observado. A estatística TG0 pode ser usado para medir a diferença na regulação da rede genética.

A diferença no comportamento global das redes genéticas entre os tecidos normais e anormais depende de toda a matriz do coeficiente regulador. Um escalar associado a uma matriz C é uma norma da matriz C que denota uma função real valorizada de C (dos elementos Ceu j do C) A norma é relevante para todos os elementos da matriz e, portanto, pode ser usada para medir a diferença na regulação de todas as redes genéticas. Quatro métricas emprestadas das normas da matriz para medir a diferença na regulação das redes genéticas são definidas da seguinte forma (G raybill 1976):

‖ W ‖ 1 = max j (∑ i = 1 p + q ∣ w i j ∣) = máximo das somas do valor absoluto dos elementos da coluna da matriz.

‖ W ‖ ∞ = max i (∑ j = 1 p + q ∣ w i j ∣) = máximo das somas dos valores absolutos dos elementos da linha da matriz.

|| W ||2 = raiz quadrada dos valores próprios máximos da matriz W T W, uma norma espectral.


Descobertas genéticas em 2019

A lista a seguir é apenas uma pequena apresentação da vasta rede de pesquisas genéticas em 2019 que pode influenciar nossas vidas de muitas maneiras inesperadas.

Obtendo a regulação gênica em uma gaiola: um novo método NET-CAGE para determinação da estrutura do intensificador [Suécia-Japão, setembro de 2019].

O sequenciamento do genoma humano mostrou aos cientistas que uma porção considerável de nosso DNA não codifica proteínas. No início, essas sequências foram chamadas injustamente DNA lixo.

Agora sabemos que esses fragmentos de DNA são cruciais para a regulação da atividade do gene. Existem vários tipos de sequências regulatórias. Para os cientistas do RIKEN Center for Integrative Medical Science, os intensificadores eram de particular interesse:

  • Intensificadores são sequências localizadas a uma certa distância dos genes que podem influenciar.
  • Ainda não está claro como funcionam os potenciadores.
  • Os pesquisadores desenvolveram um método chamado NET-CAGE que permite a detecção e o sequenciamento de realçadores com alta sensibilidade.
  • O método foi testado em vários tipos de linhagens de células cancerosas.
  • O método permitiu encontrar mais do que 20.000 novos potenciadores em células humanas.
  • Ao contrário dos promotores que podem ativar a transcrição do gene em todos os tipos de células, os potenciadores foram considerados específicos para células.

Este novo método ajudaria a entender melhor a regulação gênica. Além disso, agora está claro que os intensificadores desempenham um papel essencial na especialização celular, pois sua ação é altamente específica para o tipo de célula.

Referência: & # 8220NET-CAGE caracteriza a dinâmica e topologia de elementos cis-reguladores transcritos humanos | Nature Genetics & # 8221. Acessado em 15 de junho de 2020. Link.

Enviando suporte para células musculares: nova terapia gênica para distrofia muscular de Duchenne desenvolvida [Canadá, novembro de 2019].

A distrofia muscular de Duchenne é uma doença genética causada por uma mutação na gene da distrofina (DMD). Essas mutações levam à perda de distrofina. Esta proteína fornece suporte adicional para o músculo membrana celular, que protege as células musculares contra danos.

Com a ausência da distrofina devido ao gene desligado, os músculos dos pacientes degeneram e deixam de suportar as funções corporais.

  • A equipe liderada pelo médico geneticista Toshifumi Yokota da Universidade de Alberta decidiu melhorar a abordagem existente e # 8211 o uso de oligo anti-sentidoNucleotídeos.
  • Anteriormente, o tratamento com oligonucleotídeos antisense era possível para mutações localizadas fora da estrutura do gene.
  • A combinação recém-desenvolvida visa tratar as mutações localizadas no exão 45-55.
  • A injeção do coquetel de oligonucleotídeos leva à mudança do quadro durante a tradução do gene defeituoso.
  • Como resultado, o gene da distrofina ainda é produzido, embora seja mais curto em comparação ao normal.
  • Essas proteínas distrofinas mais curtas são vistas em pacientes com DMD com sintomas leves da doença.
  • O tratamento mostrou ser bem sucedido em camundongos e células humanas imortalizadas de pacientes com DMD.

Se o tratamento tivesse sucesso comprovado em seres humanos, os portadores com mutações mais graves submetidos ao novo procedimento teriam um aumento significativo na qualidade de vida. Os pesquisadores preveem que a nova abordagem ajudaria a tratar 65% de todos os pacientes com DMD.

Referência: & # 8220Exons 45-55 Pulando Usando Coquetéis Adaptados à Mutação de Morfolinos Antisense no Gene DMD: Terapia Molecular & # 8221. Acessado em 15 de junho de 2020. Link.

Uma mutação que atua em 3D: as células cancerosas têm uma mutação que afeta a estrutura tridimensional dos cromossomos [Suíça, janeiro de 2019].

Os cromossomos têm estruturas chamadas domínios topologicamente associados. Esses TADs têm uma alta concentração de proteínas histonas, e os genes localizados nos TADs provavelmente interagem entre si.

Também se sabe que TADs influência regulação gênica. A equipe de pesquisadores da Suíça estudou a influência de uma mutação relacionada ao câncer no gene EZH2 na função TAD:

  • Em células cancerosas, uma mutação no gene EZH2 leva à metilação em uma das proteínas histonas.
  • A metilação excessiva das histonas leva à supressão geral do gene nas células cancerosas.
  • A metilação conduzida pela proteína EZH2 mutada leva ao silenciamento preferencial dos domínios contendo múltiplos supressores de tumor.
  • O bloqueio do EZH2 por um inibidor específico levou à restauração da atividade normal dos genes e também às interações saudáveis ​​da cromatina.

Esta descoberta mostra que as mutações no câncer podem afetar estruturas inteiras dos cromossomos, não apenas genes específicos, e é essencial considerar na terapia do câncer.

Atualmente, existem ensaios de agentes que bloqueiam a atividade da proteína EZH2 mutada, o que pode trazer benefícios significativos para pacientes com câncer.

Referência: & # 8220Câncer: Uma mutação que quebra a interação do gene em 3-D & # 8221. Acessado em 15 de junho de 2020. Link.

A história está escondida em nosso DNA: os pesquisadores analisaram o DNA ancestral para descobrir a história genética da Roma Antiga [EUA-Áustria-Itália, 2019].

.

Devido à nova metodologia que permite estudar o DNA antigo, tornou-se possível ver literalmente a história em nossos genes. Uma equipe internacional que incluiu pesquisadores de Sapienza University em Roma, a Universidade de Viena, Áustria, bem como em Stanford, EUA, empreendeu um estudo único:

  • Os pesquisadores coletaram amostras de 29 sítios arqueológicos.
  • Os sites foram datados do período Neolítico, 12.000 anos atrás, ao período medieval.
  • Havia 127 genomas sequenciado no total.
  • A primeira mudança na população ocorreu ao mesmo tempo em que os antigos aprenderam a cultivar.
  • A segunda mudança na população humana em território romano ocorreu por volta do Era do aço.
  • Outra mudança significativa ocorreu durante o período imperial de Roma, quando as pessoas começaram a vir para Roma do Oriente Próximo e do Norte da África por causa das conquistas romanas.

Este estudo não apenas apóia a evidência histórica a respeito do desenvolvimento e estabelecimento de Roma & # 8211, mas também mostra que a análise do DNA antigo pode se tornar outra ferramenta que nos ajuda a entender o que estava acontecendo no passado.

Referência: & # 8220Roma Antiga: Uma encruzilhada genética entre a Europa e o Mediterrâneo | Ciência & # 8221. Acessado em 15 de junho de 2020. Link.

A lei da Rainha Vermelha em ação: os cientistas documentaram o processo de coevolução parasita-hospedeiro [Alemanha-Suíça-Reino Unido, outubro de 2019].

O famoso lei da rainha vermelha afirma: é preciso correr muito rápido para ficar no lugar. Essa lei é especialmente verdadeira quando olhamos para o processo de co-adaptação entre hospedeiros e patógenos.

Os hospedeiros desenvolvem continuamente medidas de proteção de que os patógenos precisam para desenvolver formas de superá-los. E todas essas mudanças sutis são causadas pelas mudanças no DNA.

Para documentar como os genomas mudam ao longo do tempo nos pares patógeno-hospedeiro, uma equipe de pesquisadores internacionais decidiu criar um sistema patógeno-hospedeiro modelo e registrar as mudanças moleculares ao longo do tempo:

  • Os pesquisadores usaram algas, Chlorella variabilis, como o anfitrião e Paramecium bursaria Chlorella vírus como o patógeno.
  • Tanto o vírus quanto as algas não são capazes de se reproduzir sexualmente.
  • Os pesquisadores coletaram amostras da população várias vezes, observando como o hospedeiro e o patógeno se adaptam às mudanças um no outro.
  • Os pesquisadores documentaram vários parâmetros:
    • Diversidade genética
    • Tamanho da população
    • Evolução de resistência
    • Evolução da infecciosidade

    É o primeiro estudo a relacionar as mudanças moleculares e as mudanças na população ao longo de um período prolongado. Isso ajudaria significativamente a compreender como as pessoas mudam em resposta aos patógenos ao longo do tempo.

    Referência: & # 8220O feedback entre seleção e demografia molda a diversidade genômica durante a coevolução | Avanços científicos & # 8221. Acessado em 15 de junho de 2020. Link.

    Os pássaros com os maiores cromossomos sexuais conhecidos foram descobertos [Suécia-Reino Unido, dezembro de 2019].

    Uma equipe de pesquisadores realizou um estudo comparativo de genômica entre vários espécies de pássaros nomeadamente Cotovia euro-asiática, Cotovia com chifres, Raso cotovia, e Junco barbudo.

    As famílias Panuridae e Alaudidae, ao qual essas espécies pertencem, são conhecidos por um evento único & # 8211 a fusão de cromossomos autossômicos que leva à formação de cromossomos sexuais.

    Os pesquisadores analisaram o tamanho e as características dos cromossomos em todas as espécies escolhidas e também compararam as relações filogenéticas. Eles encontraram vários fatos interessantes:

    • Cotovia euro-asiática e Raso cotovia foram encontrados para ter o maior conhecido cromossomos sexuais até o momento, aproximadamente 195,3 Mbp no tamanho.
    • Os cromossomos sexuais nessas espécies eram o resultado de uma fusão de quatro cromossomos autossômicos ao longo do tempo.
    • Um dos cromossomos que faziam parte da fusão, cromossomo 3, tinha uma concentração excepcionalmente alta de genes determinantes do sexo.
    • Os cromossomos que formaram os cromossomos invulgarmente grandes em cotovias são semelhantes aos cromossomos sexuais de peixes, lagartos, sapos e alguns mamíferos.

    Essa descoberta é importante por dois motivos:

    • ajuda os pesquisadores a compreender como os cromossomos sexuais evoluíram em diferentes grupos de animais.
    • Ele aponta para uma vulnerabilidade potencial nessas espécies particulares de cotovia, como grandes cromossomos podem ser especialmente frágeis.
    Referência: & # 8220 Evolução repetida dos cromossomos sexuais em vertebrados apoiada por cromossomos sexuais aviários expandidos | Proceedings of the Royal Society B: Biological Sciences & # 8221. Acessado em 15 de junho de 2020. Link.

    Às vezes, a qualidade é mais importante do que a quantidade: descobriu-se que uma espécie de alga sobreviveu apesar da redução considerável do genoma [Coréia, outubro de 2019].

    Sabe-se que um ancestral das algas vermelhas, um grupo de grande sucesso, perdeu aproximadamente 25% de seu genoma no curso da evolução. Uma equipe de pesquisadores da Coréia decidiu examinar a base genética de seu sucesso, apesar de uma perda tão significativa.

    • Os pesquisadores sequenciaram o genoma de espécies de algas unicelulares, Porphyridium purpureum.
    • O genoma obtido foi comparado a outros genomas de algas conhecidos para encontrar duplicações de genes e outras características.
    • Verificou-se que os cloroplastos e outros plastídios nessas algas adquiriram uma maquinaria fotossintética particularmente útil.
    • O genoma das algas vermelhas também contém duplicações e variantes de genes que codificam para uma família de proteínas vitais & # 8211 ficobilissomos.
    • Ficobilissomos atuam como proteínas ligantes no complexo sistemas fotossintéticos dentro das células.

    Esta descoberta pode ajudar com Engenharia genética algas para serem usadas como cultivo no futuro.

    Referência: & # 8220Expansão de famílias de genes ligantes ficobilissoma em algas vermelhas mesofílicas | Nature Communications & # 8221. Acessado em 15 de junho de 2020. Link.

    Novo papel para o velho herói: uma nova função importante do gene p53 descoberta

    Gene P53 desempenha um papel vital na célula. Geralmente é chamado de & # 8220um guardião& # 8221 pois tem várias funções conhecidas:

    • Início do reparo do DNA em caso de dano.
    • Regulação de ciclo de célula.
    • Iniciação de Morte celular se a célula receber danos irreparáveis.

    Todas essas funções são cruciais para evitar que a célula se torne cancerosa. No desenvolvimento do câncer, uma mutação do gene p53 que leva à perda dessas funções é um dos primeiros eventos que acontecem à célula para transformá-la no & # 8220canceroso& # 8221 road.

    Uma colaboração entre vários laboratórios no Instituto Sloan Kettering levou à descoberta de uma função anteriormente desconhecida de p53:

    • Os pesquisadores estavam estudando a função do p53 nas células do modelo de camundongo com câncer de pâncreas.
    • A interferência de RNA foi usada para bloquear ou restaurar seletivamente a função de p53 em camundongos.
    • Foi demonstrado que a restauração da atividade do p53 nas células do câncer pancreático leva a um aumento no nível de α-cetoglutarato.
    • Este é um metabólito importante para várias proteínas especializadas na modificação cromatina.
    • Os pesquisadores acreditam que o α-cetoglutarato é crucial para as funções de supressão de tumor do p53.

    Há esperança de que esta descoberta apontaria potencialmente para uma nova terapia para o câncer.

    Referência: & # 8220α-Cetoglutarato liga p53 ao destino da célula durante a supressão do tumor | Nature & # 8221. Acessado em 15 de junho de 2020. Link.

    A sexualidade é mais complexa do que se pensava anteriormente: os especialistas descobriram que a homossexualidade não está ligada a um gene em particular [Holanda-EUA, agosto de 2019].

    Mesmo agora, ainda não está claro como a homossexualidade em humanos é determinada.

    É uma característica herdada ou pode ser influenciada pelo ambiente?

    Esta questão é muito polêmica devido às atitudes existentes em relação às comunidades LGBT. Apesar de todas as afirmações em contrário, como Andrea Ganna e seus colaboradores mostraram, o comportamento do mesmo sexo tem um componente genético:

    • Os pesquisadores realizaram uma análise em grande escala do genoma das amostras de DNA retiradas de participantes dos EUA, Reino Unido e Suécia.
    • Havia 493. 001 participantes no total.
    • Os participantes também preencheram um questionário respondendo a perguntas sobre seu comportamento.
    • Havia vários genes associados ao comportamento do mesmo sexo, o que aponta para a natureza poligênica do comportamento não heterossexual.

    Este estudo mostrou que a sexualidade é de natureza complexa e determinada por múltiplos fatores, inclusive genéticos. Não há um único gene que possa ser ligado ou desligado, o que nega todas as tentativas de & # 8220terapia gay& # 8220, bem como a declaração de que & # 8220ser homossexual& # 8221 é uma escolha.

    Referência: & # 8220GWAS em grande escala revela insights sobre a arquitetura genética do comportamento sexual do mesmo sexo | Ciência & # 8221. Acessado em 15 de junho de 2020. Link.

    A inserção de um único gene pode restaurar a visão em camundongos [EUA, março de 2019]

    Às vezes, a cegueira é causada pela perda de cones e varas no olho devido a uma condição hereditária ou devido à idade avançada.

    Infelizmente, como existem várias causas potenciais para a cegueira hereditária, dirija terapia de genes é difícil para esses pacientes.

    Normalmente, os pacientes cegos são equipados com um implante ocular eletrônico & # 8211, que não é particularmente eficaz e requer cirurgia invasiva.

    Os pesquisadores da University of California & # 8211 Berkeley propuseram uma solução alternativa:

    • Os pesquisadores usaram ratos modelo com cegueira.
    • Eles criaram um vetor viral que contém a opsina de comprimento de onda médio & # 8211 uma proteína que ajuda o olho a detectar a luz verde.
    • A injeção de vetores portadores de opsina nos olhos dos ratos levou à restauração parcial da visão em um mês após o procedimento.
    • Os ratos podem determinar padrões de luz em um iPad após a realização do procedimento.
    • O uso de outro gene relacionado à visão, para proteína rodopsina, não produziram resultados tão positivos.

    Os cientistas destacam que a proteína do gene inserido pode interagir com os sistemas de sinalização dentro das células sobreviventes, restaurando parcialmente a visão.

    Muitos ensaios e pesquisas devem ser realizados antes que essa abordagem possa ser usada em humanos. Ainda assim, a ideia é altamente promissora e pode ajudar vários pacientes.

    Referência: & # 8220Restabelecimento da visão de alta sensibilidade e adaptação com um cone de opsina | Nature Communications & # 8221. Acessado em 15 de junho de 2020. Link.

    A genética ajuda a compreender os processos complexos da célula, o comportamento do câncer e as interações entre as populações e os ecossistemas no curso da evolução. Todos esses ramos da genética renderam notícias empolgantes que não conseguiram entrar na lista acima.

    Por exemplo, descobriu-se que alguns tipos de câncer têm uma chamada DNA circular que impulsiona sua progressão. Os pesquisadores foram capazes de rastrear não apenas a coevolução entre patógenos e hospedeiros.

    Existem novas evidências sobre a coevolução entre as culturas domesticadas e os humanos também. A nova análise de DNA antigo ajudou até mesmo os especialistas na reconstrução da propagação da peste na época medieval.

    Você sabe qual é a notícia mais surpreendente de todas? Poderia haver mais moléculas genéticas do que se pensava anteriormente. Que tipo de mundo seria se tivéssemos mais de um DNA ou RNA presente em nossos corpos?

    Podemos não imaginar ainda & # 8211 ainda, com o talento e a tecnologia atuais, alguns devem apenas descobrir no futuro!


    VIVE LA DIFF & # xc9RENCE: machos vs fêmeas em moscas vs vermes

    ResumoPor 600 milhões de anos, as duas espécies de metazoários mais bem compreendidas, o nematóide Caenorhabditis elegans e a mosca da fruta Drosophila melanogaster, desenvolveram estratégias independentes para resolver um problema biológico enfrentado por essencialmente todos os metazoários: como gerar dois sexos nas proporções adequadas. O programa genético para o dimorfismo sexual tem sido o principal foco da pesquisa nesses dois organismos quase desde o momento em que foram escolhidos para estudo, e pode agora ser o aspecto geral mais bem compreendido de seu desenvolvimento. Nesta revisão, comparamos e contrastamos as estratégias usadas para determinação do sexo (incluindo compensação da dosagem) entre “a mosca” e “o verme” e a forma como esse entendimento surgiu. Embora nenhuma sobreposição tenha sido encontrada entre as moléculas usadas por moscas e vermes para obter a determinação do sexo, semelhanças impressionantes foram encontradas nas estratégias genéticas usadas por essas duas espécies para diferenciar seus sexos.


    Materiais e métodos

    Pré-processando

    O Locator transforma os dados de entrada no formato VCF ou Zarr em vetores de contagens de alelos por indivíduo usando as bibliotecas scikit-allel (Miles e Harding, 2017) e numpy (van der Walt et al., 2011). Locais com dados ausentes são substituídos por dois sorteios de uma distribuição binomial com probabilidade igual à frequência do alelo derivado em todos os indivíduos - uma versão discreta da prática comum de atribuir dados ausentes como a frequência alélica média no genótipo PCAs (por exemplo, o padrão configurações para PCA no pacote R adegenet [Jombart, 2008]). Fornecemos funções para filtrar SNPs com base na contagem de alelos menores e, por padrão, remover sites singleton do alinhamento antes do ajuste do modelo. As coordenadas geográficas xey são dimensionadas para ter média 0 e variância um antes do treinamento, enquanto as contagens de alelos são dimensionadas antes do ajuste do modelo por uma camada de normalização em lote dentro da rede. A normalização em lote Z-normaliza as ativações de uma rede neural durante o treinamento para reduzir as mudanças na distribuição dos valores dos parâmetros entre os lotes, o que permite taxas de aprendizagem mais rápidas e, às vezes, reduz o overfitting (Ioffe e Szegedy, 2015).

    O Locator seleciona a fração definida pelo usuário das amostras com localizações conhecidas para usar no treinamento do modelo (o padrão é 0,9) as amostras restantes com localizações conhecidas são mantidas de lado como amostras de 'validação'. O conjunto de validação é usado para ajustar a taxa de aprendizado do otimizador e definir o tempo de parada do treinamento do modelo, mas não contribui diretamente para a perda usada para ajustar os parâmetros do modelo. Ao longo deste manuscrito, usamos "perda de validação" para nos referirmos ao erro estimado no conjunto de validação e "erro de teste" para nos referirmos ao erro calculado em um conjunto de amostras inteiramente fora do procedimento de treinamento do modelo.

    Para conjuntos de dados com tamanhos de amostra pequenos, a divisão aleatória de treinamento / teste pode fazer com que algumas regiões sejam sub ou super-representadas na amostra de treinamento. Para atenuar isso, sugerimos ajustar vários modelos com diferentes sementes aleatórias, produzindo um conjunto de modelos treinados em diferentes subconjuntos do conjunto de dados original. As previsões desse conjunto podem ser resumidas da mesma forma que as janelas ou exemplos de bootstrap (veja abaixo). Um exemplo dessa abordagem está incluído na documentação do Locator (https://github.com/kern-lab/locator).

    Rede

    Usamos o vetor genótipo diplóide sem fases de cada indivíduo como entrada para a rede, cuja saída alvo são as coordenadas bidimensionais desse indivíduo no espaço. O Locator usa uma rede neural profunda que consiste em uma pilha de camadas "densas" totalmente conectadas, implementadas usando o frontend Keras (Chollet, 2015) para tensorflow (Abadi et al., 2015). A grosso modo, a rede é treinada para estimar uma função não linear que mapeia genótipos para locais usando a otimização baseada em gradiente. Os modelos começam com parâmetros iniciais aleatórios e são ajustados aos dados percorrendo o conjunto de treinamento e ajustando iterativamente os pesos e vieses da rede. Usamos uma função de parada antecipada para monitorar a perda durante o treinamento e, de acordo com as configurações padrão, interromper as execuções de treinamento quando a perda de validação não tiver melhorado por 100 épocas. Também usamos um programador de taxa de aprendizado para diminuir a taxa de aprendizado do otimizador quando a perda de validação para de melhorar, o que descobrimos ser eficaz na prevenção de divergências nas trajetórias de treinamento e perda de validação. O programa também produz um gráfico de perda de treinamento e validação após cada execução de treinamento (Figura 2 - suplemento de figura 2).

    A arquitetura do Locator usa uma camada de normalização em lote seguida por uma sequência de camadas totalmente conectadas com uma camada de dropout no meio da rede (Figura 1). A camada 'dropout' define uma seleção aleatória de pesos para zero durante cada etapa de treinamento, o que ajuda a prevenir overfitting (Srivastava et al., 2014). Nossa implementação permite que os usuários ajustem a forma da rede, mas as configurações padrão atuais usam 10 camadas densas de 256 nós cada uma com ativações 'ELU' (Clevert et al., 2015) e uma queda de 25% após a quinta camada. Descrevemos o desempenho em largura e profundidade de rede variáveis ​​na Figura 5 - suplemento da figura 1. Em geral, descobrimos que todas as redes com mais de quatro camadas têm desempenho semelhante.

    Usamos o otimizador Adam (Kingma e Ba, 2014) com a distância euclidiana como uma função de perda:

    Incerteza e variação em todo o genoma

    Os indivíduos nascem em um único local, mas herdaram seus genomas como um mosaico de ancestrais que se espalham geograficamente no passado (como discutido em, por exemplo, Wright, 1943 Kelleher et al., 2016 Bradburd e Ralph, 2019). Qualquer sinal que nosso método espera extrair dos dados deve ser devido ao sinal geográfico de ancestrais recentes compartilhados entre os conjuntos de dados de teste e treinamento. Isso sugere que qualquer método análogo deve quantificar, aproximadamente, ‘quais populações modernas são mais semelhantes a este genoma?”. A propagação espacial do parentesco genético tanto para trás no tempo de um indivíduo para os locais de seus ancestrais quanto para a frente no tempo de ancestrais para a localização atual de amostras de treinamento significa que mesmo um algoritmo de inferência perfeito deve ter incerteza significativa associada a qualquer localização prevista de os dados genéticos e a magnitude da incerteza devem ser em parte função da taxa de dispersão da população. Em particular, nenhum método pode inferir localizações com mais precisão do que a distância média de dispersão, porque na maioria dos casos o genoma de um indivíduo não é informativo sobre onde ele vive em relação a seus pais. Além deste limite fundamental para a incerteza, o erro no georreferenciamento de amostras de treinamento e no ajuste do modelo irá introduzir incerteza de previsão adicional.

    Usamos uma análise de janela em todo o genoma para descrever essa incerteza, o que é possível graças à eficiência computacional do Locator. A relação genealógica em cada trecho contíguo do genoma pode ser descrita por uma sequência de árvores genealógicas, separadas por eventos de recombinação ancestral. Ao executar o Locator em uma janela específica do genoma, restringimos a inferência a um subconjunto dessas árvores marginais e, portanto, a um subconjunto das relações genéticas entre as amostras de teste e de treinamento. As previsões de diferentes regiões do genoma podem então ser visualizadas como uma nuvem de pontos, e a distribuição desses pontos no espaço nos dá uma ideia aproximada da incerteza associada a uma previsão em nível individual. Como as análises em janelas envolvem execuções de treinamento repetidas a partir de parâmetros iniciais aleatórios, elas também nos ajudam a integrar a incerteza associada ao processo de ajuste do modelo.

    Alguns conjuntos de dados não têm o tamanho ou os alinhamentos de referência necessários para conduzir análises em janelas. Nesse caso, recomendamos que a incerteza seja avaliada treinando modelos de replicação em amostras inicializadas retiradas de um único conjunto de SNPs não vinculados (ou seja, reamostragem de SNPs com substituição). Embora esse procedimento não reduza o número de árvores marginais representadas nos dados, ele nos permite avaliar a incerteza associada ao treinamento e previsão do modelo. Em ambos os casos, resumimos a incerteza em locais previstos estimando uma superfície de densidade de kernel bidimensional sobre um conjunto de locais previstos e fornecemos scripts de plotagem para visualizar os quantis de 95%, 50% e 10% no espaço geográfico (ver Figuras 5 –7 para exemplos). A localização de um indivíduo pode então ser prevista como a localização com maior densidade de kernel (a previsão modal) ou o centro geográfico da nuvem de previsões (a previsão média).

    Testamos essa abordagem em dados simulados e em todos os conjuntos de dados empíricos. Para explorar os fatores que afetam a precisão dos locais previstos gerados a partir de diferentes regiões do genoma, também examinamos a relação entre a taxa de recombinação e o erro de teste de janela Localizador é executado em dados humanos do painel HGDP (Bergström et al., 2020). As taxas de recombinação para cada janela foram estimadas pela média das taxas por base do projeto HapMap (International HapMap Consortium, 2003).

    Simulações

    Avaliamos primeiro nosso método em genótipos de populações simuladas por SLiM v3 (Haller e Messer, 2019), usando o modelo de espaço contínuo descrito em Battey, 2019. Simulamos uma paisagem de 50 × 50 unidades quadradas com densidade esperada (d) de 5 indivíduos por unidade de área, resultando em tamanhos censitários de cerca de 12.500. Variamos a distância média de dispersão entre pais e filhos σ nas simulações de 0,45 a 3, para criar populações com níveis variáveis ​​de isolamento por distância. Em termos do 'tamanho da vizinhança' de Wright (Wright, 1946), definido como N loc = 4 ⁢ π ⁢ σ 2 ⁢ d, isso produz populações com tamanhos de vizinhança de 13 a 565. Cada indivíduo diplóide carregava duas cópias de um 10 8 bp cromossomo no qual as mutações e recombinações ocorreram a uma taxa de 10 -8 por bp por geração. As simulações foram executadas até que todos os indivíduos existentes compartilhassem um único ancestral comum dentro da simulação em todos os locais do genoma (ou seja, a sequência da árvore havia coalescido). 500 indivíduos foram amostrados aleatoriamente a partir da geração final de cada simulação para uso no ajuste do modelo.

    Selecionamos 50 indivíduos de cada simulação como um conjunto de validação e executamos o Locator enquanto variamos o número de amostras de treinamento de 10 a 450 e o número de SNPs de 100 a 100.000. Os SNPs usados ​​foram um subconjunto amostrado da matriz do genótipo completo sem substituição e, portanto, imitam a distribuição semi-aleatória de SNPs do genoma gerado por abordagens de sequenciamento de representação reduzida como RADseq (Etter et al., 2012). Para comparar o desempenho com uma abordagem baseada em modelo existente, também executamos SPASIBA (Guillot et al., 2016) na simulação com σ = 0,44 usando 450 amostras de treinamento e variando o número de SNPs de 100 a 100.000. O Locator foi executado em uma GPU habilitada para CUDA e o SPASIBA foi executado em 80 núcleos de CPU. Por último, executamos uma análise de janela na simulação de σ = 0,63 (tamanho da vizinhança ≈ 25) no Locator usando um tamanho de janela de 2Mbp (cada janela contém ≈ 8000 SNPs).

    Dados empíricos

    Aplicamos o Locator a três conjuntos de dados de resequenciamento de genoma completo de amostras geograficamente distribuídas: (1) 765 mosquitos do Anopheles gambiae / coluzzii complexo de espécies coletado na África subsaariana (Anopheles gambiae 1000 Genomes Consortium et al., 2017), (2) 5965 amostras do parasita da malária Plasmodium falciparum sequenciado de amostras de sangue humano coletadas em Papua Nova Guiné, sudeste da Ásia, África Subsaariana e norte da América do Sul (Pearson et al., 2019) e (3) dados de genoma completo para 56 populações humanas do Projeto de Diversidade do Genoma Humano ( Bergström et al., 2020). O genótipo exige o Anopheles conjunto de dados estão disponíveis em https://www.malariagen.net/data/ag1000g-phase1-ar3, para P. falciparum em https://www.malariagen.net/resource/26, e para dados humanos em ftp://ngs.sanger.ac.uk/production/hgdp. Usamos arquivos VCF fornecidos sem pós-processamento adicional.

    o Plasmodium falciparum conjunto de dados é incomum em relação aos nossos outros exemplos empíricos em que as bibliotecas de sequenciamento foram preparadas a partir de amostras de sangue sem filtragem para coinfecções ou isolamento individual Plasmodium. As leituras de sequência retornadas do sequenciamento de leitura curta refletem a população de Plasmodium presente em uma amostra de sangue humano, ou mesmo várias linhagens de parasita se um indivíduo for co-infectado com várias cepas (Zhu et al., 2019), em vez de um indivíduo Plasmodium. Os VCFs que analisamos foram preparados alinhando sequências de leitura curta de iluminação ao Plasmodium falciparum genoma de referência preparado pelo projeto Pf3K (Pf3K Consortium, 2016 https://www.malariagen.net/data/pf3K-5), então chamando SNPs no GATK (McKenna et al., 2010). As chamadas variantes representam o conjunto de mutações presentes na infecção Plasmodium população em vez de SNPs em um único indivíduo. Usamos apenas amostras coletadas em campo do conjunto de "análise", conforme descrito em Pearson et al., 2019.

    Para o Anopheles conjunto de dados, executamos o Locator em janelas de 2 Mbp em todo o genoma com 10% de indivíduos selecionados aleatoriamente como um conjunto de teste. Também executamos o SPASIBA em subconjuntos amostrados dos primeiros cinco milhões de pares de bases do cromossomo 2L, enquanto variamos o número de SNPs de 100 a 100.000. Para o P. falciparum conjunto de dados, usamos janelas de 500 kb e distribuímos 5% das amostras de cada local de coleta como um conjunto de teste. Por último, para humanos, usamos janelas de 10 Mbp e selecionamos três indivíduos de cada população de HGDP para apresentar como um conjunto de teste. Os tamanhos das janelas em cada caso foram escolhidos para incluir cerca de 100.000–200.000 SNPs por janela. Todas as análises empíricas foram executadas com configurações padrão (tamanho da rede 10 × 256, paciência 100, 25% de abandono, 10% aleatórios de amostras de treinamento usadas para validação).

    Também testamos o desempenho do Locator com dados empíricos quando a verdadeira localização não está representada na amostra de treinamento.Para fazer isso, rodamos uma série de modelos em 10.000 SNPs selecionados aleatoriamente a partir dos primeiros 5Mbp do cromossomo 2L no Anopheles dados. Para cada corrida, seguramos todas as amostras de uma determinada localidade de amostragem do conjunto de treinamento e, em seguida, previmos as localizações desses indivíduos usando o modelo treinado. Também testamos essa abordagem enquanto seguramos todas as amostras coletadas em um determinado país, o que elimina até mesmo localidades próximas do conjunto de treinamento.

    Dados e código

    Locator é implementado como um programa de linha de comando escrito em Python: www.github.com/kern-lab/locator. SNP chama para o Anopheles conjunto de dados estão disponíveis em https://www.malariagen.net/data/ag1000g-phase1-ar3, para P. falciparum em https://www.malariagen.net/resource/26, e para o HGDP em ftp://ngs.sanger.ac.uk/production/hgdp. O código para executar simulações de espaço contínuo pode ser encontrado em https://github.com/kern-lab/spaceness/blob/master/slim_recipes/spaceness.slim (Battey, 2019). Esta publicação usa dados do MalariaGEN Plasmodium falciparum Projeto comunitário conforme descrito em Pearson et al., 2019. Análises estatísticas e muitos gráficos foram produzidos em R (R Development Core Team, 2018).


    Avery, L. e Wasserman, S. (1992). Ordenação da função do gene: a interpretação da epistasia em hierarquias regulatórias. Trends Genet. 8, 312 e # x02013316. doi: 10.1016 / 0168-9525 (92) 90263-4

    Babyak, M. (2004). O que você vê pode não ser o que você obtém: uma introdução breve e não técnica ao overfitting em modelos do tipo regressão. Psychosom. Med. 66, 411 e # x02013421. doi: 10.1097 / 01.psy.0000127692.23278.a9

    Bandyopadhyay, S., Kelley, R., Krogan, N. J. e Ideker, T. (2008). Mapas funcionais de complexos de proteínas a partir de dados de interação genética quantitativa. PLoS Comput. Biol. 4: e1000065. doi: 10.1371 / journal.pcbi.1000065

    Baryshnikova, A., Costanzo, M., Kim, Y., Ding, H., Koh, J., Toufighi, K., et al. (2010). Análise quantitativa de aptidão e interações genéticas em leveduras em escala de genoma. Nat. Métodos 7, 1017 e # x020131024. doi: 10.1038 / nmeth.1534

    Bateson, W. e Mendel, G. (1909). Princípios de hereditariedade de Mendel e # x02019. Cambridge University Press.

    Bellay, J., Atluri, G., Sing, T. L., Toufighi, K., Costanzo, M., Ribeiro, P. S., et al. (2011a). Colocando as interações genéticas em contexto por meio de uma decomposição modular global. Genome Res. 21, 1375 e # x020131387. doi: 10.1101 / gr.117176.110

    Bellay, J., Han, S., Michaut, M., Kim, T., Costanzo, M., Andrews, B. J., et al. (2011b). Trazendo ordem para a desordem de proteínas por meio de genômica comparativa e interações genéticas. Genome Biol. 12, R14. doi: 10.1186 / gb-2011-12-2-r14

    Byrne, A. B., Weirauch, M. T., Wong, V., Koeva, M., Dixon, S. J., Stuart, J. M., et al. (2007). Uma análise global das interações genéticas em Caenorhabditis elegans. J. Biol. 6, 8. doi: 10.1186 / jbiol58

    Chipman, K. C. e Singh, A. K. (2009). Previsão de interações genéticas com passeios aleatórios em redes biológicas. BMC Bioinformática 10:17. doi: 10.1186 / 1471-2105-10-17

    Christie, K. R., Weng, S., Balakrishnan, R., Costanzo, M. C., Dolinski, K., Dwight, S. S., et al. (2004). Saccharomyces Genome Database (SGD) fornece ferramentas para identificar e analisar sequências de Saccharomyces cerevisiae e sequências relacionadas de outros organismos. Nucleic Acids Res. 32, D311 e # x02013D314. doi: 10.1093 / nar / gkh033

    Collins, S. R., Miller, K. M., Maas, N. L., Roguev, A., Fillingham, J., Chu, C. S., et al. (2007). Dissecção funcional de complexos proteicos envolvidos na biologia cromossômica de leveduras usando um mapa de interação genética. Natureza 446, 806 e # x02013810. doi: 10.1038 / nature05649

    Collins, S. R., Schuldiner, M., Krogan, N. J. e Weissman, J. S. (2006). Uma estratégia para extrair e analisar dados de interação epistática quantitativa em grande escala. Genome Biol. 7, R63. doi: 10.1186 / gb-2006-7-7-r63

    Costanzo, M., Baryshnikova, A., Bellay, J., Kim, Y., Spear, E. D., Sevier, C. S., et al. (2010). A paisagem genética de uma célula. Ciência 327, 425 & # x02013431. doi: 10.1126 / science.1180823

    Costanzo, M., Baryshnikova, A., Myers, C. L., Andrews, B. e Boone, C. (2011). Traçando o mapa de interação genética de uma célula. Curr. Opiniões Biotechnol. 22, 66 e # x0201374. doi: 10.1016 / j.copbio.2010.11.001

    Davierwala, A. P., Haynes, J., Li, Z., Brost, R. L., Robinson, M. D., Yu, L., et al. (2005). O espectro de interação genética sintética de genes essenciais. Nat. Genet. 37, 1147 e # x020131152. doi: 10.1038 / ng1640

    Dixon, S. J., Costanzo, M., Baryshnikova, A., Andrews, B. e Boone, C. (2009). Mapeamento sistemático de redes de interação genética. Annu. Rev. Genet. 43, 601 e # x02013625. doi: 10.1146 / annurev.genet.39.073003.114751

    Dixon, S. J., Fedyshyn, Y., Koh, J. L., Prasad, T. S., Chahwan, C., Chua, G., et al. (2008). Conservação significativa de redes de interação genética letal sintética entre eucariotos distantemente relacionados. Proc. Natl. Acad. Sci. EUA. 105, 16653 e # x0201316658. doi: 10.1073 / pnas.0806261105

    Dragani, T. A. (2003). 10 anos de loci modificadores de câncer em camundongos: relevância humana. Cancer Res. 63, 3011 e # x020133018.

    Drees, B. L., Thorsson, V., Carter, G. W., Rives, A. W., Raymond, M. Z., Avila-Campillo, I., et al. (2005). Derivação de redes de interação genética a partir de dados quantitativos de fenótipo. Genome Biol. 6, R38. doi: 10.1186 / gb-2005-6-4-r38

    Edelman, L. B., Eddy, J. A. e Price, N. D. (2010). In Silico Models of Cancer. Wiley Interdiscip. Rev. Syst. Biol. Med. 2, 438-459. doi: 10.1002 / wsbm.75

    Elena, S. F. e Lenski, R. E. (1997). Teste de interações sinérgicas entre mutações deletérias em bactérias. Natureza 390, 395 & # x02013398. doi: 10.1038 / 37108

    Fisher, R. A. (1919). XV & # x02013-A correlação entre parentes na suposição de herança mendeliana. Trans. R. Soc. Edinb. 52, 399 & # x02013433. doi: 10.1017 / S0080456800012163

    Ge, H., Liu, Z., Church, G. M. e Vidal, M. (2001). Correlação entre o transcriptoma e os dados de mapeamento do interactome de Saccharomyces cerevisiae. Nat. Genet. 29, 482 e # x02013486. doi: 10.1038 / ng776

    Ge, H., Walhout, A. J. e Vidal, M. (2003). Integrando informações & # x02018omic & # x02019: uma ponte entre a genômica e a biologia de sistemas. Trends Genet. 19, 551 e # x02013560. doi: 10.1016 / j.tig.2003.08.009

    Giaever, G., Chu, A. M., Ni, L., Connelly, C., Riles, L., Veronneau, S., et al. (2002). Perfil funcional do Saccharomyces cerevisiae genoma. Natureza 418, 387 & # x02013391. doi: 10.1038 / nature00935

    Gibson, G. (2010). Dicas de herdabilidade oculta em GWAS. Nat. Genet. 42, 558 e # x02013560. doi: 10.1038 / ng0710-558

    Goh, K. I., Cusick, M. E., Valle, D., Childs, B., Vidal, M. e Barabasi, A. L. (2007). A rede de doenças humanas. Proc. Natl. Acad. Sci. EUA. 104, 8685 e # x020138690. doi: 10.1073 / pnas.0701361104

    Grigoriev, A. (2001). Uma relação entre a expressão gênica e as interações de proteínas na escala do proteoma: análise do bacteriófago T7 e da levedura Saccharomyces cerevisiae. Nucleic Acids Res. 29, 3513 & # x020133519. doi: 10.1093 / nar / 29.17.3513

    Guarente, L. (1993). Aprimoramento sintético na interação gênica: uma ferramenta genética que amadurece. Trends Genet. 9, 362 e # x02013366. doi: 10.1016 / 0168-9525 (93) 90042-G

    Han, J. D., Bertin, N., Hao, T., Goldberg, D. S., Berriz, G. F., Zhang, L. V., et al. (2004). Evidência para modularidade organizada dinamicamente na rede de interação proteína-proteína de levedura. Natureza 430, 88 e # x0201393. doi: 10.1038 / nature02555

    Hoehndorf, R., Hardy, N. W., Osumi-Sutherland, D., Tweedie, S., Schofield, P. N., e Gkoutos, G. V. (2013). A análise sistemática dos dados do fenótipo experimental revela as funções dos genes. PLoS ONE 8: e60847. doi: 10.1371 / journal.pone.0060847

    Ihmels, J., Collins, S. R., Schuldiner, M., Krogan, N. J., e Weissman, J. S. (2007). Backup sem redundância: as interações genéticas revelam o custo da perda de genes duplicados. Mol. Syst. Biol. 3, 86. doi: 10.1038 / msb4100127

    Jaimovich, A., Rinott, R., Schuldiner, M., Margalit, H. e Friedman, N. (2010). Modularidade e direcionalidade em mapas de interação genética. Bioinformática 26, i228 & # x02013i236. doi: 10.1093 / bioinformática / btq197

    Jansen, R., Greenbaum, D. e Gerstein, M. (2002). Relacionar os dados de expressão do genoma inteiro com as interações proteína-proteína. Genome Res. 12, 37 e # x0201346. doi: 10.1101 / gr.205602

    Jasnos, L. e Korona, R. (2007). Tamponamento epistático da perda de aptidão em cepas de dupla deleção de levedura. Nat. Genet. 39, 550 e # x02013554. doi: 10.1038 / ng1986

    Jeong, H., Mason, S.P., Barabasi, A. L. e Oltvai, Z. N. (2001). Letalidade e centralidade em redes de proteínas. Natureza 411, 41 e # x0201342. doi: 10.1038 / 35075138

    Joshi-Tope, G., Gillespie, M., Vastrik, I., D & # x02019eustachio, P., Schmidt, E., De Bono, B., et al. (2005). Reactome: uma base de conhecimento de vias biológicas. Nucleic Acids Res. 33, D428 e # x02013D432. doi: 10.1093 / nar / gki072

    Kafri, R., Dahan, O., Levy, J. e Pilpel, Y. (2008). Proteção preferencial de hubs de rede de interação de proteínas em leveduras: funcionalidade evoluída de redundância genética. Proc. Natl. Acad. Sci. EUA. 105, 1243 e # x020131248. doi: 10.1073 / pnas.0711043105

    Kamath, R. S., Fraser, A. G., Dong, Y., Poulin, G., Durbin, R., Gotta, M., et al. (2003). Análise funcional sistemática do Caenorhabditis elegans genoma usando RNAi. Natureza 421, 231 e # x02013237. doi: 10.1038 / nature01278

    Kanehisa, M. e Goto, S. (2000). KEGG: enciclopédia kyoto de genes e genomas. Nucleic Acids Res. 28, 27 e # x0201330. doi: 10.1093 / nar / 28.1.27

    Kelley, R. e Ideker, T. (2005). Interpretação sistemática de interações genéticas usando redes de proteínas. Nat. Biotechnol. 23, 561 e # x02013566. doi: 10.1038 / nbt1096

    Kemmeren, P., Van Berkum, N. L., Vilo, J., Bijma, T., Donders, R., Brazma, A., et al. (2002). Verificação de interação de proteína e anotação funcional por análise integrada de dados em escala de genoma. Mol. Célula. 9, 1133 e # x020131143. doi: 10.1016 / S1097-2765 (02) 00531-2

    Koch, E. N., Costanzo, M., Bellay, J., Deshpande, R., Chatfield-Reed, K., Chua, G., et al. (2012). Regras conservadas governam o grau de interação genética entre as espécies. Genome Biol. 13, R57. doi: 10.1186 / gb-2012-13-7-r57

    Lee, A. Y., Perreault, R., Harel, S., Boulier, E. L., Suderman, M., Hallett, M., et al. (2010a). Busca do equilíbrio de sinalização por meio da identificação de interatores genéticos do inibidor da dissociação do nucleotídeo guanina Rab, gdi-1. PLoS ONE 5. doi: 10.1371 / journal.pone.0010624

    Lee, I., Lehner, B., Vavouri, T., Shin, J., Fraser, A. G. e Marcotte, E. M. (2010b). Predição de loci modificadores genéticos usando redes funcionais de genes. Genome Res. 20, 1143 e # x020131153. doi: 10.1101 / gr.102749.109

    Lee, I., Date, S. V., Adai, A. T. e Marcotte, E. M. (2004). Uma rede funcional probabilística de genes de levedura. Ciência 306, 1555 e # x020131558. doi: 10.1126 / science.1099511

    Lee, I., Lehner, B., Crombie, C., Wong, W., Fraser, A. G. e Marcotte, E. M. (2008). Uma única rede de genes prevê com precisão os efeitos fenotípicos da perturbação do gene em Caenorhabditis elegans. Nat. Genet. 40, 181 e # x02013188. doi: 10.1038 / ng.2007.70

    Lee, T. I., Rinaldi, N. J., Robert, F., Odom, D. T., Bar-Joseph, Z., Gerber, G. K., et al. (2002). Redes regulatórias transcricionais em Saccharomyces cerevisiae. Ciência 298, 799 e # x02013804. doi: 10.1126 / science.1075090

    Lehner, B. (2007). Modelagem de relações genótipo-fenótipo e doença humana com redes de interação genética. J. Exp. Biol. 210, 1559 e # x020131566. doi: 10.1242 / jeb.002311

    Lehner, B. (2011). Mecanismos moleculares de epistasia dentro e entre genes. Trends Genet. 27, 323 e # x02013331. doi: 10.1016 / j.tig.2011.05.007

    Lehner, B., Crombie, C., Tischler, J., Fortunato, A. e Fraser, A. G. (2006). Mapeamento sistemático de interações genéticas em Caenorhabditis elegans identifica modificadores comuns de diversas vias de sinalização. Nat. Genet. 38, 896 & # x02013903. doi: 10.1038 / ng1844

    Lin, A., Wang, R. T., Ahn, S., Park, C. C. e Smith, D. J. (2010). Um mapa de todo o genoma das interações genéticas humanas inferidas a partir de genótipos híbridos de radiação. Genome Res. 20, 1122 e # x020131132. doi: 10.1101 / gr.104216.109

    Lin, Y. Y., Qi, Y., Lu, J. Y., Pan, X., Yuan, D. S., Zhao, Y., et al. (2008). Uma rede abrangente de interação genética sintética que rege a acetilação e desacetilação de histonas de levedura. Genes Dev. 22, 2062 & # x020132074. doi: 10.1101 / gad.1679508

    Luscombe, N. M., Babu, M. M., Yu, H., Snyder, M., Teichmann, S. A. e Gerstein, M. (2004). A análise genômica da dinâmica da rede regulatória revela grandes mudanças topológicas. Natureza 431, 308 e # x02013312. doi: 10.1038 / nature02782

    Ma, X., Tarone, A. M. e Li, W. (2008). Mapeamento de vias geneticamente compensatórias de interações letais sintéticas em leveduras. PLoS ONE 3: e1922. doi: 10.1371 / journal.pone.0001922

    Maeda, I., Kohara, Y., Yamamoto, M. e Sugimoto, A. (2001). Análise em larga escala da função do gene em Caenorhabditis elegans por RNAi de alto rendimento. Curr. Biol. 11, 171 e # x02013176. doi: 10.1016 / S0960-9822 (01) 00052-5

    Mani, R., St Onge, R. P., Hartman, J. L. T., Giaever, G., e Roth, F. P. (2008). Definindo interação genética. Proc. Natl. Acad. Sci. EUA. 105, 3461 & # x020133466. doi: 10.1073 / pnas.0712255105

    Michaut, M., Baryshnikova, A., Costanzo, M., Myers, C.L., Andrews, B.J., Boone, C., et al. (2011). Os complexos de proteínas são centrais na paisagem genética da levedura. PLoS Comput. Biol. 7: e1001092. doi: 10.1371 / journal.pcbi.1001092

    Miko, I. (2008). Variabilidade fenotípica: penetrância e expressividade. Nat. Educ. 1.

    Moore, J. H. (2003). A natureza ubíqua da epistasia na determinação da suscetibilidade a doenças humanas comuns. Zumbir. Hered. 56, 73 e # x0201382. doi: 10.1159 / 000073735

    Mrowka, R., Patzak, A. e Herzel, H. (2001). Existe um viés na pesquisa de proteoma? Genome Res. 11, 1971 & # x020131973. doi: 10.1101 / gr.206701

    Otto, S. P. e Lenormand, T. (2002). Resolvendo o paradoxo do sexo e da recombinação. Nat. Rev. Genet. 3, 252 e # x02013261. doi: 10.1038 / nrg761

    Ozier, O., Amin, N. e Ideker, T. (2003). Arquitetura global de interações genéticas na rede de proteínas. Nat. Biotechnol. 21, 490 & # x02013491. doi: 10.1038 / nbt0503-490

    Paladugu, S. R., Zhao, S., Ray, A. e Raval, A. (2008). Redes de proteínas de mineração para interações genéticas sintéticas. BMC Bioinformática 9. doi: 10.1186 / 1471-2105-9-426

    Pan, X., Ye, P., Yuan, D. S., Wang, X., Bader, J. S., e Boeke, J. D. (2006). Uma rede de integridade de DNA na levedura Saccharomyces cerevisiae. Célula 124, 1069 e # x020131081. doi: 10.1016 / j.cell.2005.12.036

    Pan, X., Yuan, D. S., Xiang, D., Wang, X., Sookhai-Mahadeo, S., Bader, J. S., et al. (2004). Um kit de ferramentas robusto para perfis funcionais do genoma da levedura. Mol. Célula. 16, 487 e # x02013496. doi: 10.1016 / j.molcel.2004.09.035

    Pu, S., Ronen, K., Vlasblom, J., Greenblatt, J. e Wodak, S. J. (2008). A coerência local nos padrões de interação genética revela versatilidade funcional prevalente. Bioinformática 24, 2376 & # x020132383. doi: 10.1093 / bioinformática / btn440

    Puniyani, A., Liberman, U., e Feldman, M. W. (2004). Sobre o significado da seleção não epistática. Theor. Popul. Biol. 66, 317 e # x02013321. doi: 10.1016 / j.tpb.2004.05.001

    Qi, Y., Suhail, Y., Lin, Y. Y., Boeke, J. D. e Bader, J. S. (2008). Encontrando amigos e inimigos em uma rede apenas de inimigos: um kernel de difusão de gráfico para prever novas interações genéticas e membros co-complexos de interações genéticas de leveduras. Genome Res. 18, 1991 & # x020132004. doi: 10.1101 / gr.077693.108

    Roguev, A., Bandyopadhyay, S., Zofall, M., Zhang, K., Fischer, T., Collins, S. R., et al. (2008). Conservação e religação de módulos funcionais revelados por um mapa de epistasia em levedura de fissão. Ciência 322, 405 e # x02013410. doi: 10.1126 / science.1162609

    Ryan, C. J., Roguev, A., Patrick, K., Xu, J., Jahari, H., Tong, Z., et al. (2012). Modularidade hierárquica e a evolução dos interatomas genéticos entre as espécies. Mol. Célula. 46, 691 e # x02013704. doi: 10.1016 / j.molcel.2012.05.028

    Sanjuan, R. e Elena, S. F. (2006). A epistasia se correlaciona com a complexidade genômica. Proc. Natl. Acad. Sci. EUA. 103, 14402 e # x0201314405. doi: 10.1073 / pnas.0604543103

    Schuldiner, M., Collins, S. R., Thompson, N. J., Denic, V., Bhamidipati, A., Punna, T., et al. (2005). Exploração da função e organização da via secretora inicial de leveduras por meio de um perfil de miniarray epistático. Célula 123, 507 e # x02013519. doi: 10.1016 / j.cell.2005.08.031

    Segal, E., Shapira, M., Regev, A., Pe & # x02019er, D., Botstein, D., Koller, D., et al. (2003). Redes de módulos: identificação de módulos regulatórios e seus reguladores específicos de condição a partir de dados de expressão gênica. Nat. Genet. 34, 166 & # x02013176. doi: 10.1038 / ng1165

    Segre, D., Deluna, A., Church, G. M. e Kishony, R. (2005). Epistasia modular no metabolismo de leveduras. Nat. Genet. 37, 77 e # x0201383.

    Sharifpoor, S., Van Dyk, D., Costanzo, M., Baryshnikova, A., Friesen, H., Douglas, A.C., et al. (2012).Fiação funcional do cinoma de levedura revelada pela análise global de motivos da rede genética. Genome Res. 22, 791 e # x02013801. doi: 10.1101 / gr.129213.111

    Sipiczki, M. (2000). Onde fica o fermento de fissão na árvore da vida? Genome Biol. 1, REVIEWS1011. doi: 10.1186 / gb-2000-1-2-reviews1011

    Steen, K. V. (2012). Viajando pelo mundo das interações gene-gene. Apresentação. Bioinform. 13, 1 e # x0201319. doi: 10.1093 / bib / bbr012

    Stegmeier, F., Visintin, R. e Amon, A. (2002). Separase, polo quinase, a proteína cinetocora Slk19 e Spo12 funcionam em uma rede que controla a localização de Cdc14 durante a anáfase inicial. Célula 108, 207 e # x02013220. doi: 10.1016 / S0092-8674 (02) 00618-9

    Stern, D. L. e Orgogozo, V. (2009). A evolução genética é previsível? Ciência 323, 746 & # x02013751. doi: 10.1126 / science.1158997

    St Onge, R. P., Mani, R., Oh, J., Proctor, M., Fung, E., Davis, R. W., et al. (2007). Análise sistemática de vias usando perfis de aptidão de alta resolução de deleções de genes combinatórios. Nat. Genet. 39, 199 e # x02013206. doi: 10.1038 / ng1948

    Szafraniec, K., Wloch, D. M., Sliwa, P., Borts, R. H. e Korona, R. (2003). Pequenos efeitos de aptidão e fracas interações genéticas entre mutações deletérias em loci heterozigotos da levedura Saccharomyces cerevisiae. Genet. Res. 82, 19 e # x0201331. doi: 10.1017 / S001667230300630X

    Szappanos, B., Kovacs, K., Szamecz, B., Honti, F., Costanzo, M., Baryshnikova, A., et al. (2011). Uma abordagem integrada para caracterizar redes de interação genética no metabolismo de leveduras. Nat. Genet. 43, 656 e # x02013662. doi: 10.1038 / ng.846

    Thomas, J. H. (1993). Pensando em redundância genética. Trends Genet. 9, 395 e # x02013399. doi: 10.1016 / 0168-9525 (93) 90140-D

    Timmons, L., Court, D. L. e Fire, A. (2001). A ingestão de dsRNAs expressos em bactérias pode produzir interferência genética específica e potente em Caenorhabditis elegans. Gene 263, 103 & # x02013112. doi: 10.1016 / S0378-1119 (00) 00579-5

    Tischler, J., Lehner, B. e Fraser, A. G. (2008). Plasticidade evolutiva de redes de interação genética. Nat. Genet. 40, 390 & # x02013391. doi: 10.1038 / ng.114

    Tong, A. H., Evangelista, M., Parsons, A. B., Xu, H., Bader, G. D., Page, N., et al. (2001). Análise genética sistemática com matrizes ordenadas de mutantes de deleção de levedura. Ciência 294, 2364 & # x020132368. doi: 10.1126 / science.1065810

    Tong, A. H., Lesage, G., Bader, G. D., Ding, H., Xu, H., Xin, X., et al. (2004). Mapeamento global da rede de interação genética de leveduras. Ciência 303, 808 e # x02013813. doi: 10.1126 / science.1091317

    Tucker, C. L. e Fields, S. (2003). Combinações letais. Nat. Genet. 35, 204 & # x02013205. doi: 10.1038 / ng1103-204

    Ulitsky, I. e Shamir, R. (2007). Redundância da via e essencialidade da proteína revelada no Saccharomyces cerevisiae redes de interação. Mol. Syst. Biol. 3, 104. doi: 10.1038 / msb4100144

    Ulitsky, I., Shlomi, T., Kupiec, M. e Shamir, R. (2008). De E-MAPs a mapas de módulo: dissecando interações genéticas quantitativas usando interações físicas. Mol. Syst. Biol. 4, 209. doi: 10.1038 / msb.2008.42

    Van Driessche, N., Demsar, J., Booth, E. O., Hill, P., Juvan, P., Zupan, B., et al. (2005). Análise de epistasia com fenótipos transcricionais globais. Nat. Genet. 37, 471 & # x02013477. doi: 10.1038 / ng1545

    VanderSluis, B., Bellay, J., Musso, G., Costanzo, M., Papp, B., Vizeacoumar, F. J., et al. (2010). As interações genéticas revelam as trajetórias evolutivas de genes duplicados. Mol. Syst. Biol. 6, 429. doi: 10.1038 / msb.2010.82

    Vidal, M., Cusick, M. E. e Barabasi, A. L. (2011). Redes interactômicas e doenças humanas. Célula 144, 986 e # x02013998. doi: 10.1016 / j.cell.2011.02.016

    Wagner, A. (2001). A rede de interação da proteína de levedura evolui rapidamente e contém poucos genes duplicados redundantes. Mol. Biol. Evol. 18, 1283 & # x020131292. doi: 10.1093 / oxfordjournals.molbev.a003913

    Watts, D. J. e Strogatz, S. H. (1998). Dinâmica coletiva de redes & # x02018small-world & # x02019. Natureza 393, 440 & # x02013442. doi: 10.1038 / 30918

    Wolf, J. B., Brodie, E. D. e Wade, M. J. (2000). Epistasia e o processo evolutivo. Oxford: Oxford University Press.

    Wong, S. L., Zhang, L. V., Tong, A. H., Li, Z., Goldberg, D. S., King, O. D., et al. (2004). Combinando redes biológicas para prever interações genéticas. Proc. Natl. Acad. Sci. EUA. 101, 15682 & # x0201315687. doi: 10.1073 / pnas.0406614101

    Wuchty, S., Barabasi, A. L. e Ferdig, M. T. (2006). Sinal evolutivo estável em uma rede de interação de proteína de levedura. BMC Evol. Biol. 6: 8. doi: 10.1186 / 1471-2148-6-8

    Ye, P., Peyser, B. D., Pan, X., Boeke, J. D., Spencer, F. A. e Bader, J. S. (2005a). Predição da função gênica a partir de interações letais sintéticas congruentes em leveduras. Mol. Syst. Biol. 1, 2005 0026. doi: 10.1038 / msb4100034

    Ye, P., Peyser, B. D., Spencer, F. A. e Bader, J. S. (2005b). Distâncias proporcionais e motivos semelhantes na congruência genética e redes de interação de proteínas em leveduras. BMC Bioinformática 6: 270. doi: 10.1186 / 1471-2105-6-270

    Yu, H., Luscombe, N. M., Qian, J. e Gerstein, M. (2003). Análise genômica das relações de expressão gênica em redes regulatórias da transcrição. Trends Genet. 19, 422 e # x02013427. doi: 10.1016 / S0168-9525 (03) 00175-6

    Yukilevich, R., Lachance, J., Aoki, F. e True, J. R. (2008). Adaptação de longo prazo de redes genéticas epistáticas. Evolução 62, 2215 & # x020132235. doi: 10.1111 / j.1558-5646.2008.00445.x

    Yuryev, A. (2012). Integração de dados contextuais na descoberta de medicamentos. Opiniões de especialistas. Drug Discov. 7, 659 e # x02013666. doi: 10.1517 / 17460441.2012.691877

    Zhong, W. e Sternberg, P. W. (2006). Previsão de todo o genoma de C. Elegans interações genéticas. Ciência 311, 1481 & # x020131484. doi: 10.1126 / science.1123287

    Zinman, G. E., Zhong, S., e Bar-Joseph, Z. (2011). As redes de interação biológica são conservadas no nível do módulo. BMC Syst. Biol. 5: 134. doi: 10.1186 / 1752-0509-5-134

    Palavras-chave: interação genética, rede, conservação, previsão, Saccharomyces cerevisiae, Caenorhabditis elegans, genômica

    Citação: Boucher B e Jenna S (2013) Redes de interação genética: entender melhor para prever melhor. Frente. Genet. 4: 290. doi: 10.3389 / fgene.2013.00290

    Recebido: 15 de setembro de 2013 Artigo com publicação pendente: 03 de outubro de 2013
    Aceito: 28 de novembro de 2013 Publicado on-line: 17 de dezembro de 2013.

    Benjamin Haibe-Kains, Institut de Recherches Cliniques de Montr & # x000E9al, Canadá

    Ao Li, Universidade de Ciência e Tecnologia da China, China
    Ivan Merelli, Instituto de Tecnologias Biomédicas, Itália

    Copyright & # x000A9 2013 Boucher e Jenna. Este é um artigo de acesso aberto distribuído sob os termos da Creative Commons Attribution License (CC BY). É permitida a utilização, distribuição ou reprodução em outros fóruns, desde que o (s) autor (es) ou licenciador (a) original (is) sejam creditados e que a publicação original nesta revista seja citada, de acordo com a prática acadêmica aceita. Não é permitida a utilização, distribuição ou reprodução em desacordo com estes termos.


    Assista o vídeo: Diversidade Genética: Cap32: Redes Neurais visão geral (Novembro 2021).