Em formação

Codificação SNP para análise de associação


Estou trabalhando em um projeto sobre a detecção de associação de SNP com uma doença. Pelo que entendi, o SNP é uma variação única do nucleotídeo que ocorre em mais de 1% da população. No entanto, não consegui conectar essa ideia com o conjunto de dados em mãos. As linhas em meu conjunto de dados representam cada paciente e as colunas contêm informações SNP. Por exemplo:

ID exm355 exm615 1 T_T A_C 2 T_T C_C 3 A_T C_C

Não tenho ideia de por que as colunas SNP contêm 2 nucleotídeos (T_T, A_T, A_C, C_C). Quanto à definição de SNP, achei que deveria mostrar apenas o nucleotídeo variante ou estou entendendo mal alguma coisa? Como eu poderia interpretar T_T ou C_C e como poderia saber qual nucleotídeo é a variação dos comuns na população?

Obrigado a todos


Cada localização do cromossomo que foi identificada como sendo um SNP é uma localização na qual mais de um nucleotídeo ocorre em frequências apreciáveis ​​na população em geral. Isso significa que há duas ou mais bases que podem ocorrer lá, então o teste de uma pessoa deve mostrar quais bases realmente ocorrem lá no genoma dessa pessoa. Como uma pessoa tem um cromossomo paterno e outro materno de um tipo cromossômico (um par de cromossomos homólogos), a pessoa tem duas instâncias da localização do SNP e, portanto, dois nucleotídeos a serem detectados e relatados. Portanto, seu conjunto de dados tem dois nucleotídeos para cada localização SNP para cada paciente.

Apenas a partir da base informada ou do nome do SNP, você não pode dizer qual é mais frequente na população. Se você precisa saber disso, deve consultar os dados de frequência SNP de algum outro banco de dados. (Os nomes SNP em seu exemplo, por exemplo, "exm355" não são familiares; geralmente SNPs têm nomes como "rs1234567".)


Um não codificador CRHR2 SNP rs255105, a cis-eQTL para um lincRNA AC005154.6 downstream, está associado ao vício em heroína

A desregulação da resposta ao estresse está implicada na dependência de drogas, portanto, polimorfismos em genes relacionados ao estresse podem estar envolvidos nesta doença. Uma análise foi realizada para identificar associações entre variantes em 11 genes relacionados ao estresse, selecionados a priorie vício em heroína. Duas amostras de descoberta de americanos descendentes de europeus (EA, n = 601) e de afro-americanos (AA, n = 400) foram analisadas separadamente. A ancestralidade foi verificada por análise de componentes principais. Os conjuntos finais de 414 (EA) e 562 (AA) variantes foram analisados ​​após a filtragem de 846 variantes de alta qualidade. O principal resultado foi uma associação de um SNP não codificante rs255105 no gene do receptor 2 do CRH (CRF) (CRHR2), na amostra de EA de descoberta (Pnominal = 0,00006 OR = 2,1 95% CI 1,4–3,1). O sinal de associação permaneceu significativo após a correção de múltiplos testes baseados em permutação. O resultado foi corroborado por uma amostra independente de casos de EA (n = 364). A análise de bioinformática revelou que o SNP rs255105 está associado à expressão de um gene AC005154.6 de RNA não codificador intergênico longo a jusante (lincRNA). AC005154.6 é altamente expresso na pituitária, mas suas funções são desconhecidas. Os LincRNAs foram anteriormente associados a comportamento adaptativo, PTSD e dependência de álcool. Mais estudos são necessários para corroborar os resultados da associação e para avaliar a relevância potencial deste lincRNA para o vício e outros transtornos relacionados ao estresse.

Citação: Levran O, Correa da Rosa J, Randesi M, Rotrosen J, Adelson M, Kreek MJ (2018) A sem codificação CRHR2 SNP rs255105, a cis-eQTL para um lincRNA AC005154.6 downstream está associado ao vício em heroína. PLoS ONE 13 (6): e0199951. https://doi.org/10.1371/journal.pone.0199951

Editor: Z. Carl Lin, Harvard Medical School, ESTADOS UNIDOS

Recebido: 22 de maio de 2018 Aceitaram: 15 de junho de 2018 Publicados: 28 de junho de 2018

Direito autoral: © 2018 Levran et al. Este é um artigo de acesso aberto distribuído sob os termos da Creative Commons Attribution License, que permite o uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original e a fonte sejam creditados.

Disponibilidade de dados: Os dados de genótipo / fenótipo estão disponíveis em dbGAP com o número de acesso: phs001109.v1.p1. Dados adicionais relevantes estão no documento e em seu arquivo de informações de apoio.

Financiamento: Este trabalho foi apoiado pela Dra. Miriam e Sheldon G. Adelson Medical Research Foundation, o National Institutes of Health - National Institute on Drug Abuse Research Grant P60-05130 (MJK), o National Institutes of Health - National Institute on Drug Abuse Research Grant R01-12848 (MJK) e o National Institute of Health - National Center for Advancing Translational Sciences Grant UL1RR024143 (B. Coller). CTN-0051 foi apoiado por vários subsídios do National Institutes of Health - National Institute on Drug Abuse - National Drug Abuse Treatment Clinical Trials Network (CTN): U10DA013046, UG1 / U10DA013035, UG1 / U10DA013034, U10DA013045, UG1 / U10DA013720, UG1 / U10DA013732, UG1 / U10DA013714, UG1 / U10DA015831, U10DA015833, HHSN271201200017C e HHSN271201500065C. O projeto Genotype-Tissue Expression (GTEx) foi apoiado pelo Fundo Comum do Escritório do Diretor dos Institutos Nacionais de Saúde e por NCI, NHGRI, NHLBI, NIDA, NIMH e NINDS. Os dados utilizados para as análises descritas neste manuscrito foram obtidos no Portal GTEx em 10/04/2018. Os financiadores não tiveram nenhum papel no desenho do estudo, coleta e análise de dados, decisão de publicar ou preparação do manuscrito.

Interesses competitivos: Os autores declararam que não existem interesses conflitantes.


Codificação SNP para análise de associação - Biologia

Todos os artigos publicados pela MDPI são disponibilizados imediatamente em todo o mundo sob uma licença de acesso aberto. Nenhuma permissão especial é necessária para reutilizar todo ou parte do artigo publicado pela MDPI, incluindo figuras e tabelas. Para artigos publicados sob uma licença Creative Common CC BY de acesso aberto, qualquer parte do artigo pode ser reutilizada sem permissão, desde que o artigo original seja claramente citado.

Os artigos de destaque representam a pesquisa mais avançada com potencial significativo de alto impacto no campo. Artigos de destaque são submetidos a convite individual ou recomendação dos editores científicos e passam por revisão por pares antes da publicação.

O artigo pode ser um artigo de pesquisa original, um estudo de pesquisa substancial que frequentemente envolve várias técnicas ou abordagens ou um artigo de revisão abrangente com atualizações concisas e precisas sobre os últimos avanços no campo que revisa sistematicamente os avanços mais interessantes na área científica literatura. Este tipo de papel fornece uma perspectiva sobre as futuras direções de pesquisa ou possíveis aplicações.

Os artigos do Editor’s Choice são baseados em recomendações de editores científicos de periódicos MDPI de todo o mundo. Os editores selecionam um pequeno número de artigos publicados recentemente na revista que eles acreditam ser particularmente interessantes para os autores ou importantes neste campo. O objetivo é fornecer um instantâneo de alguns dos trabalhos mais interessantes publicados nas várias áreas de pesquisa da revista.


Análise In Silico de SNPs Codificadores / Não Codificadores de Humanos RETN Gene e caracterização de seu impacto na estabilidade e estrutura da resistina

Resistin (RETN) é um gene que codifica a adipocina pró-inflamatória chamada resistina secretada por macrófagos em humanos. Polimorfismos de nucleotídeo único (SNPs) em RETN estão ligados à obesidade e resistência à insulina em várias populações. Usando dbSNP, 78 SNPs não-sinônimos (nsSNPs) foram recuperados e testados em um megaserver PredictSNP 1.0. Entre eles, 15 nsSNPs foram considerados altamente deletérios e, portanto, submetidos a análises adicionais, como conservação, modificações pós-transcricionais e estabilidade. A estrutura 3D da resistina humana foi gerada por modelagem de homologia usando o modelo suíço. Desvio médio quadrático (RMSD), ligações de hidrogênio (ligações h) e interações foram estimados. Além disso, o UTRscan serviu para identificar SNPs funcionais de UTR. Entre os 15 nsSNPs mais deletérios, 13 foram previstos para serem altamente conservados, incluindo variantes em locais de modificação pós-tradução. A análise de estabilidade previu 9 nsSNPs (I32S, C51Y, G58E, G58R, C78S, G79C, W98C, C103G e C104Y) que podem diminuir a estabilidade da proteína com pelo menos três dos quatro algoritmos usados ​​neste estudo. Esses nsSNPs foram escolhidos para análise estrutural. Ambas as variantes C51Y e C104Y mostraram os maiores desvios RMS (1,137 Å e 1,308 Å, respectivamente), que foram confirmados pela diminuição importante no total de ligações h. A análise das interações hidrofóbicas e hidrofílicas mostrou diferenças importantes entre a proteína nativa e os 9 mutantes, particularmente I32S, G79C e C104Y. Seis SNPs no 3

UTR (rs920569876, rs74176247, rs1447199134, rs943234785, rs76346269 e rs78048640) foram previstos como implicados no sinal de poliadenilação. Este estudo revelou 9 SNPs altamente deletérios localizados no corpo humano RETN região codificadora do gene e 6 SNPs dentro das 3 UTR que podem alterar a estrutura da proteína. Curiosamente, esses SNPs merecem ser analisados ​​em estudos funcionais para melhor elucidar seu efeito na ocorrência do fenótipo metabólico.

1. Introdução

O entendimento da variação genômica é um dos maiores desafios do campo da pesquisa genômica atual, devido ao enorme número de variações genéticas no genoma humano. Polimorfismos de nucleotídeo único (SNPs) representam as variações genéticas mais abundantes em todo o genoma humano, variando entre 3 e 5 milhões em cada indivíduo [1]. Principalmente, os SNPs são neutros, mas alguns deles contribuem para a predisposição à doença, modificando a função da proteína ou como marcadores genéticos, a fim de encontrar mutações causadoras de doenças próximas por meio de estudos de associação genética e estudos familiares [2]. Os cientistas acreditam que essas variantes também podem influenciar a resposta a alguns medicamentos [3].

SNPs que alteram os aminoácidos codificados são chamados de polimorfismos de nucleotídeo único não sinônimos (nsSNPs). SNPs não sinônimos, formando cerca de metade de todas as alterações genéticas relacionadas a doenças humanas, podem influenciar a estrutura e / ou função da proteína resultante com efeitos neutros ou deletérios [4, 5].

Além disso, o estudo de DNA não codificador também é importante porque contém a maioria dos SNPs relatados no genoma humano. Polimorfismos em 5 e 3 regiões não traduzidas (UTRs) são de grande interesse porque podem afetar a expressão gênica e atividades pós-transcricionais e pós-tradução e, portanto, ser de relevância funcional [6, 7].

A resistina é uma adipocina pró-inflamatória que pertence às proteínas do domínio C-terminal ricas em cisteína, chamadas moléculas semelhantes à resistina (RELMs) e secretadas principalmente por adipócitos em roedores e macrófagos em humanos [8, 9]. O gene que codifica a resistina (RETN) está localizado no cromossomo 19p13.2. Foi demonstrado que a resistina está ligada a vários distúrbios inflamatórios, incluindo obesidade, diabetes tipo 2, doenças cardiovasculares e asma [10–13]. Essa proteína tem efeitos que antagonizam a ação da insulina. Alguns estudos mostraram que a resistina afeta o transporte de glicose e causa degradação do substrato-1 do receptor de insulina estimulado pela insulina (IRS-1), levando à indução da resistência à insulina [14-16]. Foi relatado que os níveis circulantes de resistina aumentaram significativamente em camundongos obesos geneticamente e induzidos por dieta e diminuíram com a administração do medicamento antidiabético Rosiglitazona [8].

Além disso, um estudo de caso-controle em pacientes com diabetes mellitus tipo 1 mostrou que a combinação de insulina e Rosiglitazona diminuiu significativamente os níveis de resistina e leptina [17]. Variantes genéticas em RETN mostrou uma associação significativa com os níveis circulantes de resistina. Beckers et al. identificou a primeira mutação missense C78S na resistina em um probando com obesidade mórbida e sua mãe obesa. Essa descoberta incentiva o estudo de variantes no RETN região codificadora do gene para elucidar seu envolvimento na patogênese [18]. Estimou-se que fatores genéticos podem explicar até 70% da variação nos níveis de resistina circulante [19]. No entanto, as análises da associação entre SNPs do RETN variáveis ​​genéticas e antropométricas e alterações relacionadas à obesidade revelaram resultados inconsistentes [10, 20–23].

Baseando-se na importância de RETN gene em múltiplas doenças inflamatórias, particularmente anormalidades metabólicas, conduzimos uma análise computacional usando preditores de efeito nsSNP como SIFT, PolyPhen, PANTHER, PhD-SNP e PredictSNP. A maioria dos nsSNPs deletérios foram posteriormente analisados ​​por ferramentas de conservação e estabilidade. Finalmente, uma análise estrutural foi conduzida a fim de identificar os SNPs funcionalmente deletérios em regiões codificantes e não traduzidas.

2. Material e métodos

2.1. Coleção de conjuntos de dados

As informações SNP de RETN gene foi coletado de dbSNP (http://www.ncbi.nlm.nih.gov/snp/). A sequência de aminoácidos da proteína (acesso ao NCBI: NP_001180303) foi recuperada do banco de dados de proteínas do NCBI (http://www.ncbi.nlm.nih.gov/protein). A estrutura teórica da resistina (PDB ID: 1LV6) foi abandonada, uma vez que não estava de acordo com a estrutura de cristal disponível para a resistina de camundongo agora.

2.2. Predição de nsSNPs deletérios

PredictSNP1.0 (http://loschmidt.chemi.muni.cz/predictsnp1/) [24] foi usado como o preditor do efeito SNP na função da proteína. Este recurso é um classificador de consenso que permite o acesso às nove ferramentas de previsão de melhor desempenho: SIFT, PolyPhen-1, PolyPhen-2, MAPP, PhD-SNP, SNAP, PANTHER, PredictSNP e nsSNPAnalyzer.

SIFT (Sorting Intolerant from Tolerant) prevê se uma substituição de aminoácido afeta a função da proteína com base na homologia de sequência e nas propriedades físicas dos aminoácidos [25]. SIFT pega uma sequência de consulta e usa várias informações de alinhamento para prever substituições toleradas e deletérias em cada posição da sequência de consulta. PolyPhen-1 usa um conjunto especializado de regras empíricas para prever o possível impacto das substituições de aminoácidos, enquanto PolyPhen-2 (Polimorfismo Phenotyping v2) prevê o efeito potencial de uma substituição de aminoácido na estrutura e função de uma proteína humana usando alinhamento de sequência múltipla e informações estruturais. MAPP (Multivariate Analysis of Protein Polymorphism) analisa a variação físico-química presente em cada coluna de um alinhamento de sequência de proteína e prevê o impacto das substituições de aminoácidos na função da proteína [26]. PhD-SNP (Predictor of human Deleterious Single Nucleotide Polymorphisms) é um preditor baseado em máquina de vetor de suporte (SVM-) usado para classificar nsSNPs em mutações genéticas humanas causadoras de doenças ou benignas [27]. SNAP (triagem de polimorfismos inaceitáveis) é um método baseado em rede neural usado para prever efeitos funcionais de SNPs não sinônimos usando informações de proteínas derivadas in silico [28]. PANTHER (análise de proteínas por meio de relações evolutivas) estima a probabilidade de um determinado nsSNP causar um efeito funcional na proteína usando a preservação evolutiva específica da posição [29]. O nsSNPAnalyzer usa um método de aprendizado de máquina chamado floresta aleatória para prever se o nsSNP tem um efeito fenotípico [30] com base no alinhamento de múltiplas sequências e informações de estrutura 3D. Finalmente, PredictSNP1.0 exibe os escores de confiança gerados por cada ferramenta e uma previsão de consenso como porcentagens usando seus valores de precisão observados para simplificar as comparações [24].

2.3. Conservação de Sequência

Um servidor web ConSurf (http://consurf.tau.ac.il/) foi usado para analisar a conservação da sequência de aminoácidos. Este algoritmo baseado na web prevê as regiões funcionais cruciais de uma proteína, estimando o grau de conservação de aminoácidos com base no alinhamento de múltiplas sequências. O intervalo de notas de 1 a 9 estima a extensão da conservação do aminoácido ao longo da evolução. Portanto, o grau 9 representa o resíduo mais altamente conservado, e os números descem para 1 representando a região menos conservada. Esta ferramenta analisa a conservação nos níveis de nucleotídeos e aminoácidos.

2.4. Predição de sites de modificação pós-tradução

Um servidor web ModPred (http://www.modpred.org/) foi usado para prever sites de modificação pós-tradução (PTM); o servidor consiste em um conjunto de modelos de regressão logística bootstrapped para cada tipo de PTM, recuperado de 126.036 sites PTM não redundantes verificados experimentalmente, na literatura e nas bases de dados [31]. Os resultados são apresentados como resíduo, modificação, pontuação, confiança e comentários. Neste estudo, apenas PTMs de confiança média e alta foram levados em consideração.

2,5. Predição de mudança na estabilidade da proteína

A mudança na estabilidade da proteína devido a nsSNPs foi prevista usando I-Mutant2.0 (http://folding.biofold.org/cgi-bin/i-mutant2.0), que é uma máquina de vetor de suporte (SVM) baseada na web ferramenta usada para a previsão automática de mudanças na estabilidade da proteína devido ao SNP. Ele fornece o valor de mudança de energia livre previsto (DDG) e o sinal da previsão como aumento ou diminuição. O valor DDG é calculado a partir do valor de energia livre de Gibbs de desdobramento da proteína mutada menos o valor de energia livre de Gibbs de desdobramento do tipo selvagem em kcal / mol.

significa que a estabilidade da proteína aumentou, e

significa que a estabilidade da proteína diminuiu [32].

A estabilidade também foi verificada por uma ferramenta MUpro (http://mupro.proteomics.ics.uci.edu/). Este servidor é baseado em dois métodos de aprendizado de máquina: máquinas de vetor de suporte e redes neurais. Ambos foram treinados em um grande conjunto de dados de mutação e mostraram precisão acima de 84%.

Esta proteína calcula uma pontuação entre -1 e 1 como a confiança da previsão. A confiança

indica que a mutação diminui a estabilidade da proteína, enquanto uma confiança significa que a mutação aumenta a estabilidade da proteína [33].

2.6. Varredura de SNPs UTR no Site UTR

As regiões 5 e 3 não traduzidas (UTRs) têm papéis cruciais na degradação, tradução e localização de mRNAs, bem como na regulação da interação proteína-proteína. Usamos o servidor da web UTRscan http://itbtools.ba.itb.cnr.it/utrscan para prever os SNPs funcionais nos 5 e 3 UTRs. A ferramenta UTRscan permite ao inquiridor pesquisar sequências enviadas pelo usuário para qualquer um dos motivos presentes no UTRsite. UTRsite deriva dados de UTRdb, um banco de dados com curadoria que atualiza conjuntos de dados UTR por meio de mineração de dados primária e validação experimental [7, 34]. Para realizar esta análise, os dados do formato FASTA primário foram submetidos e os resultados foram apresentados na forma de nomes de sinais e suas posições na transcrição.

2.7. Análise estrutural
2.7.1. Modelagem de Estrutura Nativa e Mutante

A transcrição com a sequência de referência NP_001180303.1 foi usada para a modelagem de homologia. Selecionamos a estrutura cristalina de raios-X de Mus musculus resistin do Protein Data Bank (PDB) com o código PDB 1RGX [9] como um modelo para gerar uma resistina humana por modelagem por homologia usando a plataforma de modelo Swiss (https: // swissmodel. expasy.org). O modelo tem um QMEAN de -1,83 e uma identidade de sequência de 55,56% (Figura 1).

UCSF Chimera foi usado para confirmar as posições correspondentes dos SNPs e para construir os 15 modelos mutantes [35]. É um programa altamente extensível desenvolvido pelo Resource for Biocomputing, Visualization, and Informatics da University of California, San Francisco, para visualização interativa e análise de estruturas moleculares e dados relacionados.

A minimização de energia das estruturas do tipo selvagem e mutantes foi realizada pelo servidor NOMAD-Ref baseado em Gromacs como um campo de força padrão, usamos o método do gradiente conjugado para a otimização da estrutura 3D [36].

2.7.2. RMSD e previsão de ligação de hidrogênio total

UCSF Chimera serviu novamente para verificar o desvio RMS sobrepondo estruturas nativas e mutantes. Além disso, essa ferramenta serviu para calcular os valores totais do título h para cada estrutura.

2.7.3. Análise de interação

COCOMAPS (bioCOmplexes COntact MAPS) é um aplicativo da web para analisar e visualizar efetivamente a interface em complexos de proteína-proteína biológica, fazendo uso de mapas de contato intermoleculares. O arquivo de entrada foi o modelo de homologia de resistina no formato PDB. Em nosso estudo, usamos COCOMAPS para analisar a interação entre os três monômeros da proteína resistina [37]. Para conseguir isso, carregamos o arquivo PDB do trímero de resistina (A, B e C como IDs de cadeia para cada monômero) e, em seguida, comparamos as interfaces de interação entre as duas cadeias A e B consideradas como Molécula 1 interagindo com a terceira cadeia C considerada como Molécula 2 (as interações incluem resíduos da cadeia A e da cadeia B juntos interagindo com a cadeia C).

2.7.4. Predição de interações proteína-proteína

STRING (ferramenta de pesquisa para a recuperação de genes / proteínas em interação, disponível em http://string-db.org) é um banco de dados de interações de proteínas conhecidas e previstas, que atualmente cobre 9.643.763 proteínas de 2.031 organismos. Este banco de dados fornece uma avaliação crítica e integração das interações proteína-proteína, incluindo associações diretas (físicas) e indiretas (funcionais) [38].

3. Resultados

3.1. Conjuntos de dados SNP

o RETN Os dados SNP investigados neste trabalho foram recuperados no início de outubro de 2018 do banco de dados dbSNP (http://www.ncbi.nlm.nih.gov/snp/?term=RETN). Continha um total de 1075 SNPs. Destes, 78 eram nsSNPs, 35 eram SNPs sinônimos codificadores, 339 estavam localizados na região não codificadora, que compreende 18 SNPs em 5 UTR, 35 SNPs estavam em 3 UTR e 287 estavam na região intrônica.

3.2. Predição de nsSNPs deletérios

Um total de 78 nsSNPs foi selecionado para nossa investigação. Esta coleção de SNP foi analisada com várias ferramentas de previsão in silico para medir seus efeitos na patogenicidade e para descobrir SNPs associados a doenças. Todos os nsSNPs obtidos do banco de dados SNP foram carregados no PredictSNP1.0 e todas as ferramentas integradas disponíveis foram selecionadas para previsão. Quinze nsSNPs foram considerados deletérios por todas as ferramentas integradas, exceto para nsSNPAnalyzer e PANTHER, que não forneceram nenhuma previsão para qualquer mutação. De acordo com o SNAP, um total de 38 nsSNPs de 54 foram considerados deletérios (70,37%), seguido por MAPP com 37 nsSNPs deletérios (68,51%), PolyPhen-2 com 31 nsSNPs (57,40%), PolyPhen-1 com 25 nsSNPs (46,29%), SIFT com 26 nsSNPs (48,15%) e PhD-SNP com 18 nsSNPs (33,33%). Os nsSNPs previstos como deletérios estão listados na Tabela 1 com a precisão esperada e são selecionados para análise posterior (Tabela 1).

3.3. Análise de Conservação

Os resultados da análise ConSurf mostraram que 13 SNPs missense deletérios estão localizados em regiões altamente conservadas, com valores de conservação variando entre 7 e 9, o que sugere que essas posições são importantes para a integridade da resistina. Entre estes, três resíduos foram previstos como expostos e funcionais, cinco outros como enterrados e estruturais, dois resíduos enterrados e um resíduo exposto. "Embora devamos mencionar no início do parágrafo que" 11 SNPs de missão deletéria estão localizados em regiões altamente conservadas ", porque mencionamos logo depois que os valores de conservação variam entre 7 e 9, então excluímos G71 (pontuação: 4) e R84 (pontuação: 6). A posição 84 foi prevista como moderadamente conservada, e a posição 71 foi previsto como resíduo variável, portanto, não foram selecionados para análise estrutural.

3.4. Predição de sites de modificação pós-tradução

ModPred foi usado para prever locais de modificação pós-tradução presentes na proteína resistina humana. Apenas PTMs com confiança alta ou média foram discutidos. Na proteína nativa, a posição R84 foi prevista como um local de ADP-ribosilação, W98 como um local de glicosilação ligada a C ou clivagem proteolítica e C103 e C104 como locais de ligação dissulfeto. Após mutagênese, C51 apareceu como um local de amidação com a mudança de Cys para Tyr, enquanto a posição W98 mudou para um local de ligação dissulfeto com a mudança de Trp para Cys. Em relação à posição C104, previu-se que a mudança de Cys para Tyr conferiu um local de amidação com alta confiança. Os resultados do ModPred são mostrados na Tabela 2.

3,5. O impacto das mutações deletérias preditas na estabilidade da proteína resistina

Analisamos as 13 substituições missense previstas como deletérias das etapas anteriores com o I-Mutant2.0. e o servidor da web MUpro. Os nsSNPs previstos para diminuir a estabilidade com ambas as ferramentas foram selecionados para posterior análise estrutural. Os resultados são mostrados na Tabela 3.

3,6. Análise estrutural
3.6.1. Modelagem da Estrutura da Resistina Humana

Usando a estrutura de cristal de raios-X (1rgx) como modelo, modelamos a estrutura 3D da resistina humana nativa usando o servidor da web do modelo suíço. A Figura 2 mostra o modelo gerado como um trímero com três monômeros (A, B e C). Este trímero foi usado para construir os 9 modelos mutantes de resistina humana.

3.6.2. Diferença RMSD e ligações totais de hidrogênio

Os valores RMSD associados aos 9 mutantes são dados na Tabela 4. À medida que o valor RMSD aumenta, o desvio entre as estruturas do tipo nativo e mutante será maior e, portanto, pode induzir uma mudança na atividade da proteína. Os mutantes C51Y e C104Y alterados mostraram os resultados de RMSD mais elevados são mostrados nas Figuras 2 (a) e 2 (b). Além disso, as ligações h totais foram calculadas para avaliar sua contribuição na estabilidade e no dobramento da proteína nativa. Todas as estruturas mutadas revelaram uma mudança nas ligações h totais em comparação com a resistina nativa, mas o mutante C104Y mostrou uma diminuição notável formando ligações 254 h enquanto a estrutura nativa formou 291. Além disso, a visualização da estrutura nativa mostrou que os resíduos C51 e C104 formam uma ligação dissulfeto entre si (Figura 2 (d)) a mudança de cisteína carregada na hélice alfa nessas posições induz a quebra da ponte dissulfeto (Figuras 2 (c) e 2 (e)) que pode perturbar a proteína estrutura.

3.6.3. Análise de interação

Os contatos de interface entre os aminoácidos presentes no trímero da resistina foram estudados usando COCOMAPS. A variação no número de diferentes tipos de interações foi observada entre os mutantes de resistina nativos e 9, os resultados são dados na Tabela 5.

Em relação ao número de interações hidrofílico-hidrofílico, o complexo nativo participou com 262 interações hidrofílico-hidrofílico. Os complexos mutantes I32S, C51Y, G79C e C104Y mostraram um aumento significativo no número de interações hidrofílico-hidrofílicas com 286, 266, 277 e 266 interações, respectivamente, o que indica uma redução na hidrofobicidade desses trímeros mutantes. Além disso, o complexo mutante C103G apresentou um aumento significativo no número de interações hidrofóbico-hidrofóbicas indicando o aumento de sua hidrofobicidade.

Além disso, descobrimos que o trímero mutante C51Y interage com apenas 75 resíduos da cadeia C formando o complexo de trímero, enquanto no complexo nativo, a cadeia C interage com 78 resíduos. Este pequeno desvio pode interromper a formação do trímero de resistina.

3.6.4. Previsão do efeito de SNPs localizados na UTR por um servidor UTRscan

O servidor UTRscan foi usado para prever o efeito dos SNPs UTR no motivo transcricional. Seis SNPs na 3 UTR, a saber, rs920569876, rs74176247, rs1447199134, rs943234785, rs76346269 e rs78048640, foram previstos para estar em locais de poliadenilação e, portanto, podem ser responsáveis ​​por fenótipos patológicos. Os resultados são apresentados na Tabela 6.


RESULTADOS

Estudo de caso

Para ilustrar as performances de snpXplorer, exploramos o conjunto mais recente de SNPs comuns associados à doença de Alzheimer de início tardio (DA, N = 83 SNPs, Tabela Suplementar S1) (43). Usando este conjunto de dados como estudo de caso, mostramos os benefícios de usar snpXplorer em um cenário típico. Resumidamente, a DA é o tipo de demência mais prevalente na velhice e está associada a uma perda progressiva das funções cognitivas, levando à morte. Em sua forma mais comum (DA de início tardio, com idade de início tipicamente & gt65 anos), a doença é estimada em 60–80% hereditária. Com um risco atribuível de ∼30%, as variantes genéticas em APOE gene representa o maior fator de risco genético comum para AD. Além de APOE, a paisagem genética da AD agora conta com 83 variantes comuns que estão associadas a uma ligeira modificação do risco de AD. Compreender os genes mais provavelmente envolvidos na patogênese da DA, bem como as vias biológicas cruciais, é garantido para o desenvolvimento de novas estratégias terapêuticas para pacientes com DA.

Recuperamos a lista de variantes genéticas associadas à AD na Tabela 1 da pré-impressão de Bellenguez et al. (43). Este estudo representa o maior GWAS em AD realizado até o momento, e resultou em 42 novos SNPs alcançando evidências de associação com AD em todo o genoma. A seção de exploração de snpXplorer pode ser usado em primeiro lugar para inspecionar as estatísticas de associação das novas associações SNP em estudos anteriores da mesma característica (ou seja. Projeto Internacional de Genômica de Alzheimer (IGAP) e história familiar de AD (proxy_AD)). Especificamente, um grau sugestivo de associação nessas regiões deve ser encontrado em estudos anteriores. Como esperado, sinais de associação sugestivos já foram observados para os novos SNPs, aumentando a probabilidade de que esses novos SNPs sejam associações verdadeiras (Figura Suplementar S1).

Após a primeira análise exploratória, colamos os identificadores de variantes (rsIDs) na seção de anotação de snpXplorer, especificando rsid como tipo de entrada, Gene Ontology e Reactome como conjuntos de genes para a análise de enriquecimento e Sangue como tecido GTEx para eQTL (ou seja. o valor padrão). o N = 83 variantes foram ligadas a um total de 162 genes, com N = 54 variantes mapeando para um gene, N = 12 variantes mapeando para dois genes, N = 7 variantes mapeando para três genes, N = 2 variantes mapeando para quatro genes, N = 1 mapeamento de variante para cinco genes, N = Mapeamento de 4 variantes para quatro genes, e N = 1 mapeamento de variante para 7, 8 e 11 genes (Figura Suplementar S2). N = 10 variantes foram consideradas variantes de codificação, N = 31 variantes foram consideradas eQTL e N = 42 variantes foram anotadas com base em sua posição genômica. Esses resultados são devolvidos ao usuário na forma de uma tabela (legível por humanos e por máquina), mas também na forma de um gráfico de resumo (Figura 2A e Figura Suplementar S2). Esses gráficos não apenas informam o usuário sobre o efeito dos SNPs de interesse (por exemplo, uma consequência direta na sequência da proteína no caso de codificação de SNPs, ou um efeito regulatório no caso de eQTLs ou SNPs intergênicos), mas também sugerem a presença de regiões mais complexas: por exemplo, a Figura Suplementar S2B indica o número de genes associados a cada SNP, que normalmente aumenta para regiões densas de genes complexas, como região HLA ou região IGH.

Resultados da anotação funcional de N = 83 variantes associadas à doença de Alzheimer (AD). (UMA) A figura de resumo circular mostra o tipo de anotação de cada variante genética usada como entrada (codificação, eQTL ou anotada por suas posições), bem como a frequência de alelo menor de cada variante e distribuição cromossômica. (B) Gráfico REVIGO, mostrando os termos GO restantes após a remoção da redundância com base em uma medida de similaridade semântica. A cor de cada ponto codifica a significância (quanto mais escuro, mais significativo), enquanto o tamanho dos pontos codifica o número de termos semelhantes removidos do REVIGO. (C) Resultados de nossa abordagem de agrupamento com base em termos. We used Lin as semantic similarity measure to calculate similarity between all GO terms. We then used ward-d2 as clustering algorithm, and a dynamic cut tree algorithm to highlight clusters. Finally, for each cluster we generated wordclouds of the most frequent words describing each cluster.

Results of the functional annotation of N = 83 variants associated with Alzheimer's disease (AD). (UMA) The circular summary figure shows the type of annotation of each genetic variant used as input (coding, eQTL or annotated by their positions) as well as each variant's minor allele frequency and chromosomal distribution. (B) REVIGO plot, showing the remaining GO terms after removing redundancy based on a semantic similarity measure. The colour of each dot codes for the significance (the darker, the more significant), while the size of the dot codes for the number of similar terms removed from REVIGO. (C) Results of our term-based clustering approach. We used Lin as semantic similarity measure to calculate similarity between all GO terms. We then used ward-d2 as clustering algorithm, and a dynamic cut tree algorithm to highlight clusters. Finally, for each cluster we generated wordclouds of the most frequent words describing each cluster.

In order to prioritize candidate genes, the authors of the original publication integrated (eu) eQTLs and colocalization (eQTL coloc) analyses combined with expression transcriptome-wide association studies (eTWAS) in AD-relevant brain regions (ii) splicing quantitative trait loci (sQTLs) and colocalization (sQTL coloc) analyses combined with splicing transcriptome-wide association studies (sTWAS) in AD-relevant brain regions (iii) genetic-driven methylation as a biological mediator of genetic signals in blood (MetaMeth) ( 43). In order to compare the SNP-gene annotation of the original study with that of snpXplorer, we counted the total number of unique genes associated with the SNPs (eu) in the original study (N = 97), (ii) using our annotation procedure (N = 136) and (iii) the intersection between these gene sets (N = 79). When doing so, we excluded regions mapping to the HLA-gene cluster and IGH-gene clusters (three SNPs in total) as the original study did not report gene names but rather HLA-cluster and IGH-cluster. Nevertheless, our annotation procedure correctly assigned HLA-related genes and IGH-related genes with these SNPs. The number of intersecting genes was significantly higher than what could be expected by chance (P = 0.03, based on one-tail P-value of binomial test, Supplementary Table S2 ). For six SNPs, the gene annotated by our procedure did not match the gene assigned in the original study. Specifically, for 4/6 of these SNPs, we found significant eQTLs in blood (rs60755019 with ADCY10P1, rs7384878 with PILRB, STAG3L5P, PMS2P1, GIGYF1 e EPHB4 genes, rs56407236 with FAM157C gene, and rs2526377 with TRIM37 gene), while the original study reported the closest genes as most likely gene (rs60755019 with TREML2 gene, rs7384878 with SPDYE3 gene, rs56407236 with PRDM7 gene and rs2526377 with TSOAP1 gene). In addition, we annotated SNPs rs76928645 and rs139643391 to SEC61G e WDR12 genes (closest genes), while the original study, using eQTL and TWAS in AD-relevant brain regions, annotated these SNPs to EGFR e ICA1L/CARF genes. While the latter two SNPs were likely mis-annotated in our procedure (due to specific datasets used for the annotation), our annotation of the former four SNPs seemed robust, and further studies will have to clarify the annotation of these SNPs.

With the resulting list of input SNPs and (likely) associated genes, we probed the GWAS-Catalog and the datasets of structural variations for previously reported associations. We found a marked enrichment in the GWAS-Catalog for Alzheimer's disease, family history of Alzheimer's disease, and lipoprotein measurement ( Supplementary Figure S3 , Supplementary Table S3 and S4 ). The results of this analysis are relevant to the user as they indicate other traits that were previously associated with the input SNPs. As such, they may suggest relationships between different traits, for example in our case study they suggest the involvement of cholesterol and lipid metabolism in AD, a known relationship ( 44). Next, we searched for all structural variations in a region of 10kb surrounding the input SNPs, and we found that for 39/83 SNPs, a larger structural variations was present in the vicinity ( Supplementary Table S5 ), including the known VNTR (variable number of tandem repeats) in ABCA7 gene ( 45), and the known CNV (copy number variation) in CR1, HLA-DRA e PICALM genes ( Supplementary Table S5 ) ( 46–48). This information may be particularly interesting for experimental researchers investigating the functional effect of SVs, and could be used to prioritize certain genomic regions. Because of the complex nature of large SVs, these regions have been largely unexplored, however technological improvements now make it possible to accurately measure SV alleles.

We then performed our (sampling-based) gene-set enrichment analysis using Gene Ontology Biological Processes (GO:BP, default setting) and Reactome as gene-set sources, and Blood as tissue for the eQTL analysis. After averaging P-values across the number of iterations, we found N = 132 significant pathways from Gene Ontology (FDR<1%) and N = 4 significant pathways from Reactome (FDR <10%) ( Supplementary Figure S4 and Supplementary Table S6 ). To facilitate the interpretation of the gene-set enrichment results, we clustered the significantly enriched terms from Gene Ontology based on a semantic similarity measure using REVIGO (Figure 2B) and our term-based clustering approach (Figure 2C). Both methods are useful as they provide an overview of the most relevant biological processes associated with the input SNPs. Our clustering approach found five main clusters of GO terms (Figure 2C and Supplementary Figure S5 ). We generated wordclouds to guide the interpretation of the set of GO terms of each cluster (Figure 2C). The five clusters were characterized by (eu) trafficking and migration at the level of immune cells (ii), activation of immune response (iii), organization and metabolic processes (iv), beta-amyloid metabolism and (v ) amyloid and neurofibrillary tangles formation and clearance (Figure 2C). All these processes are known to occur in the pathogenesis of Alzheimer's disease from other previous studies ( 43, 44, 49, 50). We observed that clusters generated by REVIGO are more conservative (i.e. only terms with a high similarity degree were merged) as compared to our term-based clustering which generates a higher-level overview. In the original study ( Supplementary Table S15 from ( 43)), the most significant gene sets related to amyloid and tau metabolism, lipid metabolism and immunity. In order to calculate the extent of term overlap between results from the original study and our approach, we calculated semantic similarity between all pairs of significantly enriched terms in both studies. In addition to showing pairwise similarities between all terms, this analysis also shows how the enriched terms in the original study relate to the clusters found using our term-based approach. We observed patterns of high similarity between the significant terms in both studies ( Supplementary Figure S6 ). For example, terms in the ‘Activation of immune system’ and the ‘Beta-amyloid metabolism’ clusters (defined with our term-based approach), reported high similarities with specific subsets of terms from the original study. This was expected as these clusters represent the most established biological pathways associated with AD. The cluster ‘Trafficking of immune cells’ had high similarity with a specific subset of terms from the original study, yet we also observed similarities with the ‘Activation of immune system’ cluster, in agreement with the fact that these clusters were relatively close also in tree structure (Figure 2C). Similarly, high similarities were observed between the ’Beta-amyloid metabolism’ and the ‘Amyloid formation and clearance’ clusters. Finally, the ‘Metabolic processes’ had high degree of similarity with a specific subset of terms, but also with terms related to ‘Activation of immune system’ cluster. Altogether, we showed that (eu) enriched terms from the original study and our study had a high degree of similarity, and (ii) that the enriched terms of the original study resembled the structure of our clustering approach. The complete analysis of 83 genetic variants took about 30 minutes to complete.


Conclusão

In summary, we uncover a hidden layer of human A-to-I editing SNP loci that are of functional importance, enriched in GWAS signals for autoimmune diseases, and subject to balancing selection. Various types of RNA editing, including A-to-I editing, alter sequence relative to the genome at the RNA level, thus providing a rich resource of RNA variants that potentially produce functionally altered genes. For some of the RNA variants that are beneficial under certain conditions, once the same type of mutation occurs at the DNA level, it may be selectively maintained and become the target of balancing selection. Therefore, we hypothesized that RNA editing, as exemplified in this study with A-to-I editing, may be an unrecognized type of the common target of balancing selection in various species.


OPINION article

Long non-coding RNAs (LncRNAs) are RNAs with more than 200 nucleotides and are mostly transcribed by RNA polymerase II from different regions across the genome. They are currently known as key regulators of cellular function through different mechanisms such as epigenetic regulation, miRNA sponging, and modulating of proteins and enzyme cofactors (Kurokawa, 2011 Nie et al., 2012 Flynn and Chang, 2014 Birgani et al., 2017 Marchese et al., 2017). By this way, they are implicated in development pathways (Amaral and Mattick, 2008). Different lncRNAs such as HOTAIR can play their important roles by changing the chromatin states of the genome (Mercer and Mattick, 2013). Rinn et al. introduced this RNA as a spliced and polyadenylated RNA with 2,158 nucleotides (Hajjari et al., 2013). HOTAIR, as one of the featured lncRNAs, is located between HOXC11 e HOXC12 on chromosome 12q13.3. HOTAIR forms stem-loop structures which bind to histone modification complexes lysine-specific demethylase 1 (LSD1) and Polycomb Repressive Complex2 (PRC2) in order to recruit them on specific target genes. This RNA interacts with Polycomb repressive Complex2 (PRC2) and has a lot of targets such as HOXD. By this way, PRC2 can repress the desired genes leading into increased growth, proliferation, survival, metastasis, invasion, and drug resistance in some cancer cells (Rinn et al., 2007 He et al., 2011 Davidovich et al., 2013 Hajjari et al., 2014 Martens-Uzunova et al., 2014 Zhao et al., 2014). So, different studies have indicated the dysregulation of HOTAIR in different types of cancers in recent years (Gupta et al., 2010 Kogo et al., 2011 Yang et al., 2011 Niinuma et al., 2012 Hajjari et al., 2013 Kim et al., 2013 Li et al., 2013).

In recent studies, there are some reports indicating the role of HOTAIR SNPs which make it a significant cancer susceptibility locus and provide high risk for some cancers (Qi et al., 2016), like breast (Bayram et al., 2015, 2016 Yan et al., 2015), gastric (Pan et al., 2016 Tian et al., 2016), cervical (Guo et al., 2016 Qiu et al., 2016), papillary thyroid carcinoma (Zhu et al., 2016), osteosarcoma (Zhou et al., 2016), prostate (Taheri et al., 2017), ovarian (Wu et al., 2016 Qiu et al., 2017), and colorectal cancers (Xue et al., 2014). This is an interesting point because these SNPs may have effect on gene expression, function, and regulators of epigenome (Hajjari and Rahnama, 2017). Therefore, we think that more studies on these SNPs can reveal the potential of these SNPs for considering them as markers of progression and diagnosis of different cancers.

Figure 1 shows the locations of these SNPs within HOTAIR gene. Herein, we present different SNPs to highlight their potential for further studies.

figura 1. Locations of different SNPs within HOTAIR gene and their association with different types of cancer (E: Exon, exons of HOTAIR, and HOXC12 are shown by green and red boxes). Genomic positions are based on the UCSC Genome browser on Human Dec. 2013 (GRCh38/hg38) assembly.

There are some reports indicating the association between HOTAIR rs12826786 SNP which is located between HOTAIR e HOXC12. The increased risk for some cancers such as breast (BC) (Bayram et al., 2016), gastric adenocarcinoma (GCA) (Guo et al., 2015), prostate cancer (PC), and benign prostate hyperplasia (BPH) (Taheri et al., 2017) has been reported. For instance, women who are carriers of this polymorphism, have an increased risk of BC in both codominant and recessive inheritance models (Bayram et al., 2016). With regard to the location of this SNP, it seems that this SNP has effect on the regulation of HOTAIR gene in the cell. So, the analysis of HOTAIR dysregulation and its correlation with this SNP can be proposed in different types of cancers in different population.

rs920778 is another polymorphism which is located in the intronic enhancer of HOTAIR gene. TT genotype of this SNP has been found to affect the gene expression and make the risk for various cancers (Bayram et al., 2015) such as gastric (Pan et al., 2016), esophageal squamous cell carcinoma (Zhang et al., 2014), cervical (Qiu et al., 2016), and papillary thyroid carcinoma (Zhu et al., 2016). In addition, CC genotype of this SNP might be a cause of breast cancer in both codominant and recessive inheritance genetic models (Bayram et al., 2015).

There are some studies reporting the association between the dysregulation of HOTAIR and rs920778. HOTAIR up-regulation has been suggested as a result of rs920778 in gastric cancer (Xu et al., 2013 Pan et al., 2016). Also, the aberrant expression of HOTAIR in esophageal squamous cell carcinoma seems to be the result of a specific allele of rs920778 (Gupta et al., 2010 Zhang et al., 2014 Dai et al., 2017). Furthermore, there is higher expression of HOTAIR in female papillary thyroid carcinoma tissues because of a specific genetic polymorphism of this gene (Zhu et al., 2016).

Another SNP annotated as rs4759314 is also located in a promoter region in one of the introns of HOTAIR. It is of noted that AG/GG genotypes of the rs4759314 were associated with gastric cancer risk. The expression effects of heterozygotes individuals with G allele were more than homozygotes in the patients in co-dominant models (Du et al., 2015). However, in a controversial report, the HOTAIR gene expression found to be higher in ovarian cancer patients with AG/AA genotypes of rs4759314 (Wu et al., 2016).

Another SNP located in the intronic region of HOTAIR is rs1899663. Due to its location in a putative regulatory element, it seems that this SNP can affect gene expression and regulation. There are some association between HOTAIR rs1899663 T allele and BPH (Benign prostate hyperplasia) patients. Also, The rs1899663 is associated with prostate cancer risk in co-dominant, dominant and recessive inheritance models. Researchers have reported that this SNP changes the affinity for binding of PAX-4, SPZ1, and ZFP281 transcription factors which can alter the HOTAIR gene expression level (Taheri et al., 2017).

Among the SNPs in HOTAIR gene, one named “rs7958904” is an exonic polymorphism. So, it seems that HOTAIR rs7958904 polymorphism can affect the secondary structure of HOTAIR.

It is of noted that CC genotypes of HOTAIR rs7958904 has been reported to be associated with decreased osteosarcoma (Zhou et al., 2016), EOC (Wu et al., 2016), and colorectal cancers risk (Xue et al., 2014). In an study on osteosarcoma patients classified by age, gender, and tumor locations, it was shown that CC genotypes of the HOTAIR rs7958904 can reduce osteosarcoma risk as well as HOTAIR expression level (Zhou et al., 2016). However, cervical cancer patients with CC genotypes of this SNP had higher HOTAIR expression (Jin et al., 2017). Furthermore, with regard to the up-regulation of HOTAIR in lung cancer (Jiang et al., 2017) the SNP has been reported as a region to be associated with chemotherapy response in lung cancer patients through effect on HOTAIR function or expression (Xue et al., 2014 Gong et al., 2016).

HOTAIR have abnormal expression in the different human cancers. Different studies have revealed the cellular and molecular mechanisms in which HOTAIR is involved (Hajjari and Salavaty, 2015 Gong et al., 2016). Recently, some studies indicating the potential role of SNPs of HOTAIR in cancer susceptibility have been published. However, these studies are mostly derived from Asian population. Also, there are some controversial results on this field of study. With regard to the importance of HOTAIR regulation and function, more experiments on different populations, and ethnics are expected to reveal the importance of HOTAIR polymorphisms. Other polymorphisms in HOTAIR gene such Indel and CNV may be considered in future. However, the association between these SNPs and regulation/structure of HOTAIR has to be checked in various cancers. Also, we believe that whole genome sequencing projects can help to find the relation between the SNPs of this RNA with other SNPs in different cancers in future.


Hotelling's T(2) multilocus association test

IMPORTANT This command has been temporarily disabled

For disease-traits, PLINK provides support for a multilocus, genotype-based test using Hotelling's T2 (T-squared) statistic. o --set option should be used to specify which SNPs are to be grouped, as follows:

Plink --file data --set mydata.set --T2

Onde mydata.set defines which SNPs are in which set (see this section for more information on defining sets).

This command will generate a file which contains the fields

HINT Use o --genedrop permutation to perform a family-based application of the Hotelling's T2 test. This command can be used with all permutation methods (label-swapping or gene-dropping, adaptive or max(T)). In fact, the permutation test is based on 1-p in order to make the between set comparisons for the max(T) statistic more meaningful (as different sized sets would have F-statistics with different degrees of freedom otherwise). Using permutation will generate one of the following files: which contain the fields or, if --mperm was used, which contain the fields Note that this test uses a simple approach to missing data: rather than case-wise deletion (removing an individual if they have at least one missing observation) we impute the mean allelic value. Although this retains power under most scenarios, it can also cause some bias when there are lots of missing data points. Using permutation is a good way around this issue.


Métodos

Study populations

Two independent Australian Caucasian breast cancer case populations were available for our study: The Genomics Research Centre Breast Cancer (GRC-BC) population and part of the Griffith University-Cancer Council Queensland Breast Cancer Biobank (GU-CCQ BB). We conducted single nucleotide polymorphism genotyping in the GRC-BC population initially. This consisted of DNA samples from 173 breast cancer patients from South East Queensland and DNA samples from 187 healthy age and sex matched females with no personal and/or familial history of breast, ovarian or any other type of cancer collected at the Genomics Research Centre Clinic, Southport, with research approved by Griffith University’s Human Ethics Committee (Approval: MSC/07/08/HREC and PSY/01/11/HREC) and the Queensland University of Technology Human Research Ethics Committee (Approval: 1400000104). Breast cancer samples comprised prevalent breast cancer cases diagnosed previous to their inclusion in this study. All participants supplied informed written consent. Average age of test population was 57.52 years and 57 years for cases and controls respectively.

Further validation of genotyping results was performed on a subset of the GU-CCQ BB population. 679 DNA samples from breast cancer patients residing in Queensland with a diagnosis of invasive breast cancer confirmed histologically were used to validate genotyping of miR-SNPs. Patient samples had been collected by the Genomics Research Centre in collaboration with the Cancer Council of Queensland as part of a 5-year population-based longitudinal study since January 2010. Patients included in this study were between 33 and 80 years of age, with an average age of 60.16 and they were screened for personal and/or familial history of breast, ovarian or any other type of cancer. Control population for the GU-CCQ BB was established from 2 sources: The control group for this cohort was comprised of genotyping result data taken from 201 healthy females belonging to the phase 1 European population from the 1000Genomes project. Efforts were made to select a subgroup of individuals that were comparable to the case group in terms of age, ethnicity and sex [34].

Genomic DNA sample preparation from whole human blood

Genomic DNA was extracted from whole blood samples using a modified salting out method described previously [35, 36]. DNA samples were evaluated by spectrophotometry using the Thermo Scientific NanoDrop™ 8000 UV-Vis Spectrophotometer (Thermo Fisher Scientific Inc., Wilmington, DE. USA) to determine DNA yield and 260/280 ratios [37–39]. Samples with a reading below 1.7 for their 260/280 ratio were purified using an ethanol precipitation protocol to guarantee DNA sample purity [40].

MiRNA SNP selection

Figure 1 shows the selection process we followed to determine miRNA SNPs (miR-SNPs) that could be included in our study. Two datasets, “The whole miRNA-disease association data” and “The miRNA function set data” from the human miRNA disease database (HMMDD) created by Lu et al. [41] and updated in January 2012, were used to select 8 diseases and/or pathological characteristics and 24 biological and/or cellular functions related to breast cancer (See Table 1). As shown in Fig. 1, we picked the 50 miRNA genes from each dataset that were present in the majority of selected features for inclusion in the following steps. This list was narrowed down to the 25 miRNA genes on each dataset with the strongest evidence in order to maximise the potential for identification of biologically relevant molecules using two main criteria: miRNAs involved in the largest number of selected features from each group followed by a literature search to confirm the number of publications showing significant relationships to cancer biology or the possession of known functional effects of polymorphisms within the miRNA itself. Following this, we chose 10 miRNA genes from the 25 genes on both lists, again prioritising by number of functions and publications, and conducted a search to identify SNPs using both dbSNP database from The National Center for Biotechnology Information (NCBI) [42] and 1000 Genomes project browser [43]. Final selection of SNPs was done using this algorithm: All microRNA-SNPs located inside the pre-miRNA gene were automatically included in the SNP selection. However, SNPs located outside of the pre-miRNA gene were assessed using the following criteria: miR-SNPs located up to 500bp upstream or downstream from pre-miRNA were automatically included in the SNP selection. On the other hand, SNPs located more than 500bp from the 3’ or 5’ end were chosen only if they had a previously reported minor allele frequency higher than 5% in Caucasian populations. As a result 56 microRNA SNPs were identified in this preliminary selection (Data not shown) (See Fig. 1).

MicroRNA SNP (miR-SNP) selection algorithm using the Human miRNA Disease Database (HMDD). This flow chart shows workflow for selection of preliminary miR-SNPs included in genotyping study. Abbreviations: dbSNP, single nucleotide polymorphism database MAF, minor allele frequency miRNA, microRNA NCBI National Center for Biotechnology Information SNP, Single nucleotide polymorphisms

Primer design

Using the MassARRAY® Assay Design Suite v1.0 software (SEQUENOM Inc., San Diego, CA, USA) we were able to create a single multiplex PCR genotyping assay containing 24 miR-SNPs from our preliminary selection (See Table 2). We designed forward and reverse PCR primers and one iPLEX® (extension) primer and verified that the mass of extension primers differed by at least 30 Da among different SNPs and by 5 Da between alternative alleles of the same marker to achieve successful marker and allele identification by mass spectrometry analysis. Primers were manufactured by Integrated DNA Technologies (IDT®) Pte. Ltd. (Baulkham Hills, NSW 2153, Australia) and primer information is shown in Table 3.

Primary multiplex PCR

Genotyping was undertaken following the iPLEX™ GOLD genotyping protocol using the iPLEX® Gold Reagent Kit (SEQUENOM Inc., San Diego, CA, USA). Primer extension reactions were performed according to the instructions for the SEQUENOM linear adjustment method included in the iPLEX™ GOLD genotyping protocol (SEQUENOM Inc., San Diego, CA, USA). All reactions were performed using Applied Biosystems® MicroAmp® EnduraPlate™ Optical 96-Well Clear Reaction Plates with Barcode (Life Technologies Australia Pty Ltd., Mulgrave, VIC, Australia) and an Applied Biosystems® Veriti® 96-Well Thermal Cycler (Life Technologies Australia Pty Ltd., Mulgrave, VIC, Australia).

MALDI-TOF MS analysis and data analysis

A total of 12-16 nl of each iPLEX® reaction product were transferred onto a SpectroCHIP® II G96 (SEQUENOM Inc., San Diego, CA, USA) using SEQUENOM® MassARRAY® Nanodispenser (SEQUENOM Inc., San Diego, CA, USA). SpectroCHIP® analysis was carried out by SEQUENOM® MassArray® Analyzer 4 and the SpectroAcquire software Version 4.0 (SEQUENOM Inc., San Diego, CA, USA). Finally data analysis for genotype determination was done using the MassARRAY® Typer software version 4.0 (SEQUENOM Inc., San Diego, CA, USA). In order to confirm the genotypes obtained, randomly selected samples (5 each for case and control cohorts) from each genotype (n = 240) were validated by Sanger Sequencing to ensure accuracy of genotyping results. In all cases, the Sanger Sequencing confirmed the genotyping obtained using MassARRAY.

Statistical analysis

Statistical analysis of genotypes and alleles was conducted using Plink software version 1.07 (http://pngu.mgh.harvard.edu/purcell/plink/) [44]. The α for p-values was set at 0.05 to determine statistically significant association with breast cancer. Genotype and allele frequencies for each miRNA SNP in our case and control populations were established and we used Hardy-Weinberg equilibrium (HWE) to evaluate deviation between observed and expected frequencies for identification of unexpected population or genotyping biases [45, 46]. We performed Chi square analysis to evaluate differences in genotype and allele frequencies between cases and controls for each independent population [47]. Finally we calculated odds ratio (OR) and obtained 95% confidence interval (CI) 95% to assess disease risk.


Informação sobre o autor

Afiliações

International Institute of Tropical Agriculture (IITA), Ibadan, 200001, Oyo State, Nigeria

Ismail Yusuf Rabbi, Siraj Ismail Kayondo, Muyideen Yusuf, Cynthia Idhigu Aghogho, Kayode Ogunpaimo, Ruth Uwugiaren, Ikpan Andrew Smith, Prasad Peteti, Afolabi Agbona, Elizabeth Parkes, Chiedozie Egesi & Peter Kulakow

Boyce Thompson Institute, Ithaca, NY, 14853, USA

National Root Crops Research Institute (NRCRI), PMB 7006, Umudike, 440221, Nigeria

Ezenwaka Lydia & Chiedozie Egesi

Global Development Department, College of Agriculture and Life Sciences, Cornell University, Ithaca, NY, 14850, USA

Section on Plant Breeding and Genetics, School of Integrative Plant Sciences, Cornell University, Ithaca, NY, 14850, USA

Marnin Wolfe & Jean-Luc Jannink

United States Department of Agriculture - Agriculture Research Service, Ithaca, NY, 14850, USA

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Contribuições

IYR, CE, JLJ, and PK conceived and designed the study IYR, SIK, GB, AA, and MY performed analyses and wrote the manuscript CE, EL, EP, MW, JLJ, and PK edited the manuscript CA, KO, RU, ASI, and PP Implemented field trials, generated and curated data and PK Provided overall coordination and leadership.

Autor correspondente


Assista o vídeo: Nowy SNP JPK z automatyzacją analizy plików i tworzenia korekt (Dezembro 2021).