Em formação

Compactando informações estruturais em arquivos PDB


Parece haver muita redundância nos arquivos PDB. É claro que esses arquivos podem ser compactados com programas de compactação de uso geral como o gzip, mas não posso deixar de imaginar que essas ferramentas estão negligenciando uma quantidade significativa de redundância em arquivos PDB. Existem compressores que visam especificamente arquivos PDB? Se não, quais são alguns aspectos dos arquivos PDB que estão prontos para compactação?

Olhando para um arquivo PDB típico, algumas redundâncias são imediatamente aparentes. Outras redundâncias são menos óbvias. Considere este trecho de dois resíduos de 1MOB (mioglobina):

ATOM 332 N LYS A 42 16,481 27,122 -10,033 1,00 11,15 N ATOM 333 CA LYS A 42 15,926 28,134 -9,159 1,00 8,64 C ATOM 334 C LYS A 42 16,970 29,081 -8,512 1,00 16,74 C ATOM 335 O LYS A 42 16,687 30,075 -7,799 1,00 11,84 O ATOM 336 CB LYS A 42 15,093 27,489 -8,043 1,00 18,03 C ATOM 337 CG LYS A 42 13,731 26,888 -8,502 1,00 19,65 C ATOM 338 CD LYS A 42 12,679 27,912 -8,953 1,00 17,94 C ATOM 339 CE LYS A 42 11,438 27,406 - 9,703 1,00 24,82 C ATOM 340 NZ LYS A 42 10,474 28,567 -9,803 1,00 19,81 N ATOM 341 N PHE A 43 18,218 28,599 -8,544 1,00 12,28 N ATOM 342 CA PHE A 43 19,311 29,318 -7,919 1,00 11,81 C ATOM 343 C PHE A 43 20,223 30,024 -8,949 1,00 10,95 C ATOM 344 ​​O PHE A 43 21,201 29,462 -9,450 1,00 10,08 O ATOM 345 CB PHE A 43 20,138 28,301 -7,137 1,00 9,30 C ATOM 346 CG PHE A 43 19,494 27,689 -5,877 1,00 9,53 C ATOM 347 CD1 PHE A 43 19,572 28,376 -4,679 1,00 12,01 C ATOM 348 CD2 PHE A 43 18,837 26,465 -5,923 1,00 10,54 C ATOM 349 CE1 PHE A 43 18,993 27,861 -3,536 1,00 9,59 C ATOM 350 CE2 PHE A 43 18,261 25,959 -4,775 1,00 8,62 C ATOM 351 CZ PHE A 43 18,341 26,666 -3,597 1,00 7,89 C

Esses dois resíduos ocupam 1.638 bytes como texto simples; quando compactados com gzip, ocupam 467 bytes. Para referência, o formato dos registros ATOM em arquivos PDB é definido em wwpdb.org/documentation/format33/sect9.html#ATOM.

Quase todos os dados no trecho acima parecem redundantes. O primeiro campo (ATOM), o segundo campo (índice de átomo, por exemplo, 332 na primeira linha), o sexto campo (índice de resíduo, por exemplo, 42), o décimo campo (ocupação, por exemplo, 1,00) e o último campo (nome do elemento, por exemplo, N) parecem claramente estranho. O quarto campo (nome do resíduo) pode ser reduzido de três caracteres para 1 caractere ou simplesmente um número inteiro. Não sou um especialista em compactação de dados, mas imagino que o gzip capta a maior parte dessa redundância.

Um pouco menos obviamente, os nomes dos átomos para cada resíduo também parecem desnecessários. No meu entendimento, a composição atômica de todos os backbones dos resíduos será sempre a mesma, e representada nos arquivos PDB como "N", "CA", "C", "O". O mesmo para a composição atômica das respectivas cadeias laterais dos resíduos: uma cadeia lateral de lisina será sempre "CB", "CG", "CD", "CE", "NZ" e uma cadeia lateral de fenilalanina será sempre "CB", " CG "," CD1 "," CD2 "," CE1 "," CE2 "," CZ ".

Uma redundância mais sutil, mas que pode aumentar muito a compressibilidade, parece que pode estar nas próprias coordenadas atômicas. Por exemplo, no backbone, seria possível deduzir as coordenadas X, Y e Z de cada átomo residual (12 pontos de dados: 4 átomos * 3 coordenadas) dados apenas seus ângulos diédricos phi, psi e ômega (3 pontos de dados)? A aplicação de ângulos diédricos a átomos dentro de cadeias laterais poderia remover de forma semelhante a necessidade de listar explicitamente as coordenadas 3D ali?

O "fator de temperatura" (o penúltimo campo do trecho) poderia ser removido sem perdas ou comprimido de alguma forma não óbvia? Quais são algumas outras otimizações possíveis que poderiam ser usadas para compactar arquivos PDB com mais eficiência? Há alguma implicação óbvia de desempenho grave dessas várias técnicas de compressão na velocidade de um descompressor hipotético para converter de volta para o formato PDB oficial? Essas perguntas foram respondidas na literatura ou em um programa de compactação específico do PDB existente?

Agradecemos antecipadamente por qualquer resposta ou feedback.

Editar:

Dado que nenhum compactador de arquivo específico do PDB parece estar disponível, suponho que meu objetivo específico seja desenvolver um. Uma aplicação potencial que vejo para isso é diminuir significativamente os novos tempos de renderização em certos casos de uso de programas de visualização molecular baseados em navegador, por exemplo, Jmol, ChemDoodle Web Components ou GLmol. Outro aplicativo pode estar diminuindo o tempo e o tamanho dos dados necessários para baixar arquivos de arquivos PDB como os descritos aqui.

É claro que isso exigiria uma maneira de descompactar com eficiência os arquivos PDB compactados, mas essa compensação entre o tempo de descompactação e o tempo de download parece que pode ser útil em pelo menos alguns aplicativos de nicho.

Editar 2:

Em um comentário, nico pergunta "Como compactar o arquivo diminuiria o tempo de renderização?". Diminuir o tamanho do arquivo PDB compactado (por exemplo, pela metade ou mais) e, assim, diminuir o tempo necessário para baixar o arquivo diminuiria o tempo entre o momento em que o arquivo PDB foi solicitado de um servidor remoto e quando a estrutura foi renderizada por um programa de visualização molecular em execução em um máquina cliente. Peço desculpas se o uso de "novo tempo de renderização" nesse contexto não estiver claro.

Uma compactação sem perdas também pode envolver a codificação do arquivo PDB para um objeto (por exemplo, JSON) que é mais rápido de analisar para o programa de visualização e diminuir os tempos de renderização dessa forma. Olhando ao redor mais detalhadamente, se o aplicativo exigisse apenas a exibição da estrutura 3D e não também retendo dados sobre átomos e resíduos específicos, então, usar uma compressão de malha binária (por exemplo, webgl-loader) parece que provavelmente diminuiria o tempo de renderização ainda mais.


Você está fazendo algumas suposições que provavelmente não são válidas para todos os arquivos PDB. Por exemplo:

  • Os índices de resíduos não são necessariamente sequenciais, nem precisam começar em 1
  • Nem todos os resíduos possíveis têm equivalentes de código de 1 letra, existem milhares de resíduos exóticos possíveis, não apenas os aminoácidos padrão
  • Os arquivos PDB não são usados ​​apenas para proteínas, mas também para ácidos nucléicos e pequenas moléculas (geralmente como ligantes)
  • A ocupação pode ser diferente de 1.0 se houver várias conformações representadas no arquivo PDB
  • O tipo de elemento é óbvio para aminoácidos e nucleotídeos não modificados, mas não necessariamente para resíduos mais exóticos (embora geralmente seja fácil de identificar)
  • As distâncias entre os átomos não são necessariamente as distâncias ideais, então você precisaria de ângulos e distâncias para representar as coordenadas.

O fator de temperatura é um valor determinado experimentalmente, não há compressão óbvia para isso. Você pode descartá-lo com segurança se não precisar desses dados e, por exemplo, não tem qualquer significado nas estruturas de NMR.

A vantagem do formato PDB é que praticamente todo programa pode (teoricamente) lidar com ele, embora as implementações variem e as incompatibilidades sutis possam causar muitas dores de cabeça. O tamanho dos arquivos PDB quase nunca é um problema, portanto, não há motivação significativa para melhorar o formato nesse aspecto.


O formato de arquivo PDB foi especificado no início da computação para caber em cartões perfurados. Portanto, tem algumas deficiências que levaram gerações de cientistas a amaldiçoar o formato de coluna de largura fixa. Até agora, ele foi substituído por um formato semelhante ao XML: PDBML. É claro que XML é menos eficiente em termos de espaço do que um layout de coluna, portanto, você pode ver que o espaço em disco não era a principal preocupação, mas sim ser capaz de analisar os arquivos. No entanto, a página PDBML afirma que eles oferecem três tipos de arquivos de download: "arquivos totalmente marcados, arquivos sem registros atom, arquivos com uma codificação mais eficiente de espaço de registros atom" - então você pode verificar o que eles fazem nos últimos caso.

Quanto às suas sugestões: em teoria, você poderia usar apenas ângulos diédricos. No entanto, os erros numéricos se acumulam à medida que você reconstrói as coordenadas 3D e diferentes arquiteturas de software proporcionam diferentes precisões. Portanto: explícito é melhor do que implícito em formatos de arquivo científicos.


Estou ressuscitando uma velha questão, mas já ouvi essa pergunta de alguns jovens bioinformáticos e tenho mais alguns pontos a considerar sobre a compactação de arquivos PDB.

A primeira é que muitos arquivos PDB (incluindo todos os PDBs hospedados no site do PDB) têm cerca de 300-400 linhas de metadados na parte superior do arquivo. Isso representa cerca de 10-20% do tamanho total do arquivo. Além disso, muitos PDBs têm registros ANISOU, mas são igualmente redundantes.

Em segundo lugar, mesmo se você estiver lidando com dados brutos de coordenadas, acho que você está subestimando o quão bem o GZIP já está. Vamos apenas dizer que metade dos dados da coluna são de alguma forma completamente redundantes e podemos simplesmente compactar tudo. A seguir, codificaremos os 5 números (x, y, z, q, b) em binário usando 2 bytes para cada número (o que não é espaço suficiente para uso prático, mas estamos otimistas aqui). Portanto, comprimimos 80 colunas em 10 colunas, o que é 12,5% do tamanho original. Executando o gzip em alguns pdbs simples (após realizar o grep apenas nos registros ATOM), ele atinge 23,0% do tamanho original. Se realmente nos importássemos com o tamanho do arquivo, poderíamos usar o bzip2, que chega a 16,4%.

Nossa ferramenta de compressão mágica é apenas duas vezes melhor que o gzip, o que é bom, mas o gzip já é quatro vezes melhor do que o pdbs descompactado. Se nos importássemos, usaríamos apenas bzip2, que é apenas 30% maior do que esse tamanho mínimo hipotético. E assim que tivermos todas as especificações do átomo de volta, tenho certeza de que serão virtualmente idênticas. O resultado final é que o bzip2 já está muito próximo do limite máximo de compactação teórica para muitos tipos de arquivos, especialmente arquivos de texto. Para os dados de sequenciamento do genoma, que são ordens de magnitude maiores e mais redundantes, as pessoas apenas fizeram pequenas modificações no algoritmo subjacente.

Baixei e analisei todo o banco de dados PDB (um pouco desatualizado, mas tem 75K de estruturas e 14 GB, compactado com gzip) e posso apreciá-lo em diminuí-lo ainda mais, acredite em mim. Nesse nível, a compactação faz a diferença no tempo de análise apenas lendo os dados do disco rígido (ou de um servidor NFS). Felizmente, muitas (senão a maioria) das ferramentas pdb lêem pdbs com gzip nativamente (infelizmente, não é o caso para arquivos bzip). Perl, Python e todas as outras linguagens de bioinformática importantes têm APIs simples para descompactar arquivos gzip automaticamente à medida que são abertos. Contra a onipresença do gzip, não vale a pena pensar em uma pequena melhoria na compactação. Novamente, se nos importássemos, faríamos apenas com que tudo usasse bzip2.

O futuro é mais parecido com PDBML, que eu meio que desprezo. Mas é muito mais completo e fácil de analisar (considerando que existem analisadores XML para todas as principais linguagens), mesmo se os próprios arquivos forem uma ordem de magnitude maiores. Eu não gosto deles (e principalmente de XML em geral) porque eles não são legíveis por humanos em nenhum sentido prático. Mas, ao mesmo tempo, não estou sugerindo apenas que mudemos para um formato PDB de 120 colunas apenas para resolver as limitações do formato PDB.

Usar apenas ângulos diédricos também nunca funcionaria, e não por causa da precisão numérica. Há uma variação pequena, mas significativa nos comprimentos e ângulos das ligações, que faria com que as coordenadas estivessem desfeitas por angstroms no final da cadeia. Não ajudaria com ANISOU, REMARK e outros registros. E, francamente, seria uma grande dor escrever novos analisadores para.


Sei que a pergunta é antiga, mas só para constar: o RCSB PDB está atualmente trabalhando em um projeto para compactar os dados estruturais do PDB com um novo formato de arquivo, chamado MMTF (MacroMolecular Transmission Format).

O formato usa MessagePack para serialização e compactação personalizada, obtendo vantagem de ~ 5x em relação aos arquivos compactados em gzip mmCIF. Atualmente, todo o arquivo PDB cabe em 7 GB. Mais importante ainda, o tempo de análise é reduzido drasticamente graças ao formato ser binário.

Você pode ler tudo sobre isso no site: http://mmtf.rcsb.org


PDBsum: resumos estruturais das entradas do PDB

PDBsum é um servidor web que fornece informações estruturais sobre as entradas no Protein Data Bank (PDB). As análises são principalmente baseadas em imagens e incluem a estrutura secundária da proteína, interações proteína-ligante e proteína-DNA, análises PROCHECK de qualidade estrutural e muitas outras. As estruturas 3D podem ser visualizadas interativamente em RasMol, PyMOL e um visualizador JavaScript chamado 3Dmol.js. Os usuários podem fazer upload de seus próprios arquivos PDB e obter um conjunto de análises PDBsum protegidas por senha para cada um. O servidor pode ser acessado gratuitamente por todos em: http://www.ebi.ac.uk/pdbsum.

Palavras-chave: Estrutura da proteína 3D PDB PDBsum enzimas interações moleculares banco de dados de proteínas diagramas esquemáticos de análise de estrutura de proteínas.

Bonecos

Algumas análises PDBsum para PDB ...

Algumas análises PDBsum para PDB entrada 5trd - uma riboflavina quinase de Thermoplasma acidophilum .…

Os gráficos de interação do PDBsum para o PDB…

Os gráficos de interação do PDBsum para a entrada 5trd do PDB. (A) Gráfico de ligações de hidrogênio (azul ...

Mais análises PDBsum para PDB…

Mais análises PDBsum para a entrada 5trd do PDB. (A) "Diagrama de fiação" esquemático do ...


Compactando informações estruturais em arquivos PDB - Biologia

Instantâneo de dados experimentais

  • Método: & nbspDIFRAÇÃO DE RAIOS X
  • Resolução: & nbsp2,95 Å
  • Valor-R grátis: & nbsp0,300 & nbsp
  • R-Value Work: & nbsp0,229 & nbsp
  • Valor-R observado: & nbsp0,231 & nbsp

Validação wwPDB& nbsp & nbspRelatório 3D & nbspRelatório completo

Visão estrutural da dependência da sequência do posicionamento do nucleossomo

(2010) Estrutura & nbsp18: 528-536

  • PubMed: & nbsp20399189 & nbsp Pesquisar no PubMed
  • DOI: & nbsp10.1016 / j.str.2010.01.015
  • Citação primária de estruturas relacionadas: & nbsp
    3LEL
  • Resumo PubMed: & nbsp

O posicionamento do nucleossomo exibe dependência de sequência e contribui para a regulação genômica de uma maneira específica do local. Resolvemos as estruturas da partícula central do nucleossomo composta de elementos TTTAA de forte posicionamento que flanqueiam o centro do nucleossomo. A força de posicionamento do dinucleotídeo TA super flexível é consistente com sua localização central observada dentro das regiões internas do sulco menor, onde pode contribuir ao máximo para desafiar energeticamente a flexão, torção e compressão do sulco menor.

O posicionamento do nucleossomo exibe dependência de sequência e contribui para a regulação genômica de uma maneira específica do local. Resolvemos as estruturas da partícula central do nucleossomo composta de elementos TTTAA de forte posicionamento que flanqueiam o centro do nucleossomo. A força de posicionamento do dinucleotídeo TA super flexível é consistente com sua localização central observada dentro das regiões internas do sulco menor, onde pode contribuir ao máximo para desafiar energeticamente a curvatura, torção e compressão do sulco menor. A preferência marcada por TTTAA e o poder de posicionamento do local de 1,5 hélice dupla do centro do nucleossomo se relaciona a um motivo de proteína histona único neste local, que impõe um sulco menor sustentado e extremamente estreito por meio de uma "pinça de açúcar" hidrofóbica. Nossa análise lança luz com base no posicionamento do nucleossomo e indica que o octâmero da histona evoluiu para não minimizar totalmente a discriminação de sequência na ligação ao DNA.

Afiliação Organizacional: & nbsp

Divisão de Biologia Estrutural e Computacional, Escola de Ciências Biológicas, Universidade Tecnológica de Nanyang, 60 Nanyang Drive, Singapura 637551.


2 DESCRIÇÃO

O modelo de dados apresentado na Figura 1 é implementado por uma estrutura de dados hierárquica na qual cada estrutura biológica é representada como um objeto do Sistema. Um Sistema é obtido de um construtor e pode conter vários objetos de Modelo. Como em outras estruturas, seguindo a estrutura de dados PDB e o formato PDB corrigido (Henrick et al., 2008), cada Model contém os objetos Chain, Residue e Atom que podem ser extraídos de seus pais (Model, Chain e Residue, respectivamente). Os resíduos podem ser do tipo proteína e ácido nucleico (o nome do resíduo é preferido a uma definição de nucleotídeo específica). Objetos residuais e Atom podem ter granulação regular e grossa, como em modelos baseados em cordão (Tozzini, 2005). A interface com CGAL é feita fornecendo kernels onde átomo ou pseudoátomo podem ser usados ​​diretamente como tipos de pontos. Observe que CGAL não é necessário para usar ESBTL.


REORGANIZAÇÃO DOS SERVIÇOS RCSB PDB

As atividades do RCSB PDB foram recentemente reorganizadas em quatro serviços integrados e interdependentes de infra-estrutura cibernética, incluindo 1. Deposição / Biocuração 2. Gerenciamento / acesso de arquivo 3. Exploração de Dados e 4. Divulgação / Educação (Figura 1). Esses novos serviços foram projetados com o objetivo de melhorar a experiência do usuário e garantir a adesão contínua aos JUSTA princípios (13).

Ciclo de vida de dados PDB e serviços RCSB PDB. O RCSB PDB hospeda quatro serviços integrados e interdependentes de infraestrutura cibernética, apoiados por um Help Desk de Atendimento ao Cliente e Suporte de TI.


Receptor de glicocorticóide e dexametasona

Um medicamento antiinflamatório nos deu uma nova maneira de combater a pandemia de COVID-19.

O cérebro orquestra tudo o que fazemos, enviando sinais através do sistema nervoso para controlar diferentes partes do nosso corpo. O cérebro também é o lar de nossos pensamentos e consciência, pois os neurônios processam a entrada de nossos sentidos e armazenam o que encontram como memórias. Muitos medicamentos estão disponíveis para ajudar a ajustar a função do cérebro e do sistema nervoso quando há problemas. Infelizmente, os efeitos de algumas drogas são difíceis de controlar e podem levar ao abuso e ao vício. Explore os recursos do PDB-101 para aprender sobre as proteínas relacionadas ao nosso sistema nervoso e saúde mental.

Desafio de vídeo de 2021 para alunos do ensino médio

Obrigado a todos os participantes do desafio, juízes especialistas, professores, pais e eleitores que fizeram esta competição acontecer.

Equipe da Peninsula Liberty Academy
San Carlos, CA

Equipe South da West Windsor-Plainsboro High School
West Windsor, NJ


Todos os sábados às 3:00 UTC, para cada nova entrada, o site wwPDB fornece: sequência (s) (aminoácido ou nucleotídeo) para cada polímero distinto (new_release_structure_sequence.tsv) e, quando apropriado, a (s) string (s) InChI para cada ligante distinto (new_release_structure_nonpolymer.tsv) e os valores de pH de cristalização (new_release_crystallization_pH.tsv).

Todas as quartas-feiras a partir das 00:00 UTC, todas as entradas de dados novas e modificadas serão atualizadas em cada um dos sites FTP do wwPDB. O arquivo PDB FTP é bastante grande, exigindo mais de 1 TB de armazenamento e continua a crescer a cada atualização semanal.

Lista de dados derivados

Vários resumos dos dados atuais no arquivo PDB estão disponíveis no diretório / pub / pdb / derivado_data do site FTP. Links e descrições desses arquivos estão disponíveis abaixo.

author.idx Lista de todos os códigos de ID do PDB e autores das entradas.
cmpd_res.idx Lista de todos os códigos de ID do PDB, resolução e nomes de compostos.
composto.idx Lista de todos os códigos de ID do PDB e nomes de compostos.
crystal.idx Lista de todos os códigos de ID de PDB e parâmetros de célula de unidade de cristal do registro CRYST1.
entradas.idx Lista de todos os códigos de ID do PDB, data de adesão do cabeçalho, composto, fonte, lista de autores, resolução e tipo de experimento (se não for raio-X).
on_hold.list Lista de todas as entradas que estão em espera
pdb_entry_type.txt Lista de todas as entradas do PDB, identificação de cada uma como uma proteína, ácido nucleico ou complexo proteína-ácido nucleico e se a estrutura foi determinada por difração ou NMR.
pdb_seqres.txt.gz Listagem de todas as sequências de PDB em formato FASTA.
pendente_waiting.list Lista de todas as entradas que serão lançadas após a publicação.
resolu.idx Lista de todos os códigos de ID do PDB e valores de resolução de dados. O valor da resolução é -1,00 para entradas determinadas por NMR.
source.idx Lista de todos os códigos de ID do PDB e nomes de fontes conforme encontrados nos registros de compostos.

Vários locais e opções de download são fornecidos para tornar o acesso o mais eficiente possível.

RCSB PDB:

Baixe os arquivos de coordenadas no formato PDB Exchange (mmCIF):

Baixe os arquivos de coordenadas no formato PDBML (xml):

Baixe os arquivos de coordenadas no formato PDB:

Baixe arquivos de cabeçalho de metadados de mapa EMDB (xml):

Baixe diretórios / arquivos para a entrada EMDB EMD-5001:

Baixe os arquivos do relatório de validação:

irá se conectar a um servidor ftp anônimo contendo o repositório wwPDB corrigido.

Baixe os arquivos de coordenadas no formato PDB Exchange (mmCIF):

Baixe os arquivos de coordenadas no formato PDBML:

Baixe os arquivos de coordenadas no formato PDB:

Baixe arquivos de dados EMDB:

Baixe os arquivos do relatório de validação:

Precisa de mais ajuda com o site dos EUA: Por favor, contate [email protected] se você tiver qualquer problema para se conectar a ftp.rcsb.org.

Baixe os arquivos de coordenadas no formato PDB Exchange (mmCIF):

Baixe os arquivos de coordenadas no formato PDBML (xml):

Baixe os arquivos de coordenadas no formato PDB:

Baixe arquivos de cabeçalho de metadados de mapa EMDB (xml):

Baixe diretórios / arquivos para a entrada EMDB EMD-1003:

Baixe os arquivos do relatório de validação:

irá se conectar a um servidor ftp anônimo contendo o repositório wwPDB corrigido.

Baixe os arquivos de coordenadas no formato PDB Exchange (mmCIF):

Baixe os arquivos de coordenadas no formato PDBML:

Baixe os arquivos de coordenadas no formato PDB:

Baixe a árvore de ftp PDB completa:

Baixe arquivos de dados EMDB:

Baixe os arquivos do relatório de validação:

Precisa de mais ajuda com o site PDBe: Entre em contato com o PDBe (http://www.ebi.ac.uk/pdbe/about/contact ou envie um e-mail para [email protected]) se tiver problemas para se conectar a ftp.ebi.ac.uk.

Baixe os arquivos de coordenadas no formato PDB Exchange (mmCIF):

Baixe os arquivos de coordenadas no formato PDBML (xml):

Baixe os arquivos de coordenadas no formato PDB:

Baixe arquivos de cabeçalho de metadados de mapa EMDB (xml):

Baixe diretórios / arquivos para a entrada EMDB EMD-5001:

Baixe os arquivos do relatório de validação:

irá se conectar a um servidor ftp anônimo em PDBj contendo o repositório wwPDB corrigido.

Baixe os arquivos de coordenadas no formato PDB Exchange (mmCIF):

Baixe os arquivos de coordenadas no formato PDBML (todos):

Baixe os arquivos de coordenadas no formato PDBML (informações do local sem átomo):

Baixe os arquivos de coordenadas no formato PDBML (informações do site atom apenas):


Adicionar ferramentas ao pipeline atual é tão simples quanto selecionar a ferramenta desejada nos diferentes seletores de bloco e clicar no botão +. Figura 4: o seletor de ferramentas

  • pré-ferramenta são blocos que só podem ser adicionados no início do pipeline, antes de qualquer outro bloco regular ou ferramenta de mesclagem. Apenas um de cada tipo de bloco de pré-ferramentas é permitido por vez.
  • pós-ferramenta são blocos que só podem ser adicionados ao pipeline se já houver uma pré-ferramenta atribuída. Sua posição está sempre à direita de qualquer outra pré-ferramenta. Apenas 1 bloco é permitido.
  • os blocos principais podem ser adicionados conforme sua conveniência, em qualquer ordem (semanticamente correta) de sua escolha.

Figura 5: um exemplo de pipeline

Os blocos podem ser removidos (se você clicar no X) e classificados se você arrastá-los e soltá-los.

Se você clicar no botão Sample Pipeline, um pipeline de exemplo com diferentes blocos e uma entrada de amostra será carregado.

Se você marcar a opção Arrumar, ela adicionará ao final do pipeline atual a ferramenta pdb_tidy a todas as saídas geradas, o que modificará a saída para aderir (tanto quanto possível) às especificações do formato PDB. Figura 6: A opção Tidy está habilitada.


Como remover HETATMS e correntes do arquivo PDB?

Este é um tutorial básico sobre como remover os heteroátomos (HETATMS) e cadeias de arquivos PDB. É uma etapa importante para simulação computacional e dinâmica molecular.

Existem duas maneiras simples de remover HETATMS e cadeias de arquivos PDB.

1. Usando um editor de texto

Removendo HETATOMS

  • Abra seu arquivo PDB em um editor como o notepad ++ (no Windows) ou gedit / notepadqq (no Linux).
  • Vá para o final do arquivo. Lá você verá muitas linhas com & # 8216HETATM & # 8217 na primeira coluna à direita (Figura 1).
  • Remova essas linhas. NÃO & # 8217T remova as duas últimas linhas (& # 8216MASTER & # 8217 & amp & # 8216END & # 8217).

figura 1 Linhas HETATM em um arquivo PDB.

Removendo Correntes

Agora, olhe para a quinta coluna na Figura 1. Como você pode ver, existem quatro cadeias nessa proteína: A, B, C e D. Vamos supor que precisamos apenas da cadeia A, então temos que remover o resto das três cadeias.

  • Depois de remover as linhas HETATM, comece a remover outras cadeias da linha com & # 8216TER & # 8217 na primeira coluna à direita (Figura 2).

Figura 2 Cadeia D no arquivo PDB.

  • Continue removendo até chegar à linha que mostra & # 8216TER & # 8217 na primeira coluna e & # 8216A & # 8217 na quinta coluna (Figura 3). Agora, você deve ficar com as duas últimas linhas (MASTER & amp END) no final do arquivo.
  • Agora, salve este arquivo.

Figura 3 A cadeia A restante e as duas últimas linhas (MASTER & amp END) no final do arquivo.

2. Usando Pymol

A primeira opção parece tediosa em comparação com o uso de Pymol.

  • Abra o arquivo PDB no Pymol.
  • Vá para o painel esquerdo inferior. Lá você verá algumas opções, incluindo & # 8216S & # 8217 e & # 8216F & # 8217.
  • Clique em & # 8216S & # 8217. Ele exibirá as cadeias / resíduos de aminoácidos presentes nessa estrutura.
  • Logo acima dessas opções, você verá: & # 8220Selecionando: Resíduos& # 8221 escrito lá (Figura 4).

Figura 4 Painel inferior esquerdo em Pymol mostrando a opção & # 8216S & # 8217.

Figura 5 Painel inferior esquerdo em Pymol mostrando a opção & # 8216Chains & # 8217.

  • Suponhamos que você precise apenas da cadeia A. Vá para os resíduos de aminoácidos exibidos. Vá até o final.
  • Selecione as cadeias que deseja excluir clicando com o botão esquerdo do mouse.
  • Vá para o painel superior direito. Lá você encontrará três linhas, incluindo & # 8216 (sele) & # 8217. Clique em & # 8216A & # 8217 (significa ação). Irá mostrar uma pequena janela, selecione & # 8216remova os átomos & # 8217. Isso removerá as cadeias selecionadas.
  • Agora, vá para Arquivo & # 8211 & gt Exportar molécula & # 8211 & gt Opções de PDB. Marque & # 8216Write CONECT records for all bonds & # 8217 e desmarque & # 8216Write segment identifier (segi) coluna & # 8217. O último é opcional. Clique em & # 8216Salvar & # 8217.

Agora, você removeu com sucesso todos os HETATMS e cadeias irrelevantes de seu arquivo PDB.


Conteúdo

Estrutura da proteína Editar

A estrutura de uma proteína está diretamente relacionada à sua função. A presença de certos grupos químicos em locais específicos permite que as proteínas atuem como enzimas, catalisando diversas reações químicas. [2] Em geral, as estruturas das proteínas são classificadas em quatro níveis: primário (sequências), secundário (conformação local da cadeia polipeptídica), terciária (estrutura tridimensional da dobra da proteína) e quaternário (associação de múltiplas estruturas polipeptídicas) . A bioinformática estrutural trata principalmente de interações entre estruturas levando em consideração suas coordenadas espaciais. Assim, a estrutura primária é melhor analisada nos ramos tradicionais da bioinformática. No entanto, a sequência implica em restrições que permitem a formação de conformações locais conservadas da cadeia polipeptídica, como alfa-hélice, folhas beta e loops (estrutura secundária [3]). Além disso, interações fracas (como ligações de hidrogênio) estabilizam a dobra da proteína. As interações podem ser intracadeia, isto é, quando ocorrem entre partes do mesmo monômero de proteína (estrutura terciária), ou intercadeia, isto é, quando ocorrem entre diferentes estruturas (estrutura quaternária).

Edição de visualização de estrutura

A visualização da estrutura da proteína é uma questão importante para a bioinformática estrutural. [4] Ele permite que os usuários observem representações estáticas ou dinâmicas das moléculas, permitindo também a detecção de interações que podem ser usadas para fazer inferências sobre os mecanismos moleculares. Os tipos mais comuns de visualização são:

  • Desenho animado: este tipo de visualização de proteínas destaca as diferenças de estrutura secundária. Em geral, a hélice α é representada como um tipo de parafuso, as fitas β como setas e os laços como linhas.
  • Linhas: cada resíduo de aminoácido é representado por linhas finas, o que permite um baixo custo para a renderização gráfica.
  • Superfície: nesta visualização, a forma externa da molécula é mostrada.
  • Gravetos: cada ligação covalente entre os átomos de aminoácidos é representada como um bastão. Esse tipo de visualização é mais usado para visualizar as interações entre os aminoácidos.

Estrutura do DNA Editar

A estrutura clássica dos duplexes de DNA foi inicialmente descrita por Watson e Crick (e contribuições de Rosalind Franklin). A molécula de DNA é composta de três substâncias: um grupo fosfato, uma pentose e uma base de nitrogênio (adenina, timina, citosina ou guanina). A estrutura da dupla hélice do DNA é estabilizada por ligações de hidrogênio formadas entre pares de bases: adenina com timina (A-T) e citosina com guanina (C-G). Muitos estudos de bioinformática estrutural têm se concentrado na compreensão das interações entre o DNA e pequenas moléculas, o que tem sido alvo de vários estudos de design de drogas.

Edição de interações

As interações são contatos estabelecidos entre partes de moléculas em diferentes níveis. Eles são responsáveis ​​por estabilizar as estruturas das proteínas e realizar uma variedade de atividades. Em bioquímica, as interações são caracterizadas pela proximidade de grupos de átomos ou regiões de moléculas que apresentam um efeito sobre o outro, como forças eletrostáticas, ligações de hidrogênio e efeito hidrofóbico. As proteínas podem realizar vários tipos de interações, como interações proteína-proteína (PPI), interações proteína-peptídeo [5] , interações proteína-ligante (PLI) [6] e interação proteína-DNA.

Calculando contatos Editar

Calcular contatos é uma tarefa importante em bioinformática estrutural, sendo importante para a previsão correta da estrutura e dobra de proteínas, estabilidade termodinâmica, interações proteína-proteína e proteína-ligante, análise de docking e dinâmica molecular, e assim por diante. [8]

Tradicionalmente, os métodos computacionais usam a distância limite entre os átomos (também chamada de corte) para detectar possíveis interações. [9] Esta detecção é realizada com base na distância euclidiana e ângulos entre átomos de determinados tipos. No entanto, a maioria dos métodos baseados em distância euclidiana simples não podem detectar contatos obstruídos. Conseqüentemente, métodos livres de corte, como a triangulação de Delaunay, ganharam destaque nos últimos anos. Além disso, a combinação de um conjunto de critérios, por exemplo, propriedades físico-químicas, distância, geometria e ângulos, tem sido usada para melhorar a determinação do contato. [8]

Critérios de distância para definição de contato [8]
Modelo Critérios de distância máxima
Ligação de hidrogênio 3,9 Å
Interação hidrofóbica 5 Å
Interação iônica 6 Å
Empilhamento Aromático 6 Å

O Protein Data Bank (PDB) é um banco de dados de dados de estrutura 3D para grandes moléculas biológicas, como proteínas, DNA e RNA. O PDB é administrado por uma organização internacional chamada Worldwide Protein Data Bank (wwPDB), que é composta por várias organizações locais, como. PDBe, PDBj, RCSB e BMRB. Eles são responsáveis ​​por manter cópias dos dados do PDB disponíveis na Internet gratuitamente. O número de dados de estrutura disponíveis no PDB tem aumentado a cada ano, sendo obtidos normalmente por cristalografia de raios X, espectroscopia de RMN ou microscopia crioeletrônica.

Editar formato de dados

O formato PDB (.pdb) é o formato de arquivo textual legado usado para armazenar informações de estruturas tridimensionais de macromoléculas usadas pelo Protein Data Bank. Devido a restrições na concepção da estrutura do formato, o formato PDB não permite grandes estruturas contendo mais de 62 cadeias ou 99999 registros de átomos. [10]

O PDBx / mmCIF (arquivo macromolecular de informações cristalográficas) é um formato de arquivo de texto padrão para representar informações cristalográficas. [11] Desde 2014, o formato PDB foi substituído como a distribuição de arquivo PDB padrão pelo formato de arquivo PDBx / mmCIF (.cif). Enquanto o formato PDB contém um conjunto de registros identificados por uma palavra-chave de até seis caracteres, o formato PDBx / mmCIF usa uma estrutura baseada em chave e valor, onde a chave é um nome que identifica algum recurso e o valor é a informação variável. [12]

Outros bancos de dados estruturais Editar

Além do Protein Data Bank (PDB), existem vários bancos de dados de estruturas de proteínas e outras macromoléculas. Exemplos incluem:

  • MMDB: Estruturas tridimensionais determinadas experimentalmente de biomoléculas derivadas do Protein Data Bank (PDB). [13]
  • Base de dados de ácido nucléico (NDB): Experimentally determined information about nucleic acids (DNA, RNA). [14]
  • Structural Classification of Proteins (SCOP): Comprehensive description of the structural and evolutionary relationships between structurally known proteins. [15]
  • TOPOFIT-DB: Protein structural alignments based on the TOPOFIT method. [16]
  • Electron Density Server (EDS): Electron-density maps and statistics about the fit of crystal structures and their maps. [17]
  • CASP: Prediction Center Community-wide, worldwide experiment for protein structure prediction CASP. [18]
  • PISCES server for creating non-redundant lists of proteins: Generates PDB list by sequence identity and structural quality criteria. [19]
  • The Structural Biology Knowledgebase: Tools to aid in protein research design. [20]
  • ProtCID: The Protein Common Interface Database Database of similar protein-protein interfaces in crystal structures of homologous proteins. [21]

Structural alignment Edit

Structural alignment is a method for comparison between 3D structures based on their shape and conformation. [22] It could be used to infer the evolutionary relationship among a set of proteins even with low sequence similarity. Structural alignment implies in superimpose a 3D structure under a second one, rotating and translating atoms in corresponding positions (in general, using the Cα atoms or even the backbone heavy atoms C, N, O, e Cα) Usually, the alignment quality is evaluated based on the root-mean-square deviation (RMSD) of atomic positions, ou seja,, the average distance between atoms after superimposition:

Onde δeu is the distance between atom eu and either a reference atom corresponding in the other structure or the mean coordinate of the N equivalent atoms. In general, the RMSD outcome is measured in Ångström (Å) unit, which is equivalent to 10 −10 m. The nearer to zero the RMSD value, the more similar are the structures.

Graph-based structural signatures Edit

Structural signatures, also called fingerprints, are macromolecule pattern representations that can be used to infer similarities and differences. Comparisons among a large set of proteins using RMSD still is a challenge due to the high computational cost of structural alignments. Structural signatures based on graph distance patterns among atom pairs have been used to determine protein identifying vectors and to detect non-trivial information. [23] Furthermore, algebra linear and machine learning can be used for clustering protein signatures, detecting protein-ligand interactions, predicting ΔΔG, and proposing mutations based on Euclidean distance. [24]

The atomic structures of molecules can be obtained by several methods, such as X-ray crystallography (XRC), NMR spectroscopy, and 3D electron microscopy however, these processes can present high costs and sometimes some structures can be hardly established, such as membrane proteins. Hence, it is necessary to computational approaches for determining 3D structures of macromolecules. The structure prediction methods are classified into comparative modeling and de novo modeling.

Comparative modeling Edit

Comparative modeling, also known as homology modeling, corresponds to the methodology to construct three-dimensional structures from an amino acid sequence of a target protein and a template with known structure. The literature has described that evolutionarily related proteins tend to present a conserved three-dimensional structure. [25] In addition, sequences of distantly related proteins with identity lower than 20% can present different folds. [26]

De novo modeling Edit

In structural bioinformatics, de novo modeling, also known as ab initio modeling, refers to approaches for obtaining three-dimensional structures from sequences without the necessity of a homologous known 3D structure. Despite the new algorithms and methods proposed in the last years, de novo protein structure prediction is still considered one of the remain outstanding issues in modern science. [27]

Structure validation Edit

After structure modeling, an additional step of structure validation is necessary since many of both comparative and 'de novo' modeling algorithms and tools use heuristics to try assembly the 3D structure, which can generate many errors. Some validation strategies consist of calculating energy scores and comparing them with experimentally determined structures. For example, the DOPE score is an energy score used by the MODELLER tool for determining the best model. [28]

Another validation strategy is calculating φ and ψ backbone dihedral angles of all residues and construct a Ramachandran plot. The side-chain of amino acids and the nature of interactions in the backbone restrict these two angles, and thus, the visualization of allowed conformations could be performed based on the Ramachandran plot. A high quantity of amino acids allocated in no permissive positions of the chart is an indication of a low-quality modeling.

Prediction tools Edit

Molecular docking (also referred only as docking) is a method used to predict the orientation coordinates of a molecule (ligand) when linked to another one (receptor or target). Molecular docking aims to predict possible poses (binding modes) of the ligand when it interacts with specific regions, generally restricted by a box, in the receptor. Docking tools can use force fields to estimate a score for ranking best poses that favored better interactions.

In general, docking protocols are used to predict the interactions between small molecules and proteins. However, docking also can be used to detect associations and binding modes among proteins, peptides, DNA or RNA molecules, carbohydrates, and other macromolecules.

Virtual screening Edit

Virtual screening (VS) is a computational approach used to fast screening of large compound libraries for drug discovery. Usually, virtual screening uses docking algorithms to rank small molecules with the highest affinity to a target receptor.

In recent times, several tools have been used to evaluate the use of virtual screening in the process of discovering new drugs. However, problems such as missing information, inaccurate understanding of drug-like molecules properties, weak scoring functions, or insufficient docking strategies hinder the docking process. Hence, the literature has described that it is still not considered a mature technology. [29] [30]

Molecular dynamics (MD) is a computational method for simulating interactions between molecules and their atoms during a given period of time. [32] This method allows the observation of the behavior of molecules and their interactions, considering the system as a whole. To calculate the behavior of the systems and, thus, determine the trajectories, an MD can use Newton's equation of motion, in addition to using molecular mechanics methods to estimate the forces that occur between particles (force fields). [33]

Informatics approaches used in structural bioinformatics are:

  • Selection of Target - Potential targets are identified by comparing them with databases of known structures and sequence. The importance of a target can be decided on the basis of published literature. Target can also be selected on the basis of its protein domain. Protein domain are building blocks that can be rearranged to form new proteins. They can be studied in isolation initially.
  • Tracking X-ray crystallography trials - X-Ray crystallography can be used to reveal three-dimensional structure of a protein. But, in order to use X-ray for studying protein crystals, pure proteins crystals must be formed, which can take a lot of trials. This leads to a need for tracking the conditions and results of trials. Furthermore, supervised machine learning algorithms can be used on the stored data to identify conditions that might increase the yield of pure crystals.
  • Analysis of X-Ray crystallographic data - The diffraction pattern obtained as a result of bombarding X-rays on electrons is Fourier transform of electron density distribution. There is a need for algorithms that can deconvolve Fourier transform with partial information ( due to missing phase information, as the detectors can only measure amplitude of diffracted X-rays, and not the phase shifts ). Extrapolation technique such as Multiwavelength anomalous dispersion can be used to generate electron density map, which uses the location of selenium atoms as a reference to determine rest of the structure. Standard Ball-and-stick model is generated from the electron density map.
  • Analysis of NMR spectroscopy data - Nuclear magnetic resonance spectroscopy experiments produce two (or higher) dimensional data, with each peak corresponding to a chemical group within the sample. Optimization methods are used to convert spectra into three dimensional structures.
  • Correlating Structural information with functional information - Structural studies can be used as probe for structural-functional relationship.

Tools Edit

List of structural bioinformatics tools
Programas Descrição
I-TASSER Predicting three-dimensional structure model of protein molecules from amino acid sequences.
MOE Molecular Operating Environment (MOE) is an extensive platform including structural modeling for proteins, protein families and antibodies [34]
SBL The Structural Bioinformatics Library: end-user applications and advanced algorithms
BALLView Molecular modeling and visualization [35]
STING Visualization and analysis
PyMOL Viewer and modeling [36]
VMD Viewer, molecular dynamics [37]
KiNG An open-source Java kinemage viewer
STRIDE Determination of secondary structure from coordinates [38]
MolProbity Structure-validation web server
PROCHECK A structure-validation web service
CheShift A protein structure-validation on-line application
3D-mol.js A molecular viewer for web applications developed using Javascript
PROPKA Rapid prediction of protein pKa values based on empirical structure/function relationships
CARA Computer Aided Resonance Assignment
Docking Server A molecular docking web server
StarBiochem A java protein viewer, features direct search of protein databank
SPADE The structural proteomics application development environment
PocketSuite A web portal for various web-servers for binding site-level analysis. PocketSuite is divided into:: PocketDepth (Binding site prediction)

PocketMatch (Binding site comparison), PocketAlign (Binding site alignment), and PocketAnnotate (Binding site annotation).


Assista o vídeo: Naprawianie błędów 0xc000007b, vcruntime..dlll, MSVCP.. dll itp. w Windows 7810originepicgames (Janeiro 2022).