bioinformatics Extrait GI et taxid de blastdb


Exemple

Les données peuvent être extraites d'un blastdb en utilisant blastdbcmd qui devrait être inclus dans une installation blast. Vous pouvez spécifier parmi les options ci-dessous, dans le cadre de -outfmt quelles métadonnées inclure et dans quel ordre.

De la page de manuel:

 -outfmt <String>
   Output format, where the available format specifiers are:
       %f means sequence in FASTA format
       %s means sequence data (without defline)
       %a means accession
       %g means gi
       %o means ordinal id (OID)
       %i means sequence id
       %t means sequence title
       %l means sequence length
       %h means sequence hash value
       %T means taxid
       %X means leaf-node taxids
       %e means membership integer
       %L means common taxonomic name
       %C means common taxonomic names for leaf-node taxids
       %S means scientific name
       %N means scientific names for leaf-node taxids
       %B means BLAST name
       %K means taxonomic super kingdom
       %P means PIG

L'exemple d'extrait montre comment gi et taxid peuvent être extraits de blastdb. Le blastdb NCBI 16SMicrobial (ftp) a été choisi pour cet exemple:

# Example:
# blastdbcmd -db <db label> -entry all -outfmt "%g %T" -out <outfile>
blastdbcmd -db 16SMicrobial -entry all -outfmt "%g %T" -out 16SMicrobial.gi_taxid.tsv

Qui produira un fichier 16SMicrobial.gi_taxid.tsv qui ressemble à ceci:

939733319 526714
636559958 429001
645319546 629680