Estoy ayudando a un colega a configurar un servidor masivo local. Mi formación es informática, así que pido disculpas si uso una terminología incorrecta.
Usando la página web NCBI blastn, una de las bases de datos enumeradas es "NCBI Genomes (cromosoma)". No puedo encontrar esta base de datos en la página de descarga de la base de datos ( ftp://ftp.ncbi.nlm.nih.gov/blast/db/ ).
¿Cuál es el nombre de esta base de datos que aparece en el sitio ftp?
Con los archivos binarios de blast obtienes un script de perl update_blastdb.pl
que puedes usar para descargar bases de datos preformateadas del ncbi (de todos modos, es más o menos un script que obtiene los datos de la ubicación que encontraste). Con update_blastdb.pl --showall
enumerará todas las bases de datos de explosión disponibles y probablemente refseq_genomic sea lo que necesita, a menos que su consulta sea solo de datos humanos.
Sin embargo, eso se basa en la suposición de que los datos de su consulta son datos de nucleótidos; es posible que deba elegir diferentes bases de datos y herramientas para proteínas.
A diferencia de las afirmaciones de Maxim Kuleshov, los prefijos de acceso NC y NT no diferencian entre organismos, sino el estado de ensamblaje del genoma, como se indica en la documentación vinculada y las notas de publicación refseq, sección 3.8
human_genomic.*tar.gz
es Human RefSeq (NC_######) registros cromosómicos con contigs NT_ concatenados ajustados por brecha y other_genomic.*tar.gz
para organismos no humanos ( más información sobre los números de acceso de RefSeq como NC_ y NT_). Puede encontrar más información en el archivo Léame .
Jaime
arhelio