Explosión de bases de datos

Estoy ayudando a un colega a configurar un servidor masivo local. Mi formación es informática, así que pido disculpas si uso una terminología incorrecta.

Usando la página web NCBI blastn, una de las bases de datos enumeradas es "NCBI Genomes (cromosoma)". No puedo encontrar esta base de datos en la página de descarga de la base de datos ( ftp://ftp.ncbi.nlm.nih.gov/blast/db/ ).

¿Cuál es el nombre de esta base de datos que aparece en el sitio ftp?

¿Ha intentado ponerse en contacto con la ayuda de NCBI?
Además de NCBI, también puede usar genomas de UCSC y Ensembl.

Respuestas (2)

Con los archivos binarios de blast obtienes un script de perl update_blastdb.plque puedes usar para descargar bases de datos preformateadas del ncbi (de todos modos, es más o menos un script que obtiene los datos de la ubicación que encontraste). Con update_blastdb.pl --showallenumerará todas las bases de datos de explosión disponibles y probablemente refseq_genomic sea lo que necesita, a menos que su consulta sea solo de datos humanos.

Sin embargo, eso se basa en la suposición de que los datos de su consulta son datos de nucleótidos; es posible que deba elegir diferentes bases de datos y herramientas para proteínas.

A diferencia de las afirmaciones de Maxim Kuleshov, los prefijos de acceso NC y NT no diferencian entre organismos, sino el estado de ensamblaje del genoma, como se indica en la documentación vinculada y las notas de publicación refseq, sección 3.8

human_genomic.*tar.gzes Human RefSeq (NC_######) registros cromosómicos con contigs NT_ concatenados ajustados por brecha y other_genomic.*tar.gzpara organismos no humanos ( más información sobre los números de acceso de RefSeq como NC_ y NT_). Puede encontrar más información en el archivo Léame .