¿Cómo crear una colección de secuencias anónimas para enseñar y evaluar? [cerrado]

Estoy buscando una gran colección (> 1000) de archivos de secuencia (por ejemplo, FASTA) de cualquier organismo real o una herramienta para crear dicha colección.

Los archivos de secuencia se utilizarían para enseñar y probar métodos de automatización.

A los estudiantes se les asignaría un archivo de secuencia único y se les pediría que lo miraran (por ejemplo, usando gORF) y que lo identificaran (usando BLASTn).

Por lo tanto, el archivo de secuencia necesitaría contener solo los datos de secuencia (sin metadatos sobre especies o genes).

Necesitaría una hoja de respuestas asociada.

Creo que necesita elaborar más sobre lo que está tratando de lograr. Además, puede obtener más ayuda en biostar

Respuestas (3)

Hay un par de palabras clave en esta pregunta: anónimo y enseñanza. Sí, NCBI es una fuente de datos de secuencia, pero no es anónimo (está anotado, lo que significa que un estudiante también podría encontrarlo y copiar/pegar esa anotación sin realizar el análisis real). Tenga en cuenta que no asumo que la solicitud es para datos humanos. Ahora, si se necesitan datos humanos anónimos, la mayoría de los datos de secuencias disponibles son anónimos, pero queda el problema de la anotación: si ya está anotado, ¿qué aprenderán?

Una buena fuente alternativa para algunos datos del genoma humano sería Complete Genomics. Han publicado datos anónimos (desidentificados) de al menos 69 sujetos. La pregunta se refiere a 1000 secuencias, pero ¿qué tan grandes? Esta es una consideración importante. Otros detalles también faltan en la pregunta.

Otra fuente pueden ser los datos de 1000 Genomas, también humanos. Si le interesan las plantas, existen datos de secuencias de aproximadamente 98 accesiones/cultivares/cepas diferentes de Arabidopsis thaliana.

Aquí está el enfoque que terminé usando, en parte gracias a todas las contribuciones aquí.

El script R asociado se encuentra a continuación o se puede descargar desde:

RECUPERACIÓN DE LA SECUENCIA EN NEGRITA

Esto crea 999 archivos de secuencia únicos en texto sin formato, cada secuencia se identifica a nivel de especie y se encuentran pocas especies en más de una secuencia.

También crea la clave de respuesta correspondiente.

Puede comenzar en una ubicación aleatoria para que los archivos cambien cada año/grupo.

Usé R para consultar la base de datos BOLDS (Código de barras de la vida), descargar un archivo y dividir este enorme archivo en secuencias separadas.

Aquí está el guión R

rm(list=ls())

complete<-"http://services.boldsystems.org/eFetch.php?record_type=full&id_type=sampleid&ids=(*)&return_type=text"
write(complete, file="your location on disk")

rm(list=ls())

sequences.id<-data.frame("file.name", "recordID", "genus_name", "species_name")
write.table(x=sequences.id, file="sequences_id.csv", append=F, sep = ",", row.names=F, col.names=F)



set.seed(10)
start<-sample(1:1000, size=1)

i<-start
k<-1

while(k < 1000){

  sequences<-read.delim(file=complete, skip=i, nrows=1, header=F)
  sequence.compare<-read.csv(file="sequences_id.csv", skip=k-1, nrows=1, header=F)

  if(! is.na(sequences$V24)){
    if(as.character(sequences$V24)!=as.character(sequence.compare$V4)){
      writeLines(text=as.character(sequences$V55), con=paste(k, ".txt", sep=""))
      sequences.id<-c(k, sequences[,c("V3","V22", "V24")])
      write.table(x=sequences.id, file="sequences_id.csv", append=T, sep = ",", row.names=F, col.names=F)
      print("kept")
      k<-k+1
    }
  }
  i<-i+1
  print(paste(k,"/", i))
}

Probablemente esta no sea la forma más elegante, pero puede ir al NCBI y buscar secuencias de nucleótidos de un organismo determinado (p. ej., txid9606[Organism:exp] da todas las secuencias de Homo sapiens). Luego, puede usar el menú desplegable Enviar a para descargar todos los resultados como un archivo FASTA compilado.

NCBI también ofrece algunas API , lo que haría que el proceso fuera más limpio y permitiría un mejor filtrado.