¿Dónde puedo encontrar una lista completa de ejemplos de tipos de datos en biología? [cerrado]

No tengo experiencia en biología y me gustaría crear una colección de tipos de datos en biología. Empecé a buscar y leer sobre eso y encontré que hay 7 tipos de datos:

1-Secuencias: ADN, ARN, proteína 2-Estructuras de moléculas biológicas 3-Perfiles de expresión génica 4-Vías bioquímicas 5-Mapeo cromosómico 6-Fuente de datos filogenéticos 7-Polimorfismos de nucleótido único (SNP)

y busco un esquema que defina estos tipos y encontre la ontología EDAM http://edamontology.org/pag pero no me sirve. ¿Tiene alguna idea de dónde puedo encontrar una lista completa de ejemplos de los tipos de datos mencionados? o al menos para uno de esos tipos de datos? Cualquier referencia me ayudará.

Gracias

¿Cómo estás definiendo "tipos de datos"?
A partir de sus ejemplos, parece que está interesado en los datos de biología molecular , no en la biología en su conjunto. Debe ser más específico, y "tipos de datos en biología" es demasiado amplio.
Edite su pregunta y aclare lo que quiere decir. Un "tipo de datos" en biología podría ser cualquier cosa, desde un archivo de texto ASCII, pasando por una muestra de sangre o tejido, hasta un escarabajo.

Respuestas (1)

También estoy un poco confundido acerca de qué quiere decir exactamente con "tipo de datos". Por lo que sé, en la programación, el "tipo de datos" es algo que usa para obstruir 0 y 1, por ejemplo, cadena, int y matriz es la forma en que haría referencia a sus propios datos y algo que el intérprete/compilador de lenguaje puede entender y asignar la memoria correcta para . Mientras que el tipo de datos que puede obtener en biología (bioinformática), creo que es lo que está preguntando. El tipo de datos que obtiene es un archivo de texto plano, es decir, ASCII o binario, y existen pocos formatos binarios diferentes en bioinformática.

En genómica, que es el tipo de datos de ADN/ARN, se trata principalmente de archivos ASCII. Estos son los archivos que conozco:

  • FASTQmantener crudo - datos secuenciados. Los dos tipos principales de secuenciación que puede realizar son la secuenciación de ADN (DNA-seq) y la secuenciación de ARN (RNA-seq). Por lo general, FASTQlos archivos siempre gzipse editan y la extensión del archivo es fq.gzo fastq.gzescribí este tutorial explicandoFASTQ
  • FASTApuede contener diferentes tipos de datos de secuencia, que es diferente a la secuencia sin formato contenida en FASTQ. De hecho, puede convertir FASTQa FASTA, pero perdería información de calidad. Las dos amplias clases de secuencias que puede tener en FASTAel archivo son la secuencia de nucleótidos, es decir, la secuencia de ADN/ARN, o la secuencia de aminoácidos, es decir, la secuencia de proteínas/péptidos. FASTATambién es casi siempre gziped, la extensión del archivo varía un poco, lo más común una vez son fa.gzo fasta.gz, pero verás fna.gzo fnao faaque trata de indicar FASTAcon nucleótidos o aminoácidos. FASTAgeneralmente se usa para archivos de referencia, por ejemplo, genoma de referencia. Aquí hay un enlace al repositorio de Ensembl para el genoma del ratón.
  • GFFy GTFarchivos estos son archivos de anotación, usados ​​junto con FASTAarchivos de genoma de referencia. Aquí hay otro de mis tutoriales.
  • SAMy BAMbien, aquí hay un ejemplo de tipo de datos binarios. M apa de alineamiento de secuencias , la extensión del archivo depende del organismo, puede ser muy grande. Para los datos de RNAseq del mouse, por ejemplo, el archivo SAM puede tener entre 1 Gb y 40 Gb, tiene sentido comprimirlo. es binario necesita samtools para trabajar con archivos. Aquí está el analizador BAM de Python puro si está interesado..samBAMSAMBAM

Esto debería cubrir los primeros dos de sus puntos. Aunque la proteómica tiene pocos tipos más de datos, de nuevo principalmente texto. La espectroscopia de masas es la herramienta que la gente de proteómica usa para obtener "datos sin procesar" y hay algunos formatos de archivo pequeños que no conozco y habrá algunos formatos de archivo posteriores, estoy seguro. En cuanto a la expresión génica, se trata principalmente de datos tabulares, csv o tsv de nuevo archivo de texto plano. Otro formato que debo mencionar que cubre su punto 7 es VCFel que está variant calling format aquí son las especificaciones para el formato de texto plano de nuevo.

Una cosa que debo decir; es algo común y preferido, al menos en el pasado, poder analizar archivos biológicos con herramientas de Unix como grep, awky cut, por lo tanto, la mayoría de los archivos son archivos de texto separados por tabulaciones. formatos de datos comprimidos.

Esta no es una lista exhaustiva de formatos de archivo de ninguna manera, pero creo que debería darle suficiente para buscar en Google.

Un último enlace a la vía de Kegg , que son sus vías bioquímicas, podrían explicar allí el tipo de datos que utilizan.