No tengo experiencia en biología y me gustaría crear una colección de tipos de datos en biología. Empecé a buscar y leer sobre eso y encontré que hay 7 tipos de datos:
1-Secuencias: ADN, ARN, proteína 2-Estructuras de moléculas biológicas 3-Perfiles de expresión génica 4-Vías bioquímicas 5-Mapeo cromosómico 6-Fuente de datos filogenéticos 7-Polimorfismos de nucleótido único (SNP)
y busco un esquema que defina estos tipos y encontre la ontología EDAM http://edamontology.org/pag pero no me sirve. ¿Tiene alguna idea de dónde puedo encontrar una lista completa de ejemplos de los tipos de datos mencionados? o al menos para uno de esos tipos de datos? Cualquier referencia me ayudará.
Gracias
También estoy un poco confundido acerca de qué quiere decir exactamente con "tipo de datos". Por lo que sé, en la programación, el "tipo de datos" es algo que usa para obstruir 0 y 1, por ejemplo, cadena, int y matriz es la forma en que haría referencia a sus propios datos y algo que el intérprete/compilador de lenguaje puede entender y asignar la memoria correcta para . Mientras que el tipo de datos que puede obtener en biología (bioinformática), creo que es lo que está preguntando. El tipo de datos que obtiene es un archivo de texto plano, es decir, ASCII o binario, y existen pocos formatos binarios diferentes en bioinformática.
En genómica, que es el tipo de datos de ADN/ARN, se trata principalmente de archivos ASCII. Estos son los archivos que conozco:
FASTQ
mantener crudo - datos secuenciados. Los dos tipos principales de secuenciación que puede realizar son la secuenciación de ADN (DNA-seq) y la secuenciación de ARN (RNA-seq). Por lo general, FASTQ
los archivos siempre gzip
se editan y la extensión del archivo es fq.gz
o fastq.gz
escribí este tutorial explicandoFASTQ
FASTA
puede contener diferentes tipos de datos de secuencia, que es diferente a la secuencia sin formato contenida en FASTQ
. De hecho, puede convertir FASTQ
a FASTA
, pero perdería información de calidad. Las dos amplias clases de secuencias que puede tener en FASTA
el archivo son la secuencia de nucleótidos, es decir, la secuencia de ADN/ARN, o la secuencia de aminoácidos, es decir, la secuencia de proteínas/péptidos. FASTA
También es casi siempre gzip
ed, la extensión del archivo varía un poco, lo más común una vez son fa.gz
o fasta.gz
, pero verás fna.gz
o fna
o faa
que trata de indicar FASTA
con nucleótidos o aminoácidos. FASTA
generalmente se usa para archivos de referencia, por ejemplo, genoma de referencia. Aquí hay un enlace al repositorio de Ensembl para el genoma del ratón.GFF
y GTF
archivos estos son archivos de anotación, usados junto con FASTA
archivos de genoma de referencia. Aquí hay otro de mis tutoriales.SAM
y BAM
bien, aquí hay un ejemplo de tipo de datos binarios. M apa de alineamiento de secuencias , la extensión del archivo depende del organismo, puede ser muy grande. Para los datos de RNAseq del mouse, por ejemplo, el archivo SAM puede tener entre 1 Gb y 40 Gb, tiene sentido comprimirlo. es binario necesita samtools para trabajar con archivos. Aquí está el analizador BAM de Python puro si está interesado..sam
BAM
SAM
BAM
Esto debería cubrir los primeros dos de sus puntos. Aunque la proteómica tiene pocos tipos más de datos, de nuevo principalmente texto. La espectroscopia de masas es la herramienta que la gente de proteómica usa para obtener "datos sin procesar" y hay algunos formatos de archivo pequeños que no conozco y habrá algunos formatos de archivo posteriores, estoy seguro. En cuanto a la expresión génica, se trata principalmente de datos tabulares, csv o tsv de nuevo archivo de texto plano. Otro formato que debo mencionar que cubre su punto 7 es VCF
el que está variant calling format
aquí son las especificaciones para el formato de texto plano de nuevo.
Una cosa que debo decir; es algo común y preferido, al menos en el pasado, poder analizar archivos biológicos con herramientas de Unix como grep
, awk
y cut
, por lo tanto, la mayoría de los archivos son archivos de texto separados por tabulaciones. formatos de datos comprimidos.
Esta no es una lista exhaustiva de formatos de archivo de ninguna manera, pero creo que debería darle suficiente para buscar en Google.
Un último enlace a la vía de Kegg , que son sus vías bioquímicas, podrían explicar allí el tipo de datos que utilizan.
Jaime
archivobajo el agua
terdón