¿Cuál es el tipo de datos de la muestra de ADN?

¿Cuál es el tipo de datos que obtienes al analizar el ADN de una persona? Si desea almacenarlos en una base de datos, ¿qué tipo de campo necesitará (texto, número, hexadecimal)? ¿Y cuál debería ser su longitud?

Respuestas (3)

Suponiendo que está viendo los datos utilizados para describir las diferencias de un nuevo individuo, a diferencia de una construcción del genoma de referencia humana:

Un archivo fastq es el formato típico de datos de un secuenciador.

Requeriría un campo de texto de algún tipo, ya que pueden ser bastante grandes, incluso para lecturas individuales. Si tenía en mente un secuenciador específico con una lectura muy corta, podría usar un campo de longitud fija para la columna de datos, pero probablemente no valga la pena.

Una vez que se procesan los datos, los datos generalmente se intercambian en forma de archivos de formato de llamada variante (un archivo vcf ) que solo documenta las diferencias frente a una construcción de genoma de referencia. Esto encaja muy bien en una tabla SQL con columnas relativamente pequeñas.

Será una simple cadena de texto. Sin embargo, la longitud es completamente arbitraria y dependerá de la fuente de los datos de la secuencia. Cualquier valor entre 1 y varios miles de millones puede ser una longitud de secuencia válida.

Podríamos ayudar más si explicara de dónde provienen los datos.

Siendo realistas, no vas a almacenar el genoma como una larga cadena de texto. Dependiendo de cómo realice la secuenciación, probablemente no podrá resolver las regiones repetitivas de todos modos.

Lo que es mucho más realista es que almacenará todas las diferencias de las que esté seguro entre la muestra y una secuencia de referencia.

Si usa algún tipo de chip de genotipado, almacenaría los genotipos en cada locus.