¿Cuál es el tipo de datos de la muestra de ADN?

Question

¿Cuál es el tipo de datos de la muestra de ADN?

adn
Biología
genomas
bioinformática
secuencia ADN

Abhinandan NM

¿Cuál es el tipo de datos que obtienes al analizar el ADN de una persona? Si desea almacenarlos en una base de datos, ¿qué tipo de campo necesitará (texto, número, hexadecimal)? ¿Y cuál debería ser su longitud?

Respuestas (3)

¿Cuál es el tipo de datos de la muestra de ADN?

¿Por qué necesitamos una secuenciación profunda?
dónde encontrar la distribución de frecuencia relativa de codones sinónimos
¿Por qué dos genomas de referencia de E. coli diferentes tienen longitudes diferentes?
¿Herramienta para la alineación de nucleótidos con todos los códigos de nucleótidos (por ejemplo, R, Y, W, S, etc.)?
¿Cuál es la diferencia entre secuencia, lecturas y contigs de material genético?
¿Cuál es la especificidad de hebra de un genoma de referencia?
¿Por qué el alto contenido de A+T creó problemas para el proyecto del genoma de Plasmodium falciparum?
¿Qué tan fácil es llevar a cabo el ensamblaje de secuencias de novo?
En porcentaje, ¿cuánto se parece el genoma humano (ADN) al genoma del ratón?
Estos datos de secuencia (ADN) tienen muy pocos comienzos de metionina. ¿Cómo es eso posible?

shigeta · Answer 1

Suponiendo que está viendo los datos utilizados para describir las diferencias de un nuevo individuo, a diferencia de una construcción del genoma de referencia humana:

Un archivo fastq es el formato típico de datos de un secuenciador.

Requeriría un campo de texto de algún tipo, ya que pueden ser bastante grandes, incluso para lecturas individuales. Si tenía en mente un secuenciador específico con una lectura muy corta, podría usar un campo de longitud fija para la columna de datos, pero probablemente no valga la pena.

Una vez que se procesan los datos, los datos generalmente se intercambian en forma de archivos de formato de llamada variante (un archivo vcf ) que solo documenta las diferencias frente a una construcción de genoma de referencia. Esto encaja muy bien en una tabla SQL con columnas relativamente pequeñas.

terdón · Answer 2

Será una simple cadena de texto. Sin embargo, la longitud es completamente arbitraria y dependerá de la fuente de los datos de la secuencia. Cualquier valor entre 1 y varios miles de millones puede ser una longitud de secuencia válida.

Podríamos ayudar más si explicara de dónde provienen los datos.

swbarnes2 · Answer 3

Siendo realistas, no vas a almacenar el genoma como una larga cadena de texto. Dependiendo de cómo realice la secuenciación, probablemente no podrá resolver las regiones repetitivas de todos modos.

Lo que es mucho más realista es que almacenará todas las diferencias de las que esté seguro entre la muestra y una secuencia de referencia.

Si usa algún tipo de chip de genotipado, almacenaría los genotipos en cada locus.

¿Cuál es el tipo de datos de la muestra de ADN?

Abhinandan NM

Respuestas (3)

shigeta

terdón

swbarnes2