Análisis sobre datos de un solo cromosoma

Question

Análisis sobre datos de un solo cromosoma

snp
Biología
bioinformática

mgvaldes

No tengo experiencia en biología, soy científico de datos y me gustaría saber si tiene sentido, desde el punto de vista biológico, analizar datos (datos SNP) provenientes de un solo cromosoma, y no de los 22 cromosomas. , para predecir el riesgo de una determinada enfermedad.

¿Debo utilizar obligatoriamente datos de todos los cromosomas? ¿Por qué?

Muchas gracias. Y lo siento si es una pregunta muy básica, pero realmente me gustaría entender esto.

Respuestas (2)

Análisis sobre datos de un solo cromosoma

WYSIWYG · Answer 1

WYSIWYG

Puede analizar un solo cromosoma. Todas las herramientas bioinformáticas que conozco permiten eso. Considere solo las lecturas que se asignan al cromosoma deseado (o cualquier segmento del genoma). Sin embargo, la mayoría de los experimentos de secuenciación de próxima generación secuencian el genoma completo y no solo un cromosoma. Simplemente terminará perdiendo información al no considerar otros cromosomas.

mgvaldes

Entendido. Entonces estás diciendo que finalmente depende del objetivo final del análisis, ¿verdad? En mi caso, quiero analizar los datos (conjunto de datos 1: personas con cáncer de pulmón y conjunto de datos 2: personas con diabetes tipo 2) para crear un modelo de predicción final. Además, la idea es realizar una selección de características y detectar SNP relevantes/significativos para luego identificar genes relacionados y ver si están relacionados con la enfermedad o no. Entonces, la pregunta final sería, para enfermedades complejas como el cáncer de pulmón y la diabetes tipo 2, ¿debería analizar los datos de todos los cromosomas o solo algunos?

mgvaldes

Si bien las herramientas permiten el análisis individual de un solo cromosoma, ¿es biológicamente correcto? ¿Tiene sentido desde un punto de vista biológico? ¿Depende de la enfermedad que se esté analizando? Lo pregunto porque los biólogos me han dicho que las conclusiones del análisis que estoy haciendo, solo pueden provenir del análisis de datos de todos los cromosomas, pero me gustaría saber la justificación biológica de esto. Espero haberme aclarado. ¡Gracias!

WYSIWYG

@mgvaldes, no sería una buena idea restringirse a un cromosoma a menos que tenga una buena razón para hacerlo (por ejemplo, genes ligados a X). La justificación biológica de esto es que los rasgos complejos dependen de muchos genes que se encuentran dispersos en diferentes cromosomas.

mgvaldes

Perfecto. De eso quería estar seguro, ya que no soy un experto en biología. ¡Muchas gracias!

Kiritee Gak · Answer 2

Además de la respuesta de @WYSIWYG, suponga que desea analizar la producción de cierta proteína A producida por el gen A en algún cromosoma A. Sus datos serán, por ejemplo, los valores de luminosidad/fluorescencia que surgen al etiquetar esta proteína específica. Pero para predecir este efecto de producción (en qué período estos valores podrían ser más altos, como en un modelo de predicción), el gen/factor que podría estar activando el gen A podría estar en algún otro cromosoma B. Hasta que sepa la actividad de eso, no podrá predecir con precisión la producción de esto.

En un modelo de Regresión/Árbol , su $X's$ será categórico/continuo mostrando la actividad de los genes efectivos (B) mientras que la actividad del gen A depende $Y$ .

Espero que esto ayude.

Estoy aplicando concretamente técnicas de aprendizaje ML a datos SNP de los 22 cromosomas de dos tipos separados de personas (conjunto de datos 1: cáncer de pulmón, conjunto de datos 2: diabetes tipo 2). La idea final es crear un modelo predictivo para cada caso de uso y basarse en técnicas de selección de características para identificar SNP relevantes relacionados con la enfermedad. Lea los otros comentarios que le he dado a la respuesta de @WYSIWYG.

Análisis sobre datos de un solo cromosoma

mgvaldes

Respuestas (2)

WYSIWYG

mgvaldes

mgvaldes

WYSIWYG

mgvaldes

Kiritee Gak

mgvaldes

Tratando de comprender el panorama general detrás de la secuenciación, alineación y búsqueda de ADN

Parámetros del análisis de llamadas de variantes [cerrado]

Acerca del sitio FTP del NCBI

Secuenciación del genoma completo frente a secuenciación del exoma completo

identificar qué SNP se encuentran en TFBS (levadura)

Mapeo de una mutación a SNP conocido, 3 'UTR, miR

Formato de archivo GEN, SNP y alelos

¿Por qué solo SNV heterogéneos para la validación utilizando matrices de genotipado?

Polimorfismos de un solo nucleótido y enfermedades

¿Por qué realizar la imputación?