Análisis sobre datos de un solo cromosoma

No tengo experiencia en biología, soy científico de datos y me gustaría saber si tiene sentido, desde el punto de vista biológico, analizar datos (datos SNP) provenientes de un solo cromosoma, y ​​no de los 22 cromosomas. , para predecir el riesgo de una determinada enfermedad.

¿Debo utilizar obligatoriamente datos de todos los cromosomas? ¿Por qué?

Muchas gracias. Y lo siento si es una pregunta muy básica, pero realmente me gustaría entender esto.

Respuestas (2)

Puede analizar un solo cromosoma. Todas las herramientas bioinformáticas que conozco permiten eso. Considere solo las lecturas que se asignan al cromosoma deseado (o cualquier segmento del genoma). Sin embargo, la mayoría de los experimentos de secuenciación de próxima generación secuencian el genoma completo y no solo un cromosoma. Simplemente terminará perdiendo información al no considerar otros cromosomas.

Entendido. Entonces estás diciendo que finalmente depende del objetivo final del análisis, ¿verdad? En mi caso, quiero analizar los datos (conjunto de datos 1: personas con cáncer de pulmón y conjunto de datos 2: personas con diabetes tipo 2) para crear un modelo de predicción final. Además, la idea es realizar una selección de características y detectar SNP relevantes/significativos para luego identificar genes relacionados y ver si están relacionados con la enfermedad o no. Entonces, la pregunta final sería, para enfermedades complejas como el cáncer de pulmón y la diabetes tipo 2, ¿debería analizar los datos de todos los cromosomas o solo algunos?
Si bien las herramientas permiten el análisis individual de un solo cromosoma, ¿es biológicamente correcto? ¿Tiene sentido desde un punto de vista biológico? ¿Depende de la enfermedad que se esté analizando? Lo pregunto porque los biólogos me han dicho que las conclusiones del análisis que estoy haciendo, solo pueden provenir del análisis de datos de todos los cromosomas, pero me gustaría saber la justificación biológica de esto. Espero haberme aclarado. ¡Gracias!
@mgvaldes, no sería una buena idea restringirse a un cromosoma a menos que tenga una buena razón para hacerlo (por ejemplo, genes ligados a X). La justificación biológica de esto es que los rasgos complejos dependen de muchos genes que se encuentran dispersos en diferentes cromosomas.
Perfecto. De eso quería estar seguro, ya que no soy un experto en biología. ¡Muchas gracias!

Además de la respuesta de @WYSIWYG, suponga que desea analizar la producción de cierta proteína A producida por el gen A en algún cromosoma A. Sus datos serán, por ejemplo, los valores de luminosidad/fluorescencia que surgen al etiquetar esta proteína específica. Pero para predecir este efecto de producción (en qué período estos valores podrían ser más altos, como en un modelo de predicción), el gen/factor que podría estar activando el gen A podría estar en algún otro cromosoma B. Hasta que sepa la actividad de eso, no podrá predecir con precisión la producción de esto.

En un modelo de Regresión/Árbol , su X s será categórico/continuo mostrando la actividad de los genes efectivos (B) mientras que la actividad del gen A depende Y .

Espero que esto ayude.

Estoy aplicando concretamente técnicas de aprendizaje ML a datos SNP de los 22 cromosomas de dos tipos separados de personas (conjunto de datos 1: cáncer de pulmón, conjunto de datos 2: diabetes tipo 2). La idea final es crear un modelo predictivo para cada caso de uso y basarse en técnicas de selección de características para identificar SNP relevantes relacionados con la enfermedad. Lea los otros comentarios que le he dado a la respuesta de @WYSIWYG.