¿Por qué deberíamos usar el conjunto de datos NA12878 para la evaluación comparativa?

Según tengo entendido, la muestra del genoma humano llamada NA12878 proporciona variantes de alta confianza para una muestra humana. Se está utilizando como punto de referencia para muchos proyectos de investigación genómica.

P: ¿ Por qué exactamente el NA12878 es un conjunto de datos de referencia tan popular? ¿Solo porque tenemos un conjunto de variantes de alta confianza? Pero también podemos obtener algunas variantes de alta confianza del proyecto 1000 Genome. ¿Tiene eso algo que ver con la tecnología de secuenciación? ¿Algo que ver con la muestra en sí? ¿Por qué queremos comparar nuestros experimentos con NA12878?

Sería una buena idea explicar las abreviaturas que usa, para que otras personas también puedan entenderlas.
@ Chris NA12878 es el nombre. No es abreviatura de nada.
Aún así, su respuesta podría cerrarse como poco clara.
@Chris Sé que eres mod, pero no estoy de acuerdo. NA12878 es una muestra humana muy conocida , cubierta en muchos artículos de alta calidad. Mi pregunta es por qué es un buen conjunto de datos de evaluación comparativa.
Primero: esto no tiene nada que ver con que yo sea un moderador. Entonces: es bien conocido por la gente del campo, pero se espera que las preguntas/respuestas aquí se mantengan por sí mismas sin leer más literatura.
@Chris Sigo en desacuerdo. Esto es como explicar el ADN para cualquier pregunta relacionada con la genética. Se asume y se requiere conocimiento previo para la mayoría de las preguntas en este sitio. De todos modos, di una breve introducción sobre lo que es NA12878 en mi primera oración. El título y la pregunta podrían ser un recurso potencialmente útil para cualquier persona que busque en Google NA128278.
No, no lo es. Trabajo con NA12878 todos los días, por lo que lo reconozco, pero eso no significa que todos los que puedan responder a su pregunta conozcan el código a la vista. He estado trabajando en genómica durante casi 10 años, pero no sabía qué era NA12878 hasta el año pasado, cuando comencé a hacer llamadas de variantes. Más concretamente, si otro usuario, y mucho menos un mod, sugiere que su pregunta podría ser más clara, ¿por qué no aclara en lugar de discutir? Obviamente te parece claro , pero igualmente obvio, no lo es para todos.
@terdon Chris es un mod, podría haber cerrado la pregunta si realmente creyera que era inapropiado. Además, un usuario que no conozca el NA12878 no podrá beneficiarse de él. La pregunta beneficiará a los usuarios de NA12878, y sabemos que hay muchos. Presenté NA12878 en la primera oración. Pregunto porque no entiendo muy bien NA12878. No puedo resumir algo que realmente no sé. ¿Qué más quieres?
No se trata de cerrar, se trata de hacer más comprensible la pregunta. Y nadie dijo que fuera inapropiado. Lo único inapropiado aquí es su reacción a una sugerencia útil que le dice cómo mejorar su pregunta y aumentar sus posibilidades de obtener una respuesta. Lo tomaste como una crítica y comenzaste a discutir cuando todo lo que tenías que hacer era proporcionar un enlace como acabo de hacer. De esa manera, las personas pueden hacer clic en él y ver que se está refiriendo a una muestra de secuenciación de ADN y pueden buscar información al respecto.
@StudentT No se trata de cerrar, esto es algo que habría hecho si creo que es necesaria una intervención mod. Se trata de mejorar la pregunta y la comprensibilidad, nada más.
@StudentT saltando aquí: no deberías comenzar a despotricar, pero alégrate de que la gente intente ayudar. También entiendo que una pequeña introducción siempre es agradable. Este sitio no es solo acerca de usted, usted sabe. Las mejores preguntas son relevantes e interesantes para la comunidad en general. Una breve oración introductoria sobre NA12878 (qué es, por qué lo usa) puede proporcionar información útil para que otros puedan aprender de la pregunta.
Esto podría ser útil: NA12878 es parte del conjunto de datos Illumina Platinum Genomes. illumina.com/platinumgenomes.html
@Chris, NA12878 es un genoma de referencia 'conocido' en el mundo de la genómica variante/estructural. La pregunta realmente es qué se eligió este estándar en particular sobre cualquier otro y si es válido. Aunque el nombre es el nombre.
@Artem Genial. Entonces, ¿por qué es tan complicado agregar esta información a la pregunta?

Respuestas (1)

Entonces, para aclarar a las personas que no están familiarizadas con NA12878, esa es la identificación de muestra para una mujer de Utah en particular. Sus padres son NA12891 y NA12892. En los conjuntos de datos de variación humana, eso es lo que se nos da para identificar individuos, una identificación, sexo y población. Todos los demás datos se eliminan para proteger la privacidad del paciente. Entonces, la pregunta es por qué se eligió a NA12878 (esta mujer de Utah) como paciente de referencia en el análisis genómico...

No sé la respuesta práctica real, pero por lo que deduzco es inercia.

No tengo un historial completo de ella, pero sé algunas cosas que hacen que su genoma sea una buena opción para un punto de referencia. NA12878 es bastante antigua para los genetistas y su ADN está incluido en múltiples proyectos heredados, específicamente HapMap.

Ella tiene una enfermedad genética ( mutación CYP2D6 ) que es probablemente lo que inicialmente incluyó el análisis genético de ella y su familia. Esta es una mejor razón para estudiar este genoma en detalle en lugar de simplemente ser alguien famoso (es decir, Venter).

Ella es mormona de Utah (pequeña población fundadora con amplia información genealógica), tiene 11 hijos (puede hacer análisis de recombinación/herencia). Lo que esto significa es que una comprensión profunda de su genoma tendrá aplicaciones para esta población.

Su línea celular linfoblastoide GM12878 se incluyó como célula de estudio ENCODE de nivel 1. Esto significa que también hay terabytes de datos epignómicos para ella.

Cuando elijo hacer un análisis del genoma humano, NA12878 es la opción obvia debido a la cantidad de datos que ya están disponibles, lo que también significa que habrá más datos disponibles. Por lo tanto, creo que la respuesta es en gran medida la inercia.

También considérelo de esta manera, si está tratando de decir que su canalización o tecnología de secuenciación es mejor que otras, y todos usan NA12878 para comparar su tecnología, entonces es aconsejable usar también NA12878 para que los resultados puedan ser comparables.