Averiguar si las poblaciones de dos regiones comparten los mismos haplotipos neandertales

Voy a prologar esta publicación porque no estoy seguro de si pertenece aquí, pero teniendo en cuenta que ha sido ignorada en todos los demás lugares que he probado, pensé que valía la pena intentarlo. Soy un estudiante de posgrado que todavía es relativamente nuevo en bioinformática y actualmente está total y completamente perdido.

Estoy estudiando la ascendencia neandertal en poblaciones modernas de dos regiones diferentes del mundo. Estas dos regiones tienen niveles relativamente similares de ascendencia neandertal y no están tan lejos una de la otra. Tengo datos de SNP de una matriz de genotipado de Affymetrix (los datos están en formato Plink) para estas poblaciones, así como para los sitios correspondientes de los genomas de Neanderthal y Denisovan.

Usando los datos de SNP, necesito tratar de averiguar si tienen haplotipos neandertales en las mismas partes de su genoma. Encontré un mapa de supuestos haplotipos introgresados ​​de neandertal de los genomas de Europa y Asia oriental del Proyecto 1000 Genomas ( http://akeylab.gs.washington.edu/Vernot_2014/all_haplotypes_populations.bed.files.tgz ).

Estoy tratando de averiguar dónde los individuos de cada región tienen haplotipos neandertales y cómo difieren entre regiones. ¿Alguien tiene orientación sobre cómo podría proceder?

Respuestas (1)

Lo que estoy diciendo aquí es la forma en que abordaría el problema. Y como tal, esta publicación está destinada a darle alguna dirección. Por favor, no me hagas responsable si no obtienes los resultados esperados.

En primer lugar, no sé cómo funciona el formato Plink, haría bien si es posible convertirlo en un archivo BED/GFF/GTF de alguna manera.

Busqué el formato del archivo y la mayoría de sus columnas son puntajes de importancia. Para empezar, usaría el valor de p y FDR de BH como filtro preliminar y luego usaría el valor de p corregido de Bonferroni.

Enlace wiki a FDR

El enlace wiki también debería darle una idea de por qué digo más adelante pasar a bonferroni.

Interesantes preguntas formuladas en validación cruzada para FDR


  1. Proporciona una idea vaga sobre FDR
  2. Proporciona una relación entre el valor p y FDR : vuelva a leer la respuesta varias veces y la obtendrá.
  3. Echa un vistazo a los libros si quieres entender algo de estadística.

Usando los datos de SNP, necesito tratar de averiguar si tienen haplotipos neandertales en las mismas partes de su genoma. Encontré un mapa de supuestos haplotipos introgresados ​​de neandertales de los genomas europeos y asiáticos del Proyecto 1000 Genomas.

Busqué el archivo, estas son regiones con un intervalo promedio de 73,4 kb en todo el genoma. Entonces, lo que quiere hacer es asignar los SNP "estadísticamente significativos" de su archivo plink a estas regiones.

Si no sabe cómo hacerlo, consulte el navegador del genoma de la UCSC . Un paso a paso detallado sería una respuesta demasiado grande, pero la descripción general es más o menos así;

  1. Elija su genoma de referencia del ensamblaje
  2. Cree dos pistas personalizadas, aquí puede cargar sus datos SNP en formato de cama, que es el más fácil de hacer. Enlace al formato Y agregue el archivo de población de haplotipos existente.cama.
  3. Ir a intersección, para crear una intersección entre estas dos pistas.

Esto le dará una idea de cuáles de sus regiones haplotípicas están presentes en la población.

Por supuesto, no es tan fácil, porque hay que hacer una consideración aquí. ¿Elige decir que la población porta ese haplotipo si un solo SNP está presente en una región que abarca 73 kb? Eso es más que el tamaño promedio de un gen en humanos.

En lo que respecta a los genomas de Neanderthal y Denisovan. Nuevamente, lo señalaría al navegador del genoma de UCSC donde tienen los ensamblajes de Neanderthal y Denisovan y sus variantes correspondientes asignadas al genoma humano (ensamblaje hg19). Puede volver a obtener estos archivos y ver dónde se encuentran las variantes de neandertal/denisovan en el archivo de haplotipo utilizando el mismo enfoque. Finalmente, puede usar estas dos superposiciones para encontrar dónde se mapearon sus variantes y si alguna variante antigua se mapeó en la misma región. También debe tener en cuenta las inserciones y eliminaciones dentro del genoma, por lo que es posible que las variantes no se mapeen en la misma ubicación, pero se mapearán cerca.

ACTUALIZAR


Puede consultar este enlace para recuperar frecuencias de alelos de genomas de 1K, para las variantes superpuestas. Nunca quise decir que usarías los archivos de cama para encontrar frecuencias de alelos. Lo que describí es;

  1. Utilice las regiones de población de haplotipos como plantilla y superponga sus variantes significativas de SNP affy en ellas.
  2. A continuación, debido a que las variantes Neanderthal y Denisovan se asignan en el ensamblaje hg19 o hg18, asigna esas variantes a las mismas regiones
  3. Encuentre las regiones donde un SNP affy y un SNP antiguo se superponen exactamente

Lo que entiendo de tu comentario es que ya has hecho el primer paso. Y desea conocer las frecuencias alélicas de una variante antigua en particular. Debe realizar los pasos 2 y 3 antes de llegar a las frecuencias alélicas.

Luego puede buscar la frecuencia alélica de las variantes que se mapearon exactamente en una posición que tenía una variante antigua en los archivos vcf del genoma de 1K.

puede hacerlo con awk... hay muchos tutoriales de stackoverflow sobre el procesamiento de awk... y también puede buscar awk en Google
Compruebe las actualizaciones