Formato de archivo GEN, SNP y alelos

Tengo algunas preguntas a las que parece que no puedo obtener una respuesta directa, con respecto al .genformato de archivo y también a la biología en general.

El .genformato de archivo especifica SNP para individuos.

Dado que cada SNP tiene un alelo A y un alelo B asociados, asumo que el archivo solo contiene SNP causales y no SNP vinculados, ya que los primeros residen en el gen y los últimos no. Dado que cada SNP en el archivo tiene un gen asociado (en realidad, un genotipo, alguna combinación de alelo A y B). ¿Correcto?

SNP indica una sola posición en el genoma, entonces, ¿por qué se puede identificar el alelo con una secuencia más grande que uno? ¿O indica solo un punto de partida, donde cada alelo puede tener una longitud diferente, que puede ser mayor que 1?

El alelo debería ser una variante particular de un gen específico, pero en otros lugares vi la definición "Los alelos son formas alternativas de una secuencia particular". Lo último parece más lógico, si miramos el .genarchivo, pero es contradictorio con la primera afirmación. Entonces, ¿cuál es la definición correcta?

EDITAR:

Después de más investigaciones, llegué a los resultados, demostrados en una fila de ejemplo para .genel archivo:

--- rs200405949 10023   CCAA    C   0.249   0.745   0.007   0.005   0.84    0.155 ...

---- número de cromosoma, que falta porque se puede inferir del nombre del archivo, perteneciente a cada cromosoma

rs200405949- ID del SNP: un solo nucleótido que puede variar entre muestras/personas; por lo general, solo hay dos variaciones posibles, pero en casos raros hay una tercera o incluso una cuarta, que se ignoran en .gen?

10023- coordenada/posición del par de alelos (par de bases) dentro de dicho cromosoma. Tanto el alelo mayor como el menor están formados por un solo nucleótido (en cuyo caso la posición/coordenada del SNP dentro de dicho cromosoma podría coincidir con esta posición), o uno de los alelos tendrá más de un nucleótido y el otro alelo será el igual que el primer nucleótido del alelo anterior, porque solo necesitamos una secuencia distinta, y todas las demás combinaciones de la misma longitud de nucleótidos son automáticamente el otro alelo?

CCAA- (¿generalmente?) alelo mayor - el alelo más común (específicamente en este contexto, un solo nucleótido o una secuencia de nucleótidos) para un SNP dado (o cerca de él, es decir, de alguna manera conectado a él) EN la cohorte en cuestión, es decir, el la cohorte es todas las muestras/personas en el experimento/ .genarchivo (por lo tanto, el número de muestras es igual al número de columnas triples después de la columna 5 en adelante). Ocurre en más del 50% de las veces EN COMPARACIÓN con el alelo menor. En comparación con el alelo menor, ambos comienzan con C. ¿No deberían diferir en esta posición SNP por definición? Además, aquí se especifica más de un nucleótido, ¿por qué? SNP siempre tiene un nucleótido...

C- (¿generalmente?) alelo menor - el segundo alelo más frecuente (específicamente en este contexto, un solo nucleótido). El sitio SNP puede ser bialélico (principalmente elegido/estudiado), en cuyo caso los alelos mayor y menor son los únicos alelos posibles, pero algunos sitios son trialélicos o cuádruples, en cuyo caso no tenemos la información. para las variantes del tercer (y cuarto) alelo, pero sabemos que son aún menos comunes que los alelos mayor y menor?

0.249 0.745 0.007 0.005 0.84 0.155 ...- cada triplete de valores posterior indica probabilidades de genotipos homocigotos CCAA/CCAA, heterocigotos CCAA/C y homocigotos C/C (pares de alelos) en este SNP, respectivamente, para una muestra/persona (cada alelo está presente en uno de los dos copias de dicho cromosoma, ya sea materno o paterno). Si uno de los tres valores tiene un valor de 1 y los otros dos tienen un valor de 0, supongo que este SNP real se probó (de alguna manera), por lo tanto, podemos estar 100% seguros de qué par de alelos es, y si no, entonces las probabilidades fueron deducida de alguna manera (por ejemplo, de otros SNP relacionados de alguna manera, tal vez). ¿Qué pasa si suman menos de uno? O incluso, ¿qué pasa si los tres valores son 0?

¿Son correctas mis conclusiones? ¿Y la pregunta abierta?

Basado en sciencedaily.com/terms/allele.htm , cada gen puede ser representado por un conjunto de alelos, y los alelos son solo formas alternativas de una secuencia particular de un solo nucleótido; y dado que pueden poseer 2 formas diferentes para el genoma dado (lo que da como resultado 3 combinaciones distintivas), se denominan SNP. Además de los alelos, también hay otros nucleótidos individuales intermedios en el gen, pero estos son los mismos para toda la población de un genoma dado (por ejemplo, humano). ¿Verdadero?

Respuestas (2)

Por lo que pude encontrar, el .genformato de archivo para SNP se desarrolló para el programa IMPUTE2 y generalmente está destinado a ser un formato de archivo flexible para datos SNP. Se supone que la descripción del formato del archivo está documentada aquí (varias páginas que apuntan a ese enlace), lamentablemente ese enlace está roto/el sitio se elimina. Sin embargo, encontré algunas otras descripciones del formato:

En el formato GEN, cada SNP se representa como un conjunto de tres probabilidades que corresponden a los pares de alelos AA,AB,BB.

desde aquí

El genfile contiene valores predictores, una fila por predictor.
--gen-skip indica cuántas filas de encabezado (típicamente 0 o 1);
--gen-headers indica cuántas columnas de encabezado (normalmente de 0 a 5).
--gen-probs debe ser 0, 1, 2, 3 o 4:
0 - haplotipos - los valores predictores deben ser "0 0", "0 1", "1 0" o "1 1"
1 - dosis - los predictores proporcionan el número (esperado) de alelos A
2 - dos probs - proporciona probabilidades de ser AA o AB
3 - tres probs - proporciona probabilidades de ser AA, AB o BB
4 - cuatro probs - proporciona probabilidades de ser AA, AB, BB o NA , donde A y B son los alelos A1 y A2

desde aquí

Como el nadador de aletas ya escribió en su respuesta, es muy importante tener claro qué se considera un alelo en el contexto de los SNP. Para el .genformato de archivo, esta es la identidad de la base en una posición dada (SNP) y dado que los humanos tienen un genoma diploide, el alelo de un individuo específico puede ser una de tres versiones (generalmente llamadas AA, AB y BB).

Con respecto a sus puntos específicos:

Dado que cada SNP tiene un alelo A y un alelo B asociados, asumo que el archivo solo contiene SNP causales y no SNP vinculados, ya que los primeros residen en el gen y los últimos no. Dado que cada SNP en el archivo tiene un gen asociado (en realidad, un genotipo, alguna combinación de alelo A y B). ¿Correcto?

  • Los alelos en el .genarchivo se refieren a los SNP respectivos, no a los genes.
  • No hay razón para suponer que un .genarchivo dado solo contiene ciertos SNP; si lo hace, esto no se debe al formato de los datos.
  • Los SNP en un .genarchivo generalmente no tienen que estar vinculados a un gen.
He agregado un ejemplo, ¿puedes comentarlo y responder el resto de mis preguntas?

La definición de alleledepende del contexto.

Si observa el ADN de una sola persona, generalmente tiene dos copias de cada cromosoma autosómico. Cada copia se llama allele. Si sabe mirar la secuencia en una posición específica, puede decir que una de las dos bases está ubicada en un alelo y la otra base en el otro alelo.

Además de esto, hay una definición de allelesi observa a muchas personas o a una población completa. Aquí llamas allele"como formas alternativas de una secuencia particular".

Pero, ¿cómo se asocia SNP, que indica un solo nucleótido, con un alelo mayor y menor, ya que cualquiera de los dos puede tener una longitud mayor que on? ¿Significa que a partir de la posición específica del SNP, puede ser el comienzo del alelo mayor o menor?