¿Cuál es una medida apropiada de determinación en los estudios genéticos?
Solía pensar eso era tal medida, pero ya no estoy tan seguro. En concreto, parece que infravalora la baja determinación y sobrevalora la alta determinación.
La razón de mi duda en proviene de la siguiente simulación.
Para simplificar, supongamos que una característica como la altura (peso, cociente de inteligencia, cociente de autismo, etc.) de un individuo se hereda de una madre y un padre de la siguiente manera:
(fathersHeight * fathersInfluence + mothersHeight * (1 - fathersInfluence))/2
,
donde fathersInfluence
es una constante entre 0 y 1.
Para dar un ejemplo específico, si la madre mide 170 cm y el padre mide 190 cm , y fathersInfluence
mide 0,5, entonces sabemos que su hijo medirá exactamente 180 cm .
Supongamos además que solo podemos medir la característica de cualquier padre y cualquier hijo. No podemos medir la característica de cualquier madre.
Digamos que vamos a tratar de predecir la altura del hijo a partir de la altura del padre usando una regresión lineal buena y antigua, y reportar cuánto de la altura del hijo se determina a partir de la altura del padre. Esto se puede hacer con bastante facilidad en python
_, _, r_value, _, _ = scipy.stats.linregress(fathers, sons)
Toda la simulación se puede envolver en la siguiente función de Python:
def sonsHeight(sampleSize, fathersInfluence=0.5):
# loc = mean
# scale = standard deviation
fathers = scipy.stats.norm.rvs(loc=170, scale=10, size=sampleSize)
mothers = scipy.stats.norm.rvs(loc=170, scale=10, size=sampleSize)
def weightedAvg(fathersHeight, mothersHeight):
return (fathersHeight * fathersInfluence + mothersHeight * (1 - fathersInfluence))/2
sons = [weightedAvg(father, mother) for father, mother in zip(fathers, mothers)]
_, _, r_value, _, _ = scipy.stats.linregress(fathers, sons)
return r_value ** 2
Si tomamos, fathersInfluence = 0.5
esperaría que cualquier medida de determinación exitosa informara que la altura del padre determina la altura del hijo en un 50%.
pasa esta verificación, ejecutar la simulación con 1 millón de hijos y padres da:
>>> size = 1000000
>>> print(sonsHeight(size, fathersInfluence=0.5))
>>> 0.500071151111
lo que parece tranquilizador. Sin embargo, los valores de
para fathersInfluence
cualquier diferente de 0,5, parece converger en probabilidad a valores inesperados. De hecho, ejecutando el experimento 101 veces, para valores de fathersInfluence
0 a 1 en pasos de 0,01, obtenemos la siguiente curva agradable, que tranquilizadoramente pasa cerca de
y
, ¡pero sorprendentemente no es una línea recta!
Sin embargo, se vuelve más perturbador cuando valores particulares de
se miran, especialmente para fathersInfluence
cerca de 0 o cerca de 1 (todos
provienen de tomar una muestra de 1 millón).
En particular, para valores pequeños de fathersInfluence
, digamos
, ,
los valores de mirar de cerca
, , .
Incluso para fathersInfluence
de
El valor de
está apenas por encima
!
fathersInfluence, R^2
0.01, 7.3243188318051775e-05
0.02, 0.00042435668897930067
0.03, 0.00097257546851807486
..., ...
0.1, 0.012287962714812851
..., ...
0.97, 0.99904501126494283
0.98, 0.9995837493389228
0.99, 0.99989808360606525
fathersInfluence
me daría una buena línea recta que pasa a través de
,
y
?Me doy cuenta de que el modelo presentado de cómo funciona la genética es probablemente demasiado simplista y tal vez no sea útil como se indica. Sin embargo, creo que se parece a un buen modelo para la genética en varios aspectos:
Se puede acceder a todo el código utilizado para ejecutar esta simulación en github .
altura de los padres * influencia de los padres + altura de las madres * (1 - influencia de los padres))/2
es un modelo terrible para la genética. Dice que las contribuciones genéticas de los dos padres están exactamente anticorreladas. De hecho, son esencialmente independientes. Creo que lo que estás buscando es la noción de heredabilidad .
Adam Kurkiewicz
fathersInfluence
es un número real en el intervalocharles e. subvención
Adam Kurkiewicz
mothersHeight
está destinado a ser prácticamente cualquier cosa que no podamos medir (factores ambientales y otros factores fuera de nuestro estudio).fathersHeight
es lo que podemos medir (nivel de expresión de un gen en particular).fathersHeight
obviamente va a tener una influencia muy pequeña en el resultado total de la característica (¡la mayoría de los genes la tienen al final!), en el rango de 1-2%. El punto que estoy planteando es que R^2 subestimará esta influencia por un factor de ~ 100 para la influencia del 1 %.Adam Kurkiewicz