Cómo predecir cuántos datos recopilar

La misma pregunta en CrossValidated

Disculpen si estoy siendo un poco vago en lo que sigue, me han pedido que mantenga ciertos aspectos del experimento confidenciales por el momento.

Un experimento análogo sería como tratar de 'ver' el flujo y reflujo de la marea (período de 0,5 días) ubicando un detector de fotones en el fondo del océano (aunque, por supuesto, esto no funcionaría y es una tontería, pero el principio es al menos bastante similar). Espero que lo aclare un poco, avíseme si no.

Actualmente estoy en las etapas de planificación de este experimento que espero detecte una variación de señal del 0,155% (magnitud relativa) dentro de un marco de tiempo razonable (menos de 6 meses idealmente). He calculado la tasa de datos (utilizables) será alrededor de 68 eventos por día, aunque debe enfatizarse que esta es una variable aleatoria. Ahora estoy tratando de calcular: ¿cuántos días necesitaré ejecutar el detector para ver la variación con un nivel de confianza de 3σ?

Algunos otros detalles que pueden (o no) ser relevantes incluyen: se espera que la variación en la señal sea sinusoidal con un período de 0,5 días. Por esta razón, reduje mi tasa de eventos útiles a 34 (es decir, la mitad) ya que claramente no hay variación para ver cuándo la señal sinusoidal está en el valor medio o cerca de él.

He estado buscando en Google un método para predecir el tamaño de un conjunto de datos necesario para ver una variación de señal tan pequeña, pero no he encontrado nada. Estaría extremadamente agradecido por cualquier sugerencia / consejo que alguien pueda ofrecer.

¿Conoce la fase de la variación sinusoidal (es decir, luego ocurren los máximos y mínimos?) ¿Planea buscar la señal ajustando una función seno con una fase conocida pero una amplitud desconocida? ¿Se espera que sus eventos sean distribuidos por Poisson? En cualquier caso, si desea algo más que una estimación de un factor de unos pocos, es posible que deba simular sus datos y ejecutarlos a través del algoritmo de análisis que planea usar.
Tengo dos consejos. Primero: Pregúntale a matemático, especialmente enfocado en estadística, porque tu tarea es la aproximación de alguna función. El segundo consejo es quizás del siglo XIX, pero si nada más funciona, puede calcular diariamente las variaciones y otros parámetros estadísticos y decidir cuándo detenerse.
Primero hablas de medir una señal, luego de contar eventos. ¿Cuál es? Además, puede obtener mejores respuestas en crossvalidated.SE.
Esta es una buena pregunta, pero definitivamente pertenece a stats.SE
@Ted Bunn: Sí, en teoría me sería posible hacer coincidir los datos recopilados (eventos de detección con marca de tiempo) con una fase conocida. En la práctica, esto puede ser un poco más difícil ya que la fase no es del todo constante y necesitaría ajustes regulares. Desafortunadamente, el detector se colocará en un sitio algo difícil de alcanzar, por lo que los aspectos prácticos de acceder a él con regularidad pueden impedirme hacerlo. Con respecto a si los eventos están distribuidos por Poisson, no estoy demasiado familiarizado con la ciencia/estadística de los vehículos recreativos, pero después de buscarlo, tengo la sensación de que la tasa de eventos aquí probablemente lo sea.

Respuestas (2)

No creo que haya forma de que hagas esto en seis meses.

Daré un cálculo a continuación, pero primero una estimación del orden de magnitud. Si ha detectado un total de norte mi v mi norte t s eventos, su medida de una modulación tendrá un error de orden norte mi v mi norte t s 1 / 2 -- -- estas cosas siempre lo hacen! -- entonces la cantidad de eventos requeridos será como 1 / F 2 dónde F es el nivel de modulación que estás buscando. En tu caso, F = 0.00155 , correspondiente a unos 400.000 eventos, lo que llevará décadas a la tasa de eventos dada.

Ahora para los detalles.

Dejar norte mi v mi norte t s Sea el número total de eventos en su conjunto de datos. Suponga que agrupa sus datos en norte contenedores por hora del día. Está asumiendo que la señal es de la forma

s j = A + B porque ( t j ) ,
dónde t j es la hora del día correspondiente a la j th bin, y las horas del día se miden desde el momento en que la señal está en su punto máximo. (Si no sabe cuándo es eso y está planeando adaptarse a él, eso cambiará las cosas). Aquí A es el número promedio de ventilaciones, entonces
A = norte mi v mi norte t s / norte ,
y
B = F A = F norte mi v mi norte t s norte ,
dónde F = 0.00155 es la modulación.

Suponiendo además que sus datos se distribuyen por igual en todas las horas del día, los errores en s j serán todos aproximadamente iguales (porque F es pequeño). En este caso, el mejor estimador de B es

B ^ = 2 norte j s j porque ( t j ) .
Queremos encontrar la varianza σ B 2 de este estimador. El individuo s j son todos independientes y tienen varianzas casi iguales σ 2 , entonces
σ B 2 = 4 σ 2 norte 2 j porque 2 ( t j ) .
Asumiendo que norte es lo suficientemente grande como para que esa suma se pueda aproximar mediante una integral, la suma resulta ser norte / 2 , entonces
σ B 2 = 2 norte σ 2 .
Para eventos distribuidos de Poisson, la varianza es igual al valor esperado: σ 2 = A = norte mi v mi norte t s / norte . Por lo tanto,
σ B 2 = 2 norte mi v mi norte t s norte 2 .
La incertidumbre fraccionaria es
σ B B = 2 norte mi v mi norte t s norte norte F norte mi v mi norte t s = 2 F 2 norte mi v mi norte t s .
Para una detección de 3 sigma, desea que sea igual a 1/3, por lo que
norte mi v mi norte t s = 18 F 2 = 2.5 × 10 6 .
(Mi suposición inicial estaba equivocada por un factor de 18 -- 3 2 debido al 3 sigma, y ​​2 debido al punto que anotó sobre los datos cerca de los ceros de la modulación que no ayudan). Con 68 eventos por día, esto equivale a unos 300 años. Lo siento.

Estaba asimilando los detalles de lo que escribiste y tengo un par de preguntas rápidas, espero que no te importe. 1/ En la estimación del orden de magnitud, ¿estás diciendo que uno puede tomar norte mi v mi norte t s 1 / 2 = F y resolver para norte mi v mi norte t s ? Puedo replicar su predicción de "décadas" de esta manera pero, donde dijo "su medición de una modulación tendrá un error de orden norte mi v mi norte t s 1 / 2 "¿No debería haber tenido un poder positivo? 2/ ¿Cuál fue la motivación para elegir B ^ ? Me temo que no puedo entender de dónde viene este bit...
Lo que va como norte mi v mi norte t s 1 / 2 es el error en la medida de F . A medida que tiene más y más eventos, el error se vuelve cada vez más pequeño, pero solo como la raíz cuadrada. Para obtener una detección en un cierto número de sigma, necesita que ese error sea un múltiplo dado de F (p. ej., 1/3 para una medida de 3 sigma). Entonces la relación de orden de magnitud es F norte mi v mi norte t s 1 / 2 .
La fórmula que di para B ^ es el mejor estimador posible. Eso significa dos cosas: primero, es imparcial : en muchas repeticiones del experimento, el promedio de B ^ sería igual al valor real. En segundo lugar, tiene una varianza mínima , es decir, el error más pequeño posible. ¿Cómo supe que este era el estimador de varianza mínima? Para ser honesto, solo experiencia. Cuando busca una cantidad que varía sinusoidalmente, lo mejor que puede hacer es multiplicar sus datos por la misma función sinusoidal e integrar (o sumar para datos discretos). (Más en el siguiente comentario).
El 2 / norte en la fórmula para B ^ proviene del hecho de que el término "típico" en esta suma contiene una contribución que promedia B / 2 . Así que cuando sumas todo norte términos, obtienes ( norte / 2 ) B de media. La razón por la que el término típico en la suma promedia B / 2 es porque cada término en la suma obtiene una contribución B porque 2 t j (un factor de cos viene de la multiplicación original y uno viene del término coseno "extra" en la definición de B ^ ). Durante un ciclo completo, porque 2 promedia a 1 / 2 .

Cálculo de la parte posterior del sobre. (Estoy apurado, espero haberlo entendido bien).

Las preguntas de probabilidad como esta se hacen mejor usando probabilidades, así que primero convierta su estimación en una probabilidad. pag :
Su variación de señal es 0.00155 entonces:

1 2 pag = 0.00155
Entonces pag = 0.499225 y 1 pag = 0.500775 . La desviación estándar es
σ = pag ( 1 pag ) / norte 1 / ( 2 norte ) .

Quiere que la desviación estándar sea 1/3 de la diferencia entre 0.5 y pag entonces resolvemos para N:

( 0.500775 0.5 ) / 3 = 1 / ( 2 norte )

Llegar norte = 7.5 × 10 6 .

Con 68 eventos por día (en realidad será menos debido a la onda sinusoidal), esto equivale a 21 mil días.