Práctica estándar para generar curvas de rarefacción a partir de datos de secuenciación de próxima generación

Tenemos algunos millones de lecturas 18S de un entorno particular. Las lecturas se han agrupado en unidades taxonómicas operativas (OTU) y las OTU se han anotado en una base de datos de referencia.

Para generar una curva de rarefacción, tengo entendido que uno muestra aleatoriamente norte lee donde norte varía (con cierto tamaño de paso) desde 0 hasta el número total de lecturas, y cuenta el número de OTU observadas en cada submuestreo.

¿Cuál de estas dos formas, implementadas por suites de análisis de secuencias como QIIME y mothur, es una práctica estándar? ¿Cuál sería mejor usar con la situación anterior?

  1. Trate las asignaciones originales de lecturas a OTU como verdaderas, y cuando vuelva a muestrear norte lee, solo cuente la cantidad de OTU "originales" observadas en esta submuestra.

  2. Vuelva a agrupar las lecturas submuestreadas y luego cuente el número de OTU "nuevas" en la submuestra.

Mi sensación al leer la documentación de QIIME es que el método 1 es el estándar, pero no estoy seguro. Tampoco entiendo muy bien por qué el método 2 no sería la mejor manera de hacerlo, aunque sería computacionalmente más costoso.

El primero es el estándar. Las curvas de rarefacción (tal como son) solo tienen sentido bajo conjuntos invariantes de OTU. Dado que las distancias de alineación no son métricas (es decir, violan la desigualdad del triángulo), los grupos, definidos por un umbral de identidad, no son áreas geométricamente estables en un espacio de secuencia, por lo tanto, no son invariantes bajo la reagrupación dado un conjunto de secuencias más pequeño/más grande.
@ Eli, exactamente, pero si el punto es decir "esta es la cantidad de OTU que habríamos identificado si tuviéramos tantas secuencias", ¿no tiene sentido volver a agrupar? ¿O ese no es el punto?
Mi experiencia es con 16S, pero puedo decir que en ese contexto la opción 1 es estándar. Puede intentar ejecutar su canalización en datos simulados para poder calcular el error y comparar métodos.

Respuestas (1)

De hecho, trabajo en el mismo grupo que Chris (autor de QIIME), así que espero que esto ayude: una explicación que nos dio hace un tiempo sobre la base de las curvas de rarefacción es solo para dar una indicación de si su muestra está alcanzando la diversidad saturada, al comparar 2 muestras desiguales.

Si compara 2 muestras, donde la muestra x tiene menos información (lecturas, amplicones, etc.) que la respaldan, no puede estar seguro de haber muestreado toda la diversidad posible.

Por lo tanto, traza la cantidad de OTU que ve para aumentar la cantidad de lecturas. Si está saturando la diversidad, debería verlo estancarse.

Para alinear las 2 muestras con la "cantidad de datos de respaldo" que tienen, muestrea aleatoriamente los datos del conjunto de datos más grande, de modo que sea equivalente al más pequeño, y luego compara la cantidad de OTU que informa cada uno.