Tenemos algunos millones de lecturas 18S de un entorno particular. Las lecturas se han agrupado en unidades taxonómicas operativas (OTU) y las OTU se han anotado en una base de datos de referencia.
Para generar una curva de rarefacción, tengo entendido que uno muestra aleatoriamente lee donde varía (con cierto tamaño de paso) desde 0 hasta el número total de lecturas, y cuenta el número de OTU observadas en cada submuestreo.
¿Cuál de estas dos formas, implementadas por suites de análisis de secuencias como QIIME y mothur, es una práctica estándar? ¿Cuál sería mejor usar con la situación anterior?
Trate las asignaciones originales de lecturas a OTU como verdaderas, y cuando vuelva a muestrear lee, solo cuente la cantidad de OTU "originales" observadas en esta submuestra.
Vuelva a agrupar las lecturas submuestreadas y luego cuente el número de OTU "nuevas" en la submuestra.
Mi sensación al leer la documentación de QIIME es que el método 1 es el estándar, pero no estoy seguro. Tampoco entiendo muy bien por qué el método 2 no sería la mejor manera de hacerlo, aunque sería computacionalmente más costoso.
De hecho, trabajo en el mismo grupo que Chris (autor de QIIME), así que espero que esto ayude: una explicación que nos dio hace un tiempo sobre la base de las curvas de rarefacción es solo para dar una indicación de si su muestra está alcanzando la diversidad saturada, al comparar 2 muestras desiguales.
Si compara 2 muestras, donde la muestra x tiene menos información (lecturas, amplicones, etc.) que la respaldan, no puede estar seguro de haber muestreado toda la diversidad posible.
Por lo tanto, traza la cantidad de OTU que ve para aumentar la cantidad de lecturas. Si está saturando la diversidad, debería verlo estancarse.
Para alinear las 2 muestras con la "cantidad de datos de respaldo" que tienen, muestrea aleatoriamente los datos del conjunto de datos más grande, de modo que sea equivalente al más pequeño, y luego compara la cantidad de OTU que informa cada uno.
CKM
eli korvigo
ben s
Galeno