Práctica estándar para generar curvas de rarefacción a partir de datos de secuenciación de próxima generación

Question

Práctica estándar para generar curvas de rarefacción a partir de datos de secuenciación de próxima generación

Biología
microbioma
bioinformática
secuencia ADN
análisis de secuencias

ben s

Tenemos algunos millones de lecturas 18S de un entorno particular. Las lecturas se han agrupado en unidades taxonómicas operativas (OTU) y las OTU se han anotado en una base de datos de referencia.

Para generar una curva de rarefacción, tengo entendido que uno muestra aleatoriamente $n$ lee donde $n$ varía (con cierto tamaño de paso) desde 0 hasta el número total de lecturas, y cuenta el número de OTU observadas en cada submuestreo.

¿Cuál de estas dos formas, implementadas por suites de análisis de secuencias como QIIME y mothur, es una práctica estándar? ¿Cuál sería mejor usar con la situación anterior?

Trate las asignaciones originales de lecturas a OTU como verdaderas, y cuando vuelva a muestrear $n$ lee, solo cuente la cantidad de OTU "originales" observadas en esta submuestra.
Vuelva a agrupar las lecturas submuestreadas y luego cuente el número de OTU "nuevas" en la submuestra.

Mi sensación al leer la documentación de QIIME es que el método 1 es el estándar, pero no estoy seguro. Tampoco entiendo muy bien por qué el método 2 no sería la mejor manera de hacerlo, aunque sería computacionalmente más costoso.

CKM

quizás relacionado biostars.org/p/4147 .. Colwell et al. 2012

eli korvigo

El primero es el estándar. Las curvas de rarefacción (tal como son) solo tienen sentido bajo conjuntos invariantes de OTU. Dado que las distancias de alineación no son métricas (es decir, violan la desigualdad del triángulo), los grupos, definidos por un umbral de identidad, no son áreas geométricamente estables en un espacio de secuencia, por lo tanto, no son invariantes bajo la reagrupación dado un conjunto de secuencias más pequeño/más grande.

ben s

@ Eli, exactamente, pero si el punto es decir "esta es la cantidad de OTU que habríamos identificado si tuviéramos tantas secuencias", ¿no tiene sentido volver a agrupar? ¿O ese no es el punto?

Galeno

Mi experiencia es con 16S, pero puedo decir que en ese contexto la opción 1 es estándar. Puede intentar ejecutar su canalización en datos simulados para poder calcular el error y comparar métodos.

Respuestas (1)

Práctica estándar para generar curvas de rarefacción a partir de datos de secuenciación de próxima generación

quizás relacionado biostars.org/p/4147 .. Colwell et al. 2012
El primero es el estándar. Las curvas de rarefacción (tal como son) solo tienen sentido bajo conjuntos invariantes de OTU. Dado que las distancias de alineación no son métricas (es decir, violan la desigualdad del triángulo), los grupos, definidos por un umbral de identidad, no son áreas geométricamente estables en un espacio de secuencia, por lo tanto, no son invariantes bajo la reagrupación dado un conjunto de secuencias más pequeño/más grande.
@ Eli, exactamente, pero si el punto es decir "esta es la cantidad de OTU que habríamos identificado si tuviéramos tantas secuencias", ¿no tiene sentido volver a agrupar? ¿O ese no es el punto?
Mi experiencia es con 16S, pero puedo decir que en ese contexto la opción 1 es estándar. Puede intentar ejecutar su canalización en datos simulados para poder calcular el error y comparar métodos.

joe healey · Answer 1

De hecho, trabajo en el mismo grupo que Chris (autor de QIIME), así que espero que esto ayude: una explicación que nos dio hace un tiempo sobre la base de las curvas de rarefacción es solo para dar una indicación de si su muestra está alcanzando la diversidad saturada, al comparar 2 muestras desiguales.

Si compara 2 muestras, donde la muestra x tiene menos información (lecturas, amplicones, etc.) que la respaldan, no puede estar seguro de haber muestreado toda la diversidad posible.

Por lo tanto, traza la cantidad de OTU que ve para aumentar la cantidad de lecturas. Si está saturando la diversidad, debería verlo estancarse.

Para alinear las 2 muestras con la "cantidad de datos de respaldo" que tienen, muestrea aleatoriamente los datos del conjunto de datos más grande, de modo que sea equivalente al más pequeño, y luego compara la cantidad de OTU que informa cada uno.

Práctica estándar para generar curvas de rarefacción a partir de datos de secuenciación de próxima generación

ben s

CKM

eli korvigo

ben s

Galeno

Respuestas (1)

joe healey

¿Herramienta para la alineación de nucleótidos con todos los códigos de nucleótidos (por ejemplo, R, Y, W, S, etc.)?

¿Alguna herramienta para alinear los datos de la secuencia del genoma completo con otro genoma y dar a las regiones del exón una calificación más alta?

Diseñe cebadores degenerados arbitrarios (con criterios no vinculantes)

Secuencia de referencia para definir polimorfismos de un solo nucleótido

Tratando de comprender el panorama general detrás de la secuenciación, alineación y búsqueda de ADN

Buscando una base de datos de objetivos de fármacos contra el cáncer para guiar la secuenciación del ADN del tumor del paciente

Validación de marcadores usando transcriptoma y secuencias genómicas derivadas de una sola célula

secuencias quiméricas [cerrado]

Algoritmo de agrupamiento de secuencias recomendado para datos de transcriptomas

¿Cómo interpretar la matriz de identidad porcentual creada por Clustal Omega?