¿Cuál es la mejor manera de calcular la diversidad biológica de las muestras de las tablas de OTU bacterianas/virales?

Tengo algunas tablas OTU grandes de conjuntos de datos bacterianos y virales. Las muestras son a través de diferentes sitios y tiempos.

Me gustaría visualizar la 'diversidad' de la comunidad a lo largo de los tiempos para los que tengo datos. Por ejemplo, sería interesante ver si la diversidad de la comunidad alcanza su punto máximo en los meses de verano y cae en los meses de invierno, en un patrón repetitivo. 

No he encontrado muchos consejos o literatura que analicen la diversidad para grandes conjuntos de datos de OTU. Teniendo en cuenta que las OTU son esencialmente arbitrarias y que hay miles de ellas, ¿cuál es la mejor manera de calcular y visualizar la diversidad de cada muestra?

Con el paquete vegano en R, es bastante fácil calcular el índice de diversidad de Shannon/Simpsons para una tabla OTU. ¿Puede simplemente usar esto en una tabla 'en bruto' de OTU?

Creo que no hay mejor manera. Esos índices son diferentes definiciones de diversidad. No creo que haya habido mucha discusión sobre si uno es de mayor interés, por ejemplo, con fines de conservación o lo que sea. ¡Creo que tendrás que elegir uno que te guste! El hecho de que OTU sea un concepto de agrupación bastante arbitrario no cambiará mucho la discusión. Tenga en cuenta que hay muchos otros índices de diversidad (eche un vistazo a esta respuesta para obtener una lista de medidas de diversidad)
Sin embargo, no sé mucho sobre este tema y podría valer la pena echarle un vistazo al libro Medición de la diversidad biológica de Magurran.

Respuestas (2)

Estoy de acuerdo en su mayoría con la respuesta de @ Nathan, y en particular con las referencias que proporcionó.

Como Shannon& Simpsonlos índices pueden ser difíciles de interpretar y pueden no ser intuitivos, prefiero usar Hilldiversidades como lo sugiere Nathan (las referencias de Jost 2006 y 2007 son excelentes para leer sobre esto). El argumento principal es que las diversidades de Hill dan un número efectivo de especies que son comparables entre muestras y siguen el principio de duplicación.

Las diversidades de colinas se basan en una fórmula unificada (consulte este artículo de wikipedia ) con un parámetro, q. Los valores crecientes de qcorresponden a la ponderación creciente de la abundancia de taxones en el cálculo de la diversidad:

  • Dwith q=0no tiene en cuenta la abundancia de taxones, sino solo el número de taxones, orichness
  • Dwith q=1no está definido, pero se aproxima asintóticamente por e^Hdonde Hes la entropía de Shannon. D_q1es el número efectivo de especies con pesos de abundancia.
  • Dcon q=2corresponde al Inverse Simpsoníndice ( 1/D_Simpson). D_q2pesa taxones más abundantes incluso con más fuerza.

Se puede elegir cualquier valor para q(con q=1el límite e^H), y comparar las estimaciones de diversidad para variar qpuede darle una idea de la muestra evenness. El ajuste q=∞da el Berger-Parker index(la fracción de individuos en la muestra que pertenecen a las especies más abundantes).

Es importante destacar que, para los análisis de alfa div en OTU (basadas en 16S/18S), siempre generaría curvas de rarefacción primero y luego generaría estimaciones de diversidad en un número común y enrarecido de lecturas por muestra.

Puede hacer la mayor parte de esto usando el paquete veganR. El phyloseqpaquete proporciona varias estimaciones de división alfa en un solo comando, pero ninguna diversidad de Hill. He escrito algunas funciones simples para realizar la rarefacción y calcular las diversidades de colinas (rarificadas o no) a partir de una matriz de tabla de recuento de OTU:

function.rarefaction.R

función.alfa_diversidad.R

El veganpaquete es adecuado para sus necesidades, pero es posible que necesite usar otros o codificar sus propias funciones.

Debido a los sesgos de secuenciación, no debe confiar en los recuentos "sin procesar" de sus OTU (a menos que tenga una buena razón para hacerlo; no estoy seguro de cómo se obtuvieron sus OTU). Más bien, puede considerar relativizar su matriz de sitio por especie. Puedes hacerlo usando la decostand()función.

Luego, puede usar las diversity()funciones para analizar la diversidad; pero también puede considerar buscar otros enfoques para evaluar la diversidad local, como enfoques basados ​​en muestras y rarefacción, equivalentes de especies y números de Hill ( Hill 1973 , Gotelli y Colwell 2001 , Jost 2006 , 2007 ). Los libros de Magurran y McGill (2011) y Legendre y Legendre (2012) son de gran ayuda.