¿Cómo se determinan las diversas clases de genes de E coli?

Mirando algunas tablas de uso de codones más detalladas , los genes pueden agruparse en tres clases de genes: genes metabólicos, genes altamente expresados ​​durante el crecimiento exponencial y transferencia horizontal de genes. Al observar el artículo original de Medique et al., agruparon los genes según el CAI y luego, mediante una variante de k-means, determinaron 3 clases. Tenga en cuenta que esto es diferente de un gen de clase II que está determinado por los tipos de ARN polimerasa utilizados.

¿Cómo terminaron determinando cuáles son las tres clases? Parece como si hicieran esta generalización sin ningún dato del proteoma. ¿Se clasificarían los mismos genes utilizando datos de expresión de proteínas durante el crecimiento exponencial y el crecimiento estacionario?

Respuestas (1)

Leí el periódico. El autor comienza afirmando que, en el momento de escribir este artículo, se conocían (o al menos supuestamente) dos clases diferentes de perfiles de uso de codones. Las 782 secuencias únicas de CDS utilizadas se sometieron a un método de clasificación de dos pasos. En el paso uno, cada CDS se dividió en un vector de 61 dimensiones que representa cada uno de los 61 codones posibles. Se ejecutó un análisis de conglomerados factorial (el equivalente categórico y multivariado del análisis de componentes principales) en estos vectores, condensando 61 dimensiones en 2 dimensiones. Ahora que la complejidad de los datos se ha reducido a 2D, es más manejable para un algoritmo k-means dividir los datos. Al final, los genes se agruparon en 3 grupos ortogonales (clases I, II y III, con 502, 191 y 89 CDS, respectivamente).

Solo después de que los autores agruparon el conjunto de genes pudieron volver atrás y observar las definiciones canónicas de cada gen. Dio la casualidad de que cada clase de genes tenía un fuerte sesgo por subconjuntos de funciones celulares (p. ej., metabolismo, biosíntesis de proteínas, transporte). No utilizaron datos del proteoma, pero pudieron definir el papel de una gran cantidad de estos genes en función de la literatura existente en ese momento.

Gracias por el análisis. Tengo curiosidad por saber cómo este conjunto de datos coincide con la base de datos de genes altamente expresados ​​que utiliza genes validados. genomas.urv.cat/HEG-DB
Estaba pensando en cómo se compararía esto con lo que está depositado en la base de datos del NCBI a partir de hoy. Este documento es de 1991, por lo que creo que es anterior a muchas de estas bases de datos a gran escala. Sería interesante ver cómo se compara con la base de datos HEG que indicó.