¿Herramienta de composición de aminoácidos del genoma completo?

Estoy interesado en una herramienta estadística para obtener el uso de codones bacterianos a nivel genómico. Idealmente, la herramienta debería ser flexible para analizar cientos de genomas bacterianos.

He buscado en la base de datos de términos de MeSH pero estoy un poco perdido cuando busco "Código genético" y Software .

Estoy buscando una salida como esta:

ingrese la descripción del enlace aquí

Por favor aclara un poco. ¿Qué es el "uso del código genético"? ¿Te refieres al código que usa una especie o estás pensando en sesgos de codones ? ¿Qué estás tratando de hacer con MESH? ¿Cómo se obtiene una composición a nivel de genoma? ¿Te refieres a la proporción de uso de aas en todo el proteoma? Edite su publicación e incluya la pregunta científica real que está tratando de responder.
Solo para ampliar el comentario de @terdon: ¿se refiere a la composición de aminoácidos del proteoma (es decir, teniendo en cuenta la abundancia de proteínas) o simplemente se calcula a partir de la traducción de todos los marcos de lectura abiertos?
En respuesta a los comentarios, edité mi pregunta y agregué mi resultado ideal.
revisa esto _ Puede obtener las tablas para múltiples genomas y luego aplicar sus estadísticas. Puede usar un script para automatizar la descarga
También debe tener en cuenta que dentro de los subconjuntos del genoma, existen diferentes sesgos de codones. Por ejemplo, los genes metabólicos utilizan un sesgo de codón diferente al sesgo de transcripción del genoma completo. Además, el ADN mitocondrial tiene un sesgo de codones diferente del sesgo de codones del ADN genómico.
@Masi, ¿podría aclarar cómo le gustaría que se mejorara la respuesta? ¿Quizás edite la pregunta para definir un cálculo estadístico específico que le gustaría ver?
Más ejemplos prácticos y más comparación con otras herramientas existentes. He visto algunos en diferentes laboratorios y me gustaría tener diferentes puntos de vista de por qué usar algunas herramientas. Este es un tema enorme y no puedo ver que mi respuesta pueda responder a esta pregunta.

Respuestas (1)

He escrito un guión que te ayudará a empezar. Descarga todas las transcripciones de codificación de proteínas de las especies de interés de Ensembl e imprime el uso de codones para cada codón en cada transcripción.

Deberá instalar el Bio::EnsEMBL::Registrymódulo Perl, consulte aquí para obtener instrucciones. El script también usa el Math::Roundmódulo, todo lo demás debe instalarse de forma predeterminada con su distribución de Perl. Finalmente, el script espera ejecutarse desde un sistema operativo Unix/Linux.

Ejemplo de ejecución

 ensembl_get_codon_count.pl human > human.csv

Salida de ejemplo

Gene Name   Gene ID      Transcript ID  Ala_GCC Ala_GCC_% Ala_GCA Ala_GCA_% Ala_GCG Ala_GCG_% Ala_GCT Ala_GCT_%
CRLF2   ENSG00000205755 ENST00000400841    6       40        6      40         0       0         3       20

En el ejemplo anterior, la transcripción ENST00000400841 del gen CRLF2 humano contiene un total de 15 residuos de alanina, 6 de los cuales están codificados por el codón GCC (40%), 6 por el codón GCA (40%) y 3 por el codón GCT (20%). No se utiliza el codón GCG (0%).

Esta es una versión cortada de la salida, las líneas de salida reales son mucho más largas ya que incluyen todos los codones y habrá una línea por transcripción de codificación de proteína.

Este script debería al menos ayudarlo a comenzar, ya que le proporcionará los datos sin procesar necesarios para realizar sus análisis estadísticos. Si lo usa en trabajos publicados, le agradecería que me lo hiciera saber (mi correo electrónico está incluido en el guión) y tal vez me mencione en los agradecimientos :).