Estoy interesado en una herramienta estadística para obtener el uso de codones bacterianos a nivel genómico. Idealmente, la herramienta debería ser flexible para analizar cientos de genomas bacterianos.
He buscado en la base de datos de términos de MeSH pero estoy un poco perdido cuando busco "Código genético" y Software .
Estoy buscando una salida como esta:
He escrito un guión que te ayudará a empezar. Descarga todas las transcripciones de codificación de proteínas de las especies de interés de Ensembl e imprime el uso de codones para cada codón en cada transcripción.
Deberá instalar el Bio::EnsEMBL::Registry
módulo Perl, consulte aquí para obtener instrucciones. El script también usa el Math::Round
módulo, todo lo demás debe instalarse de forma predeterminada con su distribución de Perl. Finalmente, el script espera ejecutarse desde un sistema operativo Unix/Linux.
ensembl_get_codon_count.pl human > human.csv
Gene Name Gene ID Transcript ID Ala_GCC Ala_GCC_% Ala_GCA Ala_GCA_% Ala_GCG Ala_GCG_% Ala_GCT Ala_GCT_%
CRLF2 ENSG00000205755 ENST00000400841 6 40 6 40 0 0 3 20
En el ejemplo anterior, la transcripción ENST00000400841 del gen CRLF2 humano contiene un total de 15 residuos de alanina, 6 de los cuales están codificados por el codón GCC (40%), 6 por el codón GCA (40%) y 3 por el codón GCT (20%). No se utiliza el codón GCG (0%).
Esta es una versión cortada de la salida, las líneas de salida reales son mucho más largas ya que incluyen todos los codones y habrá una línea por transcripción de codificación de proteína.
Este script debería al menos ayudarlo a comenzar, ya que le proporcionará los datos sin procesar necesarios para realizar sus análisis estadísticos. Si lo usa en trabajos publicados, le agradecería que me lo hiciera saber (mi correo electrónico está incluido en el guión) y tal vez me mencione en los agradecimientos :).
terdón
alan boyd
biotecnología
WYSIWYG
usuario560
terdón
Léo Léopold Hertz 준영